JP3985525B2 - Voice recognition device - Google Patents
Voice recognition device Download PDFInfo
- Publication number
- JP3985525B2 JP3985525B2 JP2002003787A JP2002003787A JP3985525B2 JP 3985525 B2 JP3985525 B2 JP 3985525B2 JP 2002003787 A JP2002003787 A JP 2002003787A JP 2002003787 A JP2002003787 A JP 2002003787A JP 3985525 B2 JP3985525 B2 JP 3985525B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- wheel
- candidate
- speech
- operator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Navigation (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、入力された音声を認識して、入力された実際の音声に対する認識候補を表示する音声認識装置に関する。
【0002】
【従来の技術】
従来の音声認識装置として、特開平11−352991号公報に開示されたものがある。この音声認識装置では、単音節ごとに区切って発声された音声を認識して認識候補を表示し、表示した認識候補が音声入力者によって確定されるまで、順次認識候補を表示していくものである。
【0003】
【発明が解決しようとする課題】
しかしながら、従来の音声認識装置では、所望の認識候補が得られない場合、次の認識候補を順次表示させていくが、例えば音声入力時に大きいレベルの騒音が混入した時には、入力音声の誤認識により、認識候補を順次表示させていっても所望の認識候補が表示されないことがある。従って、正しい認識候補の有無が分からないまま、認識候補の選択操作を行わなければならなかった。
【0004】
本発明の目的は、操作装置を用いて認識候補の選択を行う際に、認識候補の中に誤認識されやすい認識候補が存在するときは、操作装置を操作する時の操作感を変えることにより、正しい可能性が高い認識候補の有無を操作者に伝えることができる音声認識装置を提供することにある。
【0005】
【課題を解決するための手段】
一実施の形態を示す図1を参照して本発明を説明する。
(1)請求項1の発明は、音声を入力する音声入力装置と、入力される音声に対する認識対象語を複数記憶し、認識対象語のうち誤認識されやすい認識対象語同士を対応付けて記憶する記憶装置と、音声入力装置に入力された音声と、記憶装置に記憶されている認識対象語とが一致する度合いを示す一致度を演算するとともに、一致度の高い順に並べた認識対象語を上位から認識候補とする制御装置と、少なくとも認識候補の中から所望の認識候補を選択する操作を操作者が行うことができる操作装置と、認識候補の中に、記憶装置に記憶されている誤認識されやすい認識対象語同士が含まれているときに、操作装置を操作するときの操作感を変更する操作感変更装置とを備えることにより上記目的を達成する。
(2)請求項2の発明は、請求項1の音声認識装置において、操作感変更装置は、記憶装置に記憶されている誤認識されやすい認識対象語同士のいずれか一方が認識候補として選択されるまでは、操作者が操作装置を用いて認識候補の選択操作を行う負荷を小さくすることを特徴とする。
(3)請求項3の発明は、請求項2の音声認識装置において、操作装置はホイールを備えた回転式入力装置であって、操作者がホイールを回転させることにより選択操作を行うことができるものであり、操作感変更装置は、次の認識候補の選択の際に、ホイールの回転操作をアシストする力と妨げる力とを交互に発生させるものであり、記憶装置に記憶されている誤認識されやすい認識対象語同士のいずれか一方が認識候補として選択されるまでは、ホイールの回転操作を妨げる力を小さくすることを特徴とする。
(4)請求項4の発明は、請求項2の音声認識装置において、操作装置はホイールを備えた回転式入力装置であって、操作者がホイールを回転させることにより選択操作を行うことができるものであり、操作感変更装置は、記憶装置に記憶されている誤認識されやすい認識対象語同士のいずれか一方が認識候補として選択されるまでは、次の認識候補を選択するために必要なホイールの回転操作量を減少させることを特徴とする。
(5)請求項5の発明は、請求項1の音声認識装置において、操作感変更装置は、記憶装置に記憶されている誤認識されやすい認識対象語同士のうち、操作者が一致度の低い方の認識対象語を認識候補としてを選択する際の操作感を変更することを特徴とする。
(6)請求項6の発明は、請求項5の音声認識装置において、操作装置はホイールを備えた回転式入力装置であって、操作者がホイールを回転させることにより選択操作を行うことができるものであり、操作感変更装置は、次の認識候補の選択の際に、ホイールの回転操作をアシストする力と妨げる力とを交互に発生させるものであり、記憶装置に記憶されている誤認識されやすい認識対象語同士のうち、一致度が低い方の認識対象語が認識候補として選択される際に発生させるホイールの回転操作をアシストする力と妨げる力とを大きくすることを特徴とする。
(7)請求項7の発明は、請求項5の音声認識装置において、操作装置はホイールを備えた回転式入力装置であって、操作者がホイールを回転させることにより選択操作を行うことができるものであり、操作感変更装置は、記憶装置に記憶されている誤認識されやすい認識対象語同士のうち、一致度が低い方の認識対象語が認識候補として選択された状態から、次の認識候補を選択するために必要なホイールの回転操作量を増大させることを特徴とする。
(8)請求項8の発明は、請求項1〜7のいずれかの音声認識装置において、制御装置は、一致度の高い順に並べられた認識候補の中に、記憶装置に記憶されている誤認識されやすい認識対象語同士のいずれか一方の認識対象語が存在する場合に、一致度の高い順に並べられた認識候補の中に存在する誤認識されやすい認識対象語と対応付けて記憶装置に記憶されている認識対象語を誤認識されやすい認識対象語である認識候補の次に並べ替えることを特徴とする。
(9)請求項9の発明は、請求項8の音声認識装置において、操作感変更装置は、制御装置によって並べ替えられた誤認識されやすい認識対象語が選択された状態から次の認識候補が選択される際の操作感を変更することを特徴とする。
【0006】
なお、上記課題を解決するための手段の項では、本発明をわかりやすく説明するために実施の形態の図1と対応づけたが、これにより本発明が実施の形態に限定されるものではない。
【0007】
【発明の効果】
本発明によれば、次のような効果を奏する。
(1)請求項1〜9の発明によれば、 抽出された認識候補の中に誤認識されやすい認識候補が含まれているときに、操作装置を操作するときの操作感を変更するので、操作者は、操作装置の操作感により、正しい可能性の高い認識候補の有無を前もって知ることができる。
(2)請求項2の発明によれば、対応付けられた誤認識されやすい認識候補同士が選択されるまでは、操作装置を用いて認識候補の選択操作を行う負荷を小さくするので、認識候補の選択操作を容易に行うことができる。
(3)請求項3の発明によれば、操作装置はホイールを備えた回転式入力装置であり、操作感変更装置は、ホイールの回転操作をアシストする力と妨げる力とを交互に発生させるものであり、対応付けられた誤認識されやすい認識候補同士が選択されるまでは、ホイールの回転操作を妨げる力を小さくするので、正しい可能性の高い認識候補があることをホイールの回転操作に要する力が小さくなることにより確実に知ることができ、かつ、認識候補の選択操作を容易に行うことができる。
(4)請求項4の発明によれば、操作装置はホイールを備えた回転式入力装置であり、対応付けられた誤認識されやすい認識候補同士が選択されるまでは、次の認識候補を選択するために必要なホイールの回転操作量を減少させるので、正しい可能性の高い認識候補があることをホイールの回転操作量が減少することにより確実に知ることができ、かつ、認識候補の選択操作を容易に行うことができる。
(5)請求項5の発明によれば、操作者が対応付けられた誤認識されやすい認識候補同士のうち、一致度の低い方の認識候補を選択する際の操作感を変更するので、操作者は、操作装置の操作感により、正しい可能性の高い認識候補の選択を行うことができる。
(6)請求項6の発明によれば、操作装置はホイールを備えた回転式入力装置であり、操作感変更装置は、ホイールの回転操作をアシストする力と妨げる力とを交互に発生させるものであり、対応付けられた誤認識されやすい認識候補同士のうち、一致度が低い方の認識候補が選択される際に発生させるホイールの回転操作をアシストする力と妨げる力とを大きくするので、操作者は、操作装置の操作感により、正しい可能性の高い認識候補の選択を行うことができる。また、操作者が適当にホイールを回転させた時でも、ホイールの回転を妨げる力が大きいので、正しい可能性が高い認識候補の位置で回転が停止する可能性が高くなり、認識候補の選択操作を容易に行うことができる。
(7)請求項7の発明によれば、操作装置はホイールを備えた回転式入力装置であり、対応付けられた誤認識されやすい認識候補同士のうち、一致度が低い方の認識候補を選択した状態から、次の認識候補を選択するために必要なホイールの回転操作量を増大させるので、操作者は、ホイールの回転操作量に基づいて、正しい可能性の高い認識候補の選択を行うことができる。
(8)請求項8の発明によれば、抽出された認識候補の中に誤認識されやすい認識候補が存在する場合に、誤認識されやすい認識候補と対応付けられている認識対象語を誤認識されやすい認識候補の次に並べ変えるので、誤認識されやすい認識対象語の選択を容易に行うことができる。
(9)請求項9の発明によれば、並べ替えられた誤認識されやすい認識対象語が選択された状態から次の認識候補が選択される際の操作感を変更するので、以後の認識候補が一致度の高い順に並んでいることを、操作者に認知させることができる。
【0008】
【発明の実施の形態】
(第1の実施の形態)
図1は、本発明による音声認識装置の第1の実施の形態の構成を示す図である。第1の実施の形態における音声認識装置は、マイク101と、スピーカ102と、信号処理ユニット103と、入力装置104と、ディスプレイ105とを備える。信号処理ユニット103は、A/Dコンバータ1031と、D/Aコンバータ1032と、出力アンプ1033と、信号処理装置1034と、外部記憶装置1035とを有する。
【0009】
マイク101を介して入力された音声は、音声信号として信号処理ユニット103のA/Dコンバータ1031に入力される。A/Dコンバータ1031は、入力された音声信号をデジタル信号に変換して、信号処理装置1034に出力する。信号処理装置1034は、CPU1034aとメモリ1034bとを有し、外部記憶装置1035に記憶されている認識対象語のデジタル信号と、入力された音声のデジタル信号との一致度を演算する。外部記憶装置1035には、認識対象語が複数記憶されている。この認識対象語のうち、誤認識されやすい認識対象語同士は対応付けて記憶されている。
【0010】
D/Aコンバータ1032は、スピーカ102から音声等を出力するために、認識対象語のデジタル信号をアナログ信号に変換して、出力アンプ1033に出力する。D/Aコンバータ1032から出力アンプ1033に入力されたアナログ信号は増幅されて、スピーカ102を介して音声として出力される。
【0011】
ディスプレイ105は、入力された音声の認識候補等を表示するためのものである。入力装置104は、ホイール104aと複数個のスイッチ104bとを有し、操作者の音声認識開始要求入力、入力の取り消し、認識候補選択操作等を検出して信号処理装置1034に出力する。ホイール104aは、図1の矢印Aの方向への押し込み操作と、矢印Bの方向への回転操作とが可能である。矢印Bの方向への回転操作は、ディスプレイ105に表示された認識候補の選択操作時に行われ、矢印Aの方向への押し込み操作は、矢印B方向への回転操作により選択された認識候補を確定する操作時に行われる。
【0012】
図2は、入力装置104の構成を示す詳細図である。入力装置104は、上述したホイール104aとスイッチ104bの他に、ホイール駆動モータ104cとホイール制御CPU104dとホイール位置センサ104eと通信デバイス104fとを備える。ホイール駆動モータ104cは、ホイール104aの矢印Bの回転方向にトルクを発生することができる。操作者が回転操作する方向にトルクを発生させると、操作者がホイール104aを回転するのを助け、操作者が回転操作する方向と逆の方向にトルクを発生させると、操作者がホイール104aを回転するのを妨げることになる。このトルクの発生により、操作者はホイール104aの回転操作が軽くなる感覚や重くなる感覚を感じる。すなわち、ホイール駆動モータ104cは、操作者のホイール104aの操作感を変更させることができる。
【0013】
ホイール位置センサ104eは、ホイール104aの回転角および矢印A方向の押し込み操作を検出する。ホイール位置センサ104eにより検出された信号は、ホイール制御CPU104dに送られる。ホイール制御CPU104dは、ホイール位置センサ104eから入力された信号をデジタル化してホイール位置情報に変換するとともに、信号処理装置1034から入力される情報、すなわち後述する発生トルクパターン情報とホイール位置情報とに基づいて、ホイール駆動モータ104cに発生させるトルク量を計算する。ホイール制御CPU104dは、計算した発生トルク量に基づいたトルク制御信号をホイール駆動モータ104cに出力する。ホイール駆動モータ104cは、この制御信号に基づいて駆動し、ホイール104aの矢印Bの回転方向にトルクを発生させる。
【0014】
通信デバイス104fは、信号処理装置1034と接続されており、ホイール制御CPU104dから入力されるホイール位置情報を信号処理装置1034に出力するとともに、信号処理装置1034から入力される発生トルクパターン情報をホイール制御CPU104dに出力する。
【0015】
図3は、ホイール104aにトルクを発生させる時の概要を説明するための図である。円盤状のホイール104aの中心には、シャフト10が取り付けられており、シャフト10の他端にはホイール駆動モータ104cが設けられている。ホイール位置センサ104eにより検出されたホイール104aの回転量は、ホイール制御CPU104dに送られる。ホイール制御CPU104dは、このホイール位置情報と、信号処理装置1034から入力される情報とに基づいて、ホイール駆動モータ104cに発生させるトルク量を計算する。計算した発生トルク量に基づいたトルク制御信号は、ホイール駆動モータ104cに出力される。ホイール駆動モータ104cは、この制御信号に基づいて駆動してシャフト10にトルクを加えることにより、ホイール104aの矢印Bの回転方向にトルクを発生させることができる。
【0016】
図4は、本発明による音声認識装置により行われる一実施の形態の処理手順を示すフローチャートである。この制御は、信号処理ユニット103の信号処理装置1034により行われる。ステップS201から始まる処理は、操作者が入力装置104を操作して、音声入力を開始する旨の信号が信号処理装置1034に入力されることにより始まる。
【0017】
ステップS201では、音声認識処理を開始する旨を操作者に知らせるための告知音信号を外部記憶装置1035から読み込んで、D/Aコンバータ1032に出力する。D/Aコンバータ1032でアナログ変換された告知音信号は、出力アンプ1033を介してスピーカ102から告知音として出力される。操作者は、スピーカ102から発せられる告知音を聞いて、マイク101に音声入力を開始する。ここでは、本発明による音声認識装置をカーナビゲーション装置に適用した例について取りあげる。すなわち、操作者が目的地を音声入力するものである。説明を容易にするために、ここでは目的地の都道府県の名称を音声入力するものとし、外部記憶装置1035には、都道府県の名称が認識対象語として記憶されているものとする。
【0018】
次のステップS202では、入力された音声の取り込みを開始する。操作者がマイク101に向かって発した音声は、A/Dコンバータ1031でデジタル信号に変換された後、信号処理装置1034に入力される。マイク101は、不図示の電源から電力が供給されると、ステップS201で操作者が入力装置104を操作する前から、周辺の音を拾ってA/Dコンバータ1031に出力し、A/Dコンバータ1031で変換されたデジタル信号が信号処理装置1034に入力されている。信号処理装置1034は、ステップS201で操作者が入力装置104を操作するまでは、入力されるデジタル信号の平均パワーを演算している。ステップS201で入力装置104が操作されて音声が入力されると、演算していたデジタル信号の平均パワーより大きいパワーのデジタル信号が入力される。従って、信号処理装置1034は、演算していた平均パワーより所定値以上のパワーのデジタル信号が入力されたときに、操作者がマイク101に向かって音声入力を行ったと判断し、音声の取り込みを開始する。
【0019】
音声の取り込みを開始するとステップS203に進む。ステップS203では、取り込んだ音声と、外部記憶装置1035に記憶されている認識対象語との一致度を演算する。信号処理装置1034は、取り込みを開始した音声のデジタル信号のうち、信号のパワーに基づいて、操作者が発した音声区間の開始を識別しておく。この音声区間の開始以降のデジタル信号と、外部記憶装置1035に記憶されている複数の認識対象語のデジタル信号とが、それぞれどれほど似ているかを常時演算し、数値化していくことにより、一致度を演算する。数値化された一致度の値が大きいほど、比較している両者が似ていることを意味する。なお、並列処理により、一致度の演算が行われている間も、音声の取り込みは継続して行われている。
【0020】
取り込んでいる音声のデジタル信号のパワーが所定値以下となる時間が所定時間以上継続すると、操作者による音声入力が終了したと判断して、ステップS204にて音声の取り込みを終了する。次のステップS205では、一致度の演算処理が終了した後に、一致度の大きい順に所定の数の認識対象語を抽出して認識候補とする。図5は、ディスプレイ105に表示された認識候補の一例である。ディスプレイ105には、認識候補とともに一致度も表示される。抽出する認識対象語の所定の数は、予め定めることができ、例えば10である。図5では、一致度が高い順に5つの認識候補が表示されており、表示する所定の数を10とした場合、一致度が880(「熊本県」)より小さい5つの認識候補がさらに存在する。
【0021】
抽出された所定の数の認識候補をディスプレイ105に表示すると、ステップS206に進む。ステップS206では、操作者がディスプレイ105に表示された認識候補の中から、入力装置104を操作することにより、所望の認識候補を選択して確定したことを示す信号が入力されると、本制御を終了する。すなわち、操作者は、ディスプレイ105に表示された認識候補の中から、入力装置104のホイール104aを回転操作して所望の認識候補を選択し、選択した所望の認識候補に対して、ホイール104aの押し込み操作を行うことにより、所望の認識候補を確定させる。上述したように、ホイール104aの回転操作や押し込み操作は、ホイール位置センサ104eにて検出されてホイール制御CPU104dに送られ、通信デバイス104fを介して信号処理装置1034に入力される。信号処理装置1034は、この信号を受信すると本制御を終了する。
【0022】
本発明による音声認識装置は、ステップS206で、操作者がディスプレイ105に表示された複数の認識候補の中から、ホイール104aの回転操作により所望の候補を選択する際の入力装置104の制御に特徴がある。この制御について、図6を用いて説明する。
【0023】
図6は、ホイール駆動モータ104cに対してホイール104aの回転方向にトルクを発生させるための発生トルクポテンシャルと、ホイール104aの回転角との関係を示す図である。この発生トルクポテンシャルと回転角との関係を示すグラフには、いくつかの種類があり、これらを発生トルクパターンと呼ぶ。このグラフは、複数ある発生トルクパターンを視覚的に捉えやすいので、以下の説明のために用いるが、実際にホイール104aに発生させるトルクは、各回転角に対応するグラフの傾きである。すなわち、図示する発生トルクパターンは、ホイール104aの回転角に対応する発生トルクを積分したものである。発生トルクポテンシャルのうち、図6に示す軸方向(正方向)のトルクが発生すると、操作者のホイール104aの回転操作を妨げることになり、軸方向と反対方向(負方向)のトルクが発生すると、操作者のホイール104aの回転操作をアシストすることになる。
【0024】
図6に示すように、一致度が高い順にディスプレイ105に表示された認識候補の中から、操作者が所望の候補を選択するためにホイール104aの回転操作を行うと、表示された認識候補、すなわち、「長野県」、「佐賀県」、「滋賀県」、「神奈川県」、「熊本県」等が順次選択される。図6に示すように、各認識候補に対応する発生トルクポテンシャルを「発生トルクポテンシャルの谷」と呼ぶことにする。上述したように、発生トルクポテンシャルの軸方向と反対方向のトルク、すなわち、発生トルクポテンシャルの谷の部分に対応するトルクがホイール駆動モータ104cに発生すると、ホイール104aの回転をアシストすることになる。従って、操作者がホイール104aの回転操作により、第1の認識候補である「長野県」を選択する際には、強く引き寄せられるような感覚がホイール104aに発生し、「長野県」を選択しやすいようになっている。
【0025】
「長野県」を選択した状態から、さらにホイール104aを同一方向に回転させて次の認識候補を選択するときには、図6の矢印Cの位置のトルク勾配を上った後、矢印Dの位置のトルク勾配を下って、次の認識候補である「佐賀県」を選択する。矢印Cのトルク勾配を登る部分には、ホイール104aの回転を妨げる向きの反力が働く。以後、ホイール104aを同一方向に回転させると、ホイール104aには回転をアシストする力と、回転を妨げる反力とが交互に働いて、順次「滋賀県」、「神奈川県」等の認識候補を選択することができる。
【0026】
選択された認識候補は、ディスプレイ105に拡大表示されると同時にスピーカ102により合成音声で操作者に知らされる。図7は、操作者が「佐賀県」を選択したときのディスプレイ105の表示401と、スピーカ102から発せられる合成音声402とを示したものである。これにより、操作者は選択した認識候補が何であるかを正確に知ることができる。ここで、操作者が音声入力した言葉が「佐賀県」である場合は、「佐賀県」を選択した状態でホイール104aの押し込み操作を行うことにより、「佐賀県」を確定することができる。
【0027】
本発明による音声認識装置は、図4に示すフローチャートのステップS205で認識候補が抽出された時に、一致度の高い上位候補の認識対象語と誤認識されやすい認識対象語が存在する場合に、発生トルクパターンを変更する点に特徴がある。例えば、過去の実験等のデータにより、第1の認識候補が「長野県」である場合に、実際に音声入力された言葉が「神奈川県」である頻度が高かったとする。この場合、外部記憶装置1035には、誤認識されやすい認識対象語として、「長野県」と「神奈川県」が対応付けられて記憶されている。この場合、一致度の高い順に認識候補を表示するが、「神奈川県」が選択されるまでの選択操作を容易にすれば、操作者にとって便利である。従って、図6に示すように、「神奈川県」に至るまでの上り勾配(矢印C)はゆるやかにして発生させる反力を小さくし、「神奈川県」以後の上り勾配(矢印E)は通常時のものとする。ここで、通常時の上り勾配とは、下り勾配と上り勾配の傾きが同じ状態を意味し、ホイール104aの回転操作操作時に発生するアシストトルクと反力としてのトルクとが同じ状態を言う。
【0028】
これにより、操作者は認識候補の選択を行う時に、「神奈川県」に至るまでのホイール104aの回転操作時にホイール104aに加わる反力が通常時よりも小さいことを実感することができるので、音声入力した言葉と一致する可能性の高い認識対象語の有無を予め知ることができる。また、反力を小さくすることにより、音声入力した言葉と一致する可能性の高い認識対象語の有無を操作者に知らせるので、操作者は、認識候補の選択操作を容易に行うことができる。さらに、音声入力した言葉と一致する可能性の高い認識候補以後の認識候補を選択する際には、通常の反力が加わるので、それ以上認識候補の選択操作を行っても、所望の認識候補が得られる可能性が低いことを知ることができる。
【0029】
(第2の実施の形態)
第2の実施の形態の音声認識装置が第1の実施の形態の音声認識装置と異なるのは、信号処理装置1034で行われる処理である。すなわち、信号処理装置1034で行われる処理のうち、図4のフローチャートを用いて説明した処理は同じであるが、操作者がホイール104aの回転操作により認識候補の選択を行う時に、ホイール駆動モータ104cに発生させるトルクパターンが異なる。従って、以下では、トルクパターンの説明を主に行う。
【0030】
図8は、ホイール104aの回転角と各回転角に対応する発生トルクポテンシャルとの関係を示す図である。第1の実施の形態と同様に、第1の認識候補が「長野県」である場合に、過去の実験等のデータから実際に音声入力された言葉が「神奈川県」である頻度が高く、外部記憶装置1035には、誤認識されやすい認識対象語として、「長野県」と「神奈川県」が対応付けられて記憶されているものとする。
【0031】
第2の実施の形態の音声認識装置で用いられるトルクパターンは、4番目の認識候補である「神奈川県」に至るまでの谷と谷との間隔(図中の間隔F)が、通常の谷と谷との間隔Gに比べて狭く設定されている。すなわち、各認識候補に対して、トルクポテンシャルの谷が対応付けられているが、「長野県」と「佐賀県」、「佐賀県」と「滋賀県」、「滋賀県」と「神奈川県」のそれぞれの谷と谷との間隔Fは、「神奈川県」の谷と「熊本県」の谷との間隔Gよりも、狭く設定されている。従って、例えば、「長野県」を選択した状態から「佐賀県」を選択するためにホイール104aを回転させる量は、通常の回転量よりも少なくて済む。なお、抽出された認識候補の上位候補の中に、誤認識されやすい認識候補が含まれていないときは、トルクの谷と谷との間隔は通常時の間隔Gとなる。
【0032】
これにより、操作者は認識候補の選択を行う時に、「神奈川県」に至るまでのホイール104aに発生するトルクの谷と谷との間隔が通常の間隔よりも狭いことを、ホイール104aの回転操作時に実感することができるので、音声入力した言葉と一致する可能性の高い認識対象語の有無を予め知ることができる。また、トルクの谷と谷との間隔を狭くすることにより、音声入力した言葉と一致する可能性の高い認識対象語の有無を操作者に知らせるので、操作者は、認識候補の選択操作を容易に行うことができる。さらに、音声入力した言葉と一致する可能性の高い認識候補以後の認識候補を選択する際には、谷と谷との間隔が通常時の間隔となるので、それ以上認識候補の選択操作を行っても、所望の認識候補が得られる可能性が低いことを知ることができる。
【0033】
(第3の実施の形態)
第3の実施の形態の音声認識装置が第1,第2の実施の形態の音声認識装置と異なるのは、信号処理装置1034で行われる処理である。すなわち、信号処理装置1034で行われる処理のうち、図4のフローチャートを用いて説明した処理は同じであるが、操作者がホイール104aの回転操作により認識候補の選択を行う時に、ホイール駆動モータ104cに発生させるトルクパターンが異なる。従って、以下では、トルクパターンの説明を主に行う。
【0034】
図9は、ホイール104aの回転角と各回転角に対応する発生トルクポテンシャルとの関係を示す図である。第1,第2の実施の形態と同様に、外部記憶装置1035には、誤認識されやすい認識対象語として、「長野県」と「神奈川県」が対応付けられて記憶されているものとする。
【0035】
第3の実施の形態の音声認識装置で用いられるトルクパターンでは、各認識候補に対して、トルクポテンシャルの谷が対応付けられているが、誤認識されやすい「神奈川県」に対応する谷Hの深さが、他の認識候補に対する谷の深さよりも深くなっている。これにより、操作者はホイール104aに加わる反力の変化を手がかりに、正しい可能性の高い認識候補(本実施の形態では、「神奈川県」)の選択を容易に行うことができる。また、「神奈川県」に対応する谷Hの深さが深いので、「神奈川県」の次の認識候補である「熊本県」を選択する際にホイール104aに加わる反力も、通常時の反力よりも大きくなる。従って、操作者が適当にホイール104aを回転させた時でも、実際に音声入力された言葉と一致する可能性が高い「神奈川県」で回転が停止する可能性が高く、正しい可能性の高い認識候補の選択がより容易になる。
【0036】
(第4の実施の形態)
第4の実施の形態の音声認識装置も、第1〜第3の実施の形態の音声認識装置の信号処理装置1034で行われる処理は同じであるが、操作者がホイール104aの回転操作により認識候補の選択を行う時に、ホイール駆動モータ104cに発生させるトルクパターンが異なる。従って、以下では、トルクパターンの説明を主に行う。
【0037】
図10は、ホイール104aの回転角と各回転角に対応する発生トルクポテンシャルとの関係を示す図である。第1〜第3の実施の形態と同様に、外部記憶装置1035には、誤認識されやすい認識対象語として、「長野県」と「神奈川県」が対応付けられて記憶されているものとする。
【0038】
第4の実施の形態の音声認識装置で用いられるトルクパターンでは、各認識候補に対してトルクポテンシャルの谷が対応付けられているが、誤認識されやすい「神奈川県」に対応する谷Iの幅が、他の認識候補に対する谷の幅よりも広くなっている。すなわち、操作者は、「神奈川県」を選択した状態から、次の認識候補である「熊本県」を選択する時は、ホイール104aの回転操作量を通常時の回転操作量よりも多くする必要がある。
【0039】
これにより、操作者はホイール104aの回転操作量を手がかりにして、正しい可能性の高い認識候補(本実施の形態では、「神奈川県」)の選択を容易に行うことができる。また、「神奈川県」に対応する谷Iの幅が広いので、ディスプレイ105の表示を見ずに、適当にホイール104aを回転させた時でも、実際に音声入力された言葉と一致する可能性が高い「神奈川県」が選択される可能性が高く、正しい可能性の高い認識候補の選択がより容易になる。
【0040】
(第5の実施の形態)
第5の実施の形態の音声認識装置が第1〜第4の実施の形態の音声認識装置と異なるのは、信号処理装置1034で行われる処理である。すなわち、信号処理装置1034で行われる処理のうち、図4のフローチャートのステップS205で抽出した認識候補の並べ方が異なる。上述したように、第1〜第4の実施の形態の音声認識装置では、一致度の高い順に認識候補を並べているが、第5の実施の形態の音声認識装置では、一致度の高い上位の認識候補と誤認識されやすい認識対象語が存在するときは、その認識対象語を誤認識されやすい認識候補の次に並べる。
【0041】
図11は、ホイール104aの回転角と各回転角に対応する発生トルクポテンシャルとの関係を示す図である。第1〜第4の実施の形態と同様に、外部記憶装置1035には、誤認識されやすい認識対象語として、「長野県」と「神奈川県」が対応付けられて記憶されているものとする。
【0042】
この場合、第1の認識候補の「長野県」の次に並べられるのは、「長野県」の次に一致度の高い「佐賀県」ではなく、「長野県」と誤認識されやすい「神奈川県」である。従って、一致度が2番目に高い「佐賀県」は3番目に並べ替えられ、3番目に一致度が高い「滋賀県」は、4番目に並べられる。また、各認識候補に対してトルクポテンシャルの谷が対応付けられているが、誤認識されやすい「神奈川県」に対応する谷Jの深さは、他の認識候補に対応する谷の深さよりも深い。これにより、操作者は、実際に音声入力された言葉と一致する可能性が高い「神奈川県」を迅速、かつ、容易に選択することができる。また、「神奈川県」から次の認識候補である「佐賀県」を選択する際の、トルクポテンシャルの平らな部分K(以下、「トルクの丘」と呼ぶ)が、「長野県」から「神奈川県」に至る時のトルクの丘よりも高くなっている。これにより、「神奈川県」以後の認識候補が、通常通りに一致度の高い順に並んでいることを操作者に認知させることができる。
【0043】
本発明は、上述した実施の形態に限定されることはない。例えば、入力装置104を用いて認識候補を選択するために、ホイール104aの回転操作を行うものとしているが、入力装置104にジョイスティックを採用して、ジョイスティックにより認識候補の選択を行うこともできる。また、入力装置にキーボードやコントローラを採用して、十字キーにより認識候補の選択を行ってもよい。
【0044】
また、上述した第1〜第5の実施の形態では、誤認識されやすい認識候補が1番目にある場合について説明したが、誤認識されやすい認識候補の順番は何番目でもよい。ただし、誤認識されやすい認識候補の一致度が低い場合、すなわち、誤認識されやすい認識候補が下位の場合には、正しい可能性の高い認識候補を選択するまでの操作に時間がかかるため、正しい可能性の高い認識候補の有無を操作者に知らせないために、ホイール104aに発生させるトルクや回転操作量等の操作感を変更しないこともできる。すなわち、誤認識されやすい認識候補が上位候補である場合に、第1〜第5の実施の形態で説明したようなホイール104aの操作感を変更すれば、操作者にとって便利である。
【0045】
さらに、第5の実施の形態では、一致度の高い順に並べられた認識候補の中に誤認識されやすい認識候補が含まれている場合に、その認識候補に続いて、対応付けて記憶されている認識対象語を並べたが、この誤認識されやすい認識対象語の並べ替えは、第1〜第4の実施の形態の音声認識装置にも適用することができる。すなわち、誤認識されやすい認識対象語の並べ替えを行った後に、第1〜第4の実施の形態で説明したように、入力装置104の操作感を変更するようにすればよい。
【0046】
上述した実施の形態では、本発明による音声認識装置をカーナビゲーション装置に適用した例について説明したが、カーナビゲーション装置以外のものにも適用することができる。
【図面の簡単な説明】
【図1】本発明による音声認識装置の一実施の形態の構成を示す図
【図2】本発明による音声認識装置に用いられる入力装置の一実施の形態の構成を示す図
【図3】ホイールにトルクを発生させるための概要を説明するための図
【図4】信号処理装置にて行われる一実施の形態の制御手順を示すフローチャート
【図5】ディスプレイに表示される認識候補の一例を示す図
【図6】第1の実施の形態の音声認識装置で用いられるトルクパターンを示す図
【図7】選択された認識候補をディスプレイに表示するとともに音声で知らせることを示す図
【図8】第2の実施の形態の音声認識装置で用いられるトルクパターンを示す図
【図9】第3の実施の形態の音声認識装置で用いられるトルクパターンを示す図
【図10】第4の実施の形態の音声認識装置で用いられるトルクパターンを示す図
【図11】第5の実施の形態の音声認識装置で用いられるトルクパターンを示す図
【符号の説明】
10…シャフト、101…マイク、102…スピーカ、103…信号処理ユニット、1031…A/Dコンバータ、1032…D/Aコンバータ、1033…出力アンプ、1034…信号処理装置、1034a…CPU、1034b…メモリ、1035…外部記憶装置、104…入力装置、104a…ホイール、104b…スイッチ、104c…ホイール駆動モータ、104d…ホイール制御CPU、104e…ホイール位置センサ、104f…通信デバイス、105…表示ディスプレイ[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a speech recognition apparatus that recognizes input speech and displays recognition candidates for the input actual speech.
[0002]
[Prior art]
A conventional speech recognition apparatus is disclosed in Japanese Patent Application Laid-Open No. 11-352991. This speech recognition apparatus recognizes speech uttered by dividing into single syllables, displays recognition candidates, and sequentially displays the recognition candidates until the displayed recognition candidates are determined by the voice input person. is there.
[0003]
[Problems to be solved by the invention]
However, in the conventional speech recognition apparatus, when a desired recognition candidate cannot be obtained, the next recognition candidate is sequentially displayed. For example, when a large level of noise is mixed during speech input, the input speech may be misrecognized. Even if the recognition candidates are sequentially displayed, a desired recognition candidate may not be displayed. Accordingly, it has been necessary to perform a recognition candidate selection operation without knowing whether or not there is a correct recognition candidate.
[0004]
The object of the present invention is to change the operational feeling when operating the operating device when there is a recognition candidate that is easily misrecognized among the recognition candidates when selecting the recognition candidate using the operating device. Another object of the present invention is to provide a speech recognition apparatus that can inform an operator of the presence or absence of a recognition candidate that is highly likely to be correct.
[0005]
[Means for Solving the Problems]
The present invention will be described with reference to FIG. 1 showing an embodiment.
(1) The invention of claim 1 stores a plurality of recognition target words for a speech input device for inputting speech and recognition speech for input speech, and stores recognition target words that are easily misrecognized among recognition target words. To calculate the degree of coincidence indicating the degree of coincidence between the speech input to the speech input device and the speech input word stored in the storage device, and the recognition target words arranged in descending order of coincidence Among the control device that is a recognition candidate from the top, the operation device that allows the operator to perform an operation of selecting a desired recognition candidate from at least the recognition candidates, and the recognition candidates, Recognized words that are easily misrecognized and stored in the storage device The above-mentioned object is achieved by providing an operation feeling change device that changes an operation feeling when operating the operation device.
(2) The invention of
(3) The voice recognition device according to
(4) The voice recognition device according to
(5) The invention of claim 5 is the speech recognition apparatus of claim 1, wherein the operation feeling changing device is: Recognized words that are easily misrecognized and stored in the storage device Out of which the operator is the less consistent The recognition target word Recognition candidates As The operational feeling when selecting is changed.
(6) In the voice recognition device according to claim 5, the operation device is a rotary input device including a wheel, and the operator can perform a selection operation by rotating the wheel. The operation feeling changing device alternately generates a force that assists and prevents a wheel rotation operation when selecting the next recognition candidate. Recognized words that are easily misrecognized and stored in the storage device Of the ones with lower match The recognition target word is Recognition candidates As It is characterized in that the force for assisting and preventing the rotation operation of the wheel generated when selected is increased.
(7) The invention according to
(8) The invention according to claim 8 is the speech recognition apparatus according to any one of claims 1 to 7, wherein the control device includes recognition candidates arranged in descending order of coincidence. , One of the recognition target words stored in the storage device and easily misrecognized Is present, Exists among recognition candidates arranged in descending order of matching Misunderstood easily Recognition word And correspondence Is stored in the storage device. The recognition target word is easily misrecognized It is a recognition target word Next to recognition candidates Replacement It is characterized by.
(9) The invention according to claim 9 is the voice recognition device according to claim 8, wherein the operation feeling changing device is: By control unit The operational feeling when the next recognition candidate is selected is changed from the state in which the rearranged recognition target words that are easily misrecognized are selected.
[0006]
In the section of means for solving the above problems, the present invention is associated with FIG. 1 of the embodiment for easy understanding. However, the present invention is not limited to the embodiment. .
[0007]
【The invention's effect】
The present invention has the following effects.
(1) According to the inventions of claims 1 to 9, since the extracted recognition candidates include recognition candidates that are easily misrecognized, the operational feeling when operating the controller device is changed. The operator can know in advance the presence / absence of a recognition candidate that is highly likely to be correct from the operational feeling of the operating device.
(2) According to the invention of
(3) According to the invention of claim 3, the operating device is a rotary input device provided with a wheel, and the operation feeling changing device alternately generates a force assisting and a hindering wheel rotating operation. Until the associated recognition candidates that are likely to be misrecognized are selected, the force that hinders the wheel rotation operation is reduced. Therefore, it is necessary for the wheel rotation operation that there is a recognition candidate that is highly likely to be correct. By reducing the force, it can be surely known, and the recognition candidate selection operation can be easily performed.
(4) According to the invention of claim 4, the operation device is a rotary input device having a wheel, and the next recognition candidate is selected until the corresponding recognition candidates that are likely to be erroneously recognized are selected. This reduces the amount of wheel rotation operation required to perform recognition, so that it is possible to know with certainty that there is a recognition candidate that is highly likely to be correct by reducing the amount of wheel rotation operation, and to select a recognition candidate. Can be easily performed.
(5) According to the invention of claim 5, since the operation feeling when selecting a recognition candidate with a lower degree of coincidence among recognition candidates easily associated with erroneous recognition associated with an operator is changed, The person can select a recognition candidate having a high possibility of being correct based on the operational feeling of the controller device.
(6) According to the invention of claim 6, the operation device is a rotary input device provided with a wheel, and the operation feeling changing device alternately generates a force assisting and preventing a wheel rotation operation. And, among the associated recognition candidates that are easily misrecognized, increase the force that assists and prevents the wheel rotation operation that is generated when the recognition candidate with the lower degree of coincidence is selected. The operator can select a recognition candidate with a high possibility of correctness based on the operational feeling of the operating device. In addition, even when the operator appropriately rotates the wheel, the force that hinders the rotation of the wheel is large, so that it is highly likely that the rotation will stop at the position of the recognition candidate that is highly likely to be correct. Can be easily performed.
(7) According to the invention of
(8) According to the invention of claim 8, when there is a recognition candidate that is easily misrecognized among the extracted recognition candidates, the recognition target word associated with the recognition candidate that is easily misrecognized is erroneously recognized. Since the recognition candidates are rearranged next to the recognition candidates that are likely to be recognized, the recognition target words that are likely to be erroneously recognized can be easily selected.
(9) According to the invention of claim 9, since the operation feeling when the next recognition candidate is selected from the state in which the rearranged recognition target words that are easily misrecognized is selected, the subsequent recognition candidates are changed. It is possible to make the operator recognize that the items are arranged in descending order of coincidence.
[0008]
DETAILED DESCRIPTION OF THE INVENTION
(First embodiment)
FIG. 1 is a diagram showing a configuration of a first embodiment of a speech recognition apparatus according to the present invention. The speech recognition apparatus according to the first embodiment includes a microphone 101, a speaker 102, a
[0009]
The audio input via the microphone 101 is input to the A /
[0010]
The D / A converter 1032 converts the digital signal of the recognition target word into an analog signal and outputs the analog signal to the
[0011]
The display 105 is for displaying input speech recognition candidates and the like. The
[0012]
FIG. 2 is a detailed diagram illustrating the configuration of the
[0013]
The
[0014]
The communication device 104f is connected to the
[0015]
FIG. 3 is a view for explaining an outline when torque is generated in the
[0016]
FIG. 4 is a flowchart showing a processing procedure of an embodiment performed by the speech recognition apparatus according to the present invention. This control is performed by the
[0017]
In step S <b> 201, a notification sound signal for notifying the operator that voice recognition processing is to be started is read from the
[0018]
In the next step S202, capturing of the input voice is started. The voice uttered by the operator toward the microphone 101 is converted into a digital signal by the A /
[0019]
When the audio capturing is started, the process proceeds to step S203. In step S203, the degree of coincidence between the captured voice and the recognition target word stored in the
[0020]
If the time during which the power of the digital signal of the voice being captured is equal to or less than the predetermined value continues for a predetermined time or longer, it is determined that the voice input by the operator has been completed, and the voice capturing is terminated in step S204. In the next step S205, after completion of the coincidence calculation process, a predetermined number of recognition target words are extracted in descending order of coincidence and set as recognition candidates. FIG. 5 is an example of recognition candidates displayed on the display 105. The display 105 displays the degree of coincidence along with the recognition candidates. The predetermined number of recognition target words to be extracted can be determined in advance, for example, 10. In FIG. 5, five recognition candidates are displayed in descending order of the degree of coincidence. When the predetermined number to be displayed is 10, there are further five recognition candidates whose degree of coincidence is smaller than 880 (“Kumamoto Prefecture”). .
[0021]
When the extracted predetermined number of recognition candidates are displayed on display 105, the process proceeds to step S206. In step S206, when a signal indicating that the operator has selected and confirmed a desired recognition candidate by operating the
[0022]
The voice recognition apparatus according to the present invention is characterized in that the
[0023]
FIG. 6 is a diagram showing the relationship between the generated torque potential for generating torque in the rotation direction of the
[0024]
As shown in FIG. 6, when the operator performs a rotation operation of the
[0025]
When the next recognition candidate is selected by further rotating the
[0026]
The selected recognition candidate is enlarged and displayed on the display 105, and at the same time, the speaker 102 notifies the operator with synthesized speech. FIG. 7 shows a
[0027]
The speech recognition apparatus according to the present invention occurs when a recognition candidate word is extracted in step S205 of the flowchart shown in FIG. It is characterized in that the torque pattern is changed. For example, when the first recognition candidate is “Nagano Prefecture” based on past experiment data or the like, it is assumed that the frequency of actually input speech as “Kanagawa Prefecture” is high. In this case, “Nagano Prefecture” and “Kanagawa Prefecture” are stored in the
[0028]
As a result, when selecting the recognition candidate, the operator can realize that the reaction force applied to the
[0029]
(Second Embodiment)
The speech recognition apparatus according to the second embodiment is different from the speech recognition apparatus according to the first embodiment in processing performed by the
[0030]
FIG. 8 is a diagram showing the relationship between the rotation angle of the
[0031]
The torque pattern used in the speech recognition apparatus of the second embodiment is such that the interval between the valleys up to the fourth recognition candidate “Kanagawa Prefecture” (interval F in the figure) is a normal valley. It is set narrower than the gap G between and the valley. That is, torque recognition valleys are associated with each recognition candidate, but “Nagano” and “Saga”, “Saga” and “Shiga”, “Shiga” and “Kanagawa” The interval F between the valleys of each of the above is set narrower than the interval G between the valleys of “Kanagawa” and “Kumamoto”. Therefore, for example, the amount by which the
[0032]
Thereby, when the operator selects a recognition candidate, the rotation operation of the
[0033]
(Third embodiment)
The speech recognition apparatus according to the third embodiment is different from the speech recognition apparatuses according to the first and second embodiments in processing performed by the
[0034]
FIG. 9 is a diagram showing the relationship between the rotation angle of the
[0035]
In the torque pattern used in the speech recognition apparatus according to the third embodiment, the torque potential valley is associated with each recognition candidate, but the valley H corresponding to “Kanagawa Prefecture” that is easily misrecognized. The depth is deeper than the valley depth for other recognition candidates. Thereby, the operator can easily select a recognition candidate (in this embodiment, “Kanagawa Prefecture”) having a high possibility of being correct based on a change in the reaction force applied to the
[0036]
(Fourth embodiment)
The voice recognition device of the fourth embodiment is the same as the processing performed by the
[0037]
FIG. 10 is a diagram showing the relationship between the rotation angle of the
[0038]
In the torque pattern used in the speech recognition apparatus according to the fourth embodiment, the valley of the torque potential is associated with each recognition candidate, but the width of the valley I corresponding to “Kanagawa Prefecture” that is easily misrecognized. However, it is wider than the valley of other recognition candidates. That is, when selecting the next recognition candidate “Kumamoto Prefecture” from the state in which “Kanagawa Prefecture” is selected, the operator needs to increase the rotational operation amount of the
[0039]
Accordingly, the operator can easily select a recognition candidate (in this embodiment, “Kanagawa Prefecture”) having a high possibility of being correct, using the amount of rotation operation of the
[0040]
(Fifth embodiment)
The speech recognition apparatus according to the fifth embodiment is different from the speech recognition apparatuses according to the first to fourth embodiments in processing performed by the
[0041]
FIG. 11 is a diagram showing the relationship between the rotation angle of the
[0042]
In this case, “Kanagawa”, which is likely to be misrecognized as “Nagano Prefecture”, is not placed after “Nagano Prefecture” as the first recognition candidate, but “Saga Prefecture” with the next highest degree of matching after “Nagano Prefecture”. Prefecture. Therefore, “Saga Prefecture” with the second highest degree of coincidence is rearranged third, and “Shiga Prefecture” with the third highest degree of coincidence is arranged fourth. Moreover, although the valley of the torque potential is associated with each recognition candidate, the depth of the valley J corresponding to “Kanagawa Prefecture” that is easily misrecognized is larger than the depth of the valley corresponding to the other recognition candidates. deep. As a result, the operator can quickly and easily select “Kanagawa Prefecture” that is highly likely to match the words that are actually input by voice. In addition, when selecting the next recognition candidate “Saga Prefecture” from “Kanagawa Prefecture”, the flat portion K of torque potential (hereinafter referred to as “Torque Hill”) is changed from “Nagano Prefecture” to “Kanagawa Prefecture”. It is higher than the Torque Hill when it reaches the prefecture. This allows the operator to recognize that recognition candidates after “Kanagawa Prefecture” are arranged in the order of the degree of coincidence as usual.
[0043]
The present invention is not limited to the embodiment described above. For example, in order to select a recognition candidate using the
[0044]
In the first to fifth embodiments described above, the case where there is the first recognition candidate that is likely to be erroneously recognized has been described, but the order of recognition candidates that are likely to be erroneously recognized may be any order. However, if the degree of coincidence of recognition candidates that are likely to be erroneously recognized is low, that is, if the recognition candidates that are likely to be erroneously recognized are lower, it takes time to select a recognition candidate that is likely to be correct. In order not to notify the operator of the presence or absence of a highly likely recognition candidate, it is also possible not to change the operational feeling such as the torque generated on the
[0045]
Furthermore, in the fifth embodiment, when recognition candidates that are easily misrecognized are included in recognition candidates arranged in descending order of degree of coincidence, the recognition candidates are stored in association with each other following the recognition candidates. However, the rearrangement of the recognition target words that are easily misrecognized can also be applied to the speech recognition apparatuses according to the first to fourth embodiments. That is, after the recognition target words that are likely to be erroneously recognized are rearranged, the operational feeling of the
[0046]
In the above-described embodiment, an example in which the speech recognition apparatus according to the present invention is applied to a car navigation apparatus has been described, but the present invention can also be applied to apparatuses other than a car navigation apparatus.
[Brief description of the drawings]
FIG. 1 is a diagram showing the configuration of an embodiment of a speech recognition apparatus according to the present invention.
FIG. 2 is a diagram showing a configuration of an embodiment of an input device used in a speech recognition device according to the present invention.
FIG. 3 is a diagram for explaining an outline for generating torque in the wheel;
FIG. 4 is a flowchart showing a control procedure of an embodiment performed in the signal processing apparatus.
FIG. 5 is a diagram showing an example of recognition candidates displayed on the display.
FIG. 6 is a diagram showing a torque pattern used in the speech recognition apparatus according to the first embodiment.
FIG. 7 is a diagram showing that a selected recognition candidate is displayed on the display and notified by voice.
FIG. 8 is a diagram showing a torque pattern used in the speech recognition apparatus according to the second embodiment.
FIG. 9 is a diagram showing a torque pattern used in the speech recognition apparatus according to the third embodiment.
FIG. 10 is a diagram showing a torque pattern used in the speech recognition apparatus according to the fourth embodiment.
FIG. 11 is a diagram showing a torque pattern used in the speech recognition apparatus according to the fifth embodiment.
[Explanation of symbols]
DESCRIPTION OF
Claims (9)
入力される音声に対する認識対象語を複数記憶し、前記認識対象語のうち誤認識されやすい認識対象語同士を対応付けて記憶する記憶装置と、
前記音声入力装置に入力された音声と、前記記憶装置に記憶されている認識対象語とが一致する度合いを示す一致度を演算するとともに、前記一致度の高い順に並べた認識対象語を上位から認識候補とする制御装置と、
少なくとも前記認識候補の中から所望の認識候補を選択する操作を操作者が行うことができる操作装置と、
前記認識候補の中に、前記記憶装置に記憶されている誤認識されやすい認識対象語同士が含まれているときに、前記操作装置を操作するときの操作感を変更する操作感変更装置とを備えることを特徴とする音声認識装置。A voice input device for inputting voice;
A storage device that stores a plurality of recognition target words for input speech, and stores recognition target words that are easily misrecognized among the recognition target words,
While calculating the degree of coincidence indicating the degree of coincidence between the speech input to the voice input device and the recognition target word stored in the storage device, the recognition target words arranged in descending order of the degree of coincidence from the top A control device as a recognition candidate;
An operating device that allows an operator to perform an operation of selecting a desired recognition candidate from at least the recognition candidates;
An operation feeling change device that changes an operation feeling when operating the operation device when the recognition candidates include recognition target words that are easily misrecognized and stored in the storage device. A speech recognition apparatus comprising:
前記操作感変更装置は、前記記憶装置に記憶されている誤認識されやすい認識対象語同士のいずれか一方が認識候補として選択されるまでは、操作者が前記操作装置を用いて前記認識候補の選択操作を行う負荷を小さくすることを特徴とする音声認識装置。The speech recognition apparatus according to claim 1,
The operation feeling changing device is configured such that an operator uses the operation device to select the recognition candidate until one of recognition target words stored in the storage device, which are easily misrecognized, is selected as a recognition candidate. A speech recognition apparatus characterized by reducing a load for performing a selection operation.
前記操作装置はホイールを備えた回転式入力装置であって、操作者が前記ホイールを回転させることにより前記選択操作を行うことができるものであり、
前記操作感変更装置は、次の認識候補の選択の際に、前記ホイールの回転操作をアシストする力と妨げる力とを交互に発生させるものであり、前記記憶装置に記憶されている誤認識されやすい認識対象語同士のいずれか一方が認識候補として選択されるまでは、前記ホイールの回転操作を妨げる力を小さくすることを特徴とする音声認識装置。The speech recognition device according to claim 2,
The operation device is a rotary input device including a wheel, and an operator can perform the selection operation by rotating the wheel.
The operation feeling changing device alternately generates a force to assist and prevent a wheel rotation operation when selecting a next recognition candidate, and the erroneous recognition stored in the storage device is detected. A speech recognition apparatus characterized by reducing a force that hinders the rotation operation of the wheel until any one of easy recognition target words is selected as a recognition candidate .
前記操作装置はホイールを備えた回転式入力装置であって、操作者が前記ホイールを回転させることにより前記選択操作を行うことができるものであり、
前記操作感変更装置は、前記記憶装置に記憶されている誤認識されやすい認識対象語同士のいずれか一方が認識候補として選択されるまでは、次の認識候補を選択するために必要な前記ホイールの回転操作量を減少させることを特徴とする音声認識装置。The speech recognition device according to claim 2,
The operation device is a rotary input device including a wheel, and an operator can perform the selection operation by rotating the wheel.
The operation feeling changing device requires the wheel necessary for selecting the next recognition candidate until one of the recognition target words that are easily misrecognized and stored in the storage device is selected as a recognition candidate. A voice recognition device that reduces the amount of rotation operation.
前記操作感変更装置は、前記記憶装置に記憶されている誤認識されやすい認識対象語同士のうち、操作者が前記一致度の低い方の認識対象語を認識候補として選択する際の操作感を変更することを特徴とする音声認識装置。The speech recognition apparatus according to claim 1,
The operation feeling changing device, among the recognized easily recognized target word with each other erroneously stored in the storage device, an operational feeling when the operator selects a recognition terms having lower the matching degree as the recognition candidates A speech recognition apparatus characterized by changing.
前記操作装置はホイールを備えた回転式入力装置であって、操作者が前記ホイールを回転させることにより前記選択操作を行うことができるものであり、
前記操作感変更装置は、次の認識候補の選択の際に、前記ホイールの回転操作をアシストする力と妨げる力とを交互に発生させるものであり、前記記憶装置に記憶されている誤認識されやすい認識対象語同士のうち、前記一致度が低い方の認識対象語が認識候補として選択される際に発生させる前記ホイールの回転操作をアシストする力と妨げる力とを大きくすることを特徴とする音声認識装置。The speech recognition apparatus according to claim 5.
The operation device is a rotary input device including a wheel, and an operator can perform the selection operation by rotating the wheel.
The operation feeling changing device alternately generates a force to assist and prevent a wheel rotation operation when selecting a next recognition candidate, and the erroneous recognition stored in the storage device is detected. of easy recognition terms with each other, characterized in that to increase the force that prevents the force assisting the rotation operation of the wheel which is generated when the matching degree is lower recognition terms of being selected as a recognition candidate Voice recognition device.
前記操作装置はホイールを備えた回転式入力装置であって、操作者が前記ホイールを回転させることにより前記選択操作を行うことができるものであり、
前記操作感変更装置は、前記記憶装置に記憶されている誤認識されやすい認識対象語同士のうち、前記一致度が低い方の認識対象語が認識候補として選択された状態から、次の認識候補を選択するために必要な前記ホイールの回転操作量を増大させることを特徴とする音声認識装置。The speech recognition apparatus according to claim 5.
The operation device is a rotary input device including a wheel, and an operator can perform the selection operation by rotating the wheel.
The operation feeling changing device, among the recognized easily recognized target word with each other erroneously stored in the storage device, from the state recognition terms having the lower the degree of coincidence are selected as the recognition candidates, the next recognition candidate A voice recognition device characterized by increasing the amount of rotation operation of the wheel necessary for selecting a wheel.
前記制御装置は、前記一致度の高い順に並べられた認識候補の中に前記記憶装置に記憶されている誤認識されやすい認識対象語同士のいずれか一方の認識対象語が存在する場合に、前記一致度の高い順に並べられた認識候補の中に存在する誤認識されやすい認識対象語と対応付けて前記記憶装置に記憶されている認識対象語を前記誤認識されやすい認識対象語である認識候補の次に並べ替えることを特徴とする音声認識装置。In the voice recognition device according to any one of claims 1 to 7,
Wherein the control device, if any one of the recognized words of the recognized easily recognized target word with each other erroneously stored in the storage device in the recognition candidates arranged in descending order of the degree of coincidence is present, the it is a degree of coincidence higher the misrecognized easy recognition terms of recognition target words stored in the storage device Installing and corresponding misrecognized easy recognition terms present in the ordered recognition candidate sequentially recognition speech recognition apparatus characterized by may exchange arranged next candidate.
前記操作感変更装置は、前記制御装置によって並べ替えられた誤認識されやすい認識対象語が選択された状態から次の認識候補が選択される際の操作感を変更することを特徴とする音声認識装置。The speech recognition apparatus according to claim 8.
The operation feeling changing device changes an operation feeling when a next recognition candidate is selected from a state in which recognition target words that are easily misrecognized rearranged by the control device are selected. apparatus.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002003787A JP3985525B2 (en) | 2002-01-10 | 2002-01-10 | Voice recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002003787A JP3985525B2 (en) | 2002-01-10 | 2002-01-10 | Voice recognition device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003208193A JP2003208193A (en) | 2003-07-25 |
JP3985525B2 true JP3985525B2 (en) | 2007-10-03 |
Family
ID=27643289
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002003787A Expired - Lifetime JP3985525B2 (en) | 2002-01-10 | 2002-01-10 | Voice recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3985525B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007297592A (en) | 2006-04-04 | 2007-11-15 | Nissan Motor Co Ltd | Low-friction sliding mechanism |
JP5031422B2 (en) * | 2007-03-27 | 2012-09-19 | クラリオン株式会社 | Navigation system and input reception method |
JP5574523B2 (en) * | 2009-04-22 | 2014-08-20 | 株式会社プロテックデザイン | Rotary input device and electronic device |
-
2002
- 2002-01-10 JP JP2002003787A patent/JP3985525B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2003208193A (en) | 2003-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3702867B2 (en) | Voice control device | |
JP2004326840A (en) | Music data selection device, music data selection method, music data selection program, and information recording medium recorded with the program | |
JP3985525B2 (en) | Voice recognition device | |
CN2736879Y (en) | Music book display device | |
WO2004019197A1 (en) | Control system, method, and program using rhythm pattern | |
JP5277704B2 (en) | Voice recognition apparatus and vehicle system using the same | |
JP5326843B2 (en) | Emotion estimation device and emotion estimation method | |
JP4604377B2 (en) | Voice recognition device | |
JP3972632B2 (en) | Voice recognition device | |
JP2010078851A (en) | Voice input device and voice input method | |
JP2016075753A (en) | Karaoke scoring system performing scoring by comparing pitch difference of reference and pitch difference of singing voice | |
JP2007322757A (en) | Voice interaction apparatus | |
JP4056711B2 (en) | Voice recognition device | |
JP3446857B2 (en) | Voice recognition device | |
JP2007172466A (en) | Performance information recording device | |
JP2009250779A (en) | Navigation device, program, and navigation method | |
JP3718088B2 (en) | Speech recognition correction method | |
JP2006145681A (en) | Assisting apparatus and system for keyboard musical instrument | |
JP2009271835A (en) | Equipment operation controller and program | |
JP5519126B2 (en) | Speech recognition apparatus and speech recognition method | |
JP2004333703A (en) | Voice recognition system, and correction and learning method of voice recognition | |
JP2009251470A (en) | In-vehicle information system | |
JP2010107614A (en) | Voice guidance and response method | |
JP4621527B2 (en) | Navigation device and 50-syllabary character input method | |
JP6428436B2 (en) | Karaoke system, karaoke device, and voice data processing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040827 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070202 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070619 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070702 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100720 Year of fee payment: 3 |