JP2008046260A - Voice recognition device - Google Patents
Voice recognition device Download PDFInfo
- Publication number
- JP2008046260A JP2008046260A JP2006220448A JP2006220448A JP2008046260A JP 2008046260 A JP2008046260 A JP 2008046260A JP 2006220448 A JP2006220448 A JP 2006220448A JP 2006220448 A JP2006220448 A JP 2006220448A JP 2008046260 A JP2008046260 A JP 2008046260A
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- paraphrase
- name
- word
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、使用者が発話した音声を認識する音声認識装置に関する。 The present invention relates to a speech recognition apparatus that recognizes speech uttered by a user.
従来より、音声認識装置としては、下記の特許文献1や特許文献2に記載された技術が知られている。
Conventionally, as a speech recognition apparatus, techniques described in
特許文献1には、辞書作成ルールを定義することによって、効率的でかつユーザ発話様式に適した辞書を作成する技術が記載されている。また、特許文献1には、施設の正式名称を入力し、入力された施設の正式名称を形態素に分割し、分割された形態素から地域名称及び施設の正式名称の一部を抽出し、抽出された地域名称と抽出された施設名称の一部とを連結単語で連結した単語を辞書用単語として登録することが記載されている。
特許文献2には、長い言葉も容易に確実に認識することを目的とし、使用者の発話に対する負荷低減や使用者の発話様式に適合した音声認識をすることが記載されている。また、特許文献2には、長い施設名称に区切りを入れて認識用単語を短く言い換え、この言い換え語を辞書登録して、使用者の言いよどみや発話単語を短縮化した音声を認識可能とすることが記載されている。
しかしながら、上述した音声認識技術では、使用者が実際にその言い換え語を使用するかどうか分からないにも拘わらず、言い換え語を認識辞書に加えていたために、必要以上に認識語彙の数が多くなってしまい、その結果、認識率が低下してしまうという問題点があった。 However, in the speech recognition technology described above, the number of recognized vocabularies increases more than necessary because the paraphrased word is added to the recognition dictionary even though the user does not know whether to actually use the paraphrase. As a result, there is a problem that the recognition rate is lowered.
そこで、本発明は、上述した実情に鑑みて提案されたものであり、実際に使用者によって使用される語彙のみを音声認識対象語彙として登録することができる音声認識装置を提供することを目的とする。 Therefore, the present invention has been proposed in view of the above-described circumstances, and an object thereof is to provide a speech recognition apparatus that can register only a vocabulary actually used by a user as a speech recognition target vocabulary. To do.
本発明は、使用者から発せられた音声を認識する音声認識手段を備えた音声認識装置であって、正式名称を音声認識対象語彙として記憶した記憶手段と、記憶手段に記憶された正式名称から言い換え語を生成する言い換え語生成手段と、言い換え語生成手段によって生成された言い換え語の実使用度を評価する実使用度評価手段と、言い換え語生成手段によって生成された言い換え語を音声認識対象語彙として記憶手段に登録する登録手段とを有する。このような音声認識装置は、上述の課題を解決するために、登録手段により、実用度評価手段によって実使用度が高いと評価された言い換え語のみを音声認識対象語彙として登録する。 The present invention is a speech recognition apparatus including speech recognition means for recognizing speech uttered by a user, the storage means storing a formal name as a speech recognition target vocabulary, and the formal name stored in the storage means A paraphrase word generating means for generating a paraphrase word, an actual usage evaluation means for evaluating the actual usage of the paraphrase word generated by the paraphrase word generating means, and the paraphrase word generated by the paraphrase word generating means as a speech recognition target vocabulary Registration means for registering in the storage means. In order to solve the above-described problem, such a speech recognition apparatus registers only paraphrased words that have been evaluated as having high actual usage by the practicality evaluation unit by the registration unit as a speech recognition target vocabulary.
本発明に係る音声認識装置によれば、実使用度の高い言い換え語を音声認識対象語彙として登録するので、実際に使用者によって使用される語彙のみを音声認識対象語彙として登録することができ、必要以上に音声認識対象語彙が多くなってしまう問題がない。 According to the speech recognition apparatus according to the present invention, since the paraphrase word having high actual usage is registered as the speech recognition target vocabulary, only the vocabulary actually used by the user can be registered as the speech recognition target vocabulary. There is no problem that the vocabulary for speech recognition increases more than necessary.
以下、本発明の実施の形態について図面を参照して説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[第1実施形態]
本発明は、例えば図1に示すように構成された第1実施形態に係る音声認識装置に適用される。この音声認識装置は、信号処理ユニット1に、マイク2とタッチパネルディスプレイ3とスピーカ4と入力装置5とが接続されて構成されている。この音声認識装置は、正式名称に対する言い換え語を登録するに際して、使用者が実際に使用する度合い(実使用度)が高い言い換え語のみを登録するものである。
[First Embodiment]
The present invention is applied to, for example, the speech recognition apparatus according to the first embodiment configured as shown in FIG. This speech recognition apparatus is configured by connecting a
信号処理ユニット1は、信号処理装置11に、A/Dコンバータ12とD/Aコンバータ13とアンプ14と外部記憶装置(記憶手段)15とが接続されている。
In the
信号処理装置11には、マイク2で検出された使用者の音声信号がA/Dコンバータ12を介して供給される。また、信号処理装置11は、タッチパネルディスプレイ3に操作名称及び音声認識結果等を表示すると共に、タッチパネルディスプレイ3から使用者の操作入力信号を入力する。更に、信号処理装置11は、各種情報を音声案内するために、D/Aコンバータ13及びアンプ14を介して音声信号をスピーカ4に供給して、操作名称を選択することを命令する告知音声及び音声認識結果の告知音声をスピーカ4から放音させる。
The
信号処理装置11は、CPU(Central Processing Unit)21及びメモリ22からなる。信号処理装置11は、メモリ22を作業領域として使用して、CPU21によって、音声認識処理(音声認識手段)、言い換え語を生成する処理(言い換え語生成手段)、言い換え語の実使用度を評価する処理(実使用度評価手段)、言い換え語を登録する処理(登録手段)を行う。
The
入力装置5は、音声認識を開始するに際して操作される発話スイッチ5a、信号処理ユニット1によって使用者が意図する音声とは異なる音声認識結果を生成した場合に音声認識結果を訂正するに際して操作される訂正スイッチ5b(訂正指示手段)とを備えている。発話スイッチ5a及び訂正スイッチ5bが操作されると、当該操作は、信号処理装置11によって検出される。また、訂正スイッチ5bを一定期間押し続けた場合、信号処理ユニット1は、使用者から発せられる音声による処理を途中で終了させる。
The
外部記憶装置15は、施設等の正式名称情報、言い換え語情報である音声認識対象語彙及び当該施設等の位置情報を登録した音声認識対象語彙データベースと、操作時の操作名称を登録した操作名称データベースとを記憶している。例えば図2に示すように、信号処理ユニット1に対する操作名称である行き先、検索条件等の上位層の操作名称を登録した操作名称データベース31と、行き先の下位層の住所、施設等の下位層の操作名称を登録した操作名称データベース32と、当該操作名称データベース31,32の下位層に相当する正式名称、言い換え語を登録した音声認識対象語彙データベース33とからなる。
The
例えば使用者の行き先が「北海道大学」という施設名である場合、操作名称データベース31に、最上位層の行き先、探索条件等の操作名称が登録され、操作名称データベース32に、行き先の下位層の住所、施設等の操作名称が登録されているとすると、操作名称データベース31から「行き先」の操作名称が選択され、操作名称データベース32から「施設名」の操作名称が選択されることになる。また、音声認識対象語彙データベース33は、操作名称データベース31,32に対する最下位層の施設名称「北海道大学」を登録しているものである。
For example, when the destination of the user is a facility name “Hokkaido University”, the
また、外部記憶装置15には、正式名称、言い換え語及び操作名称データベースの一部を音声認識対象として登録した音声認識対象語彙データベースを記憶している。この音声認識対象語彙データベースは、信号処理装置11によって書き換えられる。
Further, the
つぎに、上述の音声認識装置において、使用者が「北海道大学」という正式名称の施設に行きたい又は地図表示させたい場合に、「北大」という言い換え語が音声認識対象語彙データベースに登録されていない時の動作を説明する。 Next, in the speech recognition apparatus described above, when the user wants to go to the facility with the official name “Hokkaido University” or display the map, the paraphrase “Hokkaido” is not registered in the speech recognition target vocabulary database. The operation at the time will be described.
このような音声認識装置においては、発話スイッチ5aが操作されて、図3(a)に示す音声入力用の音声メニュー画像41をタッチパネルディスプレイ3に表示している時に、音声入力を受け付ける。この音声メニュー画像41は、信号処理ユニット1による音声認識結果を表示する音声認識結果表示欄45、操作名称を示すメニューリスト46を含む。メニューリスト46は、外部記憶装置15の音声認識対象語彙データベースに登録されている行き先、検索条件等の操作名称である音声認識対象語彙を羅列している。
In such a voice recognition device, the voice input is accepted when the speech switch 5a is operated and the
この音声メニュー画像41を表示させている状態において、信号処理ユニット1は、図4の(1)のように使用者が「行き先」との操作名称を発話し、当該「行き先」との音声認識結果を得ると、信号処理ユニット1は、図4の(2)のように「行き先のコマンドをどうぞ」との告知音声をスピーカ4から放音させて、図3(b)の複数の操作名称を示すメニューリスト46を含む行き先選択メニュー画像42をタッチパネルディスプレイ3に表示させる。
In the state where the
図3(b)の行き先選択メニュー画像42を表示させている状態において、図4の(3)のように行き先選択メニュー画像42のメニューリスト46に含まれる「施設」という操作名称を使用者が発話し、信号処理ユニット1によって「施設」との音声認識結果を得た場合には、図4の(4)のように「施設名をどうぞ」との告知音声をスピーカ4から放音させて、図3(c)に示す施設名入力画像43を表示させる。
In the state where the destination
図3(c)の施設名入力画像43を表示させている状態において、図4の(5)のように「北大」と使用者が発話した場合、信号処理ユニット1は、外部記憶装置15の音声認識対象語彙データベースには「北大」が音声認識対象語彙として登録されていないことから、当該「北大」に対する音声認識結果と最も近く音声認識対象語彙データベースに登録されている国分駅を選択して、図3(d)に示すように、音声認識結果表示欄45に音声認識結果「国分駅」を含む音声認識結果画像44を表示する。この音声認識結果画像44には、音声認識結果表示欄45に含まれる音声認識結果が指し示す位置に行くための最適経路を探索するコマンドを発生させる「そこへ行く」ボタン47及び音声認識結果が指し示す位置付近の地図を表示するコマンドを発生させる「地図を見る」ボタン48とを含んでいる。
In the state where the facility name input
この音声認識結果画像44を表示している状態において、図4の(7)のように入力装置5の訂正スイッチ5bを使用者が操作すると、図4の(8)のようにスピーカ4から「もう一度発話してください」との告知音声を放音させて、再度図3(c)の施設名入力画像43を表示させる。そして、図4の(5)〜(8)のように(9)〜(12),(13)〜(16)の手順を行い、図4の(17)において使用者が「北海道大学」と発話した場合、音声認識対象語彙データベースに正式名称「北海道大学」が音声認識対象語彙として登録されているので、信号処理ユニット1によって「北海道大学」との音声認識結果を図3(d)の音声認識結果画像44における音声認識結果表示欄45に表示させることができる。
When the user operates the correction switch 5b of the
このように、「北海道大学」の言い換え語である「北大」が外部記憶装置15の音声認識対象語彙データベースに登録されていない場合、音声認識装置は、使用者が「北大」と発話しても、「北海道大学」との音声認識結果を出力できない。
As described above, when “Hokkaido University”, which is the paraphrase word of “Hokkaido University”, is not registered in the speech recognition target vocabulary database of the
これに対し、本発明を適用した音声認識装置は、使用者が実際に使用する言い換え語の実使用度を評価して、例えば「北大」という言い換え語の実使用度が高い場合には、当該言い換え語の「北大」を音声認識対象語彙データベースに登録することを特徴とするものである。すなわち、音声認識装置は、図5に示すように、(1)において使用者が「行き先」と発話し、(2)で「行き先のコマンドをどうぞ」との告知音声をスピーカ4から放音し、(3)で使用者が「施設」と発話し、(4)で「施設名をどうぞ」との告知音声をスピーカ4から放音したことに対し、使用者が「北大」と発話すると、当該「北大」の音声認識対象語彙が正式名称「北海道大学」の言い換え語として音声認識対象語彙データベースに登録されているので、(6)で「北海道大学」とスピーカ4から放音及び図3(d)に示す音声認識結果画像44において音声認識結果表示欄45に「北海道大学」と表示させることができる。
On the other hand, the speech recognition apparatus to which the present invention is applied evaluates the actual usage of the paraphrase actually used by the user. For example, when the actual usage of the paraphrase “Hokkaido” is high, The paraphrase word “Hokkaido University” is registered in the speech recognition target vocabulary database. That is, as shown in FIG. 5, the voice recognition device emits a notification voice from the speaker 4 that the user speaks “destination” in (1) and “please give a destination command” in (2). In (3), the user utters “facility”, and in (4), when the user utters “Hokkaido Univ.” Since the speech recognition target vocabulary of the “Hokkaido University” is registered in the speech recognition target vocabulary database as the paraphrase of the official name “Hokkaido University”, sound emission from “Hokkaido University” and the speaker 4 in FIG. In the speech recognition result
以下、このように音声認識対象語彙データベースに実使用度の高い言い換え語を登録する処理について、図6を参照して説明する。 Hereinafter, a process for registering a paraphrase word having a high actual use degree in the speech recognition target vocabulary database will be described with reference to FIG.
先ずステップS1において、信号処理装置11のCPU21は、使用者が発話スイッチ5aを操作したことを検出し、発話開始が指示されたことを判定して、処理をステップS2に進める。
First, in step S1, the
ステップS2において、CPU21は、音声認識処理のための待ち受け設定を行う。CPU21は、音声入力用のメニューとして図3(a)〜(d)の何れかの画像を表示して音声入力の待ち受け状態となる。なお、ステップS1で発話スイッチ5aが操作された直後においては、最上位階層である図3(a)の音声メニュー画像41を表示して待ち受け状態となるが、例えば「行き先」、「施設名」と操作名称を選択して下位層に向かうに従って図3(b)〜(d)の画像を表示させることになる。
In step S2, the
また、CPU21は、音声認識対象語彙データベースに登録されている音声認識対象語彙を外部記憶装置15からメモリ22に読み込む。そして、使用者の発話とともに操作名称データベース31,32といったように下位層に階層が進み、図2の音声認識対象語彙データベース33に登録されている語彙すなわち施設名称が音声認識対象語彙として読み込まれているとする。なお、全国全ての施設名称をメモリ22に読み込むことはメモリ容量及び音声認識演算速度の増加などの理由で難しいが、使用者の位置の近傍県内の施設および予め定められた全国の代表的な施設名称が読み込まれているとする。
Further, the
次のステップS3において、CPU21は、プロンプト、すなわち音声認識処理を開始した旨を使用者に告知する為に、外部記憶装置15に記憶されている告知音声信号をD/Aコンバータ13及びアンプ14を介してスピーカ4に出力し、告知音声をスピーカ4から放音させる。例えば施設名を発話させる場合、「施設名をどうぞ」などが告知音声に該当する。
In the next step S3, the
この告知音声に対し、例えば、図3(c)の施設名入力画像43を表示している場面において、図4の(5)のように正式名称「北海道大学」の言い換え語の「北大」と発話したとする。この場合、信号処理ユニット1は、マイク2からの音声信号をA/Dコンバータ12でディジタル信号に変換し、信号処理装置11に入力させると、CPU21によって発話スイッチ5aの操作がなされるまで、ディジタル信号の平均パワーを演算している。発話スイッチ5aが操作された後、信号処理装置11は、平均パワーと比較してディジタル信号の瞬間パワーが所定値以上大きくなった時に、使用者が発話したと判断して、音声取り込みを開始する。
For example, in the scene where the facility
次のステップS4において、CPU21は、ステップS3で音声信号の読み取りを開始して読み取った音声信号と、メモリ22に記憶されている音声認識対象語彙との一致度の演算を開始する。この一致度、すなわち音声区間部分と個々の音声認識対象語彙を示す音声信号が一致している度合いは、CPU21によって、音声区間ごとにスコアとして得られる。このスコアは、値が大きいほど、一致度が高いとする。なお、この音声区間ごとに一致度を求めている処理に平行して、音声取り込みを継続している。
In the next step S <b> 4, the
次のステップS5において、CPU21は、A/Dコンバータ12から得られた音声のディジタル信号の瞬間パワーが所定時間以上に亘って所定値以下になった時に、使用者の発話が終了したと判断し、音声の取り込みを終了する。
In the next step S5, the
次のステップS6において、CPU21は、図3(c)のように音声認識結果表示欄45を表示させている所定の名称入力階層であるか否かを判定する。すなわち、図3(a)、(b)のような音声メニュー画像41、行き先選択メニュー画像42を表示させる階層のように行き先、探索条件等の操作名称が入力される階層ではなく、行き先の施設名や住所等の正式名称や当該正式名称の言い換え語が入力される階層であるか否かを判定する。例えば発話とともに階層が進み、音声の取り込みが完了した時点の階層が、図3(c)の施設名入力画像43が表示されている階層である場合、正式名称、言い換え語が発話される可能性がある階層であると判定して、ステップS7に処理を進める。一方、音声メニュー画像41や行き先選択メニュー画像42のようにメニューリスト46から選択する操作名称を選択する階層であると判定した場合には、ステップS6からステップS8に処理を進める。
In the next step S6, the
ステップS7において、CPU21は、後のステップS14において使用者の発話「北大」が言い換え語である可能性を考慮するために、ステップS5で音声取り込みを終了した「北大」の音声を示すディジタル信号をメモリ22に一時保存する。
In step S7, the
次のステップS8において、CPU21は、音声認識対象語彙データベースに記憶されている音声認識対象語彙と、「北大」の音声を示すディジタル信号との一致度を求め、一致度の大きい順番で音声認識結果の候補を取得する。
In the next step S8, the
そして、次のステップS9において、CPU21は、ステップS8で取得した音声認識結果の候補を出力する。例えば図3(d)に示すように、CPU21は、音声認識結果画像44の音声認識結果表示欄45に、「北大」の音声を示すディジタル信号と最も一致度が高い音声認識対象語彙「国分駅」を音声認識結果として出力する。なお、音声認識結果の出力の仕方としては、CPU21の音声合成機能によって音声認識結果の「国分駅」を音声信号に変換して、D/Aコンバータ13及びアンプ14を介して、スピーカ4で「国分駅」と放音させても良い。
In the next step S9, the
その後、音声認識結果として「国分駅」を出力したことに対して、使用者によって、訂正スイッチ5bが操作される。その結果、信号処理装置11は、ステップS10において、ステップS9で音声認識結果を出力した後の所定時間(例えば数10秒)内に訂正スイッチ5bが操作されたことを検出したか否かを判定する。所定時間内に訂正スイッチ5bが操作されたことを検出した場合、処理をステップS10からステップS11に進め、所定時間内に訂正スイッチ5bが操作されたことが検出されなかった場合、処理をステップS10からステップS12に進める。
Thereafter, the correction switch 5b is operated by the user in response to outputting “Kokubun Station” as the voice recognition result. As a result, in step S10, the
ステップS11において、CPU21は、訂正スイッチ5bの操作回数をインクリメントして記録して、ステップS3に処理を進めて、ステップS3〜ステップS10の処理を繰り返して行う。その後、図4の(9)〜(16)のように、使用者から「北大」という発話が繰り返されて、その後に、図4の(17)にて「北海道大学」という正式名称を発話したとする。この場合、ステップS8において、音声認識対象語彙データベース33に「北海道大学」という正式名称が登録されていることから、当該「北海道大学」という音声認識対象語彙が最も一致度が高くなり、ステップS9において「北海道大学」という音声認識結果を出力できる。
In step S11, the
このように、「北海道大学」という音声認識結果を出力した後のステップS10においては、訂正スイッチ5bが操作されずに、CPU21は、処理をステップS10からステップS12に進める。
Thus, in step S10 after outputting the speech recognition result “Hokkaido University”, the correction switch 5b is not operated, and the
ステップS12において、CPU21は、ステップS9で音声認識結果を出力した音声認識対象語彙が操作名称であるか、正式名称又は言い換え語であるかを判定して、次の階層が有るか否かを判定する。次の階層がある場合には、ステップS2に処理を戻し、次の階層が無い場合には、ステップS13に処理を進める。例えば行き先として施設名の「北海道大学」を音声認識結果として出力した場合には、ステップS13に処理を進める。
In step S12, the
ステップS13において、CPU21は、図3(d)の音声認識結果画像44に含まれる「そこへ行く」ボタン47又は「地図を見る」ボタン48が選択されたことによって、音声認識結果を決定する。「そこへ行く」ボタン47又は「地図を見る」ボタン48が選択された場合、北海道大学の位置情報及びコマンドをナビゲーション装置(図示せずに)に供給して、ルート探索又は地図表示をさせる。
In step S <b> 13, the
次のステップS14において、CPU21は、使用者から発話された「北大」が、正式名称「北海道大学」の言い換え語である可能性を評価する。
In the next step S <b> 14, the
先ず、CPU21は、正式名称「北海道大学」から言い換え語を生成する。CPU21は、正式名称を、形態素解析プログラムにより形態素に分割し、「北海道」と「大学」に分割する。なお、形態素解析は、汎用プログラム(例えば、ChaSen-http://Chasen.aist-nara.ac.jp/)をCPU21で実行することで実現される。CPU21は、この2分割された2つの形態素「北海道」、「大学」から、それぞれ部分文字列を取り出して連結することで複数の言い換え語を生成する。例えば、2文字の言い換え語としては「北大」、「海大」、「道大」、「北学」、「海学」、「道学」が生成され、さらに他の文字数の言い換え語も生成される。
First, the
次にCPU21は、使用者が発話した言い換え語であって、ステップS7でメモリ22に一時記憶された言い換え語の実使用度を評価する。このとき、CPU21は、ステップS10で訂正スイッチ5bが操作されて、ステップS11で訂正スイッチ5bの操作回数が多いほど、当該言い換え語に対する使用者の使用意図が高く、当該言い換え語の実使用度が高いと評価する。そして、CPU21は、訂正スイッチ5bの操作回数が所定値以上であるか否かを判定して、所定値以上の場合には、当該言い換え語の実使用度が高く、言い換え語を音声認識対象語彙データベースに登録することを決定する。
Next, the
なお、使用者の使用意図は、訂正スイッチ5bの操作回数に限らず、同じ言い換え語「北大」を発話した回数であっても良い。例えば、正式名称「北海道大学」に対する言い換え語「北大」、「北海道大」とがステップS7でメモリ22に一時記憶され、言い換え語「北大」の方が多く発話されていた場合には、「北大」の方が使用意図が高いと判定できる。
The user's intention to use is not limited to the number of operations of the correction switch 5b, but may be the number of times the same paraphrase “Hokkaido” is spoken. For example, if the paraphrase words “Hokkaido University” and “Hokkaido University” for the official name “Hokkaido University” are temporarily stored in the
次にCPU21は、ステップS7でメモリ22に一時記憶された使用者の音声「北大」を入力音声とし、「北海道」、「大学」の2個の形態素から生成した言い換え語の全てを音声認識対象語彙とし、入力音声と音声認識対象語彙との一致度を演算する。その結果、CPU21は、一致度のスコアが所定の閾値以上の言い換え語が存在した場合には、当該入力音声を音声認識対象語彙として音声認識対象語彙データベースに登録する。
Next, the
また、CPU21は、「北海道大学」と同一カテゴリーである他の大学名称にも同様の言い換え語を生成して登録しても良い。すなわち、「北大」を音声認識対象語彙として音声認識対象語彙データベースに登録した場合、CPU21は、形態素解析した結果である「北海道」、「大学」それぞれの一文字目を連結して「北大」という言い換え語を作成するという規則を生成し、当該規則を他の大学の正式名称に適用して、音声認識対象語彙として登録してもよい。
Further, the
これにより、正式名称「北海道大学」と言い換え語「北大」とを音声認識対象語彙データベースに登録した後には、図5の(5)示すように、「北大」と使用者が発話したことに対する応答として、「北海道大学」という正式名称を音声認識結果として出力することができる。また、CPU21は、「北海道大学」と使用者が発話したことに対する応答として、「北海道大学」との音声認識結果を出力すると同時に、正式名称「北海道大学」の言い換え語として「北大」と発話しても正式名称「北海道大学」を音声認識結果として出力できることを図3(d)の音声認識結果画像44内で表示しても良い。
Thus, after registering the official name “Hokkaido University” and the paraphrase word “Hokkaido University” in the speech recognition target vocabulary database, as shown in FIG. 5 (5), the response to the user speaking “Hokkaido University” The official name “Hokkaido University” can be output as a speech recognition result. In addition, the
[第1実施形態の効果]
以上詳細に説明したように、本発明を適用した第1実施形態に係る音声認識装置によれば、実使用度の高い言い換え語を音声認識対象語彙として登録するので、実際に使用される可能性が高い言い換え語のみを音声認識対象語彙として追加登録でき、必要以上に音声認識対象語彙が多くなってしまう問題がなく、音声操作の使い勝手を大きく向上できる。
[Effect of the first embodiment]
As described above in detail, according to the speech recognition apparatus according to the first embodiment to which the present invention is applied, a paraphrase with high actual usage is registered as a speech recognition target vocabulary, so that it may be actually used. Only high paraphrasing words can be additionally registered as speech recognition target vocabulary, and there is no problem that the number of speech recognition target vocabularies increases more than necessary, and the usability of voice operation can be greatly improved.
また、この音声認識装置によれば、訂正スイッチ5bによって訂正された言い換え語(第1の音声認識結果)を記憶しておき、その後に入力した音声に基づく音声認識結果(第2の音声認識結果)が訂正されなかった場合に、訂正された音声認識結果(第1の音声認識結果)が訂正されなかった音声認識結果(第2の音声認識結果)の言い換え語として実使用度が高いという評価をするので、訂正された言い換え語のみを音声認識対象語彙として登録でき、必要以上に音声認識対象語彙を多くすることを回避できる。 In addition, according to this speech recognition apparatus, the paraphrase (first speech recognition result) corrected by the correction switch 5b is stored, and then the speech recognition result (second speech recognition result) based on the input speech. ) Is not corrected, it is evaluated that the corrected speech recognition result (first speech recognition result) is highly used as a paraphrase for the uncorrected speech recognition result (second speech recognition result). Therefore, only the corrected paraphrase word can be registered as the speech recognition target vocabulary, and it is possible to avoid increasing the speech recognition target vocabulary more than necessary.
更に、この音声認識装置によれば、訂正スイッチ5bを操作した操作回数から、言い換え語の使用意図が高い場合に、言い換え語を登録するので、多くの操作を費やして入力に至った、より使用意図の高い言い換え語のみを音声認識結果に追加登録でき、必要以上に音声認識結果が多くなることを回避できる。 Furthermore, according to this speech recognition apparatus, since the paraphrase word is registered when the intended use of the paraphrase word is high from the number of times the correction switch 5b has been operated, the operation is led to input by using many operations. Only paraphrases with high intent can be additionally registered in the speech recognition result, and an increase in the speech recognition result can be avoided.
更にまた、この音声認識装置によれば、言い換え語を音声認識対象語彙として登録した場合に、正式名称から当該言い換え語が生成された規則を求めて、当該言い換え語と同一カテゴリーに分類される他の正式名称の言い換え語を、当該規則に従って登録するので、例えば大学といったカテゴリーにおいて正式名称「北海道大学」が「北大」として登録された場合、同じカテゴリーの正式名称「ABC大学」から「A大」という言い換え語を登録できる。これにより、言い換え語を用いて音声認識装置を使いやすいものとできる。 Furthermore, according to this speech recognition apparatus, when a paraphrase word is registered as a speech recognition target vocabulary, a rule for generating the paraphrase word from the official name is obtained and classified into the same category as the paraphrase word. Since the official name “Hokkaido University” is registered as “Hokkaido University” in a category such as a university, for example, the official name “ABC University” to “A University” in the same category is registered. Can be registered. This makes it easy to use the speech recognition apparatus using paraphrased words.
更にまた、音声認識装置によれば、音声認識対象語彙として登録された言い換え語が、使用可能となったことを使用者に提示するので、次回使用時から言い換え語を速やかに使用させることが可能となる。 Furthermore, according to the speech recognition apparatus, since the paraphrase registered as the speech recognition target vocabulary is presented to the user, it is possible to promptly use the paraphrase from the next use. It becomes.
[第2実施形態]
つぎに、第2実施形態に係る音声認識装置について説明する。なお、第2実施形態に係る音声認識装置は、その構成が上述の第1実施形態と同様であるので、同一符号を付することによりその詳細な説明を省略する。
[Second Embodiment]
Next, a speech recognition apparatus according to the second embodiment will be described. In addition, since the structure of the speech recognition apparatus according to the second embodiment is the same as that of the above-described first embodiment, detailed description thereof is omitted by attaching the same reference numerals.
音声認識装置において、使用者が「厚木国際カントリー倶楽部」という正式名称の場所に行きたい又は地図表示させたい場合に、「厚木カントリー」という言い換え語が音声認識対象語彙データベースに登録されていない時の動作を説明する。 When the user wants to go to a place with the official name “Atsugi International Country Club” or display a map, the paraphrase “Atsugi Country” is not registered in the speech recognition target vocabulary database. The operation will be described.
このような音声認識装置においては、図3(a)に示す音声入力用の音声メニュー画像41をタッチパネルディスプレイ3に表示している時に、音声入力を受け付ける。
In such a voice recognition device, voice input is accepted when the
この音声メニュー画像41を表示させている状態において、CPU21は、図7の(1)のように使用者が「行き先」と発話し、当該「行き先」との音声認識結果を得ると、CPU21は、図7の(2)のように「行き先のコマンドをどうぞ」との告知音声をスピーカ4から放音させて、図3(b)の複数の操作名称を示すメニューリスト46を含む行き先選択メニュー画像42をタッチパネルディスプレイ3に表示させる。
In a state where the
図3(b)の行き先選択メニュー画像42を表示させている状態において、図7の(3)のように行き先選択メニュー画像42のメニューリスト46に含まれる「施設」という操作名称を使用者が発話し、CPU21によって「施設」との音声認識結果を得た場合には、図7の(4)のように「施設名をどうぞ」との告知音声をスピーカ4から放音させて、図3(c)に示す施設名入力画像43を表示させる。
In the state where the destination
図3(c)の施設名入力画像43を表示させている状態において、図7の(5)のように「厚木カントリー」と使用者が発話した場合、CPU21は、外部記憶装置15の音声認識対象語彙データベースには「厚木カントリー」が音声認識対象語彙として登録されていないことから、当該「厚木カントリー」に対する音声認識結果と最も近く音声認識対象語彙データベースに登録されている厚木駅を選択して、図3(d)の音声認識結果表示欄45に音声認識結果「厚木駅」を含む音声認識結果画像44を表示する。
When the user utters “Atsugi Country” as shown in (5) of FIG. 7 while the facility
この音声認識結果画像44を表示している状態において、図7の(7)のように訂正スイッチ5bを使用者が操作すると、図7の(8)のようにスピーカ4から「もう一度発話してください」との告知音声を放音させて、再度図3(c)の施設名入力画像43を表示させる。そして、再度使用者によって「厚木カントリー」と発話したことに対して、図7の(10)で「厚木駅」との音声認識結果を出力した場合、使用者が音声による入力をあきらめて、図7の(11)にて、タッチパネルディスプレイ3を用いた手操作入力で「厚木国際カントリー倶楽部」と入力させる。
When the user operates the correction switch 5b as shown in (7) of FIG. 7 in the state where the voice recognition result
このように、第2実施形態に係る音声認識装置は、音声認識に代わる代替入力手段を備えて、当該代替入力手段によって、音声認識結果とは異なる正式名称が入力された場合に、当該音声認識結果を、代替入力手段により入力した正式名称の言い換え語として実使用度が高いと評価して、音声認識対象語彙として登録することを特徴とする。 As described above, the speech recognition apparatus according to the second embodiment includes the alternative input unit that replaces the speech recognition, and when the formal input different from the speech recognition result is input by the alternative input unit, the speech recognition The result is evaluated as having high actual usage as a paraphrase of the formal name input by the alternative input means, and is registered as a speech recognition target vocabulary.
そして、音声認識装置は、図8の(1)において使用者が「行き先」と発話し、(2)で「行き先のコマンドをどうぞ」との告知音声をスピーカ4から放音し、(3)で使用者が「施設」と発話し、(4)で「施設名をどうぞ」との告知音声をスピーカ4から放音したことに対し、使用者が「厚木カントリー」と発話すると、当該「厚木カントリー」の音声認識結果が音声認識対象語彙データベースに登録されているので、図8の(6)で「厚木国際カントリー倶楽部」とスピーカ4から放音及び図3(d)に示す音声認識結果画像44において音声認識結果表示欄45に「厚木国際カントリー倶楽部」と表示させることができる。
Then, the voice recognition device utters “Destination” in (1) in FIG. 8 and emits a notification voice from the speaker 4 that “Please give a destination command” in (2). (3) When the user utters “facility” in (4) and utters an announcement sound “Please name the facility” from the speaker 4, the user utters “Atsugi country”. Since the speech recognition result of “Country” is registered in the speech recognition target vocabulary database, sound is output from “Atsugi International Country Club” and the speaker 4 in FIG. 8 (6), and the speech recognition result image shown in FIG. 44, “Atsugi International Country Club” can be displayed in the voice recognition result
以下、第2実施形態に係る音声認識装置の動作について図9及び図10を参照して説明する。 Hereinafter, the operation of the speech recognition apparatus according to the second embodiment will be described with reference to FIGS. 9 and 10.
第2実施形態に係る音声認識装置は、図9に示すように、図3(a)、(b)のように操作名称を含むメニューリスト46を表示させて操作を選択させる処理及び図3(c)、(d)のように正式名称又は言い換え語の音声認識結果を得る処理を行う。音声認識装置は、第1実施形態の音声認識装置と同様に、ステップS1〜ステップS9の処理を行い、ステップS10において、所定時間内に訂正スイッチ5bが操作されたことを検出した場合には、ステップS3に処理を戻し、所定時間内に訂正スイッチ5bが操作されなかった場合には、ステップS12に処理を進める。上述したように、第2実施形態に係る音声認識装置は、代替入力手段によって正式名称が入力されたことによって言い換え語の実使用度が高いことを評価するので、図6のステップS11のような訂正スイッチ5bの操作回数を記録する処理は行わない。そして、ステップS12において、次の下位層がないと判定した後のステップS13において、ステップS9で出力した音声認識結果を決定して処理を終了する。
As shown in FIG. 9, the speech recognition apparatus according to the second embodiment displays a
ここで、上述のように、使用者が言い換え語「厚木カントリー」の音声入力をあきらめて、タッチパネルディスプレイ3による操作入力によって正式名称「厚木国際カントリー倶楽部」を音声認識装置に認識させる場合、音声認識装置は、図10に示す処理を行うことによって、音声認識対象語彙データベースに実使用度の高い言い換え語を登録する。 Here, as described above, when the user gives up the voice input of the paraphrase word “Atsugi Country” and causes the voice recognition device to recognize the official name “Atsugi International Country Club” by the operation input by the touch panel display 3, the voice recognition is performed. The apparatus registers a paraphrase word having a high actual use degree in the speech recognition target vocabulary database by performing the processing shown in FIG.
図10に示すように、CPU21は、先ず、ステップS21において、図示しない入力装置5のメニュースイッチが操作されたことを検出した場合に、ステップS22に処理を進めて、メニュースイッチの操作に従ったメニュー画面を設定表示し、ステップS23において、タッチパネルディスプレイ3によって正式名称を入力する画面に遷移させるために、使用者による操作入力が確定すると、ステップS24において、現在表示している画面の下位層が存在するかを判定する。
As shown in FIG. 10, when the
CPU21は、ステップS24において、図11に示すように、音声入力に代替して正式名称を入力する代替入力画面51のように、下位層の画面が存在しないと判定した場合に、ステップS25に処理を進める。代替入力画面51には、使用者が入力しようとする正式名称のカテゴリー情報52、正式名称入力欄53、50音の文字入力ボタン54、リスト表示ボタン55が含まれる。カテゴリー情報52は、ステップS22及びステップS23において使用者によって選択されたカテゴリーである施設、当該施設の下位層のカテゴリーであるゴルフ場を示している。
If the
ステップS25において、CPU21は、代替入力画面51の文字入力ボタン54及びリスト表示ボタン55が使用者に操作されることを検出して、操作結果を決定する処理を行う。このとき、図11に示すように、施設の正式名称「厚木国際カントリー倶楽部」の一部の「あつぎ」が文字入力ボタン54の操作によって入力された後、リスト表示ボタン55が操作されると、図12に示すように、「あつぎ」を先頭に含む音声認識対象語彙をリスト化したリスト表示画面61を表示する。このとき、CPU21は、カテゴリーが施設の音声認識対象語彙のうち、「あつぎ」を含む部分一致検索を行って、外部記憶装置15の音声認識対象語彙データベースから「あつぎ」を含む音声認識対象語彙を抽出する。リスト表示画面61には、検索キーの「あつぎ」を含むリスト表示62と、「そこへ行く」ボタン63及び「地図を見る」ボタン64とを含む。
In step S25, the
このリスト表示画面61を表示させた後、使用者によってリスト表示62のうち「厚木国際カントリー倶楽部」が選択された場合、CPU21は、当該操作を検出して、操作結果を決定する。また、使用者が「厚木国際カントリー倶楽部」を選択し、更に、「そこへ行く」ボタン63又は「地図を見る」ボタン64が選択された時に、操作内容を決定しても良い。
After the
次に、CPU21は、ステップS26において、ステップS25で操作結果が決定される直前の時間帯(例えば数分)で図9の音声を入力する処理を行っていたか否かを判定する。このとき、CPU21は、例えばメモリ22に一時記憶した音声のディジタル信号を所定期間だけ保持するように構成した場合には、図9のステップS7で一時的にメモリ22に音声のディジタル信号が記憶されていると判定した時に、直前に音声入力が有ったと判定する。
Next, in step S <b> 26, the
次のステップS27において、CPU21は、ステップS26で判定したように、代替入力画面51からリスト表示画面61に遷移して正式名称を選択した直前に入力された音声から、言い換え語を生成して、音声認識対象語彙データベースに登録する処理を行う。例えば、使用者にとって正式名称が分からないために、音声入力によって正式名称を音声認識装置に認識させることができずに中断し、代替入力画面51から正式名称を入力した可能性があるので、言い換え語を生成する処理を行う。
In the next step S27, as determined in step S26, the
このステップS27において、CPU21は、直前に行われていた音声入力に関わる音声のディジタル信号をメモリ22から読み出し、この音声のディジタル信号から言い換え語を生成する。次に、CPU21は、生成した言い換え語と、メモリ22に記憶されていた音声のディジタル信号とを比較して、一致度が高い言い換え語を、正式名称に対する言い換え語であると判定する。このとき、CPU21は、例えば正式名称「厚木国際カントリー倶楽部」から、「厚木」、「国際」、「カントリー」、「倶楽部」という形態素を組み合わせて、「厚木カントリー」という言い換え語の候補を作成し、メモリ22に「厚木カントリー」が記憶されている場合には、当該「厚木カントリー」が「厚木国際カントリー倶楽部」の言い換え語であると判定して、音声認識対象語彙データベースに登録する。
In step S27, the
また、メモリ22に記憶されている音声のディジタル信号のうち、使用者の初期発話の音声のディジタル信号を選択して、正式名称から生成した言い換え語と照合し、初期発話の音声のディジタル信号と言い換え語との尤度の高い場合に、当該言い換え語を音声認識対象語彙データベースに登録することが望ましい。
In addition, the digital signal of the voice of the initial utterance of the user is selected from the digital signals of the voice stored in the
[第2実施形態の効果]
以上詳細に説明したように、本発明を適用した第2実施形態に係る音声認識装置によれば、代替入力画面51によって正式名称を入力した場合に、当該正式名称の入力よりも前に音声入力があった時には、当該音声の言い換え語を実使用度が高い言い換え語として音声認識対象語彙データベースに登録できるので、音声入力に代替する手段を用いてまで入力を継続したより使用意図の高い言い換え語のみを音声認識対象語彙データベースに登録でき、必要以上に音声認識対象語彙が多くなることを回避できる。
[Effects of Second Embodiment]
As described above in detail, according to the speech recognition apparatus according to the second embodiment to which the present invention is applied, when an official name is input on the
また、この音声認識装置によれば、代替入力画面51によって正式名称が入力された場合に、当該正式名称から生成した言い換え語と、メモリ22に記憶された使用者の初期発話の音声とを照合して、尤度の高い場合に言い換え語の実使用度が高いと評価して登録するので、使用者の固有の言い換え語を音声認識対象語彙データベースに登録でき、且つ必要以上に音声認識対象語彙が多くなることを回避できる。
Further, according to this speech recognition apparatus, when a formal name is input on the
[第3実施形態]
つぎに、第3実施形態に係る音声認識装置について説明する。なお、上述の実施形態と同様の部分については同一符号を付することによりその詳細な説明を省略する。
[Third Embodiment]
Next, a speech recognition apparatus according to the third embodiment will be described. Note that parts similar to those in the above-described embodiment are denoted by the same reference numerals, and detailed description thereof is omitted.
第3実施形態に係る音声認識装置は、図13に示すように、信号処理ユニット1に、ネットワークを介して情報コンテンツ記憶サーバ(情報コンテンツ記憶手段、図示せず)に接続された通信装置(通信手段)70が接続されている点で、上述した実施形態に係る音声認識装置とは異なる。この通信装置70は、信号処理ユニット1の命令に従って、例えばIP(Internet Protocol)等の通信プロトコルに従って通信処理を行う。
As shown in FIG. 13, the speech recognition apparatus according to the third embodiment includes a communication device (communication device) connected to an information content storage server (information content storage means, not shown) via a network. Means) 70 is connected to the speech recognition apparatus according to the above-described embodiment. The
この音声認識装置は、例えば行き先の施設名の正式名称が「関西学院大学」であり、言い換え語の「関学」が音声認識対象語彙データベースに登録されていない場合には、図14に示すような動作となり、後述するように言い換え語「関学」を音声認識対象語彙データベースに登録した場合には、図15に示す処理を行う。 For example, if the official name of the destination facility name is “Kwansei Gakuin University” and the paraphrase word “Kangaku” is not registered in the speech recognition target vocabulary database, this speech recognition apparatus has a name as shown in FIG. When the paraphrase word “Kakaku” is registered in the speech recognition target vocabulary database as described later, the processing shown in FIG. 15 is performed.
信号処理ユニット1は、図14の(1)のように使用者が「行き先」と発話し、当該「行き先」との音声認識結果を得ると、図14の(2)のように「行き先のコマンドをどうぞ」との告知音声をスピーカ4から放音させる。次に図14の(3)のように「施設」という操作名称を使用者が発話し、信号処理ユニット1によって「施設」との音声認識結果を得た場合には、図14の(4)のように「施設名をどうぞ」との告知音声をスピーカ4から放音させる。
When the user utters “destination” as shown in (1) of FIG. 14 and obtains a voice recognition result of the “destination” as shown in (1) of FIG. Announcement voice “Please command” is emitted from speaker 4. Next, as shown in FIG. 14 (3), when the user speaks the operation name “facility” and the
次に、信号処理ユニット1は、図14の(5)のように「関学」と使用者が発話した場合、外部記憶装置15の音声認識対象語彙データベースには「関学」が音声認識対象語彙として登録されていないことから、当該「関学」に対する音声認識結果と最も近く音声認識対象語彙データベースに登録されている甲府駅を選択する。次に、信号処理ユニット1は、図14の(7)のように訂正スイッチ5bを使用者が操作すると、図14の(8)のようにスピーカ4から「もう一度発話してください」との告知音声を放音させ、再度使用者によって「関学」と発話したことに対して、図14の(10)で「甲府駅」との音声認識結果を出力した場合、使用者が音声による入力をあきらめて、図14の(11)にて、タッチパネルディスプレイ3を用いた手操作入力で「関西学院大学」と入力させる。
Next, when the user utters “Sekigaku” as shown in FIG. 14 (5), the
この図14の(11)において、信号処理ユニット1は、図16に示すように、カントリー「大学」の代替入力画面51から、文字入力ボタン54を操作させて正式名称入力欄53に「かん」が入力され、更にリスト表示ボタン55が操作された場合、図17に示すリスト表示画面61を表示する。そして、リスト表示画面61のリスト表示62のうち、「関西学院大学」が選択されて、正式名称「関西学院大学」が入力される。
In (11) of FIG. 14, the
次に、信号処理ユニット1は、正式名称「関西学院大学」から言い換え語「関学」を生成し、当該生成した言い換え語「関学」を検索キーとしてネットワーク上の情報コンテンツ記憶サーバに記憶されている情報コンテンツを検索するように通信装置70を制御する。そして、信号処理ユニット1は、生成された言い換え語「関学」が通信装置70で接続した情報コンテンツ記憶サーバに記憶されている情報コンテンツに含まれている場合に、当該言い換え語「関学」の実使用度が高いと評価して、音声認識対象語彙データベースに登録する。
Next, the
そして、音声認識装置は、図15の(1)において使用者が「行き先」と発話し、(2)で「行き先のコマンドをどうぞ」との告知音声をスピーカ4から放音し、(3)で使用者が「施設」と発話し、(4)で「施設名をどうぞ」との告知音声をスピーカ4から放音したことに対し、使用者が「関学」と発話すると、当該「関学」の音声認識結果が音声認識対象語彙データベースに登録されているので、図15の(6)で「関西学院大学」とスピーカ4から放音及び図3(d)に示す音声認識結果画像44において音声認識結果表示欄45に「関西学院大学」と表示させることができる。
Then, the voice recognition device utters “Destination” in (1) in FIG. 15, and emits a notification voice from the speaker 4 that “Please give a destination command” in (2). (3) When the user utters “facilities” in (4) and utters the announcement sound from the speaker 4 that “please name the facility”, the user utters “Sekigaku”. 15 is registered in the speech recognition target vocabulary database, so that “Kwansei Gakuin University” and sound are emitted from the speaker 4 in (6) of FIG. 15 and the speech recognition result
この音声認識装置の処理は、図18に示すように、ステップS1〜ステップS5の処理によって使用者から発話された音声を取り込んだ後に、ステップS8〜ステップS10、ステップS12及びステップS13を行う。ここで、第2実施形態に係る音声認識装置が行う図9の処理に対して、ステップS6及びステップS7の処理を第3実施形態に係る音声認識装置では行っていない。この理由としては、第3実施形態に係る音声認識装置が、代替入力画面51及びリスト表示画面61を表示して入力された正式名称から、実使用度の高い言い換え語を生成するために、使用者から発話された言い換え語の音声をメモリ22に記憶するステップS7を行わないことによる。
As shown in FIG. 18, the voice recognition apparatus performs the steps S8 to S10, S12, and S13 after capturing the voice uttered by the user in the processes of steps S1 to S5. Here, in contrast to the process of FIG. 9 performed by the speech recognition apparatus according to the second embodiment, the processes of step S6 and step S7 are not performed by the speech recognition apparatus according to the third embodiment. The reason for this is that the speech recognition apparatus according to the third embodiment uses the
また、第3実施形態に係る音声認識装置は、第2実施形態において説明した図10と同様に、ステップS21〜ステップS26の処理を行い、ステップS26において、直前に図18に示す処理が行われたと判定した場合には、ステップS27にて言い換え語を生成して、実使用度の高い言い換え語を音声認識対象語彙データベースに登録する処理を行う。 In addition, the speech recognition apparatus according to the third embodiment performs the processing of step S21 to step S26 as in FIG. 10 described in the second embodiment, and in step S26, the processing illustrated in FIG. 18 is performed immediately before. If it is determined that the paraphrase word is generated in step S27, a process of registering the paraphrase word having a high actual usage in the speech recognition target vocabulary database is performed.
このステップS27において、信号処理ユニット1は、先ず、正式名称「関西学院大学」から言い換え語を生成する。このとき、信号処理ユニット1は、正式名称「関西学院大学」を形態素解析プログラムによって形態素に分割させ、「関西」と「学院」と「大学」に分割させる。次に信号処理ユニット1は、3個の形態素からそれぞれ部分文字列を取り出して、連結することで複数の言い換え語を生成する。例えば、2文字の言い換え語として「関学」、「西学」、「関院」、「西院」、「関大」、「西大」、「学大」、「院大」、「関学」、「西学」、「学学」、「院学」を生成し、さらに他の文字数の言い換え語も生成する。
In step S27, the
次に信号処理ユニット1は、通信装置70を制御して、ネットワーク上の情報コンテンツにアクセスさせて、言い換え語が実際に使われているかを評価する。このとき、信号処理ユニット1は、先ず、通信装置70によって、生成した言い換え語を検索キーとして、Webホームページ等の情報コンテンツを検索させる。次に信号処理ユニット1は、検索結果件数を通信装置70から取得し、当該検索結果件数が所定の閾値以上であるか否かを判定して、閾値以上である場合に当該検索結果の情報コンテンツに正式名称が存在する情報コンテンツが存在するか否かを判定する。情報コンテンツに正式名称が存在した場合、信号処理ユニット1は、検索キーとした言い換え語が実際に使用されているものと判断して、当該言い換え語を音声認識対象語彙として登録する。
Next, the
このように、信号処理ユニット1によって、正式名称「関西学院大学」から生成した言い換え語のうちの「関学」を検索キーとして情報コンテンツを検索した結果、検索結果である情報コンテンツの数が所定数以上となった実使用度の高い言い換え語であり、当該情報コンテンツに正式名称「関西学院大学」が含まれている場合に、言い換え語「関学」を音声認識対象語彙として登録できる。
As described above, as a result of searching the information content by using “Kan Gaku” among the paraphrases generated from the official name “Kwansei Gakuin University” by the
また、信号処理ユニット1は、通信装置70によって検索キーを言い換え語として検索した結果として得られた情報コンテンツがHTML(Hypertext Markup Language)などの構造化言語で記述されている場合、当該HTMLデータのタイトル部分に正式名称が存在するかを判定する。そして、HTMLデータのタイトル部分に正式名称が存在した場合、当該検索キーとした言い換え語の実使用度が高いと評価して、音声認識対象語彙として登録するとしても良い。
In addition, when the information content obtained as a result of searching the search key as a paraphrase by the
更に、信号処理ユニット1は、代替入力画面51及びリスト表示画面61によって得られた正式名称のカテゴリーが地点名称である場合に、通信装置70によって情報コンテンツを検索する検索キーとして正式名称である地点名称のみならず、当該地点名称の位置情報を加えることが望ましい。
Further, when the category of the formal name obtained from the
[第3実施形態の効果]
以上詳細に説明したように、本発明を適用した第3実施形態に係る音声認識装置によれば、通信装置70によって検索した言い換え語が複数の情報コンテンツに含まれている場合に、当該言い換え語の実使用度が高いと評価するので、設計時に認知できなかったより一般的に用いられている言い換え語を登録することが可能になり、言い換え語の認識率を高くすることができ、且つ、必要以上に音声認識対象語彙が多くなることを回避できる。
[Effect of the third embodiment]
As described above in detail, according to the speech recognition apparatus according to the third embodiment to which the present invention is applied, when a paraphrase searched by the
また、音声認識装置によれば、言い換え語が含まれている情報コンテンツ数が所定値以上である場合に、当該言い換え語の実使用度が高いと評価するので、実使用度が高いと評価する所定値を高くすることによって言い換え語を登録する精度を向上でき、使いやすさを大きく向上でき、且つ、必要以上に音声認識対象語彙が多くなることを回避できる。 Further, according to the speech recognition apparatus, when the number of information contents including a paraphrase word is equal to or greater than a predetermined value, it is evaluated that the actual usage of the paraphrase word is high. By increasing the predetermined value, the accuracy of registering paraphrased words can be improved, the ease of use can be greatly improved, and an increase in the vocabulary for speech recognition can be avoided.
更にまた、音声認識装置によれば、通信装置70で検索された情報コンテンツ中に、正式名称と当該正式名称から生成された言い換え語との両方が共起している場合に、当該言い換え語の実使用度が高いと評価するので、言い換え語を登録する精度を大きく向上でき、使いやすさを大きく向上できる。
Furthermore, according to the speech recognition apparatus, when both the formal name and the paraphrase generated from the formal name co-occur in the information content retrieved by the
更にまた、音声認識装置によれば、言い換え語を検索条件として情報コンテンツの検索を行い、検索された情報コンテンツに正式名称が含まれる場合に、当該言い換え語の実使用度が高いと評価するので、個人的な情報コンテンツであっても、検索結果として得ることができ、新たな言い換え語をより迅速に登録することが可能となり、使いやすさを大きく向上できる。 Furthermore, according to the speech recognition apparatus, when the information content is searched using the paraphrase word as a search condition and the official name is included in the searched information content, it is evaluated that the actual usage of the paraphrase word is high. Even personal information content can be obtained as a search result, a new paraphrase can be registered more quickly, and the usability can be greatly improved.
更にまた、音声認識装置によれば、言い換え語を検索条件として情報コンテンツの検索を行い、情報コンテンツのタイトル部分に正式名称が含まれる場合に、当該言い換え語の実使用度が高いと評価するので、言い換え語を登録する精度を極めて高くすることができる。 Furthermore, according to the speech recognition apparatus, when the information content is searched using the paraphrase word as a search condition, and the official name is included in the title portion of the information content, it is evaluated that the actual usage of the paraphrase word is high. The accuracy of registering paraphrased words can be made extremely high.
更にまた、音声認識装置によれば、正式名称のカテゴリが地点名称である場合に、情報コンテンツの検索条件に当該地点名称の情報コンテンツを含めて検索するので、誤検索を少なくでき、誤った言い換え語の登録を避けることができる。 Furthermore, according to the speech recognition apparatus, when the category of the official name is a spot name, the search is performed by including the information content of the spot name in the information content search condition. Avoid registering words.
なお、上述の実施の形態は本発明の一例である。このため、本発明は、上述の実施形態に限定されることはなく、この実施の形態以外であっても、本発明に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能であることは勿論である。 The above-described embodiment is an example of the present invention. For this reason, the present invention is not limited to the above-described embodiment, and various modifications can be made depending on the design and the like as long as the technical idea according to the present invention is not deviated from this embodiment. Of course, it is possible to change.
1 信号処理ユニット
2 マイク
3 タッチパネルディスプレイ
4 スピーカ
5 入力装置
5a 発話スイッチ
5b 訂正スイッチ
11 信号処理装置
12 A/Dコンバータ
13 D/Aコンバータ
14 アンプ
15 外部記憶装置
21 CPU
22 メモリ
31,32 操作名称データベース
33 音声認識対象語彙データベース
41 音声メニュー画像
42 先選択メニュー画像
43 施設名入力画像
44 音声認識結果画像
45 音声認識結果表示欄
46 メニューリスト
47,63 「そこへ行く」ボタン
48,64 「地図を見る」ボタン
51 代替入力画面
52 カテゴリー情報
53 正式名称入力欄
54 文字入力ボタン
55 リスト表示ボタン
61 リスト表示画面
62 リスト表示
70 通信装置
DESCRIPTION OF
22
Claims (13)
正式名称を音声認識対象語彙として記憶した記憶手段と、
前記記憶手段に記憶された正式名称から言い換え語を生成する言い換え語生成手段と、
前記言い換え語生成手段によって生成された言い換え語の実使用度を評価する実使用度評価手段と、
前記言い換え語生成手段によって生成された言い換え語を音声認識対象語彙として前記記憶手段に登録する登録手段とを有し、
前記登録手段は、前記実用度評価手段によって実使用度が高いと評価された言い換え語のみを音声認識対象語彙として登録することを特徴とする音声認識装置。 A speech recognition device comprising speech recognition means for recognizing speech emitted from a user,
Storage means for storing the official name as a speech recognition target vocabulary;
Paraphrase word generating means for generating a paraphrase word from the formal name stored in the storage means;
Actual usage evaluation means for evaluating the actual usage of the paraphrase generated by the paraphrase generation means;
Registration means for registering the paraphrase word generated by the paraphrase word generation means in the storage means as a speech recognition target vocabulary;
The said registration means registers only the paraphrase word evaluated that the actual usage is high by the said practicality evaluation means as a speech recognition object vocabulary, The speech recognition apparatus characterized by the above-mentioned.
前記実使用度評価手段は、前記訂正指示手段で第1の音声認識結果を訂正する指示を入力した場合に当該第1の音声認識結果を一時記憶しておき、その後に、前記音声認識手段で生成した第2の音声認識結果に対して前記訂正指示手段で訂正されずに確定された場合に、前記第1の音声認識結果を、前記第2の音声認識結果の言い換え語として実使用度が高いと評価することを特徴とする請求項1に記載の音声認識装置。 A correction instruction means for inputting an instruction to correct the voice recognition result generated by the voice recognition means for the voice emitted from the user;
The actual usage evaluation means temporarily stores the first voice recognition result when an instruction to correct the first voice recognition result is input by the correction instruction means, and then the voice recognition means When the generated second speech recognition result is determined without being corrected by the correction instruction means, the first speech recognition result is used as a paraphrase for the second speech recognition result. The speech recognition apparatus according to claim 1, wherein the speech recognition apparatus is evaluated as being high.
前記実使用度評価手段は、前記使用意図判断手段で使用意図が高いと判断された言い換え語を実使用度が高い言い換え語と評価することを特徴とする請求項2に記載の音声認識装置。 A use intention judging means for judging the use intention of the paraphrase word from the operation amount of the correction instruction means of the user;
The speech recognition apparatus according to claim 2, wherein the actual usage evaluation unit evaluates a paraphrase that has been determined to have a high use intention by the use intention determination unit as a paraphrase having a high actual usage.
前記実使用度評価手段は、前記音声認識手段の音声認識結果とは異なる正式名称を前記代替入力手段により入力した場合に、前記音声認識手段の音声認識結果を、前記代替入力手段により入力された正式名称の言い換え語として実使用度が高いと評価することを特徴とする請求項1に記載の音声認識装置。 It further comprises an alternative input means for inputting a formal name by a user operation instead of voice,
When the actual usage evaluation means inputs a formal name different from the voice recognition result of the voice recognition means by the alternative input means, the voice recognition result of the voice recognition means is input by the alternative input means. The speech recognition apparatus according to claim 1, wherein the speech recognition apparatus evaluates that the actual usage is high as a paraphrase of the official name.
前記実使用度評価手段は、前記通信手段によって前記言い換え語生成手段で生成された言い換え語を前記情報コンテンツから検索した結果、当該言い換え語が複数の情報コンテンツに含まれている場合に、当該言い換え語の実使用度が高いと評価することを特徴とする請求項1に記載の音声認識装置。 A communication means for searching for information content included in the network;
If the paraphrase word is included in a plurality of information contents as a result of searching the information content for the paraphrase word generated by the paraphrase word generation unit by the communication unit, The speech recognition apparatus according to claim 1, wherein the speech recognition apparatus evaluates that the word usage is high.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006220448A JP4967519B2 (en) | 2006-08-11 | 2006-08-11 | Voice recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006220448A JP4967519B2 (en) | 2006-08-11 | 2006-08-11 | Voice recognition device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008046260A true JP2008046260A (en) | 2008-02-28 |
JP4967519B2 JP4967519B2 (en) | 2012-07-04 |
Family
ID=39180077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006220448A Expired - Fee Related JP4967519B2 (en) | 2006-08-11 | 2006-08-11 | Voice recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4967519B2 (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010156925A (en) * | 2009-01-05 | 2010-07-15 | Alpine Electronics Inc | Information processing apparatus and speech recognition dictionary creation method |
WO2011030817A1 (en) * | 2009-09-09 | 2011-03-17 | クラリオン株式会社 | Information retrieving apparatus, information retrieving method and navigation system |
JP2011064969A (en) * | 2009-09-17 | 2011-03-31 | Alpine Electronics Inc | Device and method of speech recognition |
JP2012226299A (en) * | 2011-04-14 | 2012-11-15 | Hyundai Motor Co Ltd | Apparatus and method for processing voice command |
JP2013174644A (en) * | 2012-02-23 | 2013-09-05 | Ntt Docomo Inc | Communication terminal, control method and program |
JPWO2014103568A1 (en) * | 2012-12-28 | 2017-01-12 | ソニー株式会社 | Information processing apparatus, information processing method, and program |
JP2017161644A (en) * | 2016-03-08 | 2017-09-14 | トヨタ自動車株式会社 | Speech processing system and speech processing method |
WO2024019186A1 (en) * | 2022-07-19 | 2024-01-25 | 엘지전자 주식회사 | Display device and operating method thereof |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6126096A (en) * | 1984-07-16 | 1986-02-05 | 富士通株式会社 | Preliminary evaluation system for voice recognition word |
WO2004044887A1 (en) * | 2002-11-11 | 2004-05-27 | Matsushita Electric Industrial Co., Ltd. | Speech recognition dictionary creation device and speech recognition device |
JP2005031255A (en) * | 2003-07-09 | 2005-02-03 | Mitsubishi Electric Corp | Dictionary creating device and speech recognizing device |
JP2005338274A (en) * | 2004-05-25 | 2005-12-08 | Mitsubishi Electric Corp | Voice interaction device |
-
2006
- 2006-08-11 JP JP2006220448A patent/JP4967519B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6126096A (en) * | 1984-07-16 | 1986-02-05 | 富士通株式会社 | Preliminary evaluation system for voice recognition word |
WO2004044887A1 (en) * | 2002-11-11 | 2004-05-27 | Matsushita Electric Industrial Co., Ltd. | Speech recognition dictionary creation device and speech recognition device |
JP2005031255A (en) * | 2003-07-09 | 2005-02-03 | Mitsubishi Electric Corp | Dictionary creating device and speech recognizing device |
JP2005338274A (en) * | 2004-05-25 | 2005-12-08 | Mitsubishi Electric Corp | Voice interaction device |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010156925A (en) * | 2009-01-05 | 2010-07-15 | Alpine Electronics Inc | Information processing apparatus and speech recognition dictionary creation method |
WO2011030817A1 (en) * | 2009-09-09 | 2011-03-17 | クラリオン株式会社 | Information retrieving apparatus, information retrieving method and navigation system |
JP2011059313A (en) * | 2009-09-09 | 2011-03-24 | Clarion Co Ltd | Information retrieval device, information retrieval method and navigation system |
CN102549652A (en) * | 2009-09-09 | 2012-07-04 | 歌乐株式会社 | Information retrieving apparatus, information retrieving method and navigation system |
US8949133B2 (en) | 2009-09-09 | 2015-02-03 | Clarion Co., Ltd. | Information retrieving apparatus |
EP2477186A4 (en) * | 2009-09-09 | 2015-09-16 | Clarion Co Ltd | Information retrieving apparatus, information retrieving method and navigation system |
JP2011064969A (en) * | 2009-09-17 | 2011-03-31 | Alpine Electronics Inc | Device and method of speech recognition |
JP2012226299A (en) * | 2011-04-14 | 2012-11-15 | Hyundai Motor Co Ltd | Apparatus and method for processing voice command |
JP2013174644A (en) * | 2012-02-23 | 2013-09-05 | Ntt Docomo Inc | Communication terminal, control method and program |
JPWO2014103568A1 (en) * | 2012-12-28 | 2017-01-12 | ソニー株式会社 | Information processing apparatus, information processing method, and program |
JP2017161644A (en) * | 2016-03-08 | 2017-09-14 | トヨタ自動車株式会社 | Speech processing system and speech processing method |
WO2024019186A1 (en) * | 2022-07-19 | 2024-01-25 | 엘지전자 주식회사 | Display device and operating method thereof |
Also Published As
Publication number | Publication date |
---|---|
JP4967519B2 (en) | 2012-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4967519B2 (en) | Voice recognition device | |
CN106663424B (en) | Intention understanding device and method | |
US8949133B2 (en) | Information retrieving apparatus | |
JP5824829B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
JPWO2006040971A1 (en) | Dialogue support device | |
JP4867622B2 (en) | Speech recognition apparatus and speech recognition method | |
JP4466379B2 (en) | In-vehicle speech recognition device | |
JP2013109061A (en) | Voice data retrieval system and program for the same | |
JP4634156B2 (en) | Voice dialogue method and voice dialogue apparatus | |
JP2002123290A (en) | Speech recognition device and speech recognition method | |
JP2009198614A (en) | Interaction device and program | |
JP5217838B2 (en) | In-vehicle device operating device and in-vehicle device operating method | |
JP4914632B2 (en) | Navigation device | |
JP2015038526A (en) | Speech processing device and speech processing method | |
JP4639990B2 (en) | Spoken dialogue apparatus and speech understanding result generation method | |
JP2003162293A (en) | Device and method for voice recognition | |
JP6499228B2 (en) | Text generating apparatus, method, and program | |
JP2011039185A (en) | Voice interactive device and voice interactive program | |
JP6746886B2 (en) | Learning support device and program for the learning support device | |
JP2004029354A (en) | Speech recognition device, speech recognition method, and speech recognition program | |
JP2005322148A (en) | Browser device | |
JP2000089782A (en) | Device and method for recognizing voice, navigation system and recording medium | |
JP2002268667A (en) | Presentation system and control method therefor | |
WO2011030404A1 (en) | Operating system and operating method | |
JP2009175233A (en) | Speech recognition device, navigation device, and destination setting program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090327 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110113 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110816 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111005 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120306 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120319 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150413 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |