JP2008191581A - Voice input support method and device, and navigation system - Google Patents
Voice input support method and device, and navigation system Download PDFInfo
- Publication number
- JP2008191581A JP2008191581A JP2007028326A JP2007028326A JP2008191581A JP 2008191581 A JP2008191581 A JP 2008191581A JP 2007028326 A JP2007028326 A JP 2007028326A JP 2007028326 A JP2007028326 A JP 2007028326A JP 2008191581 A JP2008191581 A JP 2008191581A
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- input
- speech recognition
- word
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
この発明は、特に、施設検索や目的地設定を行う車載装置に用いて好適な、音声入力支援方法および装置、ならびにナビゲーションシステムに関するものである。 The present invention particularly relates to a voice input support method and apparatus, and a navigation system, which are suitable for use in an in-vehicle apparatus that performs facility search and destination setting.
ユーザにより発話された音声を、辞書検索により認識して合成音声を出力する音声認識装置が広く用いられるようになった。カーナビゲーションの分野においても上記した音声認識装置を用い、操作性および利便性の向上をはかることが通常行なわれている。音声認識は、通常、発話された音声を特徴量に変換し、この特徴量に基づく確率統計的な手法により文字列に変換する仕組みにより実現される。 A speech recognition apparatus that recognizes speech uttered by a user by dictionary search and outputs synthesized speech has been widely used. Also in the field of car navigation, the above-described voice recognition device is usually used to improve operability and convenience. Speech recognition is usually realized by a mechanism that converts spoken speech into a feature value and converts it into a character string by a probabilistic method based on this feature value.
図6に、従来の音声認識システムにおける音声認識処理の基本的な流れが示されている。図6において、符号60は、音声認識装置である。また、符号61は音声認識の対象となる単語データベース(以下、単に単語辞書DB61という)であり、ここには文字列データが格納されている。また、符号62は、単語辞書DB61に対応した音響モデルのデータベース(以下、単に音響モデルDB62という)であり、ここには波形特徴量データが格納されている。
FIG. 6 shows a basic flow of voice recognition processing in a conventional voice recognition system. In FIG. 6,
音声認識装置60は、単語辞書DB61と音響モデルDB62とを組み合わせて検索することにより、単語や句や文の認識が可能となる。具体的に、音声認識装置60は、音声認識の波形特徴量マッチング処理を行う。これはユーザの発話の波形特徴量データと、認識単語の波形特徴量データとの類似度判定を行う処理であり、DP(Dynamic Programming)やHMM(Hidden Marcov Model)などの手法がある。類似度判定の結果、最大尤度の波形特徴量データを音声認識結果として出力し、その音声認識結果はアプリケーションに引き渡される。アプリケーションの例としては、例えば、エアコンの制御(温度設定、風量、風向など)やCD(Compact Disc)やDVD(Digital Versatile Disc)などの記録メディアの操作(次のトラック、前のトラックなど)やカーナビゲーションシステムの施設検索や目的地設定などがある。
The
ところで、車載装置における目的地設定の際の音声認識の不完全さを補うことを目的に、音素単位で音声認識を行い、その認識結果を文字列として入力し、データベースを検索(所定の距離尺度にしたがって照合)して距離の近い上位M個の照合結果を出力し、話者にその1つを選択させることにより入力する技術が知られている(例えば、特許文献1参照)。 By the way, in order to make up for incomplete speech recognition when setting a destination in an in-vehicle device, speech recognition is performed on a phoneme basis, the recognition result is input as a character string, and a database is searched (predetermined distance scale A technique is known in which the top M closest matching results are output and input by allowing a speaker to select one of them (see, for example, Patent Document 1).
しかしながら、上記した特許文献1に開示された技術によれば、音素単位の音声認識を行っており、仮名をキーにデータベース検索を行っているため、地名等、特殊な読み方をする目的地検索については有効でない。例えば、「枚方駅(ひらかたえき)」を検索したい場合、その地域に住んでいない人が読むであろうと考えられる「まきかたえき」と発話した場合、データベース検索の照合結果である上位M個に「枚方駅」が出力されることはなく、結果として発話者であるユーザは音声認識による入力ができないという問題がある。
同様に、「三田」は、地域によっては「みた」と読む場合と、「さんだ」と読む場合があり、その読み方よっては期待する目的地検索ができないという問題があった。
However, according to the technique disclosed in Patent Document 1 described above, since speech recognition is performed in units of phonemes and a database search is performed using a pseudonym as a key, a destination search for special reading such as a place name is performed. Is not valid. For example, if you want to search for “Hirakata Station”, if you say “Maki Kataeki” that people who do not live in the area will read, then the top M that is the result of matching the database search. “Hirakata Station” is not output individually, and as a result, the user who is the speaker cannot input by voice recognition.
Similarly, “Mita” may be read as “Mita” or “Sanda” depending on the region, and there is a problem that the expected destination search cannot be performed depending on the reading.
また、上記した特許文献1に開示された技術によれば、不完全な仮名入力を修正する手間(不完全な位置を特定し、それを置換する等の手間)を考えれば、初めから読みを入力したほうが速い場合が多いと考えられる。さらに、全文検索を行う場合は目的地などの全文文字列(フルスペル)を入力する必要はない。この場合、確実なテキスト入力を初めから行うため、構成として必須の「誤りやすさデータベース」の存在は意味が無いことになる。
また、特許文献1に開示された技術によれば、音声認識は基本的に距離尺度で音響モデルと照合するため、認識候補としては常に複数存在し、このため、ユーザは、上位M個の中から目的地として最適な1つを選択する操作が必要になる。これに対し、最初から文字列入力によって検索する場合は、初めから正しい入力を行うことができるため、検索結果が一意に決まる場合はユーザに選択させる手間が不要になる。
In addition, according to the technique disclosed in the above-mentioned Patent Document 1, considering the trouble of correcting an incomplete kana input (the trouble of specifying an incomplete position and replacing it), the reading is started from the beginning. It is likely that typing is faster. Furthermore, when performing a full text search, it is not necessary to input a full text string (full spelling) such as a destination. In this case, since reliable text input is performed from the beginning, the existence of an “error susceptibility database” essential as a configuration is meaningless.
Further, according to the technique disclosed in Patent Document 1, since speech recognition is basically collated with an acoustic model using a distance scale, there are always a plurality of recognition candidates. Therefore, it is necessary to select an optimum destination as the destination. On the other hand, when searching by character string input from the beginning, correct input can be performed from the beginning, so that the user is not required to select when the search result is uniquely determined.
この発明は上記した課題を解決するためになされたものであり、発話内容の同定を支援する仕組みを構築することにより、一層の操作性と利便性の向上をはかった、音声入力支援方法および装置、ならびにナビゲーションシステムを得ることを目的とする。 SUMMARY OF THE INVENTION The present invention has been made to solve the above-described problem, and a voice input support method and apparatus that further improves operability and convenience by constructing a mechanism for supporting identification of utterance contents. And to obtain a navigation system.
上記した課題を解決するためにこの発明に係る音声入力支援方法は、発話内容を取得し、単語に対応した音響モデルが格納される第2の辞書を検索して音声認識を行う第1のステップと、前記音声認識に失敗した場合に入力され取得される前記単語の文字列から第1の辞書を検索して音声認識可能な単語を出力する第2のステップと、を有するものである。 In order to solve the above-described problem, the speech input support method according to the present invention is a first step of acquiring speech content, searching a second dictionary in which an acoustic model corresponding to a word is stored, and performing speech recognition. And a second step of searching the first dictionary from the character string of the word that is input and acquired when the speech recognition fails and outputting a speech-recognizable word.
また、この発明に係る音声入力支援装置は、音声認識が可能な単語からなる第1の辞書と、前記単語に対応した音響モデルからなる第2の辞書が格納される記憶部と、発話内容を取得し、前記記憶部に格納された第2の辞書を検索して音声認識を行う音声認識部と、前記音声認識に失敗した場合に入力され取得される前記単語の文字列から前記記憶部に格納された第1の辞書を検索して音声認識可能な単語を出力する全文検索処理部と、を備えたものである。 In addition, the speech input support device according to the present invention includes a first dictionary composed of words capable of speech recognition, a storage unit storing a second dictionary composed of acoustic models corresponding to the words, and utterance contents. A speech recognition unit that acquires and performs speech recognition by searching the second dictionary stored in the storage unit, and a character string of the word that is input and acquired when the speech recognition fails, to the storage unit And a full-text search processing unit that searches the stored first dictionary and outputs a speech-recognizable word.
また、この発明に係るナビゲーションシステムは、音声認識可能な施設名もしくは目的地名からなる第1の辞書、前記施設名もしくは目的地名に対応した音響モデルからなる第2の辞書が格納される記憶部と、前記施設名もしくは目的地名からなる発話内容を取得して前記記憶部に格納された第2の辞書を検索して音声認識を行ない、前記音声認識に失敗した場合に入力され取得される施設名もしくは目的地名の文字列から前記記憶部に格納された第1の辞書を検索して音声認識可能な施設名もしくは目的地名を出力し、前記出力された施設名もしくは目的地名に基づき、施設名検索もしくは目的地設定によるナビゲーションを行う制御部と、を備えたものである。 In addition, the navigation system according to the present invention includes a storage unit storing a first dictionary composed of facility names or destination names capable of voice recognition, and a second dictionary composed of acoustic models corresponding to the facility names or destination names. , The name of the facility that is input and acquired when the speech content consisting of the facility name or the destination name is acquired, the second dictionary stored in the storage unit is searched for speech recognition, and the speech recognition fails. Alternatively, the first dictionary stored in the storage unit is searched from the character string of the destination name to output a facility name or destination name that can be recognized by voice, and the facility name search is performed based on the output facility name or destination name. Alternatively, a control unit that performs navigation by destination setting is provided.
この発明によれば、発話内容の同定を支援する仕組みを構築することにより、一層の操作性と利便性の向上をはかることができる。 According to the present invention, it is possible to further improve operability and convenience by constructing a mechanism for supporting identification of utterance contents.
実施の形態1.
図1は、この発明の実施の形態1にかかわる音声入力支援装置の内部構成を示すブロック図である。
この発明の実施の形態1にかかわる音声入力支援装置10は、音声入力取得部11と、音声認識エンジン部12と、単語辞書DB(データベース)13と、音響モデルDB14と、文法辞書DB15と、アプリケーションプログラム実行制御部16(以下、アプリ実行制御部16という)と、キー入力取得部17と、全文検索処理部18と、検索結果出力部19とにより構成される。
Embodiment 1 FIG.
FIG. 1 is a block diagram showing an internal configuration of a voice input support apparatus according to Embodiment 1 of the present invention.
A speech
音声入力取得部11は、不図示のマイクを介して集音されたユーザの発話による音声入力を取得して波形特徴量データに変換して音声認識エンジン部12へ供給する。音声認識エンジン部12は、テキストデータが蓄えられている単語辞書DB13と、音声波形の特徴抽出結果と類似度を比較するために必要な波形特徴量データが蓄えられている音響モデルDB14とを組み合わせて検索することにより句や文の認識を行う。音声認識エンジン部12は、更に、文法辞書DB15に蓄積された文法データから、単語辞書DB13と音響モデルDB14との組み合わせにより生成される単語、句、文の集合をチェックしてもよい。
すなわち、音声認識エンジン部12は、周知のDPやHMMの手法を用いて、ユーザの発話による波形特徴量データと、認識単語の波形特徴量データとのマッチング処理を行い、最大尤度の波形特徴量データに対応する単語または句、文を音声認識結果としてアプリ実行制御部16へ引き渡す。アプリ実行制御部16は、エアコンの制御やCDやDVDなどのメディアの操作、あるいはカーナビゲーションシステムの施設検索や目的地設定などを行う。
The voice
That is, the speech
一方、キー入力取得部17は、不図示のソフトキーボードにより入力される文字列を取得して全文検索処理部18へ供給する。全文検索処理部18は、その文字列をキーに単語辞書DB13の全文検索を行い、その検索結果を検索結果出力部19に出力し、この検索結果出力部19により、不図示のディスプレイに表示し、あるいはその発音を不図示のスピーカ等でユーザに聞かせたりする。このことにより、ユーザは、音声認識装置が認識可能な単語、または句、文とその発音方法を知ることができる。
On the other hand, the key
図2は、この発明の実施の形態1にかかわる音声入力支援装置の動作の流れを示した図である。また、図2には、この発明の実施の形態1に係る音声入力支援方法の各手順についても合わせて示されている。
図2において、まず、ユーザは、アプリケーション実行のために必要な、例えば、施設名検索や目的地設定に必要な読み(音声)を発話する(ステップST20)。これを受けた音声入力支援装置10は、ユーザの発話内容を音声入力取得部11により波形特徴量データとして取得し、音声認識エンジン部12へ供給する(ステップST21)。音声認識エンジン部12は、音響モデルDB14を参照し(ステップST22)、DPやHMMの手法を用いて取得したユーザの発話による波形特徴量データとのマッチング処理を行い、最大尤度の波形特徴量データを音声認識結果(合成音声)としてアプリ実行制御部16へ引き渡す(ステップST23、ST24)。このとき、音声認識エンジン部12は、文法辞書DB15に蓄積された文法データから、単語辞書DB13と音響モデルDB14との組み合わせにより生成される単語、句、文の集合をチェックしてもよい(ステップST25)。
FIG. 2 is a diagram showing a flow of operation of the voice input support apparatus according to the first embodiment of the present invention. FIG. 2 also shows each procedure of the voice input support method according to the first embodiment of the present invention.
In FIG. 2, first, the user utters a reading (voice) necessary for executing the application, for example, necessary for facility name search and destination setting (step ST20). Receiving this, the speech
アプリ実行制御部16は、引き渡された認識結果に基づき、例えば、施設名検索、目的地設定等のアプリケーションを実行し、その結果を不図示のディスプレイやスピーカ等に出力する。これを視聴したユーザが音声認識に失敗したことを確認すると、ユーザは、不図示のソフトキーボードを操作することにより発話内容(施設や目的地等の名称)に関する文字入力を行う(ステップST26)。
これをうけた音声入力支援装置10は、上記した文字入力をキー入力取得部17により取得して全文検索処理部18へ供給する(ステップST27)。このことにより、全文検索部18は、入力され取得された文字列をキーに単語辞書DB13を参照して全文検索を行い、その検索結果を検索結果出力部19に出力する(ステップST29)。なお、このとき、全文検索処理部18は、文法辞書DB15を参照して文法チェックを組み合わせて検索結果を出力してもよい(ステップST30)。文法検索結果出力部19は、検索結果をディスプレイに表示し、あるいはその発音をスピーカ等に音声出力する(ステップST31)。このことにより、ユーザは、音声認識エンジン部12が認識可能な単語、または句、文とその発音方法を知ることができる(ステップST32)。
The application
Upon receiving this, the voice
以上説明のようにこの発明の実施の形態1に係る音声入力支援装置によれば、音声認識に失敗した場合に入力され取得される単語の文字列から単語辞書DB13を検索して音声認識可能な単語を出力することにより、ユーザは、音声認識システムが想定している認識可能な単語、または句または文の集合を、音声よりも確実性の高いソフトキーボード等のキー入力による文字列検索で知ることができる。
このことにより、使用している音声認識システムにおいて、認識可能な単語または句または文を発話することができるようになり、結果として音声認識システムを使う上での障害を少なくすることができる。また、使用している音声認識システムで音声認識が可能な単語、句、文の集合等の入力対象を、ディスプレイ、あるいはスピーカ等の出力装置を利用して再生し、あるいはTTS(Text To Speech)等により話者であるユーザに提示することにより、ユーザは、音声認識可能な入力対象に関して認識率の高い発声方法を学習でき、次回以降、その発声方法を真似ることで認識率の向上がはかれる。
As described above, according to the speech input support device according to the first embodiment of the present invention, speech recognition is possible by searching the
As a result, a recognizable word, phrase or sentence can be spoken in the used speech recognition system, and as a result, obstacles to using the speech recognition system can be reduced. Also, an input object such as a set of words, phrases, and sentences that can be recognized by the speech recognition system being used is reproduced using an output device such as a display or a speaker, or TTS (Text To Speech). By presenting it to the user who is a speaker, etc., the user can learn an utterance method with a high recognition rate with respect to an input target capable of voice recognition, and the recognition rate can be improved by imitating the utterance method from the next time.
なお、上記した実施の形態1によれば、音声認識に失敗した場合、単語の読みからなる文字列をソフトキーボード等によるキー入力操作に基づき取得することとしたが、この文字列を音素単位の音声入力操作に基づき取得することで代替してもよい。また、上記した実施の形態1によれば、単語辞書DB13と音響モデルDB14の他に、文法辞書DB15も検索して単語等の入力対象を認識する構成としたが、データベースとして、文法辞書DB15の使用は必須ではなく、単語辞書DB13と音響モデルDB14のみを必須とするものである。
According to the first embodiment described above, when speech recognition fails, a character string formed by reading a word is acquired based on a key input operation using a soft keyboard or the like. You may substitute by acquiring based on voice input operation. Moreover, according to Embodiment 1 described above, in addition to the
実施の形態2.
図3は、この発明の実施の形態2にかかわる音声入力支援装置を内蔵したナビゲーションシステムの構成を示すブロック図である。
図3に示されるように、この発明の実施の形態2に係るナビゲーションシステム30は、制御部31と、入力部32と、マイク33と、位置情報取得部34と、地図データ格納部35と、音声出力部36と、表示部37とにより構成される。
Embodiment 2. FIG.
FIG. 3 is a block diagram showing a configuration of a navigation system incorporating a voice input support device according to Embodiment 2 of the present invention.
As shown in FIG. 3, the
制御部31は、マイクロコンピュータと、メモリと、それらを利用して動作するアプリケーションプログラムによって実現される。具体的に、マイクロコンピュータは、施設名もしくは目的地名からなる発話内容を取得し、記憶部に格納された第2の辞書を検索して音声認識を行ない、音声認識に失敗した場合に入力され取得される施設名もしくは目的地名の文字列から記憶部に格納された第1の辞書を検索して音声認識可能な施設名もしくは目的地名を出力し、当該出力された施設名もしくは目的地名に基づき、施設名検索もしくは目的地設定によるナビゲーションを行う。
すなわち、制御部31は、図1に示す音声入力支援装置としての各機能ブロックを有し、さらに、記憶部としての内蔵メモリには、音声認識可能な施設名もしくは目的地名からなる第1の辞書と、施設名もしくは目的地名に対応した音響モデルからなる第2の辞書の他に、ナビゲーションのために必須の施設名もしくは目的地名データベースが付加され、格納されている(以下、これらを総称してデータベースと称する)。
The
That is, the
入力部32は、タッチパネル、タッチパッド、リモコン、コマンダー等によりソフトキーボードにより実現され、ユーザによって操作される内容を制御部31に入力する。また、マイク33は、ユーザによる発話内容を集音して制御部31に入力する。位置情報取得部34は、GPS(Global Positioning System)やジャイロによって実現され、ここで自車の現在位置データを取得して制御部31に入力する。地図データ格納部35には、ナビゲーションに必要な道路データや施設データ等が格納される。音声出力部36は、ナビゲーションによる誘導案内音声、音声認識結果の復唱、ナビゲーションシステムの状態、動作終了などの状態、イベント等の音声出力を行う。表示部37は、液晶ディスプレイなどで実現され、ここに、ナビゲーションのための地図表示、メニュー情報等が表示される。
The
図4、図5は、この発明の実施の形態2に係るナビゲーションシステムの動作を示すフローチャートであり、音声認識による施設検索、目的地設定について示されている。ここでは、ユーザの意図する目的地が「国立京都国際会館」であるが、ユーザはその施設の正式名称を「京都国際会議場」であると思っているというシナリオで説明する。
以下、図4、図5のフローチートを参照しながら、この発明の実施の形態2に係るナビゲーションシステムの動作について詳細に説明する。
4 and 5 are flowcharts showing the operation of the navigation system according to Embodiment 2 of the present invention, which shows facility search and destination setting by voice recognition. Here, the destination intended by the user is “National Kyoto International Conference Center”, but the user assumes that the official name of the facility is “Kyoto International Conference Center”.
Hereinafter, the operation of the navigation system according to Embodiment 2 of the present invention will be described in detail with reference to the flow charts of FIGS. 4 and 5.
まず、ユーザが「京都国際会議場」と発話したものとし(ステップST400“YES”)、そのとき、マイク33により集音された音声は制御部31に入力される(ステップST401)。このことにより、制御部31は、音声認識エンジンにより、ユーザが発話した施設名を、内蔵メモリに格納されたデータベースを検索することにより音声認識する。音声認識の方法は上記した実施の形態1と同様であり、説明の重複を回避する意味でここでの説明は省略する。
ここで、音声認識に失敗した場合(ステップST402“No”)、制御部31は、「該当する施設はありません」等のメッセージを音声出力部36、もしくは表示部37に出力してユーザに対して音声認識が失敗したことを通知する(ステップST403)。続いて、表示等により音声認識結果を確認したユーザは、音声認識をリトライするか否か判断し、再度音声認識を実行する場合は、例えば、入力部32による発話キーの押下を検出して(ステップST404“YES”)、ステップST400の処理に戻る。
First, it is assumed that the user speaks “Kyoto International Conference Hall” (step ST400 “YES”), and the sound collected by the
Here, when voice recognition fails (step ST402 “No”), the
ユーザは、施設名が「京都国際会議場」で正しいと信じている場合、音声認識の失敗が自分の発声方法が悪いと考え、ステップST400〜ST404の処理を繰り返す。音声認識のためのリトライを数回繰り返した後、ユーザは、違う読みの名前を発話し、制御部31がこれを取得したとする。例えば、ユーザが「京都会館」と発話したとし、その場合、制御部31は、データベースに「京都会館」という施設名が存在するため、音声認識が成功してステップST406以降の処理に進むことができる。
音声認識に成功した場合(ステップST402“YES”)、制御部31は、音声出力部36または表示部37により音声認識された施設名をユーザに通知する(ステップST406)。ここでは、表示部37に施設名を表示することとする。続いてユーザは、例えば、入力部32を操作し、あるいはマイク33を介して音声入力することにより、「(当該施設の)地図表示」を制御部31に指示し、検索され表示された施設名を確認する。
If the user believes that the facility name is correct at “Kyoto International Conference Center”, he / she thinks that the speech recognition failure is bad for his / her speech method, and repeats the processes of steps ST400 to ST404. After repeating the retry for voice recognition several times, it is assumed that the user speaks the name of a different reading and the
When the voice recognition is successful (step ST402 “YES”), the
続いて、ユーザは意図する施設と合致するか否かを確認判定する(ステップST407)。この確認判定は、例えば、ユーザの意図する施設が京都市の北の方(北区)にあると思っているのに対し、表示部37による地図表示等により、「京都会館」が京都市左京区にあることを視認することで、ユーザは意図する施設でないことを確認することができる。この確認判定の結果、意図する施設であった場合は(ステップST407“YES”)、制御部31に対して目的地に設定することを通知する(ステップST408)。これは、音声認識により、「そこへ行く」と指示し、あるいは表示部37に表示された「目的地に設定」といったメニューを選択することにより実現することができる。このようにして、目的地設定、または施設名検索の処理を終了し、続いて、制御部31は、ルート検索等、ナビゲーションシステムとしての本来の処理を実行する。
Subsequently, the user confirms and determines whether or not it matches the intended facility (step ST407). This confirmation determination is made, for example, when the facility intended by the user is located in the northern part of Kyoto City (Kita Ward), but “Kyoto Kaikan” By visually confirming that there is, the user can confirm that the facility is not intended. As a result of the confirmation determination, if the facility is an intended facility (step ST407 “YES”), the
一方、ステップST407において、ユーザが意図する施設でないと判断された場合は(ステップST407“NO”)、音声認識により施設検索を続ける場合ステップST400の処理に戻る。また、音声認識による施設名検索を諦めて全文検索する場合は、ステップST404の処理へ進む。また、ステップST404でユーザが音声認識を諦め、入力部32を操作することにより入力される文字列により検索することにした場合は(ステップST404“NO”)、ユーザが目的地に関する文字列を入力することを制御部31に通知する(ステップST405)。これは、例えば、表示部37に表示された、「キー入力で検索する」といった内容のメニューボタンを選択することにより実現される。
On the other hand, if it is determined in step ST407 that the facility is not intended by the user ("NO" in step ST407), the process returns to step ST400 when the facility search is continued by voice recognition. If the full text search is given up with the facility name search by voice recognition, the process proceeds to step ST404. In addition, when the user gives up the voice recognition in step ST404 and decides to search by a character string input by operating the input unit 32 (step ST404 “NO”), the user inputs a character string related to the destination. This is notified to the control unit 31 (step ST405). This is realized, for example, by selecting a menu button displayed on the
続いて、ユーザは、入力部32を操作することにより、意図する施設名の文字列を入力し、制御部31はその内容を取得する(図5のステップST409)。ここでは、例えば、「京都国際会議場」と入力したとする。このことにより、制御部31は、ユーザが入力した文字列に基づきデータベースの全文検索を行い、その結果を表示部37に表示する(ステップST410)。ここで、複数の施設が検索された場合は、リスト表示等により表示部37に表示してユーザに選択を促す。このことにより、ユーザは所望とする施設名を選択するが、複数の候補施設がリスト表示された場合は、カーソルを移動させる等して、目的の施設を選択する。ここでは、「国立京都国際会館」が所望の施設名とする。
具体的に所望の施設を選択する際(ステップST411“YES”)、ユーザはその施設を地図表示等により確認し(ステップST412)、意図する施設か否かを判断する(ステップST413)。意図する施設であった場合は(ステップST413“YES”)、ステップST414の処理へ進み、意図しない施設であった場合は(ステップST413”NO“)、ステップST411の処理に戻る。このとき、ユーザは、「京都国際会議場」と思っていた施設は正式の施設名が「国立京都国際会館」であることを知ることができる。
Subsequently, the user operates the
Specifically, when a desired facility is selected (step ST411 “YES”), the user confirms the facility by a map display or the like (step ST412), and determines whether the facility is an intended facility (step ST413). If it is an intended facility (step ST413 “YES”), the process proceeds to step ST414. If it is an unintended facility (step ST413 “NO”), the process returns to step ST411. At this time, the user can know that the facility that was supposed to be the “Kyoto International Conference Hall” has the official facility name “National Kyoto International House”.
続いてユーザは、「国立京都国際会館」を目的地設定することを制御部31に通知する(ステップST414)。目的地設定は、例えば、表示部37に表示された、「目的地設定」といった内容のメニューボタンを選択することにより実現される。以上により目的地設定または施設名検索の処理を終了し、以降、ナビゲーションシステムは、ルート検索等の本来の処理を実行することになる。
なお、上記したステップST414において、ユーザは、施設名が「京都国際会議場」ではなく、「国立京都国際会館」であることを学習することができるため、次回、同じ施設名を目的地設定する場合は、はじめから「国立京都国際会館」と発声して音声認識させることができ、したがって、ステッブST400〜ST402、ST406〜ST408のパスにより、容易に短時間で目的地設定を行うことが可能である。
Subsequently, the user notifies the
In step ST414 described above, the user can learn that the facility name is not “Kyoto International Conference Center” but “National Kyoto International Conference Center”. In this case, “Kyoto International Conference Center” can be spoken from the beginning to be recognized, so that the destination can be easily set in a short time by using the steps ST400 to ST402 and ST406 to ST408. is there.
以上説明のようにこの発明の実施の形態2に係る音声入力支援装置によれば、ナビゲーションシステムが音声入力対象をディスプレイもしくはスピーカ等の出力装置を介してユーザに提示するため、ユーザは、音声認識が可能な入力対象を最初から知ることなく施設検索あるいは目的地設定を行うことができ、合わせて音声認識システムが認識させやすい発話方法を知ることができ、したがって音声認識における操作性および利便性を向上させることができる。
また、従来は、音声認識による入力機能と、ソフトキーボード等による入力機能とが独立して設計されていたことから、音声認識機能が入力対象とする単語や句や文の集合と、検索機能が検索対象とする単語や句や文の集合とが一致しないことがあったが、上記した実施の形態2によれば、施設名を文字列入力することにより、入力対象を一致させることができ、したがって、ユーザは、音声認識システムが想定している認識可能な単語、または句または文の集合を、キー入力による文字列検索で知ることができる。これにより、ユーザは、使用している音声認識システムにおいて、認識可能な単語または句または文を発話することができるようになり、結果として音声認識システムを使う上での障害を少なくすることができる。
As described above, according to the voice input support device according to the second embodiment of the present invention, the navigation system presents the voice input target to the user via the output device such as a display or a speaker. The facility search or destination setting can be performed without knowing the input target that can be recognized from the beginning, and it is possible to know the speech method that the voice recognition system can easily recognize. Therefore, the operability and convenience in voice recognition can be improved. Can be improved.
In addition, since the input function based on voice recognition and the input function based on a soft keyboard have been designed independently, a set of words, phrases, and sentences to be input by the voice recognition function and a search function are provided. The set of words, phrases, and sentences to be searched may not match, but according to the second embodiment described above, by inputting the facility name as a character string, the input target can be matched, Therefore, the user can know a recognizable word or a set of phrases or sentences assumed by the voice recognition system by a character string search by key input. As a result, the user can utter a recognizable word, phrase or sentence in the voice recognition system being used, and as a result, the obstacles to using the voice recognition system can be reduced. .
なお、この発明に係る音声入力支援方法は、音声認識が可能な単語が格納される第1の辞書(単語辞書DB13)と、前記単語に対応した音響モデルが格納される第2の辞書(音響モデルDB14)とを備えた音声認識システムにおける音声入力支援方法であって、例えば、図2に示す流れ図において、発話内容を取得し、前記第2の辞書(音響モデルDB14)を検索して音声認識を行う第1のステップ(ステップST20〜ST24)と、前記音声認識に失敗した場合に入力され取得される前記単語の文字列から前記第1の辞書(単語辞書DB13)を検索して音声認識可能な単語を出力する第2のステップ(ステップST26〜ST32)と、を有するものである。 The speech input support method according to the present invention includes a first dictionary (word dictionary DB 13) that stores words that can be recognized and a second dictionary (acoustics) that stores acoustic models corresponding to the words. A speech input support method in a speech recognition system comprising a model DB 14). For example, in the flowchart shown in FIG. 2, speech content is acquired and speech recognition is performed by searching the second dictionary (acoustic model DB 14). The first step (steps ST20 to ST24) for performing the speech recognition, and the first dictionary (word dictionary DB13) can be searched from the character string of the word that is input and acquired when the voice recognition fails, and voice recognition is possible. A second step (steps ST26 to ST32) for outputting a simple word.
この発明に係る音声入力支援方法によれば、音声認識に失敗した場合に入力され取得される単語の文字列から第1の辞書(単語辞書DB13)を検索して音声認識可能な単語を出力することにより、ユーザは、音声認識システムが想定している認識可能な単語、または句または文の集合を、音声よりも確実性の高いソフトキーボード等のキー入力による文字列検索で知ることができ、このことにより、使用している音声認識システムにおいて、認識しやすい単語または句または文を発話することができるようになり、結果として音声認識システムを使う上での障害を少なくすることができる。
また、使用している音声認識システムで音声認識が可能な単語、句、文の集合等の入力対象を、ディスプレイ、あるいはスピーカ等の出力装置を利用して再生し、あるいはTTS(Text To Speech)等により話者であるユーザに提示することにより、ユーザは、音声認識可能な入力対象に関して認識率の高い発声方法を学習でき、次回以降、その発声方法を真似ることで認識率の向上がはかれるものである。
According to the voice input support method according to the present invention, the first dictionary (word dictionary DB 13) is searched from the character string of the words that are input and acquired when the voice recognition fails, and the voice-recognizable words are output. By this, the user can know a recognizable word, a set of phrases or sentences assumed by the voice recognition system by a character string search by key input such as a soft keyboard with higher certainty than voice, This makes it possible to utter words, phrases or sentences that are easy to recognize in the used speech recognition system, and as a result, it is possible to reduce obstacles in using the speech recognition system.
Also, an input object such as a set of words, phrases, and sentences that can be recognized by the speech recognition system being used is reproduced using an output device such as a display or a speaker, or TTS (Text To Speech). By presenting to the user who is a speaker, etc., the user can learn an utterance method with a high recognition rate with respect to an input target that can be recognized, and the recognition rate can be improved by imitating the utterance method from the next time It is.
なお、図1に示す、音声入力取得部11と、音声認識エンジン部12と、アプリ実行制御部16と、キー入力取得部17と、全文検索処理部18と、検索結果出力部19のそれぞれが持つ機能は、具体的には、音声入力支援装置10を構成するCPUが内蔵のメモリに記録されたプログラムを逐次読み出し実行することにより実現されるものである。なお、このとき、単語辞書DB13と、音響モデルDB14と、文法辞書DB15のそれぞれは、内蔵のメモリもしくは外付けの外部メモリに割り付けられ記憶されるものとする。
また、上記した音声入力支援装置10が持つ各構成ブロックの機能は、上記のように全てをソフトウエアによって実現しても、あるいはその少なくとも一部をハードウエアで実現してもよい。例えば、音声認識エンジン部12や、全文検索処理部18における処理は、1または複数のプログラムによりコンピュータ上で実現してもよく、また、その少なくとも一部をハードウエアで実現してもよい。
Each of the voice
In addition, the functions of the constituent blocks of the voice
10 音声入力支援装置、11 音声入力取得部、12 音声認識エンジン部、13 単語辞書DB、14 音響モデルDB、15 文法辞書DB、16 アプリ実行制御部、17 キー入力取得部、18 全文検索処理部、19 検索結果出力部、30 ナビゲーションシステム、31 制御部、32 入力部、33 マイク、34 位置情報取得部、35 地図データ格納部、36 音声出力部、37 表示部。
DESCRIPTION OF
Claims (6)
発話内容を取得し、前記第2の辞書を検索して音声認識を行う第1のステップと、
前記音声認識に失敗した場合に入力され取得される前記単語の文字列から前記第1の辞書を検索して音声認識可能な単語を出力する第2のステップと、
を有することを特徴とする音声入力支援方法。 A first dictionary in which words capable of speech recognition are stored, and a second dictionary in which acoustic models corresponding to the words are stored;
A first step of acquiring utterance content, searching the second dictionary and performing speech recognition;
A second step of searching the first dictionary from a character string of the word that is input and acquired when the speech recognition fails, and outputting a speech-recognizable word;
A voice input support method comprising:
キー入力操作に基づき入力された前記単語の文字列を取得することを特徴とする請求項1記載の音声入力支援方法。 The second step includes
The voice input support method according to claim 1, wherein a character string of the word input based on a key input operation is acquired.
音声入力操作に基づき入力された前記単語の文字列を取得することを特徴とする請求項1記載の音声入力支援方法。 The second step includes
The voice input support method according to claim 1, wherein a character string of the word input based on a voice input operation is acquired.
発話内容を取得し、前記記憶部に格納された第2の辞書を検索して音声認識を行う音声認識部と、
前記音声認識に失敗した場合に入力され取得される前記単語の文字列から前記記憶部に格納された第1の辞書を検索して音声認識可能な単語を出力する全文検索処理部と、
を備えたことを特徴とする音声入力支援装置。 A storage unit storing a first dictionary composed of words capable of speech recognition, and a second dictionary composed of acoustic models corresponding to the words;
A speech recognition unit that acquires utterance content, searches the second dictionary stored in the storage unit, and performs speech recognition;
A full-text search processing unit that searches the first dictionary stored in the storage unit from the character string of the word that is input and acquired when the speech recognition fails, and outputs a speech-recognizable word;
A voice input support device comprising:
前記施設名もしくは目的地名からなる発話内容を取得して前記記憶部に格納された第2の辞書を検索して音声認識を行ない、前記音声認識に失敗した場合に入力され取得される施設名もしくは目的地名の文字列から前記記憶部に格納された第1の辞書を検索して音声認識可能な施設名もしくは目的地名を出力し、前記出力された施設名もしくは目的地名に基づき、施設名検索もしくは目的地設定によるナビゲーションを行う制御部と、
を備えたことを特徴とするナビゲーションシステム。 A storage unit for storing a first dictionary composed of facility names or destination names capable of voice recognition, a second dictionary composed of acoustic models corresponding to the facility names or destination names;
Acquires the utterance content consisting of the facility name or destination name, searches the second dictionary stored in the storage unit to perform speech recognition, and the facility name input and acquired when the speech recognition fails or Search the first dictionary stored in the storage unit from the character string of the destination name, output the facility name or destination name that can be recognized by voice, and search the facility name based on the output facility name or destination name or A control unit for performing navigation by setting a destination;
A navigation system characterized by comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007028326A JP2008191581A (en) | 2007-02-07 | 2007-02-07 | Voice input support method and device, and navigation system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007028326A JP2008191581A (en) | 2007-02-07 | 2007-02-07 | Voice input support method and device, and navigation system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008191581A true JP2008191581A (en) | 2008-08-21 |
Family
ID=39751708
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007028326A Pending JP2008191581A (en) | 2007-02-07 | 2007-02-07 | Voice input support method and device, and navigation system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008191581A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521262A (en) * | 2011-11-21 | 2012-06-27 | 广东国笔科技股份有限公司 | Data processing equipment, system and method for realizing voice intelligent indexing |
WO2023127983A1 (en) * | 2021-12-28 | 2023-07-06 | 엘지전자 주식회사 | Display device and control method therefor |
-
2007
- 2007-02-07 JP JP2007028326A patent/JP2008191581A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521262A (en) * | 2011-11-21 | 2012-06-27 | 广东国笔科技股份有限公司 | Data processing equipment, system and method for realizing voice intelligent indexing |
WO2013075557A1 (en) * | 2011-11-21 | 2013-05-30 | 广东国笔科技股份有限公司 | Data processing device, system, and method for implementing voice intelligent index |
WO2023127983A1 (en) * | 2021-12-28 | 2023-07-06 | 엘지전자 주식회사 | Display device and control method therefor |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5334178B2 (en) | Speech recognition apparatus and data update method | |
US8521539B1 (en) | Method for chinese point-of-interest search | |
US8949133B2 (en) | Information retrieving apparatus | |
US9449599B2 (en) | Systems and methods for adaptive proper name entity recognition and understanding | |
US6708150B1 (en) | Speech recognition apparatus and speech recognition navigation apparatus | |
US7826945B2 (en) | Automobile speech-recognition interface | |
US20050182558A1 (en) | Car navigation system and speech recognizing device therefor | |
US20080177541A1 (en) | Voice recognition device, voice recognition method, and voice recognition program | |
EP1975923B1 (en) | Multilingual non-native speech recognition | |
JP2001013991A (en) | Voice recognition supporting method and voice recognition system | |
JP2002073075A (en) | Voice recognition device and its method | |
JP5335165B2 (en) | Pronunciation information generating apparatus, in-vehicle information apparatus, and database generating method | |
US7809563B2 (en) | Speech recognition based on initial sound extraction for navigation and name search | |
JP4914632B2 (en) | Navigation device | |
JP2006330577A (en) | Device and method for speech recognition | |
JP2008191581A (en) | Voice input support method and device, and navigation system | |
JP4639990B2 (en) | Spoken dialogue apparatus and speech understanding result generation method | |
JP2001027540A (en) | Navigation method to use function of voice recognition | |
JP4004885B2 (en) | Voice control device | |
JP4930014B2 (en) | Speech recognition apparatus and speech recognition method | |
JPH11231892A (en) | Speech recognition device | |
JP2005114964A (en) | Method and processor for speech recognition | |
JP3911835B2 (en) | Voice recognition device and navigation system | |
JP4550207B2 (en) | Voice recognition device and voice recognition navigation device | |
JP2007193184A (en) | Speech address recognition apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080707 |