JP5056784B2 - Speech recognition system - Google Patents

Speech recognition system Download PDF

Info

Publication number
JP5056784B2
JP5056784B2 JP2009072529A JP2009072529A JP5056784B2 JP 5056784 B2 JP5056784 B2 JP 5056784B2 JP 2009072529 A JP2009072529 A JP 2009072529A JP 2009072529 A JP2009072529 A JP 2009072529A JP 5056784 B2 JP5056784 B2 JP 5056784B2
Authority
JP
Japan
Prior art keywords
voice recognition
voice
vehicle
recognition
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009072529A
Other languages
Japanese (ja)
Other versions
JP2010224301A (en
Inventor
一久 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2009072529A priority Critical patent/JP5056784B2/en
Publication of JP2010224301A publication Critical patent/JP2010224301A/en
Application granted granted Critical
Publication of JP5056784B2 publication Critical patent/JP5056784B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、ユーザが発話した音声を認識する音声認識システムに関するものである。   The present invention relates to a speech recognition system that recognizes speech uttered by a user.

従来から、ユーザが発話した音声を認識する音声認識の技術が知られている。音声認識の技術は、スイッチ操作が困難な状況において種々の機器を操作するために広く用いられている。例えば車両運転中はスイッチ操作が困難であることから、音声認識の技術は車載ナビゲーション装置などを操作するために用いられている。   Conventionally, a voice recognition technique for recognizing a voice spoken by a user is known. Voice recognition technology is widely used to operate various devices in situations where switch operation is difficult. For example, since it is difficult to operate a switch while driving a vehicle, the technology of voice recognition is used to operate an in-vehicle navigation device or the like.

近年では、車載ナビゲーション装置を音声認識によって操作する機能が広がりつつあり、地名や電話帳や曲名などの語彙数が多いものを音声認識の対象としなければならないようになってきている。また、地名や曲名などについては、道路が新たに敷設されたり新曲が発売されたりするなど時間の経過ごとに、新たな認識対象が増え続けていく。従って、膨大な数の認識対象をより正確に音声認識できるように、音声認識における認識性能の向上が求められている。   In recent years, functions for operating vehicle-mounted navigation devices by voice recognition have been spreading, and it has become necessary to make a voice recognition target a place with a large number of vocabularies such as place names, phone books, and song titles. As for place names and song titles, new recognition targets continue to increase with the passage of time, such as when new roads are laid or new songs are released. Accordingly, there is a demand for improved recognition performance in speech recognition so that a large number of recognition targets can be recognized more accurately.

そこで、この解決策として、例えば特許文献1に開示されているように、処理能力が高いサーバ側で音声認識処理をさせることが提案されている。   Therefore, as a solution, for example, as disclosed in Patent Document 1, it is proposed to perform voice recognition processing on the server side having high processing capability.

特開2005−91611号公報JP-A-2005-91611 特開2006−154632号公報JP 2006-154632 A

しかしながら、特許文献1に開示の技術では、車載ナビゲーション装置とサーバとの間で通信が確立している場合にしか音声認識を行うことができないという問題を有していた。よって、車載ナビゲーション装置とサーバとの間で通信が確立できる場所でしか利用することができず、汎用性に欠けていた。   However, the technique disclosed in Patent Document 1 has a problem that voice recognition can be performed only when communication is established between the in-vehicle navigation device and the server. Therefore, it can be used only in places where communication can be established between the in-vehicle navigation device and the server, and lacks versatility.

本発明は、上記従来の問題点に鑑みなされたものであって、その目的は、音声認識における認識性能をより向上させながら、より高い汎用性を実現することを可能にする音声認識システムを提供することにある。   The present invention has been made in view of the above-mentioned conventional problems, and an object thereof is to provide a speech recognition system that can realize higher versatility while further improving recognition performance in speech recognition. There is to do.

請求項1の音声認識システムは、上記課題を解決するために、車両に搭載される車載端末が有する音声入力部を介してユーザから入力を受け付けた音声コマンドの発話データを、前記車両外の音声認識サーバに無線通信を介して送信するとともに、前記音声認識サーバが保持する音声認識用の辞書を用いて当該発話データに基づく音声認識を行い、この音声認識の結果である認識結果を前記車載端末に無線通信を介して返信する音声認識システムであって、前記車載端末は、前記車載端末が搭載される車両の現在位置を検出することが可能な車載ナビゲーション装置であり、前記音声入力部に入力された音声コマンドの発話データと当該発話データをもとに前記音声認識サーバで得られた認識結果との対応関係を示す対応関係データを登録していくことによって音声認識用の辞書としての簡易辞書を作成し、更新していく簡易辞書構築部と、最新の前記簡易辞書を格納する簡易辞書格納部と、前記音声認識サーバで前記音声認識を行わせることが可能か否かを判定する音声認識可否判定部と、前記音声認識サーバで前記音声認識を行わせることが可能でないと前記音声認識可否判定部で判定した場合には、前記音声入力部に入力された音声コマンドの発話データをもとに、前記簡易辞書格納部に格納されている前記簡易辞書を用いてこの発話データに対応する認識結果を得る簡易音声認識モードに切り替えるモード切り替え部と、前記音声認識サーバとの間での通信が途絶した場合に、この通信の途絶が生じた場所の位置情報である途絶位置情報を記録する途絶位置情報記録部とを備え、前記途絶位置情報記録部で記録した前記途絶位置情報を前記音声認識サーバに送信し、前記音声認識サーバは、複数の車両の前記車載端末から送信されてきた前記途絶位置情報を統合することを特徴としている。 In order to solve the above-described problem, the voice recognition system according to claim 1 uses speech data of a voice command received from a user via a voice input unit included in a vehicle-mounted terminal mounted on a vehicle as voice outside the vehicle. Transmitting to a recognition server via wireless communication, performing speech recognition based on the speech data using a dictionary for speech recognition held by the speech recognition server, and obtaining the recognition result as a result of the speech recognition as the in-vehicle terminal Is a voice recognition system that replies via wireless communication, wherein the in-vehicle terminal is an in-vehicle navigation device capable of detecting a current position of a vehicle in which the in-vehicle terminal is mounted, and is input to the voice input unit Correspondence data indicating the correspondence between the utterance data of the received voice command and the recognition result obtained by the voice recognition server based on the utterance data is registered. A simple dictionary as a dictionary for voice recognition is created and updated by going, a simple dictionary storage unit for storing the latest simple dictionary, and the voice recognition server performs the voice recognition A speech recognition availability determination unit that determines whether or not the speech recognition is possible, and the speech input determination unit when the speech recognition availability determination unit determines that the speech recognition server cannot perform the speech recognition. A mode switching unit that switches to a simple voice recognition mode that obtains a recognition result corresponding to the utterance data using the simple dictionary stored in the simple dictionary storage unit based on the utterance data of the voice command input to , if the communication with the speech recognition server is disrupted, and the disruption position information recording unit for recording the interruption position information is position information of the location where disruption of the communication occurs For example, transmits the interruption position information recorded in the interruption position information recording unit in the speech recognition server, the voice recognition server, the integration of the disruption positional information transmitted from said vehicle terminal of the plurality of vehicles It is characterized by.

これによれば、音声認識サーバで音声認識を行わせることが可能でないと音声認識可否判定部で判定された場合には、簡易辞書格納部に格納されている簡易辞書を用いて音声コマンドの発話データに対応する認識結果を得ることができるので、車載端末と音声認識サーバとの間で通信が確立していない場合であっても、音声コマンドの発話データに基づいて音声認識を行うことが可能になる。よって、以上の構成によれば、より高い汎用性を実現することが可能になる。   According to this, when the voice recognition availability determination unit determines that voice recognition cannot be performed by the voice recognition server, the utterance of the voice command is performed using the simple dictionary stored in the simple dictionary storage unit. Since the recognition result corresponding to the data can be obtained, it is possible to perform voice recognition based on the utterance data of the voice command even when communication between the in-vehicle terminal and the voice recognition server is not established. become. Therefore, according to the above configuration, higher versatility can be realized.

また、簡易辞書には、音声コマンドの発話データと当該発話データをもとに音声認識サーバで得られた認識結果との対応関係を示す対応関係データが登録されているので、この簡易辞書を用いて音声認識を行った場合であっても、過去に音声認識サーバで音声認識が行われた音声コマンドと同様の音声コマンドについては、音声認識サーバで音声認識を行うのと同等の認識性能で音声認識を行うことが可能になる。よって、以上の構成によれば、音声認識における認識性能をより向上させることが可能になる。   In addition, correspondence data indicating correspondence between speech command speech data and a recognition result obtained by the speech recognition server based on the speech data is registered in the simple dictionary. Even if voice recognition is performed, voice commands that are the same as voice commands that have been voice-recognized by the voice-recognition server in the past are recognized with the same recognition performance as voice-recognition performed by the voice-recognition server Recognition can be performed. Therefore, according to the above configuration, recognition performance in speech recognition can be further improved.

その結果、音声認識における認識性能をより向上させながら、より高い汎用性を実現することが可能になる。
また、請求項1の構成によれば、複数の車両でそれぞれ得られた途絶位置情報(つまり、車載端末と音声認識サーバとの間での通信の途絶が生じたことのある場所の位置情報)を音声認識サーバで統合するので、例えば音声認識サーバで統合した途絶位置情報を複数の車両の車載端末のそれぞれに配信することによって、複数の車両の車載端末同士で途絶位置情報を共有することが可能になる。
As a result, it is possible to realize higher versatility while further improving the recognition performance in speech recognition.
Further, according to the configuration of claim 1, the discontinuity position information obtained by each of the plurality of vehicles (that is, the position information of the place where the discontinuity of communication between the in-vehicle terminal and the voice recognition server has occurred) Are integrated by the voice recognition server, for example, by distributing the discontinuity position information integrated by the voice recognition server to each of the in-vehicle terminals of the plurality of vehicles, the discontinuity position information can be shared among the in-vehicle terminals of the plurality of vehicles It becomes possible.

また、請求項2の音声認識システムでは、前記発話データは、音声の特徴量のデータであって、前記簡易辞書構築部は、前記音声入力部に入力された音声コマンドの音声の特徴量のデータと当該音声の特徴量のデータをもとに前記音声認識サーバで得られた認識結果とを少なくとも対応付けたリストとしての前記対応関係データを登録したテーブルを作成することによって前記簡易辞書を作成するとともに、新たな前記リストを前記テーブルに登録していくことによって前記簡易辞書を更新していくことを特徴としている。   The speech recognition system according to claim 2, wherein the utterance data is voice feature value data, and the simple dictionary construction unit is a voice feature value data of a voice command input to the voice input unit. The simple dictionary is created by creating a table in which the correspondence data is registered as a list in which at least the recognition result obtained by the voice recognition server is associated with the voice feature value data. At the same time, the simplified dictionary is updated by registering a new list in the table.

これによれば、発話データとして音声の特徴量のデータを用いるので、音声のデータそのものを用いる場合に比べて扱うデータ量を抑えることができ、簡易辞書格納部の容量をより有効に利用することが可能になる。   According to this, since voice feature data is used as utterance data, the amount of data handled can be reduced as compared with the case where voice data itself is used, and the capacity of the simple dictionary storage unit can be used more effectively. Is possible.

また、請求項3の音声認識システムでは、前記音声認識サーバは、前記音声認識の際にこの音声認識の尤度も求めるとともに、認識結果にこの尤度も含めて前記車載端末に返信するものであって、前記車載端末は、前記簡易辞書構築部で新たな対応関係データを登録しようとする際に、この新たな対応関係データを登録後の新たな簡易辞書が前記簡易辞書格納部の容量に納まるか否かを判定する容量判定部と、当該新たな簡易辞書が前記簡易辞書格納部の容量に納まらないと前記容量判定部で判定した場合には、既に簡易辞書に登録されている対応関係データのうち、同一の音声コマンドに対して複数存在する対応関係データについては、対応付けられている認識結果に含まれる前記尤度が最も高いものを除いて削除することによって整理を行う対応関係データ整理部と、をさらに備えることを特徴としている。   In the speech recognition system according to claim 3, the speech recognition server obtains the likelihood of the speech recognition at the time of the speech recognition, and returns the recognition result including the likelihood to the in-vehicle terminal. When the in-vehicle terminal intends to register new correspondence data in the simple dictionary construction unit, the new simple dictionary after registering the new correspondence data becomes a capacity of the simple dictionary storage unit. If the capacity determination unit determines that the new simple dictionary does not fit in the capacity of the simple dictionary storage unit and the capacity determination unit determines whether or not the new simple dictionary fits, the correspondence already registered in the simple dictionary Among the data, correspondence data that exist in a plurality for the same voice command is organized by deleting except the data with the highest likelihood included in the associated recognition result. It is characterized by further comprising cormorants and correspondence data reduction unit.

これによれば、同一の音声コマンドに対して複数存在する対応関係データについては、対応付けられている認識結果に含まれる尤度が最も高いものを除いて削除することによって整理を行うので、簡易辞書格納部の容量をより有効に利用することが可能になる。   According to this, since there is a plurality of correspondence data that exist for the same voice command, it is arranged by deleting except the one with the highest likelihood included in the associated recognition result. The capacity of the dictionary storage unit can be used more effectively.

また、請求項4の音声認識システムでは、前記音声認識可否判定部は、前記車載端末と前記音声認識サーバとの間の通信が確立できなくなったときに、前記音声認識サーバで前記音声認識を行わせることが可能でないと判定することを特徴としている。   In the voice recognition system according to claim 4, the voice recognition availability determination unit performs the voice recognition at the voice recognition server when communication between the in-vehicle terminal and the voice recognition server cannot be established. It is characterized by determining that it is not possible.

この請求項4のように、音声認識サーバで音声認識を行わせることが可能か否かを判定する態様として、車載端末と音声認識サーバとの間の通信が確立できなくなったときに、音声認識サーバで音声認識を行わせることが可能でないと判定する態様としてもよい。   As an aspect of determining whether or not voice recognition can be performed by the voice recognition server as in the fourth aspect, when the communication between the in-vehicle terminal and the voice recognition server cannot be established, voice recognition is performed. It is good also as an aspect which determines with not being able to perform voice recognition with a server.

また、請求項の音声認識システムでは、前記車載端末は、前記途絶位置情報を取得する途絶位置情報取得部をさらに備え、前記音声認識可否判定部は、前記車載端末を搭載する車両の現在位置が、前記途絶位置情報が示す場所に該当したときに、前記音声認識サーバで前記音声認識を行わせることが可能でないと判定することを特徴としている。 Further, in the voice recognition system according to claim 5 , the in-vehicle terminal further includes a disruption position information acquisition unit that acquires the disruption position information, and the speech recognition availability determination unit is a current position of a vehicle in which the in-vehicle terminal is mounted. However, when it corresponds to the place indicated by the disruption position information, it is determined that the voice recognition server cannot perform the voice recognition.

この請求項のように、音声認識サーバで音声認識を行わせることが可能か否かを判定する態様として、車載端末を搭載する車両の現在位置が、途絶位置情報(つまり、車載端末と音声認識サーバとの間での通信の途絶が生じたことのある場所の位置情報)が示す場所に該当したときに、音声認識サーバで音声認識を行わせることが可能でないと判定する態様としてもよい。 As in the fifth aspect, as a mode for determining whether or not the voice recognition server can perform voice recognition, the current position of the vehicle on which the in-vehicle terminal is mounted is the discontinuity position information (that is, the in-vehicle terminal and the voice It is good also as an aspect which determines with the voice recognition server not being able to perform voice recognition, when it corresponds to the place shown by the position information (location information of the place where communication interruption with the recognition server has occurred). .

また、請求項の音声認識システムでは、前記車載端末は、前記途絶位置情報を取得する途絶位置情報取得部と、前記車両の車速の情報である車速情報を取得する車速情報取得部と、をさらに備え、前記音声入力部には、音声コマンドの入力を一度に受け付けることが可能な時間である最大発話入力可能時間が設定されており、前記音声認識可否判定部は、前記車速情報取得部で取得した車速情報と前記車載端末を搭載する車両の現在位置と前記最大発話入力可能時間とをもとに、前記途絶位置情報が示す場所に当該車両が到達するまでの時間が前記最大発話入力可能時間よりも短いと判定したときに、前記音声認識サーバで前記音声認識を行わせることが可能でないと判定することを特徴としている。 In the voice recognition system according to claim 6 , the in-vehicle terminal includes: an interruption position information acquisition unit that acquires the interruption position information; and a vehicle speed information acquisition unit that acquires vehicle speed information that is vehicle speed information of the vehicle. In addition, the voice input unit is set with a maximum utterance input available time, which is a time during which voice command input can be received at once, and the voice recognition availability determination unit is the vehicle speed information acquisition unit. Based on the acquired vehicle speed information, the current position of the vehicle on which the in-vehicle terminal is mounted, and the maximum utterance input available time, the time until the vehicle reaches the location indicated by the disruption position information can be input the maximum utterance When it is determined that the time is shorter than the time, it is determined that the voice recognition server cannot perform the voice recognition.

この請求項のように、音声認識サーバで音声認識を行わせることが可能か否かを判定する態様として、車速情報取得部で取得した車速情報と車載端末を搭載する車両の現在位置と最大発話入力可能時間とをもとに、途絶位置情報(つまり、車載端末と音声認識サーバとの間での通信の途絶が生じたことのある場所の位置情報)が示す場所に当該車両が到達するまでの時間が最大発話入力可能時間よりも短いと判定したときに、音声認識サーバで音声認識を行わせることが可能でないと判定する態様としてもよい。 As in the sixth aspect, as a mode for determining whether or not voice recognition can be performed by the voice recognition server, the vehicle speed information acquired by the vehicle speed information acquisition unit, the current position of the vehicle on which the vehicle-mounted terminal is mounted, and the maximum Based on the utterance input available time, the vehicle arrives at a location indicated by disruption position information (that is, location information of a location where communication between the in-vehicle terminal and the voice recognition server has been disrupted). When it is determined that the time until the time is shorter than the maximum utterance input available time, it may be determined that the voice recognition server cannot perform voice recognition.

また、請求項の音声認識システムでは、前記車載端末は、前記音声認識サーバとの間で無線通信を介してデータの送受信を行うことが可能な通信モジュールが接続されるものであって、前記途絶位置情報取得部は、前記通信モジュールを介して前記音声認識サーバから前記途絶位置情報を取得することを特徴としている。 In the voice recognition system according to claim 7 , the in-vehicle terminal is connected to a communication module capable of transmitting and receiving data to and from the voice recognition server via wireless communication. The interruption position information acquisition unit acquires the interruption position information from the voice recognition server via the communication module.

この請求項のように、途絶位置情報取得部が、通信モジュールを介して音声認識サーバから途絶位置情報を取得する態様としてもよい。 As in the seventh aspect , the disruption position information acquisition unit may acquire the disruption position information from the voice recognition server via the communication module.

また、請求項の音声認識システムでは、前記車載端末は、他車両に搭載される前記車載端末との間で車車間通信によってデータの送受信が可能な車車間通信部をさらに備え、前記途絶位置情報取得部は、前記音声認識サーバから前記途絶位置情報を取得済みの他車両の前記車載端末から前記車車間通信部による車車間通信によって前記途絶位置情報を取得することを特徴としている。 In the voice recognition system according to claim 8 , the in-vehicle terminal further includes an inter-vehicle communication unit capable of transmitting and receiving data by inter-vehicle communication with the in-vehicle terminal mounted on another vehicle, The information acquisition unit is characterized in that the disruption position information is obtained by inter-vehicle communication by the inter-vehicle communication unit from the in-vehicle terminal of another vehicle that has acquired the disruption position information from the voice recognition server.

この請求項のように、途絶位置情報取得部が、音声認識サーバから途絶位置情報を取得済みの他車両の車載端末から車車間通信部による車車間通信によって途絶位置情報を取得する態様としてもよい。 As in the claim 8, interruption position information acquisition unit, even as a mode of acquiring interruption position information by inter-vehicle communication by the inter-vehicle communication unit disruption location information from the in-vehicle terminal acquired the other vehicle from the voice recognition server Good.

また、請求項の音声認識システムでは、前記車載端末は、前記音声認識サーバでの音声認識の要否についてのユーザからの操作入力を受け付けるサーバ音声認識要否入力部をさらに備え、前記音声認識可否判定部は、前記音声認識サーバでの音声認識を必要としない旨のユーザからの操作入力を前記サーバ音声認識要否入力部で受け付けていたときに、前記音声認識サーバで前記音声認識を行わせることが可能でないと判定することを特徴としている。 In the voice recognition system according to claim 9 , the in-vehicle terminal further includes a server voice recognition necessity input unit that receives an operation input from a user regarding whether or not voice recognition is necessary in the voice recognition server. The availability determination unit performs the speech recognition at the speech recognition server when the server speech recognition necessity input unit accepts an operation input from the user that the speech recognition at the speech recognition server is not required. It is characterized by determining that it is not possible.

この請求項のように、音声認識サーバで音声認識を行わせることが可能か否かを判定する態様として、音声認識サーバでの音声認識を必要としない旨のユーザからの操作入力をサーバ音声認識要否入力部で受け付けていたときに、音声認識サーバで音声認識を行わせることが可能でないと判定する態様としてもよい。 As described in claim 9 , as an aspect for determining whether or not the voice recognition server can perform voice recognition, an operation input from the user indicating that voice recognition at the voice recognition server is not required is received from the server voice. It is good also as an aspect which determines with the speech recognition server not being able to perform speech recognition when it has received in the recognition necessity input part.

また、請求項1の音声認識システムでは、前記サーバ音声認識要否入力部は、音声コマンドの種類ごとに前記音声認識サーバでの音声認識の要否についてのユーザからの操作入力を受け付けることが可能であって、前記音声認識可否判定部は、前記音声認識サーバでの音声認識を必要としない旨のユーザからの操作入力を前記サーバ音声認識要否入力部で受け付けていた音声コマンドについては、前記音声認識サーバで前記音声認識を行わせることが可能でないと判定し、前記モード切り替え部は、前記音声入力部に当該音声コマンドの発話データが入力されたときには、前記簡易音声認識モードに切り替えることを特徴としている。 Further, in claim 1 0 of the voice recognition system, the server speech recognition necessity input unit that accepts an operation input from a user for necessity of speech recognition in the speech recognition server for each type of voice command The voice recognition availability determination unit is capable of receiving an operation input from the user that the voice recognition at the voice recognition server is not required by the server voice recognition necessity input unit. The voice recognition server determines that the voice recognition cannot be performed, and the mode switching unit switches to the simple voice recognition mode when speech data of the voice command is input to the voice input unit. It is characterized by.

これによれば、サーバ音声認識要否入力部で音声コマンドの種類ごとに音声認識サーバでの音声認識の要否についてのユーザからの操作入力を受け付け、音声入力部に当該音声コマンドの発話データが入力されたときには、モード切り替え部が簡易音声認識モードに切り替えるので、ユーザが指定した音声コマンドの発話データについては音声認識サーバで音声認識を行わずに車載端末の簡易辞書を用いて音声認識することが可能になる。よって、例えばユーザがよく使う音声コマンドなど、音声認識サーバで音声認識を行うのと同等の認識性能で簡易辞書においても既に音声認識を行うことが可能になっていると考えられる音声コマンドについては、音声認識サーバを利用せずに音声認識を行い、音声認識の処理時間を低減したり、音声認識サーバの負荷を低減したりすることが可能になる。   According to this, the server voice recognition necessity input unit accepts an operation input from the user regarding the necessity of voice recognition at the voice recognition server for each type of voice command, and the voice input unit stores the utterance data of the voice command. When input, the mode switching unit switches to the simple voice recognition mode, so that the speech data of the voice command specified by the user is recognized using the simple dictionary of the in-vehicle terminal without performing voice recognition at the voice recognition server. Is possible. Therefore, for example, voice commands that are frequently used by users, such as voice commands that are considered to be already able to perform voice recognition in a simple dictionary with the same recognition performance as voice recognition performed by a voice recognition server. It is possible to perform voice recognition without using the voice recognition server and reduce the processing time of voice recognition or reduce the load on the voice recognition server.

車載ナビ用音声認識システム100の概略的な構成を示すブロック図である。1 is a block diagram showing a schematic configuration of an in-vehicle navigation voice recognition system 100. FIG. ナビゲーション装置1の概略的な構成を示すブロック図である。1 is a block diagram showing a schematic configuration of a navigation device 1. FIG. ナビゲーション装置1での音声認識に関連する処理のフローを示すフローチャートである。4 is a flowchart showing a flow of processing related to voice recognition in the navigation device 1.

以下、本発明の実施形態について図面を用いて説明する。図1は、本発明が適用された車載ナビ用音声認識システム100の概略的な構成を示すブロック図である。図1に示す車載ナビ用音声認識システム100は、ナビゲーション装置1を搭載した複数の車両(車両A、車両B)および当該車両外に設けられた情報センタ2を含んでいる。   Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing a schematic configuration of an in-vehicle navigation speech recognition system 100 to which the present invention is applied. The in-vehicle navigation voice recognition system 100 shown in FIG. 1 includes a plurality of vehicles (vehicle A, vehicle B) on which the navigation device 1 is mounted and an information center 2 provided outside the vehicle.

情報センタ2は、サーバから構成されており、ネットワーク(つまり、通信網)を介して車両A・Bのナビゲーション装置1と通信することが可能な通信部、音声認識用の辞書を保持する辞書記憶部、車両A・Bのナビゲーション装置1から送信されてくる後述の途絶位置情報を統合した情報を格納する途絶位置情報記憶部、および通信や音声認識の処理や途絶位置情報の統合の処理等を制御する制御部などを備えている。なお、情報センタ2は、1つのサーバからなるものであってもよいし、複数のサーバからなっているものであってもよい。   The information center 2 includes a server, a communication unit capable of communicating with the navigation apparatus 1 of the vehicles A and B via a network (that is, a communication network), and a dictionary storage that holds a speech recognition dictionary. Section, a break position information storage section for storing information obtained by integrating break position information, which will be described later, transmitted from the navigation device 1 of the vehicles A and B, and processing for communication and voice recognition, break position information integration, etc. A control unit for controlling is provided. The information center 2 may be composed of one server or may be composed of a plurality of servers.

例えば情報センタ2は、車両A・Bのナビゲーション装置1から送信されてくる後述の発話データをもとに、辞書記憶部に保持されている辞書を用いて音声認識を行う。そして、音声認識を行った結果(以下、認識結果と呼ぶ)を当該発話データの送信元のナビゲーション装置1に返信する。よって、情報センタ2は、音声認識サーバとして機能する。   For example, the information center 2 performs voice recognition using a dictionary held in the dictionary storage unit based on later-described utterance data transmitted from the navigation devices 1 of the vehicles A and B. Then, the result of voice recognition (hereinafter referred to as the recognition result) is returned to the navigation device 1 that is the transmission source of the speech data. Therefore, the information center 2 functions as a voice recognition server.

なお、音声認識については、周知の手法を用いて行う構成とすればよく、例えば特許文献2に開示されているように隠れマルコフモデル等を用いて行うことが可能である。また、情報センタ2の音声認識では、この音声認識の尤もらしさを示す尤度も求め、認識結果にこの尤度も含めてナビゲーション装置1に返信するものとする。   Note that the speech recognition may be performed using a well-known method, and can be performed using a hidden Markov model or the like as disclosed in Patent Document 2, for example. In the speech recognition of the information center 2, the likelihood indicating the likelihood of the speech recognition is also obtained, and the recognition result including the likelihood is returned to the navigation device 1.

さらに、辞書記憶部に保持される辞書についても、音声認識に用いられる周知の辞書と同様の辞書を用いる構成とすればよく、例えば単語とその単語の発音を表記する音素や発音記号などとが対応付けられた辞書等を用いることが可能である。なお、本実施形態の辞書は、処理能力が一般的に高いサーバでの文字認識に用いるので、例えば千語から数万語の大規模の辞書であるものとする。   Furthermore, the dictionary stored in the dictionary storage unit may be configured to use a dictionary similar to a well-known dictionary used for speech recognition. For example, a phoneme or a phonetic symbol indicating a word and a pronunciation of the word may be used. An associated dictionary or the like can be used. Note that the dictionary according to the present embodiment is used for character recognition in a server having a generally high processing capability, and is assumed to be a large-scale dictionary of, for example, 1000 to tens of thousands of words.

また、例えば情報センタ2は、車両A・Bのナビゲーション装置1から送信されてくる後述の途絶位置情報を統合する。詳しくは、既に受信済みの途絶位置情報と同一の場所を示す途絶位置情報が送信されてきた場合には両者をまとめながら、送信されてくる途絶位置情報を統合し、統合した途絶位置情報を保持する。よって、情報センタ2は、この点についても音声認識サーバとして機能する。   Further, for example, the information center 2 integrates discontinuation position information, which will be described later, transmitted from the navigation devices 1 of the vehicles A and B. Specifically, when the disruption position information indicating the same location as the already received disruption position information is transmitted, the disruption position information that is transmitted is integrated while holding the integrated disruption position information To do. Therefore, the information center 2 also functions as a voice recognition server in this respect.

ナビゲーション装置1は、自動車等の車両に搭載されるものであって、本実施形態では、自動車としての車両A・Bに搭載されるものとする。よって、ナビゲーション装置1は、請求項の車載ナビゲーション装置として機能する。ナビゲーション装置1は、一般的なナビゲーション装置と同様の経路案内を行う機能を有している他に、例えば、情報センタ2とネットワークを介して通信を行う機能や自車両以外の他車両に搭載されたナビゲーション装置1との間で通信を行う機能を有している。   The navigation device 1 is mounted on a vehicle such as an automobile. In the present embodiment, the navigation apparatus 1 is mounted on vehicles A and B as automobiles. Therefore, the navigation device 1 functions as the in-vehicle navigation device of the claims. The navigation apparatus 1 has a function of performing route guidance similar to that of a general navigation apparatus, and is mounted on a vehicle other than the function of communicating with the information center 2 via a network or other than the host vehicle, for example. The navigation device 1 has a function of communicating with the navigation device 1.

なお、図1では、車載ナビ用音声認識システム100にナビゲーション装置1を搭載した2台の車両(つまり、車両A・B)を含む構成を示したが、必ずしもこれに限らない。ナビゲーション装置1を搭載した車両は、車載ナビ用音声認識システム100に1台しか含まれていない構成であってもよいし、車載ナビ用音声認識システム100に3台以上含まれている構成であってもよい。しかしながら、以降では便宜上、車載ナビ用音声認識システム100にはナビゲーション装置1を搭載した車両A・Bの2台の車両が含まれるものとして説明を続ける。   Although FIG. 1 shows a configuration including two vehicles (that is, vehicles A and B) in which the navigation device 1 is mounted on the in-vehicle navigation voice recognition system 100, the configuration is not necessarily limited thereto. The vehicle equipped with the navigation device 1 may have a configuration in which only one vehicle-mounted navigation speech recognition system 100 is included, or three or more vehicles may be included in the vehicle-mounted navigation speech recognition system 100. May be. However, for the sake of convenience, the following description will be continued assuming that the in-vehicle navigation voice recognition system 100 includes two vehicles A and B in which the navigation device 1 is mounted.

ここで、図2を用いてナビゲーション装置1の概略的な構成について説明を行う。図2は、ナビゲーション装置1の概略的な構成を示すブロック図である。図2に示すようにナビゲーション装置1は、位置検出器11、地図データ入力器16、操作スイッチ群17、音声入力部18、リモコン19、リモコンセンサ20、センタ通信部21、車車間通信部22、外部メモリ23、表示装置24、音声出力装置25、およびこれらと接続された制御装置26を備えている。   Here, a schematic configuration of the navigation device 1 will be described with reference to FIG. FIG. 2 is a block diagram illustrating a schematic configuration of the navigation device 1. As shown in FIG. 2, the navigation device 1 includes a position detector 11, a map data input device 16, an operation switch group 17, a voice input unit 18, a remote controller 19, a remote control sensor 20, a center communication unit 21, a vehicle-to-vehicle communication unit 22, An external memory 23, a display device 24, an audio output device 25, and a control device 26 connected thereto are provided.

位置検出器11は、周知の地磁気センサ12、ジャイロスコープ13、距離センサ14、および衛星からの電波に基づいて車両の現在位置を検出するGPS(Global Positioning System)のためのGPS受信機15を有している。これらのセンサ等12〜15は、各々が性質の異なる誤差を持っているため、複数のセンサにより各々補完しながら使用するように構成されている。なお、精度によっては上述した内の一部で構成してもよく、さらにステアリングの回転センサ、各転動輪の回転速度から速度を検出する車速センサ等を用いてもよい。   The position detector 11 has a known geomagnetic sensor 12, a gyroscope 13, a distance sensor 14, and a GPS receiver 15 for GPS (Global Positioning System) that detects the current position of the vehicle based on radio waves from a satellite. is doing. These sensors 12 to 15 have errors of different properties, and are configured to be used while being complemented by a plurality of sensors. Depending on the accuracy, a part of the above may be used, and a steering rotation sensor, a vehicle speed sensor that detects the speed from the rotation speed of each rolling wheel, or the like may be used.

地図データ入力器16は、記憶媒体(図示せず)が装着され、その記憶媒体に格納されている位置検出の精度向上のためのいわゆるマップマッチング用データ、地図データ、および目印データを含む各種データを入力するための装置である。地図データには、道路を示すリンクデータとノードデータとが含まれる。なお、リンクとは、地図上の各道路を交差・分岐・合流する点等の複数のノードにて分割したときのノード間を結ぶものであり、各リンクを接続することにより道路が構成される。リンクデータは、リンクを特定する固有番号(リンクID)、リンクの長さを示すリンク長、リンクの始端及び終端ノード座標(緯度・経度)、道路名称、道路種別、道路幅員、車線数、右折・左折専用車線の有無とその専用車線の数、および制限速度等の各データから構成される。   The map data input device 16 is mounted with a storage medium (not shown), and various data including so-called map matching data, map data, and landmark data for improving the accuracy of position detection stored in the storage medium. Is a device for inputting. The map data includes link data indicating roads and node data. A link is a link between nodes when the roads on the map are divided by a plurality of nodes such as intersections, branches, and merge points, and roads are configured by connecting the links. . Link data includes a unique number (link ID) that identifies the link, link length indicating the link length, link start and end node coordinates (latitude / longitude), road name, road type, road width, number of lanes, right turn -Consists of data such as the presence or absence of a left turn lane, the number of lanes, speed limit, etc.

一方、ノードデータは、地図上の各道路が交差、合流、分岐するノード毎に固有の番号を付したノードID、ノード座標、ノード名称、ノードに接続するリンクのリンクIDが記述される接続リンクID、および交差点種類等の各データから構成される。   On the other hand, the node data includes a node ID, a node coordinate, a node name, and a link ID of a link connected to the node, each node having a unique number for each node where roads on the map intersect, merge and branch. It consists of each data such as ID and intersection type.

また、上記記憶媒体には、各種施設の種類、名称、住所のデータなども記憶されており、それらのデータは経路探索の際の目的地設定などに用いられる。なお、上記記憶媒体としては、CD−ROMまたはDVD−ROM、メモリカード、HDD等が用いられる。   The storage medium also stores various facility types, names, address data, and the like, and these data are used for destination setting for route search. Note that a CD-ROM or DVD-ROM, a memory card, an HDD, or the like is used as the storage medium.

操作スイッチ群17は、例えば表示装置24と一体になったタッチスイッチもしくはメカニカルなスイッチ等が用いられ、スイッチ操作により制御装置26へ各種機能(例えば、地図縮尺変更、メニュー表示選択、目的地設定、経路探索、経路案内開始、現在位置修正、表示画面変更、音量調整、主要エリア初期設定等)の操作指示を行う。また、操作スイッチ群17は、出発地および目的地を設定するためのスイッチを含んでいる。そのスイッチを操作することによって、ユーザは、予め登録しておいた地点、施設名、電話番号、住所などから、出発地および目的地を設定することができる。   For example, a touch switch or a mechanical switch integrated with the display device 24 is used as the operation switch group 17, and various functions (for example, map scale change, menu display selection, destination setting, Route search, route guidance start, current position correction, display screen change, volume adjustment, main area initial setting, etc.) are instructed. The operation switch group 17 includes switches for setting a departure place and a destination. By operating the switch, the user can set a departure point and a destination from points, facility names, telephone numbers, addresses, etc. registered in advance.

音声入力部18は、ユーザの発話音(ナビゲーション装置1への音声コマンド)を集音し、その集音した音声情報である音声コマンドの発話データを制御装置26に出力するものであって、マイクロフォン等を用いて構成することができる。なお、発話データは、例えば音声信号である。音声入力部18は、操作スイッチ群17のうち音声認識開始スイッチがオン操作されると最大発話入力可能時間の間、ユーザの発話音の集音を行うものとする。なお、最大発話入力可能時間とは、音声コマンドの入力を一度に受け付けることが可能な時間として任意に設定可能なものである。   The voice input unit 18 collects a user's utterance sound (voice command to the navigation device 1) and outputs utterance data of the voice command as the collected voice information to the control device 26. Etc. can be used. Note that the speech data is, for example, an audio signal. When the voice recognition start switch of the operation switch group 17 is turned on, the voice input unit 18 collects the user's uttered sound during the maximum utterance input possible time. The maximum utterance input possible time can be arbitrarily set as a time during which voice command input can be accepted at one time.

リモコン19には複数の操作スイッチ(図示せず)が設けられ、スイッチ操作によりリモコンセンサ20を介して各種指令信号を制御装置26に入力することにより、操作スイッチ群17と同じ機能を制御装置26に対して実行させることが可能である。   The remote controller 19 is provided with a plurality of operation switches (not shown). By inputting various command signals to the control device 26 via the remote control sensor 20 by the switch operation, the same functions as the operation switch group 17 are provided. Can be executed.

センタ通信部21は、ネットワークを介して情報センタ2との間で通信を行うものである。また、センタ通信部21は、無線通信を介してネットワークに接続するものとする。よって、例えばセンタ通信部21は、通信モジュールを介してネットワークに接続する構成としてもよい。ここで言うところの通信モジュールとしては、例えば車両に搭載されるDCM(data communication module)等のテレマティクス通信に用いられる車載通信モジュールや例えばBluetooth(登録商標)等で接続した携帯電話機等を用いる構成とすればよい。   The center communication unit 21 communicates with the information center 2 via a network. The center communication unit 21 is connected to the network via wireless communication. Therefore, for example, the center communication unit 21 may be configured to connect to a network via a communication module. As a communication module here, for example, a configuration using an in-vehicle communication module used for telematics communication such as DCM (data communication module) mounted on a vehicle, a mobile phone connected by Bluetooth (registered trademark), etc. do it.

なお、本実施形態では、センタ通信部21がネットワークを介して情報センタ2との間で通信を行う構成を示したが、必ずしもこれに限らず、ネットワークを介さずに情報センタ2との間で通信を行う構成としてもよい。   In the present embodiment, the configuration in which the center communication unit 21 communicates with the information center 2 via the network is shown. However, the present invention is not limited to this, and the center communication unit 21 does not necessarily communicate with the information center 2 via the network. It is good also as a structure which communicates.

車車間通信部22は、他車両に搭載されたナビゲーション装置1の車車間通信部22との間で無線通信によってデータの送受信を行う(つまり、車車間通信を行う)ものである。なお、車車間通信部22は、Bluetoothや無線LAN等の無線通信によってデータの送受信を行う構成とすればよい。   The inter-vehicle communication unit 22 transmits / receives data to / from the inter-vehicle communication unit 22 of the navigation device 1 mounted on another vehicle by wireless communication (that is, performs inter-vehicle communication). The inter-vehicle communication unit 22 may be configured to transmit and receive data by wireless communication such as Bluetooth or wireless LAN.

外部メモリ23は、HDD等の書き込み可能な大容量記憶装置である。外部メモリ23には大量のデータや電源をOFFしても消去してはいけないデータを記憶したり、頻繁に使用するデータを地図データ入力器16からコピーして利用したりする等の用途がある。また、外部メモリ23には、後述する簡易辞書が格納されるものとする。なお、外部メモリ23は、リムーバブルなメモリであってもよい。   The external memory 23 is a writable mass storage device such as an HDD. The external memory 23 is used for storing a large amount of data and data that should not be erased even when the power is turned off, or copying frequently used data from the map data input device 16 and using it. . The external memory 23 stores a simple dictionary described later. Note that the external memory 23 may be a removable memory.

表示装置24は、車両の走行を案内するための地図および目的地選択画面等を表示するものであって、フルカラー表示が可能なものであり、液晶ディスプレイ、有機ELディスプレイ、プラズマディスプレイ等を用いて構成することができる。また、音声出力装置25は、スピーカ等から構成され、制御装置26の指示に基づいて、経路案内時の案内音声などを出力する。   The display device 24 displays a map for guiding driving of the vehicle, a destination selection screen, and the like, and is capable of full color display, using a liquid crystal display, an organic EL display, a plasma display, or the like. Can be configured. The voice output device 25 includes a speaker or the like, and outputs a guidance voice at the time of route guidance based on an instruction from the control device 26.

制御装置26は通常のコンピュータとして構成されており、内部には周知のCPU、ROM、RAM、I/O及びこれらの構成を接続するバスライン(いずれも図示せず)が備えられている。制御装置26は、位置検出器11、地図データ入力器16、操作スイッチ群17、音声入力部18、リモコンセンサ20、センタ通信部21、車車間通信部22、外部メモリ23から入力された各種情報に基づき、ナビゲーション機能としての処理(例えば、地図縮尺変更処理、メニュー表示選択処理、目的地設定処理、経路探索実行処理、経路案内開始処理、現在位置修正処理、表示画面変更処理、音量調整処理等)や音声認識に関連する処理(サーバ音声認識処理、簡易辞書構築処理、途絶位置情報記録処理、途絶位置情報取得処理、音声認識可否判定処理、容量判定処理、対応関係リスト整理処理、モード切り替え処理、使用頻度情報更新処理等)を実行する。   The control device 26 is configured as a normal computer, and includes a well-known CPU, ROM, RAM, I / O, and a bus line (all not shown) for connecting these configurations. The control device 26 includes various information input from the position detector 11, map data input device 16, operation switch group 17, voice input unit 18, remote control sensor 20, center communication unit 21, inter-vehicle communication unit 22, and external memory 23. Based on the navigation function (for example, map scale change processing, menu display selection processing, destination setting processing, route search execution processing, route guidance start processing, current position correction processing, display screen change processing, volume adjustment processing, etc. ) And processing related to speech recognition (server speech recognition processing, simple dictionary construction processing, disruption position information recording processing, disruption location information acquisition processing, speech recognition availability determination processing, capacity determination processing, correspondence list organization processing, mode switching processing , Use frequency information update processing).

例えば、制御装置26は、サーバ音声認識処理を行う。サーバ音声認識処理では、リモコン19を介してリモコンセンサ20で、あるいは操作スイッチ群17によって音声認識処理の実行開始が指示されると、音声入力部18から入力された音声コマンドの発話データをセンタ通信部21によって情報センタ2に送信し、当該発話データについて情報センタ2から返信される認識結果を受け取る。また、制御装置26は、情報センタ2から返信される認識結果を受け取った場合には、この認識結果に従った処理を実行し、音声コマンドに従ったナビゲーション装置1の操作を開始する。なお、ナビゲーション装置1のセンタ通信部21から発話データを受信した情報センタ2では、当該発話データに基づいて音声認識を行い、認識結果を当該発話データの送信元のナビゲーション装置1のセンタ通信部21に返信するものとする。   For example, the control device 26 performs server voice recognition processing. In the server voice recognition process, when the remote control sensor 20 via the remote controller 19 or the operation switch group 17 instructs to start the voice recognition process, the voice command speech data input from the voice input unit 18 is transmitted to the center communication. The information is transmitted to the information center 2 by the unit 21, and the recognition result returned from the information center 2 with respect to the speech data is received. Further, when receiving the recognition result returned from the information center 2, the control device 26 executes processing according to the recognition result and starts operation of the navigation device 1 according to the voice command. The information center 2 that has received the utterance data from the center communication unit 21 of the navigation device 1 performs voice recognition based on the utterance data, and the recognition result is sent to the center communication unit 21 of the navigation device 1 that is the transmission source of the utterance data. To reply to.

また、制御装置26は、情報センタ2から認識結果を受け取った場合には、簡易辞書構築処理を行う。簡易辞書構築処理では、音声入力部18に入力された音声コマンドの発話データと当該発話データをもとに情報センタ2で得られた認識結果とを少なくとも対応付けたリスト(以下、対応関係リスト)を外部メモリ23に格納されているテーブルに登録していくことによって音声認識用の辞書としての簡易辞書を作成する。そして、新たな対応関係リストが得られるたびに、この新たな対応関係リストを上述のテーブルに登録することによって簡易辞書を更新していく。従って、外部メモリ23には、最新の簡易辞書が格納されることになる。よって、制御装置26は、請求項の簡易辞書構築部として機能するとともに、外部メモリ23は、請求項の簡易辞書格納部として機能する。   Further, when receiving the recognition result from the information center 2, the control device 26 performs a simple dictionary construction process. In the simple dictionary construction process, a list in which at least the utterance data of the voice command input to the voice input unit 18 is associated with the recognition result obtained by the information center 2 based on the utterance data (hereinafter referred to as a correspondence list). Are registered in a table stored in the external memory 23 to create a simple dictionary as a dictionary for speech recognition. Each time a new correspondence list is obtained, the simplified dictionary is updated by registering this new correspondence list in the above-described table. Accordingly, the latest simple dictionary is stored in the external memory 23. Therefore, the control device 26 functions as a simple dictionary construction unit of claims, and the external memory 23 functions as a simple dictionary storage unit of claims.

なお、対応関係リストに対応づける発話データは、音声信号そのものでなく音素成分等の音声の特徴量にまで圧縮されたものであることが好ましい。これによれば、音声信号そのものを扱うよりもデータ量を抑えることができるので、簡易辞書のデータ量も抑えることができ、簡易辞書を格納する外部メモリ23の容量をより有効に利用することが可能になる。また、発話データを音声の特徴量にまで圧縮する処理は、情報センタ2での音声認識の過程で行うものとしてもよいし、制御装置26で行うものとしてもよい。なお、情報センタ2での音声認識の過程で行う場合には、認識結果に加えてこの音声の特徴量も情報センタ2から制御装置26が受け取り、簡易辞書の作成、更新を行う構成としてもよい。   Note that the utterance data associated with the correspondence relationship list is preferably compressed to a voice feature amount such as a phoneme component instead of the speech signal itself. According to this, since the amount of data can be suppressed rather than handling the audio signal itself, the amount of data in the simple dictionary can also be suppressed, and the capacity of the external memory 23 for storing the simple dictionary can be used more effectively. It becomes possible. In addition, the process of compressing the speech data to the voice feature amount may be performed in the process of voice recognition in the information center 2 or may be performed by the control device 26. When performing in the process of speech recognition at the information center 2, the control device 26 may receive the feature amount of the speech in addition to the recognition result from the information center 2, and create and update a simple dictionary. .

また、制御装置26は、簡易辞書構築処理において新たな対応関係リストを簡易辞書に登録しようとする際に、この新たな対応関係リストを登録後の新たな簡易辞書が外部メモリ23の容量に納まるか否かを判定する容量判定処理を行う。よって、制御装置26は、請求項の容量判定部としても機能する。なお、外部メモリ23の容量とは、簡易辞書の格納のために割り当てられている保存領域の容量とする。   Further, when the control device 26 tries to register a new correspondence list in the simple dictionary in the simple dictionary construction process, the new simple dictionary after registering the new correspondence list fits in the capacity of the external memory 23. A capacity determination process is performed to determine whether or not. Therefore, the control device 26 also functions as a capacity determination unit. The capacity of the external memory 23 is the capacity of the storage area allocated for storing the simple dictionary.

さらに、制御装置26は、容量判定処理において、新たな簡易辞書が外部メモリ23の容量に納まらないと判定した場合には、既に簡易辞書に登録されている対応関係リストのうち、同一の音声コマンドに対して複数存在する対応関係リストについては、対応付けられている認識結果に含まれる尤度が最も高いものを残して他を削除することによって整理を行う対応関係リスト整理処理を行う。よって、制御装置26は、請求項の対応関係データ整理部としても機能する。これによれば、同一の音声コマンドに対して複数存在する対応関係リストについて整理を行うことによって、外部メモリ23の容量をより有効に利用することが可能になる。   Further, when the control device 26 determines that the new simple dictionary does not fit in the capacity of the external memory 23 in the capacity determination process, the same voice command in the correspondence list already registered in the simple dictionary is used. On the other hand, a correspondence list organizing process is performed in which a plurality of correspondence lists are arranged by deleting others while leaving the one with the highest likelihood included in the associated recognition result. Therefore, the control device 26 also functions as a correspondence relationship data organizing unit. According to this, it is possible to use the capacity of the external memory 23 more effectively by arranging a plurality of correspondence lists for the same voice command.

さらに、制御装置26は、途絶位置情報記録処理を行う。途絶位置情報記録処理では、センタ通信部21と情報センタ2との間での通信が途絶した場合に、この通信の途絶が生じた場所の位置情報である途絶位置情報を、制御装置26が図示しないEEPROM等の電気的に書き換え可能なメモリに記録する。よって、制御装置26は、請求項の途絶位置情報記録部としても機能する。なお、ここで言うところの場所の位置情報とは、地図データ上の一点を示す座標等の情報であってもよいし、地図データ上の一定範囲のエリアを示す情報であってもよいし、地図データ上のメッシュを示すID等の情報であってもよい。そして、制御装置26は、記録した途絶位置情報をセンタ通信部21から情報センタ2に送信させる。なお、記録した途絶位置情報の情報センタ2への送信は、例えば、定期的に行われる構成であってもよいし、途絶位置情報が得られるたびに行われる構成であってもよいし、サーバ音声認識処理における情報センタ2との通信のついでに行われる構成であってもよい。   Further, the control device 26 performs a break position information recording process. In the interruption position information recording process, when communication between the center communication unit 21 and the information center 2 is interrupted, the control device 26 shows the interruption position information which is the position information of the place where the communication interruption has occurred. Not recorded in an electrically rewritable memory such as an EEPROM. Therefore, the control device 26 also functions as a break position information recording unit. In addition, the location information of the place said here may be information such as coordinates indicating one point on the map data, or may be information indicating a certain range area on the map data, Information such as an ID indicating a mesh on map data may be used. Then, the control device 26 transmits the recorded interruption position information from the center communication unit 21 to the information center 2. The transmission of the recorded break position information to the information center 2 may be performed periodically, for example, or may be performed every time break position information is obtained, or a server The configuration may be performed following communication with the information center 2 in the voice recognition process.

また、制御装置26は、途絶位置情報取得処理を行う。途絶位置情報取得処理では、例えば、情報センタ2が保持している途絶位置情報を、通信モジュールを介してセンタ通信部21で取得させたり、情報センタ2から途絶位置情報を取得済みの他車両のナビゲーション装置1から、この途絶位置情報を車車間通信によって車車間通信部22で取得させたりする。よって、センタ通信部21および車車間通信部22は、請求項の途絶位置情報取得部として機能する。なお、センタ通信部21や車車間通信部22で取得させた途絶位置情報については、図示しないEEPROM等の電気的に書き換え可能なメモリに制御装置26が記録する。   In addition, the control device 26 performs a disruption position information acquisition process. In the break position information acquisition process, for example, the break position information held by the information center 2 is acquired by the center communication unit 21 via the communication module, or the break position information of the other vehicle for which the break position information has been acquired from the information center 2. From the navigation device 1, the discontinuity position information is acquired by the inter-vehicle communication unit 22 by inter-vehicle communication. Therefore, the center communication unit 21 and the inter-vehicle communication unit 22 function as a break position information acquisition unit. Note that the interruption position information acquired by the center communication unit 21 and the inter-vehicle communication unit 22 is recorded by the control device 26 in an electrically rewritable memory such as an EEPROM (not shown).

さらに、制御装置26は、情報センタ2で音声認識を行わせることが可能か否かを判定する音声認識可否判定処理を行う。よって、制御装置26は、請求項の音声認識可否判定部としても機能する。音声認識可否判定処理では、例えば、ナビゲーション装置1のセンタ通信部21と情報センタ2との間の通信が確立できなくなったときに、情報センタ2で音声認識を行わせることが可能でないと判定する。また、例えば、位置検出器11から制御装置が取得した自車両の現在位置が、上述のメモリに記録されている途絶位置情報のうちのいずれかの途絶位置情報が示す場所に該当したときに、情報センタ2で音声認識を行わせることが可能でないと判定する。さらに、例えば、音声認識の要否についての操作入力として情報センタ2での音声認識を必要としない旨のユーザからの操作入力を、音声入力部18で、もしくはリモコン19を介してリモコンセンサ20で、あるいは操作スイッチ群17で受け付けており、情報センタ2での音声認識を必要としない設定が制御装置26でなされていたときに、情報センタ2で音声認識を行わせることが可能でないと判定する。よって、操作スイッチ群17、音声入力部18、リモコン19、およびリモコンセンサ20はサーバ音声認識要否入力部として機能する。なお、音声認識可否判定処理は、例えば、任意に設定される一定時間ごとや自車両が任意に設定される一定の距離を走行するごとに行われるものとすればよい。   Further, the control device 26 performs voice recognition availability determination processing for determining whether or not the information center 2 can perform voice recognition. Therefore, the control device 26 also functions as a voice recognition availability determination unit. In the speech recognition availability determination process, for example, when communication between the center communication unit 21 of the navigation device 1 and the information center 2 can no longer be established, it is determined that the information center 2 cannot perform speech recognition. . In addition, for example, when the current position of the host vehicle acquired by the control device from the position detector 11 corresponds to the location indicated by any of the disruption position information recorded in the memory described above, It is determined that the information center 2 cannot perform voice recognition. Furthermore, for example, an operation input from the user indicating that voice recognition at the information center 2 is not required as an operation input regarding whether or not voice recognition is necessary is performed by the voice input unit 18 or the remote control sensor 20 via the remote controller 19. Alternatively, when it is received by the operation switch group 17 and the setting that does not require voice recognition at the information center 2 has been made at the control device 26, it is determined that voice recognition at the information center 2 cannot be performed. . Therefore, the operation switch group 17, the voice input unit 18, the remote controller 19, and the remote control sensor 20 function as a server voice recognition necessity input unit. Note that the speech recognition availability determination process may be performed, for example, every time that is arbitrarily set or every time the vehicle travels a certain distance that is arbitrarily set.

また、制御装置26は、情報センタ2で音声認識を行わせることが可能でないと音声認識可否判定処理において判定した場合には、モード切り替え処理を行う。モード切り替え処理では、音声入力部18に入力された音声コマンドの発話データをもとに、外部メモリ23に格納されている簡易辞書を用いてこの発話データに対応する認識結果を得る簡易音声認識モードに切り替える。そして、この簡易音声認識モードに切り替えているときに音声入力部18に音声コマンドが入力された場合には、この音声コマンドの発話データをもとに、外部メモリ23に格納されている簡易辞書に登録されているテーブルを参照してこの発話データに対応する認識結果を得ることによって、ナビゲーション装置1側で音声認識を行い、音声コマンドに従ったナビゲーション装置1の操作を開始する。よって、制御装置26は、請求項のモード切り替え部としても機能する。また、この簡易音声認識モードに切り替える前のモードは、文字認識を情報センタ2側で行わせるサーバ音声認識モードであるものとする。   Further, when it is determined in the voice recognition availability determination process that the information center 2 cannot perform voice recognition, the control device 26 performs a mode switching process. In the mode switching process, a simple voice recognition mode for obtaining a recognition result corresponding to the utterance data using the simple dictionary stored in the external memory 23 based on the utterance data of the voice command input to the voice input unit 18. Switch to. When a voice command is input to the voice input unit 18 while switching to the simple voice recognition mode, the simple dictionary stored in the external memory 23 is stored based on the utterance data of the voice command. By referring to the registered table and obtaining a recognition result corresponding to the utterance data, the navigation device 1 performs voice recognition and starts the operation of the navigation device 1 according to the voice command. Therefore, the control device 26 also functions as a mode switching unit. Further, it is assumed that the mode before switching to the simple speech recognition mode is a server speech recognition mode in which character recognition is performed on the information center 2 side.

なお、この簡易音声認識モードへの切り替え後は、例えば、任意に設定される一定時間後にサーバ音声認識モードに切り替える構成としてもよいし、音声認識可否判定処理において情報センタ2で音声認識を行わせることが可能であるとの判定が行われたときにサーバ音声認識モードに切り替える構成としてもよい。また、情報センタ2での音声認識を必要としない設定が制御装置26でなされている場合には、この設定が解除されるまで簡易音声認識モードを持続し、この設定が解除されたときにサーバ音声認識モードに切り替える構成としてもよい。   Note that after switching to the simple speech recognition mode, for example, a configuration may be adopted in which the server speech recognition mode is switched after an arbitrarily set time, or the information center 2 performs speech recognition in the speech recognition availability determination process. It is good also as a structure which switches to server speech recognition mode, when it determines with being possible. Also, if the control device 26 has been set so that voice recognition at the information center 2 is not required, the simple voice recognition mode is maintained until this setting is released, and the server is set when this setting is released. It is good also as a structure switched to voice recognition mode.

また、簡易辞書に登録される対応関係リストには、音声コマンドの発話データと当該発話データをもとに情報センタ2で得られた認識結果以外にも、例えば、その対応関係リストを登録した日付情報や音声コマンドの種類を識別するためのIDや対応関係リストごとの使用頻度(つまり、簡易音声認識モードでの文字認識においてその対応関係リストが参照された回数)や音声コマンドの種類ごとの使用頻度(その音声コマンドが音声入力部18から入力された回数)等が対応付けられていてもよい。   Further, in the correspondence list registered in the simple dictionary, in addition to the speech command speech data and the recognition result obtained by the information center 2 based on the speech data, for example, the date when the correspondence list was registered ID for identifying the type of information and voice command, usage frequency for each correspondence list (that is, the number of times the correspondence list was referenced in character recognition in the simple voice recognition mode), and usage for each voice command type The frequency (the number of times the voice command is input from the voice input unit 18) or the like may be associated.

次に、図3を用いて、ナビゲーション装置1での音声認識に関連する処理のフローについての説明を行う。図3は、ナビゲーション装置1での音声認識に関連する処理のフローを示すフローチャートである。なお、本フローは、例えば自車両のイグニッションスイッチがオンされてナビゲーション装置1に電源供給されたときに開始される。   Next, the flow of processing related to speech recognition in the navigation device 1 will be described with reference to FIG. FIG. 3 is a flowchart showing a flow of processing related to voice recognition in the navigation device 1. This flow is started when, for example, an ignition switch of the host vehicle is turned on and power is supplied to the navigation device 1.

まず、ステップS1では、制御装置26が音声認識可否判定処理を行う。そして、情報センタ2で音声認識を行わせることが可能(つまり、サーバ音声認識可能)であると判定した場合(ステップS1でYes)には、ステップS2に移る。また、情報センタ2で音声認識を行わせることが可能でないと判定した場合(ステップS1でNo)には、ステップS7に移る。   First, in step S1, the control device 26 performs a speech recognition availability determination process. If it is determined that the information center 2 can perform voice recognition (that is, server voice recognition is possible) (Yes in step S1), the process proceeds to step S2. If it is determined that the information center 2 cannot perform voice recognition (No in step S1), the process proceeds to step S7.

ステップS2では、制御装置26がサーバ音声認識処理を開始して、音声入力部18から入力された音声コマンドの発話データをセンタ通信部21によって情報センタ2に送信し、ステップS3に移る。続いて、ステップS3では、当該発話データについて情報センタ2から返信される認識結果を、センタ通信部21を介して制御装置26が受け取り、ステップS4に移る。   In step S2, the control device 26 starts server speech recognition processing, and the speech data of the voice command input from the voice input unit 18 is transmitted to the information center 2 by the center communication unit 21, and the process proceeds to step S3. Subsequently, in step S3, the control device 26 receives the recognition result returned from the information center 2 for the speech data via the center communication unit 21, and the process proceeds to step S4.

ステップS4では、制御装置26が容量判定処理を行う。そして、新たな簡易辞書が外部メモリ23の容量に納まる(つまり、保存領域の空きがある)と判定した場合(ステップS4でYes)には、ステップS5に移る。また、新たな簡易辞書が外部メモリ23の容量に納まらない(つまり、保存領域の空きがない)と判定した場合(ステップS4でNo)には、ステップS6に移る。   In step S4, the control device 26 performs a capacity determination process. If it is determined that the new simple dictionary fits in the capacity of the external memory 23 (that is, there is an empty storage area) (Yes in step S4), the process proceeds to step S5. If it is determined that the new simple dictionary does not fit in the capacity of the external memory 23 (that is, there is no free storage area) (No in step S4), the process proceeds to step S6.

ステップS5では、制御装置26が簡易辞書構築処理を行い、ステップS9に移る。ステップS6では、制御装置26が対応関係リスト整理処理を行い、ステップS4に戻ってフローを繰り返す。   In step S5, the control device 26 performs a simple dictionary construction process, and proceeds to step S9. In step S6, the control device 26 performs correspondence list organization processing, returns to step S4, and repeats the flow.

ステップS7では、外部メモリ23に格納されている簡易辞書を用いて発話データに対応する認識結果を得ることによって、ナビゲーション装置1側で音声認識(つまり、簡易辞書を用いて文字認識)を行い、ステップS8に移る。なお、本フローでは、便宜上、簡易辞書を用いることによって発話データに対応する認識結果を必ず得ることができるものとして説明を行ったが、簡易辞書を用いて発話データに対応する認識結果を得ることができなかった場合には、例えば文字認識を行うことができないことを示す表示や音声出力等を表示装置24や音声出力装置25で行うとともに、任意に設定される一定時間が経過した後にステップS1に戻ってフローを繰り返す等する構成とすればよい。   In step S7, the navigation device 1 performs voice recognition (that is, character recognition using the simple dictionary) by obtaining a recognition result corresponding to the utterance data using the simple dictionary stored in the external memory 23, Control goes to step S8. In this flow, for the sake of convenience, it has been described that the recognition result corresponding to the utterance data can always be obtained by using the simple dictionary, but the recognition result corresponding to the utterance data is obtained using the simple dictionary. In the case where the character cannot be recognized, for example, a display indicating that character recognition cannot be performed, a sound output, or the like is performed on the display device 24 or the sound output device 25, and after an arbitrarily set time has elapsed, step S1 is performed. The configuration may be such that the flow is repeated after returning to step S2.

ステップS8では、制御装置26が使用頻度情報更新処理を行い、ステップS9に移る。使用頻度情報更新処理では、簡易音声認識モードでの文字認識において参照された対応関係リストについて、対応関係リストに対応付けられている対応関係リストごとの使用頻度の回数を1増やすデータの更新を行う。また、対応関係リストごとの使用頻度の情報は、容量判定処理において、新たな簡易辞書が外部メモリ23の容量に納まらないと判定した場合に、使用頻度の低い対応関係リストを優先的に削除して簡易辞書を整理するのに用いる構成とすればよい。   In step S8, the control device 26 performs usage frequency information update processing, and proceeds to step S9. In the usage frequency information update process, for the correspondence list referenced in the character recognition in the simple speech recognition mode, the data that increases the number of times of use for each correspondence list associated with the correspondence list is updated by one. . The usage frequency information for each correspondence list is preferentially deleted when the new simple dictionary does not fit in the capacity of the external memory 23 in the capacity determination process. Thus, a configuration used for organizing a simple dictionary may be used.

なお、簡易辞書の整理については、対応関係リストに対応付けられているその対応関係リストを登録した日付情報をもとに、古い対応関係リストを優先的に削除して行う構成としてもよいし、対応関係リストに対応付けられている音声コマンドの種類ごとの使用頻度をもとに、使用頻度の低い音声コマンドに対応付けられている(詳しくは、使用頻度の低い音声コマンドのIDに対応付けられている)対応関係リストをまとめて優先的に削除する構成としてもよいし、これまで説明した簡易辞書の整理の手法を組み合わせて行う構成としてもよい。   The organization of the simple dictionary may be configured such that the old correspondence list is preferentially deleted based on the date information in which the correspondence list associated with the correspondence list is registered, Based on the usage frequency for each type of voice command associated with the correspondence list, it is associated with a voice command with a low usage frequency (specifically, it is associated with the ID of a voice command with a low usage frequency). The correspondence list may be preferentially deleted, or may be combined with the simple dictionary organization methods described so far.

ステップS9では、自車両のイグニッションスイッチがオフになった場合(ステップS9でYes)には、フローを終了する。また、自車両のイグニッションスイッチがオフになっていない場合(ステップS9でNo)には、ステップS1に戻ってフローを繰り返す。   In step S9, if the ignition switch of the host vehicle is turned off (Yes in step S9), the flow ends. If the ignition switch of the host vehicle is not turned off (No in step S9), the process returns to step S1 and the flow is repeated.

以上の構成によれば、情報センタ2で音声認識を行わせることが可能でないと制御装置26で判定された場合には、外部メモリ23に格納されている簡易辞書を用いて音声コマンドの発話データに対応する認識結果を得ることができるので、ナビゲーション装置1と情報センタ2との間で通信が確立していない場合であっても、音声コマンドの発話データに基づいて音声認識を行うことが可能になる。よって、以上の構成によれば、より高い汎用性を実現することが可能になる。また、簡易辞書には、音声コマンドの発話データと当該発話データをもとに情報センタ2で得られた認識結果とを少なくとも対応付けた対応関係リストが登録されているので、この簡易辞書を用いて音声認識を行った場合であっても、過去に情報センタ2で音声認識が行われた音声コマンドと同様の音声コマンドについては、情報センタ2で音声認識を行うのと同等の認識性能で音声認識を行うことが可能になる。よって、以上の構成によれば、音声認識における認識性能をより向上させることが可能になる。その結果、音声認識における認識性能をより向上させながら、より高い汎用性を実現することが可能になる。よって、ナビゲーション装置1は、請求項の車載端末として機能する。   According to the above configuration, when the control device 26 determines that voice recognition cannot be performed at the information center 2, speech command speech data using the simple dictionary stored in the external memory 23. Can be obtained, so that even if communication between the navigation device 1 and the information center 2 is not established, speech recognition can be performed based on speech command speech data. become. Therefore, according to the above configuration, higher versatility can be realized. In addition, since the correspondence dictionary that associates at least the utterance data of the voice command and the recognition result obtained by the information center 2 based on the utterance data is registered in the simple dictionary, this simple dictionary is used. Even if voice recognition is performed, voice commands similar to voice commands that have been voice-recognized in the information center 2 in the past are recognized with the same recognition performance as voice recognition performed in the information center 2. Recognition can be performed. Therefore, according to the above configuration, recognition performance in speech recognition can be further improved. As a result, it is possible to realize higher versatility while further improving the recognition performance in speech recognition. Therefore, the navigation apparatus 1 functions as an in-vehicle terminal in the claims.

また、以上の構成によれば、複数の車両でそれぞれ得られた途絶位置情報を情報センタ2で統合して保持しているので、例えば情報センタ2で統合した途絶位置情報を複数の車両のナビゲーション装置1のそれぞれに配信することによって、複数の車両のナビゲーション装置1同士で途絶位置情報を共有することが可能になる。本実施形態の例を用いて詳しく説明すると、車両Aのナビゲーション装置1で得られた途絶位置情報(ここでは、途絶位置情報Aおよび途絶位置情報Bが得られたものとする)と車両Bのナビゲーション装置1で得られた途絶位置情報(ここでは、途絶位置情報Bおよび途絶位置情報Cが得られたものとする)とを情報センタ2が統合することによって、情報センタ2は途絶位置情報A、途絶位置情報B、および途絶位置情報Cを保持することになる。そして、途絶位置情報A、途絶位置情報B、および途絶位置情報Cを車両Aのナビゲーション装置1と車両Bのナビゲーション装置1のそれぞれに配信することによって、車両Aのナビゲーション装置1と車両Bのナビゲーション装置1は、途絶位置情報A、途絶位置情報B、および途絶位置情報Cを共有することができる。   Further, according to the above configuration, the interruption position information obtained by each of the plurality of vehicles is held in the information center 2 in an integrated manner. For example, the interruption position information integrated by the information center 2 is used for navigation of the plurality of vehicles. Distributing to each of the devices 1 makes it possible to share the disruption position information among the navigation devices 1 of a plurality of vehicles. If it demonstrates in detail using the example of this embodiment, the discontinuation position information (here, discontinuation position information A and discontinuation position information B shall be obtained) obtained with the navigation apparatus 1 of the vehicle A, and the vehicle B's The information center 2 integrates the disruption position information (here, the disruption position information B and the disruption position information C obtained) obtained by the navigation device 1, so that the information center 2 has the disruption position information A The break position information B and the break position information C are held. Then, the disruption position information A, the disruption position information B, and the disruption position information C are distributed to the navigation device 1 of the vehicle A and the navigation device 1 of the vehicle B, respectively, so that the navigation device 1 of the vehicle A and the navigation of the vehicle B are distributed. The device 1 can share the break position information A, the break position information B, and the break position information C.

なお、音声認識可否判定処理では、前述の車速センサで検出した車速情報を制御装置26で取得し、制御装置26が取得した車速情報と制御装置26が位置検出器11から取得した自車両の現在位置と制御装置26によって音声入力部18に設定されている最大発話入力可能時間とをもとに、途絶位置情報が示す場所に自車両が到達するまでの時間が最大発話入力可能時間よりも短いと判定したときに、情報センタ2で音声認識を行わせることが可能でないと判定する構成としてもよい。よって、制御装置26は、請求項の車速情報取得部としても機能する。   In the voice recognition availability determination process, the vehicle speed information detected by the vehicle speed sensor is acquired by the control device 26, and the vehicle speed information acquired by the control device 26 and the current vehicle current acquired by the control device 26 from the position detector 11 are acquired. Based on the position and the maximum utterance input possible time set in the voice input unit 18 by the control device 26, the time until the host vehicle reaches the place indicated by the disruption position information is shorter than the maximum utterance input possible time. If it is determined that the information center 2 cannot perform voice recognition, the information center 2 may determine that it is not possible to perform voice recognition. Therefore, the control device 26 also functions as a vehicle speed information acquisition unit.

さらに、音声認識の要否についての操作入力としては、音声コマンドの種類ごとに情報センタ2での音声認識の要否についてのユーザからの操作入力を、音声入力部18で、もしくはリモコン19を介してリモコンセンサ20で、あるいは操作スイッチ群17で受け付け、音声コマンドの種類ごとに情報センタ2での音声認識を必要としない設定が制御装置26でなされる構成としてもよい。この場合には、情報センタ2での音声認識を必要としない旨のユーザからの操作入力を受け付けていた音声コマンドについては、音声認識可否判定処理において情報センタ2で音声認識を行わせることが可能でないと判定し、音声入力部18に当該音声コマンドの発話データが入力されたときには、簡易音声認識モードに切り替えてナビゲーション装置1側で音声認識を行う構成とすればよい。また、この場合には、対象とする音声コマンドの発話データが音声入力部18に入力されたことの判断は、制御装置26が外部メモリ23に格納されている簡易辞書を参照することによって簡易に音声コマンドの種別を判別することによって行う構成とすればよい。   Further, as an operation input regarding the necessity of voice recognition, an operation input from the user regarding the necessity of voice recognition at the information center 2 for each type of voice command is performed by the voice input unit 18 or via the remote control 19. The remote control sensor 20 or the operation switch group 17 may accept the voice command at the information center 2 for each type of voice command. In this case, it is possible to cause the information center 2 to perform voice recognition in the voice recognition availability determination process for a voice command that has received an operation input from the user that voice recognition at the information center 2 is not required. If the speech data of the voice command is input to the voice input unit 18, it may be configured to switch to the simple voice recognition mode and perform voice recognition on the navigation device 1 side. In this case, the determination that the speech data of the target voice command has been input to the voice input unit 18 can be easily made by the control device 26 referring to the simple dictionary stored in the external memory 23. What is necessary is just to carry out by determining the classification of a voice command.

以上の構成によれば、ユーザが指定した音声コマンドの発話データについては情報センタ2で音声認識を行わずにナビゲーション装置1側の簡易辞書を用いて音声認識することが可能になる。よって、例えばユーザがよく使う音声コマンドなど、情報センタ2で音声認識を行うのと同等の認識性能で簡易辞書においても既に音声認識を行うことが可能になっていると考えられる音声コマンドについては、情報センタ2を利用せずに音声認識を行い、音声認識の処理時間を低減したり、情報センタ2の負荷を低減したりすることが可能になる。   According to the above configuration, the speech data of the voice command designated by the user can be recognized by using the simple dictionary on the navigation device 1 side without performing the speech recognition at the information center 2. Therefore, for example, voice commands frequently used by the user, such as voice commands that are considered to be already able to perform voice recognition even in a simple dictionary with recognition performance equivalent to that of performing voice recognition in the information center 2, It is possible to perform voice recognition without using the information center 2 to reduce the processing time for voice recognition and to reduce the load on the information center 2.

なお、前述の実施形態では、情報センタ2で保持する途絶位置情報は、ナビゲーション装置1から送信されてくる途絶位置情報に由来する構成を示したが、必ずしもこれに限らない。例えば、ナビゲーション装置1から送信されてくる途絶位置情報に加え、トンネルなど通信が途絶すると推測される場所の位置情報を途絶位置情報として情報センタ2の管理者側で追加する構成であってもよい。   In the above-described embodiment, the interruption position information held in the information center 2 is configured to be derived from the interruption position information transmitted from the navigation device 1, but is not necessarily limited thereto. For example, in addition to the disruption position information transmitted from the navigation device 1, it may be configured such that position information of a place where communication is assumed to be disrupted, such as a tunnel, is added as disruption position information on the administrator side of the information center 2. .

また、前述の実施形態では、請求項の車載端末として車載ナビゲーション装置を適用した例を示したが、必ずしもこれに限らない。請求項の車載端末は、音声コマンドによって操作可能な機能を有する車載機器であって、直接的もしくは間接的に車両外のサーバと通信可能なものであれば車載ナビゲーション装置以外の車載機器であってもよい。   Further, in the above-described embodiment, the example in which the in-vehicle navigation device is applied as the in-vehicle terminal in the claims is shown, but the present invention is not necessarily limited thereto. The in-vehicle terminal in the claims is an in-vehicle device having a function that can be operated by a voice command and can be directly or indirectly communicated with a server outside the vehicle. Also good.

なお、本発明は、上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。   The present invention is not limited to the above-described embodiments, and various modifications can be made within the scope of the claims, and the technical means disclosed in different embodiments can be appropriately combined. Such embodiments are also included in the technical scope of the present invention.

1 ナビゲーション装置(車載端末、車載ナビゲーション装置)、2 情報センタ(音声認識サーバ)、11 位置検出器、12 地磁気センサ、13 ジャイロスコープ、14 距離センサ、15 GPS受信機、16 地図データ入力器、17 操作スイッチ群(サーバ音声認識要否入力部)、18 音声入力部(サーバ音声認識要否入力部)、19 リモコン(サーバ音声認識要否入力部)、20 リモコンセンサ(サーバ音声認識要否入力部)、21 センタ通信部(途絶位置情報取得部)、22 車車間通信部(途絶位置情報取得部)、23 外部メモリ(簡易辞書格納部)、24 表示装置、25 音声出力装置、26 制御装置(簡易辞書構築部、容量判定部、対応関係データ整理部、途絶位置情報記録部、音声認識可否判定部、モード切り替え部、車速情報取得部)、100 車載ナビ用音声認識システム100(音声認識システム) DESCRIPTION OF SYMBOLS 1 Navigation apparatus (vehicle-mounted terminal, vehicle-mounted navigation apparatus) 2 Information center (voice recognition server) 11 Position detector 12 Geomagnetic sensor 13 Gyroscope 14 Distance sensor 15 GPS receiver 16 Map data input device 17 Operation switch group (server voice recognition necessity input section), 18 voice input section (server voice recognition necessity input section), 19 remote controller (server voice recognition necessity input section), 20 remote control sensor (server voice recognition necessity input section) ), 21 Center communication unit (disruption position information acquisition unit), 22 Inter-vehicle communication unit (disruption position information acquisition unit), 23 External memory (simple dictionary storage unit), 24 Display device, 25 Voice output device, 26 Control device ( Simple dictionary construction part, capacity judgment part, correspondence data organization part, break position information recording part, voice recognition availability judgment part, mode off Instead unit, a vehicle speed information obtaining unit) 100 onboard navigation for speech recognition system 100 (the speech recognition system)

Claims (10)

車両に搭載される車載端末が有する音声入力部を介してユーザから入力を受け付けた音声コマンドの発話データを、前記車両外の音声認識サーバに無線通信を介して送信するとともに、前記音声認識サーバが保持する音声認識用の辞書を用いて当該発話データに基づく音声認識を行い、この音声認識の結果である認識結果を前記車載端末に無線通信を介して返信する音声認識システムであって、
前記車載端末は、
前記車載端末が搭載される車両の現在位置を検出することが可能な車載ナビゲーション装置であり、
前記音声入力部に入力された音声コマンドの発話データと当該発話データをもとに前記音声認識サーバで得られた認識結果との対応関係を示す対応関係データを登録していくことによって音声認識用の辞書としての簡易辞書を作成し、更新していく簡易辞書構築部と、
最新の前記簡易辞書を格納する簡易辞書格納部と、
前記音声認識サーバで前記音声認識を行わせることが可能か否かを判定する音声認識可否判定部と、
前記音声認識サーバで前記音声認識を行わせることが可能でないと前記音声認識可否判定部で判定した場合には、前記音声入力部に入力された音声コマンドの発話データをもとに、前記簡易辞書格納部に格納されている前記簡易辞書を用いてこの発話データに対応する認識結果を得る簡易音声認識モードに切り替えるモード切り替え部と、
前記音声認識サーバとの間での通信が途絶した場合に、この通信の途絶が生じた場所の位置情報である途絶位置情報を記録する途絶位置情報記録部とを備え
前記途絶位置情報記録部で記録した前記途絶位置情報を前記音声認識サーバに送信し、
前記音声認識サーバは、
複数の車両の前記車載端末から送信されてきた前記途絶位置情報を統合することを特徴とする音声認識システム。
The speech recognition server transmits voice command utterance data received from a user via a voice input unit included in a vehicle-mounted terminal mounted on a vehicle to the voice recognition server outside the vehicle via wireless communication. A speech recognition system that performs speech recognition based on the speech data using a dictionary for speech recognition that is held, and returns a recognition result that is a result of this speech recognition to the in-vehicle terminal via wireless communication,
The in-vehicle terminal is
An in-vehicle navigation device capable of detecting a current position of a vehicle on which the in-vehicle terminal is mounted;
By registering correspondence data indicating correspondence between speech data of speech commands input to the speech input section and recognition results obtained by the speech recognition server based on the speech data, the speech recognition A simple dictionary construction unit that creates and updates a simple dictionary as a dictionary of
A simple dictionary storage for storing the latest simple dictionary;
A voice recognition availability determination unit that determines whether or not the voice recognition server can perform the voice recognition;
If the voice recognition availability determination unit determines that the voice recognition server cannot perform the voice recognition, the simplified dictionary is based on the utterance data of the voice command input to the voice input unit. A mode switching unit that switches to a simple speech recognition mode that obtains a recognition result corresponding to the utterance data using the simple dictionary stored in the storage unit;
When the communication with the voice recognition server is interrupted, comprising a disruption position information recording unit for recording disruption position information that is the position information of the location where the communication disruption has occurred ,
Transmitting the disruption position information recorded by the disruption position information recording unit to the voice recognition server;
The voice recognition server
A speech recognition system that integrates the disruption position information transmitted from the in-vehicle terminals of a plurality of vehicles .
前記発話データは、音声の特徴量のデータであって、
前記簡易辞書構築部は、前記音声入力部に入力された音声コマンドの音声の特徴量のデータと当該音声の特徴量のデータをもとに前記音声認識サーバで得られた認識結果とを少なくとも対応付けたリストとしての前記対応関係データを登録したテーブルを作成することによって前記簡易辞書を作成するとともに、新たな前記リストを前記テーブルに登録していくことによって前記簡易辞書を更新していくことを特徴とする請求項1に記載の音声認識システム。
The speech data is voice feature data,
The simple dictionary construction unit corresponds at least to voice feature value data of a voice command input to the voice input unit and a recognition result obtained by the voice recognition server based on the voice feature value data. Creating the simplified dictionary by creating a table in which the correspondence data as a list is registered, and updating the simplified dictionary by registering a new list in the table The speech recognition system according to claim 1.
前記音声認識サーバは、前記音声認識の際にこの音声認識の尤度も求めるとともに、認識結果にこの尤度も含めて前記車載端末に返信するものであって、
前記車載端末は、
前記簡易辞書構築部で新たな対応関係データを登録しようとする際に、この新たな対応関係データを登録後の新たな簡易辞書が前記簡易辞書格納部の容量に納まるか否かを判定する容量判定部と、
当該新たな簡易辞書が前記簡易辞書格納部の容量に納まらないと前記容量判定部で判定した場合には、既に簡易辞書に登録されている対応関係データのうち、同一の音声コマンドに対して複数存在する対応関係データについては、対応付けられている認識結果に含まれる前記尤度が最も高いものを除いて削除することによって整理を行う対応関係データ整理部と、をさらに備えることを特徴とする請求項1または2に記載の音声認識システム。
The voice recognition server obtains the likelihood of the voice recognition at the time of the voice recognition, and returns it to the in-vehicle terminal including the likelihood in the recognition result,
The in-vehicle terminal is
A capacity for determining whether or not a new simple dictionary after registering the new correspondence data fits in the capacity of the simple dictionary storage section when registering new correspondence data in the simple dictionary construction section A determination unit;
If the capacity determination unit determines that the new simple dictionary does not fit in the capacity of the simple dictionary storage unit, a plurality of correspondence data already registered in the simple dictionary can be used for the same voice command. A correspondence data organizing unit that organizes the existing correspondence data by deleting the corresponding correspondence data except the one with the highest likelihood included in the associated recognition result. The speech recognition system according to claim 1 or 2.
前記音声認識可否判定部は、前記車載端末と前記音声認識サーバとの間の通信が確立できなくなったときに、前記音声認識サーバで前記音声認識を行わせることが可能でないと判定することを特徴とする請求項1〜3のいずれか1項に記載の音声認識システム。   The voice recognition availability determination unit determines that the voice recognition server cannot perform the voice recognition when communication between the in-vehicle terminal and the voice recognition server cannot be established. The speech recognition system according to any one of claims 1 to 3. 前記車載端末は、
前記途絶位置情報を取得する途絶位置情報取得部をさらに備え、
前記音声認識可否判定部は、前記車載端末を搭載する車両の現在位置が、前記途絶位置情報が示す場所に該当したときに、前記音声認識サーバで前記音声認識を行わせることが可能でないと判定することを特徴とする請求項1〜4のいずれか1項に記載の音声認識システム。
The in-vehicle terminal is
Further comprising a disruption position information acquisition unit for acquiring the disruption position information,
The voice recognition availability determination unit determines that the voice recognition server cannot perform the voice recognition when a current position of a vehicle on which the in-vehicle terminal is mounted corresponds to a location indicated by the break position information. The voice recognition system according to any one of claims 1 to 4, wherein
前記車載端末は、
前記途絶位置情報を取得する途絶位置情報取得部と、
前記車両の車速の情報である車速情報を取得する車速情報取得部と、をさらに備え、
前記音声入力部には、音声コマンドの入力を一度に受け付けることが可能な時間である最大発話入力可能時間が設定されており、
前記音声認識可否判定部は、前記車速情報取得部で取得した車速情報と前記車載端末を搭載する車両の現在位置と前記最大発話入力可能時間とをもとに、前記途絶位置情報が示す場所に当該車両が到達するまでの時間が前記最大発話入力可能時間よりも短いと判定したときに、前記音声認識サーバで前記音声認識を行わせることが可能でないと判定することを特徴とする請求項1〜4のいずれか1項に記載の音声認識システム。
The in-vehicle terminal is
A disruption position information acquisition unit for acquiring the disruption position information;
A vehicle speed information acquisition unit that acquires vehicle speed information that is information on the vehicle speed of the vehicle, and
In the voice input unit, a maximum utterance input possible time which is a time during which voice command input can be received at one time is set,
The voice recognition enable / disable determining unit is arranged at a location indicated by the disruption position information based on the vehicle speed information acquired by the vehicle speed information acquiring unit, the current position of the vehicle on which the in-vehicle terminal is mounted, and the maximum utterance input available time. claim time until the vehicle reaches said when it is determined shorter than the maximum speech input available time, and judging as not possible to carry out the speech recognition by the speech recognition server 1 The speech recognition system of any one of -4 .
前記車載端末は、前記音声認識サーバとの間で無線通信を介してデータの送受信を行うことが可能な通信モジュールが接続されるものであって、
前記途絶位置情報取得部は、前記通信モジュールを介して前記音声認識サーバから前記途絶位置情報を取得することを特徴とする請求項またはに記載の音声認識システム。
The in-vehicle terminal is connected to a communication module capable of transmitting / receiving data to / from the voice recognition server via wireless communication,
The voice recognition system according to claim 5 or 6 , wherein the interruption position information acquisition unit acquires the interruption position information from the voice recognition server via the communication module.
前記車載端末は、
他車両に搭載される前記車載端末との間で車車間通信によってデータの送受信が可能な車車間通信部をさらに備え、
前記途絶位置情報取得部は、前記音声認識サーバから前記途絶位置情報を取得済みの他車両の前記車載端末から前記車車間通信部による車車間通信によって前記途絶位置情報を取得することを特徴とする請求項またはに記載の音声認識システム。
The in-vehicle terminal is
A vehicle-to-vehicle communication unit capable of transmitting and receiving data by vehicle-to-vehicle communication with the in-vehicle terminal mounted in another vehicle;
The disruption position information acquisition unit acquires the disruption position information by inter-vehicle communication by the inter-vehicle communication unit from the in-vehicle terminal of another vehicle that has acquired the disruption position information from the voice recognition server. The speech recognition system according to claim 5 or 6 .
前記車載端末は、
前記音声認識サーバでの音声認識の要否についてのユーザからの操作入力を受け付けるサーバ音声認識要否入力部をさらに備え、
前記音声認識可否判定部は、前記音声認識サーバでの音声認識を必要としない旨のユーザからの操作入力を前記サーバ音声認識要否入力部で受け付けていたときに、前記音声認識サーバで前記音声認識を行わせることが可能でないと判定することを特徴とする請求項1〜のいずれか1項に記載の音声認識システム。
The in-vehicle terminal is
A server voice recognition necessity input unit that accepts an operation input from a user regarding the necessity of voice recognition in the voice recognition server;
The voice recognition availability determination unit receives the operation input from the user not to require voice recognition at the voice recognition server when the server voice recognition necessity input unit accepts the voice at the voice recognition server. speech recognition system according to any one of claims 1 to 8, characterized in that to determine that it is not possible to perform recognition.
前記サーバ音声認識要否入力部は、音声コマンドの種類ごとに前記音声認識サーバでの音声認識の要否についてのユーザからの操作入力を受け付けることが可能であって、
前記音声認識可否判定部は、前記音声認識サーバでの音声認識を必要としない旨のユーザからの操作入力を前記サーバ音声認識要否入力部で受け付けていた音声コマンドについては、前記音声認識サーバで前記音声認識を行わせることが可能でないと判定し、
前記モード切り替え部は、前記音声入力部に当該音声コマンドの発話データが入力されたときには、前記簡易音声認識モードに切り替えることを特徴とする請求項に記載の音声認識システム。
The server voice recognition necessity input unit can accept an operation input from a user regarding the necessity of voice recognition in the voice recognition server for each type of voice command,
The voice recognition enable / disable determining unit is configured to receive a voice command that has been received by the server voice recognition necessity input unit from the user to the effect that voice recognition at the voice recognition server is not required. It is determined that the voice recognition cannot be performed,
The voice recognition system according to claim 9 , wherein the mode switching unit switches to the simple voice recognition mode when speech data of the voice command is input to the voice input unit.
JP2009072529A 2009-03-24 2009-03-24 Speech recognition system Expired - Fee Related JP5056784B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009072529A JP5056784B2 (en) 2009-03-24 2009-03-24 Speech recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009072529A JP5056784B2 (en) 2009-03-24 2009-03-24 Speech recognition system

Publications (2)

Publication Number Publication Date
JP2010224301A JP2010224301A (en) 2010-10-07
JP5056784B2 true JP5056784B2 (en) 2012-10-24

Family

ID=43041537

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009072529A Expired - Fee Related JP5056784B2 (en) 2009-03-24 2009-03-24 Speech recognition system

Country Status (1)

Country Link
JP (1) JP5056784B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5606951B2 (en) * 2011-02-15 2014-10-15 アルパイン株式会社 Speech recognition system and search system using the same
JP5974498B2 (en) 2012-01-24 2016-08-23 株式会社デンソー Inter-vehicle communication device
US9097550B2 (en) 2012-03-07 2015-08-04 Pioneer Corporation Navigation device, server, navigation method and program
JP5957269B2 (en) 2012-04-09 2016-07-27 クラリオン株式会社 Voice recognition server integration apparatus and voice recognition server integration method
JP6597397B2 (en) * 2016-02-29 2019-10-30 富士通株式会社 Pointing support device, pointing support method, and pointing support program
JP7211856B2 (en) * 2019-03-11 2023-01-24 本田技研工業株式会社 AGENT DEVICE, AGENT SYSTEM, SERVER DEVICE, CONTROL METHOD FOR AGENT DEVICE, AND PROGRAM

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004029354A (en) * 2002-06-25 2004-01-29 Toshiba Corp Speech recognition device, speech recognition method, and speech recognition program
JP2005249829A (en) * 2004-03-01 2005-09-15 Advanced Media Inc Computer network system performing speech recognition

Also Published As

Publication number Publication date
JP2010224301A (en) 2010-10-07

Similar Documents

Publication Publication Date Title
JP4581564B2 (en) Map display device
CN102027325B (en) Navigation apparatus and method of detection that a parking facility is sought
US8600579B2 (en) Vehicular communication system
US20150032374A1 (en) Information Terminal, Server Device, Searching System, and Searching Method Thereof
US11204256B2 (en) Communication terminal, movement guidance system, and non-transitory computer-readable recording medium storing computer program
JP5056784B2 (en) Speech recognition system
JP3967186B2 (en) NAVIGATION DEVICE, FACILITY INFORMATION UPDATE METHOD, ITS PROGRAM, AND RECORDING MEDIUM CONTAINING THE PROGRAM
EP2442073B1 (en) Route search device and route search method
WO2017170142A1 (en) Communication terminal, server device, movement guidance system, and computer program
EP2696560B1 (en) Wireless communication terminal and operating system
JP2016218361A (en) Speech recognition system, in-vehicle device, and server device
EP2770299B1 (en) Information terminal and program
JP4930486B2 (en) Voice recognition system and navigation device
JP2010197211A (en) Server apparatus, navigation apparatus, route information presentation system and route information presentation method
JP2009150796A (en) Navigation device, its map information updating method, and map information updating program
JP2005339514A (en) Map delivery reservation system
JP4788561B2 (en) Information communication system
JP2007033209A (en) Navigation system
US8560226B2 (en) Navigation device and navigation method
JP4705398B2 (en) Voice guidance device, control method and program for voice guidance device
JP6130738B2 (en) Navigation device
JP5607389B2 (en) Navigation device and map update guidance method thereof
JP4821568B2 (en) Route search device
WO2018180757A1 (en) Communication terminal, server device, movement guidance system and computer program
JP4786242B2 (en) Navigation device and map distribution device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120403

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120601

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120703

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120716

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150810

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 5056784

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150810

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees