JP2011203455A - Information terminal for vehicles, and program - Google Patents

Information terminal for vehicles, and program Download PDF

Info

Publication number
JP2011203455A
JP2011203455A JP2010070180A JP2010070180A JP2011203455A JP 2011203455 A JP2011203455 A JP 2011203455A JP 2010070180 A JP2010070180 A JP 2010070180A JP 2010070180 A JP2010070180 A JP 2010070180A JP 2011203455 A JP2011203455 A JP 2011203455A
Authority
JP
Japan
Prior art keywords
information
voice information
recognition result
point
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010070180A
Other languages
Japanese (ja)
Other versions
JP5218459B2 (en
Inventor
Takamitsu Sakai
孝光 坂井
Kazuteru Yamanaka
一輝 山中
Miho Makimoto
美保 槇本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisin AW Co Ltd
Original Assignee
Aisin AW Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisin AW Co Ltd filed Critical Aisin AW Co Ltd
Priority to JP2010070180A priority Critical patent/JP5218459B2/en
Publication of JP2011203455A publication Critical patent/JP2011203455A/en
Application granted granted Critical
Publication of JP5218459B2 publication Critical patent/JP5218459B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide an information terminal for vehicles, and a program, in which voice information on which voice recognition is not performed, is appropriately stored in a dictionary of voice recognition based on operation after that, and voice recognition of voice information which is not recognized, is appropriately performed.SOLUTION: When it is determined that a recognition result is not obtained after recognition processing of voice information uttered by a speaker, the voice information is held as unrecognizable voice information. Based on operation performed after it is determined that the recognition result is not obtained, an estimation point on a map, which is estimated to be corresponding to the unrecognizable voice information is specified (S114). The estimation point information regarding the estimation point and the unrecognizable voice information are stored by relating them (S118). Thereby, as the unrecognizable voice information in which the recognition result is not obtained, is stored by relating it to the estimation point information regarding the estimation point which is estimated to be corresponded to the unrecognizable voice information, voice recognition of voice information which is not recognized is appropriately performed.

Description

本発明は、車両情報端末およびプログラムに関する。   The present invention relates to a vehicle information terminal and a program.

従来、音声認識機能を備える音声認識装置が知られている。音声認識処理装置において、発話者の発した内容を認識できない場合、発話したときの視線や指差し動作から音声認識対象の物品を特定し、特定された物品と音声認識できなかった単語とを対応付けて音声認識に係る辞書に登録する技術が開示されている(例えば、特許文献1参照)。   Conventionally, a voice recognition device having a voice recognition function is known. In the speech recognition processing device, if the content spoken by the speaker cannot be recognized, the speech recognition target article is identified from the line of sight and pointing action when speaking, and the identified article is associated with the word that could not be recognized In addition, a technique for registering in a dictionary related to speech recognition is disclosed (for example, see Patent Document 1).

特開2009−223172号公報JP 2009-223172 A

しかしながら特許文献1では、視線や指差しを検知する手段が必要であった。また、発話者の発した音声が示す音声認識対象が、例えばナビゲーション装置における目的地のように音声認識を行う地点から視認できない場合、視線や指差しを検知する手段を有していたとしても、音声認識対象を特定することはできない。
本発明は、上述の課題に鑑みてなされたものであり、その目的は、音声認識できなかった音声情報をその後の操作に基づいて音声認識に係る辞書に適切に記憶させることにより、音声認識できなかった音声情報を適切に音声認識させることができる車両用情報端末およびプログラムを提供することにある。
However, in Patent Document 1, a means for detecting line of sight and pointing is required. In addition, even if the speech recognition target indicated by the speech uttered by the speaker is not visible from a point where speech recognition is performed, for example, as a destination in the navigation device, even if it has means for detecting the line of sight and pointing, The speech recognition target cannot be specified.
The present invention has been made in view of the above-described problems, and an object of the present invention is to perform voice recognition by appropriately storing voice information that could not be voice recognized in a dictionary related to voice recognition based on subsequent operations. An object of the present invention is to provide a vehicle information terminal and a program capable of appropriately recognizing voice information that has not been received.

請求項1に記載の車両用情報端末は、発話者の発した音声情報を取得する音声情報取得手段と、音声情報取得手段により取得された音声情報を認識処理する認識処理手段と、認識処理手段により認識結果が得られたか否かを判断する認識結果判断手段と、認識結果判断手段により認識結果が得られないと判断された場合、音声情報を認識不可音声情報として保持する音声情報保持手段と、認識結果判断手段により認識結果が得られないと判断された後に実行された操作に基づき認識不可音声情報に対応すると推定される地図上の推定地点を特定する地点特定手段と、推定地点に関する推定地点情報と認識不可音声情報とを関連付けて記憶させる記憶制御手段と、を備える。これにより、認識結果が得られなかった認識不可音声情報を、認識不可音声情報に対応すると推定される推定地点に関する推定地点情報と関連付けて適切に記憶させることができるので、音声認識できなかった音声情報を適切に音声認識させることができる。   The vehicle information terminal according to claim 1 is a voice information acquisition unit that acquires voice information uttered by a speaker, a recognition processing unit that recognizes the voice information acquired by the voice information acquisition unit, and a recognition processing unit. A recognition result judging means for judging whether or not a recognition result has been obtained, and a voice information holding means for holding voice information as unrecognizable voice information when the recognition result judging means judges that a recognition result is not obtained. , A point identifying means for identifying an estimated point on the map that is estimated to correspond to unrecognizable speech information based on an operation performed after the recognition result determining means determines that a recognition result cannot be obtained, and an estimation regarding the estimated point Storage control means for storing the location information and the unrecognizable speech information in association with each other. As a result, the unrecognizable speech information for which no recognition result has been obtained can be appropriately stored in association with the estimated point information related to the estimated point estimated to correspond to the unrecognizable speech information. Information can be appropriately recognized by voice.

請求項2に記載の発明では、認識結果判断手段により認識結果が得られないと判断された後、目的地の設定に係る情報が取得されたか否かを判断する新情報取得判断手段を備える。地点特定手段は、新情報取得判断手段により目的地の設定に係る情報が取得されたと判断された場合、目的地の設定に係る情報に基づいて推定地点を特定する。これにより、目的地の設定に係る情報に基づいて推定地点を特定するので、認識不可音声情報に対応すると推定される推定地点をより適切に特定することができる。   The invention according to claim 2 further comprises a new information acquisition judging means for judging whether or not the information related to the destination setting is obtained after the recognition result judging means judges that the recognition result cannot be obtained. The point specifying unit specifies the estimated point based on the information related to the destination setting when the new information acquisition determining unit determines that the information related to the destination setting is acquired. Thereby, since an estimated point is specified based on the information which concerns on the setting of the destination, the estimated point estimated to respond | correspond to unrecognizable audio | voice information can be specified more appropriately.

請求項3に記載の発明では、地点特定手段は、新情報取得判断手段により目的地の設定に係る情報が取得されていないと判断された場合、車両のイグニッションがオフされた地点を推定地点として特定する。請求項4に記載の発明では、地点特定手段は、認識結果判断手段により認識結果が得られないと判断された後に車両のイグニッションがオフされた地点を推定地点として特定する。これにより、認識不可音声情報に対応すると推定される推定地点を容易に特定することができる。   In the invention according to claim 3, when it is determined by the new information acquisition determination means that the information related to the destination setting has not been acquired, the point specifying means uses the point where the vehicle ignition is turned off as the estimated point. Identify. In the invention according to claim 4, the point specifying means specifies the point where the ignition of the vehicle is turned off after the recognition result determining means determines that the recognition result is not obtained as the estimated point. As a result, it is possible to easily identify an estimated point estimated to correspond to unrecognizable voice information.

請求項5に記載の発明では、認識不可音声情報の発話に至る事前情報が取得されている場合、推定地点情報に含まれる属性情報と事前情報とが一致するか否かを判断する一致判断手段を備える。記憶制御手段は、一致判断手段により属性情報と事前情報とが一致すると判断された場合、推定地点情報と認識不可音声情報とを関連付けて記憶させる。これにより、推定地点情報と認識不可音声情報とを精度よく関連付けて記憶させることができる。   In the invention according to claim 5, when the prior information leading to the utterance of the unrecognizable voice information is acquired, the coincidence determination means for determining whether or not the attribute information included in the estimated point information matches the prior information Is provided. The storage control unit stores the estimated point information and the unrecognizable voice information in association with each other when the attribute information and the prior information are determined to match by the match determination unit. As a result, the estimated point information and the unrecognizable voice information can be stored in association with each other with high accuracy.

以上、車両用情報端末の発明として説明してきたが、次に示すようなプログラムの発明として実現することもできる。
すなわち、発話者の発した音声情報を取得する音声情報取得手段、音声情報取得手段により取得された音声情報を認識処理する認識処理手段、認識処理手段により認識結果が得られたか否かを判断する認識結果判断手段、認識結果判断手段により認識結果が得られないと判断された場合、音声情報を認識不可音声情報として保持する音声情報保持手段、認識結果判断手段により認識結果が得られないと判断された後に実行された操作に基づき、認識不可音声情報に対応すると推定される地図上の推定地点を特定する地点特定手段、および、推定地点に関する推定地点情報と認識不可音声情報とを関連付けて記憶させる記憶制御手段、としてコンピュータを機能させるプログラムである。このようなプログラムを実行することで、上述の車両用情報端末と同様の効果が奏される。
As described above, the invention has been described as the invention of the vehicle information terminal. However, the invention can also be realized as an invention of the following program.
That is, voice information acquisition means for acquiring voice information uttered by a speaker, recognition processing means for recognition processing of voice information acquired by the voice information acquisition means, and whether or not a recognition result is obtained by the recognition processing means When it is determined that the recognition result cannot be obtained by the recognition result determination unit and the recognition result determination unit, the speech information holding unit that holds the speech information as unrecognizable speech information and the recognition result determination unit determines that the recognition result cannot be obtained. Based on the operation performed after the operation, the point specifying means for specifying the estimated point on the map that is estimated to correspond to the unrecognizable voice information, and the estimated point information related to the estimated point and the unrecognizable voice information are stored in association with each other. This is a program that causes a computer to function as storage control means. By executing such a program, the same effect as the above-described vehicle information terminal can be obtained.

本発明の一実施形態の車両用情報端末の構成を示すブロック図である。It is a block diagram which shows the structure of the information terminal for vehicles of one Embodiment of this invention. 本発明の一実施形態の認識辞書に記憶されたデータを説明する説明図である。It is explanatory drawing explaining the data memorize | stored in the recognition dictionary of one Embodiment of this invention. 本発明の一実施形態の音声認識処理を説明するフローチャートである。It is a flowchart explaining the speech recognition process of one Embodiment of this invention. 本発明の一実施形態の認識辞書登録処理を説明するフローチャートである。It is a flowchart explaining the recognition dictionary registration process of one Embodiment of this invention.

以下、本発明による車両用情報端末を図面に基づいて説明する。
(一実施形態)
図1は、本発明の一実施形態による車両用情報端末としてのナビゲーション装置1の全体構成を示すブロック図である。ナビゲーション1は、制御部10を中心に構成されており、制御部10に接続される位置検出器20、地図データ記憶部30、音声認識情報記憶部40、操作スイッチ群50、音声入力部60、音声出力部70、描画部80等を備えている。
Hereinafter, a vehicle information terminal according to the present invention will be described with reference to the drawings.
(One embodiment)
FIG. 1 is a block diagram showing an overall configuration of a navigation device 1 as a vehicle information terminal according to an embodiment of the present invention. The navigation 1 is configured around the control unit 10, and includes a position detector 20, a map data storage unit 30, a voice recognition information storage unit 40, an operation switch group 50, a voice input unit 60, connected to the control unit 10. An audio output unit 70, a drawing unit 80, and the like are provided.

制御部10は、通常のコンピュータとして構成されている。制御部10の内部には、CPU、ROM、I/O、および、これらの構成を接続するバスラインなどが備えられている。
位置検出器20は、いずれも周知の地磁気センサ21、ジャイロスコープ22、距離センサ23、および、衛星からの電波を受信するGPS(Global Positioning System)受信機24等を有している。これらのセンサ21〜24は、各々が性質の異なる誤差を持っているため、相互に補完しながら使用される。
The control unit 10 is configured as a normal computer. The control unit 10 includes a CPU, a ROM, an I / O, a bus line that connects these components, and the like.
The position detector 20 includes a well-known geomagnetic sensor 21, a gyroscope 22, a distance sensor 23, a GPS (Global Positioning System) receiver 24 that receives radio waves from a satellite, and the like. Since these sensors 21 to 24 have errors having different properties, they are used while complementing each other.

地図データ記憶部30は、例えばハードディスク装置(HDD)として実現される記憶装置である。なお、本実施形態ではHDDを用いたが、DVD−ROMや、メモリカード等の他の媒体を用いても差し支えない。地図データ記憶部30は、位置検出の精度向上のためのいわゆるマップマッチング用データおよび経路を探索するための地図データを記憶している。地図データには、各種データが含まれるが、その一つとして施設に関する施設情報が含まれる。施設情報は、具体的には施設を特定するIDと関連付けられて記憶されているPOI(Point Of Interest)情報である。POI情報には、施設名称、施設ID、位置座標、種別(ジャンル)を示す情報などが含まれる。   The map data storage unit 30 is a storage device realized as, for example, a hard disk device (HDD). Although the HDD is used in the present embodiment, other media such as a DVD-ROM and a memory card may be used. The map data storage unit 30 stores so-called map matching data for improving the accuracy of position detection and map data for searching for a route. The map data includes various data, one of which is facility information about the facility. The facility information is specifically POI (Point Of Interest) information stored in association with an ID that identifies the facility. The POI information includes facility name, facility ID, position coordinates, information indicating type (genre), and the like.

音声認識情報記憶部40は、地図データ記憶部30と同一のHDDで構成されている。もちろん、メモリカード等の他の媒体を用いてもよい。音声認識情報記憶部40には、認識辞書41が記憶されている。   The voice recognition information storage unit 40 is composed of the same HDD as the map data storage unit 30. Of course, other media such as a memory card may be used. A recognition dictionary 41 is stored in the voice recognition information storage unit 40.

認識辞書41は、音声波形データと対応する単語とが関連付けて記憶されている。認識辞書41では、音声波形データに対応する単語が地図データに含まれるものである場合、音声波形データと地図データとが関連付けて記憶されている。図2に示すように、例えば、音声波形データXと対応する単語が「おかざきしやくしょ」である場合、施設名称である「岡崎市役所」、ジャンル「市役所」、住所「愛知県岡崎市・・・」、位置座標(x1,y1)が、音声波形データXと関連付けて記憶されている。   In the recognition dictionary 41, speech waveform data and a corresponding word are stored in association with each other. In the recognition dictionary 41, when the word corresponding to the speech waveform data is included in the map data, the speech waveform data and the map data are stored in association with each other. As shown in FIG. 2, for example, when the word corresponding to the speech waveform data X is “Okazaki Shikusho”, the facility name “Okazaki City Hall”, the genre “City Hall”, the address “Okazaki City, Aichi Prefecture,. The position coordinates (x1, y1) are stored in association with the speech waveform data X.

図1に戻り、操作スイッチ群50は、ディスプレイ81と一体になったタッチスイッチもしくはメカニカルなスイッチやリモコン装置等で構成され、各種入力に使用される。操作スイッチ群50には、トークスイッチ51が含まれる。トークスイッチ51は、音声入力時に操作される。   Returning to FIG. 1, the operation switch group 50 includes a touch switch integrated with the display 81, a mechanical switch, a remote control device, or the like, and is used for various inputs. The operation switch group 50 includes a talk switch 51. The talk switch 51 is operated during voice input.

音声入力部60は、音声を入力するためのマイク61が接続されている。トークスイッチ51がオンされたとき、マイク61を介して発話者の発した音声が入力される。
音声出力部70には、音声を出力するためのスピーカ71が接続されている。
描画部80には、ディスプレイ81が接続されている。ディスプレイ81は、液晶やCRTを用いたカラーディスプレイである。このディスプレイ81を介して情報表示が行われる。
The voice input unit 60 is connected to a microphone 61 for inputting voice. When the talk switch 51 is turned on, the voice uttered by the speaker is input via the microphone 61.
A speaker 71 for outputting sound is connected to the sound output unit 70.
A display 81 is connected to the drawing unit 80. The display 81 is a color display using liquid crystal or CRT. Information is displayed via the display 81.

ここで、図3に示すフローチャートに基づいて音声認識処理を説明する。図3に示す音声認識処理は、トークスイッチ51がオンされたときに行われる処理であり、発話者の発した音声に基づいて目的地を設定する場合を例に説明する。
初めのステップS101(以下、「ステップ」を省略し、単に記号「S」で示す。)では、トークスイッチ51がオンされたことを検知する。
S102では、認識辞書41をセットする。
Here, the speech recognition processing will be described based on the flowchart shown in FIG. The voice recognition process shown in FIG. 3 is a process performed when the talk switch 51 is turned on, and a case where a destination is set based on a voice uttered by a speaker will be described as an example.
In the first step S101 (hereinafter, “step” is omitted and simply indicated by the symbol “S”), it is detected that the talk switch 51 is turned on.
In S102, the recognition dictionary 41 is set.

S103では、マイク61を介して入力された発話者の発した音声情報を取得する。
S104では、S103で取得した音声情報について認識処理を行う。ここでは、S103で取得された音声情報をA/D変換し、データ処理が可能な波形データに変換する。そして波形データと認識辞書41に記憶されている音声波形データとを照合し、認識候補を特定する。
In S103, the voice information uttered by the speaker input via the microphone 61 is acquired.
In S104, recognition processing is performed on the voice information acquired in S103. Here, the audio information acquired in S103 is A / D converted into waveform data that can be processed. Then, the waveform data and the speech waveform data stored in the recognition dictionary 41 are collated to identify a recognition candidate.

S105では、S104における認識処理において、認識結果が得られたか否かを判断する。本実施形態では、S104にて認識候補が特定できた場合、認識結果が得られたと判断する。認識結果が得られなかった場合(S105:NO)、S107へ移行する。認識結果が得られた場合(S105:YES)、S106へ移行する。   In S105, it is determined whether or not a recognition result is obtained in the recognition process in S104. In this embodiment, when a recognition candidate can be specified in S104, it is determined that a recognition result has been obtained. When the recognition result is not obtained (S105: NO), the process proceeds to S107. When a recognition result is obtained (S105: YES), the process proceeds to S106.

S106では、特定された認識候補を出力する。具体的には、特定された認識候補が「岡崎市役所」である場合、スピーカ71を介して「岡崎市役所を目的地として設定します」といった音声を出力する。また、ディスプレイ81に岡崎市役所を中心とする地図を表示する。そして、岡崎市役所を目的地として設定して経路と探索し、岡崎市役所への経路案内を行う。なお、目的地の設定、経路の探索、経路案内は、本処理とは別処理で行われるものとする。   In S106, the identified recognition candidate is output. Specifically, when the identified recognition candidate is “Okazaki City Hall”, the speaker 71 outputs a voice such as “Set Okazaki City Hall as the destination”. In addition, a map centering on the Okazaki City Hall is displayed on the display 81. Then, the Okazaki city hall is set as a destination, the route is searched, and the route guidance to the Okazaki city hall is performed. Note that destination setting, route search, and route guidance are performed in a process different from this process.

認識結果が得られなかった場合(S105:NO)に移行するS107では、S103にて取得した音声情報の波形データを認識不可音声情報として制御部10を構成するRAMに保持するとともに、認識不可フラグをセットする。また、スピーカ71を介して「認識できませんでした」といった音声を出力する。   In S107, when the recognition result is not obtained (S105: NO), the waveform data of the voice information acquired in S103 is held in the RAM constituting the control unit 10 as unrecognizable voice information, and the recognition disabled flag. Set. Further, a voice such as “Could not be recognized” is output via the speaker 71.

続いて、認識できなかった音声情報をその後の操作に基づいて認識辞書登録を行う認識辞書登録処理について図4に示すフローチャートに基づいて説明する。図4に示す認識辞書登録処理は、認識不可フラグがセットされたときに行われる処理である。   Next, a recognition dictionary registration process for registering a recognition dictionary based on subsequent operations for voice information that could not be recognized will be described based on a flowchart shown in FIG. The recognition dictionary registration process shown in FIG. 4 is a process that is performed when the unrecognizable flag is set.

初めのS111では、目的地の設定に係る新たな情報が取得されたか否かを判断する。
取得される新たな情報は、操作スイッチ群50を介して入力された情報でもよいし、マイク61を介して入力された音声情報であってもよい。新たな情報が取得されていないと判断された場合(S111:NO)、S113へ移行する。新たな情報が取得されたと判断された場合(S111:YES)、S112へ移行する。
S112では、取得された新たな情報に基づき、目的地を設定する。
In the first S111, it is determined whether or not new information related to the destination setting has been acquired.
The new information to be acquired may be information input via the operation switch group 50 or may be audio information input via the microphone 61. When it is determined that new information has not been acquired (S111: NO), the process proceeds to S113. When it is determined that new information has been acquired (S111: YES), the process proceeds to S112.
In S112, a destination is set based on the acquired new information.

目的地の設定に係る新たな情報が取得されていないと判断された場合(S111:NO)に移行するS113では、イグニッションがオフされたか否かを判断する。イグニッションがオフされていないと判断された場合(S113:NO)、S111へ戻る。イグニッションがオフされたと判断された場合(S113:YES)、S114へ移行する。   If it is determined that new information related to the destination setting has not been acquired (S111: NO), in S113, it is determined whether the ignition is turned off. If it is determined that the ignition is not turned off (S113: NO), the process returns to S111. When it is determined that the ignition is turned off (S113: YES), the process proceeds to S114.

S114では、推定地点を特定する。すなわち、新たな情報が取得され(S111:YES)、取得された新たな情報に基づいて目的地が設定された(S112)後に移行するS114では、設定された目的地を推定地点として特定する。また、イグニッションがオフされたと判断された(S113:YES)後に移行するS114では、イグニッションがオフされた地点を推定地点として特定する。
本実施形態においては、認識不可音声情報が保持された後に行われた目的地を設定する操作、或いは、認識音声付加情報が保持された後に車両のイグニッションをオフする操作が、「認識結果判断手段により認識結果が得られないと判断された後に実行された操作」に対応している。
In S114, an estimated point is specified. That is, new information is acquired (S111: YES), and a destination is set based on the acquired new information (S112). In S114, the set destination is specified as an estimated point. Moreover, in S114 which transfers after it is judged that the ignition was turned off (S113: YES), the point where the ignition was turned off is specified as an estimated point.
In the present embodiment, the operation for setting the destination performed after the unrecognizable voice information is held or the operation for turning off the vehicle ignition after the recognized voice additional information is held is “recognition result judging means”. This corresponds to an operation performed after it is determined that a recognition result cannot be obtained.

S115では、特定された推定地点に関する推定地点情報を地図データ記憶部30から取得する。ここでは、当該推定地点に対応するPOI情報が取得される。
S116では、施設のジャンルが予め設定されているか否かを判断する。本実施形態は、図3中のS107以前であって、S107に至る一連の操作処理において、施設のジャンルが設定されているか否かを判断する。ここで、「一連の操作処理」とは、例えば音声認識や操作スイッチ群50を介した操作によりジャンル「ラーメン屋」が設定されており、「どこのラーメン屋ですか?」という問いかけに対する回答として、ユーザがトークスイッチ51をオンして図2および図3に示す処理が行われる場合におけるジャンル「ラーメン屋」を設定する操作処理である。換言すると、ジャンルが設定されていることを前提により詳細な情報の入力をユーザに促す場合における当該ジャンルの設定に係る操作処理が「一連の操作処理」と対応している、といえる。また本実施形態では、予め設定されている施設のジャンル(以下、「設定施設ジャンル」という。)に関する情報が「認識不可音声の発話に至る事前情報」に対応している。施設のジャンルが予め設定されていない場合(S116:NO)、S118へ移行する。施設のジャンルが予め設定されている場合(S116:YES)、S117へ移行する。
In S115, the estimated point information regarding the specified estimated point is acquired from the map data storage unit 30. Here, POI information corresponding to the estimated point is acquired.
In S116, it is determined whether or not the genre of the facility is set in advance. In the present embodiment, it is before S107 in FIG. 3, and it is determined whether or not the genre of the facility is set in a series of operation processes up to S107. Here, the “series of operation processing” is, for example, the genre “Ramen shop” is set by voice recognition or operation via the operation switch group 50, and as an answer to the question “Where is the ramen shop?” This is an operation process for setting the genre “ramen restaurant” when the user turns on the talk switch 51 and the processes shown in FIGS. 2 and 3 are performed. In other words, it can be said that the operation process related to the setting of the genre when prompting the user to input detailed information on the assumption that the genre is set corresponds to “a series of operation processes”. Further, in the present embodiment, information related to a genre of a preset facility (hereinafter referred to as “set facility genre”) corresponds to “preliminary information leading to speech of unrecognizable speech”. When the genre of the facility is not set in advance (S116: NO), the process proceeds to S118. When the genre of the facility is set in advance (S116: YES), the process proceeds to S117.

S117では、推定地点情報に含まれる施設のジャンルと設定施設ジャンルとが一致するか否かを判断する。本実施形態では、事前情報が施設のジャンルに関する情報であるので、推定地点情報に含まれる施設のジャンルに関する情報が「属性情報」に対応している。推定地点情報に含まれる施設のジャンルと設定施設ジャンルとが一致しない場合(S117:NO)、S118の処理を行わない。推定地点情報に含まれる施設のジャンルと設定施設ジャンルとが一致する場合(S117:YES)、S118へ移行する。   In S117, it is determined whether or not the facility genre included in the estimated point information matches the set facility genre. In this embodiment, since the prior information is information related to the genre of the facility, the information related to the genre of the facility included in the estimated point information corresponds to “attribute information”. When the genre of the facility included in the estimated point information does not match the set facility genre (S117: NO), the process of S118 is not performed. When the genre of the facility included in the estimated point information matches the set facility genre (S117: YES), the process proceeds to S118.

施設のジャンルが予め設定されていない場合(S116:NO)、および施設のジャンルが予め設定されていて、かつ、推定地点情報に含まれる施設のジャンルと設定施設ジャンルとが一致する場合(S116:YES、S117:YES)に移行するS118では、図3中のS107で保持された認識不可音声情報と推定地点情報とを関連付けて認識辞書41に記憶する。このとき、「先ほど認識できなかったキーワードをこの地点を示す言葉として登録します」といった音声を、スピーカ71を介して出力する。また、S107においてセットされた認識不可フラグをリセットし、認識辞書登録処理を終了する。   When the genre of the facility is not set in advance (S116: NO), and when the genre of the facility is set in advance and the genre of the facility included in the estimated point information matches the set facility genre (S116: (YES, S117: YES) In S118, the unrecognizable speech information held in S107 in FIG. 3 and the estimated point information are associated with each other and stored in the recognition dictionary 41. At this time, a sound such as “Register a keyword that could not be recognized as a word indicating this point” is output via the speaker 71. In addition, the recognition impossible flag set in S107 is reset, and the recognition dictionary registration process is terminated.

ここで、認識辞書登録処理の具体例を説明する。
(1)具体例1
具体例1、2では、目的地を設定する際に、発話者が「おじいちゃん家」という単語を発話した例である。具体例1では、「おじいちゃん家」が認識できなかった後に目的地を設定した場合の辞書登録処理を説明する。
Here, a specific example of the recognition dictionary registration process will be described.
(1) Specific example 1
Specific examples 1 and 2 are examples in which a speaker utters the word “Grandpa House” when setting a destination. In the first specific example, a dictionary registration process when a destination is set after “Grandpa's House” cannot be recognized will be described.

目的地の設定に際し、トークスイッチ51がオンされると(S101)、認識辞書41がセットされる(S102)。発話者が「おじいちゃん家」と発話すると、音声情報が取得され(S103)、認識処理が行われる(S104)。発話された「おじいちゃん家」の波形データAに対応する音声波形データが認識辞書41に記憶されておらず、認識結果が得られない場合(S105:NO)、「認識できませんでした」といった音声を出力するとともに、波形データAを認識不可音声情報として保持する(S107)。   When the talk switch 51 is turned on in setting the destination (S101), the recognition dictionary 41 is set (S102). When the speaker speaks “Grandpa's house”, voice information is acquired (S103), and recognition processing is performed (S104). If the speech waveform data corresponding to the waveform data A of the spoken “Grandpa family” is not stored in the recognition dictionary 41 and the recognition result cannot be obtained (S105: NO), a speech such as “Could not be recognized” is given. At the same time, the waveform data A is held as unrecognizable voice information (S107).

ここで、「おじいちゃん家」が認識できなかったことを通知された発話者が、操作スイッチ群50を介して「名古屋市緑区A町3−18」という住所を入力し、目的地として設定した場合(S111:YES)、入力された住所である「名古屋市緑区A町3−18」が「おじいちゃん家」の住所である蓋然性が高い。本実施形態では、新たに取得された情報に基づいて目的地が設定されたので(S111:YES、S112)、設定された目的地である「名古屋市緑区A町3−18」を「おじいちゃん家」に対応すると推定される推定地点として特定し(S114)、推定地点情報を取得する(S115)。   Here, a speaker who has been notified that “Grandpa's house” could not be recognized entered the address “3-18, Amachi, Midori-ku, Nagoya-shi” via the operation switch group 50 and set it as the destination. In the case (S111: YES), the input address “Nagoya City Midori-ku Amachi 3-18” is highly likely to be the address of “Grandpa House”. In the present embodiment, since the destination is set based on the newly acquired information (S111: YES, S112), the set destination “Nagoya City Midori-ku Amachi 3-18” is changed to “Grandpa”. It is specified as an estimated point estimated to correspond to “house” (S114), and estimated point information is acquired (S115).

「おじいちゃん家」の波形データAを認識不可音声情報として保持する前に施設のジャンルが設定されていないものとすると(S116:NO)、認識不可情報として保持された「おじいちゃん家」の波形データAと、推定地点として特定された「名古屋市緑区A町3−18」の地点に関する情報とを関連付けて認識辞書41に記憶する。具体的には、図2に示すように、住所「名古屋市緑区A町3−18」(図2中においては「A町」以降を省略している。)、及び入力された住所に対応する位置座標(xa,ya)と、波形データAとを関連付けて認識辞書41に記憶する。また、「先ほど認識できなかったキーワードをこの地点を示す言葉として登録します」といった音声を、スピーカ71を介して出力する(S118)。   If the facility genre is not set before the waveform data A of “Grandpa House” is stored as unrecognizable voice information (S116: NO), the waveform data A of “Grandpa House” stored as unrecognizable information is stored. And the information related to the point “3-18, Midori-ku, Nagoya-shi” identified as the estimated point are stored in the recognition dictionary 41 in association with each other. Specifically, as shown in FIG. 2, it corresponds to the address “Nagoya City Midori-ku Amachi 3-18” (in FIG. 2, “A town” and after are omitted) and the input address. The position coordinates (xa, ya) to be stored and the waveform data A are stored in the recognition dictionary 41 in association with each other. Further, a voice such as “Register a keyword that could not be recognized as a word indicating this point” is output through the speaker 71 (S118).

(2)具体例2
具体例2では、「おじいちゃん家」の波形データAを認識不可音声情報として保持した後(S107)、目的地の設定に係る新たな情報が取得されなかった場合(S111:NO)の辞書登録処理を説明する。
この例では、目的地を設定せずに走行しているので、「おじいちゃん家」の波形データAを認識不可音声情報として保持した(S107)後にイグニッションがオフされた地点が目的地として設定しようとした「おじいちゃん家」に対応する地点である蓋然性が高い。そこで本実施形態では、「おじいちゃん家」の波形データAを認識不可音声情報として保持した後(S107)、目的地が設定されなかった場合(S111:NO)、イグニッションがオフされた地点を「おじいちゃん家」の波形データAに対応すると推定される推定地点として特定し(S113:YES、S114)、推定地点に関する推定地点情報を取得する(S115)。
(2) Specific example 2
In the second specific example, after the waveform data A of “Grandpa's house” is held as unrecognizable voice information (S107), dictionary registration processing in a case where new information relating to destination setting is not acquired (S111: NO) Will be explained.
In this example, since the vehicle is traveling without setting the destination, the waveform data A of “Grandpa's house” is held as unrecognizable voice information (S107), and the point where the ignition is turned off is set as the destination. There is a high probability that it is a point corresponding to the “Grandpa House”. Therefore, in this embodiment, after the waveform data A of “Grandpa House” is held as unrecognizable voice information (S107), if the destination is not set (S111: NO), the point where the ignition is turned off is indicated as “Grandpa”. It is specified as an estimated point estimated to correspond to the waveform data A of “house” (S113: YES, S114), and estimated point information regarding the estimated point is acquired (S115).

「おじいちゃん家」の波形データAを認識不可音声情報として保持する前に施設のジャンルが設定されていないものとすると(S116:NO)、認識不可情報として保持された「おじいちゃん家」の波形データAと、イグニッションがオフされた地点に関する情報である推定地点情報とを関連付けて認識辞書41に記憶する。また、「先ほど認識できなかったキーワードをこの地点を示す言葉として登録します」といった音声を、スピーカ71を介して出力する(S118)。   If the facility genre is not set before the waveform data A of “Grandpa House” is stored as unrecognizable voice information (S116: NO), the waveform data A of “Grandpa House” stored as unrecognizable information is stored. And the estimated spot information, which is information related to the spot where the ignition is turned off, are stored in the recognition dictionary 41 in association with each other. Further, a voice such as “Register a keyword that could not be recognized as a word indicating this point” is output through the speaker 71 (S118).

具体例1、2によれば、発話者は、「おじいちゃん家」の波形データAに対して住所「名古屋市緑区A町3−18」を登録するための操作を行う必要がない。また次回からは、「おじいちゃん家」と発話することにより、「おじいちゃん家」の波形データAに関連付けて記憶された推定地点の情報を好適に利用することができ、利便性が向上する。   According to specific examples 1 and 2, the speaker does not need to perform an operation for registering the address “3-18, Amachi, Midori-ku, Nagoya-shi” with respect to the waveform data A of “Grandpa family”. Also, from the next time, by speaking “Grandpa House”, the information on the estimated point stored in association with the waveform data A of “Grandpa House” can be suitably used, and convenience is improved.

(3)具体例3
具体例3では、発話者の発した音声情報に基づいて目的地の施設のジャンルを設定する場合を説明する。
スピーカ71を介して「ジャンルを発話して下さい」といったジャンルを問う音声が出力され、発話者がトークスイッチ51をオンにすると(S101)、ジャンルに関する認識辞書41がセットされる(S102)。次いで、発話者が「コンビニ」と発話したものとする。すると、発話された「コンビニ」が音声情報として取得され(S103)、認識処理が行われる(S104)。「コンビニ」の波形データBに対応する音声波形データが認識辞書41に「ジャンル」として記憶されておらず、認識結果が得られない場合(S105:NO)、「認識できませんでした」といった音声を出力するとともに、「コンビニ」の波形データBを認識不可音声情報として保持する(S107)。
(3) Specific example 3
In specific example 3, a case will be described in which the genre of the destination facility is set based on the voice information uttered by the speaker.
When the speaker asks the genre, such as “Please speak the genre” via the speaker 71, and the speaker turns on the talk switch 51 (S101), the genre recognition dictionary 41 is set (S102). Next, it is assumed that the speaker speaks “convenience store”. Then, the spoken “convenience store” is acquired as voice information (S103), and recognition processing is performed (S104). If the speech waveform data corresponding to the waveform data B of the “convenience store” is not stored as the “genre” in the recognition dictionary 41 and the recognition result cannot be obtained (S105: NO), a speech such as “Could not be recognized” is given. At the same time, the waveform data B of “convenience store” is held as unrecognizable voice information (S107).

「コンビニ」の波形データBを認識不可音声情報として保持した後(S107)、目的地の設定を行わずに走行した場合(S111:NO)、イグニッションがオフされた地点を「コンビニ」に対応すると推定される推定地点として特定し(S113:YES、S114)、推定地点に関する推定地点情報を取得する(S115)。イグニッションがオフされた地点に対応する施設のジャンルが「コンビニエンスストア」であった場合、ユーザは、施設のジャンルである「コンビニエンスストア」を「コンビニ」と発話した蓋然性が高い。そこで、図2に示すように、「コンビニ」の波形データBと、施設のジャンルである「コンビニエンスストア」とを関連付けて認識辞書41に記憶する。また、「先ほど認識できなかったキーワードを『コンビニエンスストア』を示す言葉として登録します」といった音声を、スピーカ71を介して出力する(S118)。   When the waveform data B of the “convenience store” is stored as unrecognizable voice information (S107) and the vehicle travels without setting the destination (S111: NO), the point where the ignition is turned off corresponds to the “convenience store”. The estimated point to be estimated is specified (S113: YES, S114), and estimated point information regarding the estimated point is acquired (S115). When the genre of the facility corresponding to the point where the ignition is turned off is “convenience store”, the user has a high probability of speaking the “convenience store” that is the genre of the facility as “convenience store”. Therefore, as shown in FIG. 2, “convenience store” waveform data B and facility genre “convenience store” are stored in the recognition dictionary 41 in association with each other. Further, a voice such as “Register a keyword that could not be recognized earlier as a word indicating“ convenience store ”” is output through the speaker 71 (S118).

具体例3では、「ジャンルを発話して下さい」という問いかけに対して発話された「コンビニ」の波形データBは、ジャンルに関する単語であることが特定されている、といえる。このように、認識不可音声情報がジャンルに関する情報であると特定されている場合、推定地点情報のジャンルに関する情報を参照し、該当するジャンル(具体例3では「コンビニエンスストア」)と認識不可音声情報とを関連付けて記憶するように構成してもよい。換言すると、「記憶制御手段は、認識不可音声情報の属性が特定されている場合、推定地点情報を参照し、認識不可音声情報の属性に該当する属性情報と認識不可音声情報とを関連付けて記憶する」ということである。   In specific example 3, it can be said that the waveform data B of “convenience store” uttered in response to the question “Please speak genre” is specified to be a word related to the genre. As described above, when the unrecognizable sound information is specified as information on the genre, the information on the genre in the estimated point information is referred to, and the corresponding genre (“convenience store” in the specific example 3) and the unrecognizable sound information. May be stored in association with each other. In other words, “when the attribute of the unrecognizable voice information is specified, the storage control means refers to the estimated point information and stores the attribute information corresponding to the attribute of the unrecognizable voice information and the unrecognizable voice information in association with each other. Is to do.

(4)具体例4
具体例4では、目的地の施設のジャンルが予め設定されている場合の辞書登録処理を説明する。
スピーカ71を介して「ジャンルを発話して下さい」といった音声が出力され、ジャンルが質問されていた場合であって、発話者が「ラーメン屋」と発話したものとする。すると、「ラーメン屋」の波形データCが音声情報として取得され(S103)、認識処理が行われ(S104)、「ラーメン屋」が認識候補として特定された場合(S105:YES)、認識候補が出力される(S106)。この例では、「どこのラーメン屋ですか?」という新たな入力を促す音声がスピーカ71を介して出力され(S106)、図3に示す音声認識処理を終了する。このとき、目的地の施設のジャンルとして「ラーメン屋」が設定され、内部的に記憶される。ここまでの処理が、次に行われる音声認識処理のS107に至る一連の操作処理に対応し、「ラーメン屋」が「認識不可音声情報の発話に至る事前情報」に対応している。
(4) Specific example 4
Specific example 4 describes dictionary registration processing in the case where the genre of the destination facility is set in advance.
It is assumed that a voice such as “Please speak a genre” is output via the speaker 71 and the genre is questioned, and the speaker speaks “Ramen shop”. Then, the waveform data C of “ramen restaurant” is acquired as voice information (S103), recognition processing is performed (S104), and when “ramen restaurant” is specified as a recognition candidate (S105: YES), the recognition candidate is determined. It is output (S106). In this example, a voice prompting a new input “Which ramen shop?” Is output through the speaker 71 (S106), and the voice recognition process shown in FIG. 3 is terminated. At this time, “Ramen shop” is set as the genre of the destination facility and stored internally. The processing so far corresponds to a series of operation processing up to S107 of the speech recognition processing to be performed next, and “ramen shop” corresponds to “preliminary information leading to utterance of unrecognizable speech information”.

「どこのラーメン屋ですか?」という質問に対し、トークスイッチがオンされると(S101)、施設ジャンル「ラーメン屋」に対応する認識辞書がセットされる(S102)。ここで発話者が「KR苑」と発話したものとする。すると、発話された「KR苑」が音声情報として取得され(S103)、認識処理が行われる(S104)。「KR苑」に対応する波形データDが認識辞書41の「ラーメン屋」に対応する認識辞書に記憶されておらず、認識結果が得られない場合(S105:NO)、「認識できませんでした」といった音声を出力するとともに、「KR苑」の波形データDを認識不可音声情報として保持する(S107)。   When the talk switch is turned on in response to the question “Where is ramen shop?” (S101), a recognition dictionary corresponding to the facility genre “ramen shop” is set (S102). Here, it is assumed that the speaker speaks “KR 苑”. Then, the spoken “KR 苑” is acquired as voice information (S103), and recognition processing is performed (S104). If the waveform data D corresponding to “KR 苑” is not stored in the recognition dictionary corresponding to “Ramen shop” in the recognition dictionary 41 and the recognition result cannot be obtained (S105: NO), “Recognition was not possible” And the waveform data D of “KR 苑” is held as unrecognizable voice information (S107).

「KR苑」の波形データDを認識不可音声情報として保持した後(S107)、目的地の設定を行わずに走行した場合(S111:NO)、イグニッションをオフした地点を「KR苑」の波形データDに対応すると推定される推定地点として特定し(S113:YES、S114)、推定地点に関する推定地点情報を取得する(S115)。   After holding the waveform data D of “KR 苑” as unrecognizable voice information (S107), when driving without setting the destination (S111: NO), the location where the ignition is turned off is the waveform of “KR 苑” The estimated point estimated to correspond to the data D is specified (S113: YES, S114), and estimated point information regarding the estimated point is acquired (S115).

この例では、目的地の施設のジャンルが予め「ラーメン屋」と設定されている(S116:YES)。次に推定地点情報に含まれる施設のジャンルが設定施設ジャンルとしてのラーメン屋と一致するか否かを判断する(S117)。推定地点情報に含まれる施設のジャンルがラーメン屋である場合、推定地点情報に含まれる施設のジャンルと設定施設ジャンルとが一致するので(S117:YES)、認識不可音声情報として保持された「KR苑」の波形データDと推定地点情報とを関連付けて認識辞書41に記憶する。具体的には、図2に示すように、推定地点情報である名称「KR苑」、ジャンル「ラーメン屋」、住所および位置座標と、波形データDとが関連付けられて認識辞書41に記憶される。また、「先ほど認識できなかったキーワードをこの地点を示す言葉として登録します」といった音声を、スピーカ71を介して出力する(S118)。   In this example, the genre of the destination facility is set in advance as “Ramen shop” (S116: YES). Next, it is determined whether or not the genre of the facility included in the estimated point information matches the ramen shop as the set facility genre (S117). When the genre of the facility included in the estimated point information is a ramen shop, since the genre of the facility included in the estimated point information matches the set facility genre (S117: YES), “KR” held as unrecognizable speech information The waveform data D of “苑” and the estimated point information are associated and stored in the recognition dictionary 41. Specifically, as shown in FIG. 2, the name “KR 苑”, the genre “Ramen shop”, the address and position coordinates, which are estimated point information, and the waveform data D are associated and stored in the recognition dictionary 41. . Further, a voice such as “Register a keyword that could not be recognized as a word indicating this point” is output through the speaker 71 (S118).

一方、推定地点情報に含まれる施設のジャンルがラーメン屋ではなく、例えばコンビニエンスストアである場合、推定地点情報に含まれる施設のジャンルと設定施設ジャンルとが一致しない(S117:NO)。この場合、例えば目的地であるラーメン屋に向かう途中にコンビニエンスストアに立ち寄ったと考えられ、イグニッションがオフされた地点が目的地ではない可能性が高い。そのため、認識不可音声情報として保持された「KR苑」の波形データDと推定地点情報とを関連付けて認識辞書41に記憶する処理(S118)を行わない。このとき、「KR苑」の波形データDを破棄してもよいし、イグニッションがオンされたときに図4に示す処理を再度行うようにしてもよい。   On the other hand, if the genre of the facility included in the estimated point information is not a ramen shop but a convenience store, for example, the genre of the facility included in the estimated point information does not match the set facility genre (S117: NO). In this case, for example, it is considered that a convenience store was stopped on the way to the ramen shop as the destination, and there is a high possibility that the point where the ignition is turned off is not the destination. Therefore, the process (S118) of correlating and storing the waveform data D of “KR 苑” held as unrecognizable speech information and the estimated point information in the recognition dictionary 41 is not performed. At this time, the waveform data D of “KR 苑” may be discarded, or the processing shown in FIG. 4 may be performed again when the ignition is turned on.

以上詳述したように、発話者の発した音声情報を取得し(S103)、音声情報を認識処理し(S104)、認識結果が得られたか否かを判断する(S105)。認識結果が得られないと判断された場合(S105:NO)、音声情報を認識不可音声情報として保持する(S107)。また、認識結果が得られないと判断された後に実行された操作に基づき、認識音声不可情報に対応すると推定される地図上の推定地点を特定し(S114)、推定地点に関する推定地点情報と認識不可音声情報とを関連付けて記憶させる(S118)。これにより、認識結果が得られなかった認識不可音声情報を、認識不可音声情報に対応すると推定される推定地点に関する推定地点情報と関連付けて適切に記憶させることができるので、音声認識できなかった音声情報を適切に音声認識させることができる。また、認識不可音声情報と推定地点情報とを関連付けて認識辞書41に記憶することにより、その後の音声認識処理おいて、記憶された認識不可音声情報を認識可能な情報として利用することができ、ユーザの利便性が向上する。
本実施形態では、登録のための操作をユーザがしなくても推定地点情報と認識不可音声情報とを関連付けて記憶させることにより、認識不可音声情報を音声認識可能な情報として自動的に記憶させることができる。
As described above in detail, the voice information uttered by the speaker is acquired (S103), the voice information is recognized (S104), and it is determined whether a recognition result is obtained (S105). If it is determined that the recognition result cannot be obtained (S105: NO), the speech information is held as unrecognizable speech information (S107). Further, based on an operation executed after it is determined that a recognition result cannot be obtained, an estimated point on the map that is estimated to correspond to the recognized speech disabled information is identified (S114), and the estimated point information regarding the estimated point is recognized. The impossible voice information is stored in association with each other (S118). As a result, the unrecognizable speech information for which no recognition result has been obtained can be appropriately stored in association with the estimated point information related to the estimated point estimated to correspond to the unrecognizable speech information. Information can be appropriately recognized by voice. Further, by storing the unrecognizable voice information and the estimated point information in association with each other in the recognition dictionary 41, the stored unrecognizable voice information can be used as recognizable information in the subsequent voice recognition process. User convenience is improved.
In the present embodiment, the unrecognizable voice information is automatically stored as voice-recognizable information by storing the estimated point information and the unrecognizable voice information in association with each other without the user performing an operation for registration. be able to.

認識結果が得られないと判断された後(S105:NO)、目的地の設定に係る情報が取得されたか否かを判断する(S111)。目的地の設定に係る情報に基づいて目的地が設定された場合(S111:YES、S112)、当該目的地を推定地点として特定する(S114)。これにより、目的地の設定に係る情報に基づいて推定地点を特定するので、認識不可音声情報に対応すると推定される推定地点をより適切に特定することができる。   After it is determined that the recognition result cannot be obtained (S105: NO), it is determined whether or not the information related to the destination setting is acquired (S111). When the destination is set based on the information related to the setting of the destination (S111: YES, S112), the destination is specified as the estimated point (S114). Thereby, since an estimated point is specified based on the information which concerns on the setting of the destination, the estimated point estimated to respond | correspond to unrecognizable audio | voice information can be specified more appropriately.

また、目的地の設定に係る新たな情報が取得されていないと判断された場合(S111:NO)、車両のイグニッションがオフされた地点を推定地点として特定する(S113:YES、S114)。これにより、認識不可音声情報に対応すると推定される推定地点を容易に特定することができる。   Further, when it is determined that new information related to the destination setting has not been acquired (S111: NO), the point where the vehicle ignition is turned off is specified as the estimated point (S113: YES, S114). As a result, it is possible to easily identify an estimated point estimated to correspond to unrecognizable voice information.

さらに、目的地の施設のジャンルが予め設定されている場合(S116:YES)、推定地点情報に含まれる施設のジャンルと設定施設ジャンルとが一致するか否かを判断し(S117)、推定地点情報に含まれる施設のジャンルと設定施設ジャンルとが一致する場合(S117:YES)、推定地点情報と認識音声不可情報とを関連付けて記憶させる。これにより、推定地点情報と認識不可音声情報とを精度よく関連付けて記憶させることができる。   Furthermore, when the genre of the destination facility is preset (S116: YES), it is determined whether the genre of the facility included in the estimated point information matches the set facility genre (S117), and the estimated point When the genre of the facility included in the information matches the set facility genre (S117: YES), the estimated point information and the recognized speech impossibility information are stored in association with each other. As a result, the estimated point information and the unrecognizable voice information can be stored in association with each other with high accuracy.

本実施形態では、制御部10が「音声情報取得手段」、「認識処理手段」、「認識結果判断手段」、「音声情報保持手段」、「地点特定手段」、「記憶制御手段」、「新情報取得判断手段」、「一致判断手段」を構成する。また、図3中のS103が「音声情報取得手段」の機能としての処理に相当し、S104が「認識処理手段」の機能としての処理に相当し、S105が「認識結果判断手段」の機能としての処理に相当し、S107が「音声情報保持手段」の機能としての処理に相当し、図4中のS114が「地点特定手段」の機能としての処理に相当し、S118が「記憶制御手段」の機能としての処理に相当する。また、S111が「新情報取得判断手段」の機能としての処理に相当し、S117が「一致判断手段」の機能としての処理に相当する。   In the present embodiment, the control unit 10 performs “voice information acquisition means”, “recognition processing means”, “recognition result judgment means”, “voice information holding means”, “point specifying means”, “storage control means”, “new control means”, It constitutes “information acquisition determination means” and “match determination means”. Further, S103 in FIG. 3 corresponds to the processing as the function of the “voice information acquisition unit”, S104 corresponds to the processing as the function of the “recognition processing unit”, and S105 as the function of the “recognition result determination unit”. S107 corresponds to the process as the function of the “voice information holding means”, S114 in FIG. 4 corresponds to the process as the function of the “point specifying means”, and S118 corresponds to the “storage control means”. It corresponds to the processing as a function. Further, S111 corresponds to a process as a function of “new information acquisition determination unit”, and S117 corresponds to a process as a function of “match determination unit”.

以上、本発明は、上記実施形態になんら限定されるものではなく、発明の趣旨を逸脱しない範囲において種々の形態で実施可能である。
(ア)地点特定手段
上記実施形態では、目的地の設定に係る新たな情報が取得されていないと判断された場合(S111:NO)、イグニッションがオフされたか否かを判断し(S113)、イグニッションがオフされた地点を推定地点として特定した。変形例では、目的地の設定に係る新たな情報が取得されたか否かの判断を省略し、イグニッションがオフされた地点を推定地点として特定するように構成してもよい。これにより、認識不可音声情報に対応すると推定される推定地点を容易に特定することができる。
As mentioned above, this invention is not limited to the said embodiment at all, In the range which does not deviate from the meaning of invention, it can implement with a various form.
(A) Point specifying means In the above embodiment, when it is determined that new information related to the destination setting has not been acquired (S111: NO), it is determined whether the ignition is turned off (S113), The point where the ignition was turned off was identified as the estimated point. In a modification, it may be configured to omit the determination of whether or not new information related to the destination setting has been acquired, and to specify the point where the ignition is turned off as the estimated point. As a result, it is possible to easily identify an estimated point estimated to correspond to unrecognizable voice information.

(イ)一致判断手段
上記実施形態では、推定地点情報に含まれる目的地の施設のジャンルと事前情報としての設定施設ジャンルとが一致するか否かを判断し(S117)、推定地点情報に含まれる目的地の施設のジャンルと設定施設ジャンルとが一致する場合(S117:YES)、認識不可音声情報と推定地点情報とを関連付けて記憶した。事前情報は、施設のジャンルに限らず、S107に至る一連の操作において取得された情報であればどのような情報であってもよい。
(A) Match determination means In the above embodiment, it is determined whether or not the genre of the destination facility included in the estimated point information matches the set facility genre as prior information (S117), and is included in the estimated point information. When the genre of the destination facility and the set facility genre match (S117: YES), the unrecognizable voice information and the estimated point information are stored in association with each other. The prior information is not limited to the genre of the facility, and may be any information as long as it is information acquired in a series of operations up to S107.

具体的には、事前情報は、住所に関する情報であってもよい。例えば、発話者の発した音声情報のうち、「愛知県岡崎市」までは認識できたものの、その先が認識できなかったとする。このとき、「愛知県岡崎市」に続く音声信号の波形データEを認識不可音声情報として保持する。また、「愛知県岡崎市」を事前情報とする。そして、特定された推定地点の住所が「愛知県岡崎市岡町」である場合、認識不可音声情報に含まれる属性情報(この例では住所)が事前情報である「愛知県岡崎市」と一致するので、認識音声不可情報として保持された波形データEと「愛知県岡崎市」に続く「岡町」とを関連付けて認識辞書41に記憶する。一方、特定された推定地点の住所が愛知県岡崎市以外であった場合、認識不可音声情報に含まれる属性情報と事前情報とが一致しないので、認識不可音声情報と推定地点情報とを関連付けて記憶する処理を行わない。   Specifically, the prior information may be information regarding an address. For example, it is assumed that the speech information uttered by the speaker can be recognized up to “Okazaki City, Aichi Prefecture”, but the destination cannot be recognized. At this time, the waveform data E of the audio signal following “Okazaki City, Aichi Prefecture” is held as unrecognizable audio information. In addition, “Okazaki City, Aichi Prefecture” is assumed to be prior information. If the address of the identified estimated point is “Okazaki, Okazaki, Aichi”, the attribute information (address in this example) included in the unrecognizable speech information matches the prior information “Okazaki, Aichi” Therefore, the waveform data E held as the recognized speech impossibility information and “Okamachi” following “Okazaki City, Aichi Prefecture” are stored in the recognition dictionary 41 in association with each other. On the other hand, if the address of the identified estimated location is other than Okazaki City, Aichi Prefecture, the attribute information included in the unrecognizable speech information and the prior information do not match. Do not perform memorizing process.

(ウ)認識辞書
上記実施形態では、認識辞書には、音声情報としてA/D変換された波形データが記憶されていた。変形例では、認識辞書の音声情報は、音素列として記憶されていてもよい。この場合、認識不可音声情報についても、波形データに替えて音素列として保持するように構成してもよい。
(C) Recognition Dictionary In the above embodiment, the recognition dictionary stores waveform data that has been A / D converted as voice information. In a modification, the speech information in the recognition dictionary may be stored as a phoneme string. In this case, the unrecognizable speech information may be held as a phoneme string instead of the waveform data.

(エ)発話者への確認処理
図3中のS106にて認識結果を出力した後、認識結果が発話者の意図したものであるか否かを判断するステップを追加してもよい。例えば、スピーカ71を介し「これでよろしいですか?」といった音声を発することにより発話者に確認を促し、マイク61を介して入力された音声情報または操作スイッチ群50を操作することにより入力された情報を取得し、取得された情報に基づいて認識結果が発話者の意図したものであるか否かを判断する。認識結果が発話者の意図したものでないと判断された場合、S107へ移行し、S103にて取得した音声情報の波形データを認識不可音声情報として保持するように構成してもよい。
(D) Confirmation process for speaker After step S106 in FIG. 3 outputs the recognition result, a step of determining whether the recognition result is intended by the speaker may be added. For example, the speaker 71 is prompted to confirm by uttering a voice such as “Are you sure?” Via the speaker 71, and the voice information input via the microphone 61 or the operation switch group 50 is input. Information is acquired, and it is determined whether or not the recognition result is intended by the speaker based on the acquired information. When it is determined that the recognition result is not intended by the speaker, the process may proceed to S107, and the waveform data of the voice information acquired in S103 may be held as unrecognizable voice information.

また、S104における認識処理において、複数の認識候補が特定された場合、発話者に選択を促すように構成してもよい。
さらにまた、図4中のS118の直前に、認識音声不可情報と推定地点情報とを関連付けて記憶させるか否かの判断を発話者に促す処理を追加し、認識音声不可情報と推定地点情報とを関連付けて記憶させない旨の情報が取得された場合、S118の処理を行わないように構成してもよい。
Further, when a plurality of recognition candidates are specified in the recognition processing in S104, the speaker may be prompted to select.
Furthermore, immediately before S118 in FIG. 4, a process for prompting the speaker to determine whether or not the recognized speech impossibility information and the estimated spot information are stored in association with each other is added. May be configured not to perform the process of S118.

(オ)記憶制御手段
上記実施形態では、認識不可音声情報に対応すると推定される地図上の推定地点と認識不可音声情報とを関連付けて記憶させた。変形例では、認識不可音声情報と、車両用情報端末の操作に係る情報とを関連付けて記憶するように構成してもよい。具体的には、例えば、「空調を消す」という音声情報が取得されたが認識できなかった場合、「空調を消す」の音声データの波形データFを認識不可音声情報として保持する。そして、その後エアコンをオフにする操作がなされた場合、「空調を消す」の音声データの波形データFとエアコンをオフにする操作情報とを関連付けて記憶する、といった具合である。
(E) Storage control means In the above embodiment, the estimated point on the map estimated to correspond to the unrecognizable voice information and the unrecognizable voice information are stored in association with each other. In the modification, the unrecognizable voice information and the information related to the operation of the vehicle information terminal may be stored in association with each other. Specifically, for example, when the voice information “turn off air conditioning” is acquired but cannot be recognized, the waveform data F of the voice data “turn off air conditioning” is held as unrecognizable voice information. Then, when an operation to turn off the air conditioner is performed thereafter, the waveform data F of the voice data “turn off the air conditioner” and the operation information to turn off the air conditioner are stored in association with each other.

1:ナビゲーション装置(車両用情報端末)、10:制御部(音声情報取得手段、認識処理手段、認識結果判断手段、音声情報保持手段、地点特定手段、記憶制御手段、新情報取得判断手段、一致判断手段)、20:位置検出器、21:地磁気センサ、22:ジャイロスコープ、23:距離センサ、24:GPS受信機、30:地図データ記憶部、40:音声認識情報記憶部、41:認識辞書、50:操作スイッチ群、51:トークスイッチ、60:音声入力部、61:マイク、70:音声出力部、71:スピーカ、80:描画部、81:ディスプレイ   1: navigation device (vehicle information terminal), 10: control unit (voice information acquisition means, recognition processing means, recognition result judgment means, voice information holding means, point identification means, storage control means, new information acquisition judgment means, coincidence Determination means), 20: position detector, 21: geomagnetic sensor, 22: gyroscope, 23: distance sensor, 24: GPS receiver, 30: map data storage unit, 40: voice recognition information storage unit, 41: recognition dictionary , 50: operation switch group, 51: talk switch, 60: audio input unit, 61: microphone, 70: audio output unit, 71: speaker, 80: drawing unit, 81: display

Claims (6)

発話者の発した音声情報を取得する音声情報取得手段と、
前記音声情報取得手段により取得された前記音声情報を認識処理する認識処理手段と、
前記認識処理手段により認識結果が得られたか否かを判断する認識結果判断手段と、
前記認識結果判断手段により前記認識結果が得られないと判断された場合、前記音声情報を認識不可音声情報として保持する音声情報保持手段と、
前記認識結果判断手段により前記認識結果が得られないと判断された後に実行された操作に基づき、前記認識不可音声情報に対応すると推定される地図上の推定地点を特定する地点特定手段と、
前記推定地点に関する推定地点情報と前記認識不可音声情報とを関連付けて記憶させる記憶制御手段と、
を備えることを特徴とする車両用情報端末。
Voice information acquisition means for acquiring voice information uttered by a speaker;
Recognition processing means for recognizing the voice information acquired by the voice information acquisition means;
Recognition result judging means for judging whether a recognition result is obtained by the recognition processing means;
Voice information holding means for holding the voice information as unrecognizable voice information when the recognition result judgment means determines that the recognition result cannot be obtained;
A point identifying unit that identifies an estimated point on the map that is estimated to correspond to the unrecognizable speech information based on an operation performed after the recognition result determining unit determines that the recognition result cannot be obtained;
Storage control means for storing the estimated point information related to the estimated point and the unrecognizable voice information in association with each other;
A vehicle information terminal comprising:
前記認識結果判断手段により前記認識結果が得られないと判断された後、目的地の設定に係る情報が取得されたか否かを判断する新情報取得判断手段を備え、
前記地点特定手段は、前記新情報取得判断手段により前記目的地の設定に係る情報が取得されたと判断された場合、前記目的地の設定に係る情報に基づいて前記推定地点を特定することを特徴とする請求項1に記載の車両用情報端末。
After determining that the recognition result cannot be obtained by the recognition result determination unit, the information acquisition unit includes a new information acquisition determination unit that determines whether information related to destination setting is acquired.
The point specifying unit is configured to specify the estimated point based on the information related to the destination setting when the new information acquisition determining unit determines that the information related to the destination setting is acquired. The vehicle information terminal according to claim 1.
前記地点特定手段は、前記新情報取得判断手段により前記目的地の設定に係る情報が取得されていないと判断された場合、車両のイグニッションがオフされた地点を前記推定地点として特定することを特徴とする請求項2に記載の車両用情報端末。   The point specifying unit specifies, as the estimated point, a point where the ignition of the vehicle is turned off when it is determined by the new information acquisition determining unit that information relating to the setting of the destination has not been acquired. The vehicle information terminal according to claim 2. 前記地点特定手段は、前記認識結果判断手段により前記認識結果が得られないと判断された後に車両のイグニッションがオフされた地点を前記推定地点として特定することを特徴とする請求項1に記載の車両用情報端末。   2. The point according to claim 1, wherein the point specifying unit specifies a point where the ignition of the vehicle is turned off after the recognition result determining unit determines that the recognition result is not obtained as the estimated point. Information terminal for vehicles. 前記認識不可音声情報の発話に至る事前情報が取得されている場合、前記推定地点情報に含まれる属性情報と前記事前情報とが一致するか否かを判断する一致判断手段を備え、
前記記憶制御手段は、前記一致判断手段により前記属性情報と前記事前情報とが一致すると判断された場合、前記推定地点情報と前記認識不可音声情報とを関連付けて記憶させることを特徴とする請求項1〜4のいずれか一項に記載の車両用情報端末。
When prior information leading to the utterance of the unrecognizable voice information has been acquired, it comprises a match determining means for determining whether or not the attribute information included in the estimated point information matches the prior information,
The storage control means stores the estimated point information and the unrecognizable voice information in association with each other when the attribute information and the prior information are determined to match by the match determination means. Item 5. The vehicle information terminal according to any one of Items 1 to 4.
発話者の発した音声情報を取得する音声情報取得手段、
前記音声情報取得手段により取得された前記音声情報を認識処理する認識処理手段、
前記認識処理手段により認識結果が得られたか否かを判断する認識結果判断手段、
前記認識結果判断手段により前記認識結果が得られないと判断された場合、前記音声情報を認識不可音声情報として保持する音声情報保持手段、
前記認識結果判断手段により前記認識結果が得られないと判断された後に実行された操作に基づき、前記認識不可音声情報に対応すると推定される地図上の推定地点を特定する地点特定手段、
および、前記推定地点に関する推定地点情報と前記認識不可音声情報とを関連付けて記憶させる記憶制御手段、
としてコンピュータを機能させるプログラム。
Voice information acquisition means for acquiring voice information uttered by a speaker;
Recognition processing means for recognizing the voice information acquired by the voice information acquisition means;
Recognition result judging means for judging whether a recognition result is obtained by the recognition processing means;
Voice information holding means for holding the voice information as unrecognizable voice information when the recognition result judgment means determines that the recognition result cannot be obtained;
Point identifying means for identifying an estimated point on the map that is estimated to correspond to the unrecognizable voice information based on an operation performed after the recognition result determining means determines that the recognition result cannot be obtained;
And storage control means for storing the estimated point information related to the estimated point and the unrecognizable voice information in association with each other,
As a program that allows the computer to function.
JP2010070180A 2010-03-25 2010-03-25 Vehicle information terminal and program Expired - Fee Related JP5218459B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010070180A JP5218459B2 (en) 2010-03-25 2010-03-25 Vehicle information terminal and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010070180A JP5218459B2 (en) 2010-03-25 2010-03-25 Vehicle information terminal and program

Publications (2)

Publication Number Publication Date
JP2011203455A true JP2011203455A (en) 2011-10-13
JP5218459B2 JP5218459B2 (en) 2013-06-26

Family

ID=44880161

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010070180A Expired - Fee Related JP5218459B2 (en) 2010-03-25 2010-03-25 Vehicle information terminal and program

Country Status (1)

Country Link
JP (1) JP5218459B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014057540A1 (en) * 2012-10-10 2014-04-17 三菱電機株式会社 Navigation device and navigation server
KR20160008763A (en) * 2014-07-15 2016-01-25 현대자동차주식회사 Navigation apparatus and method thereof
JP2017107098A (en) * 2015-12-10 2017-06-15 株式会社リクルートライフスタイル Voice translation system and control method thereof and voice translation program
WO2019039352A1 (en) * 2017-08-25 2019-02-28 日本電気株式会社 Information processing device, control method, and program
CN114061615A (en) * 2021-11-26 2022-02-18 歌尔科技有限公司 Navigation method and device based on earphone, earphone and storage medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005030982A (en) * 2003-07-09 2005-02-03 Matsushita Electric Ind Co Ltd Voice input method and on-vehicle device
JP2007213005A (en) * 2006-01-10 2007-08-23 Nissan Motor Co Ltd Recognition dictionary system and recognition dictionary system updating method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005030982A (en) * 2003-07-09 2005-02-03 Matsushita Electric Ind Co Ltd Voice input method and on-vehicle device
JP2007213005A (en) * 2006-01-10 2007-08-23 Nissan Motor Co Ltd Recognition dictionary system and recognition dictionary system updating method

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014057540A1 (en) * 2012-10-10 2014-04-17 三菱電機株式会社 Navigation device and navigation server
JP5677647B2 (en) * 2012-10-10 2015-02-25 三菱電機株式会社 Navigation device
CN104704322A (en) * 2012-10-10 2015-06-10 三菱电机株式会社 Navigation device and navigation server
CN104704322B (en) * 2012-10-10 2016-08-17 三菱电机株式会社 Guider
US9644985B2 (en) 2012-10-10 2017-05-09 Mitsubishi Electric Corporation Navigation device that evaluates points of interest based on user utterance
KR20160008763A (en) * 2014-07-15 2016-01-25 현대자동차주식회사 Navigation apparatus and method thereof
KR101597528B1 (en) * 2014-07-15 2016-03-07 현대자동차주식회사 Navigation apparatus and method thereof
JP2017107098A (en) * 2015-12-10 2017-06-15 株式会社リクルートライフスタイル Voice translation system and control method thereof and voice translation program
WO2019039352A1 (en) * 2017-08-25 2019-02-28 日本電気株式会社 Information processing device, control method, and program
CN114061615A (en) * 2021-11-26 2022-02-18 歌尔科技有限公司 Navigation method and device based on earphone, earphone and storage medium

Also Published As

Publication number Publication date
JP5218459B2 (en) 2013-06-26

Similar Documents

Publication Publication Date Title
CN107851437B (en) Voice operation system, server device, vehicle-mounted device, and voice operation method
US9188456B2 (en) System and method of fixing mistakes by going back in an electronic device
JP5218459B2 (en) Vehicle information terminal and program
JP2013068532A (en) Information terminal, server device, search system, and search method
US20090099763A1 (en) Speech recognition apparatus and navigation system
JP2010230918A (en) Retrieving device
KR101063607B1 (en) Navigation system having a name search function using voice recognition and its method
JP5217838B2 (en) In-vehicle device operating device and in-vehicle device operating method
JP2016133378A (en) Car navigation device
JP4914632B2 (en) Navigation device
JPH0764480A (en) Voice recognition device for on-vehicle processing information
JP5455355B2 (en) Speech recognition apparatus and program
JP4942406B2 (en) Navigation device and voice output method thereof
US9355639B2 (en) Candidate selection apparatus and candidate selection method utilizing voice recognition
JP4453377B2 (en) Voice recognition device, program, and navigation device
WO2019124142A1 (en) Navigation device, navigation method, and computer program
JP2000020086A (en) Speech recognition apparatus, navigation system using this aperture and vending system
JP2010127770A (en) Navigation device and navigation method
JP2006039954A (en) Database retrieval system, program, and navigation system
WO2006028171A1 (en) Data presentation device, data presentation method, data presentation program, and recording medium containing the program
JP2007025076A (en) On-vehicle voice recognition apparatus
JPH11325945A (en) On-vehicle navigation system
JP2008298522A (en) Navigation apparatus, and method and program for retrieval of navigation apparatus
JP4985505B2 (en) Sound output device and program
JP4758277B2 (en) Navigation device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120229

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130218

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160315

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5218459

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees