JP6820086B2 - Voice recognition device and voice recognition method - Google Patents

Voice recognition device and voice recognition method Download PDF

Info

Publication number
JP6820086B2
JP6820086B2 JP2017113062A JP2017113062A JP6820086B2 JP 6820086 B2 JP6820086 B2 JP 6820086B2 JP 2017113062 A JP2017113062 A JP 2017113062A JP 2017113062 A JP2017113062 A JP 2017113062A JP 6820086 B2 JP6820086 B2 JP 6820086B2
Authority
JP
Japan
Prior art keywords
voice
recognition
voice recognition
target word
recognition unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017113062A
Other languages
Japanese (ja)
Other versions
JP2018205612A (en
Inventor
信範 工藤
信範 工藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2017113062A priority Critical patent/JP6820086B2/en
Publication of JP2018205612A publication Critical patent/JP2018205612A/en
Application granted granted Critical
Publication of JP6820086B2 publication Critical patent/JP6820086B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、音声認識装置および音声認識方法に関し、特に、音声認識時に発話ボタンの操作や特定動作などのトリガを不要にした音声認識装置に用いて好適なものである。 The present invention relates to a voice recognition device and a voice recognition method, and is particularly suitable for use in a voice recognition device that does not require a trigger such as an operation of a utterance button or a specific operation during voice recognition.

従来、車両に搭載されているオーディオ装置、エアコンディショナ、ナビゲーション装置など各種の電子機器を操作する際の片手運転等を回避するために、電子機器の操作を音声認識により行えるようにしたシステムが提供されている。この音声認識技術を用いれば、運転者は、ハンドルから手を離すことなく(リモートコントローラや操作パネル等の操作部を手動で操作せずに)各種電子機器の操作を行うことができる。 Conventionally, in order to avoid one-handed driving when operating various electronic devices such as audio devices, air conditioners, and navigation devices mounted on vehicles, there is a system that enables the operation of electronic devices by voice recognition. It is provided. By using this voice recognition technology, the driver can operate various electronic devices without taking his / her hand off the steering wheel (without manually operating the operation unit such as the remote controller or the operation panel).

通常、音声認識装置では、マイクより入力されたユーザの発話音声と、音声認識辞書に登録されている特定の単語や熟語、簡単な命令文など(以下、これらをまとめて「認識対象ワード」という)の音声パターンとの類似度に基づいて認識が行われる。例えば、ユーザの発話音声と、音声認識辞書に登録されている音声パターンとの類似度を表す指標として距離値を算出し、距離値が閾値を下回った場合に、その音声パターンに対応する認識対象ワードが発話されたと認識する。 Normally, in a voice recognition device, a user's utterance voice input from a microphone, a specific word or compound word registered in a voice recognition dictionary, a simple command sentence, etc. (hereinafter, these are collectively referred to as a "recognition target word"). ) Is recognized based on the similarity with the voice pattern. For example, a distance value is calculated as an index indicating the degree of similarity between the user's spoken voice and the voice pattern registered in the voice recognition dictionary, and when the distance value falls below the threshold value, the recognition target corresponding to the voice pattern is calculated. Recognize that the ward has been spoken.

従来の音声認識装置は、ユーザが備え付けの発話ボタンを押すことで音声認識モードとなり、マイクから入力されたユーザの発話音声を認識するようになされている。発話ボタンの操作に代えて、手を叩く等の特定動作をトリガとして音声認識モードとなるようになされたものも知られている。これに対し、最近では、音声認識時に発話ボタンの操作や特定動作などのトリガを不要にした音声認識(以下、トリガレス音声認識という)も提供されている。 In the conventional voice recognition device, when the user presses the built-in utterance button, the voice recognition mode is set and the user's utterance voice input from the microphone is recognized. It is also known that instead of operating the utterance button, a specific action such as clapping a hand triggers the voice recognition mode. On the other hand, recently, voice recognition (hereinafter referred to as triggerless voice recognition) that does not require a trigger such as an operation of a utterance button or a specific action during voice recognition has been provided.

トリガレス音声認識装置では、マイクを常時オン状態にしておき、入力される音声が認識対象ワードに該当するかどうかを常に判定する。なお、車室内では、マイクより入力される音声には、音声認識のための発話音声の他に、エンジンの動作音や走行音、オーディオ音声、搭乗者どうしの会話音声などの各種ノイズが含まれている。そのため、トリガレス音声認識装置では、このようにノイズの多い環境下でも音声認識を正しく行えるようにするための工夫が必要となる。 In the triggerless voice recognition device, the microphone is always on, and it is always determined whether or not the input voice corresponds to the recognition target word. In the passenger compartment, the voice input from the microphone includes various noises such as engine operation sound, running sound, audio voice, and conversation voice between passengers, in addition to the spoken voice for voice recognition. ing. Therefore, in the triggerless voice recognition device, it is necessary to devise a device for correctly performing voice recognition even in such a noisy environment.

従来、オーディオ音声による誤認識を抑制するための技術が提供されている(例えば、特許文献1参照)。特許文献1に記載の技術では、音声認識エンジンを2つ搭載し、第1の音声認識エンジンにおいてマイクから入力された音声を認識すると同時に、本来はスピーカから出力するオーディオ音声を内部で分岐して第2の音声認識エンジンに入力し、第2の音声認識エンジンでオーディオ音声の認識を行う。そして、それぞれの音声認識エンジンにおいて同じワードを認識した場合は、オーディオ音声による誤認識として棄却する。 Conventionally, a technique for suppressing erroneous recognition by audio-voice has been provided (see, for example, Patent Document 1). In the technique described in Patent Document 1, two voice recognition engines are installed, and the first voice recognition engine recognizes the voice input from the microphone and at the same time internally branches the audio voice originally output from the speaker. It is input to the second voice recognition engine, and the audio voice is recognized by the second voice recognition engine. Then, when the same word is recognized by each voice recognition engine, it is rejected as an erroneous recognition by audio voice.

実開平7−23400号公報Jikkenhei 7-23400

トリガレス音声認識の場合、マイクより入力される音声が認識対象ワードに該当するかどうかを常時判定するため、車載機のCPUに常に処理負荷がかかっている状態となる。1つの音声認識エンジンで12個の認識対象ワードに対応する場合、5%程度のCPU負荷が増加する。特許文献1のように、2つの音声認識エンジンを同時に動作させた場合、12個の認識対象ワードに対応する場合は合計24ワードとなり、10%程度のCPU負荷を増加させてしまう。 In the case of triggerless voice recognition, it is always determined whether or not the voice input from the microphone corresponds to the recognition target word, so that the processing load is always applied to the CPU of the in-vehicle device. When one voice recognition engine supports 12 words to be recognized, the CPU load increases by about 5%. When two voice recognition engines are operated at the same time as in Patent Document 1, the total number of words corresponding to 12 recognition target words is 24 words, which increases the CPU load by about 10%.

こういった状況では、音声認識処理以外の他処理のレスポンス性能が低下するという問題が生じる。例えば、ナビゲーション装置の地図描画性能(1秒当たりの描画可能フレーム数であるfps=frame per second)の低下を招くといった問題が生じてしまう。他処理のレスポンス性能の低下を抑えるためには、定常的に待ち受ける認識対象ワードの数を少なく制限する必要がある。しかしながら、このようにすると、ごく限られた数の認識対象ワードしか音声認識できないことになり、トリガレス音声認識の利便性が損なわれてしまう。 In such a situation, there arises a problem that the response performance of other processes other than the voice recognition process is deteriorated. For example, there arises a problem that the map drawing performance of the navigation device (fps = frame per second, which is the number of frames that can be drawn per second) is deteriorated. In order to suppress the deterioration of the response performance of other processes, it is necessary to limit the number of words to be recognized that are constantly waiting. However, in this way, only a very limited number of words to be recognized can be recognized by voice, and the convenience of triggerless voice recognition is impaired.

本発明は、このような問題を解決するために成されたものであり、トリガレス音声認識において定常的に待ち受ける認識対象ワードの数を少なく制限することなく、また音声認識処理以外の他処理のレスポンス性能の低下を極力抑えつつ、車載機で発生された音声による誤認識を抑制することができるようにすることを目的とする。 The present invention has been made to solve such a problem, without limiting the number of words to be recognized that are constantly waiting in triggerless speech recognition, and the response of processing other than speech recognition processing. The purpose is to make it possible to suppress erroneous recognition by voice generated by an in-vehicle device while suppressing deterioration of performance as much as possible.

上記した課題を解決するために、本発明の音声認識装置は、認識対象ワードの全体が登録された第1音声認識辞書と、認識対象ワードの後半部分のみが登録された第2音声認識辞書とを有する。また、本発明の音声認識装置は、第1音声認識辞書を用いて、マイクより入力された外部入力音声の音声認識を行う第1音声認識部と、第2音声認識辞書を用いて、車載機で発生されスピーカから出力される前の内部発生音声の音声認識を行う第2音声認識部とを備える。第1音声認識部は、外部入力音声の順次入力と並行して類似度の算出を逐次行い、算出した類似度が第1のレベルより大きくなった時点で、外部入力音声が認識対象ワードの前半部分に相当すると認識し、引き続き算出した類似度が第2のレベルより大きくなった時点で、外部入力音声が認識対象ワードの全体に相当すると認識する。第2音声認識部は、第1音声認識部により算出された類似度が第1のレベルよりも大きくなった時点で認識処理を開始し、算出した類似度が所定レベルより大きい場合に、内部発生音声が認識対象ワードの後半部分に相当すると認識する。そして、第1音声認識部において外部入力音声が認識対象ワードの全体に相当すると認識され、かつ、第2音声認識部により内部発生音声が認識対象ワードの後半部分に相当すると認識された場合、第1音声認識部による認識結果を破棄するようにしている。 In order to solve the above-mentioned problems, the speech recognition device of the present invention includes a first speech recognition dictionary in which the entire recognition target word is registered, and a second speech recognition dictionary in which only the latter half of the recognition target word is registered. Has. Further, the voice recognition device of the present invention is an in-vehicle device using a first voice recognition dictionary, a first voice recognition unit that performs voice recognition of externally input voice input from a microphone, and a second voice recognition dictionary. It is provided with a second voice recognition unit that performs voice recognition of the internally generated voice before being output from the speaker. The first voice recognition unit sequentially calculates the similarity in parallel with the sequential input of the external input voice, and when the calculated similarity becomes larger than the first level, the external input voice is the first half of the recognition target word. It recognizes that it corresponds to a part, and when the calculated similarity becomes larger than the second level, it recognizes that the external input voice corresponds to the whole recognition target word. The second voice recognition unit starts the recognition process when the similarity calculated by the first voice recognition unit becomes larger than the first level, and internally occurs when the calculated similarity is larger than the predetermined level. Recognize that the voice corresponds to the latter half of the recognition target word. Then, when the first voice recognition unit recognizes that the externally input voice corresponds to the entire recognition target word and the second voice recognition unit recognizes that the internally generated voice corresponds to the latter half of the recognition target word, the first 1 The recognition result by the voice recognition unit is discarded.

上記のように構成した本発明によれば、第1音声認識部において外部入力音声が認識対象ワードの前半部分に相当すると認識された場合にのみ第2音声認識部が起動されるので、第2音声認識部が常時動作している場合に比べて処理負荷を小さくすることができる。処理負荷が小さいので、トリガレス音声認識において定常的に待ち受ける認識対象ワードの数を少なく制限する必要がない。そして、第1音声認識部において外部入力音声が認識対象ワードの全体に相当すると認識され、かつ、第2音声認識部により内部発生音声が認識対象ワードの後半部分に相当すると認識された場合には、第1音声認識部による認識結果が、スピーカから出力された内部発生音声がマイクから入力されたために生じた誤認識であるものとして破棄される。これにより、本発明によれば、トリガレス音声認識において定常的に待ち受ける認識対象ワードの数を少なく制限することなく、また音声認識処理以外の他処理のレスポンス性能の低下を極力抑えつつ、車載機で発生された音声による誤認識を抑制することができる。 According to the present invention configured as described above, the second voice recognition unit is activated only when the first voice recognition unit recognizes that the external input voice corresponds to the first half of the recognition target word. The processing load can be reduced as compared with the case where the voice recognition unit is always in operation. Since the processing load is small, it is not necessary to limit the number of words to be recognized that are constantly waiting in triggerless speech recognition. When the first voice recognition unit recognizes that the externally input voice corresponds to the entire recognition target word and the second voice recognition unit recognizes that the internally generated voice corresponds to the latter half of the recognition target word. , The recognition result by the first voice recognition unit is discarded as erroneous recognition caused by the internally generated voice output from the speaker being input from the microphone. As a result, according to the present invention, the number of words to be recognized that are constantly waiting in triggerless speech recognition is not limited to a small number, and the deterioration of the response performance of other processes other than the speech recognition process is suppressed as much as possible. It is possible to suppress erroneous recognition due to the generated voice.

本実施形態に係る音声認識装置の機能構成例を示すブロック図である。It is a block diagram which shows the functional structure example of the voice recognition apparatus which concerns on this embodiment. 認識対象ワードの一例を示す図である。It is a figure which shows an example of the recognition target word. 本実施形態に係る第1音声認識辞書および第2音声認識辞書が記憶する情報の一例を示す図である。It is a figure which shows an example of the information which the 1st voice recognition dictionary and the 2nd voice recognition dictionary which concern on this Embodiment store. 本実施形態に係る第1音声認識部および第2音声認識部が算出する距離値の推移の一例を示すグラフである。It is a graph which shows an example of the transition of the distance value calculated by the 1st voice recognition unit and the 2nd voice recognition unit which concerns on this embodiment. 第1音声認識部の動作例を示すフローチャートである。It is a flowchart which shows the operation example of the 1st voice recognition part. 第2音声認識部の動作例を示すフローチャートである。It is a flowchart which shows the operation example of the 2nd voice recognition part. 認識結果破棄部の動作例を示すフローチャートである。It is a flowchart which shows the operation example of the recognition result discarding part.

以下、本発明の一実施形態を図面に基づいて説明する。図1は、本実施形態に係る音声認識装置100の機能構成例を示すブロック図を、車両に設けられたマイク200、ナビゲーション装置300、オーディオ装置400、カメラシステム500、表示装置600、および音声出力装置700と共に示す図である。本実施形態に係る音声認識装置100は、車両の車内に設けられたマイク200より入力される乗員の発話音声(特定の単語や熟語、簡単な命令文などのワード)を発話コマンドとして認識し、認識結果に基づいてナビゲーション装置300を制御するものである。なお、ここでは音声認識装置100の制御対象の電子機器をナビゲーション装置300としているが、オーディオ装置400、エアコンディショナ、その他の電子機器であってもよい。 Hereinafter, an embodiment of the present invention will be described with reference to the drawings. FIG. 1 shows a block diagram showing a functional configuration example of the voice recognition device 100 according to the present embodiment, showing a microphone 200, a navigation device 300, an audio device 400, a camera system 500, a display device 600, and a voice output provided in the vehicle. It is a figure which shows together with the apparatus 700. The voice recognition device 100 according to the present embodiment recognizes the utterance voice (words such as a specific word, a compound word, a simple command sentence) of the occupant input from the microphone 200 provided in the vehicle, and recognizes it as a utterance command. The navigation device 300 is controlled based on the recognition result. Although the electronic device to be controlled by the voice recognition device 100 is the navigation device 300 here, it may be an audio device 400, an air conditioner, or other electronic device.

マイク200は、収音装置であり、車両に搭乗する搭乗者の発話音声を収音可能な位置に設けられる。マイク200は、収音した音声に基づく音声信号を、後述する第1音声認識部10に出力する。以下、マイク200が収音する音声を「外部入力音声」といい、マイク200が第1音声認識部10に出力する音声信号を「外部入力音声信号」という。 The microphone 200 is a sound collecting device, and is provided at a position where the voice of a passenger boarding the vehicle can be picked up. The microphone 200 outputs a voice signal based on the picked-up voice to the first voice recognition unit 10 described later. Hereinafter, the voice picked up by the microphone 200 is referred to as an "external input voice", and the voice signal output by the microphone 200 to the first voice recognition unit 10 is referred to as an "external input voice signal".

ナビゲーション装置300には、表示装置600と、カメラシステム500とが接続される。表示装置600は、液晶表示パネル等の画像が表示可能な装置であり、例えば、ダッシュボードの中央部に設けられる。カメラシステム500は、車両の前方を撮影するフロントカメラ、および、車両の後方を撮影するリアカメラを備え、ナビゲーション装置300からの要求に応じて、いずれか一方のカメラの撮影結果をナビゲーション装置300に出力する。 A display device 600 and a camera system 500 are connected to the navigation device 300. The display device 600 is a device capable of displaying an image such as a liquid crystal display panel, and is provided in the center of a dashboard, for example. The camera system 500 includes a front camera that shoots the front of the vehicle and a rear camera that shoots the rear of the vehicle, and in response to a request from the navigation device 300, the shooting result of either camera is sent to the navigation device 300. Output.

ナビゲーション装置300は、車両の位置を検出する機能や、表示装置600に地図を表示して地図上に車両の位置を表示する機能、目的地までの経路を探索する機能、表示装置600に地図を表示して地図上に目的地までの経路を描画して当該経路を案内する機能を備える。また、ナビゲーション装置300は、ユーザの指示に応じて、フロントカメラの撮影結果を示す画像、または、リアカメラの撮影結果を示す画像を、表示装置600に表示する機能を備える。 The navigation device 300 has a function of detecting the position of the vehicle, a function of displaying a map on the display device 600 and displaying the position of the vehicle on the map, a function of searching for a route to the destination, and a map on the display device 600. It has a function to display and draw a route to the destination on a map to guide the route. Further, the navigation device 300 has a function of displaying an image showing the shooting result of the front camera or an image showing the shooting result of the rear camera on the display device 600 according to the instruction of the user.

音声出力装置700は、D/Aコンバータや、ボリューム、アンプ、スピーカ等を備え、入力された音声信号をD/A変換し、増幅した後、スピーカにより音声出力する。オーディオ装置400は、メディア(CD、DVD、MD等)に記録された音声データや、メモリー(オーディオ装置400に搭載された内部メモリーであってもよく、当該装置に接続された外部メモリーであってもよい)に記憶された音声データに基づいて、音声信号を生成し、音声出力装置700に出力する。なお、オーディオ装置400は、音声出力装置700に音声信号を出力し、車内に音声を放音する装置であればよく、例えば、ラジオ受信装置であってもよい。図1に示すように、オーディオ装置400が出力する音声信号は、分岐されて、後述する第2音声認識部12に出力される。以下、第2音声認識部12が入力する音声信号を「内部発生音声信号」といい、この内部発生音声信号に基づく音声を内部発生音声という。内部発生音声は、車載機の1つであるオーディオ装置400で発生されスピーカから出力される前の音声である。 The audio output device 700 includes a D / A converter, a volume, an amplifier, a speaker, and the like, D / A converts the input audio signal, amplifies it, and then outputs the audio through the speaker. The audio device 400 may be audio data recorded on media (CD, DVD, MD, etc.) or a memory (internal memory mounted on the audio device 400, or an external memory connected to the device. A voice signal is generated based on the voice data stored in the voice output device 700 and output to the voice output device 700. The audio device 400 may be any device that outputs a voice signal to the voice output device 700 and emits sound into the vehicle, and may be, for example, a radio receiving device. As shown in FIG. 1, the voice signal output by the audio device 400 is branched and output to the second voice recognition unit 12 described later. Hereinafter, the voice signal input by the second voice recognition unit 12 is referred to as an "internally generated voice signal", and the voice based on this internally generated voice signal is referred to as an internally generated voice. The internally generated voice is the voice generated by the audio device 400, which is one of the on-board units, and before being output from the speaker.

図1に示すように、本実施形態に係る音声認識装置100は、その機能構成として、第1音声認識部10、電子機器制御部11、第2音声認識部12および認識結果破棄部13を備えている。また、音声認識装置100は、記憶媒体として、辞書記憶部20を備えている。 As shown in FIG. 1, the voice recognition device 100 according to the present embodiment includes a first voice recognition unit 10, an electronic device control unit 11, a second voice recognition unit 12, and a recognition result discard unit 13 as its functional configuration. ing. Further, the voice recognition device 100 includes a dictionary storage unit 20 as a storage medium.

なお、上記各機能ブロック10〜13は、ハードウェア、DSP(Digital Signal Processor)、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック10〜13は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。 The functional blocks 10 to 13 can be configured by any of hardware, DSP (Digital Signal Processor), and software. For example, when configured by software, each of the functional blocks 10 to 13 is actually configured to include a computer CPU, RAM, ROM, etc., and is a program stored in a recording medium such as RAM, ROM, hard disk, or semiconductor memory. Is realized by the operation of.

辞書記憶部20は、第1音声認識辞書20Aおよび第2音声認識辞書20Bを記憶する。以下、認識対象ワードについて説明した後、第1音声認識辞書20Aおよび第2音声認識辞書20Bについて説明する。 The dictionary storage unit 20 stores the first voice recognition dictionary 20A and the second voice recognition dictionary 20B. Hereinafter, the recognition target word will be described, and then the first voice recognition dictionary 20A and the second voice recognition dictionary 20B will be described.

図2は、本実施形態における認識対象ワードの一覧例である。なお、図2で例示した認識対象ワードはあくまで一例であり、他の認識対象ワードが存在してもよいことは勿論である。図2に示すように、本実施形態では、認識対象ワードとして、9個の認識対象ワードが用意されている。従って、搭乗者が、9個の認識対象ワードのうち、いずれかの認識対象ワードに対応する文言を発話した場合、音声認識装置100は、発話音声を認識対象ワードと認識し、認識対象ワードに対応する処理をナビゲーション装置300に実行させる。また、9個の認識対象ワードのそれぞれには、番号A1〜番号A9の識別情報が割り振られている。 FIG. 2 is an example of a list of recognition target words in this embodiment. The recognition target word illustrated in FIG. 2 is just an example, and it goes without saying that other recognition target words may exist. As shown in FIG. 2, in the present embodiment, nine recognition target words are prepared as recognition target words. Therefore, when the passenger utters a word corresponding to any of the nine recognition target words among the nine recognition target words, the voice recognition device 100 recognizes the spoken voice as the recognition target word and sets it as the recognition target word. The navigation device 300 is made to execute the corresponding process. Further, identification information of numbers A1 to A9 is assigned to each of the nine recognition target words.

認識対象ワードのそれぞれについて、各ワードに相当する文言が発話された場合に、音声認識装置100がナビゲーション装置300に実行させる処理について簡単に説明すると、番号A1の認識対象ワードは、車両の現在位置の近くにあるコンビニエンスストアを探索する処理を実行するためのワードである。また、番号A2の認識対象ワードは、車両の現在位置の近くにあるガソリンスタンドを探索する処理を実行するためのワードである。番号A3の認識対象ワードは、目的地までの経路を案内する処理を実行するためのワードである。番号A4の認識対象ワードは、事前に登録された自宅までの経路を案内する処理を実行するためのワードである。番号A5の認識対象ワードは、表示装置600に車両の現在位置を中心とした所定スケールの地図を表示する処理を実行するためのワードである。番号A6の認識対象ワードは、表示された地図の縮尺を拡大する処理を実行するためのワードである。番号A7の認識対象ワードは、表示された地図の縮尺を縮小する処理を実行するためのワードである。番号A8の認識対象ワードは、フロントカメラの撮影結果を示す画像を表示装置600に表示する処理を実行するためのワードである。番号A9の認識対象ワードは、リアカメラの撮影結果を示す画像を表示装置600に表示する処理を実行するためのワードである。 To briefly explain the process that the voice recognition device 100 causes the navigation device 300 to execute when a word corresponding to each word is spoken for each of the recognition target words, the recognition target word of the number A1 is the current position of the vehicle. It is a word for executing the process of searching for a convenience store near. Further, the recognition target word of the number A2 is a word for executing a process of searching for a gas station near the current position of the vehicle. The recognition target word of the number A3 is a word for executing a process of guiding the route to the destination. The recognition target word of the number A4 is a word for executing a process of guiding the route to the home registered in advance. The recognition target word of the number A5 is a word for executing a process of displaying a map of a predetermined scale centered on the current position of the vehicle on the display device 600. The recognition target word of the number A6 is a word for executing a process of enlarging the scale of the displayed map. The recognition target word of the number A7 is a word for executing a process of reducing the scale of the displayed map. The recognition target word of the number A8 is a word for executing a process of displaying an image indicating the shooting result of the front camera on the display device 600. The recognition target word of the number A9 is a word for executing a process of displaying an image indicating the shooting result of the rear camera on the display device 600.

本実施形態では、認識対象ワードのそれぞれは、事前に、前半部分と、後半部分とに分けられている。図2では、記号「/」で、各認識対象ワードの前半部分と、後半部分との区切りを示している。例えば、番号A1の認識対象ワードは、文言「近くのコンビニ」からなる認識対象ワードである。そして、番号A1の認識対象ワードは、文言「近くの」と、文言「コンビニ」とに分けられている。また例えば、番号A8の認識対象ワードは、文言「フロントカメラ」からなる認識対象ワードである。そして、番号A8の認識対象ワードは、文言「フロント」と、文言「カメラ」とに分けられている。 In the present embodiment, each of the recognition target words is divided into a first half portion and a second half portion in advance. In FIG. 2, the symbol “/” indicates a delimiter between the first half portion and the second half portion of each recognition target word. For example, the recognition target word of the number A1 is a recognition target word composed of the wording "near convenience store". The recognition target word of the number A1 is divided into the wording "near" and the wording "convenience store". Further, for example, the recognition target word of the number A8 is a recognition target word composed of the word "front camera". The recognition target word of the number A8 is divided into the wording "front" and the wording "camera".

図3(A)は、第1音声認識辞書20Aが記憶する情報を説明に適した内容で模式的に示す図である。図3(B)は、第2音声認識辞書20Bが記憶する情報を説明に適した内容で模式的に示す図である。図3(A)に示すように、第1音声認識辞書20Aには、全ての認識対象ワードのそれぞれ(本実施形態では、上述した9個の認識対象ワードのそれぞれ)について、認識対象ワードの「全体」の音声パターンが登録されている。 FIG. 3A is a diagram schematically showing information stored in the first speech recognition dictionary 20A with contents suitable for explanation. FIG. 3B is a diagram schematically showing information stored in the second speech recognition dictionary 20B with contents suitable for explanation. As shown in FIG. 3A, in the first speech recognition dictionary 20A, for each of all the recognition target words (in this embodiment, each of the above-mentioned nine recognition target words), the recognition target word " The "whole" voice pattern is registered.

図3(B)に示すように、第2音声認識辞書20Bには、全ての認識対象ワードのそれぞれについて、認識対象ワードの「後半部分」の音声パターンが登録されている。例えば、番号A1の認識対象ワードについて、第2音声認識辞書20Bには、認識対象ワードの後半部分の文言「コンビニ」の音声パターンが登録されている。図2に示すように、番号A5、A6、A7の認識対象ワードの後半部分は、「表示」で共通する。これを踏まえ、図3(B)に示すように、番号A5、A6、A7の認識対象ワードについては、認識対象ワードの「後半部分」の音声パターンとして、文言「表示」の音声パターンが、1つだけ、第2音声認識辞書20Bに登録されている。このことは、後半部分が文言「カメラ」で共通している番号A8、A9の認識対象ワードについても同様である。この結果、本実施形態に係る第2音声認識辞書20Bには、文言「コンビニ」、文言「ガソリンスタンド」、文言「案内」、文言「帰る」、文言「表示」、文言「カメラ」の6個の認識対象ワードの後半部分の音声パターンが登録される。 As shown in FIG. 3B, in the second voice recognition dictionary 20B, the voice pattern of the "second half" of the recognition target word is registered for each of the recognition target words. For example, for the recognition target word of the number A1, the voice pattern of the word "convenience store" in the latter half of the recognition target word is registered in the second voice recognition dictionary 20B. As shown in FIG. 2, the latter half of the recognition target words of the numbers A5, A6, and A7 are common to "display". Based on this, as shown in FIG. 3B, with respect to the recognition target words of numbers A5, A6, and A7, the voice pattern of the wording "display" is 1 as the voice pattern of the "second half" of the recognition target word. Only one is registered in the second speech recognition dictionary 20B. This also applies to the recognition target words of numbers A8 and A9 whose latter half is common to the word "camera". As a result, in the second speech recognition dictionary 20B according to the present embodiment, there are six words "convenience store", word "gas station", word "guidance", word "return", word "display", and word "camera". The voice pattern of the latter half of the recognition target word of is registered.

第1音声認識部10は、第1音声認識辞書20Aに登録されている認識対象ワードの全体の音声パターンと、マイク200より入力された外部入力音声との類似度を算出し、当該算出した類似度が所定レベルより大きい場合に、外部入力音声が認識対象ワードの全体に相当すると認識する。より詳細には、第1音声認識部10は、外部入力音声の順次入力と並行して類似度の算出を逐次行い、当該算出した類似度が第1のレベルより大きくなった時点で、外部入力音声が認識対象ワードの前半部分に相当すると認識し、引き続き算出した類似度が第2のレベルより大きくなった時点で、外部入力音声が認識対象ワードの全体に相当すると認識する。 The first voice recognition unit 10 calculates the degree of similarity between the entire voice pattern of the recognition target word registered in the first voice recognition dictionary 20A and the externally input voice input from the microphone 200, and the calculated similarity. When the degree is greater than a predetermined level, it is recognized that the externally input voice corresponds to the entire recognition target word. More specifically, the first voice recognition unit 10 sequentially calculates the similarity in parallel with the sequential input of the external input voice, and when the calculated similarity becomes larger than the first level, the external input It recognizes that the voice corresponds to the first half of the recognition target word, and when the calculated similarity becomes larger than the second level, it recognizes that the external input voice corresponds to the entire recognition target word.

本実施形態では、第1音声認識部10は、類似度を表す指標として距離値を算出する。距離値は、値「0」〜値「1000」の範囲で値をとる。第1音声認識部10が算出する1の認識対象ワードに係る距離値は、外部入力音声と、当該1の認識対象ワードの「全体」の音声パターンとが類似するほど、その距離値の値は小さくなる。そして、第1音声認識部10は、算出した距離値が第1閾値T1(>第2閾値T2(後述))より小さくなったことを検出することによって、類似度が第1のレベルより大きくなったことを検出し、その時点で外部入力音声が認識対象ワードの前半部分に相当すると認識する。第1音声認識部10は、算出した距離値が第1閾値T1より小さくなった後、引き続き算出した距離値が第2閾値T2より小さくなったことを検出することによって、類似度が第2のレベルより大きくなったことを検出し、その時点で、外部入力音声が認識対象ワードの全体に相当すると認識する。 In the present embodiment, the first voice recognition unit 10 calculates a distance value as an index indicating the degree of similarity. The distance value takes a value in the range of the value "0" to the value "1000". The distance value related to the recognition target word 1 calculated by the first voice recognition unit 10 is such that the external input voice and the “whole” voice pattern of the recognition target word are similar to each other. It becomes smaller. Then, the first voice recognition unit 10 detects that the calculated distance value is smaller than the first threshold value T1 (> second threshold value T2 (described later)), so that the similarity becomes larger than the first level. It is recognized that the external input voice corresponds to the first half of the recognition target word at that time. The first voice recognition unit 10 detects that the calculated distance value is smaller than the first threshold value T1 and then the calculated distance value is smaller than the second threshold value T2, so that the similarity is second. It detects that the level is higher than the level, and at that point, recognizes that the externally input voice corresponds to the entire recognition target word.

以下、第1音声認識部10の処理について詳述する。図4(A)は、ある1の認識対象ワードについて、第1音声認識部10により算出された距離値の推移の一例を示すグラフである。特に、図4(A)は、距離値が第1閾値T1を下回った後、さらに、第2閾値T2を下回る場合の距離値の推移の一例を示す。図4(A)のグラフの縦軸は距離値を示し、横軸は時間の経過を示す。第1音声認識部10は、いわゆるトリガレス音声認識を実行し、常時、距離値の算出を実行する。 Hereinafter, the processing of the first voice recognition unit 10 will be described in detail. FIG. 4A is a graph showing an example of the transition of the distance value calculated by the first voice recognition unit 10 for a certain recognition target word. In particular, FIG. 4A shows an example of the transition of the distance value when the distance value falls below the first threshold value T1 and then further falls below the second threshold value T2. The vertical axis of the graph of FIG. 4A shows the distance value, and the horizontal axis shows the passage of time. The first voice recognition unit 10 executes so-called triggerless voice recognition and constantly calculates the distance value.

上述したように、マイク200は、収音した音声に基づく外部入力音声信号を第1音声認識部10に出力する。第1音声認識部10は、9個の認識対象ワードのそれぞれについて、外部入力音声の順次入力と並行して、外部入力音声信号の音声波形と、第1音声認識辞書20Aに登録された音声パターン(認識対象ワードの「全体」の音声パターン)との比較に基づく距離値の算出を逐次行う。この結果、図4(A)に示すように、時間の経過と共に距離値の値が逐次変化する。 As described above, the microphone 200 outputs an external input voice signal based on the collected voice to the first voice recognition unit 10. The first voice recognition unit 10 has, for each of the nine recognition target words, the voice waveform of the external input voice signal and the voice pattern registered in the first voice recognition dictionary 20A in parallel with the sequential input of the external input voice. The distance value is calculated sequentially based on the comparison with (the "whole" voice pattern of the recognition target word). As a result, as shown in FIG. 4A, the value of the distance value changes sequentially with the passage of time.

第1音声認識部10は、距離値が第1閾値T1を上回っている状態の場合、距離値が第1閾値T1を下回った状態へ移行したか否かを監視する。図4(A)では、タイミングTM1で、距離値が第1閾値T1を上回った状態から、下回った状態へ移行している。第1音声認識部10は、距離値が第1閾値T1を下回った状態へ移行したことを検出した場合、その時点(図4(A)ではタイミングTM1)で、外部入力音声が認識対象ワードの前半部分に相当すると認識する。 When the distance value is above the first threshold value T1, the first voice recognition unit 10 monitors whether or not the distance value has shifted to a state below the first threshold value T1. In FIG. 4A, at the timing TM1, the distance value shifts from the state where the distance value exceeds the first threshold value T1 to the state where the distance value falls below the first threshold value T1. When the first voice recognition unit 10 detects that the distance value has shifted to a state below the first threshold value T1, at that time (timing TM1 in FIG. 4A), the external input voice is the recognition target word. Recognize that it corresponds to the first half.

ここで、マイク200が、1の認識対象ワードに対応する文言の音声を収音した場合、収音した音声に基づく外部入力音声信号と、当該1の認識対象ワードの音声パターンとの距離値は、徐々に小さくなっていく。より詳細には、収音した音声に基づく外部入力音声信号と、当該1の認識対象ワードの音声パターンとの比較量が多くなるにつれて、外部入力音声信号の音声波形と、当該1の認識対象ワードの音声パターンとの一致率が徐々に高くなり、これに伴って距離値が徐々に小さくなっていき、ある時点で第1閾値T1を下回り、さらにその後の時点で第2閾値T2を下回る。 Here, when the microphone 200 picks up the voice of the wording corresponding to the recognition target word of 1, the distance value between the external input voice signal based on the picked up voice and the voice pattern of the recognition target word of 1 is , Gradually getting smaller. More specifically, as the amount of comparison between the external input voice signal based on the collected voice and the voice pattern of the recognition target word of 1 increases, the voice waveform of the external input voice signal and the recognition target word of 1 concerned. The matching rate with the voice pattern of is gradually increased, and the distance value is gradually decreased accordingly, and the value falls below the first threshold value T1 at a certain point in time and further falls below the second threshold value T2 at a subsequent point in time.

そして、1の認識対象ワードに係る第1閾値T1の値は、マイク200が当該1の認識対象ワードに対応する文言の音声を収音する場合において、当該1の認識対象ワードの「前半部分」に対応する文言の音声が収音され、当該1の認識対象ワードの「前半部分」に対応する外部入力音声に基づく距離値の算出が完了した時点で、その距離値が第1閾値T1に至るような値に設定される。第1閾値T1の値は、認識対象ワードごとに、事前のテストの結果等を踏まえ、適切に設定される。以上のことを踏まえ、第1音声認識部10は、距離値が第1閾値T1を上回っている状態から下回った状態へ移行したことを検出した場合、その時点で、外部入力音声が認識対象ワードの前半部分に相当すると認識する。 The value of the first threshold value T1 related to the recognition target word of 1 is the "first half portion" of the recognition target word of 1 when the microphone 200 picks up the voice of the wording corresponding to the recognition target word of 1. When the voice of the word corresponding to is picked up and the calculation of the distance value based on the external input voice corresponding to the "first half part" of the recognition target word of 1 is completed, the distance value reaches the first threshold value T1. Is set to a value like. The value of the first threshold value T1 is appropriately set for each recognition target word based on the results of prior tests and the like. Based on the above, when the first voice recognition unit 10 detects that the distance value has shifted from the state where the distance value exceeds the first threshold value T1 to the state where the distance value has fallen below the first threshold value T1, the external input voice is the recognition target word at that time. Recognize that it corresponds to the first half of.

第1音声認識部10は、距離値が第1閾値T1を上回っている状態から下回った状態へ移行したことを検出した場合、処理開始通知を第2音声認識部12に出力する。図4(A)で例示するグラフでは、第1音声認識部10は、タイミングTM1で処理開始通知を出力する。処理開始通知については、第2音声認識部12の処理と共に後に説明する。 When the first voice recognition unit 10 detects that the distance value has shifted from the state where the distance value exceeds the first threshold value T1 to the state where the distance value has fallen below the first threshold value T1, the first voice recognition unit 10 outputs a processing start notification to the second voice recognition unit 12. In the graph illustrated in FIG. 4A, the first voice recognition unit 10 outputs a processing start notification at the timing TM1. The processing start notification will be described later together with the processing of the second voice recognition unit 12.

第1音声認識部10は、距離値が第1閾値T1を下回った場合、その時点からの経過時間の計測を開始する。そして、第1音声認識部10は、距離値が第1閾値T1を下回ってからの経過時間として時間J1が経過したか否かを監視しつつ、距離値が第2閾値T2を下回ったか否かを監視する。 When the distance value falls below the first threshold value T1, the first voice recognition unit 10 starts measuring the elapsed time from that time point. Then, the first voice recognition unit 10 monitors whether or not the time J1 has elapsed as the elapsed time since the distance value has fallen below the first threshold value T1, and whether or not the distance value has fallen below the second threshold value T2. To monitor.

ここで、第2閾値T2および時間J1の値は、時間J1が経過することなく距離値が第2閾値T2を下回った場合、外部入力音声が、認識対象ワードの全体に相当するとみなすことができ、逆に、距離値が第2閾値T2を下回ることなく時間J1が経過した場合、外部入力音声が、認識対象ワードの全体に相当しないとみなすことができるような値に設定される。第2閾値T2および時間J1は、事前のテストの結果等を踏まえ、第1音声認識辞書20Aに登録された認識対象ワードごとに適切な値とされる。なお、距離値が第2閾値T2を下回ることなく、時間J1が経過した場合、時間J1の経過後、距離値は徐々に大きくなっていき、いずれ、第1閾値T1を上回ることになる。 Here, the values of the second threshold value T2 and the time J1 can be regarded as the external input voice corresponding to the entire recognition target word when the distance value falls below the second threshold value T2 without the lapse of the time J1. On the contrary, when the time J1 elapses without the distance value falling below the second threshold value T2, the value is set so that the external input voice does not correspond to the entire recognition target word. The second threshold value T2 and the time J1 are set to appropriate values for each recognition target word registered in the first speech recognition dictionary 20A based on the results of prior tests and the like. If the time J1 elapses without the distance value falling below the second threshold value T2, the distance value gradually increases after the time J1 elapses, and eventually exceeds the first threshold value T1.

以上のことを踏まえ、距離値が第2閾値T2を下回ることなく時間J1が経過した場合、第1音声認識部10は、距離値が第2閾値T2を下回ったか否かの判定を停止し、距離値が第1閾値T1を上回っている状態から下回った状態へ移行したか否かを監視する。上述したように、時間J1の経過後、距離値は、いずれ第1閾値T1を上回った状態となるため、第1音声認識部10は、距離値が、一旦、第1閾値T1を上回った後、第1閾値T1を上回った状態から下回った状態へ移行したか否かを監視する。なお、本実施形態では、距離値が第2閾値T2を下回ることなく時間J1が経過したことをもって、外部入力音声が、認識対象ワードの全体に相当しないと判定する構成であるが、この点について、距離値が、第1閾値T1を下回った後に、第2閾値T2を下回ることなく、第1閾値T1を上回ったことをもって、外部入力音声が、認識対象ワードの全体に相当しないと判定する構成としてもよい。 Based on the above, when the time J1 elapses without the distance value falling below the second threshold value T2, the first voice recognition unit 10 stops determining whether or not the distance value falls below the second threshold value T2. It is monitored whether or not the distance value has shifted from the state where the distance value is above the first threshold value T1 to the state where the distance value is below the first threshold value T1. As described above, after the elapse of the time J1, the distance value will eventually exceed the first threshold value T1. Therefore, the first voice recognition unit 10 once the distance value exceeds the first threshold value T1. , It is monitored whether or not the transition from the state above the first threshold value T1 to the state below the first threshold value T1 has occurred. In the present embodiment, it is determined that the externally input voice does not correspond to the entire recognition target word when the time J1 elapses without the distance value falling below the second threshold value T2. , The configuration in which the external input voice does not correspond to the entire recognition target word when the distance value exceeds the first threshold value T1 without falling below the second threshold value T2 after falling below the first threshold value T1. May be.

一方、時間J1が経過する前に距離値が第2閾値T2を下回った場合、第1音声認識部10は、外部入力音声が認識対象ワードの全体に相当すると認識する。図4(A)で例示するグラフでは、第1音声認識部10は、タイミングTM2において、外部入力音声が認識対象ワードの全体に相当すると認識する。なお、距離値が第2閾値T2を下回った場合、距離値は、一旦、第2閾値T2を下回った後、徐々に大きくなっていき、いずれ、第1閾値T1を上回ることになる。 On the other hand, when the distance value falls below the second threshold value T2 before the time J1 elapses, the first voice recognition unit 10 recognizes that the external input voice corresponds to the entire recognition target word. In the graph illustrated in FIG. 4A, the first voice recognition unit 10 recognizes that the external input voice corresponds to the entire recognition target word in the timing TM2. When the distance value is below the second threshold value T2, the distance value once falls below the second threshold value T2, then gradually increases, and eventually exceeds the first threshold value T1.

上記認識後、第1音声認識部10は、いずれか1つの認識対象ワードについて、外部入力音声が認識対象ワードの全体に相当したと認識したことを通知する第1音声認識通知を認識結果破棄部13に出力する。認識結果破棄部13の処理については後述する。 After the above recognition, the first voice recognition unit 10 recognizes the first voice recognition notification for notifying that the externally input voice corresponds to the entire recognition target word for any one recognition target word. Output to 13. The processing of the recognition result discarding unit 13 will be described later.

次いで、第1音声認識部10は、認識結果破棄部13から、認識破棄通知または認識確定通知のいずれかを入力したか否かを監視する。認識破棄通知とは、外部入力音声が認識対象ワードの全体に相当したという認識(以下、単に「第1音声認識部10の認識結果」という場合がある)について、認識を破棄することを指示する通知である。認識破棄通知は、後に詳述するが、オーディオ装置400が放音した音声に、偶発的に、認識対象ワードに対応する文言が含まれており、当該音声に基づく外部入力信号を音声処理した結果、第1音声認識部10が外部入力音声が認識対象ワードの全体に相当したと認識した場合に通知される。この場合、搭乗者が、認識対象ワードに対応する文言を発話したわけではないので、第1音声認識部10の認識結果を破棄し、当該認識結果に基づいてナビゲーション装置300の制御が行われないようにする必要がある。また、認識確定通知は、後に詳述するが、第1音声認識部10の認識結果が、オーディオ装置400が放音した音声に対する音声処理の結果に由来するものではなく、搭乗者が発話した音声に対する音声処理の結果に由来する場合に通知される。この場合、ナビゲーション装置300に、認識対象ワードに対応する処理を実行させる必要がある。 Next, the first voice recognition unit 10 monitors whether or not either the recognition destruction notification or the recognition confirmation notification is input from the recognition result destruction unit 13. The recognition discard notification indicates to discard the recognition regarding the recognition that the external input voice corresponds to the entire recognition target word (hereinafter, may be simply referred to as "recognition result of the first voice recognition unit 10"). It is a notification. The recognition discard notification will be described in detail later, but the voice emitted by the audio device 400 accidentally contains a word corresponding to the recognition target word, and the result of voice processing of an external input signal based on the voice. , The first voice recognition unit 10 is notified when it recognizes that the externally input voice corresponds to the entire recognition target word. In this case, since the passenger did not utter the word corresponding to the recognition target word, the recognition result of the first voice recognition unit 10 is discarded, and the navigation device 300 is not controlled based on the recognition result. Must be done. Further, the recognition confirmation notification will be described in detail later, but the recognition result of the first voice recognition unit 10 is not derived from the result of voice processing for the voice emitted by the audio device 400, but the voice spoken by the passenger. Is notified when it comes from the result of voice processing for. In this case, it is necessary for the navigation device 300 to execute the process corresponding to the recognition target word.

認識破棄通知を入力した場合、第1音声認識部10は、外部入力音声が認識対象ワードの全体に相当したという認識について、認識を破棄する。この場合、マイク200が収音した音声に基づくナビゲーション装置300の制御は行われない。その後、第1音声認識部10は、距離値が第1閾値T1を上回っている状態から下回った状態へ移行したか否かを監視する。上述したように、距離値は、第2閾値T2を下回った後、いずれ第1閾値T1を上回った状態となるため、第1音声認識部10は、距離値が、一旦、第1閾値T1を上回った後、第1閾値T1を上回った状態から下回った状態へ移行したか否かを監視する。 When the recognition discard notification is input, the first voice recognition unit 10 discards the recognition that the externally input voice corresponds to the entire recognition target word. In this case, the navigation device 300 is not controlled based on the voice picked up by the microphone 200. After that, the first voice recognition unit 10 monitors whether or not the distance value has shifted from the state where the distance value exceeds the first threshold value T1 to the state where the distance value has fallen below the first threshold value T1. As described above, since the distance value falls below the second threshold value T2 and then eventually exceeds the first threshold value T1, the first voice recognition unit 10 temporarily sets the distance value to the first threshold value T1. After the threshold is exceeded, it is monitored whether or not the transition from the state where the threshold value T1 is exceeded to the state where the threshold value T1 is lower is changed.

一方、認識確定通知を入力した場合、第1音声認識部10は、外部入力音声が認識対象ワードの全体に相当したという認識について、認識を確定する。次いで、第1音声認識部10は、外部入力音声が相当したと認識した認識対象ワード(以下、「確定認識対象ワード」という。)を電子機器制御部11に通知する。確定認識対象ワードは、搭乗者が、ナビゲーション装置300に特定の処理を実行させるべく発話した発話コマンドに対応する認識対象ワードである。その後、第1音声認識部10は、距離値が第1閾値T1を上回っている状態から下回った状態へ移行したか否かを監視する。 On the other hand, when the recognition confirmation notification is input, the first voice recognition unit 10 confirms the recognition that the externally input voice corresponds to the entire recognition target word. Next, the first voice recognition unit 10 notifies the electronic device control unit 11 of the recognition target word (hereinafter, referred to as “fixed recognition target word”) recognized as corresponding to the external input voice. The definite recognition target word is a recognition target word corresponding to an utterance command uttered by the passenger to cause the navigation device 300 to execute a specific process. After that, the first voice recognition unit 10 monitors whether or not the distance value has shifted from the state where the distance value exceeds the first threshold value T1 to the state where the distance value has fallen below the first threshold value T1.

電子機器制御部11は、第1音声認識部10から確定認識対象ワードが通知された場合、通知された確定認識対象ワードに対応する処理をナビゲーション装置300に実行させる制御信号をナビゲーション装置300に出力する。ナビゲーション装置300は、入力した制御信号に基づいて、処理を実行する。 When the first voice recognition unit 10 notifies the definite recognition target word, the electronic device control unit 11 outputs a control signal to the navigation device 300 to cause the navigation device 300 to execute the process corresponding to the notified definite recognition target word. To do. The navigation device 300 executes the process based on the input control signal.

第2音声認識部12は、第2音声認識辞書20Bに登録されている認識対象ワードの後半部分の音声パターンと、上述した内部発生音声との類似度を算出し、当該算出した類似度が所定レベルより大きい場合に、内部発生音声が認識対象ワードの後半部分に相当すると認識する。より詳細には、第2音声認識部12は、第1音声認識部10と同様、類似度を表す指標として距離値を算出すると共に、当該算出した距離値が第3閾値T3より小さくなったことを検出することによって、類似度が所定レベルより大きくなったことを検出する。そして、第2音声認識部12は、当該算出した距離値が第3閾値T3より小さくなった場合、内部発生音声が認識対象ワードの後半部分に相当すると認識する。 The second voice recognition unit 12 calculates the similarity between the voice pattern of the latter half of the recognition target word registered in the second voice recognition dictionary 20B and the internally generated voice described above, and the calculated similarity is predetermined. When it is larger than the level, it recognizes that the internally generated voice corresponds to the latter half of the recognition target word. More specifically, the second voice recognition unit 12 calculates the distance value as an index indicating the degree of similarity as in the first voice recognition unit 10, and the calculated distance value is smaller than the third threshold value T3. By detecting, it is detected that the similarity becomes larger than a predetermined level. Then, when the calculated distance value becomes smaller than the third threshold value T3, the second voice recognition unit 12 recognizes that the internally generated voice corresponds to the latter half of the recognition target word.

さらに、第2音声認識部12は、第1音声認識部10により算出された距離値が第1閾値T1よりも小さくなった時点(=第1音声認識部10により算出された類似度が第1のレベルよりも大きくなった時点)で、認識処理を開始する。認識処理は、第2音声認識辞書20Bを用いた距離値の算出および算出した距離値を用いた各種処理のことを意味する。また、第2音声認識部12は、認識処理を開始してから時間J2(後述)が経過する前に内部発生音声が認識対象ワードの後半部分に相当すると認識した場合、または、内部発生音声が認識対象ワードの後半部分に相当すると認識することなく時間J2が経過した場合、認識処理を停止する。 Further, in the second voice recognition unit 12, when the distance value calculated by the first voice recognition unit 10 becomes smaller than the first threshold value T1 (= the similarity calculated by the first voice recognition unit 10 is first. The recognition process is started when the level becomes higher than the level of. The recognition process means the calculation of the distance value using the second speech recognition dictionary 20B and various processes using the calculated distance value. Further, when the second voice recognition unit 12 recognizes that the internally generated voice corresponds to the latter half of the recognition target word before the time J2 (described later) elapses after starting the recognition process, or the internally generated voice is heard. When the time J2 elapses without recognizing that it corresponds to the latter half of the recognition target word, the recognition process is stopped.

以下、第2音声認識部12の処理について詳述する。図4(B)は、ある1の認識対象ワードについて、第2音声認識部12により算出された距離値の推移の一例を示すグラフである。特に、図4(B)のグラフは、第2音声認識部12が実行する認識処理において、時間J2以内に、距離値が第3閾値T3を下回る場合の距離値の推移を示す。図4(B)のグラフの縦軸は距離値を示し、横軸は時間の経過を示す。図4(B)のグラフの横軸の各タイミングは、図4(A)のグラフの横軸の各タイミングと対応する。 Hereinafter, the processing of the second voice recognition unit 12 will be described in detail. FIG. 4B is a graph showing an example of the transition of the distance value calculated by the second voice recognition unit 12 for a certain recognition target word. In particular, the graph of FIG. 4B shows the transition of the distance value when the distance value is less than the third threshold value T3 within the time J2 in the recognition process executed by the second voice recognition unit 12. The vertical axis of the graph of FIG. 4B shows the distance value, and the horizontal axis shows the passage of time. Each timing on the horizontal axis of the graph of FIG. 4 (B) corresponds to each timing of the horizontal axis of the graph of FIG. 4 (A).

以下の説明では、第2音声認識辞書20Bに音声パターンが登録された認識対象ワードの後半部分のことを「後半部分ワード」という。図3(B)を用いて説明したように、本実施形態では、後半部分ワードは、6個、用意されている。 In the following description, the latter half of the recognition target word in which the voice pattern is registered in the second speech recognition dictionary 20B is referred to as a "second half word". As described with reference to FIG. 3B, six latter-half partial words are prepared in the present embodiment.

上述したように、オーディオ装置400が音声出力装置700に出力する音声信号は、分岐されて、第2音声認識部12に出力される。また、上述したように、第1音声認識部10は、1の認識対象ワードについての距離値が第1閾値T1を下回ったことを検出した場合、その時点(図4では、タイミングTM1)で、処理開始通知を第2音声認識部12に出力する。第2音声認識部12は、この処理開始通知を入力するまでは、認識処理(上述したように、第2音声認識辞書20Bを用いた距離値の算出および付随する処理)を実行せず、処理開始通知を入力したか否かを監視する。そして、第2音声認識部12は、処理開始通知を入力すると、認識処理を開始する。この結果、第2音声認識部12は、第1音声認識部10により算出された距離値が第1閾値T1よりも小さくなった時点で、認識処理を開始する。図4(B)で例示するグラフでは、第2音声認識部12は、タイミングTM1(図4(A)も併せて参照)で、認識処理を開始する。 As described above, the voice signal output by the audio device 400 to the voice output device 700 is branched and output to the second voice recognition unit 12. Further, as described above, when the first voice recognition unit 10 detects that the distance value for the recognition target word of 1 is less than the first threshold value T1, at that time point (timing TM1 in FIG. 4), The processing start notification is output to the second voice recognition unit 12. The second voice recognition unit 12 does not execute the recognition process (calculation of the distance value using the second voice recognition dictionary 20B and the accompanying process as described above) until the process start notification is input. Monitor whether you have entered a start notification. Then, the second voice recognition unit 12 starts the recognition process when the process start notification is input. As a result, the second voice recognition unit 12 starts the recognition process when the distance value calculated by the first voice recognition unit 10 becomes smaller than the first threshold value T1. In the graph illustrated in FIG. 4B, the second voice recognition unit 12 starts the recognition process at the timing TM1 (see also FIG. 4A).

認識処理において、第2音声認識部12は、6個の後半部分ワードのそれぞれについて、内部発生音声の順次入力と並行して、内部発生音声信号の音声波形と、第2音声認識辞書20Bに登録された音声パターン(認識対象ワードの「後半部分」の音声パターン)との比較に基づく距離値の算出を逐次行う。この結果、図4(B)に示すように、時間の経過と共に距離値の値が逐次変化する。 In the recognition process, the second voice recognition unit 12 registers the voice waveform of the internally generated voice signal and the second voice recognition dictionary 20B for each of the six latter half words in parallel with the sequential input of the internally generated voice. The distance value is calculated sequentially based on the comparison with the voice pattern (the voice pattern of the "second half" of the recognition target word). As a result, as shown in FIG. 4B, the value of the distance value changes sequentially with the passage of time.

第2音声認識部12は、認識処理の開始と併せて経過時間の計測を開始する。そして、第2音声認識部12は、認識処理を開始してから時間J2が経過したか否かを監視しつつ、距離値が第3閾値T3を下回ったか否かを監視する。 The second voice recognition unit 12 starts measuring the elapsed time at the same time as the start of the recognition process. Then, the second voice recognition unit 12 monitors whether or not the distance value is below the third threshold value T3 while monitoring whether or not the time J2 has elapsed since the recognition process was started.

ここで、第3閾値T3および時間J2の値は、時間J2が経過することなく距離値が第3閾値T3を下回った場合、内部発生音声が、後半部分ワード(認識対象ワードの後半部分)に相当するとみなすことができ、逆に、距離値が第3閾値T3を下回ることなく時間J2が経過した場合、内部発生音声が、後半部分ワードに相当しないとみなすことができるような値に設定される。第3閾値T3および時間J2は、事前のテストの結果等を踏まえ、第2音声認識辞書20Bに登録された後半部分ワードごとに適切な値とされる。 Here, as for the values of the third threshold value T3 and the time J2, when the distance value falls below the third threshold value T3 without the lapse of the time J2, the internally generated voice becomes the second half word (the second half of the recognition target word). On the contrary, when the time J2 elapses without the distance value falling below the third threshold value T3, the internally generated voice is set to a value that can be regarded as not corresponding to the latter half word. To. The third threshold value T3 and the time J2 are set to appropriate values for each of the latter half words registered in the second speech recognition dictionary 20B based on the results of the preliminary test and the like.

距離値が第3閾値T3を下回ることなく時間J2が経過した場合、第2音声認識部12は、認識不能通知を認識結果破棄部13に出力する。認識不能通知は、認識処理において内部発生音声を後半部分ワードと認識しなかったことの通知である。認識結果破棄部13の処理については後述する。その後、第2音声認識部12は、認識処理を停止する。認識処理を停止後、第2音声認識部12は、上述した処理開始通知を入力するまでは、認識処理を開始しない。 When the time J2 elapses without the distance value falling below the third threshold value T3, the second voice recognition unit 12 outputs the unrecognizable notification to the recognition result discard unit 13. The unrecognizable notification is a notification that the internally generated voice is not recognized as the latter half word in the recognition process. The processing of the recognition result discarding unit 13 will be described later. After that, the second voice recognition unit 12 stops the recognition process. After stopping the recognition process, the second voice recognition unit 12 does not start the recognition process until the above-mentioned processing start notification is input.

一方、時間J2が経過する前に距離値が第3閾値T3を下回った場合、第2音声認識部12は、内部発生音声が後半部分ワードに相当すると認識する。当該認識後、第2音声認識部12は、第2音声認識通知を認識結果破棄部13に出力する。第2音声認識通知は、内部発生音声が、第2音声認識辞書20Bに登録された後半部分ワードのうち、いずれか1つの後半部分ワードに相当したと認識したことの通知である。認識結果破棄部13の処理については後述する。その後、第2音声認識部12は、認識処理を停止する。認識処理を停止後、第2音声認識部12は、上述した処理開始通知を入力するまでは、認識処理を開始しない。図4(B)のグラフでは、第2音声認識部12は、タイミングTM3において、第2音声認識通知の出力、および、認識処理の停止を実行する。 On the other hand, if the distance value falls below the third threshold value T3 before the time J2 elapses, the second voice recognition unit 12 recognizes that the internally generated voice corresponds to the latter half word. After the recognition, the second voice recognition unit 12 outputs the second voice recognition notification to the recognition result discarding unit 13. The second voice recognition notification is a notification that the internally generated voice has been recognized as corresponding to any one of the latter half words among the latter half words registered in the second voice recognition dictionary 20B. The processing of the recognition result discarding unit 13 will be described later. After that, the second voice recognition unit 12 stops the recognition process. After stopping the recognition process, the second voice recognition unit 12 does not start the recognition process until the above-mentioned processing start notification is input. In the graph of FIG. 4B, the second voice recognition unit 12 executes the output of the second voice recognition notification and the stop of the recognition process at the timing TM3.

なお、第1音声認識部10が第1音声認識通知を出力するタイミングと、第2音声認識部12が第2音声認識通知または認識不能通知を出力するタイミングとは、時間的に非常に近接する。また、第1音声認識部10により第1音声認識通知が認識結果破棄部13に出力された場合、必ず、第2音声認識部12により第2音声認識通知または認識不能通知が認識結果破棄部13に出力される。 The timing at which the first voice recognition unit 10 outputs the first voice recognition notification and the timing at which the second voice recognition unit 12 outputs the second voice recognition notification or the unrecognizable notification are very close in time. .. Further, when the first voice recognition notification is output to the recognition result discarding unit 13 by the first voice recognition unit 10, the second voice recognition notification or the unrecognizable notification is always sent by the second voice recognition unit 12 to the recognition result discarding unit 13. Is output to.

認識結果破棄部13は、第1音声認識部10により外部入力音声が認識対象ワードの全体に相当すると認識され、かつ、第2音声認識部12により内部発生音声が後半部分ワード(認識対象ワードの後半部分)に相当すると認識された場合、第1音声認識部10による認識結果を破棄する。 In the recognition result discarding unit 13, the first voice recognition unit 10 recognizes that the externally input voice corresponds to the entire recognition target word, and the second voice recognition unit 12 recognizes that the internally generated voice is the latter half word (recognition target word). When it is recognized that it corresponds to the latter half), the recognition result by the first voice recognition unit 10 is discarded.

以下、認識結果破棄部13の処理について詳述する。上述したように、第1音声認識部10は、外部入力音声が認識対象ワードの全体に相当すると認識した場合、第1音声認識通知を認識結果破棄部13に出力する。認識結果破棄部13は、第1音声認識部10から、この第1音声認識通知を入力したか否かを監視する。そして、認識結果破棄部13は、第1音声認識通知を入力した場合、当該第1音声認識通知と時間的に近接したタイミングで第2音声認識通知または認識不能通知のいずれかを入力する。 Hereinafter, the processing of the recognition result discarding unit 13 will be described in detail. As described above, when the first voice recognition unit 10 recognizes that the external input voice corresponds to the entire recognition target word, the first voice recognition unit 10 outputs the first voice recognition notification to the recognition result discard unit 13. The recognition result discarding unit 13 monitors whether or not the first voice recognition notification is input from the first voice recognition unit 10. Then, when the first voice recognition notification is input, the recognition result discarding unit 13 inputs either the second voice recognition notification or the unrecognizable notification at a timing close in time to the first voice recognition notification.

認識結果破棄部13は、第2音声認識部12から入力した通知が第2音声認識通知の場合、認識破棄通知を第1音声認識部10に出力する。上述したように、第1音声認識部10は、認識破棄通知を入力した場合、外部入力音声が認識対象ワードの全体に相当したという認識について、認識を破棄する。つまり、認識結果破棄部13は、第2音声認識通知を入力した場合は、第1音声認識部10に認識結果を破棄させる。 When the notification input from the second voice recognition unit 12 is the second voice recognition notification, the recognition result discard unit 13 outputs the recognition discard notification to the first voice recognition unit 10. As described above, when the recognition discard notification is input, the first voice recognition unit 10 discards the recognition regarding the recognition that the externally input voice corresponds to the entire recognition target word. That is, when the second voice recognition notification is input, the recognition result discard unit 13 causes the first voice recognition unit 10 to discard the recognition result.

一方、認識結果破棄部13は、第2音声認識部12から入力した通知が認識不能通知の場合、認識確定通知を第1音声認識部10に出力する。上述したように、第1音声認識部10は、認識確定通知を入力した場合、確定認識対象ワードを電子機器制御部11に通知して、確定認識対象ワードに対応する処理をナビゲーション装置300に実行させる。つまり、認識結果破棄部13は、認識不能通知を入力した場合は、第1音声認識部10の認識結果を確定させて、ナビゲーション装置300に対応する処理を実行させる。 On the other hand, when the notification input from the second voice recognition unit 12 is an unrecognizable notification, the recognition result discard unit 13 outputs the recognition confirmation notification to the first voice recognition unit 10. As described above, when the recognition confirmation notification is input, the first voice recognition unit 10 notifies the electronic device control unit 11 of the confirmation recognition target word, and executes the process corresponding to the confirmation recognition target word to the navigation device 300. Let me. That is, when the recognition result discard unit 13 inputs the unrecognizable notification, the recognition result of the first voice recognition unit 10 is determined, and the processing corresponding to the navigation device 300 is executed.

ここで、オーディオ装置400が放音する音声には、偶然、認識対象ワードに対応する文言が含まれる場合がある。このような場合、第1音声認識部10は、マイク200が収音する外部入力音声(認識対象ワードに対応する文言が含まれる音声)が、認識対象ワードの全体に相当すると認識してしまうが、このような認識は破棄し、ナビゲーション装置300の制御が行われないようにする必要がある。外部入力音声は、搭乗者が発した音声ではないからである。そして、上述のとおり、本実施形態では、第1音声認識部10が、外部入力音声が認識対象ワードの全体に相当すると認識した場合であっても、第2音声認識部12が、内部発生音声が後半部分ワードに相当すると認識した場合、第1音声認識部10の認識が破棄され、ナビゲーション装置300の制御が行われない。これにより、オーディオ装置400が放音する音声に、偶然、認識対象ワードに対応する文言が含まれていた場合であっても、ナビゲーション装置300の制御が行われないようにすることができる。以下、詳述する。 Here, the sound emitted by the audio device 400 may accidentally include a wording corresponding to the recognition target word. In such a case, the first voice recognition unit 10 recognizes that the external input voice (voice including the wording corresponding to the recognition target word) collected by the microphone 200 corresponds to the entire recognition target word. It is necessary to discard such recognition so that the navigation device 300 is not controlled. This is because the external input voice is not the voice emitted by the passenger. Then, as described above, in the present embodiment, even when the first voice recognition unit 10 recognizes that the external input voice corresponds to the entire recognition target word, the second voice recognition unit 12 causes the internally generated voice. When is recognized as corresponding to the latter half word, the recognition of the first voice recognition unit 10 is discarded and the navigation device 300 is not controlled. As a result, even if the voice emitted by the audio device 400 accidentally contains a word corresponding to the recognition target word, the navigation device 300 can be prevented from being controlled. The details will be described below.

上述したように、第2音声認識部12により認識処理が行われる期間は、第1音声認識部10によって外部入力音声が認識対象ワードの前半部分に相当すると認識されたタイミングに続く所定の期間である。このように、第1音声認識部10によって外部入力音声が認識対象ワードの前半部分に相当すると認識されたタイミングに続く所定の期間で、第1音声認識部10および第2音声認識部12が、共に、音声が認識対象ワードの後半部分に相当すると認識した場合、以下の状況であるということができる。すなわち、オーディオ装置400が放音した音声に認識対象ワードに対応する文言が含まれている状況であり、かつ、第1音声認識部10が、オーディオ装置400が放音した音声について、認識対象ワードの後半部分に相当すると認識した可能性が高い状況である。 As described above, the period during which the recognition process is performed by the second voice recognition unit 12 is a predetermined period following the timing when the first voice recognition unit 10 recognizes that the external input voice corresponds to the first half of the recognition target word. is there. In this way, the first voice recognition unit 10 and the second voice recognition unit 12 receive the first voice recognition unit 10 and the second voice recognition unit 12 during a predetermined period following the timing when the first voice recognition unit 10 recognizes that the external input voice corresponds to the first half of the recognition target word. In both cases, when it is recognized that the voice corresponds to the latter half of the recognition target word, it can be said that the situation is as follows. That is, the voice emitted by the audio device 400 includes the wording corresponding to the recognition target word, and the first voice recognition unit 10 recognizes the voice emitted by the audio device 400. It is highly likely that it corresponds to the latter half of.

すなわち、第1音声認識部10が、外部入力音声が認識対象ワードの全体に相当すると認識した場合であっても、第2音声認識部12が、内部発生音声が後半部分ワードに相当すると認識した場合には、第1音声認識部10の認識は、搭乗者が発生した音声に由来するものではなく、オーディオ装置400が放音した音声に由来するものである可能性が高い。これを踏まえ、第1音声認識部10が、外部入力音声が認識対象ワードの全体に相当すると認識した場合であっても、第2音声認識部12が、内部発生音声が後半部分ワードに相当すると認識した場合には、第1音声認識部10の認識を破棄することにより、オーディオ装置400が放音した音声に認識対象ワードに対応する文言が含まれていた場合であっても、その音声に基づいて、ナビゲーション装置300が制御されて処理を実行してしまうことを防止できる。 That is, even when the first voice recognition unit 10 recognizes that the external input voice corresponds to the entire recognition target word, the second voice recognition unit 12 recognizes that the internally generated voice corresponds to the latter half word. In this case, it is highly possible that the recognition of the first voice recognition unit 10 is not derived from the voice generated by the passenger, but from the voice emitted by the audio device 400. Based on this, even when the first voice recognition unit 10 recognizes that the externally input voice corresponds to the entire recognition target word, the second voice recognition unit 12 considers that the internally generated voice corresponds to the latter half word. When it is recognized, by discarding the recognition of the first voice recognition unit 10, even if the voice emitted by the audio device 400 contains a word corresponding to the word to be recognized, the voice becomes the voice. Based on this, it is possible to prevent the navigation device 300 from being controlled to execute the process.

さらに、本実施形態では、第1音声認識部10で外部入力音声が認識対象ワードの前半部分に相当すると認識された場合にのみ、第2音声認識部12は、認識処理を実行する。これにより、第1音声認識部10が外部入力音声が認識対象ワードの前半部分に相当すると認識し、その後、第1音声認識部10が、外部入力音声が認識対象ワードの「全体」に相当すると認識する可能性が生じた状況でのみ、第2音声認識部12により認識処理を行って、必要な場合に的確に、第1音声認識部10の認識結果を破棄することができる。 Further, in the present embodiment, the second voice recognition unit 12 executes the recognition process only when the first voice recognition unit 10 recognizes that the external input voice corresponds to the first half of the recognition target word. As a result, the first voice recognition unit 10 recognizes that the external input voice corresponds to the first half of the recognition target word, and then the first voice recognition unit 10 determines that the external input voice corresponds to the "whole" of the recognition target word. Only in the situation where there is a possibility of recognition, the second voice recognition unit 12 can perform the recognition process, and the recognition result of the first voice recognition unit 10 can be accurately discarded when necessary.

このように、第2音声認識部12が認識処理を実行するのは、第1音声認識部10が外部入力音声が認識対象ワードの前半部分に相当すると認識した場合のみであり、かつ、第2音声認識部12が認識処理を実行する期間は、最長で、時間J2である。このような構成のため、第2音声認識部12が、常時、認識処理を実行している場合に比べて、認識処理を実行する期間が限定され、処理負荷を小さくすることができる。処理負荷が小さいため、第1音声認識部10および第2音声認識部12による音声認識処理以外の他処理が実行された場合に、その他処理のレスポンス性能の低下が抑制される。そのため、第2音声認識部12の認識処理に係る処理負荷の増大に伴う他処理への悪影響(例えば、他処理に対するCPUの割り当ての著しい減少)を考慮して、第1音声認識部10によるトリガレス音声認識において定常的に待ち受ける認識対象ワード(第1音声認識辞書20Aに登録する認識対象ワード)の数を少なく制限する必要がない。 In this way, the second voice recognition unit 12 executes the recognition process only when the first voice recognition unit 10 recognizes that the external input voice corresponds to the first half of the recognition target word, and the second voice recognition unit 12 executes the recognition process. The maximum period during which the voice recognition unit 12 executes the recognition process is time J2. With such a configuration, the period for executing the recognition process is limited and the processing load can be reduced as compared with the case where the second voice recognition unit 12 constantly executes the recognition process. Since the processing load is small, when other processing other than the voice recognition processing by the first voice recognition unit 10 and the second voice recognition unit 12 is executed, the deterioration of the response performance of the other processing is suppressed. Therefore, in consideration of adverse effects on other processing (for example, a significant decrease in CPU allocation to other processing) due to an increase in the processing load related to the recognition processing of the second voice recognition unit 12, triggerless by the first voice recognition unit 10. It is not necessary to limit the number of recognition target words (recognition target words registered in the first speech recognition dictionary 20A) that are constantly waiting in speech recognition.

さらに、本実施形態では、複数の認識対象ワードの後半部分の文言が共通する場合があり、このような場合、第2音声認識辞書20Bには、共通する文言の後半部分ワードが1つ登録される。これにより、第2音声認識辞書20Bに登録される後半部分ワードの数を少なくすることができ、より効果的に第2音声認識部12の処理負荷を低減できる。 Further, in the present embodiment, the wording of the latter half of the plurality of recognition target words may be common, and in such a case, one second half word of the common wording is registered in the second speech recognition dictionary 20B. To. As a result, the number of the latter half words registered in the second voice recognition dictionary 20B can be reduced, and the processing load of the second voice recognition unit 12 can be reduced more effectively.

図5は、本実施形態に係る第1音声認識部10の動作例を示すフローチャートである。図6は、本実施形態に係る第2音声認識部12の動作例を示すフローチャートである。図7は、本実施形態に係る認識結果破棄部13の動作例を示すフローチャートである。図5、6、7の各フローチャートの処理は、音声認識装置100の電源が投入され、トリガレス音声認識の開始が指示された後に適宜実行される。 FIG. 5 is a flowchart showing an operation example of the first voice recognition unit 10 according to the present embodiment. FIG. 6 is a flowchart showing an operation example of the second voice recognition unit 12 according to the present embodiment. FIG. 7 is a flowchart showing an operation example of the recognition result discarding unit 13 according to the present embodiment. The processing of each flowchart of FIGS. 5, 6 and 7 is appropriately executed after the power of the voice recognition device 100 is turned on and the start of triggerless voice recognition is instructed.

以下の説明では、図5のフローチャートの開始時点では、第1音声認識部10が算出する距離値が、第1閾値T1を上回っている状態であるものとする。また、特に説明はしないが、図5のフローチャートの処理が行われる間、第1音声認識部10は、継続して距離値を算出している。 In the following description, it is assumed that the distance value calculated by the first voice recognition unit 10 exceeds the first threshold value T1 at the start of the flowchart of FIG. Further, although not particularly described, the first voice recognition unit 10 continuously calculates the distance value while the processing of the flowchart of FIG. 5 is performed.

図5のフローチャートに示すように、第1音声認識部10は、現時点で算出した距離値が、距離値が第1閾値T1を上回った状態から、下回った状態へ移行したか否かを判定する(ステップSA1)。このステップSA1では、第1音声認識部10は、距離値が第1閾値T1を下回っているか否かを判定するのではなく、「第1閾値T1を上回った状態」から、「第1閾値T1を下回った状態」へと状態の変化があったか否かを判定する。第1音声認識部10は、ステップSA1の処理を、距離値が第1閾値T1を上回った状態から、下回った状態へ移行したことを検出するまで、継続して繰り返し実行する。 As shown in the flowchart of FIG. 5, the first voice recognition unit 10 determines whether or not the distance value calculated at the present time has shifted from the state where the distance value exceeds the first threshold value T1 to the state where the distance value falls below the first threshold value T1. (Step SA1). In this step SA1, the first voice recognition unit 10 does not determine whether or not the distance value is below the first threshold value T1, but from the “state where the distance value is above the first threshold value T1”, the “first threshold value T1”. It is determined whether or not there has been a change in the state to "a state below." The first voice recognition unit 10 continuously and repeatedly executes the process of step SA1 until it detects that the distance value has shifted from the state where the distance value exceeds the first threshold value T1 to the state where the distance value has fallen below the first threshold value T1.

距離値が、距離値が第1閾値T1を上回った状態から、下回った状態へ移行しことを検出した場合、第1音声認識部10は、外部入力音声が認識対象ワードの前半部分に相当すると認識する(ステップSA2)。次いで、第1音声認識部10は、処理開始通知を第2音声認識部12に出力する(ステップSA3)。次いで、第1音声認識部10は、経過時間の計測を開始する(ステップSA4)。 When it is detected that the distance value shifts from the state where the distance value exceeds the first threshold value T1 to the state where the distance value falls below the first threshold value T1, the first voice recognition unit 10 determines that the external input voice corresponds to the first half of the recognition target word. Recognize (step SA2). Next, the first voice recognition unit 10 outputs a processing start notification to the second voice recognition unit 12 (step SA3). Next, the first voice recognition unit 10 starts measuring the elapsed time (step SA4).

次いで、第1音声認識部10は、時間J1が経過したか否かを判定しつつ(ステップSA5)、距離値が第2閾値T2を下回ったか否かを判定する(ステップSA6)。 Next, the first voice recognition unit 10 determines whether or not the time J1 has elapsed (step SA5), and determines whether or not the distance value has fallen below the second threshold value T2 (step SA6).

距離値が第2閾値T2を下回ることなく時間J1が経過した場合(ステップSA5:YES)、第1音声認識部10は、処理手順をステップSA1へ移行する。一方、時間J1が経過する前に距離値が第2閾値T2を下回った場合(ステップSA6:YES)、第1音声認識部10は、外部入力音声が認識対象ワードの全体に相当すると認識する(ステップSA7)。次いで、第1音声認識部10は、第1音声認識通知を認識結果破棄部13に出力する(ステップSA8)。 When the time J1 elapses without the distance value falling below the second threshold value T2 (step SA5: YES), the first voice recognition unit 10 shifts the processing procedure to step SA1. On the other hand, when the distance value falls below the second threshold value T2 before the time J1 elapses (step SA6: YES), the first voice recognition unit 10 recognizes that the external input voice corresponds to the entire recognition target word (step SA6: YES). Step SA7). Next, the first voice recognition unit 10 outputs the first voice recognition notification to the recognition result discard unit 13 (step SA8).

第1音声認識通知の出力後、第1音声認識部10は、認識結果破棄部13から、認識破棄通知または認識確定通知のいずれかを入力したか否かを判定する(ステップSA9)。第1音声認識部10は、ステップSA9の処理を、いずれかの通知が入力されるまで、継続して繰り返し実行する。いずれかの通知を入力した場合(ステップSA9:YES)、第1音声認識部10は、入力した通知が、認識破棄通知であるか否かを判定する(ステップSA10)。 After outputting the first voice recognition notification, the first voice recognition unit 10 determines whether or not either the recognition destruction notification or the recognition confirmation notification has been input from the recognition result discard unit 13 (step SA9). The first voice recognition unit 10 continuously and repeatedly executes the process of step SA9 until any notification is input. When any of the notifications is input (step SA9: YES), the first voice recognition unit 10 determines whether or not the input notification is a recognition discard notification (step SA10).

入力した通知が認識破棄通知の場合(ステップSA10:YES)、第1音声認識部10は、認識結果を破棄する(ステップSA11)。その後、第1音声認識部10は、処理手順をステップSA14へ移行する。 When the input notification is a recognition discard notification (step SA10: YES), the first voice recognition unit 10 discards the recognition result (step SA11). After that, the first voice recognition unit 10 shifts the processing procedure to step SA14.

一方、入力した通知が認識破棄通知でない場合(ステップSA10:NO)、第1音声認識部10は、外部入力音声が認識対象ワードの全体に相当したという認識について、認識を確定する(ステップSA12)。次いで、第1音声認識部10は、確定認識対象ワードを電子機器制御部11に通知する(ステップSA13)。その後、第1音声認識部10は、処理手順をステップSA14へ移行する。 On the other hand, when the input notification is not the recognition discard notification (step SA10: NO), the first voice recognition unit 10 confirms the recognition that the externally input voice corresponds to the entire recognition target word (step SA12). .. Next, the first voice recognition unit 10 notifies the electronic device control unit 11 of the definite recognition target word (step SA13). After that, the first voice recognition unit 10 shifts the processing procedure to step SA14.

ステップSA14において、第1音声認識部10は、トリガレス音声認識の終了が指示されたか否かを判定する。トリガレス音声認識の終了が指示されていない場合(ステップSA14:NO)、第1音声認識部10は、処理手順をステップSA1に移行する。トリガレス音声認識の終了が指示された場合(ステップSA14:YES)、第1音声認識部10は、処理を終了する。なお、図5のフローチャートでは、説明の便宜のため、第1音声認識部10が、ステップSA14で、トリガレス音声認識の終了が指示されたか否かを判定する構成としているが、第1音声認識部10は、フローチャートの処理が実行されている間、継続してトリガレス音声認識の終了が指示されたか否かを監視し、指示された場合は、必要な終了処理を実行した上で、処理を終了する。 In step SA14, the first voice recognition unit 10 determines whether or not the end of triggerless voice recognition is instructed. When the end of the triggerless voice recognition is not instructed (step SA14: NO), the first voice recognition unit 10 shifts the processing procedure to step SA1. When the end of the triggerless voice recognition is instructed (step SA14: YES), the first voice recognition unit 10 ends the process. In the flowchart of FIG. 5, for convenience of explanation, the first voice recognition unit 10 is configured to determine whether or not the end of triggerless voice recognition is instructed in step SA14, but the first voice recognition unit 10 continuously monitors whether or not the end of triggerless speech recognition is instructed while the processing of the flowchart is being executed, and if instructed, executes the necessary end processing and then ends the processing. To do.

図6のフローチャートに示すように、第2音声認識部12は、処理開始通知を入力したか否かを判定する(ステップSB1)。処理開始通知を入力した場合(ステップSB1:YES)、第2音声認識部12は、認識処理を開始する(ステップSB2)。次いで、第2音声認識部12は、認識処理の開始に応じて経過時間の計測を開始する(ステップSB3)。次いで、第2音声認識部12は、認識処理を開始してから時間J2が経過したか否かを判定しつつ(ステップSB4)、距離値が第3閾値T3を下回ったか否かを判定する(ステップSB5)。 As shown in the flowchart of FIG. 6, the second voice recognition unit 12 determines whether or not the processing start notification has been input (step SB1). When the process start notification is input (step SB1: YES), the second voice recognition unit 12 starts the recognition process (step SB2). Next, the second voice recognition unit 12 starts measuring the elapsed time according to the start of the recognition process (step SB3). Next, the second voice recognition unit 12 determines whether or not the time J2 has elapsed since the start of the recognition process (step SB4), and determines whether or not the distance value is below the third threshold value T3 (step SB4). Step SB5).

距離値が第3閾値T3を下回ることなく時間J2が経過した場合(ステップSB4:YES)、第2音声認識部12は、認識不能通知を認識結果破棄部13に出力する(ステップSB6)。次いで、第2音声認識部12は、認識処理を停止する(ステップSB7)。その後、第2音声認識部12は、処理手順をステップSB11へ移行する。 When the time J2 elapses without the distance value falling below the third threshold value T3 (step SB4: YES), the second voice recognition unit 12 outputs the unrecognizable notification to the recognition result discard unit 13 (step SB6). Next, the second voice recognition unit 12 stops the recognition process (step SB7). After that, the second voice recognition unit 12 shifts the processing procedure to step SB11.

一方、時間J2が経過する前に距離値が第3閾値T3を下回った場合(ステップSB5:YES)、第2音声認識部12は、内部発生音声が後半部分ワードに相当すると認識する(ステップSB8)。次いで、第2音声認識部12は、第2音声認識通知を認識結果破棄部13に出力する(ステップSB9)。次いで、第2音声認識部12は、認識処理を停止する(ステップSB10)。その後、第2音声認識部12は、処理手順をステップSB11へ移行する。 On the other hand, when the distance value falls below the third threshold value T3 before the time J2 elapses (step SB5: YES), the second voice recognition unit 12 recognizes that the internally generated voice corresponds to the latter half word (step SB8). ). Next, the second voice recognition unit 12 outputs the second voice recognition notification to the recognition result discard unit 13 (step SB9). Next, the second voice recognition unit 12 stops the recognition process (step SB10). After that, the second voice recognition unit 12 shifts the processing procedure to step SB11.

ステップSB11において、第2音声認識部12は、トリガレス音声認識の終了が指示されたか否かを判定する。トリガレス音声認識の終了が指示されていない場合(ステップSB11:NO)、第2音声認識部12は、処理手順をステップSB1に移行する。トリガレス音声認識の終了が指示された場合(ステップSB11:YES)、第2音声認識部12は、処理を終了する。なお、図6のフローチャートは、説明の便宜のため、第2音声認識部12が、ステップSB11で、トリガレス音声認識の終了が指示されたか否かを判定する構成としているが、第2音声認識部12は、フローチャートの処理が実行されている間、継続してトリガレス音声認識の終了が指示されたか否かを監視し、指示された場合は、必要な終了処理を実行した上で、処理を終了する。 In step SB11, the second voice recognition unit 12 determines whether or not the end of triggerless voice recognition is instructed. When the end of the triggerless voice recognition is not instructed (step SB11: NO), the second voice recognition unit 12 shifts the processing procedure to step SB1. When the end of the triggerless voice recognition is instructed (step SB11: YES), the second voice recognition unit 12 ends the process. The flowchart of FIG. 6 is configured such that the second voice recognition unit 12 determines whether or not the end of triggerless voice recognition is instructed in step SB11 for convenience of explanation. However, the second voice recognition unit 12 continuously monitors whether or not the end of triggerless speech recognition is instructed while the processing of the flowchart is being executed, and if instructed, executes the necessary end processing and then ends the processing. To do.

図7のフローチャートに示すように、認識結果破棄部13は、第1音声認識部10から第1音声認識通知を入力したか否かを判定する(ステップSC1)。第1音声認識部10は、ステップSC1の処理を、第1音声認識通知を入力するまで、継続して繰り返し実行する。第1音声認識通知を入力した場合(ステップSC1:YES)、認識結果破棄部13は、ステップSC1で入力した第1音声認識通知と時間的に近接したタイミングで第2音声認識通知と認識不能通知とのいずれかを入力する(ステップSC2)。 As shown in the flowchart of FIG. 7, the recognition result discarding unit 13 determines whether or not the first voice recognition notification has been input from the first voice recognition unit 10 (step SC1). The first voice recognition unit 10 continuously and repeatedly executes the process of step SC1 until the first voice recognition notification is input. When the first voice recognition notification is input (step SC1: YES), the recognition result discarding unit 13 performs the second voice recognition notification and the unrecognizable notification at a timing close in time to the first voice recognition notification input in step SC1. One of the above is input (step SC2).

次いで、認識結果破棄部13は、ステップSC2で入力した通知が第2音声認識通知か否かを判定する(ステップSC3)。ステップSC2で入力した通知が第2音声認識通知の場合(ステップSC3:YES)、認識結果破棄部13は、認識破棄通知を第1音声認識部10に出力する(ステップSC4)。その後、認識結果破棄部13は、処理手順をステップSC6へ移行する。 Next, the recognition result discarding unit 13 determines whether or not the notification input in step SC2 is the second voice recognition notification (step SC3). When the notification input in step SC2 is the second voice recognition notification (step SC3: YES), the recognition result discard unit 13 outputs the recognition discard notification to the first voice recognition unit 10 (step SC4). After that, the recognition result discarding unit 13 shifts the processing procedure to step SC6.

ステップSC2で入力した通知が第2音声認識通知ではない場合(=認識不能通知の場合)(ステップSC3:NO)、認識結果破棄部13はイン式確定通知を第1音声認識部10に出力する(ステップSC5)。その後、認識結果破棄部13は、処理手順をステップSC6へ移行する。 When the notification input in step SC2 is not the second voice recognition notification (= unrecognizable notification) (step SC3: NO), the recognition result discard unit 13 outputs the in-type confirmation notification to the first voice recognition unit 10. (Step SC5). After that, the recognition result discarding unit 13 shifts the processing procedure to step SC6.

ステップSC6において、認識結果破棄部13は、トリガレス音声認識の終了が指示されたか否かを判定する。トリガレス音声認識の終了が指示されていない場合(ステップSC6:NO)、認識結果破棄部13は、処理手順をステップSC1に移行する。トリガレス音声認識の終了が指示された場合(ステップSC6:YES)、認識結果破棄部13は、処理を終了する。なお、図7のフローチャートは、説明の便宜のため、認識結果破棄部13が、ステップSC6で、トリガレス音声認識の終了が指示されたか否かを判定する構成としているが、認識結果破棄部13は、フローチャートの処理が実行されている間、継続してトリガレス音声認識の終了が指示されたか否かを監視し、指示された場合は、必要な終了処理を実行した上で、処理を終了する。 In step SC6, the recognition result discarding unit 13 determines whether or not the end of triggerless speech recognition is instructed. When the end of the triggerless voice recognition is not instructed (step SC6: NO), the recognition result discarding unit 13 shifts the processing procedure to step SC1. When the end of the triggerless voice recognition is instructed (step SC6: YES), the recognition result discard unit 13 ends the process. The flowchart of FIG. 7 has a configuration in which the recognition result discarding unit 13 determines whether or not the end of triggerless speech recognition is instructed in step SC6 for convenience of explanation. , While the flow chart process is being executed, it continuously monitors whether or not the end of triggerless speech recognition is instructed, and if instructed, executes the necessary end process and then ends the process.

以上詳しく説明したように、本実施形態に係る音声認識装置100は、認識対象ワードの全体が登録された第1音声認識辞書20Aと、認識対象ワードの後半部分のみが登録された第2音声認識辞書20Bとを有する。また、本実施形態に係る音声認識装置100は、第1音声認識辞書20Aを用いて、マイク200より入力された外部入力音声の音声認識を行う第1音声認識部10と、第2音声認識辞書20Bを用いて、車載機たるオーディオ装置400で発生されスピーカから出力される前の内部発生音声の音声認識を行う第2音声認識部12とを備える。第1音声認識部10は、外部入力音声の順次入力と並行して類似度の算出(距離値の算出)を逐次行い、算出した類似度が第1のレベルより大きくなった時点(算出した距離値が第1閾値T1を下回った時点)で、外部入力音声が認識対象ワードの前半部分に相当すると認識する。第1音声認識部10は、引き続き算出した類似度が第2のレベルより大きくなった時点(距離値が第2閾値T2を下回った時点)で、外部入力音声が認識対象ワードの全体に相当すると認識する。第2音声認識部12は、第1音声認識部10により算出された類似度が第1のレベルよりも大きくなった時点(第1音声認識部10により算出された距離値が第1閾値T1を下回った時点)で認識処理を開始し、算出した類似度が所定レベルより大きい場合に(算出した距離値が第3閾値T3を下回った場合に)、内部発生音声が認識対象ワードの後半部分に相当すると認識する。そして、第1音声認識部10において外部入力音声が認識対象ワードの全体に相当すると認識され、かつ、第2音声認識部12により内部発生音声が認識対象ワードの後半部分に相当すると認識された場合、第1音声認識部10による認識結果を破棄するようにしている。 As described in detail above, the voice recognition device 100 according to the present embodiment has a first voice recognition dictionary 20A in which the entire recognition target word is registered, and a second voice recognition in which only the latter half of the recognition target word is registered. It has a dictionary 20B. In addition, the voice recognition device 100 according to the present embodiment uses the first voice recognition dictionary 20A to perform voice recognition of externally input voice input from the microphone 200, and a second voice recognition dictionary. The 20B is provided with a second voice recognition unit 12 that performs voice recognition of the internally generated voice generated by the audio device 400, which is an in-vehicle device, before being output from the speaker. The first voice recognition unit 10 sequentially calculates the similarity (calculation of the distance value) in parallel with the sequential input of the external input voice, and when the calculated similarity becomes larger than the first level (calculated distance). When the value falls below the first threshold value T1), it is recognized that the externally input voice corresponds to the first half of the recognition target word. The first voice recognition unit 10 determines that the external input voice corresponds to the entire recognition target word when the calculated similarity becomes larger than the second level (when the distance value falls below the second threshold value T2). recognize. The second voice recognition unit 12 sets the first threshold value T1 when the similarity calculated by the first voice recognition unit 10 becomes larger than the first level (the distance value calculated by the first voice recognition unit 10 sets the first threshold value T1. When the recognition process is started (when it falls below) and the calculated similarity is greater than the predetermined level (when the calculated distance value falls below the third threshold T3), the internally generated voice is in the latter half of the recognition target word. Recognize that it is equivalent. Then, when the first voice recognition unit 10 recognizes that the external input voice corresponds to the entire recognition target word, and the second voice recognition unit 12 recognizes that the internally generated voice corresponds to the latter half of the recognition target word. , The recognition result by the first voice recognition unit 10 is discarded.

上記構成によれば、第1音声認識部10において外部入力音声が認識対象ワードの前半部分に相当すると認識された場合にのみ第2音声認識部12が起動されるので、第2音声認識部12が常時動作している場合に比べて処理負荷を小さくすることができる。処理負荷が小さいので、トリガレス音声認識において定常的に待ち受ける認識対象ワードの数を少なく制限する必要がない。そして、第1音声認識部10において外部入力音声が認識対象ワードの全体に相当すると認識され、かつ、第2音声認識部12により内部発生音声が認識対象ワードの後半部分に相当すると認識された場合には、第1音声認識部10による認識結果が、スピーカから出力された内部発生音声がマイク200から入力されたために生じた誤認識であるものとして破棄される。これにより、本発明によれば、トリガレス音声認識において定常的に待ち受ける認識対象ワードの数を少なく制限することなく、また音声認識処理以外の他処理のレスポンス性能の低下を極力抑えつつ、車載機で発生された音声による誤認識を抑制することができる。 According to the above configuration, since the second voice recognition unit 12 is activated only when the first voice recognition unit 10 recognizes that the external input voice corresponds to the first half of the recognition target word, the second voice recognition unit 12 The processing load can be reduced as compared with the case where is constantly operating. Since the processing load is small, it is not necessary to limit the number of words to be recognized that are constantly waiting in triggerless speech recognition. Then, when the first voice recognition unit 10 recognizes that the externally input voice corresponds to the entire recognition target word, and the second voice recognition unit 12 recognizes that the internally generated voice corresponds to the latter half of the recognition target word. The recognition result by the first voice recognition unit 10 is discarded as erroneous recognition caused by the internally generated voice output from the speaker being input from the microphone 200. As a result, according to the present invention, the number of words to be recognized that are constantly waiting in triggerless speech recognition is not limited to a small number, and the deterioration of the response performance of other processes other than the speech recognition process is suppressed as much as possible. It is possible to suppress erroneous recognition due to the generated voice.

なお、上述した実施形態では、認識結果破棄部13は、第1音声認識部10により外部入力音声が認識対象ワードの全体に相当すると認識され、かつ、第2音声認識部12により内部発生音声が認識対象ワードの後半部分に相当すると認識された場合、第1音声認識部10に対して認識破棄通知を出力し、第1音声認識部10よる認識結果を破棄した。この点に関し、以下の構成でもよい。すなわち、認識結果破棄部13は、第1音声認識部10により外部入力音声が認識対象ワードの全体に相当すると認識され、かつ、第2音声認識部12より内部発生音声が認識対象ワードの後半部分に相当すると認識された場合、さらに、以下の処理を実行する。すなわち、認識結果破棄部13は、第1音声認識部10において認識された認識対象ワードの後半部分と、第2音声認識部12において認識された認識対象ワードの後半部分とが同じであるか否かを判定する。そして、認識結果破棄部13は、認識された認識対象ワードの後半部分が同じ場合に、第1音声認識部10に対して認識破棄通知を出力し、第1音声認識部10よる認識結果を破棄する。この構成によれば、以下の効果を奏する。 In the above-described embodiment, the recognition result discarding unit 13 recognizes that the externally input voice corresponds to the entire recognition target word by the first voice recognition unit 10, and the internally generated voice is generated by the second voice recognition unit 12. When it was recognized that it corresponds to the latter half of the recognition target word, the recognition discard notification was output to the first voice recognition unit 10, and the recognition result by the first voice recognition unit 10 was discarded. In this regard, the following configuration may be used. That is, in the recognition result discarding unit 13, the first voice recognition unit 10 recognizes that the external input voice corresponds to the entire recognition target word, and the second voice recognition unit 12 recognizes that the internally generated voice is the latter half of the recognition target word. If it is recognized that it corresponds to, the following processing is further executed. That is, whether or not the recognition result discarding unit 13 has the same second half of the recognition target word recognized by the first voice recognition unit 10 and the second half of the recognition target word recognized by the second voice recognition unit 12. Is determined. Then, when the latter half of the recognized recognition target word is the same, the recognition result discard unit 13 outputs a recognition discard notification to the first voice recognition unit 10 and discards the recognition result by the first voice recognition unit 10. To do. According to this configuration, the following effects are obtained.

すなわち、第1音声認識部10によって外部入力音声が一の認識対象ワードの前半部分に相当すると認識された後に行われる認識処理の実行中に、偶然、内部発生音声に、一の認識対象ワードとは異なる他の認識対象ワードの後半部分が含まれる可能性が全くないわけではない。この場合、第1音声認識部10が認識対象ワードの前半部分に相当すると認識した外部入力音声は、オーディオ装置400が放音した音声ではないため、第1音声認識部10の認識結果は破棄されてはならない。しかしながら、上述した実施形態では、第1音声認識部10において認識された認識対象ワードの後半部分と、第2音声認識部12において認識された認識対象ワードの後半部分とが同じであるか否かの判定までは行われないため、第1音声認識部10の認識結果が破棄されてしまう。一方、上記構成によれば、認識結果破棄部13は、第1音声認識部10において認識された認識対象ワードの後半部分と、第2音声認識部12において認識された認識対象ワードの後半部分とが同じである場合にのみ、第1音声認識部10よる認識結果を破棄する。このため、第1音声認識部10によって外部入力音声が認識対象ワードの前半部分に相当すると認識された後に行われる認識処理の実行中に、偶然、内部発生音声に、その認識対象ワードとは異なる認識対象ワードの後半部分が含まれた場合に、第1音声認識部10の認識結果が破棄されるのを防止できる。 That is, during the execution of the recognition process performed after the first voice recognition unit 10 recognizes that the external input voice corresponds to the first half of one recognition target word, the internally generated voice accidentally becomes one recognition target word. Is not entirely possible to contain the second half of other recognized words that are different. In this case, since the external input voice recognized by the first voice recognition unit 10 as corresponding to the first half of the recognition target word is not the voice emitted by the audio device 400, the recognition result of the first voice recognition unit 10 is discarded. must not. However, in the above-described embodiment, whether or not the latter half of the recognition target word recognized by the first voice recognition unit 10 and the second half of the recognition target word recognized by the second voice recognition unit 12 are the same. Since the determination is not performed, the recognition result of the first voice recognition unit 10 is discarded. On the other hand, according to the above configuration, the recognition result discarding unit 13 includes the latter half of the recognition target word recognized by the first voice recognition unit 10 and the second half of the recognition target word recognized by the second voice recognition unit 12. Only when is the same, the recognition result by the first voice recognition unit 10 is discarded. Therefore, during the execution of the recognition process performed after the first voice recognition unit 10 recognizes that the externally input voice corresponds to the first half of the recognition target word, the internally generated voice accidentally differs from the recognition target word. When the latter half of the recognition target word is included, it is possible to prevent the recognition result of the first voice recognition unit 10 from being discarded.

また、上述した実施形態では、登録された音声パターンと、入力された音声との類似度として、値「0」〜値「1000」の範囲で値をとる距離値を用いた。しかしながら、類似度として、距離値以外の指標を用いる構成でもよい。すなわち、類似度の判定には、既存の技術を広く用いることができる。 Further, in the above-described embodiment, a distance value having a value in the range of the value "0" to the value "1000" is used as the degree of similarity between the registered voice pattern and the input voice. However, as the degree of similarity, an index other than the distance value may be used. That is, existing techniques can be widely used for determining the degree of similarity.

その他、上記実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。 In addition, the above embodiments are merely examples of embodiment of the present invention, and the technical scope of the present invention should not be construed in a limited manner. That is, the present invention can be implemented in various forms without departing from its gist or its main features.

10 第1音声認識部
12 第2音声認識部
13 認識結果破棄部
20 辞書記憶部
20A 第1音声認識辞書
20B 第2音声認識辞書
100 音声認識装置
200 マイク
10 1st voice recognition unit 12 2nd voice recognition unit 13 Recognition result discard unit 20 Dictionary storage unit 20A 1st voice recognition dictionary 20B 2nd voice recognition dictionary 100 Voice recognition device 200 Microphone

Claims (5)

マイクより入力される音声が認識対象ワードに該当するかどうかを常時判定するようになされた音声認識装置であって、
上記認識対象ワードの全体の音声パターンが登録された第1音声認識辞書、および、上記認識対象ワードの後半部分のみの音声パターンが登録された第2音声認識辞書を記憶した辞書記憶部と、
上記第1音声認識辞書に登録されている上記認識対象ワードの全体の音声パターンと、上記マイクより入力された外部入力音声との類似度を算出し、当該算出した類似度が所定レベルより大きい場合に、上記外部入力音声が上記認識対象ワードの全体に相当すると認識する第1音声認識部と、
上記第2音声認識辞書に登録されている上記認識対象ワードの後半部分の音声パターンと、車載機で発生されスピーカから出力される前の内部発生音声との類似度を算出し、当該算出した類似度が所定レベルより大きい場合に、上記内部発生音声が上記認識対象ワードの後半部分に相当すると認識する第2音声認識部と、
上記第1音声認識部により上記外部入力音声が上記認識対象ワードの全体に相当すると認識され、かつ、上記第2音声認識部により上記内部発生音声が上記認識対象ワードの後半部分に相当すると認識された場合、上記第1音声認識部による認識結果を破棄する認識結果破棄部とを備え、
上記第1音声認識部は、上記外部入力音声の順次入力と並行して上記類似度の算出を逐次行い、当該算出した類似度が第1のレベルより大きくなった時点で、上記外部入力音声が上記認識対象ワードの前半部分に相当すると認識し、引き続き算出した類似度が第2のレベルより大きくなった時点で、上記外部入力音声が上記認識対象ワードの全体に相当すると認識し、
上記第2音声認識部は、上記第1音声認識部により算出された類似度が上記第1のレベルよりも大きくなった時点で認識処理を開始することを特徴とする音声認識装置。
It is a voice recognition device that constantly determines whether or not the voice input from the microphone corresponds to the word to be recognized.
A dictionary storage unit that stores a first voice recognition dictionary in which the entire voice pattern of the recognition target word is registered, and a second voice recognition dictionary in which the voice pattern of only the latter half of the recognition target word is registered.
When the similarity between the entire voice pattern of the recognition target word registered in the first voice recognition dictionary and the externally input voice input from the microphone is calculated, and the calculated similarity is greater than a predetermined level. In addition, the first voice recognition unit that recognizes that the external input voice corresponds to the entire recognition target word,
The similarity between the voice pattern of the latter half of the recognition target word registered in the second voice recognition dictionary and the internally generated voice before being output from the speaker generated by the in-vehicle device is calculated, and the calculated similarity is calculated. A second voice recognition unit that recognizes that the internally generated voice corresponds to the latter half of the recognition target word when the degree is greater than a predetermined level.
The first voice recognition unit recognizes that the external input voice corresponds to the entire recognition target word, and the second voice recognition unit recognizes that the internally generated voice corresponds to the latter half of the recognition target word. In this case, a recognition result discarding unit for discarding the recognition result by the first voice recognition unit is provided.
The first voice recognition unit sequentially calculates the similarity in parallel with the sequential input of the external input voice, and when the calculated similarity becomes larger than the first level, the external input voice is released. It recognizes that it corresponds to the first half of the recognition target word, and when the calculated similarity becomes larger than the second level, it recognizes that the external input voice corresponds to the entire recognition target word.
The second voice recognition unit is a voice recognition device characterized in that the recognition process is started when the similarity calculated by the first voice recognition unit becomes larger than the first level.
上記第2音声認識部は、上記内部発生音声が上記認識対象ワードの後半部分に相当すると認識した場合、または、認識処理の開始から所定時間が経過した場合に、認識処理を停止することを特徴とする請求項1に記載の音声認識装置。 The second voice recognition unit is characterized in that the recognition process is stopped when it recognizes that the internally generated voice corresponds to the latter half of the recognition target word, or when a predetermined time has elapsed from the start of the recognition process. The voice recognition device according to claim 1. 上記第1音声認識部は、上記類似度を表す指標として距離値を算出し、当該算出した距離値が第1の閾値より小さくなった時点で、上記外部入力音声が上記認識対象ワードの前半部分に相当すると認識し、引き続き算出した距離値が第2の閾値より小さくなった時点で、上記外部入力音声が上記認識対象ワードの全体に相当すると認識し、
上記第2音声認識部は、上記第1音声認識部により算出された距離値が上記第1の閾値より小さくなった時点で認識処理を開始した後、上記類似度を表す指標として距離値を算出し、当該算出した距離値が所定の閾値より小さくなった場合に、上記内部発生音声が上記認識対象ワードの後半部分に相当すると認識することを特徴とする請求項1または2に記載の音声認識装置。
The first voice recognition unit calculates a distance value as an index representing the similarity, and when the calculated distance value becomes smaller than the first threshold value, the external input voice is the first half of the recognition target word. When the calculated distance value becomes smaller than the second threshold value, it is recognized that the external input voice corresponds to the entire recognition target word.
The second voice recognition unit starts the recognition process when the distance value calculated by the first voice recognition unit becomes smaller than the first threshold value, and then calculates the distance value as an index indicating the similarity. The voice recognition according to claim 1 or 2, wherein when the calculated distance value becomes smaller than a predetermined threshold value, the internally generated voice is recognized as corresponding to the latter half of the recognition target word. apparatus.
上記認識結果破棄部は、
上記第1音声認識部により上記外部入力音声が上記認識対象ワードの全体に相当すると認識されると共に、上記第2音声認識部により上記内部発生音声が上記認識対象ワードの後半部分に相当すると認識された場合、さらに、上記第1音声認識部において認識された上記認識対象ワードの後半部分と、上記第2音声認識部において認識された上記認識対象ワードの後半部分とが同じであるか否かを判定し、同じであると判定された場合に、上記第1音声認識部による認識結果を破棄することを特徴とする請求項1から3のいずれか1項に記載の音声認識装置。
The above recognition result discarding part
The first voice recognition unit recognizes that the external input voice corresponds to the entire recognition target word, and the second voice recognition unit recognizes that the internally generated voice corresponds to the latter half of the recognition target word. In that case, whether or not the latter half of the recognition target word recognized by the first voice recognition unit and the latter half of the recognition target word recognized by the second voice recognition unit are the same. The voice recognition device according to any one of claims 1 to 3, wherein the recognition result by the first voice recognition unit is discarded when the judgment is made and the same is determined.
マイクより入力される音声が認識対象ワードに該当するかどうかを常時判定するようになされた音声認識方法であって、
音声認識装置の第1音声認識部が、第1音声認識辞書に登録されている上記認識対象ワードの全体の音声パターンと、上記マイクより順次入力される外部入力音声との類似度を逐次算出する第1のステップと、
上記第1音声認識部が、上記第1のステップで算出された類似度が第1のレベルより大きくなったか否かを判定し、大きくなったと判定した時点で、上記外部入力音声が上記認識対象ワードの前半部分に相当すると認識する第2のステップと、
上記第1のステップで算出された類似度が上記第1のレベルより大きくなったと判定された場合に、上記音声認識装置の第2音声認識部を起動する第3のステップと、
上記第1音声認識部が、上記第1音声認識辞書に登録されている上記認識対象ワードの全体の音声パターンと、上記マイクより引き続き順次入力される外部入力音声との類似度を逐次算出すると同時に、上記第2音声認識部が、第2音声認識辞書に登録されている上記認識対象ワードの後半部分の音声パターンと、車載機で発生されスピーカから出力される前の内部発生音声との類似度を逐次算出する第4のステップと、
上記第1音声認識部が、上記第4のステップで算出された類似度が第2のレベルより大きくなったか否かを判定し、大きくなったと判定した時点で、上記外部入力音声が上記認識対象ワードの全体に相当すると認識する第5のステップと、
上記第2音声認識部が、上記第4のステップで算出された類似度が所定レベルより大きくなったか否かを判定し、大きくなったと判定した時点で、上記内部発生音声が上記認識対象ワードの後半部分に相当すると認識する第6のステップと、
上記音声認識装置の認識結果破棄部が、上記第5のステップにおいて上記第1音声認識部により上記外部入力音声が上記認識対象ワードの全体に相当すると認識され、かつ、上記第6のステップにおいて上記第2音声認識部により上記内部発生音声が上記認識対象ワードの後半部分に相当すると認識された場合、上記第1音声認識部による認識結果を破棄する第7のステップとを有することを特徴とする音声認識方法。
It is a voice recognition method that constantly determines whether or not the voice input from the microphone corresponds to the word to be recognized.
The first voice recognition unit of the voice recognition device sequentially calculates the similarity between the entire voice pattern of the recognition target word registered in the first voice recognition dictionary and the external input voice sequentially input from the microphone. The first step and
The first voice recognition unit determines whether or not the similarity calculated in the first step is higher than the first level, and when it is determined that the similarity is higher than the first level, the external input voice is the recognition target. The second step of recognizing that it corresponds to the first half of the word,
When it is determined that the similarity calculated in the first step is higher than the first level, the third step of activating the second voice recognition unit of the voice recognition device and the third step.
At the same time, the first voice recognition unit sequentially calculates the similarity between the entire voice pattern of the recognition target word registered in the first voice recognition dictionary and the external input voice continuously input from the microphone. , The degree of similarity between the voice pattern of the latter half of the recognition target word registered in the second voice recognition dictionary by the second voice recognition unit and the internally generated voice before being output from the speaker generated by the in-vehicle device. And the fourth step of sequentially calculating
The first voice recognition unit determines whether or not the similarity calculated in the fourth step is higher than the second level, and when it is determined that the similarity is higher than the second level, the external input voice is the recognition target. The fifth step of recognizing that it corresponds to the whole word,
The second voice recognition unit determines whether or not the similarity calculated in the fourth step is higher than the predetermined level, and when it is determined that the similarity is higher than the predetermined level, the internally generated voice is the recognition target word. The sixth step, which is recognized as corresponding to the second half,
In the fifth step, the recognition result discarding unit of the voice recognition device recognizes that the external input voice corresponds to the entire recognition target word by the first voice recognition unit, and in the sixth step, the above. When the second voice recognition unit recognizes that the internally generated voice corresponds to the latter half of the recognition target word, it has a seventh step of discarding the recognition result by the first voice recognition unit. Voice recognition method.
JP2017113062A 2017-06-08 2017-06-08 Voice recognition device and voice recognition method Active JP6820086B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017113062A JP6820086B2 (en) 2017-06-08 2017-06-08 Voice recognition device and voice recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017113062A JP6820086B2 (en) 2017-06-08 2017-06-08 Voice recognition device and voice recognition method

Publications (2)

Publication Number Publication Date
JP2018205612A JP2018205612A (en) 2018-12-27
JP6820086B2 true JP6820086B2 (en) 2021-01-27

Family

ID=64957778

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017113062A Active JP6820086B2 (en) 2017-06-08 2017-06-08 Voice recognition device and voice recognition method

Country Status (1)

Country Link
JP (1) JP6820086B2 (en)

Also Published As

Publication number Publication date
JP2018205612A (en) 2018-12-27

Similar Documents

Publication Publication Date Title
JP4260788B2 (en) Voice recognition device controller
US11037574B2 (en) Speaker recognition and speaker change detection
US7680287B2 (en) Directional setting apparatus, directional setting system, directional setting method and directional setting program
JP3920097B2 (en) Voice recognition device for in-vehicle equipment
JP2023041843A (en) Voice section detection apparatus, voice section detection method, and program
US9598070B2 (en) Infotainment system control
JP6767082B2 (en) In-vehicle call control device, in-vehicle call system and in-vehicle call control method
JP2008256802A (en) Voice recognition device and voice recognition method
JP2002091466A (en) Speech recognition device
US11158316B2 (en) In-vehicle device and speech recognition method
US20130013310A1 (en) Speech recognition system
JP6459330B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
JP2009175179A (en) Speech recognition device, program and utterance signal extraction method
JP5277704B2 (en) Voice recognition apparatus and vehicle system using the same
JP6820086B2 (en) Voice recognition device and voice recognition method
JP2006208486A (en) Voice inputting device
JP6759058B2 (en) Voice recognition device and voice recognition method
JP5375423B2 (en) Speech recognition system, speech recognition method, and speech recognition program
JPWO2020079733A1 (en) Speech recognition device, speech recognition system, and speech recognition method
JP2018116206A (en) Voice recognition device, voice recognition method and voice recognition system
JP6716968B2 (en) Speech recognition device, speech recognition program
JP5074759B2 (en) Dialog control apparatus, dialog control method, and dialog control program
JP2007101892A (en) Speech recognition device
JP5173895B2 (en) Voice recognition device
JP2020091435A (en) Voice recognition system, notification method of voice recognition system, program, and mobile body mounted apparatus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200306

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201228

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201228

R150 Certificate of patent or registration of utility model

Ref document number: 6820086

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150