JP2019124881A - 音声認識装置および音声認識方法 - Google Patents
音声認識装置および音声認識方法 Download PDFInfo
- Publication number
- JP2019124881A JP2019124881A JP2018007064A JP2018007064A JP2019124881A JP 2019124881 A JP2019124881 A JP 2019124881A JP 2018007064 A JP2018007064 A JP 2018007064A JP 2018007064 A JP2018007064 A JP 2018007064A JP 2019124881 A JP2019124881 A JP 2019124881A
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- recognition result
- reliability
- voice
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims description 22
- 238000012937 correction Methods 0.000 claims abstract description 34
- 238000004891 communication Methods 0.000 claims abstract description 17
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 241000219051 Fagopyrum Species 0.000 description 1
- 235000009419 Fagopyrum esculentum Nutrition 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 235000012149 noodles Nutrition 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W50/08—Interaction between the driver and the control system
- B60W50/10—Interpretation of driver requests or demands
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Automation & Control Theory (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Signal Processing (AREA)
- Navigation (AREA)
Abstract
【課題】簡素な構成で、車室内での音声認識の精度を向上できる音声認識装置を提供する。
【解決手段】音声認識装置10において、通信部22は、車両の乗員により発話された音声のデータを、当該音声を音声認識して第1音声認識結果および第1音声認識結果の信頼度を導出するサーバ装置12に送信し、サーバ装置12から第1音声認識結果および第1音声認識結果の信頼度を受信する。音声認識部24は、音声を音声認識して第2音声認識結果および第2音声認識結果の信頼度を出力する。選択部30は、予め定められた車両の車速と補正値との対応関係に基づいて、検出された車両の車速に対応する補正値で第1音声認識結果の信頼度または第2音声認識結果の信頼度を補正し、第1音声認識結果と第2音声認識結果のうち信頼度が高いものを選択する。
【選択図】図1
【解決手段】音声認識装置10において、通信部22は、車両の乗員により発話された音声のデータを、当該音声を音声認識して第1音声認識結果および第1音声認識結果の信頼度を導出するサーバ装置12に送信し、サーバ装置12から第1音声認識結果および第1音声認識結果の信頼度を受信する。音声認識部24は、音声を音声認識して第2音声認識結果および第2音声認識結果の信頼度を出力する。選択部30は、予め定められた車両の車速と補正値との対応関係に基づいて、検出された車両の車速に対応する補正値で第1音声認識結果の信頼度または第2音声認識結果の信頼度を補正し、第1音声認識結果と第2音声認識結果のうち信頼度が高いものを選択する。
【選択図】図1
Description
本発明は、ユーザの発話を音声認識する音声認識装置および音声認識方法に関する。
様々に変化するノイズが音声に重畳されても、正しく音声認識を実行できる車両用音声認識装置が知られている(例えば、特許文献1参照)。この装置は、音声認識部において、複数の音響モデルを記憶し、入力される車速信号とエアコン風量信号に基づいて、記憶した音響モデルのいずれかを選択する。そして、マイクより入力された音声信号の音声信号パターンと、選択した音響モデルにおける音素ごとの信号パターンの特徴とを比較することにより音声認識を実行して、操作コマンドをナビゲーション部に対して出力する。
また、車載の音声認識装置において、マイクで取り込んだ音声信号からノイズを除去して、ノイズが除去された音声信号を音声認識する技術が知られている(例えば、特許文献2参照)。
特許文献1の技術では、音声認識部の音声認識処理を変更する必要があるため、特に複数の音声認識部を含む構成では、構成が複雑化する。また、特許文献2の技術では、ノイズを除去するためにフィルタ、増幅器、それらを調整する構成が必要なため、構成が複雑化する。
本発明はこうした状況に鑑みてなされたものであり、その目的は、簡素な構成で、車室内での音声認識の精度を向上できる音声認識装置を提供することにある。
上記課題を解決するために、本発明のある態様の音声認識装置は、車両の乗員により発話された音声のデータを、当該音声を音声認識して第1音声認識結果および第1音声認識結果の信頼度を導出するサーバ装置に送信し、前記サーバ装置から前記第1音声認識結果および前記第1音声認識結果の信頼度を受信する通信部と、前記音声を音声認識して第2音声認識結果および第2音声認識結果の信頼度を出力する音声認識部と、予め定められた前記車両の車速と補正値との対応関係に基づいて、検出された前記車両の車速に対応する補正値で前記第1音声認識結果の信頼度または前記第2音声認識結果の信頼度を補正し、前記第1音声認識結果と前記第2音声認識結果のうち信頼度が高いものを選択する選択部と、を備える。
この態様によると、検出された車速に対応する補正値で第1音声認識結果の信頼度または第2音声認識結果の信頼度を補正するので、車速が比較的大きい場合、すなわちノイズが比較的大きい場合に、車載の音声認識部の第2音声認識結果を選択する可能性を高めることができる。音声認識部の音声認識可能な語彙数が、サーバ装置の音声認識可能な語彙数より少なく、ノイズが比較的大きい場合、音声認識部の音声認識可能な語彙であれば、音声認識部はサーバ装置よりも誤認識しにくい。そのため、ノイズが比較的大きい場合に、誤認識の可能性を低減できる。また、音声認識部の音声認識処理を変更する必要がなく、ノイズを除去する構成を設ける必要もない。よって、簡素な構成で、車室内での音声認識の精度を向上できる。
前記音声認識部の音声認識可能な語彙数は、前記サーバ装置の音声認識可能な語彙数より少なくてもよい。
前記対応関係において、前記車両の車速が増加するほど、補正値は増加し、前記選択部は、検出された前記車両の車速に対応する補正値を、前記第2音声認識結果の信頼度に加算してもよい。
本発明の別の態様は、音声認識方法である。この方法は、車両の乗員により発話された音声のデータを、当該音声を音声認識して第1音声認識結果および第1音声認識結果の信頼度を出力するサーバ装置に送信し、前記サーバ装置から前記第1音声認識結果および前記第1音声認識結果の信頼度を受信するステップと、前記音声を音声認識して第2音声認識結果および第2音声認識結果の信頼度を出力するステップと、予め定められた前記車両の車速と補正値との対応関係に基づいて、検出された前記車両の車速に対応する補正値で前記第1音声認識結果の信頼度または前記第2音声認識結果の信頼度を補正し、前記第1音声認識結果と前記第2音声認識結果のうち信頼度が高いものを選択するステップと、を備える。
本発明によれば、簡素な構成で、車室内での音声認識の精度を向上できる。
図1は、実施の形態に係る音声認識システム1の構成を示すブロック図である。音声認識システム1は、音声認識装置10と、サーバ装置12とを備える。音声認識装置10は、車両に搭載される。音声認識装置10は、マイク20と、通信部22と、音声認識部24と、取得部26と、記憶部28と、選択部30とを備える。
マイク20は、車両の乗員により発話された音声を取得し、その音声の音声データを通信部22と音声認識部24に出力する。マイク20は、車両のエンジン音、ロードノイズ等のノイズも取得する。車両の車速が高いほど、マイク20で取得されるノイズは大きくなる。
通信部22は、サーバ装置12と無線通信を行う。この無線通信の規格は特に限定されないが、例えば、3G(第3世代移動通信システム)、4G(第4世代移動通信システム)または5G(第5世代移動通信システム)を含む。通信部22は、図示しない基地局を介してサーバ装置12と無線通信を行ってもよい。通信部22は、マイク20から出力された音声データをサーバ装置12に送信する。
サーバ装置12は、通信部22から送信された音声データに基づいて、乗員により発話された音声を音声認識して第1音声認識結果および第1音声認識結果の信頼度を導出する。サーバ装置12は、音声認識可能な複数の所定の単語を記憶しており、記憶している単語のなかから、認識された文字列に最も近いものを選択して第1音声認識結果として出力する。信頼度は、音声データから単語が正しく認識された可能性の度合いを示す。信頼度が高いほど、単語が正しく認識された可能性が高いことを示す。マイク20で取得されたノイズが大きいほど、第1音声認識結果の信頼度は低下しやすい。第1音声認識結果の信頼度は、周知の技術を用いて導出できる。サーバ装置12は、第1音声認識結果および第1音声認識結果の信頼度を音声認識装置10に送信する。サーバ装置12は、例えば、データセンターなどに設置される。
音声認識装置10の通信部22は、サーバ装置12から第1音声認識結果および第1音声認識結果の信頼度を受信する。通信部22は、受信した情報を選択部30に出力する。
音声認識部24は、マイク20から出力された音声データに基づいて、音声を音声認識して第2音声認識結果および第2音声認識結果の信頼度を選択部30に出力する。音声認識部24は、音声認識可能な複数の所定の単語を記憶しており、記憶している単語のなかから、認識された文字列に最も近いものを選択して第2音声認識結果として出力する。音声認識部24が音声認識可能な所定の単語は、所定のコマンドであるということもできる。音声認識部24の音声認識可能な語彙数は、サーバ装置12の音声認識可能な語彙数より少ない。マイク20で取得されたノイズが大きいほど、第2音声認識結果の信頼度は低下しやすい。第2音声認識結果の信頼度は、周知の技術を用いて導出できる。
マイク20が音声を取得してから、音声認識部24が第2音声認識結果および第2音声認識結果の信頼度を出力するまでの時間は、マイク20が音声を取得してから、通信部22がサーバ装置12から第1音声認識結果および第1音声認識結果の信頼度を受信するまでの時間より短い。
取得部26は、図示しない車速センサで検出された車両の車速の情報を取得する。取得部26は、車速の情報を選択部30に出力する。
記憶部28は、予め定められたしきい値、および、予め定められた車両の車速と補正値との対応関係を記憶している。例えば、車速と補正値との対応関係において、車両の車速が増加するほど、補正値は増加する。しきい値、および、車速と補正値との対応関係は、実験により適宜設定することができる。
選択部30は、第2音声認識結果の信頼度と、記憶部28に記憶されたしきい値とを比較する。選択部30は、第2音声認識結果の信頼度がしきい値以上である場合、第2音声認識結果を選択する。即ち、選択部30は、第2音声認識結果の信頼度がしきい値以上である場合、サーバ装置12から出力される第1音声認識結果を待たない。
選択部30は、第2音声認識結果の信頼度がしきい値未満である場合、記憶部28に記憶された対応関係に基づいて、取得部26から出力された車両の車速に対応する補正値で第1音声認識結果の信頼度または第2音声認識結果の信頼度を補正する。ここでは、選択部30は、検出された車両の車速に対応する補正値を、第2音声認識結果の信頼度に加算する。つまり、選択部30は、第2音声認識結果の信頼度を補正する。選択部30は、第1音声認識結果と第2音声認識結果のうち信頼度が高いものを選択する。
選択部30は、選択した第1音声認識結果または第2音声認識結果を、図示しないカーナビゲーション装置などの車載装置に出力する。例えば、カーナビゲーション装置は、選択部30から出力された第1音声認識結果または第2音声認識結果に基づいて、目的地の設定や電話番号の検索などの各種機能を実行する。
ここで、しきい値の設定方法の一例について説明する。まず、複数の評価用音源を用意する。評価用音源は、車載の音声認識部24で認識させたいコマンドフレーズ群と、サーバ装置12で認識させたい自然発話フレーズ群とを含む。例えば、コマンドフレーズ群と自然発話フレーズ群とを、それぞれ1000個程度用意してもよい。
次に、車両が停車した状態、すなわち車速がゼロの状態で、コマンドフレーズ群と自然発話フレーズ群とを音声認識部24で音声認識し、第2音声認識結果が正解である場合と不正解である場合のそれぞれの第2音声認識結果の信頼度の度数分布を導出する。
図2は、図1の音声認識部24による、車両が停車した状態における第2音声認識結果の信頼度の度数分布を示す図である。正解の場合の第2音声認識結果の信頼度の度数分布100は、主にコマンドフレーズ群により得られる。不正解の場合の第2音声認識結果の信頼度の度数分布102は、主に自然発話フレーズ群により得られる。
次に、図2の度数分布から、車速がゼロの場合の信頼度のしきい値を定める。しきい値の定め方は特に限定されないが、例えば、図2に示されるように、正解で選択されない数と、不正解で選択される数との和が最小になる信頼度C1を、しきい値として定める。このしきい値が、記憶部28に記憶される。
次に、車速と補正値との対応関係の設定方法の一例について説明する。以上と同様に、車両が走行した状態、例えば車速が約100km/hの状態で、コマンドフレーズ群と自然発話フレーズ群とを音声認識部24で音声認識し、第2音声認識結果が正解である場合と不正解である場合のそれぞれの第2音声認識結果の信頼度の度数分布を導出する。
図3は、図1の音声認識部24による、車両が走行した状態における第2音声認識結果の信頼度の度数分布を示す図である。図2と比較して、度数分布110と度数分布112は、ノイズの影響により、信頼度が低い側に偏っている。
次に、図3の度数分布から、図2の場合と同様に、車速が100km/hの場合の正解で選択されない数と不正解で選択される数との和が最小になる信頼度C2を定める。そして、図3で定められた信頼度C2と図2のしきい値との差を導出する。このような処理を他の車速についても行い、各車速で定められた正解で選択されない数と不正解で選択される数との和が最小になる信頼度と、図2のしきい値との差を導出する。
次に、車速がゼロの場合の補正値を実験により設定し、上述の各車速について導出された差を、車速がゼロの場合の補正値に加算して、加算結果を各車速での補正値とする。
なお、車速と補正値との対応関係は、任意の様々な設定方法で定めることができる。例えば、補正値は、複数の車速のそれぞれにおいて、実験により設定してもよい。
この構成は、ハードウエア的には、任意のコンピュータのCPU、メモリ、その他のLSIで実現でき、ソフトウエア的にはメモリにロードされたプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。
次に、以上の構成による音声認識システム1の全体的な動作を説明する。図4は、図1の音声認識システム1の処理を示すフローチャートである。図4の処理は、マイク20が音声の音声データを出力すると実行される。
通信部22は、音声データをサーバ装置12に送信する(S10)。音声認識部24は、音声データに基づいて音声認識を行う(S12)。第2音声認識結果の信頼度がしきい値以上である場合(S14のY)、選択部30は、第2音声認識結果を選択し(S16)、処理を終了する。
第2音声認識結果の信頼度がしきい値未満である場合(S14のN)、選択部30は、車速に対応する補正値で第2音声認識結果の信頼度を補正する(S18)。通信部22は、サーバ装置12から第1音声認識結果および第1音声認識結果の信頼度を受信する(S20)。ステップS20の処理は、ステップS12とステップS14の間に行われてもよいし、ステップS14とステップS18の間に行われてもよい。
第2音声認識結果の信頼度が第1音声認識結果の信頼度以上である場合(S22のY)、ステップS16に移行する。第2音声認識結果の信頼度が第1音声認識結果の信頼度未満である場合(S22のN)、選択部30は、第1音声認識結果を選択し(S24)、処理を終了する。
次に、音声認識システム1の動作の具体的な例について説明する。
(第1の例)
発話された音声が、音声認識部24の音声認識可能な語彙からなる「電話をかける山田」である例について説明する。また、車速が比較的大きく、例えば100km/hであり、第1音声認識結果の信頼度は7000であり、第2音声認識結果の信頼度は5500であり、しきい値未満であることを想定する。
(第1の例)
発話された音声が、音声認識部24の音声認識可能な語彙からなる「電話をかける山田」である例について説明する。また、車速が比較的大きく、例えば100km/hであり、第1音声認識結果の信頼度は7000であり、第2音声認識結果の信頼度は5500であり、しきい値未満であることを想定する。
選択部30は、第2音声認識結果の信頼度がしきい値未満であるため、第2音声認識結果の信頼度を補正する。この車速での補正値が、例えば2000である場合、補正された第2音声認識結果の信頼度は7500であり、第1音声認識結果の信頼度より高い。そのため、選択部30は、第2音声認識結果を選択する。
車速が比較的大きい場合、すなわちノイズが比較的大きい場合、音声認識部24の音声認識可能な語彙であれば、音声認識部24はサーバ装置12よりも誤認識しにくい傾向がある。音声認識部24では、サーバ装置12と比較して、音声認識可能な語彙数が少ないため、ノイズの影響によってある音声を正しい単語に類似した別の単語として誤認識しにくいためである。そのため、この例のように第2音声認識結果の信頼度が比較的高い場合には、第2音声認識結果を選択することで、音声認識の精度を向上できる。
なお、この第1の例において、車速がより小さい場合には、第2音声認識結果の信頼度は、より高くなり、しきい値以上となる可能性がある。その場合、選択部30は、第1音声認識結果の信頼度とは無関係に、第2音声認識結果を選択する。
(第2の例)
発話された音声が、音声認識部24の音声認識不可能な語彙を含む「どこかおいしいそば屋はありますか」である例について説明する。また、車速が第1の例の車速と同じであり、第1音声認識結果の信頼度は7000であり、第2音声認識結果の信頼度は2000であり、しきい値未満であることを想定する。音声認識部24は、この音声を正しく音声認識できないため、第2音声認識結果の信頼度は第1の例より低い。
発話された音声が、音声認識部24の音声認識不可能な語彙を含む「どこかおいしいそば屋はありますか」である例について説明する。また、車速が第1の例の車速と同じであり、第1音声認識結果の信頼度は7000であり、第2音声認識結果の信頼度は2000であり、しきい値未満であることを想定する。音声認識部24は、この音声を正しく音声認識できないため、第2音声認識結果の信頼度は第1の例より低い。
この車速での補正値が2000である場合、補正された第2音声認識結果の信頼度は4000であり、第1音声認識結果の信頼度より低い。そのため、選択部30は、第1音声認識結果を選択する。
音声認識部24の音声認識不可能な語彙であれば、ノイズの大きさによらず音声認識部24は誤認識している。そのため、この例のように第2音声認識結果の信頼度が比較的低い場合には、第1音声認識結果を選択することで、音声認識の精度を向上できる。
このように本実施の形態によれば、検出された車速に対応する補正値で第2音声認識結果の信頼度を補正するので、車速が比較的大きい場合、すなわちノイズが比較的大きい場合に、車載の音声認識部24の第2音声認識結果を選択する可能性を高めることができる。音声認識部24の音声認識可能な語彙数が、サーバ装置12の音声認識可能な語彙数より少なく、ノイズが比較的大きい場合、音声認識部24の音声認識可能な語彙であれば、音声認識部24はサーバ装置12よりも誤認識しにくい。そのため、ノイズが比較的大きい場合に、誤認識の可能性を低減できる。
また、音声認識部24の音声認識処理を変更する必要がなく、ノイズを除去する構成を設ける必要もない。よって、簡素な構成で、車室内での音声認識の精度を向上できる。
これに対して、第2音声認識結果の信頼度を補正しない比較例では、車速が比較的大きい場合、正しく音声認識された第2音声認識結果を選択する可能性が低くなる。
以上、実施の形態をもとに本発明を説明した。実施の形態はあくまでも例示であり、各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
例えば、信頼度のしきい値は、車両の車速に応じて変化してもよい。この場合、記憶部28は、車両の車速と、信頼度のしきい値との対応関係を記憶している。このような対応関係は、図3を参照して説明した各車速における正解で選択されない数と不正解で選択される数との和が最小になる信頼度を、各車速でのしきい値とすることで、設定できる。車速が大きくなるほど、しきい値は小さくなる。選択部30は、記憶部28に記憶された車速としきい値との対応関係に基づいて、取得部26から出力された車両の車速に対応するしきい値を特定し、特定したしきい値と第2音声認識結果の信頼度とを比較してもよい。この変形例では、車速が比較的大きい場合に、サーバ装置12による第1音声認識結果を待たずに、車載の音声認識部24の第2音声認識結果を選択する可能性を高めることができる。なお、信頼度のしきい値が車両の車速に応じて変化する場合、選択部30は、補正値で第1音声認識結果の信頼度または第2音声認識結果の信頼度を補正しなくてもよい。
また、音声認識システム1は、それぞれ異なる音声認識性能を有する複数のサーバ装置を備えてもよい。選択部30は、音声認識部24の第2音声認識結果の信頼度がしきい値未満である場合、車速に対応する補正値で複数のサーバ装置の複数の第1音声認識結果の信頼度または第2音声認識結果の信頼度を補正し、複数の第1音声認識結果と第2音声認識結果のうち信頼度が高いものを選択する。この変形例では、音声認識システム1の音声認識性能をより詳細に調整できる。
また、選択部30は、検出された車両の車速に対応する補正値を第1音声認識結果の信頼度から減算して、第1音声認識結果の信頼度を補正してもよい。この変形例では、音声認識システム1の構成の自由度を高めることができる。
1…音声認識システム、10…音声認識装置、12…サーバ装置、20…マイク、22…通信部、24…音声認識部、26…取得部、28…記憶部、30…選択部。
Claims (4)
- 車両の乗員により発話された音声のデータを、当該音声を音声認識して第1音声認識結果および第1音声認識結果の信頼度を導出するサーバ装置に送信し、前記サーバ装置から前記第1音声認識結果および前記第1音声認識結果の信頼度を受信する通信部と、
前記音声を音声認識して第2音声認識結果および第2音声認識結果の信頼度を出力する音声認識部と、
予め定められた前記車両の車速と補正値との対応関係に基づいて、検出された前記車両の車速に対応する補正値で前記第1音声認識結果の信頼度または前記第2音声認識結果の信頼度を補正し、前記第1音声認識結果と前記第2音声認識結果のうち信頼度が高いものを選択する選択部と、
を備えることを特徴とする音声認識装置。 - 前記音声認識部の音声認識可能な語彙数は、前記サーバ装置の音声認識可能な語彙数より少ないことを特徴とする請求項1に記載の音声認識装置。
- 前記対応関係において、前記車両の車速が増加するほど、補正値は増加し、
前記選択部は、検出された前記車両の車速に対応する補正値を、前記第2音声認識結果の信頼度に加算することを特徴とする請求項1または2に記載の音声認識装置。 - 車両の乗員により発話された音声のデータを、当該音声を音声認識して第1音声認識結果および第1音声認識結果の信頼度を出力するサーバ装置に送信し、前記サーバ装置から前記第1音声認識結果および前記第1音声認識結果の信頼度を受信するステップと、
前記音声を音声認識して第2音声認識結果および第2音声認識結果の信頼度を出力するステップと、
予め定められた前記車両の車速と補正値との対応関係に基づいて、検出された前記車両の車速に対応する補正値で前記第1音声認識結果の信頼度または前記第2音声認識結果の信頼度を補正し、前記第1音声認識結果と前記第2音声認識結果のうち信頼度が高いものを選択するステップと、
を備えることを特徴とする音声認識方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018007064A JP2019124881A (ja) | 2018-01-19 | 2018-01-19 | 音声認識装置および音声認識方法 |
CN201910020187.4A CN110060660A (zh) | 2018-01-19 | 2019-01-09 | 语音识别装置和语音识别方法 |
US16/249,495 US20190228776A1 (en) | 2018-01-19 | 2019-01-16 | Speech recognition device and speech recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018007064A JP2019124881A (ja) | 2018-01-19 | 2018-01-19 | 音声認識装置および音声認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019124881A true JP2019124881A (ja) | 2019-07-25 |
Family
ID=67299415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018007064A Withdrawn JP2019124881A (ja) | 2018-01-19 | 2018-01-19 | 音声認識装置および音声認識方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20190228776A1 (ja) |
JP (1) | JP2019124881A (ja) |
CN (1) | CN110060660A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200361452A1 (en) * | 2019-05-13 | 2020-11-19 | Toyota Research Institute, Inc. | Vehicles and methods for performing tasks based on confidence in accuracy of module output |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002103675A1 (en) * | 2001-06-19 | 2002-12-27 | Intel Corporation | Client-server based distributed speech recognition system architecture |
FR2883656B1 (fr) * | 2005-03-25 | 2008-09-19 | Imra Europ Sas Soc Par Actions | Traitement continu de la parole utilisant une fonction de transfert heterogene et adaptee |
WO2011148594A1 (ja) * | 2010-05-26 | 2011-12-01 | 日本電気株式会社 | 音声認識システム、音声取得端末、音声認識分担方法および音声認識プログラム |
CN103038818B (zh) * | 2010-06-24 | 2016-10-12 | 本田技研工业株式会社 | 在车载语音识别系统与车外语音识别系统之间的通信系统和方法 |
CN103079258A (zh) * | 2013-01-09 | 2013-05-01 | 广东欧珀移动通信有限公司 | 一种提高语音识别准确性的方法及移动智能终端 |
US9311915B2 (en) * | 2013-07-31 | 2016-04-12 | Google Inc. | Context-based speech recognition |
CN103730119B (zh) * | 2013-12-18 | 2017-01-11 | 惠州市车仆电子科技有限公司 | 车载人机语音交互系统 |
EP2930716B1 (en) * | 2014-04-07 | 2018-10-31 | Samsung Electronics Co., Ltd | Speech recognition using electronic device and server |
CN104282306A (zh) * | 2014-09-22 | 2015-01-14 | 奇瑞汽车股份有限公司 | 一种车载语音识别交互方法和终端、服务器 |
CN106328148B (zh) * | 2016-08-19 | 2019-12-31 | 上汽通用汽车有限公司 | 基于本地和云端混合识别的自然语音识别方法、装置和系统 |
-
2018
- 2018-01-19 JP JP2018007064A patent/JP2019124881A/ja not_active Withdrawn
-
2019
- 2019-01-09 CN CN201910020187.4A patent/CN110060660A/zh active Pending
- 2019-01-16 US US16/249,495 patent/US20190228776A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20190228776A1 (en) | 2019-07-25 |
CN110060660A (zh) | 2019-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106816149B (zh) | 车辆自动语音识别系统的优先化内容加载 | |
CN105529026B (zh) | 语音识别装置和语音识别方法 | |
US8738368B2 (en) | Speech processing responsive to a determined active communication zone in a vehicle | |
US10083685B2 (en) | Dynamically adding or removing functionality to speech recognition systems | |
US8639508B2 (en) | User-specific confidence thresholds for speech recognition | |
US20160039356A1 (en) | Establishing microphone zones in a vehicle | |
US8438028B2 (en) | Nametag confusability determination | |
US9082414B2 (en) | Correcting unintelligible synthesized speech | |
US9484027B2 (en) | Using pitch during speech recognition post-processing to improve recognition accuracy | |
US9502030B2 (en) | Methods and systems for adapting a speech system | |
US9881609B2 (en) | Gesture-based cues for an automatic speech recognition system | |
US20180074661A1 (en) | Preferred emoji identification and generation | |
US20130211828A1 (en) | Speech processing responsive to active noise control microphones | |
US20160111090A1 (en) | Hybridized automatic speech recognition | |
US20140136201A1 (en) | Adaptation methods and systems for speech systems | |
US8438030B2 (en) | Automated distortion classification | |
US9473094B2 (en) | Automatically controlling the loudness of voice prompts | |
US10008205B2 (en) | In-vehicle nametag choice using speech recognition | |
US20160307568A1 (en) | Speech recognition using a database and dynamic gate commands | |
US20180075842A1 (en) | Remote speech recognition at a vehicle | |
US20130211832A1 (en) | Speech signal processing responsive to low noise levels | |
CN105047196B (zh) | 语音识别系统中的语音假象补偿系统和方法 | |
US10468017B2 (en) | System and method for understanding standard language and dialects | |
US20120197643A1 (en) | Mapping obstruent speech energy to lower frequencies | |
JP2016061888A (ja) | 音声認識装置、音声認識対象区間設定方法、及び音声認識区間設定プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200728 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20200924 |