JP2019124881A - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法 Download PDF

Info

Publication number
JP2019124881A
JP2019124881A JP2018007064A JP2018007064A JP2019124881A JP 2019124881 A JP2019124881 A JP 2019124881A JP 2018007064 A JP2018007064 A JP 2018007064A JP 2018007064 A JP2018007064 A JP 2018007064A JP 2019124881 A JP2019124881 A JP 2019124881A
Authority
JP
Japan
Prior art keywords
speech recognition
recognition result
reliability
voice
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2018007064A
Other languages
English (en)
Inventor
大樹 山下
Daiki Yamashita
大樹 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2018007064A priority Critical patent/JP2019124881A/ja
Priority to CN201910020187.4A priority patent/CN110060660A/zh
Priority to US16/249,495 priority patent/US20190228776A1/en
Publication of JP2019124881A publication Critical patent/JP2019124881A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/08Interaction between the driver and the control system
    • B60W50/10Interpretation of driver requests or demands
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Automation & Control Theory (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Signal Processing (AREA)
  • Navigation (AREA)

Abstract

【課題】簡素な構成で、車室内での音声認識の精度を向上できる音声認識装置を提供する。
【解決手段】音声認識装置10において、通信部22は、車両の乗員により発話された音声のデータを、当該音声を音声認識して第1音声認識結果および第1音声認識結果の信頼度を導出するサーバ装置12に送信し、サーバ装置12から第1音声認識結果および第1音声認識結果の信頼度を受信する。音声認識部24は、音声を音声認識して第2音声認識結果および第2音声認識結果の信頼度を出力する。選択部30は、予め定められた車両の車速と補正値との対応関係に基づいて、検出された車両の車速に対応する補正値で第1音声認識結果の信頼度または第2音声認識結果の信頼度を補正し、第1音声認識結果と第2音声認識結果のうち信頼度が高いものを選択する。
【選択図】図1

Description

本発明は、ユーザの発話を音声認識する音声認識装置および音声認識方法に関する。
様々に変化するノイズが音声に重畳されても、正しく音声認識を実行できる車両用音声認識装置が知られている(例えば、特許文献1参照)。この装置は、音声認識部において、複数の音響モデルを記憶し、入力される車速信号とエアコン風量信号に基づいて、記憶した音響モデルのいずれかを選択する。そして、マイクより入力された音声信号の音声信号パターンと、選択した音響モデルにおける音素ごとの信号パターンの特徴とを比較することにより音声認識を実行して、操作コマンドをナビゲーション部に対して出力する。
また、車載の音声認識装置において、マイクで取り込んだ音声信号からノイズを除去して、ノイズが除去された音声信号を音声認識する技術が知られている(例えば、特許文献2参照)。
特開2005−017709号公報 特開2008−224960号公報
特許文献1の技術では、音声認識部の音声認識処理を変更する必要があるため、特に複数の音声認識部を含む構成では、構成が複雑化する。また、特許文献2の技術では、ノイズを除去するためにフィルタ、増幅器、それらを調整する構成が必要なため、構成が複雑化する。
本発明はこうした状況に鑑みてなされたものであり、その目的は、簡素な構成で、車室内での音声認識の精度を向上できる音声認識装置を提供することにある。
上記課題を解決するために、本発明のある態様の音声認識装置は、車両の乗員により発話された音声のデータを、当該音声を音声認識して第1音声認識結果および第1音声認識結果の信頼度を導出するサーバ装置に送信し、前記サーバ装置から前記第1音声認識結果および前記第1音声認識結果の信頼度を受信する通信部と、前記音声を音声認識して第2音声認識結果および第2音声認識結果の信頼度を出力する音声認識部と、予め定められた前記車両の車速と補正値との対応関係に基づいて、検出された前記車両の車速に対応する補正値で前記第1音声認識結果の信頼度または前記第2音声認識結果の信頼度を補正し、前記第1音声認識結果と前記第2音声認識結果のうち信頼度が高いものを選択する選択部と、を備える。
この態様によると、検出された車速に対応する補正値で第1音声認識結果の信頼度または第2音声認識結果の信頼度を補正するので、車速が比較的大きい場合、すなわちノイズが比較的大きい場合に、車載の音声認識部の第2音声認識結果を選択する可能性を高めることができる。音声認識部の音声認識可能な語彙数が、サーバ装置の音声認識可能な語彙数より少なく、ノイズが比較的大きい場合、音声認識部の音声認識可能な語彙であれば、音声認識部はサーバ装置よりも誤認識しにくい。そのため、ノイズが比較的大きい場合に、誤認識の可能性を低減できる。また、音声認識部の音声認識処理を変更する必要がなく、ノイズを除去する構成を設ける必要もない。よって、簡素な構成で、車室内での音声認識の精度を向上できる。
前記音声認識部の音声認識可能な語彙数は、前記サーバ装置の音声認識可能な語彙数より少なくてもよい。
前記対応関係において、前記車両の車速が増加するほど、補正値は増加し、前記選択部は、検出された前記車両の車速に対応する補正値を、前記第2音声認識結果の信頼度に加算してもよい。
本発明の別の態様は、音声認識方法である。この方法は、車両の乗員により発話された音声のデータを、当該音声を音声認識して第1音声認識結果および第1音声認識結果の信頼度を出力するサーバ装置に送信し、前記サーバ装置から前記第1音声認識結果および前記第1音声認識結果の信頼度を受信するステップと、前記音声を音声認識して第2音声認識結果および第2音声認識結果の信頼度を出力するステップと、予め定められた前記車両の車速と補正値との対応関係に基づいて、検出された前記車両の車速に対応する補正値で前記第1音声認識結果の信頼度または前記第2音声認識結果の信頼度を補正し、前記第1音声認識結果と前記第2音声認識結果のうち信頼度が高いものを選択するステップと、を備える。
本発明によれば、簡素な構成で、車室内での音声認識の精度を向上できる。
実施の形態に係る音声認識システムの構成を示すブロック図である。 図1の音声認識部による、車両が停車した状態における第2音声認識結果の信頼度の度数分布を示す図である。 図1の音声認識部による、車両が走行した状態における第2音声認識結果の信頼度の度数分布を示す図である。 図1の音声認識システムの処理を示すフローチャートである。
図1は、実施の形態に係る音声認識システム1の構成を示すブロック図である。音声認識システム1は、音声認識装置10と、サーバ装置12とを備える。音声認識装置10は、車両に搭載される。音声認識装置10は、マイク20と、通信部22と、音声認識部24と、取得部26と、記憶部28と、選択部30とを備える。
マイク20は、車両の乗員により発話された音声を取得し、その音声の音声データを通信部22と音声認識部24に出力する。マイク20は、車両のエンジン音、ロードノイズ等のノイズも取得する。車両の車速が高いほど、マイク20で取得されるノイズは大きくなる。
通信部22は、サーバ装置12と無線通信を行う。この無線通信の規格は特に限定されないが、例えば、3G(第3世代移動通信システム)、4G(第4世代移動通信システム)または5G(第5世代移動通信システム)を含む。通信部22は、図示しない基地局を介してサーバ装置12と無線通信を行ってもよい。通信部22は、マイク20から出力された音声データをサーバ装置12に送信する。
サーバ装置12は、通信部22から送信された音声データに基づいて、乗員により発話された音声を音声認識して第1音声認識結果および第1音声認識結果の信頼度を導出する。サーバ装置12は、音声認識可能な複数の所定の単語を記憶しており、記憶している単語のなかから、認識された文字列に最も近いものを選択して第1音声認識結果として出力する。信頼度は、音声データから単語が正しく認識された可能性の度合いを示す。信頼度が高いほど、単語が正しく認識された可能性が高いことを示す。マイク20で取得されたノイズが大きいほど、第1音声認識結果の信頼度は低下しやすい。第1音声認識結果の信頼度は、周知の技術を用いて導出できる。サーバ装置12は、第1音声認識結果および第1音声認識結果の信頼度を音声認識装置10に送信する。サーバ装置12は、例えば、データセンターなどに設置される。
音声認識装置10の通信部22は、サーバ装置12から第1音声認識結果および第1音声認識結果の信頼度を受信する。通信部22は、受信した情報を選択部30に出力する。
音声認識部24は、マイク20から出力された音声データに基づいて、音声を音声認識して第2音声認識結果および第2音声認識結果の信頼度を選択部30に出力する。音声認識部24は、音声認識可能な複数の所定の単語を記憶しており、記憶している単語のなかから、認識された文字列に最も近いものを選択して第2音声認識結果として出力する。音声認識部24が音声認識可能な所定の単語は、所定のコマンドであるということもできる。音声認識部24の音声認識可能な語彙数は、サーバ装置12の音声認識可能な語彙数より少ない。マイク20で取得されたノイズが大きいほど、第2音声認識結果の信頼度は低下しやすい。第2音声認識結果の信頼度は、周知の技術を用いて導出できる。
マイク20が音声を取得してから、音声認識部24が第2音声認識結果および第2音声認識結果の信頼度を出力するまでの時間は、マイク20が音声を取得してから、通信部22がサーバ装置12から第1音声認識結果および第1音声認識結果の信頼度を受信するまでの時間より短い。
取得部26は、図示しない車速センサで検出された車両の車速の情報を取得する。取得部26は、車速の情報を選択部30に出力する。
記憶部28は、予め定められたしきい値、および、予め定められた車両の車速と補正値との対応関係を記憶している。例えば、車速と補正値との対応関係において、車両の車速が増加するほど、補正値は増加する。しきい値、および、車速と補正値との対応関係は、実験により適宜設定することができる。
選択部30は、第2音声認識結果の信頼度と、記憶部28に記憶されたしきい値とを比較する。選択部30は、第2音声認識結果の信頼度がしきい値以上である場合、第2音声認識結果を選択する。即ち、選択部30は、第2音声認識結果の信頼度がしきい値以上である場合、サーバ装置12から出力される第1音声認識結果を待たない。
選択部30は、第2音声認識結果の信頼度がしきい値未満である場合、記憶部28に記憶された対応関係に基づいて、取得部26から出力された車両の車速に対応する補正値で第1音声認識結果の信頼度または第2音声認識結果の信頼度を補正する。ここでは、選択部30は、検出された車両の車速に対応する補正値を、第2音声認識結果の信頼度に加算する。つまり、選択部30は、第2音声認識結果の信頼度を補正する。選択部30は、第1音声認識結果と第2音声認識結果のうち信頼度が高いものを選択する。
選択部30は、選択した第1音声認識結果または第2音声認識結果を、図示しないカーナビゲーション装置などの車載装置に出力する。例えば、カーナビゲーション装置は、選択部30から出力された第1音声認識結果または第2音声認識結果に基づいて、目的地の設定や電話番号の検索などの各種機能を実行する。
ここで、しきい値の設定方法の一例について説明する。まず、複数の評価用音源を用意する。評価用音源は、車載の音声認識部24で認識させたいコマンドフレーズ群と、サーバ装置12で認識させたい自然発話フレーズ群とを含む。例えば、コマンドフレーズ群と自然発話フレーズ群とを、それぞれ1000個程度用意してもよい。
次に、車両が停車した状態、すなわち車速がゼロの状態で、コマンドフレーズ群と自然発話フレーズ群とを音声認識部24で音声認識し、第2音声認識結果が正解である場合と不正解である場合のそれぞれの第2音声認識結果の信頼度の度数分布を導出する。
図2は、図1の音声認識部24による、車両が停車した状態における第2音声認識結果の信頼度の度数分布を示す図である。正解の場合の第2音声認識結果の信頼度の度数分布100は、主にコマンドフレーズ群により得られる。不正解の場合の第2音声認識結果の信頼度の度数分布102は、主に自然発話フレーズ群により得られる。
次に、図2の度数分布から、車速がゼロの場合の信頼度のしきい値を定める。しきい値の定め方は特に限定されないが、例えば、図2に示されるように、正解で選択されない数と、不正解で選択される数との和が最小になる信頼度C1を、しきい値として定める。このしきい値が、記憶部28に記憶される。
次に、車速と補正値との対応関係の設定方法の一例について説明する。以上と同様に、車両が走行した状態、例えば車速が約100km/hの状態で、コマンドフレーズ群と自然発話フレーズ群とを音声認識部24で音声認識し、第2音声認識結果が正解である場合と不正解である場合のそれぞれの第2音声認識結果の信頼度の度数分布を導出する。
図3は、図1の音声認識部24による、車両が走行した状態における第2音声認識結果の信頼度の度数分布を示す図である。図2と比較して、度数分布110と度数分布112は、ノイズの影響により、信頼度が低い側に偏っている。
次に、図3の度数分布から、図2の場合と同様に、車速が100km/hの場合の正解で選択されない数と不正解で選択される数との和が最小になる信頼度C2を定める。そして、図3で定められた信頼度C2と図2のしきい値との差を導出する。このような処理を他の車速についても行い、各車速で定められた正解で選択されない数と不正解で選択される数との和が最小になる信頼度と、図2のしきい値との差を導出する。
次に、車速がゼロの場合の補正値を実験により設定し、上述の各車速について導出された差を、車速がゼロの場合の補正値に加算して、加算結果を各車速での補正値とする。
なお、車速と補正値との対応関係は、任意の様々な設定方法で定めることができる。例えば、補正値は、複数の車速のそれぞれにおいて、実験により設定してもよい。
この構成は、ハードウエア的には、任意のコンピュータのCPU、メモリ、その他のLSIで実現でき、ソフトウエア的にはメモリにロードされたプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。
次に、以上の構成による音声認識システム1の全体的な動作を説明する。図4は、図1の音声認識システム1の処理を示すフローチャートである。図4の処理は、マイク20が音声の音声データを出力すると実行される。
通信部22は、音声データをサーバ装置12に送信する(S10)。音声認識部24は、音声データに基づいて音声認識を行う(S12)。第2音声認識結果の信頼度がしきい値以上である場合(S14のY)、選択部30は、第2音声認識結果を選択し(S16)、処理を終了する。
第2音声認識結果の信頼度がしきい値未満である場合(S14のN)、選択部30は、車速に対応する補正値で第2音声認識結果の信頼度を補正する(S18)。通信部22は、サーバ装置12から第1音声認識結果および第1音声認識結果の信頼度を受信する(S20)。ステップS20の処理は、ステップS12とステップS14の間に行われてもよいし、ステップS14とステップS18の間に行われてもよい。
第2音声認識結果の信頼度が第1音声認識結果の信頼度以上である場合(S22のY)、ステップS16に移行する。第2音声認識結果の信頼度が第1音声認識結果の信頼度未満である場合(S22のN)、選択部30は、第1音声認識結果を選択し(S24)、処理を終了する。
次に、音声認識システム1の動作の具体的な例について説明する。
(第1の例)
発話された音声が、音声認識部24の音声認識可能な語彙からなる「電話をかける山田」である例について説明する。また、車速が比較的大きく、例えば100km/hであり、第1音声認識結果の信頼度は7000であり、第2音声認識結果の信頼度は5500であり、しきい値未満であることを想定する。
選択部30は、第2音声認識結果の信頼度がしきい値未満であるため、第2音声認識結果の信頼度を補正する。この車速での補正値が、例えば2000である場合、補正された第2音声認識結果の信頼度は7500であり、第1音声認識結果の信頼度より高い。そのため、選択部30は、第2音声認識結果を選択する。
車速が比較的大きい場合、すなわちノイズが比較的大きい場合、音声認識部24の音声認識可能な語彙であれば、音声認識部24はサーバ装置12よりも誤認識しにくい傾向がある。音声認識部24では、サーバ装置12と比較して、音声認識可能な語彙数が少ないため、ノイズの影響によってある音声を正しい単語に類似した別の単語として誤認識しにくいためである。そのため、この例のように第2音声認識結果の信頼度が比較的高い場合には、第2音声認識結果を選択することで、音声認識の精度を向上できる。
なお、この第1の例において、車速がより小さい場合には、第2音声認識結果の信頼度は、より高くなり、しきい値以上となる可能性がある。その場合、選択部30は、第1音声認識結果の信頼度とは無関係に、第2音声認識結果を選択する。
(第2の例)
発話された音声が、音声認識部24の音声認識不可能な語彙を含む「どこかおいしいそば屋はありますか」である例について説明する。また、車速が第1の例の車速と同じであり、第1音声認識結果の信頼度は7000であり、第2音声認識結果の信頼度は2000であり、しきい値未満であることを想定する。音声認識部24は、この音声を正しく音声認識できないため、第2音声認識結果の信頼度は第1の例より低い。
この車速での補正値が2000である場合、補正された第2音声認識結果の信頼度は4000であり、第1音声認識結果の信頼度より低い。そのため、選択部30は、第1音声認識結果を選択する。
音声認識部24の音声認識不可能な語彙であれば、ノイズの大きさによらず音声認識部24は誤認識している。そのため、この例のように第2音声認識結果の信頼度が比較的低い場合には、第1音声認識結果を選択することで、音声認識の精度を向上できる。
このように本実施の形態によれば、検出された車速に対応する補正値で第2音声認識結果の信頼度を補正するので、車速が比較的大きい場合、すなわちノイズが比較的大きい場合に、車載の音声認識部24の第2音声認識結果を選択する可能性を高めることができる。音声認識部24の音声認識可能な語彙数が、サーバ装置12の音声認識可能な語彙数より少なく、ノイズが比較的大きい場合、音声認識部24の音声認識可能な語彙であれば、音声認識部24はサーバ装置12よりも誤認識しにくい。そのため、ノイズが比較的大きい場合に、誤認識の可能性を低減できる。
また、音声認識部24の音声認識処理を変更する必要がなく、ノイズを除去する構成を設ける必要もない。よって、簡素な構成で、車室内での音声認識の精度を向上できる。
これに対して、第2音声認識結果の信頼度を補正しない比較例では、車速が比較的大きい場合、正しく音声認識された第2音声認識結果を選択する可能性が低くなる。
以上、実施の形態をもとに本発明を説明した。実施の形態はあくまでも例示であり、各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
例えば、信頼度のしきい値は、車両の車速に応じて変化してもよい。この場合、記憶部28は、車両の車速と、信頼度のしきい値との対応関係を記憶している。このような対応関係は、図3を参照して説明した各車速における正解で選択されない数と不正解で選択される数との和が最小になる信頼度を、各車速でのしきい値とすることで、設定できる。車速が大きくなるほど、しきい値は小さくなる。選択部30は、記憶部28に記憶された車速としきい値との対応関係に基づいて、取得部26から出力された車両の車速に対応するしきい値を特定し、特定したしきい値と第2音声認識結果の信頼度とを比較してもよい。この変形例では、車速が比較的大きい場合に、サーバ装置12による第1音声認識結果を待たずに、車載の音声認識部24の第2音声認識結果を選択する可能性を高めることができる。なお、信頼度のしきい値が車両の車速に応じて変化する場合、選択部30は、補正値で第1音声認識結果の信頼度または第2音声認識結果の信頼度を補正しなくてもよい。
また、音声認識システム1は、それぞれ異なる音声認識性能を有する複数のサーバ装置を備えてもよい。選択部30は、音声認識部24の第2音声認識結果の信頼度がしきい値未満である場合、車速に対応する補正値で複数のサーバ装置の複数の第1音声認識結果の信頼度または第2音声認識結果の信頼度を補正し、複数の第1音声認識結果と第2音声認識結果のうち信頼度が高いものを選択する。この変形例では、音声認識システム1の音声認識性能をより詳細に調整できる。
また、選択部30は、検出された車両の車速に対応する補正値を第1音声認識結果の信頼度から減算して、第1音声認識結果の信頼度を補正してもよい。この変形例では、音声認識システム1の構成の自由度を高めることができる。
1…音声認識システム、10…音声認識装置、12…サーバ装置、20…マイク、22…通信部、24…音声認識部、26…取得部、28…記憶部、30…選択部。

Claims (4)

  1. 車両の乗員により発話された音声のデータを、当該音声を音声認識して第1音声認識結果および第1音声認識結果の信頼度を導出するサーバ装置に送信し、前記サーバ装置から前記第1音声認識結果および前記第1音声認識結果の信頼度を受信する通信部と、
    前記音声を音声認識して第2音声認識結果および第2音声認識結果の信頼度を出力する音声認識部と、
    予め定められた前記車両の車速と補正値との対応関係に基づいて、検出された前記車両の車速に対応する補正値で前記第1音声認識結果の信頼度または前記第2音声認識結果の信頼度を補正し、前記第1音声認識結果と前記第2音声認識結果のうち信頼度が高いものを選択する選択部と、
    を備えることを特徴とする音声認識装置。
  2. 前記音声認識部の音声認識可能な語彙数は、前記サーバ装置の音声認識可能な語彙数より少ないことを特徴とする請求項1に記載の音声認識装置。
  3. 前記対応関係において、前記車両の車速が増加するほど、補正値は増加し、
    前記選択部は、検出された前記車両の車速に対応する補正値を、前記第2音声認識結果の信頼度に加算することを特徴とする請求項1または2に記載の音声認識装置。
  4. 車両の乗員により発話された音声のデータを、当該音声を音声認識して第1音声認識結果および第1音声認識結果の信頼度を出力するサーバ装置に送信し、前記サーバ装置から前記第1音声認識結果および前記第1音声認識結果の信頼度を受信するステップと、
    前記音声を音声認識して第2音声認識結果および第2音声認識結果の信頼度を出力するステップと、
    予め定められた前記車両の車速と補正値との対応関係に基づいて、検出された前記車両の車速に対応する補正値で前記第1音声認識結果の信頼度または前記第2音声認識結果の信頼度を補正し、前記第1音声認識結果と前記第2音声認識結果のうち信頼度が高いものを選択するステップと、
    を備えることを特徴とする音声認識方法。
JP2018007064A 2018-01-19 2018-01-19 音声認識装置および音声認識方法 Withdrawn JP2019124881A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018007064A JP2019124881A (ja) 2018-01-19 2018-01-19 音声認識装置および音声認識方法
CN201910020187.4A CN110060660A (zh) 2018-01-19 2019-01-09 语音识别装置和语音识别方法
US16/249,495 US20190228776A1 (en) 2018-01-19 2019-01-16 Speech recognition device and speech recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018007064A JP2019124881A (ja) 2018-01-19 2018-01-19 音声認識装置および音声認識方法

Publications (1)

Publication Number Publication Date
JP2019124881A true JP2019124881A (ja) 2019-07-25

Family

ID=67299415

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018007064A Withdrawn JP2019124881A (ja) 2018-01-19 2018-01-19 音声認識装置および音声認識方法

Country Status (3)

Country Link
US (1) US20190228776A1 (ja)
JP (1) JP2019124881A (ja)
CN (1) CN110060660A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200361452A1 (en) * 2019-05-13 2020-11-19 Toyota Research Institute, Inc. Vehicles and methods for performing tasks based on confidence in accuracy of module output

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002103675A1 (en) * 2001-06-19 2002-12-27 Intel Corporation Client-server based distributed speech recognition system architecture
FR2883656B1 (fr) * 2005-03-25 2008-09-19 Imra Europ Sas Soc Par Actions Traitement continu de la parole utilisant une fonction de transfert heterogene et adaptee
WO2011148594A1 (ja) * 2010-05-26 2011-12-01 日本電気株式会社 音声認識システム、音声取得端末、音声認識分担方法および音声認識プログラム
CN103038818B (zh) * 2010-06-24 2016-10-12 本田技研工业株式会社 在车载语音识别系统与车外语音识别系统之间的通信系统和方法
CN103079258A (zh) * 2013-01-09 2013-05-01 广东欧珀移动通信有限公司 一种提高语音识别准确性的方法及移动智能终端
US9311915B2 (en) * 2013-07-31 2016-04-12 Google Inc. Context-based speech recognition
CN103730119B (zh) * 2013-12-18 2017-01-11 惠州市车仆电子科技有限公司 车载人机语音交互系统
EP2930716B1 (en) * 2014-04-07 2018-10-31 Samsung Electronics Co., Ltd Speech recognition using electronic device and server
CN104282306A (zh) * 2014-09-22 2015-01-14 奇瑞汽车股份有限公司 一种车载语音识别交互方法和终端、服务器
CN106328148B (zh) * 2016-08-19 2019-12-31 上汽通用汽车有限公司 基于本地和云端混合识别的自然语音识别方法、装置和系统

Also Published As

Publication number Publication date
US20190228776A1 (en) 2019-07-25
CN110060660A (zh) 2019-07-26

Similar Documents

Publication Publication Date Title
CN106816149B (zh) 车辆自动语音识别系统的优先化内容加载
CN105529026B (zh) 语音识别装置和语音识别方法
US8738368B2 (en) Speech processing responsive to a determined active communication zone in a vehicle
US10083685B2 (en) Dynamically adding or removing functionality to speech recognition systems
US8639508B2 (en) User-specific confidence thresholds for speech recognition
US20160039356A1 (en) Establishing microphone zones in a vehicle
US8438028B2 (en) Nametag confusability determination
US9082414B2 (en) Correcting unintelligible synthesized speech
US9484027B2 (en) Using pitch during speech recognition post-processing to improve recognition accuracy
US9502030B2 (en) Methods and systems for adapting a speech system
US9881609B2 (en) Gesture-based cues for an automatic speech recognition system
US20180074661A1 (en) Preferred emoji identification and generation
US20130211828A1 (en) Speech processing responsive to active noise control microphones
US20160111090A1 (en) Hybridized automatic speech recognition
US20140136201A1 (en) Adaptation methods and systems for speech systems
US8438030B2 (en) Automated distortion classification
US9473094B2 (en) Automatically controlling the loudness of voice prompts
US10008205B2 (en) In-vehicle nametag choice using speech recognition
US20160307568A1 (en) Speech recognition using a database and dynamic gate commands
US20180075842A1 (en) Remote speech recognition at a vehicle
US20130211832A1 (en) Speech signal processing responsive to low noise levels
CN105047196B (zh) 语音识别系统中的语音假象补偿系统和方法
US10468017B2 (en) System and method for understanding standard language and dialects
US20120197643A1 (en) Mapping obstruent speech energy to lower frequencies
JP2016061888A (ja) 音声認識装置、音声認識対象区間設定方法、及び音声認識区間設定プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200728

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20200924