JP2015089697A - 車両用音声認識装置 - Google Patents

車両用音声認識装置 Download PDF

Info

Publication number
JP2015089697A
JP2015089697A JP2013229331A JP2013229331A JP2015089697A JP 2015089697 A JP2015089697 A JP 2015089697A JP 2013229331 A JP2013229331 A JP 2013229331A JP 2013229331 A JP2013229331 A JP 2013229331A JP 2015089697 A JP2015089697 A JP 2015089697A
Authority
JP
Japan
Prior art keywords
vehicle
content
speech
voice
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013229331A
Other languages
English (en)
Inventor
健介 花岡
Kensuke Hanaoka
健介 花岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2013229331A priority Critical patent/JP2015089697A/ja
Priority to US15/032,474 priority patent/US20160267909A1/en
Priority to PCT/IB2014/002453 priority patent/WO2015068033A1/en
Publication of JP2015089697A publication Critical patent/JP2015089697A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Abstract

【課題】音声認識に基づく車両の動作の制御精度をより高めることのできる車両用音声認識装置を提供する。【解決手段】車両用音声認識装置は、学習部132と、認識処理部131と、発話推定部137と、制御部136とを備える。学習部132は、認識される音声の内容とそのときの車両の情報とを関連付けて車両情報記憶部135に記憶して音声の内容と車両の情報との関係を学習する。認識処理部131は、発話が行われる都度、発話された音声の認識精度を算出する。発話推定部137は、認識処理部131による算出値が所定の閾値未満となる条件下で車両の情報を読み込む。そして、読み込んだ車両の情報が車両情報記憶部135にあるとき、車両の情報に関連付けられている音声の内容を発話された音声の内容であると推定する。制御部136は、発話推定部137が音声の内容を推定したときには、その推定した音声の内容に基づいて車両の動作を制御する。【選択図】図1

Description

本発明は、発話により入力された音声の内容に基づき車両の動作を制御する車両用音声認識装置に関する。
従来から、車両の乗員が発した音声を認識し、その認識結果に関連付けて設定されているコマンドを車両に搭載された機器に送信することによって車両の動作を制御する車両用音声認識装置が提案されている。
こうした車両用音声認識装置の一例としては、例えば特許文献1に見られるように、車速に応じて当該車両が走行中である道路の状況を推定するとともに、その推定結果に応じて対象とするコマンドを限定することにより、車両の動作を制御するうえでの音声認識率の向上を図った装置が知られている。
特開2008−26464号公報
ところで、上記文献に記載の装置において、例えば踏切等のように、突発音が発生する場所に車両が位置するときには、装置に入力される音声に大きなノイズが含まれることとなり、音声の認識精度が十分に得られない。すなわち、対象とするコマンドを道路の状況に応じて限定するにせよ、そもそも音声の認識が困難であるような場合には、音声認識に基づく車両の動作の制御精度そのものの低下が避けられない。
本発明は、このような実情に鑑みてなされたものであり、その目的は、音声認識に基づく車両の動作の制御精度をより高めることのできる車両用音声認識装置を提供することにある。
以下、上記課題を解決するための手段及びその作用効果について記載する。
上記課題を解決する車両用音声認識装置は、車両に搭載され、発話によって認識される音声の内容に基づいて車両の動作を制御する制御部を備える車両用音声認識装置であって、前記認識される音声の内容とそのときの車両の情報とを関連付けて車両情報記憶部に記憶して音声の内容と車両の情報との関係を学習する学習部と、前記発話が行われる都度、発話された音声の認識精度を算出する認識精度算出部と、前記認識精度算出部による算出値が所定の閾値未満となる条件下で車両の情報を読み込み、該読み込んだ車両の情報が前記車両情報記憶部にあるとき、該車両の情報に関連付けられている音声の内容を発話された音声の内容であると推定する発話推定部とを備え、前記制御部は、前記発話推定部によって音声の内容が推定されるときには、その推定される音声の内容に基づいて車両の動作を制御する。
上記構成によれば、発話された音声に大きなノイズが含まれる等により、音声の認識精度が十分に担保されない場合であっても、音声が認識されたときの車両の情報が、認識された音声の内容と関連付けて学習される。これにより、ドライバによる車両の操作態様に合わせて発話の内容が推定される。そのため、いわば不感帯となるような制御領域が排除されて、音声認識に基づく車両の動作の制御精度をより高めることができる。
好ましい構成として、前記学習部は、前記認識精度算出部による算出値が前記所定の閾値以上となる条件下で、そのときの車両の情報と認識された音声の内容とを関連付けて前記車両情報記憶部に記憶する。
上記構成によれば、音声が精度よく認識されたときの車両の情報を、認識された音声の内容と関連付けて学習させることができるようになる。これにより、ドライバによる車両の操作態様に合わせて発話の内容がより正確に推定される。そのため、音声認識に基づく車両の動作の制御精度を更に高めることができる。
好ましい構成として、前記学習部は、前記認識精度算出部による算出値が前記所定の閾値以上となる条件下で、その前後の一定の時間にわたる車両の情報と認識された音声の内容とを関連付けて前記車両情報記憶部に記憶する。
上記構成によれば、音声が精度よく認識されたときの前後の一定の時間にわたる車両の情報を、認識された音声の内容と関連付けて学習させることができるようになる。これにより、ドライバによる一定の時間内における車両の一連の操作態様に合わせて発話の内容がより正確に推定される。そのため、音声認識に基づく車両の動作の制御精度を更に高めることができる。
好ましい構成として、前記学習部は、前記認識精度算出部による算出値が前記所定の閾値未満となる条件下では、前記車両の情報の前記車両情報記憶部への記憶を禁止する。
上記構成によれば、音声が精度よく認識されなかった場合には、車両の情報の学習が禁止される。そのため、音声の認識精度が十分に担保されない場合における車両の動作の制御精度も適正に維持される。
好ましい構成として、前記音声の発話主体を特定する発話主体特定部を更に備え、前記学習部は、前記車両の情報を前記発話主体特定部によって特定された発話主体の別に前記車両情報記憶部に記憶するものであり、前記発話推定部は、前記発話された音声の内容を車両の情報に基づき推定するに際し、前記発話主体特定部によって特定された発話主体を前記車両情報記憶部から検索してその対応する音声の内容を推定する。
上記構成によれば、同一の車両を使用する異なるドライバによる車両のそれぞれの操作態様に合わせて車両の動作が制御される。そのため、音声認識に基づく車両の動作の制御の汎用性も併せて高めることができる。
上記課題を解決する車両用音声認識装置は、車両に搭載され、発話によって認識される音声の内容に基づいて車両の動作を制御する制御部を備える車両用音声認識装置であって、音声の内容と車両の情報とを関連付けて記憶する車両情報記憶部と、前記発話が行われる都度、発話された音声の認識精度を算出する認識精度算出部と、前記認識精度算出部による算出値が所定の閾値未満となる条件下で車両の情報を読み込み、該読み込んだ車両の情報が前記車両情報記憶部にあるとき、該車両の情報に関連付けられている音声の内容を発話された音声の内容であると推定する発話推定部とを備え、前記制御部は、前記発話推定部によって音声の内容が推定されるときには、その推定される音声の内容に基づいて車両の動作を制御する。
上記構成によれば、発話された音声に大きなノイズが含まれる等により、音声の認識精度が十分に担保されない場合であっても、そのときの車両の情報と関連付けて記憶されている音声の内容に基づき発話の内容が推定される。そのため、いわば不感帯となるような制御領域が排除されて、音声認識に基づく車両の動作の制御精度をより高めることができる。
好ましい構成として、前記音声の発話主体を特定する発話主体特定部を更に備え、前記車両情報記憶部には、前記車両の情報が発話主体の別にその音声の内容と関連付けられて記憶されており、前記発話推定部は、前記発話された音声の内容を車両の情報に基づき推定するに際し、前記発話主体特定部によって特定された発話主体を前記車両情報記憶部から検索してその対応する音声の内容を推定する。
上記構成によれば、同一の車両を使用する異なるドライバに個別に対応する制御条件で車両の動作が制御される。そのため、音声認識に基づく車両の動作の制御の汎用性も併せて高めることができる。
第1の実施の形態の車両用音声認識装置が適用される車両の概略構成を示すブロック図。 同実施の形態の車両情報記憶部が発話の内容と関連付けて記憶している車両の情報の一例を示す模式図。 同実施の形態の音声認識部が実行する音声認識処理の処理手順を示すフローチャート。 第2の実施の形態の車両用音声認識装置にあって車両情報記憶部が発話の内容と関連付けて記憶している車両の情報の一例を示す模式図。 同実施の形態の車両情報記憶部が車両の情報として記憶している車両の走行位置の位置関係を示す模式図。
(第1の実施の形態)
以下、車両用音声認識装置の第1の実施の形態について図面を参照して説明する。
図1に示すように、本実施の形態の車両用音声認識装置が適用される車両は、車速センサ101、GPS(Global Positioning System)102、通信機103、窓開閉センサ104を備えており、これらの要素は車載制御装置120に対して電気的に接続されている。
車速センサ101は、車両の速度である車速を検出し、この検出した車速に応じた信号を車載制御装置120に出力する。GPS102は、当該GPS102が搭載される車両の絶対位置を検出するためのGPS衛星信号を受信する。また、GPS102は、受信したGPS衛星信号に基づき車両の走行位置を特定するとともに、この特定した走行位置を示す緯度経度情報を車載制御装置120に出力する。通信機103は、例えば、管理センターとの無線通信を通じて車両の周辺の環境情報(外気温、天気、渋滞状況等)を取得する。また、通信機103は、取得した環境情報を車載制御装置120に出力する。窓開閉センサ104は、車両の窓の開閉状態を検出し、この検出した開閉状態に応じた信号を車載制御装置120に出力する。
また、本実施の形態の車載制御装置120は、車両の乗員が発した音声を認識する音声認識部130を備えている。音声認識部130は、車両に設けられたマイク140を通じて車両の乗員が発した音声の信号が入力される認識処理部131を有している。
認識処理部131は、例えば、マイク140から入力される音声を一定の時間幅を有する複数の区間に分割するとともに、分割した区間に含まれる音声の特徴ベクトルを予め用意した音声パターンの特徴ベクトルに対してDP(dynamic programming)マッチング等により照合する。そして、認識処理部131は、特徴ベクトルの類似度が最も高い音声パターンをその区間において発せられた音声の内容であると認識するとともに、認識した音声の内容をテキストデータに変換する。また、認識処理部131は、変換したテキストデータを学習部132に入力する。
また、認識処理部131は、発話が行われる都度、発話における音声認識の認識率(認識精度)を算出する認識精度算出部として機能する。この認識率の算出は、例えば、一の発話に含まれる音声の特徴ベクトルとテキストデータに変換された音声の特徴ベクトルとの類似度をその発話を含む全ての区間で足し合わせた値に基づき行われる。そして、認識処理部131は、算出した音声認識の認識率を認識率判定部133に入力する。
認識率判定部133は、認識処理部131から入力された認識率の値が予め設定した所定の閾値X以上であるか否かを判定する。この場合、所定の閾値Xは、認識処理部131が認識した音声の内容に基づき車両の動作を制御することが適切であるか否かを判定する上での基準となる値として設定されている。そして、認識率判定部133は、認識処理部131から入力された認識率の値が所定の閾値X以上であると判定したときには、肯定判定を示す信号を学習部132に出力する。一方、認識率判定部133は、認識処理部131から入力された認識率の値が所定の閾値X未満であると判定したときには、否定判定を示す信号を学習部132に出力する。
また、本実施の形態の音声認識部130は、車両に設けられた無線通信部141に対して電気的に接続された個人特定部134を有している。無線通信部141は、車両の乗員が所有している携帯情報端末200から無線通信によって送信された情報に含まれる個人IDの情報を個人特定部134に入力する。
個人特定部134は、無線通信部141から入力された個人IDの情報に基づき車両に搭乗している乗員を発話主体として特定する発話主体特定部として機能する。なお、個人特定部134は、複数の乗員が車両に搭乗しており、これらの乗員が所有する携帯情報端末200から無線通信部141を通じて複数の個人IDの情報が入力されるときには、それらの個人IDにより特定される携帯情報端末200の所有者の一覧を車両に搭載されたモニタ等に出力して表示させてもよい。この場合、ドライバは、モニタに表示された所有者の一覧の中から自身を選択することにより、自身を発話主体として設定してもよい。
学習部132は、認識率判定部133から肯定判定を示す信号が入力されたときには、認識処理部131から入力されたテキストデータと発話の内容のモデルとを照合する。そして、学習部132は、モデルのうちから照合された発話の内容を車両の乗員が発した発話の内容として特定する。この場合、モデルは、予め用意された発話の内容のテキストデータに対し、ベイジアンネットワークや決定木等のモデル化の手法を適用することにより生成される。
そして、学習部132は、特定した発話の内容を、個人特定部134によって特定された車両のドライバごとに区別しつつ、そのときの車両の情報と関連付けて車両情報記憶部135に記憶する。この場合、車両の情報は、車両の走行位置、日時、車速、車両の周辺の天気、車両の窓の開閉状態等を含んでいる。図2に示す例では、第1の発話V1(「窓を開けて」)及び第2の発話V2(「オーディオの音量を下げて」)が、これらの発話が行われた三つの時点における車両の情報と関連付けて車両情報記憶部135に記憶されている。この例では、これらの発話V1,V2が特定された何れの時点においても、その発話の主体となるドライバ「A」は共通であるとともに、そのときの車両の走行位置「P1」は共通であり、更には、そのときの車両の窓は何れも「閉状態」であった。その一方で、第1の発話V1が特定されたときには、車両の周辺の天気は何れの時点においても「晴れ」であったのに対し、第2の発話V2が特定されたときには、車両の周辺の天気は何れの時点においても「雨」であった。すなわち、この例では、ドライバ「A」の運転操作により車両が窓を閉じた状態で特定の走行位置「P1」を走行しているときには、そのときの車両の周辺の天気に応じてドライバ「A」から発せられる発話の内容が一律となる傾向にある。
また、認識率判定部133は、認識処理部131から入力された認識率の値が所定の閾値X以上であると判定したときには、肯定判定を示す信号を制御部136にも出力する。そして、制御部136は、認識率判定部133から肯定判定を示す信号が入力されたときには、学習部132が認識処理部131から入力されたテキストデータと発話の内容のモデルとの照合により特定した発話の内容を示す情報を学習部132から読み出す。そして、制御部136は、学習部132から読み出した発話の内容に応じた制御条件でアクチュエータ150の動作を制御する。なお、本実施の形態では、アクチュエータ150は、例えば、車両の窓の開閉動作や、車両に搭載されたオーディオ機器の動作や、車両のウインカーの点灯動作等のように、様々な車載機器の動作を制御している。
一方、学習部132は、認識率判定部133から否定判定を示す信号が入力されたときには、認識処理部131から入力されたテキストデータと発話の内容のモデルとの照合を行わない。すなわち、学習部132は、認識率判定部133から否定判定を示す信号が入力されたときには、そのときの車両の情報をマイク140から入力される音声の内容と関連付けて車両情報記憶部135に記憶することを禁止する。
また、認識率判定部133は、認識処理部131から入力された認識率の値が所定の閾値X未満であると判定したときには、否定判定を示す信号を発話推定部137にも出力する。そして、発話推定部137は、認識率判定部133から否定判定を示す信号が入力されたときには、そのときの車両の情報を、車速センサ101、GPS102、通信機103、窓開閉センサ104から学習部132に入力される信号に基づき学習部132に取得させるとともに、取得させた車両の情報を学習部132から読み出す。また、発話推定部137は、車両情報記憶部135に記憶されている情報を学習部132から併せて読み出す。そして、発話推定部137は、車両情報記憶部135から読み出した情報のうちから個人特定部134が特定した発話主体を検索するとともに、その検索によって得られた情報の中で学習部132から読み出した車両の情報に対する類似度が最も高い情報を抽出する。そして、発話推定部137は、抽出した情報に対応する発話の内容を車両の乗員が発した発話の内容として推定する。また、発話推定部137は、推定した発話の内容を示す信号を制御部136に出力する。そして、制御部136は、発話推定部137から入力された発話の内容の推定結果に応じた制御条件でアクチュエータ150の動作を制御する。
次に、図3のフローチャートを参照しながら本実施の形態の車両用音声認識装置にあって音声認識部130が実行する音声認識処理の処理手順の概要を説明する。
音声認識部130は、マイク140を通じて音声が入力される毎に、図3に示す音声認識処理を実行する。そして、認識処理部131は、マイク140を通じて入力された音声の内容を認識する(ステップS10)。
そして次に、個人特定部134は、無線通信部141から入力された個人IDの情報に基づき車両に搭乗している乗員を特定するとともに、特定した乗員のうちから音声の発話主体を設定する(ステップS11)。
続いて、認識率判定部133は、先のステップS10において認識処理部131が音声の内容を認識する際に算出した音声認識の認識率を認識処理部131から読み出すとともに、読み出した認識率が所定の閾値X以上であるか否かを判定する(ステップS12)。
そして、学習部132は、認識率判定部133が読み出した認識率が所定の閾値X以上である(ステップS12=YES)ときには、先のステップS10において認識処理部131が認識した音声の内容と発話の内容のモデルとを照合することにより、車両の乗員が発した発話の内容を特定する。また、学習部132は、特定した発話の内容を、先のステップS11において個人特定部134が特定した発話主体ごとに区別しつつ、そのときの車両の情報と関連付けて車両情報記憶部135に記憶する(ステップS13)。そして、制御部136は、先のステップS13において特定された発話の内容に応じた制御条件でアクチュエータ150の動作を制御する(ステップS14)。
一方、発話推定部137は、先のステップS12において認識率判定部133が読み出した認識率が所定の閾値X未満である(ステップS12=NO)ときには、そのときの車両の情報を学習部132に取得させるとともに、取得させた車両の情報を学習部132から読み出す(ステップS15)。そして、発話推定部137は、学習部132から読み出した車両の情報に基づき車両の乗員が発した発話の内容を推定する(ステップS16)。そして、制御部136は、先のステップS16において推定された発話の内容に応じた制御条件でアクチュエータ150の動作を制御する(ステップS17)。
ここで、一例として、音声が認識されたときの車両の情報として、車両の走行位置が「P1」、車両の窓の開閉状態が「閉状態」、車両の周辺の天気が「晴れ」であったとする。この場合、図2に示す例では、これらの車両の情報に関連付けて、「窓を開けて」という発話の内容が車両情報記憶部135に記憶されている。そのため、発話推定部137は、同条件下において、認識率判定部133が読み出した認識率が所定の閾値X未満であるときには、車両の乗員が発した発話の内容として「窓を開けて」という発話の内容を推定する。そして、制御部136は、発話推定部137が推定した発話の内容である「窓を開けて」という発話の内容に応じて、車両の窓を開ける動作をアクチュエータ150の制御を通じて行う。
その一方で、音声が認識されたときの車両の情報として、車両の走行位置が「P1」、車両の窓の開閉状態が「閉状態」である点では上記の場合と共通するものの、車両の周辺の天気が「雨」である点で上記の場合と相違していたとする。この場合、図2に示す例では、これらの車両の情報に関連付けて、「オーディオの音量を下げて」という発話の内容が車両情報記憶部135に記憶されている。そのため、発話推定部137は、同条件下において、認識率判定部133が読み出した認識率が所定の閾値X未満であるときには、車両の乗員が発した発話の内容として「オーディオの音量を下げて」という発話の内容を推定する。そして、制御部136は、発話推定部137が推定した発話の内容である「オーディオの音量を下げて」という発話の内容に応じて、オーディオの音量を下げる動作をアクチュエータ150の制御を通じて行う。
次に、本実施の形態の車両用音声認識装置、特に音声認識部130の作用について説明する。
本実施の形態では、マイク140を通じて入力された音声の認識率が所定の閾値X以上であるときには、認識された音声の内容に基づき発話の内容が特定される。このとき、特定された発話の内容に応じた制御条件でアクチュエータ150の動作が制御されるだけでなく、特定された発話の内容がそのときの車両の情報と関連付けられて車両情報記憶部135に記憶される。
その上で、マイク140を通じて入力された音声の認識率が所定の閾値X未満となったときには、そのときの車両の情報に対する類似度が最も高い情報が車両情報記憶部135に記憶されていた情報のうちから検索される。そして、その検索された情報に対応する発話の内容が車両の乗員が発した発話の内容として推定されるとともに、その推定結果に応じた制御条件でアクチュエータ150の動作が制御される。
この場合、発話の内容が推定される際に、マイク140を通じて入力された音声の内容が考慮されることはない。そのため、マイク140を通じて入力された音声の認識率が著しく低かったとしても、そのときの車両の情報に対する類似度の高い情報が車両情報記憶部135に記憶されていれば、車両の乗員が発した発話の内容を推定することが可能となる。すなわち、今回の発話が行われたときと車両の情報が同一又は類似する条件下において、マイク140を通じて入力された音声が過去に少なくとも一度でも精度よく認識されたのであれば、今回の発話が行われたときの音声の認識率が低かったとしても、発話の内容を適正に推定することが可能となる。
特に、本実施の形態では、発話主体が特定された上で、特定された発話主体の別に、発話の内容がそのときの車両の情報と関連付けられて車両情報記憶部135に記憶される。そのため、同一の車両を異なるドライバが運転する状況下においても、各々のドライバによる車両の操作態様に適した制御条件でアクチュエータ150の動作が制御される。
なお、本実施の形態では、車両の乗員が所有する携帯情報端末200から無線通信を通じて入力された個人IDの情報に基づき発話主体が特定されている。そのため、発話主体が特定される際に、マイク140を通じて入力された音声の内容が考慮されることはない。そのため、マイク140を通じて入力された音声の認識率が著しく低かったとしても発話主体を特定することが可能となる。
以上説明したように、上記第1の実施の形態によれば、以下に示す効果を得ることができる。
(1)発話された音声に大きなノイズが含まれる等により、音声の認識精度が十分に担保されない場合であっても、そのときの車両の情報と関連付けて車両情報記憶部135に記憶されている音声の内容に基づき発話の内容が推定される。そのため、いわば不感帯となるような制御領域が排除されて、音声認識に基づく車両の動作の制御精度をより高めることができる。
(2)音声が認識されたときの車両の情報が、認識された音声の内容と関連付けて車両情報記憶部135に記憶される。その結果、ドライバによる車両の操作態様に合わせて発話の内容がより正確に推定される。そのため、音声認識に基づく車両の動作の制御精度を更に高めることができる。
(3)音声の認識精度が所定の閾値X以上であって音声が精度よく認識されたときの車両の情報が、認識された音声の内容と関連付けて車両情報記憶部135に記憶される。その結果、ドライバによる車両の操作態様に合わせて発話の内容がより正確に推定される。そのため、音声認識に基づく車両の動作の制御精度を更に高めることができる。
(4)音声の認識精度が所定の閾値X未満であって音声が精度よく認識されなかった場合には、車両の情報が車両情報記憶部135に記憶されない。そのため、音声の認識精度が十分に担保されない場合における車両の動作の制御精度が適正に維持される。
(5)発話推定部137は、特定された発話主体を車両情報記憶部135に記憶されている情報から検索し、その対応する音声の内容のうちから発話された音声の内容を推定する。その結果、同一の車両を使用する異なるドライバによる車両のそれぞれの操作態様に合わせて車両の動作が制御される。そのため、音声認識に基づく車両の動作の制御の汎用性も併せて高めることができる。
(第2の実施の形態)
次に、車両用音声認識装置の第2の実施の形態について図面を参照して説明する。なお、第2の実施の形態は、学習部132が車両情報記憶部135に記憶する車両の情報の内容が第1の実施の形態と異なる。したがって、以下の説明においては、第1の実施の形態と相違する構成について主に説明し、第1の実施の形態と同一又は相当する構成については重複する説明を省略する。
本実施の形態の学習部132は、認識処理部131から入力されたテキストデータと発話の内容のモデルとの照合により特定した発話の内容を、その前後の一定の時間にわたる車両の情報と関連付けて車両情報記憶部135に記憶する。この場合、車両の情報に含まれる日時は、一定の時間幅を有している。
図4に示す例では、学習部132は、発話の内容を特定した前後の5秒間にわたる車両の情報と関連付けて車両情報記憶部135に記憶しており、車両の情報に含まれる日時は、5秒間の時間幅を有している。この例では、第3の発話V3(「ウインカーを出して」)及び第4の発話V4(「窓を開けて」)が、これらの発話が行われた三つの日時における車両の情報と関連付けて車両情報記憶部135に記憶されている。そして、これらの発話V3,V4が特定された何れの日時においても、その発話の主体となるドライバ「A」は共通であるとともに、そのときの車両の周辺の天気は何れも「晴れ」であり、更には、そのときの車両の窓は何れも「閉状態」であった。その一方で、第3の発話V3が特定されたときには、車両の走行位置は「P2からP3へ移動」していたのに対し、第4の発話V4が特定されたときには、車両の走行位置は「P2からP4へ移動」していた。この場合、図5に示すように、「P2からP3への移動」は、交差点における車両の左折に相当するのに対し、「P2からP4への移動」は、交差点における車両の直進に相当する。すなわち、この例では、ドライバ「A」による運転操作により車両が窓を閉じた状態で天気が「晴れ」であるときに特定の交差点を走行しているときには、その交差点における車両の走行態様に応じてドライバ「A」から発せられる発話の内容が一律となる傾向にある。
ここで、一例として、音声が認識されたときの車両の情報として、車両の走行位置が「P2からP3へ移動」、車両の周辺の天気が「晴れ」、車両の窓の開閉状態が「閉状態」であったとする。この場合、図4に示す例では、これらの車両の情報に関連付けて、「ウインカーを出して」という発話の内容が車両情報記憶部135に記憶されている。そのため、発話推定部137は、同条件下において、認識率判定部133が読み出した認識率が所定の閾値X未満であるときには、車両の乗員が発した発話の内容として「ウインカを出して」という発話の内容を推定する。そして、制御部136は、発話推定部137が推定した発話の内容である「ウインカーを出して」という発話の内容に応じて、左折のためにウインカーを点灯表示させる動作をアクチュエータ150の制御を通じて行う。
その一方で、音声が認識されたときの車両の情報として、車両の周辺の天気が「晴れ」、車両の窓の開閉状態が「閉状態」である点では上記の場合と共通するものの、車両の走行位置が「P2からP4へ移動」している点で上記の場合と相違していたとする。この場合、図4に示す例では、これらの車両の情報に関連付けて、「窓を開けて」という発話の内容が車両情報記憶部135に記憶されている。そのため、発話推定部137は、同条件下において、認識率判定部133が読み出した認識率が所定の閾値X未満であるときには、車両の乗員が発した発話の内容として「窓を開けて」という発話の内容を推定する。そして、制御部136は、発話推定部137が推定した発話の内容である「窓を開けて」という発話の内容に応じて、車両の窓を開ける動作をアクチュエータ150の制御を通じて行う。
したがって、上記第2の実施の形態によれば、上記第1の実施の形態の効果(1)〜(5)に加え、以下に示す効果を得ることができる。
(6)音声が精度よく認識されたときの前後の一定の時間にわたる車両の情報が、認識された音声の内容と関連付けて車両情報記憶部135に記憶される。その結果、ドライバによる一定の時間内における車両の一連の操作態様に合わせて発話の内容がより正確に推定される。そのため、音声認識に基づく車両の動作の制御精度を更に高めることができる。
なお、上記各実施の形態は、以下のような形態にて実施することもできる。
・上記各実施の形態において、発話主体を特定する方法は、携帯情報端末200から無線通信によって送信される個人IDの情報に基づくものに限定されず、例えば、マイク140を通じて入力された音声の声紋を認証することにより発話主体を特定してもよい。
・上記各実施の形態において、学習部132は、音声が認識されたときの車両の情報を発話主体ごとに区別することなく車両情報記憶部135に記憶してもよい。この場合、音声認識部130は、音声の発話主体を特定するための個人特定部134を備えなくてもよい。
・上記各実施の形態において、学習部132は、認識率判定部133が読み出した認識率が所定の閾値X未満であるときにも、認識された音声の内容をそのときの車両の情報と関連付けて車両情報記憶部135に記憶してもよい。
・上記各実施の形態において、認識処理部131が認識した音声の内容に基づき車両の動作を制御することが適切であるか否かを判定する上での基準となる所定の閾値Xを第1の閾値としたときに、その第1の閾値よりも小さい値を第2の閾値として設定してもよい。この場合、発話推定部137は、認識処理部131から入力された認識率の値が第2の閾値以上であって且つ第1の閾値未満であるときには、マイク140を通じて入力させる音声の内容を考慮しつつ、そのときの車両の情報に基づき発話の内容を推定してもよい。その一方で、発話推定部137は、認識処理部131から入力された認識率の値が第2の閾値未満であるときには、マイク140を通じて入力させる音声の内容を考慮することなく、そのときの車両の情報に基づき発話の内容を推定してもよい。
・上記各実施の形態において、認識処理部131は、認識した音声の内容をテキストデータに変換することなく、その音声の波形の情報等を学習部132に入力してもよい。この場合、学習部132は、認識処理部131から入力された音声の波形の情報と発話の内容のモデルとを照合し、モデルのうちから照合された発話の内容を車両の乗員が発した発話の内容として特定する。この場合、モデルは、予め用意された発話の内容に対応する音声の波形の情報を含んでいる。
・上記各実施の形態において、車両の初期設定の際に、音声の内容と車両の情報とを関連付けて車両情報記憶部135に予め記憶させてもよい。この場合、マイク140を通じて入力される音声が認識されたときに、認識された音声の内容をそのときの車両の情報に関連付けて車両情報記憶部135に追加して記憶させてもよい。また、マイク140を通じて入力される音声が認識されたときに、認識された音声の内容をそのときの車両の情報に関連付けて車両情報記憶部135に記憶させなくてもよい。この場合、音声認識部130は、学習部132を備えなくてもよい。また、この場合、車両情報記憶部135は、車両の情報を発話主体の別に記憶してもよいし、車両の情報を発話主体ごとに区別することなく記憶してもよい。
101…車速センサ、102…GPS、103…車載機、104…窓開閉センサ、120…車載制御装置、130…音声認識部、131…認識処理部、132…学習部、133…認識率判定部、134…個人特定部、135…車両情報記憶部、136…制御部、137…発話推定部、140…マイク、141…無線通信部、150…アクチュエータ、200…携帯情報端末。

Claims (7)

  1. 車両に搭載され、発話によって認識される音声の内容に基づいて車両の動作を制御する制御部を備える車両用音声認識装置であって、
    前記認識される音声の内容とそのときの車両の情報とを関連付けて車両情報記憶部に記憶して音声の内容と車両の情報との関係を学習する学習部と、
    前記発話が行われる都度、発話された音声の認識精度を算出する認識精度算出部と、
    前記認識精度算出部による算出値が所定の閾値未満となる条件下で車両の情報を読み込み、該読み込んだ車両の情報が前記車両情報記憶部にあるとき、該車両の情報に関連付けられている音声の内容を発話された音声の内容であると推定する発話推定部とを備え、
    前記制御部は、前記発話推定部によって音声の内容が推定されるときには、その推定される音声の内容に基づいて車両の動作を制御することを特徴とする車両用音声認識装置。
  2. 前記学習部は、前記認識精度算出部による算出値が前記所定の閾値以上となる条件下で、そのときの車両の情報と認識された音声の内容とを関連付けて前記車両情報記憶部に記憶する請求項1に記載の車両用音声認識装置。
  3. 前記学習部は、前記認識精度算出部による算出値が前記所定の閾値以上となる条件下で、その前後の一定の時間にわたる車両の情報と認識された音声の内容とを関連付けて前記車両情報記憶部に記憶する請求項1又は2に記載の車両用音声認識装置。
  4. 前記学習部は、前記認識精度算出部による算出値が前記所定の閾値未満となる条件下では、前記車両の情報の前記車両情報記憶部への記憶を禁止する請求項1〜3の何れか一項に記載の車両用音声認識装置。
  5. 前記音声の発話主体を特定する発話主体特定部を更に備え、
    前記学習部は、前記車両の情報を前記発話主体特定部によって特定された発話主体の別に前記車両情報記憶部に記憶するものであり、
    前記発話推定部は、前記発話された音声の内容を車両の情報に基づき推定するに際し、前記発話主体特定部によって特定された発話主体を前記車両情報記憶部から検索してその対応する音声の内容を推定する請求項1〜4の何れか一項に記載の車両用音声認識装置。
  6. 車両に搭載され、発話によって認識される音声の内容に基づいて車両の動作を制御する制御部を備える車両用音声認識装置であって、
    音声の内容と車両の情報とを関連付けて記憶する車両情報記憶部と、
    前記発話が行われる都度、発話された音声の認識精度を算出する認識精度算出部と、
    前記認識精度算出部による算出値が所定の閾値未満となる条件下で車両の情報を読み込み、該読み込んだ車両の情報が前記車両情報記憶部にあるとき、該車両の情報に関連付けられている音声の内容を発話された音声の内容であると推定する発話推定部とを備え、
    前記制御部は、前記発話推定部によって音声の内容が推定されるときには、その推定される音声の内容に基づいて車両の動作を制御することを特徴とする車両用音声認識装置。
  7. 前記音声の発話主体を特定する発話主体特定部を更に備え、
    前記車両情報記憶部には、前記車両の情報が発話主体の別にその音声の内容と関連付けられて記憶されており、
    前記発話推定部は、前記発話された音声の内容を車両の情報に基づき推定するに際し、前記発話主体特定部によって特定された発話主体を前記車両情報記憶部から検索してその対応する音声の内容を推定する請求項6に記載の車両用音声認識装置。
JP2013229331A 2013-11-05 2013-11-05 車両用音声認識装置 Pending JP2015089697A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2013229331A JP2015089697A (ja) 2013-11-05 2013-11-05 車両用音声認識装置
US15/032,474 US20160267909A1 (en) 2013-11-05 2014-11-03 Voice recognition device for vehicle
PCT/IB2014/002453 WO2015068033A1 (en) 2013-11-05 2014-11-03 Voice recognition device for vehicle

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013229331A JP2015089697A (ja) 2013-11-05 2013-11-05 車両用音声認識装置

Publications (1)

Publication Number Publication Date
JP2015089697A true JP2015089697A (ja) 2015-05-11

Family

ID=51945943

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013229331A Pending JP2015089697A (ja) 2013-11-05 2013-11-05 車両用音声認識装置

Country Status (3)

Country Link
US (1) US20160267909A1 (ja)
JP (1) JP2015089697A (ja)
WO (1) WO2015068033A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108665893A (zh) * 2018-03-30 2018-10-16 斑马网络技术有限公司 车载声音反应系统及方法
JP2020157944A (ja) * 2019-03-27 2020-10-01 本田技研工業株式会社 車両機器制御装置、車両機器制御方法、およびプログラム
WO2023144574A1 (ja) * 2022-01-26 2023-08-03 日産自動車株式会社 音声認識方法及び音声認識装置
WO2023144573A1 (ja) * 2022-01-26 2023-08-03 日産自動車株式会社 音声認識方法及び音声認識装置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10276187B2 (en) 2016-10-19 2019-04-30 Ford Global Technologies, Llc Vehicle ambient audio classification via neural network machine learning
KR102398390B1 (ko) * 2017-03-22 2022-05-16 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
JP7091807B2 (ja) * 2018-04-23 2022-06-28 トヨタ自動車株式会社 情報提供システムおよび情報提供方法
DE102018206366A1 (de) * 2018-04-25 2019-10-31 Bayerische Motoren Werke Aktiengesellschaft Verfahren und System zur Steuerung einer Fahrzeugfunktion
CN109256115A (zh) * 2018-10-22 2019-01-22 四川虹美智能科技有限公司 一种智能家电的语音检测系统及方法
JP2021005157A (ja) * 2019-06-25 2021-01-14 株式会社ソニー・インタラクティブエンタテインメント 画像処理装置および画像処理方法
CN110435660A (zh) * 2019-08-13 2019-11-12 东风小康汽车有限公司重庆分公司 一种车辆驾驶情景模式的自动控制方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0009449A1 (fr) * 1978-09-22 1980-04-02 Societe Electro-Hydraulique Seh Palier pour pompe centrifuge ambivalente
WO2005062293A1 (ja) * 2003-12-05 2005-07-07 Kabushikikaisha Kenwood オーディオ機器制御装置、オーディオ機器制御方法及びプログラム
JP2006071791A (ja) * 2004-08-31 2006-03-16 Fuji Heavy Ind Ltd 車両の音声認識装置
JP2006137366A (ja) * 2004-11-15 2006-06-01 Honda Motor Co Ltd 車両用機器制御装置
JP2006317573A (ja) * 2005-05-11 2006-11-24 Xanavi Informatics Corp 情報端末
JP2010128649A (ja) * 2008-11-26 2010-06-10 Nissan Motor Co Ltd 覚醒状態判断装置及び覚醒状態判断方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3384165B2 (ja) * 1995-02-01 2003-03-10 トヨタ自動車株式会社 音声認識装置
GB0420464D0 (en) * 2004-09-14 2004-10-20 Zentian Ltd A speech recognition circuit and method
US7620549B2 (en) * 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
JP2008026464A (ja) 2006-07-19 2008-02-07 Denso Corp 車両用音声認識装置
JP2008064885A (ja) * 2006-09-05 2008-03-21 Honda Motor Co Ltd 音声認識装置、音声認識方法、及び音声認識プログラム
US20130200991A1 (en) * 2011-11-16 2013-08-08 Flextronics Ap, Llc On board vehicle media controller

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0009449A1 (fr) * 1978-09-22 1980-04-02 Societe Electro-Hydraulique Seh Palier pour pompe centrifuge ambivalente
WO2005062293A1 (ja) * 2003-12-05 2005-07-07 Kabushikikaisha Kenwood オーディオ機器制御装置、オーディオ機器制御方法及びプログラム
JP2006071791A (ja) * 2004-08-31 2006-03-16 Fuji Heavy Ind Ltd 車両の音声認識装置
JP2006137366A (ja) * 2004-11-15 2006-06-01 Honda Motor Co Ltd 車両用機器制御装置
JP2006317573A (ja) * 2005-05-11 2006-11-24 Xanavi Informatics Corp 情報端末
JP2010128649A (ja) * 2008-11-26 2010-06-10 Nissan Motor Co Ltd 覚醒状態判断装置及び覚醒状態判断方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108665893A (zh) * 2018-03-30 2018-10-16 斑马网络技术有限公司 车载声音反应系统及方法
JP2020157944A (ja) * 2019-03-27 2020-10-01 本田技研工業株式会社 車両機器制御装置、車両機器制御方法、およびプログラム
JP7286368B2 (ja) 2019-03-27 2023-06-05 本田技研工業株式会社 車両機器制御装置、車両機器制御方法、およびプログラム
WO2023144574A1 (ja) * 2022-01-26 2023-08-03 日産自動車株式会社 音声認識方法及び音声認識装置
WO2023144573A1 (ja) * 2022-01-26 2023-08-03 日産自動車株式会社 音声認識方法及び音声認識装置

Also Published As

Publication number Publication date
WO2015068033A1 (en) 2015-05-14
US20160267909A1 (en) 2016-09-15

Similar Documents

Publication Publication Date Title
JP2015089697A (ja) 車両用音声認識装置
US10395457B2 (en) User recognition system and methods for autonomous vehicles
US10970747B2 (en) Access and control for driving of autonomous vehicle
EP2586026B1 (en) Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system
US11003414B2 (en) Acoustic control system, apparatus and method
JP6173477B2 (ja) ナビゲーション用サーバ、ナビゲーションシステムおよびナビゲーション方法
KR20180130672A (ko) 상황 기반 대화 개시 장치, 시스템, 차량 및 방법
JP6612707B2 (ja) 情報提供装置
JP6011584B2 (ja) 音声認識装置及び音声認識システム
JP7195161B2 (ja) 案内システム、案内方法、およびプログラム
US20190318746A1 (en) Speech recognition device and speech recognition method
US20200152203A1 (en) Agent device, agent presentation method, and storage medium
CN109102801A (zh) 语音识别方法和语音识别装置
CN104603871A (zh) 用于运行车辆用的语音控制的信息系统的方法和设备
JP6677126B2 (ja) 車両用対話制御装置
KR102599790B1 (ko) 자율 주행 차량을 이용하는 모델 트레이닝 및 온보드 검증을 위한 오디오 로깅
CN111278708B (zh) 用于辅助驾驶的方法和装置
JP6619316B2 (ja) 駐車位置探索方法、駐車位置探索装置、駐車位置探索プログラム及び移動体
CN111196124B (zh) 车内环境调控方法、装置、电子设备和存储介质
US11542744B2 (en) Agent device, agent device control method, and storage medium
JP2019100130A (ja) 車両制御装置及びコンピュータプログラム
JP2020091647A (ja) 情報処理装置及び情報処理プログラム
US20230035752A1 (en) Systems and methods for responding to audible commands and/or adjusting vehicle components based thereon
JP2008026464A (ja) 車両用音声認識装置
CN114655238A (zh) 配置为检查乘客数量的车辆及其控制方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150828

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150901

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151026

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160329