JP6833147B2 - 情報処理装置、プログラム及び情報処理方法 - Google Patents

情報処理装置、プログラム及び情報処理方法 Download PDF

Info

Publication number
JP6833147B2
JP6833147B2 JP2020564014A JP2020564014A JP6833147B2 JP 6833147 B2 JP6833147 B2 JP 6833147B2 JP 2020564014 A JP2020564014 A JP 2020564014A JP 2020564014 A JP2020564014 A JP 2020564014A JP 6833147 B2 JP6833147 B2 JP 6833147B2
Authority
JP
Japan
Prior art keywords
voice
image
utterance
reliability
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020564014A
Other languages
English (en)
Other versions
JPWO2020144857A1 (ja
Inventor
政人 土屋
政人 土屋
利行 花澤
利行 花澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP6833147B2 publication Critical patent/JP6833147B2/ja
Publication of JPWO2020144857A1 publication Critical patent/JPWO2020144857A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Description

本発明は、情報処理装置、プログラム及び情報処理方法に関する。
複数の信号を入力として何らかの認識処理結果等を出力させる方式をマルチモーダルという。一般的に一つの信号のみを用いて処理を行うユニモーダルと比べてマルチモーダルはシステムとしての性能が高くなり、信号ノイズに対してロバストになる傾向がある。
例えば、音響信号と、画像信号とを用いているシステムであれば、音響雑音が強い場合は、より画像信号を用いて認識するように処理することでロバストな認識結果を得ることができる。このような機構は適応型ノイズ抑圧と呼ばれる。
従来の適応型ノイズ抑圧の手法には、例えば、特許文献1に記載されているように、汎用的なデータセットで学習したモデルに対して、使用する環境でのノイズを含む信号で誤認識が少なくなるように再学習させる手法がある。
特開2002−169586号公報
しかしながら、従来の手法は、例えば、既存の人検出技術を組み合わせ、「近辺に音響雑音となりうる人がいなければ画像信号は使用しない方が良い」等といった人間の事前知識を組み込んで、信号の信頼性を調整するような柔軟なシステム設計を行うのは困難である。
そこで、本発明の1又は複数の態様は、信号の信頼性を判定することにより、よりノイズ環境下に強い信号処理を行うことができるようにすることを目的とする。
本発明の1態様に係る情報処理装置は、対象者の音声を含む音声信号から、前記音声信号において前記対象者が発話している確率を示す音声発話尤度を算出する音声発話尤度算出部と、前記対象者を含む画像を示す画像信号から、前記画像信号において前記対象者が発話している確率を示す画像発話尤度を算出する画像発話尤度算出部と、前記音声信号の信頼性を示す音声信頼性、及び、前記画像信号の信頼性を示す画像信頼性を判定する環境情報判定部と、前記音声信頼性が高いほど前記音声発話尤度の重みを重くし、前記画像信頼性が高いほど前記画像発話尤度の重みを重くして、前記音声発話尤度及び前記画像発話尤度を用いて、前記音声信号及び前記画像信号において前記対象者が発話している確率を示す発話尤度を算出し、前記算出された発話尤度が予め定められた閾値以上となっている区間を、発話区間として検出する発話区間検出部と、前記音声信号に対して、前記発話区間において音声認識を実行する音声認識部と、を備える情報処理装置であって、前記情報処理装置は、車に搭載され、前記環境情報判定部は、前記車の速度が速いほど、前記音声信頼性を低くし、前記車に搭乗している搭乗者の数が多いほど、前記画像信頼性を低くすることを特徴とする。
本発明の1態様に係るプログラムは、コンピュータを、対象者の音声を含む音声信号から、前記音声信号において前記対象者が発話している確率を示す音声発話尤度を算出する音声発話尤度算出部、前記対象者を含む画像を示す画像信号から、前記画像信号において前記対象者が発話している確率を示す画像発話尤度を算出する画像発話尤度算出部、前記音声信号の信頼性を示す音声信頼性、及び、前記画像信号の信頼性を示す画像信頼性を判定する環境情報判定部、前記音声信頼性が高いほど前記音声発話尤度の重みを重くし、前記画像信頼性が高いほど前記画像発話尤度の重みを重くして、前記音声発話尤度及び前記画像発話尤度を用いて、前記音声信号及び前記画像信号において前記対象者が発話している確率を示す発話尤度を算出し、前記算出された発話尤度が予め定められた閾値以上となっている区間を、発話区間として検出する発話区間検出部、及び、前記音声信号に対して、前記発話区間において音声認識を実行する音声認識部、として機能させるプログラムであって、前記コンピュータは、車に搭載され、前記環境情報判定部は、前記車の速度が速いほど、前記音声信頼性を低くし、前記車に搭乗している搭乗者の数が多いほど、前記画像信頼性を低くすることを特徴とする。
本発明の1態様に係る情報処理方法は、車に乗っている対象者の音声を含む音声信号から、前記音声信号において前記対象者が発話している確率を示す音声発話尤度を算出し、前記対象者を含む画像を示す画像信号から、前記画像信号において前記対象者が発話している確率を示す画像発話尤度を算出し、前記車の速度が早いほど、前記音声信号の信頼性を示す音声信頼性を低く判定し、及び、前記車に搭乗している搭乗者の数が多いほど、前記画像信号の信頼性を示す画像信頼性を低く判定し、前記音声信頼性が高いほど前記音声発話尤度の重みを重くし、前記画像信頼性が高いほど前記画像発話尤度の重みを重くして、前記音声発話尤度及び前記画像発話尤度を用いて、前記音声信号及び前記画像信号において前記対象者が発話している確率を示す発話尤度を算出し、前記算出された発話尤度が予め定められた閾値以上となっている区間を、発話区間として検出し、前記音声信号に対して、前記発話区間において音声認識を実行することを特徴とする。
本発明の一態様によれば、信号の信頼性を判定することにより、よりノイズ環境下に強い信号処理を行うことができる。
実施の形態に係る音声認識装置の構成を概略的に示すブロック図である。 実施の形態に係る音声認識装置を含む、車載用の音声認識システムの概略図である。 環境情報判定部の構成を概略的に示すブロック図である。 一人の搭乗者の発話リストの一例を示す概略図である。 実施の形態に係る音声認識装置のハードウェア構成を概略的に示すブロック図である。 実施の形態に係る音声認識装置の動作の流れを示すフローチャートである。
図1は、実施の形態に係る情報処理装置である音声認識装置100の構成を概略的に示すブロック図である。
音声認識装置100は、インターフェース部(以下、I/F部という)101と、音声信号処理部102と、音声発話尤度算出部103と、画像発話尤度算出部104と、環境情報判定部105と、発話区間検出部108と、音声認識部109とを備える。
実施の形態に係る音声認識装置100は、例えば、図2に示されているように、車載用の音声認識システム120に含まれる。
音声認識システム120は、音声認識装置100と、集音装置としてのN個のマイクロホン121、121、・・・、121と、撮像装置としてのカメラ122と、車速計123とを備える。本実施の形態では、音声認識システム120は、搭乗者をモニタリングするためのカメラ122が搭載された車内環境における車載音声認識システムとなっている。
ここで、Nは、1以上の整数である。本実施の形態では、Nは、音声認識システム120が搭載されている車130に設けられている座席数M(Mは1以上の整数)以上の数となっている。図2の例では、N≧M、M=4となっている。
マイクロホン121、121、・・・、121の各々を特に区別する必要がない場合には、マイクロホン121という。
マイクロホン121は、車130内の音声を示すアナログ信号である音声アナログ信号を生成する。
本実施の形態においては、1つのマイクロホン121は、無指向性のマイクロホンであり、N個のマイクロホン121、121、・・・、121を一定間隔に配置することにより、アレイマイクが構成されているものとする。そして、N個のマイクロホン121、121、・・・、121により、車130のM人の搭乗者の音声を取得したN個の音声アナログ信号S、S、・・・、Sが取得される。言い換えると、音声アナログ信号S、S、・・・、Sは、マイクロホン121、121、・・・、121と一対一に対応する。
なお、マイクロホン121の構成は、このような例に限定されない。マイクロホン121は、車130の搭乗者の音声を示す音声信号を生成することができれば、どのような構成であってもよい。例えば、1つのマイクロホンを指向性のマイクロホンとして、N個のマイクロホン121、121、・・・、121が、車130の座席の前に配置されてもよい。また、マイクロホン121の設置場所は、座席に着座する全ての搭乗者の音声を取得できる場所であれば、どの場所でもよい。
カメラ122は、搭乗者をモニタリングするために、車130内の画像を示す画像信号Vを生成する。
カメラ122は、車130内の搭乗者の顔が撮影されるような画角を有する向きに設置されている。カメラ122は、可視光カメラでもよく、赤外線カメラでもよい。カメラ122として赤外線カメラが使用される場合には、付近に設置された発光ダイオード(図示せず)から、搭乗者に赤外線を照射し、その反射光を観測するタイプのアクティブ型であってもよい。
なお、全搭乗者の顔を撮像するために、複数のカメラ122が車130内に設置されていてもよい。
車速計123は、車130の走行速度を計測する計測器であり、車130の走行速度を示す速度情報Cを生成する。例えば、車速計123は、ドアメーター等の車載モジュールが接続されたCANバスと呼ばれる通信線を通じて、車130の運行を制御するシステムから車速を取得することができる。
図1に戻り、I/F部101は、マイクロホン121から音声アナログ信号S〜S、カメラ122から画像信号V、及び、車速計123から速度情報Cの入力を受け付ける。そして、I/F部101は、マイクロホン121からの音声アナログ信号S〜Sを音声信号処理部102に与え、カメラ122からの画像信号Vを画像発話尤度算出部104及び環境情報判定部105に与え、車速計123からの速度情報Cを環境情報判定部105に与える。
音声信号処理部102は、マイクロホン121により出力された音声アナログ信号S〜Sのそれぞれに対して、アナログ/デジタル変換(以下「A/D変換」を行うことで、音声デジタル信号を生成する。そして、音声信号処理部102は、音声デジタル信号に対して、音声認識を行う対象となる搭乗者の発話音声を強調する処理である音声信号処理を行うことで、音声信号SS〜SSを生成する。
なお、以下では、M人の搭乗者のうち、音声認識を行う対象となる搭乗者を、対象者とする。
また、1〜Mの整数の各々は、1つの座席に対応付けられているものとする。「1」の下付き文字が付された要素、例えば、音声信号SSは、「1」で識別される座席に対応付けられているものとする。このため、音声信号SSは、「1」で識別される座席の搭乗者に対応付けられているともいえる。なお、符号iは、1以上、M以下の任意の整数とする。
音声信号処理部102は、N個の音声デジタル信号の各々に含まれている成分のうち、対象者が発話した音声と異なる音声に対応する成分(以下「ノイズ成分」という。)を除去する。また、後段の音声認識部109で、M人の搭乗者の各々を対象者として、独立して音声認識を実行できるように、M個の音声認識対象座席の各々に着座したM人の搭乗者の各々の音声のみを、それぞれ抽出したM個の音声信号SS〜SSを生成する。そして、音声信号処理部102は、生成された音声信号SS〜SSを、音声発話尤度算出部103、環境情報判定部105及び音声認識部109に与える。
ノイズ成分は、例えば、車130の走行により発生した騒音に対応する成分、及び、対象者以外の搭乗者により発話された音声に対応する成分等を含むものである。音声信号処理部102におけるノイズ成分の除去には、ビームフォーミング法、バイナリマスキング法、又は、スペクトルサブトラクション法等の公知の種々の方法を用いることができる。このため、音声信号処理部102におけるノイズ成分の除去についての詳細な説明は省略する。
なお、音声信号処理部102は、独立成分分析等のブラインド音声分離技術を利用することで、N個の音声デジタル信号からM個の音声信号SS〜SSを分離してもよい。但し、このブラインド音声分離技術を利用する場合は、搭乗者数に対応する音源数が必要となるため、例えば、画像発話尤度算出部104が、カメラ122から得られる画像信号Vで示される画像から搭乗者数を検知して、音声信号処理部102に伝える必要がある。なお、画像信号Vが音声信号処理部102に入力されて、音声信号処理部102が搭乗者数を検知してもよい。
音声発話尤度算出部103は、音声認識の前処理として発話区間検出を行うために、音声信号SS〜SSのそれぞれから、音声信号SS〜SSのそれぞれにおいて対象者が発話している確率を示す音声発話尤度を算出する。音声発話尤度は、音声に基づく発話らしさを示す確率でもある。
音声発話尤度の算出方法は、過去様々な手法が提案されてきた。例えば、発話時と非発話時のSTFT(Short−Time Fourier Transform)スペクトル及びMFCC(Mel−Frequency Cepstrum Coefficients)係数を、それぞれGMM(Gaussian Mixture Model)で学習し、音声信号を各GMMへ入力した際の、音響の対数尤度Scoreを音声発話尤度とする方法等がある。音声発話尤度算出部103は、M人の搭乗者のそれぞれに対応する音声信号SS〜SSから、M人の搭乗者のそれぞれに対応する音声発話尤度AF〜AFを算出する。算出された音声発話尤度AF〜AFは、発話区間検出部108に与えられる。
画像発話尤度算出部104は、音声発話尤度算出部103と同じように発話区間検出を行うために、画像信号Vにおいて対象者が発話している確率を示す画像発話尤度を、その画像信号Vから算出する。画像発話尤度は、画像に基づく発話らしさを示す確率でもある。
画像発話尤度の算出方法は、例えば、顔パーツ辞書の勾配ベクトルの分布を学習し、複数の学習モデルを組み合わせて口の開き具合を算出した開口度を、画像発話尤度とする方法等がある。なお、画像発話尤度算出部104も、M人の搭乗者のそれぞれに対応する画像発話尤度VF〜VFを生成する。そして、画像発話尤度算出部104は、生成された画像発話尤度VF〜VFを、発話区間検出部108に与える。
環境情報判定部105は、音声信号処理部102から受け取った、搭乗者の発話が強調された音声信号SS〜SS、カメラ122から受け取った画像信号V、及び、車速計123から受け取った速度情報Cから、音声信号SS〜SSの信頼性X〜X(以下、音声信頼性ともいう)及び画像信号Vの信頼性Y〜Y(以下、画像信頼性ともいう)を算出する。
図3は、環境情報判定部105の構成を概略的に示すブロック図である。
環境情報判定部105は、搭乗者有無判定部106と、信頼性判定部107とを備える。
搭乗者有無判定部106は、画像信号Vで示される画像から、車130に設けられている座席毎に人の有無を判定し、その座席毎に人の有無を示すバイナリ信号である搭乗者有無判定結果信号E〜Eを生成する。搭乗者有無判定部106は、人の有無の判定結果を示すバイナリ信号である搭乗者有無判定結果信号E〜Eを信頼性判定部107に与える。
人の有無を判定する手段は、人検出アルゴリズムとして過去多数提案されており、それら既存技術を用いることができる。搭乗者有無判定部106は、画像信号Vの代わりに、座席に設けられた体重計(図示せず)で検出された検出値である体重を示す体重情報を受け取り、その体重情報に基づいて、各座席に搭乗者が存在しているかを判断してもよい。
信頼性判定部107は、搭乗者有無判定部106からの搭乗者有無判定結果信号E〜E、車速計123からの速度情報C、及び、音声信号処理部102からの音声信号SS〜SSを受け取り、音声信号SS〜SS及び画像信号Vのそれぞれの信頼性X〜X、Y〜Yを算出する。
ここで、信頼性X〜Xは、音声信号SS〜SSに対する信頼性、信頼性Y〜Yは、画像信号Vに対する信頼性を表すパラメータである。
各信号の信頼性X〜X、Y〜Yは、例えば以下のような算出方式が考えられる。
時刻tの音声信号SS〜SSの信頼性X1,t〜XM,tは、車が速度を上げるほど音声に雑音が入り込みやすくなっていくことを考慮し、信頼性判定部107は、車の速度が速いほど、信頼性X1,t〜XM,tを低くする。例えば、時刻tの車速計の値Ctに負の指数関数として比例すると仮定した場合、以下の(1)式により、信頼性X1,t〜XM,tを算出することができる。
Figure 0006833147
また、対象となる搭乗者以外の搭乗者がいれば、当然、認識対象ではない発話が増え、音声信号SS〜SSの信頼性が下がり、相対的に画像信号Vの信頼性はあがると考えられる。このため、信頼性判定部107は、車130に搭乗している搭乗者の数が多いほど、信頼性Y1,t〜YM,tを低くする。例えば、信頼性判定部107は、下記に示されている(2)式及び(3)式により、信頼性Y1,t〜YM,tを算出する。
Figure 0006833147
Figure 0006833147
但し、jは、搭乗者の各々を識別する識別番号であり、ここでは、j=1,2,・・・,Mである。また、δ(i≠j)は、搭乗者iと搭乗者jとが異なる場合のみ1になる関数である。
図1に戻り、発話区間検出部108は、音声発話尤度AF〜AF、画像発話尤度VF〜VF、信頼性X〜X、及び、信頼性Y〜Yから、対象者毎に、発話が行われている区間の時刻を推定し、対象者毎に発話が行われている区間の時刻を示す区間情報である発話リストを生成する。例えば、発話区間検出部108は、対応する信頼性Xが高いほど対応する音声発話尤度AFの重みを重くし、対応する画像信頼性Yが高いほど対応する画像発話尤度VFの重みを重くして、対応する音声発話尤度AF及び対応する画像発話尤度VFを用いて、対応する音声信号SS及び画像信号Vにおいて対象者が発話している確率を示す発話尤度を算出し、算出された発話尤度が予め定められた閾値以上となっている区間を、発話区間として検出する。そして、発話区間検出部108は、生成された区間情報を音声認識部109に与える。
発話が行われている区間の時刻の推定は、以下のように行われる。
まず、発話区間検出部108は、下記の(4)式及び(5)式に示されているソフトマックス関数に従って、搭乗者i及び時刻tにおける信頼性Xi,t,Yi,tから、搭乗者i及び時刻tにおける各信号への重みWi,t 及び重みWi,t を算出する。Wi,t は、音声信号SSの重みとしての音声重み、Wi,t は、画像信号Vの重みとしての画像重みである。
Figure 0006833147
Figure 0006833147
次に、発話区間検出部108は、最終的な発話尤度S(i,t)を算出する。発話尤度S(i,t)は、時刻tにおいて、搭乗者iが発話している確率である。発話尤度S(i,t)は、下記の(6)式のように、時刻tの音声発話尤度AFi,t及び画像発話尤度VFi,tに重みを乗算した値から求まるものとする。
Figure 0006833147
(6)式によれば、音声信頼性が高いほど重みが大きくなる音声重みを音声発話尤度に乗算した値と、画像信頼性が高いほど重みが大きくなる画像重みを画像発話尤度に乗算した値とを乗算することで、発話尤度が算出される。
発話区間検出部108は、こうして算出された発話尤度S(i,t)に対して、予め定められた閾値以上の区間を発話している区間として検出することにより、搭乗者毎の発話リストU〜Uを生成することができる。
図4は、一人の搭乗者の発話リストUの一例を示す概略図である。
発話リストU#は、発話区間列U#1と、始端時刻列U#2と、終端時刻列U#3とを備えるテーブル情報である。
発話区間列U#1は、検出された発話区間を識別するための発話区間識別情報を格納する。
始端時刻列U#2は、検出された発話区間の開始時刻を示す。
終端時刻列U#3は、検出された発話区間の終了時刻を示す。
発話区間検出部108が最終的な発話尤度S(i,t)を算出する方法については、上記の(6)式に限定されない。例えば、発話尤度S(i,t)を過去の状態列、音声発話尤度及び画像発話尤度に重みを乗算した値、並びに、状態遷移テーブルσから求まるものとした場合、発話区間検出部108は、下記の(7)式により、発話尤度S(i,t)を算出することができる。
Figure 0006833147
但し、状態遷移テーブルσは、過去の状態遷移列と、現在の音声発話尤度及び画像発話尤度とから一意な状態を返す関数であるものとする。
このため、(7)式によれば、音声信頼性が高いほど重みが大きくなる音声重みを音声発話尤度に乗算した値、画像信頼性が高いほど重みが大きくなる画像重みを画像発話尤度に乗算した値、及び、過去に算出された発話尤度を変数とする予め定められた関数から、発話尤度が算出されることになる。
音声認識部109は、対象者毎に、対応する音声信号SS〜SSに対して、対応する発話リストU〜Uで示される発話区間において、音声認識を実行する。音声認識は、例えば、音声認識用の特徴量を抽出し、抽出された特徴量を用いることで行われる。
音声認識処理には、HMM(Hidden Markov Model)等の公知の種々の音響モデルを用いることができる。なお、音声認識部109は、各搭乗者を対象者として、独立して音声認識を実行し、搭乗者毎に、発話区間を検出した音声認識結果と音声認識結果の信頼度(以下、音声認識スコアという)とを出力する。
なお、音声認識スコアは、音響モデルの出力確率と言語モデルの出力確率との双方を考慮した値でもよいし、音響モデルの出力確率のみの音響スコアであってもよい。
なお、音声認識装置100の構成要素は、ネットワーク上のサーバ、スマートフォン等の携帯端末、又は、車載器に分散されてもよい。
図5は、実施の形態に係る音声認識装置100のハードウェア構成を概略的に示すブロック図である。
音声認識装置100のハードウェアは、メモリ150と、プロセッサ151と、音声インターフェース(以下、音声I/Fという)152と、画像インターフェース(以下、画像I/Fという)153と、車状態インターフェース(以下、車状態I/Fという)154と、ネットワークインターフェース(以下、ネットワークI/Fという)155とを備えるコンピュータで実現できる。
メモリ150は、音声信号処理部102、音声発話尤度算出部103、画像発話尤度算出部104、環境情報判定部105、発話区間検出部108及び音声認識部109として機能するプログラムが記憶されている。メモリ150は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)若しくはEEPROM(Electrically Erasable Programmable Read−Only Memory)等の半導体メモリ、又は、磁気ディスク、光ディスク若しくは光磁気ディスク等を用いた記憶装置である。
プロセッサ151は、メモリ150からの音声信号処理部102、音声発話尤度算出部103、環境情報判定部105、画像発話尤度算出部104、発話区間検出部108及び音声認識部109として機能するプログラムを読み出し、そのプログラムを実行する。プロセッサ151は、例えば、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、マイクロプロセッサ、マイクロコントローラ又はDSP(Digital Signal Processor)等である。
音声I/F152は、マイクロホン121からの音声アナログ信号S〜Sをマルチチャネルで受けとるための音声入力インターフェースである。また、音声認識結果として、車又はエアコンを搭乗員と対話的に制御するための自然言語をスピーカー(図示せず)から出力する場合には、音声I/F152は、音声出力インターフェースとしても機能する。スピーカーによる出力を必要としない構成となっていれば、音声出力インターフェースとしての機能は不要である。
画像I/F153は、カメラ122からの画像信号Vを受け取るための画像入力インターフェースである。また、音声認識部109の最終的な音声認識結果を受けて搭乗員に必要な情報をモニタ等の表示装置(図示せず)を使ってテキスト又は画像表示で通知する場合には、画像I/F153は、画像出力インターフェースとしても機能する。表示装置での表示を必要としない構成となっていれば、画像出力インターフェースとしての機能は不要である。
車状態I/F154は、車速計123が測定した速度情報Cを受け取るための入力インターフェースである。また、車状態I/F154は、車速に限らずドアの開閉状態等の車の現在の状態に関する情報を取得することもできる。
ネットワークI/F155は、音声認識部109を使用する代わりにインターネットのクラウド上で公開されている音声認識サービスを利用して音声認識を実行する際に、通信するためのインターフェースである。また、ネットワークI/F155は、コネクテッドカーとして近辺の車とP2P(Peer to Pear)通信を行ったり、基地局と通信しナビゲーションを実行したりするため等に利用するインターフェースでもある。ネットワークI/F155は、通信を必要としない構成となっていれば、不要である。
図1に示されているI/F部101は、音声I/F152、画像I/F153、車状態I/F154又はネットワークI/F155により実現することができる。
なお、図5において、メモリ150は、音声認識装置100の内部に配置されているが、USB(Universal Serial Bus)メモリ等の外部メモリを接続して、プログラム又はデータを読み込むように構成してもよい。また、装置内のメモリ及び外部メモリを共に使用する構成としてもよい。
図6は、実施の形態に係る音声認識装置100の動作の流れを示すフローチャートである。
まず、音声信号処理部102は、マイクロホン121からの音声アナログ信号S〜Sに対して、A/D変換を行うことで、音声デジタル信号を生成し、その音声デジタル信号に対して、音声を取得する対象者の発話音声を強調して、音声信号SS〜SSを生成する(S10)。例えば、車130内に運転席、助手席、後席左、後席右に4人の搭乗者が着座しており、その全ての座席が音声認識対象座席であるとすると、音声信号処理部102は、これら4つの方向からの音声をそれぞれ強調する。音声信号処理部102は、音声信号SS〜SSを音声発話尤度算出部103、環境情報判定部105及び音声認識部109に与える。
次に、音声発話尤度算出部103は、音声信号SS〜SSのそれぞれから音声発話尤度AF〜AFを算出する(S11)。
次に、画像発話尤度算出部104は、画像信号Vで示される画像から画像発話尤度VF〜VFを算出する(S12)。
次に、環境情報判定部105は、音声信号処理部102から受け取った、搭乗者の発話が強調された音声信号SS〜SS、カメラ122から受け取った画像信号V、及び、車速計123から受け取った速度情報Cから、音声信号SS〜SSの音声信頼性X〜X及び画像信号Vの画像信頼性Y〜Yを算出する(S13)。
次に、発話区間検出部108は、音声発話尤度AF〜AF、画像発話尤度VF〜VF、音声信頼性X〜X及び画像信頼性Y〜Yから、搭乗者毎に、発話が行われている区間の時刻を推定し、搭乗者毎に発話が行われている発話区間を検出する(S14)。そして、発話区間検出部108は、検出された発話区間の開始時刻と終了時刻とを含む発話リストU〜Uを音声認識部109に与える。
音声認識部109は、対象者に対応する音声信号SSに対して、対象者に対応する発話リストUで示される発話区間において、音声認識用の特徴量を抽出し、抽出された特徴量を用いて音声認識を実行する(S15)。そして、音声認識部109は、音声認識結果を出力する。
以上のように、本実施の形態によれば、信号の信頼性を判定することにより、よりノイズ環境下に強い信号処理を行うことができる。
以上に記載された音声認識装置100は、ナビゲーションシステム、運転者用のメータディスプレイも含む統合コックピットシステム、PC、タブレットPC、又は、スマートフォン等の携帯情報端末に適用することができる。
100 音声認識装置、 101 I/F部、 102 音声信号処理部、 103 音声発話尤度算出部、 104 画像発話尤度算出部、 105 環境情報判定部、 106 搭乗者有無判定部、 107 信頼性判定部、 108 発話区間検出部、 109 音声認識部、 120 音声認識システム、 121 マイクロホン、 122 カメラ、 123 車速計、 130 車。

Claims (8)

  1. 対象者の音声を含む音声信号から、前記音声信号において前記対象者が発話している確率を示す音声発話尤度を算出する音声発話尤度算出部と、
    前記対象者を含む画像を示す画像信号から、前記画像信号において前記対象者が発話している確率を示す画像発話尤度を算出する画像発話尤度算出部と、
    前記音声信号の信頼性を示す音声信頼性、及び、前記画像信号の信頼性を示す画像信頼性を判定する環境情報判定部と、
    前記音声信頼性が高いほど前記音声発話尤度の重みを重くし、前記画像信頼性が高いほど前記画像発話尤度の重みを重くして、前記音声発話尤度及び前記画像発話尤度を用いて、前記音声信号及び前記画像信号において前記対象者が発話している確率を示す発話尤度を算出し、前記算出された発話尤度が予め定められた閾値以上となっている区間を、発話区間として検出する発話区間検出部と、
    前記音声信号に対して、前記発話区間において音声認識を実行する音声認識部と、を備える情報処理装置であって、
    前記情報処理装置は、車に搭載され、
    前記環境情報判定部は、前記車の速度が速いほど、前記音声信頼性を低くし、前記車に搭乗している搭乗者の数が多いほど、前記画像信頼性を低くすること
    を特徴とする情報処理装置。
  2. マイクロホンから入力された音声アナログ信号に対して、アナログ/デジタル変換を行うことにより音声デジタル信号を生成し、前記音声デジタル信号から、ノイズ成分を除去することにより前記音声信号を生成する音声信号処理部をさらに備えること
    を特徴とする請求項1に記載の情報処理装置。
  3. 前記環境情報判定部は、前記画像信号で示される前記画像から前記搭乗者の数を検出すること
    を特徴とする請求項に記載の情報処理装置。
  4. 前記環境情報判定部は、前記車の座席に設置されている体重計の検出値により、前記搭乗者の数を検出すること
    を特徴とする請求項に記載の情報処理装置。
  5. 前記発話区間検出部は、前記音声信頼性が高いほど重みが大きくなる音声重みを前記音声発話尤度に乗算した値と、前記画像信頼性が高いほど重みが大きくなる画像重みを前記画像発話尤度に乗算した値とを乗算することで、前記発話尤度を算出すること
    を特徴とする請求項1からの何れか一項に記載の情報処理装置。
  6. 前記発話区間検出部は、前記音声信頼性が高いほど重みが大きくなる音声重みを前記音声発話尤度に乗算した値、前記画像信頼性が高いほど重みが大きくなる画像重みを前記画像発話尤度に乗算した値、及び、過去に算出された前記発話尤度を変数とする予め定められた関数から、前記発話尤度を算出すること
    を特徴とする請求項1からの何れか一項に記載の情報処理装置。
  7. コンピュータを、
    対象者の音声を含む音声信号から、前記音声信号において前記対象者が発話している確率を示す音声発話尤度を算出する音声発話尤度算出部、
    前記対象者を含む画像を示す画像信号から、前記画像信号において前記対象者が発話している確率を示す画像発話尤度を算出する画像発話尤度算出部、
    前記音声信号の信頼性を示す音声信頼性、及び、前記画像信号の信頼性を示す画像信頼性を判定する環境情報判定部、
    前記音声信頼性が高いほど前記音声発話尤度の重みを重くし、前記画像信頼性が高いほど前記画像発話尤度の重みを重くして、前記音声発話尤度及び前記画像発話尤度を用いて、前記音声信号及び前記画像信号において前記対象者が発話している確率を示す発話尤度を算出し、前記算出された発話尤度が予め定められた閾値以上となっている区間を、発話区間として検出する発話区間検出部、及び、
    前記音声信号に対して、前記発話区間において音声認識を実行する音声認識部、として機能させるプログラムであって、
    前記コンピュータは、車に搭載され、
    前記環境情報判定部は、前記車の速度が速いほど、前記音声信頼性を低くし、前記車に搭乗している搭乗者の数が多いほど、前記画像信頼性を低くすること
    を特徴とするプログラム。
  8. 車に乗っている対象者の音声を含む音声信号から、前記音声信号において前記対象者が発話している確率を示す音声発話尤度を算出し、
    前記対象者を含む画像を示す画像信号から、前記画像信号において前記対象者が発話している確率を示す画像発話尤度を算出し、
    前記車の速度が早いほど、前記音声信号の信頼性を示す音声信頼性を低く判定し、及び、前記車に搭乗している搭乗者の数が多いほど、前記画像信号の信頼性を示す画像信頼性を低く判定し、
    前記音声信頼性が高いほど前記音声発話尤度の重みを重くし、前記画像信頼性が高いほど前記画像発話尤度の重みを重くして、前記音声発話尤度及び前記画像発話尤度を用いて、前記音声信号及び前記画像信号において前記対象者が発話している確率を示す発話尤度を算出し、前記算出された発話尤度が予め定められた閾値以上となっている区間を、発話区間として検出し、
    前記音声信号に対して、前記発話区間において音声認識を実行すること
    を特徴とする情報処理方法。
JP2020564014A 2019-01-11 2019-01-11 情報処理装置、プログラム及び情報処理方法 Active JP6833147B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/000722 WO2020144857A1 (ja) 2019-01-11 2019-01-11 情報処理装置、プログラム及び情報処理方法

Publications (2)

Publication Number Publication Date
JP6833147B2 true JP6833147B2 (ja) 2021-02-24
JPWO2020144857A1 JPWO2020144857A1 (ja) 2021-03-11

Family

ID=71521151

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020564014A Active JP6833147B2 (ja) 2019-01-11 2019-01-11 情報処理装置、プログラム及び情報処理方法

Country Status (2)

Country Link
JP (1) JP6833147B2 (ja)
WO (1) WO2020144857A1 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3454190B2 (ja) * 1999-06-09 2003-10-06 三菱電機株式会社 雑音抑圧装置および方法
JP2008134572A (ja) * 2006-11-29 2008-06-12 Fujitsu Ten Ltd 音声認識装置
JP2011059186A (ja) * 2009-09-07 2011-03-24 Gifu Univ 音声区間検出装置及び音声認識装置、プログラム並びに記録媒体
JP2011191423A (ja) * 2010-03-12 2011-09-29 Honda Motor Co Ltd 発話認識装置、発話認識方法
WO2016006088A1 (ja) * 2014-07-10 2016-01-14 株式会社 東芝 電子機器及び方法及びプログラム
JP6703936B2 (ja) * 2016-12-26 2020-06-03 京セラ株式会社 電子機器、車両、制御装置、制御プログラム及び電子機器の動作方法

Also Published As

Publication number Publication date
JPWO2020144857A1 (ja) 2021-03-11
WO2020144857A1 (ja) 2020-07-16

Similar Documents

Publication Publication Date Title
EP1210711B1 (en) Sound source classification
JP4355322B2 (ja) フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
Tawari et al. Speech based emotion classification framework for driver assistance system
US9311930B2 (en) Audio based system and method for in-vehicle context classification
EP2148325B1 (en) Method for determining the presence of a wanted signal component
CN112397065A (zh) 语音交互方法、装置、计算机可读存储介质及电子设备
US9786295B2 (en) Voice processing apparatus and voice processing method
Venter et al. Automatic detection of African elephant (Loxodonta africana) infrasonic vocalisations from recordings
JP3298858B2 (ja) 低複雑性スピーチ認識器の区分ベースの類似性方法
Shokouhi et al. Overlapped-speech detection with applications to driver assessment for in-vehicle active safety systems
CN110402584A (zh) 车内通话控制装置、车内通话系统以及车内通话控制方法
CN110189746A (zh) 一种应用于地空通信的话音识别方法
Hamid et al. Makhraj recognition for Al-Quran recitation using MFCC
Ponraj Speech Recognition with Gender Identification and Speaker Diarization
US9269352B2 (en) Speech recognition with a plurality of microphones
JP6847324B2 (ja) 音声認識装置、音声認識システム、及び音声認識方法
JP6833147B2 (ja) 情報処理装置、プログラム及び情報処理方法
CN113674754A (zh) 基于音频的处理方法和装置
CN109243457B (zh) 基于语音的控制方法、装置、设备及存储介质
KR101619257B1 (ko) 운전자 감성 제어 장치 및 그 방법
Diğken et al. Recognition of non-speech sounds using Mel-frequency cepstrum coefficients and dynamic time warping method
KR20100073160A (ko) 음성인식 시스템의 발화검증 방법 및 장치
KR20150144636A (ko) 이상음원 위치 추적 시스템 및 방법
WO2022239142A1 (ja) 音声認識装置及び音声認識方法
JP2013011680A (ja) 話者判別装置、話者判別プログラム及び話者判別方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201111

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201111

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20201111

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20201210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210202

R150 Certificate of patent or registration of utility model

Ref document number: 6833147

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250