JP5979303B2 - 音声制御システム、音声制御方法、音声制御用プログラムおよび耐雑音音声出力用プログラム - Google Patents

音声制御システム、音声制御方法、音声制御用プログラムおよび耐雑音音声出力用プログラム Download PDF

Info

Publication number
JP5979303B2
JP5979303B2 JP2015505245A JP2015505245A JP5979303B2 JP 5979303 B2 JP5979303 B2 JP 5979303B2 JP 2015505245 A JP2015505245 A JP 2015505245A JP 2015505245 A JP2015505245 A JP 2015505245A JP 5979303 B2 JP5979303 B2 JP 5979303B2
Authority
JP
Japan
Prior art keywords
noise
voice
processing
input
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015505245A
Other languages
English (en)
Other versions
JPWO2014141574A1 (ja
Inventor
淳 内村
淳 内村
聡 塚田
聡 塚田
英司 高田
英司 高田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Application granted granted Critical
Publication of JP5979303B2 publication Critical patent/JP5979303B2/ja
Publication of JPWO2014141574A1 publication Critical patent/JPWO2014141574A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)

Description

本発明は、入力音声に対して雑音を除去する制御を行う音声制御システム、音声制御方法、音声制御用プログラムおよび耐雑音音声出力用プログラムに関する。
自動車の運転中は、手や目が離せない状況が生じる。そのため、運転者は、カーナビゲーションなどの端末に対して、音声で操作指示を行うことがある。また、このような状況において、運転者は、ハンズフリー通話機能を用いて、携帯電話で通話を行うこともある。
一方、自動車の運転中は、路面とタイヤの摩擦などによって起こる騒音(ロードノイズ)や、エアコン、音楽など、運転者の音声以外の雑音が生ずることが多い。このような雑音が多いと、音声操作や通話に影響を及ぼすことがあるため、このような雑音を除去する処理が知られている。例えば、非特許文献1には、Model-Based Wiener Filterと、Multi-Condition学習を併用させて車内の音声認識の精度を向上させる方法が記載されている。
M.Tsujikawa, T.Arakawa, R.Isotani, H.Hattori, "Model-Based Wiener FilterとMulti-Condition学習の併用による車内音声認識", 日本音響学会, 2008, p.179-182
一般的な雑音処理は、通話用に最適化されており、音声認識用には最適化されていない。そのため、通話用に最適化された音声を音声認識に用いても、十分な認識性能が得られないことが多い。
音声認識の正答率を向上させるためには、例えば、マイクロフォン(以下、マイクと記す。)に入力された音声(以下、マイク入力音声と記す。)から雑音除去処理を行った後、音声成分を強調する処理(以下、音声成分強調処理と記す。)を行う方法がある。
しかし、音声成分を強調し過ぎると、人間の耳には不自然な音(例えば、ミュージカルノイズ)が大きく聞こえるため、この音を通話に用いた場合、ユーザが不快に感じることもある。
例えば、自動車の運転中のような環境では、ユーザの音声は、端末の操作にも通話にも用いられる。したがって、そのような環境下では、ユーザの音声に対して音声認識の正答率を向上させるだけでなく、通話時の音質を改善できることが併せて望まれる。
そこで、本発明は、音声認識の正答率を向上させつつ、通話時の音質を改善できる音声制御システム、音声制御方法、音声制御用プログラムおよび耐雑音音声出力用プログラムを提供することを目的とする。
本発明による音声制御システムは、入力音声に対して音声認識用の耐雑音処理を行う音声認識用耐雑音処理部と、入力音声に対して通話用の耐雑音処理を行う通話用耐雑音処理部と、予め定められた音声の入力、または、入力音声を利用する装置の実行状態に基づいて、入力音声が用いられる状態を示す音声利用状態を検知する音声利用状態検知部と、音声利用状態に基づいて、音声認識用耐雑音処理部による耐雑音処理と、通話用耐雑音処理部による耐雑音処理とを切り替える制御を行う耐雑音処理制御部とを備え、耐雑音処理制御部が、音声認識用耐雑音処理部による耐雑音処理と、通話用耐雑音処理部による耐雑音処理のいずれも実行させ、音声利用状態に基づいて、いずれかの耐雑音処理結果を選択する制御を行い、通話用耐雑音処理部による耐雑音処理結果を選択する制御中に予め定められた音声の入力を検知したときに、予め定めた期間内に入力された音声に対しては、音声認識用耐雑音処理部による耐雑音処理結果を選択することを特徴とする。
本発明による音声制御方法は、予め定められた入力音声、または、入力音声を利用する装置の実行状態に基づいて、入力音声が用いられる状態を示す音声利用状態を検知し、入力音声に対する音声認識用の耐雑音処理と入力音声に対する通話用の耐雑音処理のいずれも実行し、音声利用状態に基づいて、いずれかの耐雑音処理結果を選択する制御を行い、通話用の耐雑音処理結果を選択する制御中に予め定められた音声の入力を検知したときに、予め定めた期間内に入力された音声に対しては、音声認識用の耐雑音処理結果を選択することを特徴とする。
本発明による音声制御用プログラムは、コンピュータに、入力音声に対して音声認識用の耐雑音処理を行う音声認識用耐雑音処理、入力音声に対して通話用の耐雑音処理を行う通話用耐雑音処理、予め定められた入力音声、または、入力音声を利用する装置の実行状態に基づいて、入力音声が用いられる状態を示す音声利用状態を検知する音声利用状態検知処理、および、音声利用状態に基づいて、音声認識用耐雑音処理と通話用耐雑音処理とを切り替える制御を行う耐雑音処理制御処理を実行させ、耐雑音処理制御処理で、音声認識用耐雑音処理と、通話用耐雑音処理のいずれも実行させ、音声利用状態に基づいて、いずれかの耐雑音処理の結果を選択させ、通話用耐雑音処理の結果を選択させる制御中に予め定められた音声の入力を検知したときに、予め定めた期間内に入力された音声に対しては、音声認識用耐雑音処理の結果を選択させることを特徴とする。
本発明による耐雑音音声出力用プログラムは、コンピュータに、入力音声に対して音声認識用の耐雑音処理を行う音声認識用耐雑音処理、入力音声に対して通話用の耐雑音処理を行う通話用耐雑音処理、予め定められた入力音声、または、入力音声を利用する装置の実行状態に基づいて、入力音声が用いられる状態を示す音声利用状態を検知する音声利用状態検知処理、音声利用状態に基づいて、音声認識用耐雑音処理と通話用耐雑音処理とを切り替える制御を行う耐雑音処理制御処理、および、音声認識用耐雑音処理の結果、または、通話用耐雑音処理の結果を出力する耐雑音処理結果出力処理を実行させ、耐雑音処理制御処理で、音声認識用耐雑音処理と、通話用耐雑音処理のいずれも実行させ、音声利用状態に基づいて、いずれかの耐雑音処理の結果を選択させ、通話用耐雑音処理の結果を選択させる制御中に予め定められた音声の入力を検知したときに、予め定めた期間内に入力された音声に対しては、音声認識用耐雑音処理の結果を選択させることを特徴とする。
本発明によれば、音声認識の正答率を向上させつつ、通話時の音質を改善できる。
本発明による音声制御システムの一実施形態を示すブロック図である。 耐雑音処理の例を示す説明図である。 耐音声処理モジュールの他の例を示す説明図である。 音声制御システムの動作例を示すフローチャートである。 第1の実施例の音声制御システムの構成例を示す説明図である。 図5に例示する構成例の詳細を示す説明図である。 第1の実施例の音声制御システムの動作例を示す説明図である。 第2の実施例の音声制御システムの構成例を示す説明図である。 本発明による音声制御システムの概要を示すブロック図である。
以下、本発明の実施形態を図面を参照して説明する。
図1は、本発明による音声制御システムの一実施形態を示すブロック図である。本実施形態の音声制御システムは、耐雑音処理モジュール10と、対話管理モジュール20と、情報端末30と、音声入力マイク41と、雑音入力マイク42とを備えている。
情報端末30は、後述する耐雑音処理モジュール10によって処理された音声を利用して、各種処理を行う装置である。図1に例示する情報端末30は、制御部31と、音声認識モジュール32と、サーバ型音声認識との通信モジュール33(以下、通信モジュール33と記す。)と、通話モジュール34とを含む。
制御部31は、情報端末30の動作を制御する。音声認識モジュール32は、入力された音声を用いて音声認識を行うモジュールである。通信モジュール33は、入力された音声を、音声認識が行われる他の装置に送信するモジュールである。通話モジュール34は、通話を行うためのモジュールである。
本実施形態では、音声認識モジュール32と、通信モジュール33とは、音声認識用に処理された音声を用いることが好ましいモジュールであり、通話モジュール34は、通話用に処理された音声を用いることが好ましいモジュールであるとする。
なお、図1に例示する情報端末30が搭載するモジュールは、上記内容に限定されない。情報端末30は、その他の音声利用モジュールを含んでいてもよく、音声を利用しないモジュールを含んでいてもよい。
情報端末30は、例えば、車載情報端末や、携帯型情報端末などにより実現される。例えば、車載情報端末では、カーナビゲーションシステムや、音楽プレーヤーの操作の入力に音声が用いられる。また、例えば、携帯型情報端末では、音声検索や対話機能、通話機能を実行する際の入力に音声が用いられる。また、車載情報端末と携帯型情報端末の両方が用いられる場合、両端末が連携して音声入力機能を実現してもよい。
音声入力マイク41および雑音入力マイク42には、ユーザが発声する音声や、周囲の雑音が入力される。本実施形態では、説明を簡易化するため、音声入力マイク41と、雑音入力マイク42の役割をそれぞれ分けているが、後述する耐雑音処理が実施可能であれば、音声や雑音が入力されるマイクは1つであってもよいし、マイクロフォンアレイのような形式であってもよい。
耐雑音処理モジュール10は、音声認識用耐雑音処理部11と、通話用耐雑音処理部12と、制御部13とを含む。
音声認識用耐雑音処理部11と通話用耐雑音処理部12のいずれも、音声入力マイク41および雑音入力マイク42に入力された音声に対して雑音を除去する処理(以下、耐雑音処理と記す。)を行い、処理後の音声を出力する。
図2は、耐雑音処理の例を示す説明図である。図2では、自動車内で雑音を除去する方法の一例を示している。一般に、音声入力マイク41と雑音入力マイク42は、自動車内で離れた位置に設置される。運転手が発した音声46は、音声入力マイク41と雑音入力マイク42のいずれにも入力される。一方、上述するように、自動車運転に伴う雑音47も同様に、音声入力マイク41と雑音入力マイク42のいずれにも入力される。
ここで、2つのマイクが離れた位置に設置されるため、音声入力マイク41と雑音入力マイク42に入力される音声46の音量および入力時間に差が生じる。これは、雑音47についても同様である。このように、2つのマイクに入る音声と雑音の時間差および音量差を利用して、耐雑音処理が行われる。
音声認識用耐雑音処理部11は、入力音声に対して音声認識用の耐雑音処理を行う。音声認識用の耐雑音処理は、雑音除去効果が高く、音声認識の性能を高くすることができるが、人間の耳には不自然に聞こえる音声が作成される傾向がある。
音声認識用の耐雑音処理として、例えば、雑音推定を行うWiNE(Weighted Noise Estimation)法や、音声強調を行うMBW(Model−Based Wiener)法、音声区間を検出する方法などが用いられる。
ただし、音声認識用耐雑音処理部11が音声認識用の耐雑音処理を行う方法は、上記方法に限定されない。音声認識用耐雑音処理部11は、広く知られた他の方法を用いて音声認識用の耐雑音処理を行ってもよい。なお、音声認識用の耐雑音処理は広く知られているため、ここでは詳細な説明は省略する。
通話用耐雑音処理部12は、入力音声に対して通話用の耐雑音処理を行う。通話用の耐雑音処理は、人間の耳に自然に聞こえる音声が作成されるが、雑音除去効果が小さく、音声認識の性能を高くするのが難しい傾向がある。通話用の耐雑音処理として、例えば、NS−WiNE法や、エコーキャンセラなどが用いられる。
図3は、耐音声処理モジュールの他の例を示す説明図である。図3に例示するように、耐雑音処理モジュール10aは、マイク(音声入力マイク41および雑音入力マイク42)と、各雑音処理部(音声認識用耐雑音処理部11および通話用耐雑音処理部12)の間に、エコーキャンセラ14を含んでもよい。
このとき、エコーキャンセラ14は、例えば、情報端末30から入力されるエコーキャンセル用のモノラル音声を用いて、エコーやハウリングを防止してもよい。
ただし、通話用耐雑音処理部12が通話用の耐雑音処理を行う方法は、上記方法に限定されない。通話用耐雑音処理部12は、広く知られた他の方法を用いて通話用の耐雑音処理を行ってもよい。なお、通話用の耐雑音処理も広く知られているため、ここでは詳細な説明は省略する。
制御部13は、対話管理モジュール20から受信する制御信号に基づいて、音声認識用耐雑音処理部11または通話用耐雑音処理部12が行う耐雑音処理を制御する。制御信号には、後述する情報端末30において入力される音声が用いられる状態を示す情報(以下、音声利用状態と記す。)が含まれる。
具体的には、音声利用状態とは、入力される音声が音声認識に用いられる状態か、通話に用いられる状態かを示す情報であり、後述する対話管理モジュール20によって管理される。以下の説明では、入力される音声が通話に用いられる状態のことを通話用モード、入力される音声が音声認識に用いられる状態のことを音声認識用モードと記すこともある。
制御部13は、対話管理モジュール20から受信する制御信号に基づいて、音声認識用耐雑音処理部11と通話用耐雑音処理部12のいずれか一方に耐雑音処理を実行させる制御を行ってもよい。具体的には、音声認識用モードの場合、制御部13は、音声認識用耐雑音処理部11に耐雑音処理を実行させ、処理後の音声を出力させる。このとき、制御部13は、通話用耐雑音処理部12の耐雑音処理を抑制する。
逆に、通話用モードの場合、制御部13は、通話用耐雑音処理部12に耐雑音処理を実行させ、処理後の音声を出力させる。このとき、制御部13は、音声認識用耐雑音処理部11の耐雑音処理を抑制する。すなわち、制御部13は、音声利用状態に応じて、耐雑音処理を切り替えると言うことができる。
対話管理モジュール20は、制御部21と、音声通信部22とを含む。
制御部21は、予め定められた入力音声に基づいて音声利用状態を検知し、検知した音声利用状態を記憶する。具体的には、制御部21は、音声ダイヤル、音声検索、音声操作などを示す入力音声が入力されたとき、音声利用状態が音声認識モードであると検知してもよい。
例えば、電話番号や電話帳に予め登録した名前と一致する音声が入力された場合に、制御部21は、音声ダイヤルを示す指示が行われたと判断して、音声利用状態を音声認識モードであると検知してもよい。また、例えば、検索を指示する単語や、操作を意味する単語、音声認識を利用した機能名やアプリケーション名が音声で入力された場合、制御部21は、音声検索または音声操作を示す指示が行われたと判断して、音声利用状態を音声認識モードであると検知してもよい。
また、制御部21は、通話機能指示や音声メッセージ録音指示など、通話操作を示す入力音声が入力されたとき、音声利用状態が通話モードであると検知してもよい。例えば、通話機能を利用するアプリケーション名が音声で入力された場合、制御部21は、通話操作を示す指示が行われたと判断して、音声利用状態を通話モードであると検知してもよい。
また、制御部21は、音声入力だけでなく、情報端末30の実行状態に基づいて、音声利用状態を検知してもよい。制御部21は、例えば、情報端末30が音声認識処理を利用したアプリケーションが実行中であることを検知したとき、音声利用状態を音声認識モードであると検知してもよい。
また、制御部21は、情報端末30が通話中であることを検知した場合や、音声メッセージなどを録音するアプリケーションが実行中であることを検知したときに、音声利用状態を通話モードであると検知してもよい。また、制御部21は、情報端末30から音声利用状態を示す信号を受信したときに、その信号に基づいて音声利用状態を検知してもよい。
さらに、制御部21は、音声入力や情報端末30の実行状態を判断して自動的に音声利用状態を判断するだけでなく、明示的な指示に応じて音声利用状態を判断してもよい。例えば、情報端末30の操作によって、音声利用状態が明示的に指示された場合、制御部21は、指示された音声利用状態を利用してもよい。
例えば、自動車の運転中に、ハンズフリー通話機能を利用して通話中の場合を想定する。この通話中に、ユーザが音声検索や音声操作を利用したい場合、制御部21が、例えば、ステアリングスイッチで切替操作を検知したときに、音声利用状態を通話モードから音声認識モードに切り替えてもよい。
音声通信部22は、制御部21の指示に応じて、雑音処理後の音声を情報端末30に通知する。
耐雑音処理モジュール10(より具体的には、音声認識用耐雑音処理部11と、通話用耐雑音処理部12と、制御部13)と、対話管理モジュール20(より具体的には、制御部21と、音声通信部22)とは、プログラム(音声制御用プログラム)に従って動作するコンピュータのCPUによって実現される。
例えば、プログラムは、音声制御システムを実現する装置の記憶部(図示せず)に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、耐雑音処理モジュール10(より具体的には、音声認識用耐雑音処理部11と、通話用耐雑音処理部12と、制御部13)および対話管理モジュール20(より具体的には、制御部21と、音声通信部22)として動作してもよい。
また、耐雑音処理モジュール10と、対話管理モジュール20とは、それぞれが専用のハードウェアで実現されていてもよい。また、耐雑音処理モジュール10および対話管理モジュール20に含まれる各機能も専用のハードウェアで実現されていてもよい。
また、本実施形態では、耐雑音処理モジュール10と対話管理モジュール20とを分けて説明しているが、耐雑音処理モジュール10と対話管理モジュール20とが1つのモジュールで実現されていてもよい。
また、本実施形態では、耐雑音処理モジュール10および対話管理モジュール20が、情報端末30とは別に実装されている場合について説明した。ただし、情報端末30が、耐雑音処理モジュール10および対話管理モジュール20の一部または全部の機能をソフトウェアモジュールとして実装していてもよい。この場合、情報端末30は、自身が耐雑音処理した結果を利用して、各種処理を行えばよい。
次に、本実施形態の音声制御システムの動作を説明する。図4は、本実施形態の音声制御システムの動作例を示すフローチャートである。
まず、対話管理モジュール20の制御部21が、音声利用状態を検知する(ステップS11)。制御部21は、検知した音声利用状態を耐雑音処理モジュール10に通知すると、制御部13は、音声利用状態を通知されたモードに設定する(ステップS12)。
その後、ユーザから音声が入力されると、制御部13は、設定されたモードに従って、音声認識用耐雑音処理部11による耐雑音処理と、通話用耐雑音処理部12による耐雑音処理のいずれを行うか制御する(ステップS13)。耐雑音処理結果が対話管理モジュール20に通知され、音声通信部22は、耐雑音処理結果を情報端末30に通知する(ステップS14)。
以上のように、本実施形態によれば、対話管理モジュール20の制御部21が、予め定められた入力音声、または、情報端末30の実行状態に基づいて音声利用状態を検知し、耐雑音処理モジュール10の制御部13が、音声利用状態に基づいて、入力音声に対して音声認識用の耐雑音処理を行うか、通話用の耐雑音処理を行うかを切り替える制御を行う。そのため、音声認識の正答率を向上させつつ、通話時の音質を改善できる。
具体的には、マイク入力音声をカーナビゲーションシステムや携帯電話機に入力する前に雑音除去処理および音声強調処理を施すことにより、音声認識の正答率を向上させ通話時の音質を改善している。この際、本実施形態では、音声認識を行う場合と、通話を行う場合で、異なる雑音除去処理および音声成分強調処理を行っている。そのため、音声認識の正答率を向上させつつ、通話時の音質を改善できる。
また、本実施形態では、実行する機能や装置ごとにマイクやモジュールを準備する必要がないため、音声を利用する機器全体の大きさを小型化できる。そのため、本実施形態の音声制御システムは、例えば、車内のように限られた空間などに好適に適用可能である。
次に、本実施形態の変形例を説明する。上記実施形態では、制御部13が音声認識用耐雑音処理部11と通話用耐雑音処理部12のいずれか一方に耐雑音処理を実行させていた。ただし、制御部13は、音声認識用耐雑音処理部11と通話用耐雑音処理部12の両方に耐雑音処理を実行させてもよい。そして、制御部13は、それぞれの耐雑音処理部によって処理された音声を、制御信号(音声利用状態)に応じて選択してもよい。
すなわち、耐雑音処理モジュール10は、入力音声に対して通話用の耐雑音処理と音声認識用の耐雑音処理の両方の処理を行い、耐雑音処理結果を2チャネル出力してもよい。このような処理を行うことで、通話用の耐雑音処理結果と、音声認識用の耐雑音処理結果を同時に使用したり、即時に切り替えて利用したりすることが可能になる。したがって、通話しながら高精度の音声認識も可能になる。
具体的には、制御部13は、通話中に特定の単語を認識したとき、その後一定時間内に入力された音声については、音声認識用の耐雑音処理結果を選択するようにしてもよい。例えば、通話中に「・・・“カーナビセット”音量を下げて・・・」と音声が入力されたとする。制御部13は、この“カーナビセット”のように特定の単語を認識したとき、その後一定時間内に入力された音声は、カーナビゲーションの操作用の音声が入力されると判断して、音声認識用の耐雑音処理結果を選択するようにしてもよい。
このように、制御部13は、通話用耐雑音処理部12による耐雑音処理結果を選択する制御中に予め定められた音声の入力を検知したときに、予め定めた期間内に入力された音声に対しては、音声認識用耐雑音処理部11による耐雑音処理結果を選択してもよい。このようにすることで、通話しながら高精度の音声認識が可能になる。
以下、具体的な実施例により本発明を説明するが、本発明の範囲は以下に説明する内容に限定されない。本実施例では、音声を利用してダイヤル発信指示が行われた後、ハンズフリー通話が開始されるまでの動作を説明する。
図5は、本実施例の音声制御システムの構成例を示す説明図である。本実施例では、耐雑音処理結果は、2台の情報端末(車載情報端末30aおよび携帯型情報端末30b)で利用されるものとし、車載情報端末30aと携帯型情報端末30bの間では、有線通信、または、Wi−Fi(登録商標)、Bluetooth(登録商標)などによる無線通信(以下、単に通信39と記す。)が行われるものとする。また、車載情報端末30aは、耐雑音処理モジュール10に対してエコーキャンセル用のモノラル音声を入力するものとする。
図6は、図5に例示する構成例の詳細を示す説明図である。図6に例示する音声処理部16は、上記実施形態の音声認識用耐雑音処理部11および通話用耐雑音処理部12に対応している。音声認識用耐雑音処理部11、通話用耐雑音処理部12および車載情報端末30aは、各通信部(通信部17、通信部27、通信部37a)を介して通信を行い、各オーディオ入力部18,28,38に入力された音声は、各制御部(制御部13、制御部21、制御部31a)による制御により、各オーディオ出力部19,29,39から出力される。
また、車載情報端末30aおよび携帯型情報端末30bは、ユーザからの入力を受け付ける操作入力部34a,34b、処理結果等を表示する表示部32a,32b、プログラムやアプリケーションデータなどを記憶する記憶部33a,33bを含む。車載情報端末30aと携帯型情報端末30bとは、端末間通信部36a,36bを介して相互に通信する。また、携帯型情報端末30bは、通信部37bを介して広域ネットワーク網や公衆電話網に接続される。
図7は、本実施例の音声制御システムの動作例を示す説明図である。まず、ユーザが車載情報端末30aを操作して、音声ダイヤル機能を起動させる。すると、対話管理モジュール20は、音声認識処理をすべきと判断して、音声利用状態を音声認識用モードに設定する(図7(a)参照)。
ユーザは、接続先の電話番号を音声で入力する。このとき、耐雑音処理モジュール10は、音声認識用の耐雑音処理を行い、その結果を対話管理モジュール20に通知する。通知された結果は、車載情報端末30aまたは携帯型情報端末30bで音声認識され、携帯型情報端末30bは、その音声認識結果に基づいてダイヤル発信を行う(図7(b)参照)。
携帯型情報端末30bが音声認識結果に基づいて発信処理を行うと、対話管理モジュール20は、通話状態になったことを検知する。このとき、対話管理モジュール20は、通話処理をすべきと判断して、音声利用状態を通話用モードに設定する(図7(c)参照)。
ユーザは、発信先と接続されたことを確認すると、ハンズフリー通話機能を用いて、発信先との通話を開始する。このとき、耐雑音処理モジュール10は、通話用の耐雑音処理を行い、その結果を対話管理モジュール20に通知する。通知された結果は、車載情報端末30aおよび携帯型情報端末30bに通知され、発信先との通話に用いられる(図7(d)参照)。
図8は、第2の実施例の音声制御システムの構成例を示す説明図である。上記実施形態でも示したように、音声認識処理は、情報端末30で行われてもよく、クラウドサービスのように、情報端末の要求に応じて音声認識を行う他の装置に音声データを送信することで行われてもよい。
情報端末30は、音声認識用に耐雑音処理された音声のパケットを受信したときに、そのパケットを外部のデータセンター200に送信してもよい。そして、情報端末30が、外部のデータセンター200によって音声認識された結果を受信して、各種処理を行ってもよい。
また、情報端末30は、通話用に耐雑音処理された音声を受信したときに、その音声を携帯電話のキャリア300に送信して通話処理を行ってもよい。また、情報端末30は、例えば、キャリア300と接続できず通話ができない状況のときなどには、外部の録音システム400に通話用の音声を送信してもよい。
次に、本発明の概要を説明する。図9は、本発明による音声制御システムの概要を示すブロック図である。本発明による音声制御システムは、(例えば、音声入力マイク41および雑音入力マイク42からの)入力音声に対して音声認識用の耐雑音処理を行う音声認識用耐雑音処理部81(例えば、音声認識用耐雑音処理部11)と、入力音声に対して通話用の耐雑音処理を行う通話用耐雑音処理部82(例えば、通話用耐雑音処理部12)と、予め定められた音声の入力、または、入力音声を利用する装置(例えば、情報端末30)の実行状態に基づいて、入力音声が用いられる状態を示す音声利用状態(例えば、音声認識モード、通話モード)を検知する音声利用状態検知部83(例えば、制御部21)と、音声利用状態に基づいて、音声認識用耐雑音処理部81による耐雑音処理と、通話用耐雑音処理部82による耐雑音処理とを切り替える制御を行う耐雑音処理制御部84(例えば、制御部13)とを備えている。
そのような構成により、音声認識の正答率を向上させつつ、通話時の音質を改善できる。
また、耐雑音処理制御部84は、音声利用状態に基づいて、音声認識用耐雑音処理部81による耐雑音処理と、通話用耐雑音処理部82による耐雑音処理のいずれか一方の耐雑音処理を実行させる制御を行ってもよい。そのような構成によれば、必要な耐雑音処理のみ実施できるため、上記効果に加え、装置の処理負荷を軽減できる。
一方で、耐雑音処理制御部84は、音声認識用耐雑音処理部81による耐雑音処理と、通話用耐雑音処理部82による耐雑音処理のいずれも実行させ、音声利用状態に基づいて、いずれかの耐雑音処理結果を選択する制御を行ってもよい。そのような構成によれば、通話用の耐雑音処理結果と、音声認識用の耐雑音処理結果を同時に使用したり、即時に切り替えて利用したりすることが可能になる。
また、このとき、耐雑音処理制御部84は、通話用耐雑音処理部82による耐雑音処理結果を選択する制御中に予め定められた音声の入力を検知したときに、予め定めた期間内に入力された音声に対しては、音声認識用耐雑音処理部81による耐雑音処理結果を選択してもよい。そのような構成によれば、通話しながら高精度の音声認識が可能になる。
また、音声制御システムは、音声認識用耐雑音処理部81による耐雑音処理の結果、または、通話用耐雑音処理部82による耐雑音処理の結果を出力する耐雑音処理結果出力手段(例えば、音声通信部22)を備えていてもよい。そのような構成によれば、耐雑音処理した結果を他の装置やシステムが利用できるようになる。
以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2013年3月14日に出願された日本特許出願2013−051269を基礎とする優先権を主張し、その開示の全てをここに取り込む。
10,10a 耐雑音処理モジュール
11 音声認識用耐雑音処理部
12 通話用耐雑音処理部
13 制御部
14 エコーキャンセラ
20 対話管理モジュール
21 制御部
22 音声通信部
30 情報端末
30a 車載情報端末
30b 携帯型情報端末
31 制御部
32 音声認識モジュール
33 通信モジュール
34 通話モジュール
41 音声入力マイク
42 雑音入力マイク

Claims (5)

  1. 入力音声に対して音声認識用の耐雑音処理を行う音声認識用耐雑音処理部と、
    入力音声に対して通話用の耐雑音処理を行う通話用耐雑音処理部と、
    予め定められた音声の入力、または、前記入力音声を利用する装置の実行状態に基づいて、入力音声が用いられる状態を示す音声利用状態を検知する音声利用状態検知部と、
    前記音声利用状態に基づいて、前記音声認識用耐雑音処理部による耐雑音処理と、前記通話用耐雑音処理部による耐雑音処理とを切り替える制御を行う耐雑音処理制御部とを備え
    前記耐雑音処理制御部は、前記音声認識用耐雑音処理部による耐雑音処理と、前記通話用耐雑音処理部による耐雑音処理のいずれも実行させ、前記音声利用状態に基づいて、いずれかの耐雑音処理結果を選択する制御を行い、前記通話用耐雑音処理部による耐雑音処理結果を選択する制御中に予め定められた音声の入力を検知したときに、予め定めた期間内に入力された音声に対しては、前記音声認識用耐雑音処理部による耐雑音処理結果を選択する
    ことを特徴とする音声制御システム。
  2. 音声認識用耐雑音処理部による耐雑音処理の結果、または、通話用耐雑音処理部による耐雑音処理の結果を出力する耐雑音処理結果出力手段を備えた
    請求項記載の音声制御システム。
  3. 予め定められた入力音声、または、入力音声を利用する装置の実行状態に基づいて、入力音声が用いられる状態を示す音声利用状態を検知し、
    入力音声に対する音声認識用の耐雑音処理と入力音声に対する通話用の耐雑音処理のいずれも実行し、
    前記音声利用状態に基づいて、いずれかの耐雑音処理結果を選択する制御を行い、
    通話用の耐雑音処理結果を選択する制御中に予め定められた音声の入力を検知したときに、予め定めた期間内に入力された音声に対しては、音声認識用の耐雑音処理結果を選択する
    ことを特徴とする音声制御方法。
  4. コンピュータに、
    入力音声に対して音声認識用の耐雑音処理を行う音声認識用耐雑音処理、
    入力音声に対して通話用の耐雑音処理を行う通話用耐雑音処理、
    予め定められた入力音声、または、入力音声を利用する装置の実行状態に基づいて、入力音声が用いられる状態を示す音声利用状態を検知する音声利用状態検知処理、および、
    前記音声利用状態に基づいて、前記音声認識用耐雑音処理と前記通話用耐雑音処理とを切り替える制御を行う耐雑音処理制御処理を実行させ
    前記耐雑音処理制御処理で、前記音声認識用耐雑音処理と、前記通話用耐雑音処理のいずれも実行させ、前記音声利用状態に基づいて、いずれかの耐雑音処理の結果を選択させ、前記通話用耐雑音処理の結果を選択させる制御中に予め定められた音声の入力を検知したときに、予め定めた期間内に入力された音声に対しては、前記音声認識用耐雑音処理の結果を選択させる
    ための音声制御用プログラム。
  5. コンピュータに、
    入力音声に対して音声認識用の耐雑音処理を行う音声認識用耐雑音処理、
    入力音声に対して通話用の耐雑音処理を行う通話用耐雑音処理、
    予め定められた入力音声、または、入力音声を利用する装置の実行状態に基づいて、入力音声が用いられる状態を示す音声利用状態を検知する音声利用状態検知処理、
    前記音声利用状態に基づいて、前記音声認識用耐雑音処理と前記通話用耐雑音処理とを切り替える制御を行う耐雑音処理制御処理、および、
    前記音声認識用耐雑音処理の結果、または、前記通話用耐雑音処理の結果を出力する耐雑音処理結果出力処理を実行させ
    前記耐雑音処理制御処理で、前記音声認識用耐雑音処理と、前記通話用耐雑音処理のいずれも実行させ、前記音声利用状態に基づいて、いずれかの耐雑音処理の結果を選択させ、前記通話用耐雑音処理の結果を選択させる制御中に予め定められた音声の入力を検知したときに、予め定めた期間内に入力された音声に対しては、前記音声認識用耐雑音処理の結果を選択させる
    ための耐雑音音声出力用プログラム。
JP2015505245A 2013-03-14 2014-01-16 音声制御システム、音声制御方法、音声制御用プログラムおよび耐雑音音声出力用プログラム Active JP5979303B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013051269 2013-03-14
JP2013051269 2013-03-14
PCT/JP2014/000184 WO2014141574A1 (ja) 2013-03-14 2014-01-16 音声制御システム、音声制御方法、音声制御用プログラムおよび耐雑音音声出力用プログラム

Publications (2)

Publication Number Publication Date
JP5979303B2 true JP5979303B2 (ja) 2016-08-24
JPWO2014141574A1 JPWO2014141574A1 (ja) 2017-02-16

Family

ID=51536259

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015505245A Active JP5979303B2 (ja) 2013-03-14 2014-01-16 音声制御システム、音声制御方法、音声制御用プログラムおよび耐雑音音声出力用プログラム

Country Status (2)

Country Link
JP (1) JP5979303B2 (ja)
WO (1) WO2014141574A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6318621B2 (ja) * 2014-01-06 2018-05-09 株式会社デンソー 音声処理装置、音声処理システム、音声処理方法、音声処理プログラム
JP7172120B2 (ja) * 2018-04-27 2022-11-16 日産自動車株式会社 音声認識装置及び音声認識方法
US11694705B2 (en) 2018-07-20 2023-07-04 Sony Interactive Entertainment Inc. Sound signal processing system apparatus for avoiding adverse effects on speech recognition

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60246468A (ja) * 1984-05-22 1985-12-06 Toshiba Corp 情報入出力装置
JP2000081899A (ja) * 1998-09-03 2000-03-21 Olympus Optical Co Ltd 音声認識装置、音声記録再生装置
JP2004153380A (ja) * 2002-10-29 2004-05-27 Nissan Motor Co Ltd 情報提供装置、情報取得装置および情報提供システム
JP2009025517A (ja) * 2007-07-19 2009-02-05 Nissan Motor Co Ltd 車載用情報提供対話装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60246468A (ja) * 1984-05-22 1985-12-06 Toshiba Corp 情報入出力装置
JP2000081899A (ja) * 1998-09-03 2000-03-21 Olympus Optical Co Ltd 音声認識装置、音声記録再生装置
JP2004153380A (ja) * 2002-10-29 2004-05-27 Nissan Motor Co Ltd 情報提供装置、情報取得装置および情報提供システム
JP2009025517A (ja) * 2007-07-19 2009-02-05 Nissan Motor Co Ltd 車載用情報提供対話装置

Also Published As

Publication number Publication date
WO2014141574A1 (ja) 2014-09-18
JPWO2014141574A1 (ja) 2017-02-16

Similar Documents

Publication Publication Date Title
US8019454B2 (en) Audio processing system
CN1637857B (zh) 噪音消除系统、语音识别系统以及汽车导航系统
EP2966646B1 (en) System and method for acoustic management
EP2987312B1 (en) System and method for acoustic echo cancellation
WO2015102040A1 (ja) 音声処理装置、音声処理システム、音声処理方法、音声処理用のプログラム製品
US20160127827A1 (en) Systems and methods for selecting audio filtering schemes
JP2014203031A (ja) 音声認識制御装置
JP6545419B2 (ja) 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置
JPWO2007138741A1 (ja) 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム
JP5979303B2 (ja) 音声制御システム、音声制御方法、音声制御用プログラムおよび耐雑音音声出力用プログラム
JP3524370B2 (ja) 音声起動システム
JP5887984B2 (ja) 車載ハンズフリー装置
WO2017166495A1 (zh) 一种语音信号处理方法及装置
JP7020554B2 (ja) 会話サポートシステム、その方法、およびプログラム
Tchankue et al. Are mobile in-car communication systems feasible? a usability study
JPWO2006025106A1 (ja) 音声認識システム、音声認識方法およびそのプログラム
JP2005354223A (ja) 音源情報処理装置、音源情報処理方法、音源情報処理プログラム
JP6995254B2 (ja) 音場制御装置及び音場制御方法
JP2014134604A (ja) 車載情報システムおよび音声認識適応方法
JP2021173881A (ja) 音声処理装置および音声処理方法
JP2021182051A (ja) エージェント連携装置
JP4507996B2 (ja) 運転者負荷推定装置
JP6948275B2 (ja) 通話装置、及び通話装置の制御方法
JP2007194833A (ja) ハンズフリー機能を備えた携帯電話
JP2020060730A (ja) 音声認識装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160628

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160711

R150 Certificate of patent or registration of utility model

Ref document number: 5979303

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150