JP2016061888A - 音声認識装置、音声認識対象区間設定方法、及び音声認識区間設定プログラム - Google Patents

音声認識装置、音声認識対象区間設定方法、及び音声認識区間設定プログラム Download PDF

Info

Publication number
JP2016061888A
JP2016061888A JP2014188865A JP2014188865A JP2016061888A JP 2016061888 A JP2016061888 A JP 2016061888A JP 2014188865 A JP2014188865 A JP 2014188865A JP 2014188865 A JP2014188865 A JP 2014188865A JP 2016061888 A JP2016061888 A JP 2016061888A
Authority
JP
Japan
Prior art keywords
sound
voice
voice recognition
speech recognition
voice guidance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014188865A
Other languages
English (en)
Other versions
JP6459330B2 (ja
Inventor
直頼 丹澤
Tadanori Tanzawa
直頼 丹澤
寛之 奥野
Hiroyuki Okuno
寛之 奥野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2014188865A priority Critical patent/JP6459330B2/ja
Publication of JP2016061888A publication Critical patent/JP2016061888A/ja
Application granted granted Critical
Publication of JP6459330B2 publication Critical patent/JP6459330B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Navigation (AREA)

Abstract

【課題】レスポンスを向上できるようにした音声認識装置、音声認識対象区間設定方法及び音声認識区間設定プログラムを提供する。【解決手段】音響分析部3は、音声ガイダンスの再生区間中及びその後の音データを取得する音取得手段の取得音から音声ガイダンスの再生音を除去し、音声ガイダンスの再生音が除去された除去後の音データに基づいて、取得音に含まれるユーザ発話音を音声認識処理することなく当該ユーザ発話音に音声認識要求する意図が存在するか否かを判定する。そして、音響分析部3は、音声認識要求する意図が存在すると判定されたときには音声ガイダンスの再生区間を音声認識対象区間として含め、逆に音声認識要求する意図が存在しないと判定されたときには音声ガイダンスの再生区間を音声認識対象区間に含めないように設定する。【選択図】図1

Description

本発明は、音声認識装置、音声認識対象区間設定方法、及び音声認識区間設定プログラムに関する。
近年、音声認識技術は、例えば車室内においてユーザが各種機器の操作を行ったり電話応答処理を行ったりするためなどに利用されている。このようなシステムでは即時対応性が要求されることがあり、利用者が当該システムからの発話タイミングを促す処理を待機することなく発話する場合に備え、音声認識装置が、所謂割り込み発話に対応するバージイン機能を備える場合がある(例えば、特許文献1参照)。
例えば、特許文献1記載のバージイン機能は、バージインのフォールスポジティブを防止するため、必要と判断されたときだけバージイン機能を有効とする技術となっている。バージイン制御部は、利用者の音声信号の始端時刻をタイムスタンプとして音声バッファに記録し、音声認識部が第1の音声認識処理を行っている。そして、利用者の音声信号の終端時刻を検出したときに第1の音声認識処理を終了する。そして、第1の音声認識処理の認識結果を取得できた場合には、割り込み発話の発生の可能性を判定し、バージイン機能の動作の要否を決定する。
このとき、語尾の語彙のみ検出された場合または語頭の語彙の認識スコアが所定以下の場合には、バージイン機能の動作が必要と決定し、誤頭の語彙の認識スコアと語尾の語彙の認識スコアとの差が所定以下の場合、バージイン機能の動作が必要と決定する。または、語頭の語彙の音声区間である観測長θが所定、すなわち、最小値Amin[msec]より短い場合、バージイン機能の動作が必要と決定する。
割り込み発話がありバージイン機能の動作が必要と決定されると、認識辞書を参照し語尾の語彙に接続する可能性のある全語頭の語彙の予測発話長の最大値Amax[msec]を取得する。この最大値Amax及び語尾語彙始端に基づいて新規音声始端を再設定し、第2の音声認識処理の音声認識対象区間を決定している。このときの新規音声始端は、語尾語彙始端から予測発話長の最大値Amax[msec]遡った時刻となる。そして、音声認識対象区間を対象として第2の音声認識処理を行っている。
特開2009−25579号公報
特許文献1記載の技術を用いると、バージイン機能を実現するときには、少なくとも第1及び第2の音声認識処理を必要とする。近年、音声認識処理は、多くの語彙を対象として待ち受け可能になってきており、これらの多くの語彙に対してパターンマッチングするため処理負荷が大きくなる。特に、特許文献1記載のように、音声認識処理を複数回繰り返し行わなければならないと音声認識処理に多大な時間を要してしまい、レスポンスが悪化してしまう。この場合、音声認識応答時間の膨大化につながる。
本発明の目的は、レスポンスを向上できるようにした音声認識装置及び音声認識対象区間設定方法、及び音声認識区間設定プログラムを提供することにある。
請求項1記載の発明によれば、再生音除去手段は、音声ガイダンスの再生区間中及びその後の音データを取得する音取得手段の取得音から音声ガイダンスの再生音を除去する。判定手段は、再生音除去手段により音声ガイダンスの再生音が除去された除去後の音データに基づいて、音取得手段の取得音に含まれるユーザ発話音を音声認識処理することなく当該ユーザ発話音に音声認識要求する意図が存在するか否かを判定する。そして、音声認識対象区間設定手段は、判定手段により音声認識要求する意図が存在すると判定されたときには音声ガイダンスの再生区間を音声認識対象区間として含め、逆に音声認識要求する意図が存在しないと判定されたときには音声ガイダンスの再生区間を音声認識対象区間に含めないように設定する。
音声認識対象区間設定手段が、音声ガイダンスの再生区間を音声認識対象区間として含めた場合には、音声認識処理するときにユーザ発話音を含めて音声認識処理できる。逆に、音声認識対象区間設定手段が音声ガイダンスの再生区間を音声認識対象区間として含めないときには、例えば音声ガイダンスの除去後でも僅かに存在する音声ガイダンスの再生音やその他の音声ガイダンス再生期間中の雑音による誤認識の影響を防止でき、音声認識の信頼性を向上できる。これら何れの場合も、判定手段は音声認識処理することなく処理できるため、音声認識処理を少ない回数で済ますことができ、レスポンスを向上できる。
一実施形態に係る音声認識装置の電気的構成を概略的に示すブロック図 一実施形態に係るマイクの設置位置を概略的に示す説明図 一実施形態に係る処理の流れを概略的に示すフローチャート 具体例を示すタイミングチャート(その1) 具体例を示すタイミングチャート(その2)
以下、音声認識装置の一実施形態について図面を参照しながら説明する。まず図1を参照し、音声認識装置の構成例を説明する。図1は、音声認識装置の電気的構成を概略的に示すブロック図である。音声認識装置100は、制御部1、音声コントローラ2、音響分析部3、音声認識部4を備え、マイク5及びスピーカ6を接続して構成される。音声認識装置100は、例えば通常のマイクロコンピュータを用いて構成されており、内部には、CPU、ROM及びRAMなどのメモリ、I/O及びこれらの構成を接続するバスライン(いずれも図示せず)が備えられ、制御部1、音声コントローラ2、音響分析部3、音声認識部4としての各機能を実現する。
制御部1は、音声コントローラ2から入力された各種情報に基づいてメモリに記憶されるプログラムにより所定の処理を実行する。メモリには音声ガイダンスの音声データが例えばデジタル音声として記憶されており、音声認識装置100は、音声コントローラ2を通じて音声ガイダンスの音声をスピーカ6から出力可能になっている。音声コントローラ2は、制御部1からの制御信号に基づいて、音響分析部3、音声認識部4、及び、スピーカ6を制御する。音響分析部3は、マイク5から入力されるユーザ発話を取得して例えばデジタル化してメモリに記憶させると共に、マイク5から取得された音を分析する。
音声認識部4には認識辞書部7が接続されており、例えば音声コントローラ2を経由して入力された音響分析部3の分析結果に基づいて認識辞書部7の登録辞書を参照して音声認識処理を行う。認識辞書部7は、例えば、コマンド対応辞書、楽曲対応辞書、住所/POI(Point Of Interest)対応辞書などの辞書を備えている。コマンド対応辞書は、例えばナビゲーション装置、オーディオユニット、電話通信ユニットなどの各種コマンドに対応する音声認識用辞書であり、楽曲対応辞書は、様々な楽曲の認識語を記憶する音声認識用辞書であり、住所/POI辞書は、住所、POI(施設の名称等)の認識語を記憶する音声認識用辞書である。
マイク5は、例えば指向性を有するものを採用すると良く、特定方向から入力した音声を大きく入力するものを採用すると良い。図2は車両A内のマイク5の設置場所などを概略的に示している。マイク5は、車両Aの運転席A1の上方、助手席A2の上方、後部座席A3の上方などにそれぞれ設置されており、これらのマイク5は、それぞれ、対応した座席A1〜A3に坐した人の声を大きく受信するように設置されている。音響分析部3は、音声コントローラ2を通じてこれらのマイク5の入力音声を入力すると音声の指向特性、音の大きさ等を分析し、分析した音声に基づいて、何れの座席に坐した人が声を発したか否か、1又は複数の人が声を発したか否か、ひいては音声認識処理する意図が存在するか否か、を判定する。なお、音響分析部3は、再生音除去部3a、判定部3b、音声認識対象区間設定部3c、としての機能を備える。
図3は上記構成の音声認識動作を概略的に示すフローチャートである。図3に示すように、ここでは、音声認識装置100が、ユーザに発話を促す何らかの音声ガイダンスについてスピーカ6を通じて出力し、この音声ガイダンスを聞いたユーザが発話応答するまでの処理を説明する。まず、制御部1は、音声コントローラ2に対し音声認識開始を指示する(S1)。音声コントローラ2は、音声認識開始の指示を受け付けると、音響分析部3に音響分析処理を指令し(S2)、スピーカ6を通じて音声ガイダンスを出力指示する(S3)。音響分析部3は、音響分析処理を開始するとマイク5を通じて音声の取得を開始する(S4)。
音響分析部3は、音響分析処理を進める過程において、音声コントローラ2から音声ガイダンスの出力完了通知を受け付けるまで、ステップS5〜S12の処理を例えばリアルタイムで行う。音響分析部3は、マイク5から音を取得するとこの音をデジタル変換し、この音データから音声ガイダンスの音データを除去する(S5)。音響分析部3は、マイク5からの入力音データから音声ガイダンスの音データを除去処理しながら(S5)、音声認識処理することなくユーザに音声認識要求する意図が存在するか否かを判定し(S6〜S10)、判定条件をクリアしたときにはバージイン処理を有効とし(S11)、逆に判定条件をクリアしないときにはバージイン処理を無効とする(S12)。
音声コントローラ2が、スピーカ6から音声ガイダンス出力完了通知を受け付ける(S13)と、音声コントローラ2は、音響分析部3に音声ガイダンス出力完了通知を出力する(S14)。音響分析部3は、ステップS14において音声ガイダンス出力完了通知を受け付けると、音響分析部3がバージイン処理を有効としたときには(S15:YES)、音声ガイダンス再生区間を音声認識対象区間に含める(S16)こととし、この旨を示す音響分析結果を音声コントローラ2に通知する(S18)。逆に、音響分析部3がバージイン処理を無効としたときには(S15:NO)、音声ガイダンス再生区間を音声認識対象区間に含めない(S17)こととし、この旨を示す音響分析結果を音声コントローラ2に通知する(S18)。
音声コントローラ2は、音響分析部3により音声ガイダンス再生区間を含めると判定されたときには、音声コントローラ2がスピーカ6に音声ガイダンス出力指示をしたタイミング(S3)から音声ガイダンス終了完了通知を受け付けるタイミング(S13)までを音声認識対象区間として含ませるようにする。逆に、音声コントローラ2は、音響分析部3により音声ガイダンス再生区間を含めないと判定したときには、音声ガイダンス再生区間を音声認識対象区間として含ませないようにする。音声コントローラ2は、音声ガイダンスをスピーカ6から出力完了した後には、音響分析部3による音響分析処理を停止させ、音声認識部4に音声認識処理を開始させるが、この間又はこの後も音声認識部4はマイク5から音入力し音データを記憶し続ける。そして、音声認識部4は、認識辞書部7を参照して音声認識処理することになる(S20)。
以下、取得音の音声認識処理を行うことなく、ユーザに音声認識要求する意図が存在するか否かを判定する処理の詳細例を説明する。音響分析部3は、例えばステップS6においてマイク5の音データの音量が所定閾値を超えたか否かを判定し、所定閾値を超えていることを一つの条件として(S6:YES)、バージイン処理を有効と判定する(11)。この所定閾値は、通常の所謂音声ガイダンス出力後に音声認識部4が通常の音声認識処理で用いる音量閾値よりも大きく設定された閾値を用いると良い。これは、ユーザが音声認識要求する意思を持って発話するときには、ユーザが通常よりも大きな声で発話する特性を利用するものである。
また、音響分析部3は、例えばステップS7において、音声ガイダンスを除去した後の音データが所定閾値を超えた音量が所定時間以上継続したか否かを判定し、所定時間続いていることを一つの条件として(S7:YES)、バージイン処理を必要と判定する(S11)。ここでいう所定時間は、例えば意味の存在する言葉の長さを発話した場合の音声出力時間の閾値を意味している。すなわち、ユーザが音声認識要求する意思を持っている場合には、例えば返事(例えば「はい」、「いいえ」)、場所(例えば「とうきょうえき」、「なごやえき」、「おおさかえき」)という意味の存在する単語、又は、文章(例えば「おんりょうをあげてください」、「おんりょうあっぷ」)などの連続文字であることが多く、一文字(例えば「あ」、「い」)であることがないため、このユーザ発話時間の長短の特性を利用するものである。なお、複数の文字の発話間には音量が瞬間的に低下するタイミングが存在する場合もあるが、この処理は、例えば音データを平均化処理することで音量が所定時間以上継続したか否かを判定することも可能となる。
また、音響分析部3は、例えばステップS8において、音声ガイダンスを除去した後の音データ中にユーザ発話音が存在しているか否かを判定し、ユーザ発話音が存在すると判定したことを一つの条件として(S8:YES)、バージイン処理を有効と判定する(S11)。ユーザ発話音の存否の判定方法としては、マイク5に入力された音声指向性が比較的大となる方向が、車両A内の座席A1〜A3の存在する特定方向であるか否かを判定することで行うことが一例として挙げられる。
また、音響分析部3は、例えばステップS10において、音声ガイダンスを除去した後の音データに基づいてユーザがマイク5に向いているか否かを判定し、ユーザがマイク5に向いていると判定したことを一つの条件として(S9:YES)、バージイン処理を有効と判定する(S11)。ユーザがマイク5に向いているか否かの判定方法としては、マイク5に入力された音声指向性が比較的大となる方向が、車両内の座席の存在する特定方向であるか否かを判定することが一例として挙げられる。
また、音響分析部3は、例えばステップS10において、音声ガイダンスを除去した後の音データに基づいてユーザ話者が複数存在するか否かを判定し、この条件を満たさないと判定したことを一つの条件として(S10:NO)、バージイン処理を有効と判定する(S11)。ユーザ話者が複数存在しているか判定する方法としては、複数のマイク5からの入力音声が存在するか否かを判定する方向が挙げられる。また、単数又は複数のマイク5の音声指向性が大となる方向が、車両内の異なる2つ以上の方向であることを条件としてユーザ話者が複数存在すると判定しても良い。
いずれにしても、複数の音源が存在することを特定することで判定できる。ユーザ話者が複数存在したと判定した場合には、バージイン処理を無効とし、音声ガイダンス区間を音声認識対象区間から外している(S17)。この結果、ユーザによる他者との会話による発話を音声認識装置100の入力音声としてしまう虞を極力なくすことができる。また、あるユーザの発話に他者の発話が重なることで様々な複合語を認識してしまう、という誤認識を極力防止できる。特に、バージイン機能が搭載されていない音声認識装置に慣れているユーザは、音声ガイダンス再生区間に意図的に他者と会話することが考えられる。このような場合、この会話の内容を誤認識することを極力防止でき、最大限の効果を発揮できる。
音声認識区間設定方法の具体例を図4、図5に示している。図4に示すように、音声コントローラ2がスピーカ6を通じて音声ガイダンスを再生した後、ユーザがこの音声ガイダンスに応答する場合には、前述のステップS6〜S10の条件をクリアしないため、図3に示すように、音響分析部3は、音声ガイダンス再生区間T0を音声認識対象区間に含めることなく、その後のユーザ発話音の音入力期間を含む区間T1を音声認識対象区間として設定し、音声認識部4がステップS20において音声認識処理する。この場合、音声ガイダンスの除去後でも僅かに存在する音声ガイダンスの再生音やその他の音声ガイダンス再生期間中の雑音(図4中のA0参照)による音声誤認識の影響を極力低減できる。
図5に示すように、音声コントローラ2がスピーカ6を通じて音声ガイダンスを再生している最中に、ユーザがこの音声ガイダンスに応答する場合、前述の図3のステップS6〜S10の条件をクリアし、バージインを有効と判定したときには、音響分析部3は、音声ガイダンス再生区間T0を含み且つユーザ発話音の音入力区間を含む区間T2を音声認識対象区間として設定し、音声認識部4がステップS20において音声認識処理する。この場合、バージイン機能による音声認識処理を信頼性高く実現できる。
本実施形態に示す判定条件(特にS6の条件)を採用した場合、音声認識部4は、ユーザ発話音の音量が通常より高い所定閾値を超えている条件を満たした音データを対象として音声認識処理するため、誤認識を極力防止しながら音声認識処理できる。
音響分析部3は、ユーザ発話の特徴量を抽出しこの音声分析結果を音声認識部4に渡している。音声認識部4は、認識辞書部7に登録された認識語とパターンマッチングするが、音響分析部3の計算量はこのパターンマッチングの計算量に比較して少ない。したがって、音声認識部4が音声認識処理をステップS12のみで行っている場合には、音声認識処理を全体で1回のみで終了させることができ、全体の計算量を少なくできる。特に近年では、認識語として数多くの語彙を待ち受けるようになっている。
例えば、認識辞書部7内の住所/POI辞書は、住所を認識語として記憶しているが、音声認識部4は、例えば県(例えば、「とうきょうと」、「あいちけん」、「おおさかふ」)から番地(例えば「いちばんち」、「にばんち」)までの長文節を対象として待ち受ける場合もある。さらに、認識辞書部7内の楽曲対応辞書は、楽曲を認識語として記憶しているが、近年ではこのような楽曲を例えば数千件程度まで待ち受けるようになっている。これらの語彙について、全て言語処理的に語彙を探索してパターンマッチングするには相当時間を要する。特に、音声認識部4による音声認識の誤り率は、通常ノイズの存在しない環境下でも5%程度は存在する。このため、1回のユーザ発話に対し音声認識処理を増やすことはレスポンスの悪化に直結する。
他方、本実施形態に係る音響分析部3は、ステップS5において例えばデジタル化された音データから音声ガイダンスの音データを概ね減算処理等することで音声ガイダンスを除去しながら、ステップS7〜S11のように音響(音の指向性等)を分析するのみであるため、音声認識部4による音声認識処理を行う方法に比較して格段に計算量を削減できる。これにより、全体処理の計算量を削減でき処理負荷を低減でき、レスポンスを向上できる。
例えば、音声ガイダンス中のユーザ発話を音声認識する場合、ユーザが音声認識させようと発話した音声と、音声認識とは無関係に発話した音声とを区別することが難しい。このような場合、ユーザが音声ガイダンスの再生後に正しい発話をしたとしても、音声認識精度は著しく落ちてしまう可能性がある。これに対し、本実施形態によれば、音響分析部3が、ユーザに音声認識要求する意図が存在するか否かを判定できるようにし、音声認識に無関係な発話を認識対象としないようにしている。これにより認識精度を向上できる。
また本実施形態では、音声認識対象区間T1、T2を音響分析部3の音声分析結果に応じて変更できるため認識精度を向上できる。また、音声認識部4は、音声認識対象区間T2として音声ガイダンス再生区間T0を含んでいたとしても、音声ガイダンス再生区間T0の音声ガイダンスの除去データについて音声認識するため認識精度を向上できる。
(他の実施形態)
前述実施形態に限定されるものではなく、例えば、以下に示す変形または拡張が可能である。
「音声認識処理することなくユーザに音声認識要求する意図が存在するか否かを判定する」方法の一例が、ステップS6〜S10に示される処理となるが、これらの処理は、その一部または全部を用いて判定しても良いし、単独で他の判定処理を行っても、この他の判定処理をステップS6〜S10の一部又は全部に加えて判定しても良い。
ここで、他の判定処理としては、例えば、図1に示すように、車内撮像用のカメラ(撮像手段)8について、撮像分析部9を通じて制御部1に接続し、撮像分析部9が、カメラ8により撮像されたユーザの顔、身体又は視線がマイクに向いているか否かを分析、判定する方法が挙げられる。より具体的には、撮像分析部9は、例えば通常のマイクロコンピュータに内蔵して構成され、人体の顔認識技術、身体認識技術、視線認識技術等を用いて、車両内のユーザの顔、身体又は/及び視線がマイク5に向かっているか否かを判定する。撮像分析部9は、この撮像画像による前述の認識技術に基づいて、何れの人が声を発したか否か、1又は複数の人が声を発したか否か、ひいては音声認識処理する意図が存在するか否か、を判定できる。
また、さらに他の判定処理としては、例えば、人の脳波を認識する認識装置10(図1参照)を制御部1に接続し、この認識装置10により認識された脳波に基づいて、音声認識要求する意図が存在するか否かを判定部10aにより判定する方法を用いても良い。この判定処理を前述の判定処理に替えても加えてもよい。
図面中、100は音声認識装置、3は音響分析部(音取得手段)、3aは再生音除去部(再生音除去手段)、3bは判定部(判定手段)、3cは音声認識対象区間設定部(音声認識対象区間設定手段)、4は音声認識部、8はカメラ(撮像手段)、9は撮像分析部、9a、10aは判定部(判定手段)、を示す。

Claims (4)

  1. 音声ガイダンスの再生区間中及びその後の音データを取得する音取得手段(3)の取得音から前記音声ガイダンスの再生音を除去する再生音除去手段(3a)と、
    前記再生音除去手段により前記音声ガイダンスの再生音が除去された除去後の音データに基づいて、前記音取得手段の取得音に含まれるユーザ発話音を音声認識処理することなく音声認識要求する意図が存在するか否かを判定する判定手段(3b、9a、10a)と、
    前記判定手段により音声認識要求する意図が存在すると判定されたときには音声ガイダンスの再生区間を音声認識対象区間として含め、前記判定手段により音声認識要求する意図が存在しないと判定されたときには前記音声ガイダンスの再生区間を音声認識対象区間に含めないように設定する音声認識対象区間設定手段(3c)と、を備えることを特徴とする音声認識装置。
  2. 請求項1記載の音声認識装置において、
    前記判定手段は、
    前記再生音除去手段により前記音声ガイダンスの再生音が除去された除去後の音データに基づいて、前記音取得手段の取得音に含まれるユーザ発話音に音声認識要求する意図が存在するか否かを判定するときには、
    (A)前記除去後の音データの音量が所定閾値を超える、
    (B)前記所定閾値を超えた音量が所定時間以上継続する、
    (C)前記除去後の音データ中にユーザ発話音が存在する、
    (D)前記除去後の音データに基づいてユーザがマイクに向いていると判定、
    (E)前記除去後の音データ中にユーザ話者が複数存在しない、
    (F)撮像手段により撮像されたユーザの顔、身体又は視線がマイクに向いていると判定、
    (G)人の脳波を検出して前記意図が存在すると判定、
    の条件のうち、少なくとも1つ以上の条件を満たしたときに、前記音取得手段の取得音に含まれるユーザ発話音に音声認識要求する意図が存在すると判定することを特徴とする音声認識装置。
  3. 音声ガイダンスの再生区間中及びその後の音データを取得する音取得手段の取得音から前記音声ガイダンスの再生音を除去し、
    前記音声ガイダンスの再生音が除去された除去後の音データに基づいて、前記音取得手段の取得音に含まれるユーザ発話音を音声認識処理することなく音声認識要求する意図が存在するか否かを判定し、
    音声認識要求する意図が存在すると判定されたときには音声ガイダンスの再生区間を音声認識対象区間として含め、音声認識要求する意図が存在しないと判定されたときには前記音声ガイダンスの再生区間を音声認識対象区間に含めないように設定する音声認識対象区間設定方法。
  4. 音声認識装置に、
    音声ガイダンスの再生区間中及びその後の音データを取得する音取得手段の取得音から前記音声ガイダンスの再生音を除去する手順と、
    前記音声ガイダンスの再生音が除去された除去後の音データに基づいて、前記音取得手段の取得音に含まれるユーザ発話音を音声認識処理することなく音声認識要求する意図が存在するか否かを判定する手順と、
    音声認識要求する意図が存在すると判定されたときには音声ガイダンスの再生区間を音声認識対象区間として含め、音声認識要求する意図が存在しないと判定されたときには前記音声ガイダンスの再生区間を音声認識対象区間に含めないように設定する手順と、を実行させる音声認識区間設定プログラム。
JP2014188865A 2014-09-17 2014-09-17 音声認識装置、音声認識方法、及び音声認識プログラム Active JP6459330B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014188865A JP6459330B2 (ja) 2014-09-17 2014-09-17 音声認識装置、音声認識方法、及び音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014188865A JP6459330B2 (ja) 2014-09-17 2014-09-17 音声認識装置、音声認識方法、及び音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2016061888A true JP2016061888A (ja) 2016-04-25
JP6459330B2 JP6459330B2 (ja) 2019-01-30

Family

ID=55795944

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014188865A Active JP6459330B2 (ja) 2014-09-17 2014-09-17 音声認識装置、音声認識方法、及び音声認識プログラム

Country Status (1)

Country Link
JP (1) JP6459330B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018124484A (ja) * 2017-02-02 2018-08-09 トヨタ自動車株式会社 音声認識装置
JP2018172028A (ja) * 2017-03-31 2018-11-08 本田技研工業株式会社 車両制御システム、車両制御方法、および車両制御プログラム
WO2019235229A1 (ja) * 2018-06-06 2019-12-12 ソニー株式会社 情報処理装置および方法、並びにプログラム
CN112930686A (zh) * 2019-08-13 2021-06-08 海信视像科技股份有限公司 接收装置
WO2022176085A1 (ja) * 2021-02-18 2022-08-25 三菱電機株式会社 車載向け音声分離装置及び音声分離方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008083375A (ja) * 2006-09-27 2008-04-10 Toshiba Corp 音声区間検出装置およびプログラム
JP2009025579A (ja) * 2007-07-20 2009-02-05 Nissan Motor Co Ltd 音声認識装置および音声認識方法
US20090254342A1 (en) * 2008-03-31 2009-10-08 Harman Becker Automotive Systems Gmbh Detecting barge-in in a speech dialogue system
JP2010281855A (ja) * 2009-06-02 2010-12-16 Nissan Motor Co Ltd 音声対話装置および音声対話方法
JP2012073364A (ja) * 2010-09-28 2012-04-12 Toshiba Corp 音声対話装置、方法、プログラム
JP2013160877A (ja) * 2012-02-03 2013-08-19 Mitsubishi Electric Corp エレベータの音声認識装置および音声認識方法
JP2014077969A (ja) * 2012-10-12 2014-05-01 Honda Motor Co Ltd 対話システム及び対話システム向け発話の判別方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008083375A (ja) * 2006-09-27 2008-04-10 Toshiba Corp 音声区間検出装置およびプログラム
JP2009025579A (ja) * 2007-07-20 2009-02-05 Nissan Motor Co Ltd 音声認識装置および音声認識方法
US20090254342A1 (en) * 2008-03-31 2009-10-08 Harman Becker Automotive Systems Gmbh Detecting barge-in in a speech dialogue system
JP2010281855A (ja) * 2009-06-02 2010-12-16 Nissan Motor Co Ltd 音声対話装置および音声対話方法
JP2012073364A (ja) * 2010-09-28 2012-04-12 Toshiba Corp 音声対話装置、方法、プログラム
JP2013160877A (ja) * 2012-02-03 2013-08-19 Mitsubishi Electric Corp エレベータの音声認識装置および音声認識方法
JP2014077969A (ja) * 2012-10-12 2014-05-01 Honda Motor Co Ltd 対話システム及び対話システム向け発話の判別方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
國枝 伸行、外2名: "ガイダンス音声の伝播経路特性変化にロバストなバージイン機能を持つ音声認識システム", 電子情報通信学会技術研究報告, vol. 103, no. 332, JPN6018010827, 23 September 2003 (2003-09-23), pages 41 - 46, ISSN: 0003767834 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018124484A (ja) * 2017-02-02 2018-08-09 トヨタ自動車株式会社 音声認識装置
JP2018172028A (ja) * 2017-03-31 2018-11-08 本田技研工業株式会社 車両制御システム、車両制御方法、および車両制御プログラム
WO2019235229A1 (ja) * 2018-06-06 2019-12-12 ソニー株式会社 情報処理装置および方法、並びにプログラム
CN112930686A (zh) * 2019-08-13 2021-06-08 海信视像科技股份有限公司 接收装置
CN112930686B (zh) * 2019-08-13 2022-10-14 海信视像科技股份有限公司 接收装置
WO2022176085A1 (ja) * 2021-02-18 2022-08-25 三菱電機株式会社 車載向け音声分離装置及び音声分離方法

Also Published As

Publication number Publication date
JP6459330B2 (ja) 2019-01-30

Similar Documents

Publication Publication Date Title
US9230538B2 (en) Voice recognition device and navigation device
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2008299221A (ja) 発話検知装置
CN112397065A (zh) 语音交互方法、装置、计算机可读存储介质及电子设备
EP1494208A1 (en) Method for controlling a speech dialog system and speech dialog system
JP7023823B2 (ja) 車載装置及び音声認識方法
JP6827536B2 (ja) 音声認識装置および音声認識方法
JP6847324B2 (ja) 音声認識装置、音声認識システム、及び音声認識方法
JPH1152976A (ja) 音声認識装置
JP2006208486A (ja) 音声入力装置
JP6673243B2 (ja) 音声認識装置
JP5375423B2 (ja) 音声認識システム、音声認識方法および音声認識プログラム
JP2018116206A (ja) 音声認識装置、音声認識方法及び音声認識システム
JP5074759B2 (ja) 対話制御装置、対話制御方法及び対話制御プログラム
JP2020148805A (ja) 音声認識システム、及び、音声認識方法
JP6539940B2 (ja) 音声認識装置及び音声認識プログラム
JP4178931B2 (ja) 音声認識装置
JP4281369B2 (ja) 音声認識装置
JP7429107B2 (ja) 音声翻訳装置、音声翻訳方法及びそのプログラム
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
JP7242873B2 (ja) 音声認識補助装置および音声認識補助方法
JP2008309865A (ja) 音声認識装置および音声認識方法
WO2019030810A1 (ja) 音声認識装置および音声認識方法
US20210304752A1 (en) In-vehicle speech processing apparatus
US11195545B2 (en) Method and apparatus for detecting an end of an utterance

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170323

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180316

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180403

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180515

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181217

R151 Written notification of patent or utility model registration

Ref document number: 6459330

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250