JP2019045532A - 音声認識装置、車載システム及びコンピュータプログラム - Google Patents

音声認識装置、車載システム及びコンピュータプログラム Download PDF

Info

Publication number
JP2019045532A
JP2019045532A JP2017164874A JP2017164874A JP2019045532A JP 2019045532 A JP2019045532 A JP 2019045532A JP 2017164874 A JP2017164874 A JP 2017164874A JP 2017164874 A JP2017164874 A JP 2017164874A JP 2019045532 A JP2019045532 A JP 2019045532A
Authority
JP
Japan
Prior art keywords
recognition
speech
voice
phrase
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017164874A
Other languages
English (en)
Other versions
JP6817915B2 (ja
Inventor
信範 工藤
Akinori Kudo
信範 工藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2017164874A priority Critical patent/JP6817915B2/ja
Publication of JP2019045532A publication Critical patent/JP2019045532A/ja
Application granted granted Critical
Publication of JP6817915B2 publication Critical patent/JP6817915B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Navigation (AREA)

Abstract

【課題】スピーカから出力される音声の認識を行わない「音声認識装置、車載システム及びコンピュータプログラム」を提供する。【解決手段】第1音声認識エンジン2はマイクロフォン1からの音声の入力と並行して当該音声に整合することが予測される語句を認識する音声認識を行い、第2音声認識エンジン3はオーディオソース8のスピーカ9への音声の出力と並行して、スピーカに出力される音声に整合することが予測される語句を認識する音声認識を行う。第2音声認識エンジン3は、語句を認識したならば、当該語句を調整語句に設定し、マスク期間中を設定し、認識した語句の音声のオーディオソース8からの出力が完了したならばマスク期間中の設定を解除する。マスク期間中が設定されている間に、第1音声認識エンジン2が認識した、調整語句と同じ語句は無効とする。【選択図】図4

Description

本発明は、ユーザの発話音声を認識する音声認識の技術に関するものである。
ユーザの発話音声を認識する音声認識の技術としては、楽曲等のオーディオコンテンツの音声をスピーカから出力するオーディオソース機器を備えたシステムに、マイクロフォンでピックアップしたユーザの発話音声を認識する第1の音声認識部に加え、オーディオソース機器がスピーカに出力する音声の音声認識を行う第2の音声認識部を設け、第1の音声認識部が音声認識した結果と、第2の音声認識部が音声認識した結果とが一致した場合に、第1の音声認識部が音声認識した結果を無効化する技術が知られている(たとえば、特許文献1)。
このような技術によれば、マイクロフォンに回りこんだオーディオソース機器の出力音声に対して認識された第1の音声認識部の音声認識結果を、ユーザの発話音声の音声認識結果としてしまうことを抑止することができる。
実登2602342号公報
さて、各々語句である複数の認識候補について、マイクロフォンでピックアップした音声と認識候補の音声の相違の大きさを表すスコアを目安として、当該マイクロフォンでピックアップした音声の音声認識行う場合において、マイクロフォンからの音声の入力と並行して、リアルタイムに、順次、入力した音声に対する各認識候補の音声のスコアを算出していき、いずれかの認識候補の音声に対して算出されたスコアが所定のしきい値以下となったときに、当該スコアがしきい値以下となった認識候補を認識結果として算定することが考えられる。
しかし、このような音声認識を行う場合に、上述した第1の音声認識部と第2の音声認識部とを設ける技術を適用すると、次のような問題が生じる。
すなわち、この場合において、オーディオソース機器が、いずれかの認識候補と同じ語句の音声を出力した場合、当該音声は、ノイズ等の他の音声成分と共にマイクロフォンでピックアップされるため、第1の音声認識部で算出される当該認識候補とのスコアは、オーディオソース機器が出力する同じ音声に対して第2の音声認識部で算出される当該認識候補とのスコアより大きくなることが一般的である。
そして、この結果、オーディオソース機器の認識候補と同じ語句の出力音声に対する第1の音声認識部の認識結果の算定時期が、当該音声に対する第2の音声認識部の認識結果の算定時期よりも遅延しまうこととなる。
したがって、この場合、マイクロフォンに回りこんだオーディオソース機器の出力音声に対して認識された第1の音声認識部の音声認識結果を無効化するためには、第2の音声認識部の認識結果の算定時期から当該算定時期から上述した遅延の時間経過するまでの期間を調整期間として、当該調整期間中に第1の音声認識部が音声認識した結果については、当該第1の音声認識部が音声認識した結果と、当該第1の音声認識部の音声認識に先行して第2の音声認識部が音声認識した結果との一致の有無を調査し、一致した場合に、第1の音声認識部が音声認識した結果を無効化する処理を行う必要がある。
一方で、上述した遅延の時間は、オーディオソース機器の出力音声の内容や環境に応じて異なり、不特定であるため、上述した調整期間の時間長を一義的に定めることはできない。そして、ここの調整期間の時間長が短すぎれば、オーディオソース機器の出力音声に対して認識された第1の音声認識部の音声認識結果を無効化することができなくなり、調整期間の時間長が長すぎれば、ユーザが本当に発話した音声の音声認識結果までも無効化してしまうこととなる。
そこで、本発明は、オーディオソース機器の音がスピーカから放射される環境下において、より正しく、ユーザの発話した音声についてのみ認識する音声認識を行うことを課題とする。
前記課題達成のために、本発明は、スピーカから、当該スピーカにオーディオソース機器から出力された音が放射される空間の中で発話された音声を認識する音声認識装置に、前記空間中に配置されたマイクロフォンと、前記マイクロフォンがピックアップした音声を入力し、当該音声の入力と並行して当該音声に整合することが予測される語句を認識する音声認識を行う第1音声認識手段と、前記オーディオソース機器がスピーカに出力する音声を入力し、当該音声の入力と並行して、当該スピーカに出力される音声に整合することが予測される語句を認識する音声認識を行う第2音声認識手段と、前記第1音声認識手段が認識した語句を認識結果として出力する認識調整手段と備えたものである。ここで、前記第2音声認識手段は、前記語句を認識したならば、当該認識した語句の音声の前記オーディオソースからの出力の完了を検出し、前記認識調整手段は、前記第2音声認識手段が語句を認識したならば当該認識した語句を調整語句に設定すると共に、以降、前記第2音声認識手段が前記出力の完了を検出するまで、もしくは、前記第2音声認識手段が前記出力の完了を検出してから所定期間経過するまで、前記第1音声認識手段が認識した、調整語句と同じ語句の認識結果としての出力を抑止する。
また、本発明は、前記課題達成のために、スピーカから、当該スピーカにオーディオソース機器から出力された音が放射される空間の中で発話された音声を認識する音声認識装置に、前記空間中に配置されたマイクロフォンと、前記マイクロフォンがピックアップした音声を入力し、各々語句である複数の認識候補について、前記マイクロフォンから入力する各音声区間の音が入力する度に、当該認識候補の評価値を、当該音声区間の音が、当該認識候補を発音した音声の、当該音声区間に対応する区間の音と整合している場合に減少させ、整合していない場合に増加させると共に、当該評価値が所定の第1しきい値以下となった認識候補の語句を認識する音声認識を行う第1音声認識手段と、前記オーディオソース機器がスピーカに出力する音声を入力し、前記複数の認識候補について、前記オーディオソース機器から入力する各音声区間の音が入力する度に、当該認識候補の評価値を、当該音声区間の音が、当該認識候補を発音した音声の、当該音声区間に対応する区間の音と整合している場合に減少させ、整合していない場合に増加させると共に、当該評価値が所定の第2しきい値以下となった認識候補の語句を認識すると共に、認識候補の語句を認識した後に、前記評価値が減少から増加に転じるピークの発生を検出する第2音声認識手段と、前記第1音声認識手段が認識した語句を認識結果として出力する認識調整手段とを設けたものである。ここで、前記認識調整手段は、前記第2音声認識手段が語句を認識したならば当該認識した語句を調整語句に設定すると共に、以降、前記第2音声認識手段が前記ピークの発生を検出するまで、もしくは、前記第2音声認識手段が前記ピークの発生を検出してから所定期間経過するまで、前記第1音声認識手段が認識した、前記調整語句と同じ語句の認識結果としての出力を抑止する。
ここで、このような音声認識装置においては、前記第2しきい値として前記第1しきい値より大きい値を設定することも好ましい。
また、本発明は、前記課題達成のために、スピーカから、当該スピーカにオーディオソース機器から出力された音が放射される空間の中で発話された音声を認識する音声認識装置に、前記空間中に配置されたマイクロフォンと、前記マイクロフォンがピックアップした音声を入力し、各々語句である複数の認識候補について、前記マイクロフォンから入力する各音声区間の音が入力する度に、当該認識候補の評価値を、当該音声区間の音が、当該認識候補を発音した音声の、当該音声区間に対応する区間の音と整合している場合に増加させ、整合していない場合に減少させると共に、当該評価値が所定の第1しきい値以上となった認識候補の語句を認識する音声認識を行う第1音声認識手段と、前記オーディオソース機器がスピーカに出力する音声を入力し、前記複数の認識候補について、前記オーディオソース機器から入力する各音声区間の音が入力する度に、当該認識候補の評価値を、当該音声区間の音が、当該認識候補を発音した音声の、当該音声区間に対応する区間の音と整合している場合に増加させ、整合していない場合に減少させると共に、当該評価値が所定の第2しきい値以上となった認識候補の語句を認識すると共に、認識候補の語句を認識した後に、前記評価値が増加から減少に転じるピークの発生を検出する第2音声認識手段と、前記第1音声認識手段が認識した語句を認識結果として出力する認識調整手段とを備えたものである。ここで、前記認識調整手段は、前記第2音声認識手段が語句を認識したならば当該認識した語句を調整語句に設定すると共に、以降、前記第2音声認識手段が前記ピークの発生を検出するまで、もしくは、前記第2音声認識手段が前記ピークの発生を検出してから所定期間経過するまで、前記第1音声認識手段が認識した、前記調整語句と同じ語句の認識結果としての出力を抑止する
ここで、このような音声認識装置においては、前記第2しきい値として前記第1しきい値より小さい値を設定することも好ましい。
また、併せて本発明は、以上の音声認識装置と、自動車に搭載された前記スピーカと前記オーディオソース機器とを備えた車載システムも提供する。ここで、この車載システムにおいて、前記空間は前記自動車の車内空間となる。
以上のような音声認識システムや車載システムでは、第2音声認識手段が語句を認識したならば、以降、第2音声認識手段が認識した語句の音声の前記オーディオソースからの出力の完了を検出するまで、もしくは、当該出力の完了を検出してから所定期間経過するまで、前記第1音声認識手段が認識した、第2音声認識手段が認識した語句と同じ語句の認識結果としての出力が抑止される。
ここで、第1音声認識手段が、スピーカから出力されたオーディオソース機器が出力した音声の語句を認識するタイミングは、当該語句の音声をオーディオソース機器が出力している期間中となる。また、第1音声認識手段は、マイクロフォンから出力される、スピーカから出力されたオーディオソース機器の出力した音声とノイズなどの他の音声とが混在している音声から、オーディオソース機器が出力した音声の語句を認識するので、当該語句を第1音声認識手段が認識するタイミングは、第2音声認識手段が当該語句を認識した後のタイミングとなる。
したがって、以上のような音声認識システムや車載システムによれば、第1音声認識手段がオーディオソース機器が出力した音声の語句を認識し得る期間中のみ、第1音声認識手段が認識した、第2音声認識手段が認識した語句と同じ語句の認識結果の出力を抑止できるので、オーディオソース機器がスピーカから出力した音声から認識した語句をユーザの発話音声の認識結果として出力してしまうことを抑止しつつ、ユーザが本当に発話した音声から認識した語句について、正しく、ユーザの発話音声の認識結果として出力することができるようになる。
以上のように、本発明によれば、オーディオソース機器の音がスピーカから放射される環境下において、より正しく、ユーザの発話した音声についてのみ認識する音声認識を行うことができる。
本発明の実施形態に係る情報処理システムの構成を示すブロック図である。 本発明の実施形態に係る音声認識の手法を示す図である。 本発明の実施形態に係る認識調整処理を示すフローチャートである。 本発明の実施形態に係る認識調整処理の処理例を示す図である。
以下、本発明の実施形態に係る音声認識装置の実施形態を、自動車に搭載される情報処理システムへの適用を例にとり説明する。
図1に本実施形態に係る情報処理システムの構成を示す
図示するように、情報処理システムは、マイクロフォン1、第1音声認識エンジン2、第2音声認識エンジン3、音声認識辞書4、認識調整部5、音声入力制御部6、ナビゲーションアプリケーション等の1または複数のアプリケーション7、オーディオソース8、スピーカ9を備えている。
このような構成において、オーディオソース8は、ラジオ受信器やミュージックプレイヤなどの音源となる装置であり、オーディオコンテンツの音声を、スピーカ9と、第2音声認識エンジン3に出力する。
そして、スピーカ9は、オーディオソース8から入力した音声を車内に放射する。
また、音声認識辞書4は、音声認識用の辞書であり、各々異なる語句である複数の認識候補と、その発音を表す発音データが登録されている。なお、発音データは、語句の発音の音素列を表すものであってもよいし、語句の発音の音声データ等であってもよい。
次に、第1音声認識エンジン2は、音声認識辞書4を用いて、マイクロフォン1から入力した音声に対して音声認識処理を行って音声認識した語句を認識語句として認識調整部5に出力する。
また、第2音声認識エンジン3は、音声認識辞書4を用いて、オーディオソース8から入力した音声に対して音声認識処理を行って音声認識した語句を認識語句として認識調整部5に出力する。
そして、認識調整部5は、第1音声認識エンジン2から入力した認識語句や第2音声認識エンジン3から入力した認識語句を用いて、認識結果とする語句を算定し、算定した認識結果を音声入力制御部6に出力する。ここで、この認識調整部5の動作については後に詳述する。
そして、音声入力制御部6は、認識調整部5が出力した認識結果に対応する音声入力をアプリケーション7に出力し、アプリケーション7は、音声入力を受け付けて、受け付けた音声入力の内容に応じた処理を行う。
以下、第1音声認識エンジン2と第2音声認識エンジン3で行う音声認識の動作について説明する。
第1音声認識エンジン2と第2音声認識エンジン3は、認識対象音声(第1音声認識エンジン2あればマイクロフォン1が出力する音声、第2音声認識エンジン3であればオーディオソース8が出力する音声)の入力と並行して、認識対象音声に対する音声認識辞書4に格納された各認識候補のスコアを算定する。
ここで、認識対象音声に対する認識候補のスコアは、認識対象音声と、認識候補の発話データとの相違の大きさの予測値を表すものであり、より大きい相違を予測しているときほど、スコアはより大きくなる。
より具体的には、スコアの算定は、予め定めておいた初期値をスコアとして設定した上で、認識対象音声の各音声区間(たとえば、音素毎の音声区間)の音が入力する度に、当該音声区間の音と、各認識候補の発音データの当該音声区間に対応する部分との整合の有無を算定し、整合していればスコアを所定値減少し、整合していなければスコアを所定値増加することにより行う。
このような音声認識によれば、図2aに、認識対象音声が「あいうえおか」であるときに、認識候補「あいうえお」に対して算出されるスコアの推移と、認識候補「あいうあい」に対して算出されるスコアの推移を示すように、認識候補と一致する認識対象音声の音が入力されている間は、認識候補とのスコアは順次減少し、認識候補と一致しない認識対象音声の音が入力されている間は認識候補のスコアは順次増加する。
すなわち、たとえば、図2a1に示したように、認識対象音声「あいうえおか」と、認識候補「あいうえお」とスコアは、認識対象音声の「あいうえお」の音が入力されている期間は順次減少し、その後、認識対象音声の「か」が入力されると増加する。
また、同様に、図2a2に示したように、認識対象音声「あいうえおか」と、認識候補「あいうあい」とスコアは、認識対象音声の「あいう」の音が入力されている期間は順次減少し、その後の、認識対象音声の「えおか」が入力されている期間は順次増加する。
さて、第1音声認識エンジン2と第2音声認識エンジン3は、以上のようにして算出される認識対象音声といずれかの認識候補とのスコアが、しきい値Th以下となったならば、当該スコアがしきい値Th以下となった認識候補の語句を認識し、認識語句として認識調整部5に出力する。
すなわち、たとえば、図2a1に示した場合では、認識候補「あいうえお」についてのスコアは、認識対象音声の「あいうえおか」の「え」が入力される直前にしきい値Th以下となるので、この時点で、認識候補「あいうえお」が認識語句として認識調整部5に出力される。
一方、図2a1に示した場合では、認識候補「あいうあいお」についてのスコアがしきい値Th以下となることはないので、この認識候補「あいうあいお」の語句の認識は行われない。
なお、以上のような音声認識において、認識対象音声といずれかの認識候補とのスコアが、しきい値Th以下となった場合でも、その認識候補のスコアとの差が所定レベル以上小さいスコアが算出されている他の認識候補が存在する場合には、当該時点で認識は行わず、最小のスコアが算出されている認識候補と、他の認識候補のスコアとの差が所定レベル以上大きくなったときに、当該小のスコアが算出されている認識候補の語句を認識し、認識語句として認識調整部5に出力するようにしたり、マイクロフォン1への音声入力の終了をまって、その時点で最小のスコアが算出されている認識候補の語句を認識し、認識語句として認識調整部5に出力するようにしてもよい。
次に、図2bに、オーディオソース8の出力音声に対して行われる第1音声認識エンジン2と第2音声認識エンジン3の音声認識の動作例を示す。
図示するように、オーディオソース8が「なにぬねのは」の出力音声を出力すると、この出力音声はスピーカ9から出力され、マイクロフォン1でピックアップされ、この出力音声に対して第1音声認識エンジン2において音声認識が行われる。
一方、この「なにぬねのは」のオーディオソース8の出力音声は直接、第2音声認識エンジン3に送られ、第2音声認識エンジン3においても音声認識が行われる。
そして、図2b1は、このようなオーディオソース8が「なにぬねのは」の出力音声に対する第1音声認識エンジン2の音声認識において、認識候補「なにぬねの」に対して算出されるスコアの推移を示したものであり、図2b2は、このオーディオソース8が「なにぬねのは」の出力音声に対する第2音声認識エンジン3の音声認識において、同じ認識候補「なにぬねの」に対して算出されるスコアの推移を示したものである。
この場合、図示するように、オーディオソース8の出力音声「なにぬねのは」の「なにぬねの」が入力する期間は、第1音声認識エンジン2が認識候補「なにぬねの」に対して算出するスコアも、第2音声認識エンジン3が認識候補「なにぬねの」に対して算出するスコアも順次減少していくが、第1音声認識エンジン2で算出されるスコアの減少の度合いは、第2音声認識エンジン3で算出されるスコアの減少の度合いよりも小さくなる。これは、第1音声認識エンジン2に入力する音声は、マイクロフォン1がノイズ等の他の音声成分と共にピックアップしたオーディオソース8の出力音声であるため、マイクロフォン1から出力される音声の各音声区間の認識候補「なにぬねの」の発音データの当該音声区間に対応する部分との整合度が、第2音声認識エンジン3に直接入力するオーディオソース8の出力音声の各音声区間の認識候補「なにぬねの」の発音データの当該音声区間に対応する部分との整合度よりも小さくなるからである。
また、本実施形態では、第1音声認識エンジン2に設定するしきい値Thとして、第1音声認識エンジン2に設定するしきい値Thの値Th2よりも小さい値Th1を設定している。
したがって、図2b1、b2に示すように、第2音声認識エンジン3において認識候補「なにぬねの」に対して算出されるスコアは、第1音声認識エンジン2において認識候補「なにぬねの」に対して算出されるスコアよりも早い時点でしきい値Th以下となる。よって、第2音声認識エンジン3において認識候補「なにぬねの」が認識されて認識語句として認識調整部5に出力された後に、遅延して、第1音声認識エンジン2において認識候補「なにぬねの」が認識されて認識語句として認識調整部5に出力されることとなる。
なお、本実施形態において、第1音声認識エンジン2に設定するしきい値Thとして、第1音声認識エンジン2に設定するしきい値Thの値Th2よりも小さい値Th1を設定しているのは、オーディオソース8の出力音声に対する音声の認識が、第2音声認識エンジン3において第1音声認識エンジン2よりも確実に前に行われるようにするためである。
さて、第2音声認識エンジン3は、スコアがしきい値Th2以下となった認識候補を認識して認識語句として認識調整部5に出力したならば、認識語句とした認識候補について算出されているスコアの、その後の推移を監視し、図2b2に示すように、スコアの推移の波形の下向きのピーク(スコアが減少から増加に転じる点)が出現したならば、これを検出し、認識調整部5にピークの検出を通知する処理も行う。
以上、第1音声認識エンジン2と第2音声認識エンジン3が行う音声認識の動作について説明した。
以下、上述のように認識調整部5が行う、第1音声認識エンジン2から入力した認識語句や第2音声認識エンジン3から入力した認識語句を用いて、認識結果とする語句を算定し、算定した認識結果を音声入力制御部6に出力する動作について説明する。
図3に、認識調整部5が行う認識調整処理の手順を示す。
図示するように、この処理において、認識調整部5は、第1音声認識エンジン2からの認識語句の入力の発生(ステップ302)と、第2音声認識エンジン3からの認識語句の入力の発生(ステップ304)と、第2音声認識エンジン3からのピーク検出の通知の入力の発生(ステップ306)とを監視する。
そして、第2音声認識エンジン3からの認識語句の入力が発生したばらば(ステップ304)、マスク期間中を設定し(ステップ312)、第2音声認識エンジン3から入力した認識語句を調整語句に設定する(ステップ314)。そして、ステップ302、304、306の監視に戻る。
一方、第2音声認識エンジン3からのピーク検出の通知の入力が発生したならば(ステップ306)、マスク期間中の設定をクリアし(ステップ308)、調整語句の設定をクリアする(ステップ310)。そして、ステップ302、304、306の監視に戻る。
また、第1音声認識エンジン2からの認識語句の入力が発生した場合には(ステップ302)、マスク期間中が設定されているかどうを調べ(ステップ316)、マスク期間中が設定されていなければ、第1音声認識エンジン2から入力した認識語句を、認識結果とする語句として算定し、算定した認識結果を音声入力制御部6に出力する(ステップ320)。そして、ステップ302、304、306の監視に戻る。
一方、ステップ316において、マスク期間中が設定されていると判定された場合には、第1音声認識エンジン2から入力した認識語句が調整語句と一致しているかどうかを調べ(ステップ318)、一致している場合には、第1音声認識エンジン2から入力した認識語句を破棄し、そのままステップ302、304、306の監視に戻る。
一方、第1音声認識エンジン2から入力した認識語句が調整語句と一致していない場合には(ステップ318)、第1音声認識エンジン2から入力した認識語句を、認識結果とする語句として算定し、算定した認識結果を音声入力制御部6に出力する(ステップ320)。そして、ステップ302、304、306の監視に戻る。
以上、認識調整部5が行う認識調整処理について説明した。
次に、このような認識調整処理の処理例を図4に示す。
図4は、オーディオソース8の出力音声「じたくにかえるひと...」に対して行われる、第1音声認識エンジン2と第2音声認識エンジン3の認識候補「じたくにかえる」の認識動作を示したものである。
オーディオソース8が「じたくにかえるひと...」の出力音声を出力すると、この出力音声はスピーカ9から出力され、マイクロフォン1でピックアップされ、この出力音声に対して第1音声認識エンジン2において、図4aに示すように、認識候補「じたくにかえる」に対するスコアの算出が行われる。
また、オーディオソース8が「じたくにかえるひと...」の出力音声を出力すると、この出力音声は直接、第2音声認識エンジン3に送られ、第2音声認識エンジン3においても、図4bに示すように、認識候補「じたくにかえる」に対するスコアの算出が行われる。
この場合、オーディオソース8が出力音声「じたくにかえるひと...」の「じたくにかえる」が入力する期間は、第1音声認識エンジン2が識候補「じたくにかえる」に対して算出するスコアも、第2音声認識エンジン3が認識候補「じたくにかえる」に対して算出するスコアも順次減少していくが、第1音声認識エンジン2で算出される減少の度合いは、第2音声認識エンジン3で算出される減少の度合いよりも小さくなる。
また、第1音声認識エンジン2にはしきい値Thとして、第1音声認識エンジン2に設定されているしきい値Thの値Th2よりも小さい値Th1が設定されている。
したがって、第2音声認識エンジン3において認識候補「じたくにかえる」に対して算出されるスコアは、第1音声認識エンジン2において認識候補「じたくにかえる」に対して算出されるスコアよりも早い時点でしきい値Th以下となり、時刻t21で第2音声認識エンジン3において認識候補「じたくにかえる」が認識されて認識語句として認識調整部5に出力される。
そして、時刻t21で第2音声認識エンジン3から認識語句「じたくにかえる」が出力されると、この認識語句「じたくにかえる」が調整語句に設定されると共に、マスク期間中が設定される。
また、その後、第2音声認識エンジン3において、認識候補「じたくにかえる」に対して算出されるスコアの推移が監視され、時刻t22においてスコアの推移の波形の下向きのピーク(スコアが減少から増加に転じる点)が出現したならば、第2音声認識エンジン3はピークを検出し、認識調整部5にピークの検出を通知する。
そして、認識調整部5は、ピークの検出が通知されると、マスク期間中の設定をクリアする。
一方、時刻t21で第2音声認識エンジン3において認識候補「じたくにかえる」が認識されて認識語句として認識調整部5に出力された後、第1音声認識エンジン2においても、認識候補「じたくにかえる」に対して算出されるスコアがしきい値Th以下となり、時刻t11において、第1音声認識エンジン2において認識候補「じたくにかえる」が認識され認識語句として認識調整部5に出力される。
ここで、第1音声認識エンジン2において認識候補「じたくにかえる」が認識されて認識語句として認識調整部5に出力される時点t11は、オーディオソース8が、オーディオソース8が出力する音声「じたくにかえるひと...」のうちの、認識候補「じたくにかえる」と一致している部分を出力している期間中に発生することとなる。
一方、第2音声認識エンジン3がピークを検出する時刻t22は、オーディオソース8が、オーディオソース8が出力する音声「じたくにかえるひと...」のうちの、認識候補「じたくにかえる」と一致している部分を出力している期間の終了時点となる。
したがって、第1音声認識エンジン2において認識候補「じたくにかえる」が認識されて認識語句として認識調整部5に出力される時点t11は、マスク期間中が設定されている期間中の時点となる。
さて、認識調整部5は、時点t11において、第1音声認識エンジン2から認識語句「じたくにかえる」が出力されると、現在、マスク期間中が設定されているので、第1音声認識エンジン2から出力された認識語句「じたくにかえる」と、設定している調整語句「じたくにかえる」とを比較する。そして、この場合、第1音声認識エンジン2から出力された認識語句「じたくにかえる」と、設定している調整語句「じたくにかえる」は一致しているので、第1音声認識エンジン2から出力された認識語句「じたくにかえる」を、認識結果とはせずに破棄する。
この結果、オーディオソース8が出力する音声「じたくにかえるひと...」に対して第1音声認識エンジン2で認識された認識語句「じたくにかえる」の、ユーザの発話音声の認識結果としての音声入力制御部6への出力は抑止される。
以上、本発明の実施形態について説明した。
なお、以上の実施形態では、認識調整部5の認識調整処理において、第2音声認識エンジン3からピークの検出が通知されたときにマスク期間中の設定を解除するようにしたが、これは、図4bに示すように第2音声認識エンジン3からピークの検出が通知された時点t22から、所定のマージン時間mgn経過した時点t23でマスク期間中の設定を解除するようにしてもよい。
このようにすることにより、より確実に、オーディオソース8が出力する音声に対して第1音声認識エンジン認識された認識語句の認識結果としての音声入力制御部6への出力を抑止することができるようになる。
また、以上の実施形態では、認識調整部5の認識調整処理において、第2音声認識エンジン3からピークの検出が通知されたときにマスク期間中の設定を解除するようにしたが、マスク期間中の設定の解除は、当該マスク期間中の設定の解除が、第2音声認識エンジン3が出力した認識語句の音声と一致する音声の出力をオーディオソース8が終了した時点に行われるものであれば、他の任意の手法によって行うようにしてよい。すなわち、たとえば、オーディオソース8から出力された音素数に基づいて、認識語句の音声と一致する音声の出力をオーディオソース8が終了した時点を検出してマスク期間中の設定を解除するなどしてもよい。、
なお、この場合も、第2音声認識エンジン3が出力した認識語句の音声と一致する音声の出力をオーディオソース8が終了した時点から、所定のマージン時間mgn経過した時点でマスク期間中の設定を解除するようにしてよい。
また、以上の実施形態は、スコアの正負の方向を反転して実施するようにしてもよい。
すなわち、認識対象音声に対する認識候補のスコアは、より大きい相違を予測しているときほど、より小さくなるようにスコアを算出してもよい。
より具体的には、スコアの算定は、予め定めておいた初期値をスコアとして設定した上で、認識対象音声の各音声区間(たとえば、音素毎の音声区間)の音が入力する度に、当該音声区間の音と、各認識候補の発音データの当該音声区間に対応する部分との整合の有無を算定し、整合していればスコアを所定値増加し、整合していなければスコアを所定値減少するようにしてもよい。
ただし、この場合、第1音声認識エンジン2と第2音声認識エンジン3は、以上のようにして算出される認識対象音声といずれかの認識候補とのスコアが、しきい値Th以上となったならば、当該スコアがしきい値Th以上となった認識候補の語句を認識し、認識語句として認識調整部5に出力する。また、第2音声認識エンジン3しきい値Thとして設定するしきい値Th2は、第1音声認識エンジン2しきい値Thとして設定するしきい値Th1より小さい値とする。また、第2音声認識エンジン3は、スコアがしきい値Th2以下となった認識候補を認識して認識語句として認識調整部5に出力したならば、認識語句とした認識候補について算出されているスコアの、その後の推移を監視し、スコアの推移の波形の上向きのピーク(スコアが増加から減少に転じる点)が出現したならばピークを検出し、認識調整部5にピークの検出を通知する。
なお、以上の実施形態における音声認識の技術は、自動車に搭載される情報処理システムのみならず、音声入力を行う任意の情報処理システムに適用することができる。
1…マイクロフォン、2…第1音声認識エンジン、3…第2音声認識エンジン、4…音声認識辞書、5…認識調整部、6…音声入力制御部、7…アプリケーション、8…オーディオソース、9…スピーカ。

Claims (7)

  1. スピーカから、当該スピーカにオーディオソース機器から出力された音が放射される空間の中で発話された音声を認識する音声認識装置であって、
    前記空間中に配置されたマイクロフォンと、
    前記マイクロフォンがピックアップした音声を入力し、当該音声の入力と並行して当該音声に整合することが予測される語句を認識する音声認識を行う第1音声認識手段と、
    前記オーディオソース機器がスピーカに出力する音声を入力し、当該音声の入力と並行して、当該スピーカに出力される音声に整合することが予測される語句を認識する音声認識を行う第2音声認識手段と、
    前記第1音声認識手段が認識した語句を認識結果として出力する認識調整手段とを有し、
    前記第2音声認識手段は、前記語句を認識したならば、当該認識した語句の音声の前記オーディオソースからの出力の完了を検出し、
    前記認識調整手段は、前記第2音声認識手段が語句を認識したならば当該認識した語句を調整語句に設定すると共に、以降、前記第2音声認識手段が前記出力の完了を検出するまで、もしくは、前記第2音声認識手段が前記出力の完了を検出してから所定期間経過するまで、前記第1音声認識手段が認識した、前記調整語句と同じ語句の認識結果としての出力を抑止することを特徴とする音声認識装置。
  2. スピーカから、当該スピーカにオーディオソース機器から出力された音が放射される空間の中で発話された音声を認識する音声認識装置であって、
    前記空間中に配置されたマイクロフォンと、
    前記マイクロフォンがピックアップした音声を入力し、各々語句である複数の認識候補について、前記マイクロフォンから入力する各音声区間の音が入力する度に、当該認識候補の評価値を、当該音声区間の音が、当該認識候補を発音した音声の、当該音声区間に対応する区間の音と整合している場合に減少させ、整合していない場合に増加させると共に、当該評価値が所定の第1しきい値以下となった認識候補の語句を認識する音声認識を行う第1音声認識手段と、
    前記オーディオソース機器がスピーカに出力する音声を入力し、前記複数の認識候補について、前記オーディオソース機器から入力する各音声区間の音が入力する度に、当該認識候補の評価値を、当該音声区間の音が、当該認識候補を発音した音声の、当該音声区間に対応する区間の音と整合している場合に減少させ、整合していない場合に増加させると共に、当該評価値が所定の第2しきい値以下となった認識候補の語句を認識すると共に、認識候補の語句を認識した後に、前記評価値が減少から増加に転じるピークの発生を検出する第2音声認識手段と、
    前記第1音声認識手段が認識した語句を認識結果として出力する認識調整手段とを有し、
    前記認識調整手段は、前記第2音声認識手段が語句を認識したならば当該認識した語句を調整語句に設定すると共に、以降、前記第2音声認識手段が前記ピークの発生を検出するまで、もしくは、前記第2音声認識手段が前記ピークの発生を検出してから所定期間経過するまで、前記第1音声認識手段が認識した、前記調整語句と同じ語句の認識結果としての出力を抑止することを特徴とする音声認識装置。
  3. 請求項2記載の音声認識装置であって、
    前記第2しきい値として前記第1しきい値より大きい値が設定されていることを特徴とする音声認識装置。
  4. スピーカから、当該スピーカにオーディオソース機器から出力された音が放射される空間の中で発話された音声を認識する音声認識装置であって、
    前記空間中に配置されたマイクロフォンと、
    前記マイクロフォンがピックアップした音声を入力し、各々語句である複数の認識候補について、前記マイクロフォンから入力する各音声区間の音が入力する度に、当該認識候補の評価値を、当該音声区間の音が、当該認識候補を発音した音声の、当該音声区間に対応する区間の音と整合している場合に増加させ、整合していない場合に減少させると共に、当該評価値が所定の第1しきい値以上となった認識候補の語句を認識する音声認識を行う第1音声認識手段と、
    前記オーディオソース機器がスピーカに出力する音声を入力し、前記複数の認識候補について、前記オーディオソース機器から入力する各音声区間の音が入力する度に、当該認識候補の評価値を、当該音声区間の音が、当該認識候補を発音した音声の、当該音声区間に対応する区間の音と整合している場合に増加させ、整合していない場合に減少させると共に、当該評価値が所定の第2しきい値以上となった認識候補の語句を認識すると共に、認識候補の語句を認識した後に、前記評価値が増加から減少に転じるピークの発生を検出する第2音声認識手段と、
    前記第1音声認識手段が認識した語句を認識結果として出力する認識調整手段とを有し、
    前記認識調整手段は、前記第2音声認識手段が語句を認識したならば当該認識した語句を調整語句に設定すると共に、以降、前記第2音声認識手段が前記ピークの発生を検出するまで、もしくは、前記第2音声認識手段が前記ピークの発生を検出してから所定期間経過するまで、前記第1音声認識手段が認識した、前記調整語句と同じ語句の認識結果としての出力を抑止することを特徴とする音声認識装置。
  5. 請求項4記載の音声認識装置であって、
    前記第2しきい値として前記第1しきい値より小さい値が設定されていることを特徴とする音声認識装置。
  6. 自動車に搭載された請求項1、2、3、4または5記載の音声認識装置と、
    自動車に搭載された前記スピーカと前記オーディオソース機器とを有し、
    前記空間は前記自動車の車内空間であることを特徴とする車載システム。
  7. スピーカから、当該スピーカにオーディオソース機器から出力された音が放射される空間の中に配置されたマイクロフォンを備えたコンピュータによって読み取られ実行されるコンピュータプログラムであって、
    当該コンピュータプログラムは前記コンピュータを、
    前記マイクロフォンがピックアップした音声を入力し、当該音声の入力と並行して当該音声に整合することが予測される語句を認識する音声認識を行う第1音声認識手段と、
    前記オーディオソース機器がスピーカに出力する音声を入力し、当該音声の入力と並行して、当該スピーカに出力される音声に整合することが予測される語句を認識する音声認識を行う第2音声認識手段と、
    前記第1音声認識手段が認識した語句を認識結果として出力する認識調整手段として機能させ、
    前記第2音声認識手段は、前記語句を認識したならば、当該認識した語句の音声の前記オーディオソースからの出力の完了を検出し、
    前記認識調整手段は、前記第2音声認識手段が語句を認識したならば当該認識した語句を調整語句に設定すると共に、以降、前記第2音声認識手段が前記出力の完了を検出するまで、もしくは、前記第2音声認識手段が前記出力の完了を検出してから所定期間経過するまで、前記第1音声認識手段が認識した、調整語句と同じ語句の認識結果としての出力を抑止することを特徴とするコンピュータプログラム。
JP2017164874A 2017-08-29 2017-08-29 音声認識装置、車載システム及びコンピュータプログラム Active JP6817915B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017164874A JP6817915B2 (ja) 2017-08-29 2017-08-29 音声認識装置、車載システム及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017164874A JP6817915B2 (ja) 2017-08-29 2017-08-29 音声認識装置、車載システム及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2019045532A true JP2019045532A (ja) 2019-03-22
JP6817915B2 JP6817915B2 (ja) 2021-01-20

Family

ID=65812782

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017164874A Active JP6817915B2 (ja) 2017-08-29 2017-08-29 音声認識装置、車載システム及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP6817915B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11688396B2 (en) 2019-12-12 2023-06-27 Samsung Electronics Co., Ltd. Electronic device and method for controlling electronic device

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0723400U (ja) * 1993-09-30 1995-04-25 日本コロムビア株式会社 オーディオ装置
JPH0969038A (ja) * 1995-08-31 1997-03-11 Canon Inc 音声出力装置
JP2000075896A (ja) * 1999-09-13 2000-03-14 Fujitsu Ltd 音声認識制御装置
JP2006171077A (ja) * 2004-12-13 2006-06-29 Nissan Motor Co Ltd 音声認識装置および音声認識方法
WO2014103099A1 (ja) * 2012-12-28 2014-07-03 パナソニック株式会社 音声認識付き機器及び音声認識方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0723400U (ja) * 1993-09-30 1995-04-25 日本コロムビア株式会社 オーディオ装置
JPH0969038A (ja) * 1995-08-31 1997-03-11 Canon Inc 音声出力装置
JP2000075896A (ja) * 1999-09-13 2000-03-14 Fujitsu Ltd 音声認識制御装置
JP2006171077A (ja) * 2004-12-13 2006-06-29 Nissan Motor Co Ltd 音声認識装置および音声認識方法
WO2014103099A1 (ja) * 2012-12-28 2014-07-03 パナソニック株式会社 音声認識付き機器及び音声認識方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11688396B2 (en) 2019-12-12 2023-06-27 Samsung Electronics Co., Ltd. Electronic device and method for controlling electronic device

Also Published As

Publication number Publication date
JP6817915B2 (ja) 2021-01-20

Similar Documents

Publication Publication Date Title
US11646027B2 (en) Multi-layer keyword detection
US20230409102A1 (en) Low-power keyword spotting system
US10643606B2 (en) Pre-wakeword speech processing
US10186265B1 (en) Multi-layer keyword detection to avoid detection of keywords in output audio
TWI620170B (zh) 應用於電子裝置的有向性關鍵字驗證方法及其電子裝置
US10923111B1 (en) Speech detection and speech recognition
US9373321B2 (en) Generation of wake-up words
US9159319B1 (en) Keyword spotting with competitor models
US9437186B1 (en) Enhanced endpoint detection for speech recognition
GB2563952A (en) Speaker identification
KR101151571B1 (ko) 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법
JP6030135B2 (ja) 音声認識システムにおいて、誤った肯定を低減すること
WO2018173270A1 (ja) 音声認識装置および音声認識方法
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP6468258B2 (ja) 音声対話装置および音声対話方法
US20230223014A1 (en) Adapting Automated Speech Recognition Parameters Based on Hotword Properties
JP2019045532A (ja) 音声認識装置、車載システム及びコンピュータプログラム
KR102418256B1 (ko) 언어 모델 개량을 통한 짧은 단어 인식 장치 및 방법
JP6966374B2 (ja) 音声認識システム及びコンピュータプログラム
KR20210054001A (ko) 음성인식 서비스를 제공하기 위한 방법 및 장치
KR20140051519A (ko) 연속어 음성인식 방법 및 연속어 음성인식 장치
JP2019002997A (ja) 音声認識装置および音声認識方法
JP6999236B2 (ja) 音声認識システム
JP6451171B2 (ja) 音声認識装置、音声認識方法、及び、プログラム
US11600273B2 (en) Speech processing apparatus, method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200306

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201225

R150 Certificate of patent or registration of utility model

Ref document number: 6817915

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150