JP2019045532A

JP2019045532A - 音声認識装置、車載システム及びコンピュータプログラム

Info

Publication number: JP2019045532A
Application number: JP2017164874A
Authority: JP
Inventors: 信範工藤; Akinori Kudo
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2017-08-29
Filing date: 2017-08-29
Publication date: 2019-03-22
Anticipated expiration: 2037-08-29
Also published as: JP6817915B2

Abstract

【課題】スピーカから出力される音声の認識を行わない「音声認識装置、車載システム及びコンピュータプログラム」を提供する。【解決手段】第１音声認識エンジン２はマイクロフォン１からの音声の入力と並行して当該音声に整合することが予測される語句を認識する音声認識を行い、第２音声認識エンジン３はオーディオソース８のスピーカ９への音声の出力と並行して、スピーカに出力される音声に整合することが予測される語句を認識する音声認識を行う。第２音声認識エンジン３は、語句を認識したならば、当該語句を調整語句に設定し、マスク期間中を設定し、認識した語句の音声のオーディオソース８からの出力が完了したならばマスク期間中の設定を解除する。マスク期間中が設定されている間に、第１音声認識エンジン２が認識した、調整語句と同じ語句は無効とする。【選択図】図４

Description

本発明は、ユーザの発話音声を認識する音声認識の技術に関するものである。

ユーザの発話音声を認識する音声認識の技術としては、楽曲等のオーディオコンテンツの音声をスピーカから出力するオーディオソース機器を備えたシステムに、マイクロフォンでピックアップしたユーザの発話音声を認識する第１の音声認識部に加え、オーディオソース機器がスピーカに出力する音声の音声認識を行う第２の音声認識部を設け、第１の音声認識部が音声認識した結果と、第２の音声認識部が音声認識した結果とが一致した場合に、第１の音声認識部が音声認識した結果を無効化する技術が知られている（たとえば、特許文献１）。

このような技術によれば、マイクロフォンに回りこんだオーディオソース機器の出力音声に対して認識された第１の音声認識部の音声認識結果を、ユーザの発話音声の音声認識結果としてしまうことを抑止することができる。

実登２６０２３４２号公報

さて、各々語句である複数の認識候補について、マイクロフォンでピックアップした音声と認識候補の音声の相違の大きさを表すスコアを目安として、当該マイクロフォンでピックアップした音声の音声認識行う場合において、マイクロフォンからの音声の入力と並行して、リアルタイムに、順次、入力した音声に対する各認識候補の音声のスコアを算出していき、いずれかの認識候補の音声に対して算出されたスコアが所定のしきい値以下となったときに、当該スコアがしきい値以下となった認識候補を認識結果として算定することが考えられる。

しかし、このような音声認識を行う場合に、上述した第１の音声認識部と第２の音声認識部とを設ける技術を適用すると、次のような問題が生じる。
すなわち、この場合において、オーディオソース機器が、いずれかの認識候補と同じ語句の音声を出力した場合、当該音声は、ノイズ等の他の音声成分と共にマイクロフォンでピックアップされるため、第１の音声認識部で算出される当該認識候補とのスコアは、オーディオソース機器が出力する同じ音声に対して第２の音声認識部で算出される当該認識候補とのスコアより大きくなることが一般的である。

そして、この結果、オーディオソース機器の認識候補と同じ語句の出力音声に対する第１の音声認識部の認識結果の算定時期が、当該音声に対する第２の音声認識部の認識結果の算定時期よりも遅延しまうこととなる。

したがって、この場合、マイクロフォンに回りこんだオーディオソース機器の出力音声に対して認識された第１の音声認識部の音声認識結果を無効化するためには、第２の音声認識部の認識結果の算定時期から当該算定時期から上述した遅延の時間経過するまでの期間を調整期間として、当該調整期間中に第１の音声認識部が音声認識した結果については、当該第１の音声認識部が音声認識した結果と、当該第１の音声認識部の音声認識に先行して第２の音声認識部が音声認識した結果との一致の有無を調査し、一致した場合に、第１の音声認識部が音声認識した結果を無効化する処理を行う必要がある。

一方で、上述した遅延の時間は、オーディオソース機器の出力音声の内容や環境に応じて異なり、不特定であるため、上述した調整期間の時間長を一義的に定めることはできない。そして、ここの調整期間の時間長が短すぎれば、オーディオソース機器の出力音声に対して認識された第１の音声認識部の音声認識結果を無効化することができなくなり、調整期間の時間長が長すぎれば、ユーザが本当に発話した音声の音声認識結果までも無効化してしまうこととなる。

そこで、本発明は、オーディオソース機器の音がスピーカから放射される環境下において、より正しく、ユーザの発話した音声についてのみ認識する音声認識を行うことを課題とする。

前記課題達成のために、本発明は、スピーカから、当該スピーカにオーディオソース機器から出力された音が放射される空間の中で発話された音声を認識する音声認識装置に、前記空間中に配置されたマイクロフォンと、前記マイクロフォンがピックアップした音声を入力し、当該音声の入力と並行して当該音声に整合することが予測される語句を認識する音声認識を行う第１音声認識手段と、前記オーディオソース機器がスピーカに出力する音声を入力し、当該音声の入力と並行して、当該スピーカに出力される音声に整合することが予測される語句を認識する音声認識を行う第２音声認識手段と、前記第１音声認識手段が認識した語句を認識結果として出力する認識調整手段と備えたものである。ここで、前記第２音声認識手段は、前記語句を認識したならば、当該認識した語句の音声の前記オーディオソースからの出力の完了を検出し、前記認識調整手段は、前記第２音声認識手段が語句を認識したならば当該認識した語句を調整語句に設定すると共に、以降、前記第２音声認識手段が前記出力の完了を検出するまで、もしくは、前記第２音声認識手段が前記出力の完了を検出してから所定期間経過するまで、前記第１音声認識手段が認識した、調整語句と同じ語句の認識結果としての出力を抑止する。

また、本発明は、前記課題達成のために、スピーカから、当該スピーカにオーディオソース機器から出力された音が放射される空間の中で発話された音声を認識する音声認識装置に、前記空間中に配置されたマイクロフォンと、前記マイクロフォンがピックアップした音声を入力し、各々語句である複数の認識候補について、前記マイクロフォンから入力する各音声区間の音が入力する度に、当該認識候補の評価値を、当該音声区間の音が、当該認識候補を発音した音声の、当該音声区間に対応する区間の音と整合している場合に減少させ、整合していない場合に増加させると共に、当該評価値が所定の第１しきい値以下となった認識候補の語句を認識する音声認識を行う第１音声認識手段と、前記オーディオソース機器がスピーカに出力する音声を入力し、前記複数の認識候補について、前記オーディオソース機器から入力する各音声区間の音が入力する度に、当該認識候補の評価値を、当該音声区間の音が、当該認識候補を発音した音声の、当該音声区間に対応する区間の音と整合している場合に減少させ、整合していない場合に増加させると共に、当該評価値が所定の第２しきい値以下となった認識候補の語句を認識すると共に、認識候補の語句を認識した後に、前記評価値が減少から増加に転じるピークの発生を検出する第２音声認識手段と、前記第１音声認識手段が認識した語句を認識結果として出力する認識調整手段とを設けたものである。ここで、前記認識調整手段は、前記第２音声認識手段が語句を認識したならば当該認識した語句を調整語句に設定すると共に、以降、前記第２音声認識手段が前記ピークの発生を検出するまで、もしくは、前記第２音声認識手段が前記ピークの発生を検出してから所定期間経過するまで、前記第１音声認識手段が認識した、前記調整語句と同じ語句の認識結果としての出力を抑止する。

ここで、このような音声認識装置においては、前記第２しきい値として前記第１しきい値より大きい値を設定することも好ましい。
また、本発明は、前記課題達成のために、スピーカから、当該スピーカにオーディオソース機器から出力された音が放射される空間の中で発話された音声を認識する音声認識装置に、前記空間中に配置されたマイクロフォンと、前記マイクロフォンがピックアップした音声を入力し、各々語句である複数の認識候補について、前記マイクロフォンから入力する各音声区間の音が入力する度に、当該認識候補の評価値を、当該音声区間の音が、当該認識候補を発音した音声の、当該音声区間に対応する区間の音と整合している場合に増加させ、整合していない場合に減少させると共に、当該評価値が所定の第１しきい値以上となった認識候補の語句を認識する音声認識を行う第１音声認識手段と、前記オーディオソース機器がスピーカに出力する音声を入力し、前記複数の認識候補について、前記オーディオソース機器から入力する各音声区間の音が入力する度に、当該認識候補の評価値を、当該音声区間の音が、当該認識候補を発音した音声の、当該音声区間に対応する区間の音と整合している場合に増加させ、整合していない場合に減少させると共に、当該評価値が所定の第２しきい値以上となった認識候補の語句を認識すると共に、認識候補の語句を認識した後に、前記評価値が増加から減少に転じるピークの発生を検出する第２音声認識手段と、前記第１音声認識手段が認識した語句を認識結果として出力する認識調整手段とを備えたものである。ここで、前記認識調整手段は、前記第２音声認識手段が語句を認識したならば当該認識した語句を調整語句に設定すると共に、以降、前記第２音声認識手段が前記ピークの発生を検出するまで、もしくは、前記第２音声認識手段が前記ピークの発生を検出してから所定期間経過するまで、前記第１音声認識手段が認識した、前記調整語句と同じ語句の認識結果としての出力を抑止する
ここで、このような音声認識装置においては、前記第２しきい値として前記第１しきい値より小さい値を設定することも好ましい。

また、併せて本発明は、以上の音声認識装置と、自動車に搭載された前記スピーカと前記オーディオソース機器とを備えた車載システムも提供する。ここで、この車載システムにおいて、前記空間は前記自動車の車内空間となる。

以上のような音声認識システムや車載システムでは、第２音声認識手段が語句を認識したならば、以降、第２音声認識手段が認識した語句の音声の前記オーディオソースからの出力の完了を検出するまで、もしくは、当該出力の完了を検出してから所定期間経過するまで、前記第１音声認識手段が認識した、第２音声認識手段が認識した語句と同じ語句の認識結果としての出力が抑止される。

ここで、第１音声認識手段が、スピーカから出力されたオーディオソース機器が出力した音声の語句を認識するタイミングは、当該語句の音声をオーディオソース機器が出力している期間中となる。また、第１音声認識手段は、マイクロフォンから出力される、スピーカから出力されたオーディオソース機器の出力した音声とノイズなどの他の音声とが混在している音声から、オーディオソース機器が出力した音声の語句を認識するので、当該語句を第１音声認識手段が認識するタイミングは、第２音声認識手段が当該語句を認識した後のタイミングとなる。

したがって、以上のような音声認識システムや車載システムによれば、第１音声認識手段がオーディオソース機器が出力した音声の語句を認識し得る期間中のみ、第１音声認識手段が認識した、第２音声認識手段が認識した語句と同じ語句の認識結果の出力を抑止できるので、オーディオソース機器がスピーカから出力した音声から認識した語句をユーザの発話音声の認識結果として出力してしまうことを抑止しつつ、ユーザが本当に発話した音声から認識した語句について、正しく、ユーザの発話音声の認識結果として出力することができるようになる。

以上のように、本発明によれば、オーディオソース機器の音がスピーカから放射される環境下において、より正しく、ユーザの発話した音声についてのみ認識する音声認識を行うことができる。

本発明の実施形態に係る情報処理システムの構成を示すブロック図である。本発明の実施形態に係る音声認識の手法を示す図である。本発明の実施形態に係る認識調整処理を示すフローチャートである。本発明の実施形態に係る認識調整処理の処理例を示す図である。

以下、本発明の実施形態に係る音声認識装置の実施形態を、自動車に搭載される情報処理システムへの適用を例にとり説明する。
図１に本実施形態に係る情報処理システムの構成を示す
図示するように、情報処理システムは、マイクロフォン１、第１音声認識エンジン２、第２音声認識エンジン３、音声認識辞書４、認識調整部５、音声入力制御部６、ナビゲーションアプリケーション等の１または複数のアプリケーション７、オーディオソース８、スピーカ９を備えている。

このような構成において、オーディオソース８は、ラジオ受信器やミュージックプレイヤなどの音源となる装置であり、オーディオコンテンツの音声を、スピーカ９と、第２音声認識エンジン３に出力する。

そして、スピーカ９は、オーディオソース８から入力した音声を車内に放射する。
また、音声認識辞書４は、音声認識用の辞書であり、各々異なる語句である複数の認識候補と、その発音を表す発音データが登録されている。なお、発音データは、語句の発音の音素列を表すものであってもよいし、語句の発音の音声データ等であってもよい。

次に、第１音声認識エンジン２は、音声認識辞書４を用いて、マイクロフォン１から入力した音声に対して音声認識処理を行って音声認識した語句を認識語句として認識調整部５に出力する。

また、第２音声認識エンジン３は、音声認識辞書４を用いて、オーディオソース８から入力した音声に対して音声認識処理を行って音声認識した語句を認識語句として認識調整部５に出力する。

そして、認識調整部５は、第１音声認識エンジン２から入力した認識語句や第２音声認識エンジン３から入力した認識語句を用いて、認識結果とする語句を算定し、算定した認識結果を音声入力制御部６に出力する。ここで、この認識調整部５の動作については後に詳述する。

そして、音声入力制御部６は、認識調整部５が出力した認識結果に対応する音声入力をアプリケーション７に出力し、アプリケーション７は、音声入力を受け付けて、受け付けた音声入力の内容に応じた処理を行う。

以下、第１音声認識エンジン２と第２音声認識エンジン３で行う音声認識の動作について説明する。
第１音声認識エンジン２と第２音声認識エンジン３は、認識対象音声（第１音声認識エンジン２あればマイクロフォン１が出力する音声、第２音声認識エンジン３であればオーディオソース８が出力する音声）の入力と並行して、認識対象音声に対する音声認識辞書４に格納された各認識候補のスコアを算定する。

ここで、認識対象音声に対する認識候補のスコアは、認識対象音声と、認識候補の発話データとの相違の大きさの予測値を表すものであり、より大きい相違を予測しているときほど、スコアはより大きくなる。

より具体的には、スコアの算定は、予め定めておいた初期値をスコアとして設定した上で、認識対象音声の各音声区間（たとえば、音素毎の音声区間）の音が入力する度に、当該音声区間の音と、各認識候補の発音データの当該音声区間に対応する部分との整合の有無を算定し、整合していればスコアを所定値減少し、整合していなければスコアを所定値増加することにより行う。

このような音声認識によれば、図２ａに、認識対象音声が「あいうえおか」であるときに、認識候補「あいうえお」に対して算出されるスコアの推移と、認識候補「あいうあい」に対して算出されるスコアの推移を示すように、認識候補と一致する認識対象音声の音が入力されている間は、認識候補とのスコアは順次減少し、認識候補と一致しない認識対象音声の音が入力されている間は認識候補のスコアは順次増加する。

すなわち、たとえば、図２ａ１に示したように、認識対象音声「あいうえおか」と、認識候補「あいうえお」とスコアは、認識対象音声の「あいうえお」の音が入力されている期間は順次減少し、その後、認識対象音声の「か」が入力されると増加する。

また、同様に、図２ａ２に示したように、認識対象音声「あいうえおか」と、認識候補「あいうあい」とスコアは、認識対象音声の「あいう」の音が入力されている期間は順次減少し、その後の、認識対象音声の「えおか」が入力されている期間は順次増加する。

さて、第１音声認識エンジン２と第２音声認識エンジン３は、以上のようにして算出される認識対象音声といずれかの認識候補とのスコアが、しきい値Th以下となったならば、当該スコアがしきい値Th以下となった認識候補の語句を認識し、認識語句として認識調整部５に出力する。

すなわち、たとえば、図２ａ１に示した場合では、認識候補「あいうえお」についてのスコアは、認識対象音声の「あいうえおか」の「え」が入力される直前にしきい値Th以下となるので、この時点で、認識候補「あいうえお」が認識語句として認識調整部５に出力される。

一方、図２ａ１に示した場合では、認識候補「あいうあいお」についてのスコアがしきい値Th以下となることはないので、この認識候補「あいうあいお」の語句の認識は行われない。

なお、以上のような音声認識において、認識対象音声といずれかの認識候補とのスコアが、しきい値Th以下となった場合でも、その認識候補のスコアとの差が所定レベル以上小さいスコアが算出されている他の認識候補が存在する場合には、当該時点で認識は行わず、最小のスコアが算出されている認識候補と、他の認識候補のスコアとの差が所定レベル以上大きくなったときに、当該小のスコアが算出されている認識候補の語句を認識し、認識語句として認識調整部５に出力するようにしたり、マイクロフォン１への音声入力の終了をまって、その時点で最小のスコアが算出されている認識候補の語句を認識し、認識語句として認識調整部５に出力するようにしてもよい。

次に、図２ｂに、オーディオソース８の出力音声に対して行われる第１音声認識エンジン２と第２音声認識エンジン３の音声認識の動作例を示す。
図示するように、オーディオソース８が「なにぬねのは」の出力音声を出力すると、この出力音声はスピーカ９から出力され、マイクロフォン１でピックアップされ、この出力音声に対して第１音声認識エンジン２において音声認識が行われる。

一方、この「なにぬねのは」のオーディオソース８の出力音声は直接、第２音声認識エンジン３に送られ、第２音声認識エンジン３においても音声認識が行われる。

そして、図２ｂ１は、このようなオーディオソース８が「なにぬねのは」の出力音声に対する第１音声認識エンジン２の音声認識において、認識候補「なにぬねの」に対して算出されるスコアの推移を示したものであり、図２ｂ２は、このオーディオソース８が「なにぬねのは」の出力音声に対する第２音声認識エンジン３の音声認識において、同じ認識候補「なにぬねの」に対して算出されるスコアの推移を示したものである。

この場合、図示するように、オーディオソース８の出力音声「なにぬねのは」の「なにぬねの」が入力する期間は、第１音声認識エンジン２が認識候補「なにぬねの」に対して算出するスコアも、第２音声認識エンジン３が認識候補「なにぬねの」に対して算出するスコアも順次減少していくが、第１音声認識エンジン２で算出されるスコアの減少の度合いは、第２音声認識エンジン３で算出されるスコアの減少の度合いよりも小さくなる。これは、第１音声認識エンジン２に入力する音声は、マイクロフォン１がノイズ等の他の音声成分と共にピックアップしたオーディオソース８の出力音声であるため、マイクロフォン１から出力される音声の各音声区間の認識候補「なにぬねの」の発音データの当該音声区間に対応する部分との整合度が、第２音声認識エンジン３に直接入力するオーディオソース８の出力音声の各音声区間の認識候補「なにぬねの」の発音データの当該音声区間に対応する部分との整合度よりも小さくなるからである。

また、本実施形態では、第１音声認識エンジン２に設定するしきい値Thとして、第１音声認識エンジン２に設定するしきい値Thの値Th2よりも小さい値Th1を設定している。
したがって、図２ｂ１、ｂ２に示すように、第２音声認識エンジン３において認識候補「なにぬねの」に対して算出されるスコアは、第１音声認識エンジン２において認識候補「なにぬねの」に対して算出されるスコアよりも早い時点でしきい値Th以下となる。よって、第２音声認識エンジン３において認識候補「なにぬねの」が認識されて認識語句として認識調整部５に出力された後に、遅延して、第１音声認識エンジン２において認識候補「なにぬねの」が認識されて認識語句として認識調整部５に出力されることとなる。

なお、本実施形態において、第１音声認識エンジン２に設定するしきい値Thとして、第１音声認識エンジン２に設定するしきい値Thの値Th2よりも小さい値Th1を設定しているのは、オーディオソース８の出力音声に対する音声の認識が、第２音声認識エンジン３において第１音声認識エンジン２よりも確実に前に行われるようにするためである。

さて、第２音声認識エンジン３は、スコアがしきい値Th2以下となった認識候補を認識して認識語句として認識調整部５に出力したならば、認識語句とした認識候補について算出されているスコアの、その後の推移を監視し、図２ｂ２に示すように、スコアの推移の波形の下向きのピーク（スコアが減少から増加に転じる点）が出現したならば、これを検出し、認識調整部５にピークの検出を通知する処理も行う。

以上、第１音声認識エンジン２と第２音声認識エンジン３が行う音声認識の動作について説明した。
以下、上述のように認識調整部５が行う、第１音声認識エンジン２から入力した認識語句や第２音声認識エンジン３から入力した認識語句を用いて、認識結果とする語句を算定し、算定した認識結果を音声入力制御部６に出力する動作について説明する。

図３に、認識調整部５が行う認識調整処理の手順を示す。
図示するように、この処理において、認識調整部５は、第１音声認識エンジン２からの認識語句の入力の発生（ステップ３０２）と、第２音声認識エンジン３からの認識語句の入力の発生（ステップ３０４）と、第２音声認識エンジン３からのピーク検出の通知の入力の発生（ステップ３０６）とを監視する。

そして、第２音声認識エンジン３からの認識語句の入力が発生したばらば（ステップ３０４）、マスク期間中を設定し（ステップ３１２）、第２音声認識エンジン３から入力した認識語句を調整語句に設定する（ステップ３１４）。そして、ステップ３０２、３０４、３０６の監視に戻る。

一方、第２音声認識エンジン３からのピーク検出の通知の入力が発生したならば（ステップ３０６）、マスク期間中の設定をクリアし（ステップ３０８）、調整語句の設定をクリアする（ステップ３１０）。そして、ステップ３０２、３０４、３０６の監視に戻る。

また、第１音声認識エンジン２からの認識語句の入力が発生した場合には（ステップ３０２）、マスク期間中が設定されているかどうを調べ（ステップ３１６）、マスク期間中が設定されていなければ、第１音声認識エンジン２から入力した認識語句を、認識結果とする語句として算定し、算定した認識結果を音声入力制御部６に出力する（ステップ３２０）。そして、ステップ３０２、３０４、３０６の監視に戻る。

一方、ステップ３１６において、マスク期間中が設定されていると判定された場合には、第１音声認識エンジン２から入力した認識語句が調整語句と一致しているかどうかを調べ（ステップ３１８）、一致している場合には、第１音声認識エンジン２から入力した認識語句を破棄し、そのままステップ３０２、３０４、３０６の監視に戻る。

一方、第１音声認識エンジン２から入力した認識語句が調整語句と一致していない場合には（ステップ３１８）、第１音声認識エンジン２から入力した認識語句を、認識結果とする語句として算定し、算定した認識結果を音声入力制御部６に出力する（ステップ３２０）。そして、ステップ３０２、３０４、３０６の監視に戻る。

以上、認識調整部５が行う認識調整処理について説明した。
次に、このような認識調整処理の処理例を図４に示す。
図４は、オーディオソース８の出力音声「じたくにかえるひと...」に対して行われる、第１音声認識エンジン２と第２音声認識エンジン３の認識候補「じたくにかえる」の認識動作を示したものである。

オーディオソース８が「じたくにかえるひと...」の出力音声を出力すると、この出力音声はスピーカ９から出力され、マイクロフォン１でピックアップされ、この出力音声に対して第１音声認識エンジン２において、図４ａに示すように、認識候補「じたくにかえる」に対するスコアの算出が行われる。

また、オーディオソース８が「じたくにかえるひと...」の出力音声を出力すると、この出力音声は直接、第２音声認識エンジン３に送られ、第２音声認識エンジン３においても、図４ｂに示すように、認識候補「じたくにかえる」に対するスコアの算出が行われる。

この場合、オーディオソース８が出力音声「じたくにかえるひと...」の「じたくにかえる」が入力する期間は、第１音声認識エンジン２が識候補「じたくにかえる」に対して算出するスコアも、第２音声認識エンジン３が認識候補「じたくにかえる」に対して算出するスコアも順次減少していくが、第１音声認識エンジン２で算出される減少の度合いは、第２音声認識エンジン３で算出される減少の度合いよりも小さくなる。

また、第１音声認識エンジン２にはしきい値Thとして、第１音声認識エンジン２に設定されているしきい値Thの値Th2よりも小さい値Th1が設定されている。
したがって、第２音声認識エンジン３において認識候補「じたくにかえる」に対して算出されるスコアは、第１音声認識エンジン２において認識候補「じたくにかえる」に対して算出されるスコアよりも早い時点でしきい値Th以下となり、時刻t21で第２音声認識エンジン３において認識候補「じたくにかえる」が認識されて認識語句として認識調整部５に出力される。

そして、時刻t21で第２音声認識エンジン３から認識語句「じたくにかえる」が出力されると、この認識語句「じたくにかえる」が調整語句に設定されると共に、マスク期間中が設定される。

また、その後、第２音声認識エンジン３において、認識候補「じたくにかえる」に対して算出されるスコアの推移が監視され、時刻t22においてスコアの推移の波形の下向きのピーク（スコアが減少から増加に転じる点）が出現したならば、第２音声認識エンジン３はピークを検出し、認識調整部５にピークの検出を通知する。

そして、認識調整部５は、ピークの検出が通知されると、マスク期間中の設定をクリアする。
一方、時刻t21で第２音声認識エンジン３において認識候補「じたくにかえる」が認識されて認識語句として認識調整部５に出力された後、第１音声認識エンジン２においても、認識候補「じたくにかえる」に対して算出されるスコアがしきい値Th以下となり、時刻t11において、第１音声認識エンジン２において認識候補「じたくにかえる」が認識され認識語句として認識調整部５に出力される。

ここで、第１音声認識エンジン２において認識候補「じたくにかえる」が認識されて認識語句として認識調整部５に出力される時点t11は、オーディオソース８が、オーディオソース８が出力する音声「じたくにかえるひと...」のうちの、認識候補「じたくにかえる」と一致している部分を出力している期間中に発生することとなる。

一方、第２音声認識エンジン３がピークを検出する時刻t22は、オーディオソース８が、オーディオソース８が出力する音声「じたくにかえるひと...」のうちの、認識候補「じたくにかえる」と一致している部分を出力している期間の終了時点となる。

したがって、第１音声認識エンジン２において認識候補「じたくにかえる」が認識されて認識語句として認識調整部５に出力される時点t11は、マスク期間中が設定されている期間中の時点となる。

さて、認識調整部５は、時点t11において、第１音声認識エンジン２から認識語句「じたくにかえる」が出力されると、現在、マスク期間中が設定されているので、第１音声認識エンジン２から出力された認識語句「じたくにかえる」と、設定している調整語句「じたくにかえる」とを比較する。そして、この場合、第１音声認識エンジン２から出力された認識語句「じたくにかえる」と、設定している調整語句「じたくにかえる」は一致しているので、第１音声認識エンジン２から出力された認識語句「じたくにかえる」を、認識結果とはせずに破棄する。

この結果、オーディオソース８が出力する音声「じたくにかえるひと...」に対して第１音声認識エンジン２で認識された認識語句「じたくにかえる」の、ユーザの発話音声の認識結果としての音声入力制御部６への出力は抑止される。

以上、本発明の実施形態について説明した。
なお、以上の実施形態では、認識調整部５の認識調整処理において、第２音声認識エンジン３からピークの検出が通知されたときにマスク期間中の設定を解除するようにしたが、これは、図４ｂに示すように第２音声認識エンジン３からピークの検出が通知された時点t22から、所定のマージン時間mgn経過した時点t23でマスク期間中の設定を解除するようにしてもよい。

このようにすることにより、より確実に、オーディオソース８が出力する音声に対して第１音声認識エンジン認識された認識語句の認識結果としての音声入力制御部６への出力を抑止することができるようになる。

また、以上の実施形態では、認識調整部５の認識調整処理において、第２音声認識エンジン３からピークの検出が通知されたときにマスク期間中の設定を解除するようにしたが、マスク期間中の設定の解除は、当該マスク期間中の設定の解除が、第２音声認識エンジン３が出力した認識語句の音声と一致する音声の出力をオーディオソース８が終了した時点に行われるものであれば、他の任意の手法によって行うようにしてよい。すなわち、たとえば、オーディオソース８から出力された音素数に基づいて、認識語句の音声と一致する音声の出力をオーディオソース８が終了した時点を検出してマスク期間中の設定を解除するなどしてもよい。、

なお、この場合も、第２音声認識エンジン３が出力した認識語句の音声と一致する音声の出力をオーディオソース８が終了した時点から、所定のマージン時間mgn経過した時点でマスク期間中の設定を解除するようにしてよい。

また、以上の実施形態は、スコアの正負の方向を反転して実施するようにしてもよい。
すなわち、認識対象音声に対する認識候補のスコアは、より大きい相違を予測しているときほど、より小さくなるようにスコアを算出してもよい。
より具体的には、スコアの算定は、予め定めておいた初期値をスコアとして設定した上で、認識対象音声の各音声区間（たとえば、音素毎の音声区間）の音が入力する度に、当該音声区間の音と、各認識候補の発音データの当該音声区間に対応する部分との整合の有無を算定し、整合していればスコアを所定値増加し、整合していなければスコアを所定値減少するようにしてもよい。

ただし、この場合、第１音声認識エンジン２と第２音声認識エンジン３は、以上のようにして算出される認識対象音声といずれかの認識候補とのスコアが、しきい値Th以上となったならば、当該スコアがしきい値Th以上となった認識候補の語句を認識し、認識語句として認識調整部５に出力する。また、第２音声認識エンジン３しきい値Thとして設定するしきい値Th2は、第１音声認識エンジン２しきい値Thとして設定するしきい値Th1より小さい値とする。また、第２音声認識エンジン３は、スコアがしきい値Th2以下となった認識候補を認識して認識語句として認識調整部５に出力したならば、認識語句とした認識候補について算出されているスコアの、その後の推移を監視し、スコアの推移の波形の上向きのピーク（スコアが増加から減少に転じる点）が出現したならばピークを検出し、認識調整部５にピークの検出を通知する。

なお、以上の実施形態における音声認識の技術は、自動車に搭載される情報処理システムのみならず、音声入力を行う任意の情報処理システムに適用することができる。

１…マイクロフォン、２…第１音声認識エンジン、３…第２音声認識エンジン、４…音声認識辞書、５…認識調整部、６…音声入力制御部、７…アプリケーション、８…オーディオソース、９…スピーカ。

Claims

スピーカから、当該スピーカにオーディオソース機器から出力された音が放射される空間の中で発話された音声を認識する音声認識装置であって、
前記空間中に配置されたマイクロフォンと、
前記マイクロフォンがピックアップした音声を入力し、当該音声の入力と並行して当該音声に整合することが予測される語句を認識する音声認識を行う第１音声認識手段と、
前記オーディオソース機器がスピーカに出力する音声を入力し、当該音声の入力と並行して、当該スピーカに出力される音声に整合することが予測される語句を認識する音声認識を行う第２音声認識手段と、
前記第１音声認識手段が認識した語句を認識結果として出力する認識調整手段とを有し、
前記第２音声認識手段は、前記語句を認識したならば、当該認識した語句の音声の前記オーディオソースからの出力の完了を検出し、
前記認識調整手段は、前記第２音声認識手段が語句を認識したならば当該認識した語句を調整語句に設定すると共に、以降、前記第２音声認識手段が前記出力の完了を検出するまで、もしくは、前記第２音声認識手段が前記出力の完了を検出してから所定期間経過するまで、前記第１音声認識手段が認識した、前記調整語句と同じ語句の認識結果としての出力を抑止することを特徴とする音声認識装置。
スピーカから、当該スピーカにオーディオソース機器から出力された音が放射される空間の中で発話された音声を認識する音声認識装置であって、
前記空間中に配置されたマイクロフォンと、
前記マイクロフォンがピックアップした音声を入力し、各々語句である複数の認識候補について、前記マイクロフォンから入力する各音声区間の音が入力する度に、当該認識候補の評価値を、当該音声区間の音が、当該認識候補を発音した音声の、当該音声区間に対応する区間の音と整合している場合に減少させ、整合していない場合に増加させると共に、当該評価値が所定の第１しきい値以下となった認識候補の語句を認識する音声認識を行う第１音声認識手段と、
前記オーディオソース機器がスピーカに出力する音声を入力し、前記複数の認識候補について、前記オーディオソース機器から入力する各音声区間の音が入力する度に、当該認識候補の評価値を、当該音声区間の音が、当該認識候補を発音した音声の、当該音声区間に対応する区間の音と整合している場合に減少させ、整合していない場合に増加させると共に、当該評価値が所定の第２しきい値以下となった認識候補の語句を認識すると共に、認識候補の語句を認識した後に、前記評価値が減少から増加に転じるピークの発生を検出する第２音声認識手段と、
前記第１音声認識手段が認識した語句を認識結果として出力する認識調整手段とを有し、
前記認識調整手段は、前記第２音声認識手段が語句を認識したならば当該認識した語句を調整語句に設定すると共に、以降、前記第２音声認識手段が前記ピークの発生を検出するまで、もしくは、前記第２音声認識手段が前記ピークの発生を検出してから所定期間経過するまで、前記第１音声認識手段が認識した、前記調整語句と同じ語句の認識結果としての出力を抑止することを特徴とする音声認識装置。
請求項２記載の音声認識装置であって、
前記第２しきい値として前記第１しきい値より大きい値が設定されていることを特徴とする音声認識装置。
スピーカから、当該スピーカにオーディオソース機器から出力された音が放射される空間の中で発話された音声を認識する音声認識装置であって、
前記空間中に配置されたマイクロフォンと、
前記マイクロフォンがピックアップした音声を入力し、各々語句である複数の認識候補について、前記マイクロフォンから入力する各音声区間の音が入力する度に、当該認識候補の評価値を、当該音声区間の音が、当該認識候補を発音した音声の、当該音声区間に対応する区間の音と整合している場合に増加させ、整合していない場合に減少させると共に、当該評価値が所定の第１しきい値以上となった認識候補の語句を認識する音声認識を行う第１音声認識手段と、
前記オーディオソース機器がスピーカに出力する音声を入力し、前記複数の認識候補について、前記オーディオソース機器から入力する各音声区間の音が入力する度に、当該認識候補の評価値を、当該音声区間の音が、当該認識候補を発音した音声の、当該音声区間に対応する区間の音と整合している場合に増加させ、整合していない場合に減少させると共に、当該評価値が所定の第２しきい値以上となった認識候補の語句を認識すると共に、認識候補の語句を認識した後に、前記評価値が増加から減少に転じるピークの発生を検出する第２音声認識手段と、
前記第１音声認識手段が認識した語句を認識結果として出力する認識調整手段とを有し、
前記認識調整手段は、前記第２音声認識手段が語句を認識したならば当該認識した語句を調整語句に設定すると共に、以降、前記第２音声認識手段が前記ピークの発生を検出するまで、もしくは、前記第２音声認識手段が前記ピークの発生を検出してから所定期間経過するまで、前記第１音声認識手段が認識した、前記調整語句と同じ語句の認識結果としての出力を抑止することを特徴とする音声認識装置。
請求項４記載の音声認識装置であって、
前記第２しきい値として前記第１しきい値より小さい値が設定されていることを特徴とする音声認識装置。
自動車に搭載された請求項１、２、３、４または５記載の音声認識装置と、
自動車に搭載された前記スピーカと前記オーディオソース機器とを有し、
前記空間は前記自動車の車内空間であることを特徴とする車載システム。
スピーカから、当該スピーカにオーディオソース機器から出力された音が放射される空間の中に配置されたマイクロフォンを備えたコンピュータによって読み取られ実行されるコンピュータプログラムであって、
当該コンピュータプログラムは前記コンピュータを、
前記マイクロフォンがピックアップした音声を入力し、当該音声の入力と並行して当該音声に整合することが予測される語句を認識する音声認識を行う第１音声認識手段と、
前記オーディオソース機器がスピーカに出力する音声を入力し、当該音声の入力と並行して、当該スピーカに出力される音声に整合することが予測される語句を認識する音声認識を行う第２音声認識手段と、
前記第１音声認識手段が認識した語句を認識結果として出力する認識調整手段として機能させ、
前記第２音声認識手段は、前記語句を認識したならば、当該認識した語句の音声の前記オーディオソースからの出力の完了を検出し、
前記認識調整手段は、前記第２音声認識手段が語句を認識したならば当該認識した語句を調整語句に設定すると共に、以降、前記第２音声認識手段が前記出力の完了を検出するまで、もしくは、前記第２音声認識手段が前記出力の完了を検出してから所定期間経過するまで、前記第１音声認識手段が認識した、調整語句と同じ語句の認識結果としての出力を抑止することを特徴とするコンピュータプログラム。