JP6992713B2

JP6992713B2 - 連続発話推定装置、連続発話推定方法、およびプログラム

Info

Publication number: JP6992713B2
Application number: JP2018169552A
Authority: JP
Inventors: 和則小林; 翔一郎齊藤; 弘章伊藤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-09-11
Filing date: 2018-09-11
Publication date: 2022-01-13
Anticipated expiration: 2038-09-11
Also published as: WO2020054406A1; JP2020042173A; EP3852100A1; EP3852100A4; CN112673422A; US20210241772A1; US11961517B2

Description

この発明は、キーワードの発音後に連続して目的音の発話があるか否かを推定する技術に関する。

例えばスマートスピーカや車載システムなどの、音声による制御が可能な機器では、トリガとなるキーワードが発音された際に音声認識を開始するキーワードウェイクアップと呼ばれる機能が搭載されていることがある。このような機能では、音声信号を入力とし、キーワードの発音を検出する技術が必要となる。

図１は、非特許文献１に開示されている従来技術の構成である。従来技術では、キーワード検出部９１が入力された音声信号からキーワードの発音を検出すると、目的音出力部９９がスイッチをオンにして、当該音声信号を音声認識等の対象とする目的音として出力する。また、応答音出力部９２がキーワード検出時に応答音を出力して、キーワードの発音を検出したことを利用者に知らせる。このとき、各処理のタイミングを制御するために、遅延部９３をさらに備え、キーワード検出部９１の出力（図１Ａ参照）または入力音声（図１Ｂ参照）を遅延させてもよい。

Sensory,Inc.、"TrulyHandsfreeTM"、［online］、［平成30年8月17日検索］、インターネット<URL: http://www.sensory.co.jp/product/thf.htm>

しかしながら、従来技術では、キーワードを発話した後に応答音を待ってから目的音を発話する利用方法の他に、キーワードと目的音を連続して発話する利用方法もあり得る。応答音を待ってから目的音を発話する利用方法を想定して、応答音の後に目的音区間の開始位置を設定した場合、利用者がキーワードと目的音を連続して発話すると目的音の話頭が切れてしまうという問題が生じる。また、キーワードと目的音を連続して発話する利用方法を想定して、キーワード発話の直後に目的音区間の開始位置を設定した場合、応答音が目的音の発話と時間的に重なり音声認識しにくい音になってしまうという問題がある。

この発明の目的は、上述のような技術的課題を鑑みて、キーワードを発話した後で応答音を待ってから目的音を発話する利用方法と、キーワードと目的音を連続して発話する利用方法とを自動的に判別し、各利用方法に合わせて適切に動作を変化させることである。

上記の課題を解決するために、この発明の第一の態様の連続発話推定装置は、入力音声から所定のキーワードの発音を検出した結果を示すキーワード検出結果を生成するキーワード検出部と、入力音声から音声区間を検出した結果を示す音声区間検出結果を生成する音声検出部と、キーワード検出結果がキーワードを検出したことを示し、かつ、音声区間検出結果が音声区間を検出したことを示す場合、連続発話であることを示す連続発話検出結果を生成する連続発話検出部と、を含む。

この発明によれば、キーワードを発話した後で応答音を待ってから目的音を発話する利用方法と、キーワードと目的音を連続して発話する利用方法とを自動的に判別できるため、各利用方法に合わせて適切に動作を変化させることができる。

図１は従来のキーワード検出装置の機能構成を例示する図である。図２は発明の原理を説明するための図である。図３は第一実施形態の連続発話推定装置の機能構成を例示する図である。図４は第一実施形態の連続発話推定方法の処理手順を例示する図である。図５は第二実施形態の連続発話推定装置の機能構成を例示する図である。図６は第三実施形態の連続発話推定装置の機能構成を例示する図である。図７は第四実施形態の連続発話推定装置の機能構成を例示する図である。図８は第五実施形態の連続発話推定装置の機能構成を例示する図である。図９は第六実施形態の連続発話推定装置の機能構成を例示する図である。

従来技術では、キーワードを発話した後で応答音を待ってから目的音を発話する利用方法と、キーワードと目的音を連続して発話する利用方法との両方に対応することは難しかった。キーワードを発話した後で応答音を待ってから目的音を発話する利用方法を想定してキーワード検出時に応答音を発出すると、利用者がキーワードと目的音を連続して発話する利用方法を想定して発話した場合に、応答音と目的音が重なってしまうということが主な問題点である。

この発明の課題は、キーワードを発話した後で応答音を待ってから目的音を発話する利用方法と、キーワードと目的音を連続して発話する利用方法とを自動的に判別し、その判別結果に基づいて目的音区間の開始位置や応答音の発出の有無を変化させ、各利用方法にとって適切な動作を行うことである。具体的には、キーワードを発話した後で応答音を待ってから目的音を発話する利用方法であると判別した場合には、まず応答音を発出し、応答音発出終了後から目的音区間とする（図２Ａ参照）。また、キーワードと目的音を連続して発話する利用方法と判別した場合には、応答音の発出は行わず、キーワード発話終了直後から目的音区間とする（図２Ｂ参照）。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

［第一実施形態］
第一実施形態の連続発話推定装置１は、利用者の音声（以下、「入力音声」と呼ぶ）を入力とし、入力音声にキーワードの発音が含まれる否かを判定したキーワード検出結果と、キーワードの発話の後に連続する発話が含まれるか否かを判定した連続発話検出結果とを出力する。連続発話推定装置１は、図３に示すように、キーワード検出部１１、音声検出部１２、および連続発話検出部１３を備える。この連続発話推定装置１が、図４に示す各ステップの処理を行うことにより第一実施形態の連続発話推定方法Ｓ１が実現される。

連続発話推定装置１は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。連続発話推定装置１は、例えば、中央演算処理装置の制御のもとで各処理を実行する。連続発話推定装置１に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。連続発話推定装置１の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。

以下、図４を参照して、第一実施形態の連続発話推定装置が実行する連続発話推定方法について説明する。

ステップＳ１１において、キーワード検出部１１は、入力音声からあらかじめ定めた所定のキーワードの発音を検出する。キーワードの検出は、例えば短時間の周期で求めたパワースペクトルのパターンが、事前に収録したキーワードのパターンと類似しているか否かを、事前に学習されたニューラルネットワークを用いて判定することで行う。キーワード検出部１１は、キーワードを検出したこと、または、キーワードを検出しなかったことを示すキーワード検出結果を連続発話検出部１３へ出力する。

ステップＳ１２において、音声検出部１２は、入力音声から音声区間を検出する。音声区間の検出は、例えば以下のように行われる。まず、定常雑音レベルN(t)を入力音声の長時間平均から求める。次に、定常雑音レベルN(t)に所定の定数αを乗算して閾値を設定する。そして、短時間平均レベルP(t)が閾値よりも大きくなる区間を音声区間として検出する。また、スペクトルやケプストラムの形状が音声の特徴と一致するか否かを判定要素に加えるような手法により音声区間を検出してもよい。音声検出部１２は、音声区間を検出したこと、または、音声区間を検出しなかったことを示す音声区間検出結果を連続発話検出部１３へ出力する。

短時間平均レベルP(t)の計算は、平均的なキーワード発話時間Ｔの矩形窓をかけた二乗平均パワーや、指数窓を乗算した二乗平均パワーを計算する。離散時刻ｔのパワーをP(t)とし、入力信号をx(t)とすれば、

となる。ただし、αは忘却係数であり、0<α<1の値をあらかじめ設定する。αは時定数が平均的なキーワード発話時間Ｔ（サンプル）となるように設定される。すなわち、α=1-1/Tである。もしくは、次式のように、キーワード発話時間Ｔの矩形窓をかけた絶対値平均パワーや、指数窓を乗算した絶対値平均パワーを計算してもよい。

ステップＳ１３において、連続発話検出部１３は、キーワード検出部１１の出力するキーワード検出結果がキーワードを検出したことを示し、かつ、音声検出部１２の出力する音声区間検出結果が音声区間を検出したことを示す場合、連続発話であると判定する。キーワード検出部１１が行うキーワード検出には数百ミリ秒程度の遅延が発生するため、キーワード検出の処理が終了した時点ではキーワードの発話は終了している。したがって、キーワード検出時点での音声区間の有無により連続発話の話頭の有無を判定することができる。連続発話検出部１３は、連続発話を検出したこと、または、連続発話を検出しなかったことを示す連続発話検出結果を、キーワード検出部１１の出力するキーワード検出結果と共に連続発話推定装置１の出力とする。

このように構成することにより、第一実施形態によれば、キーワードの発話の後に連続する発話の有無を判定することができるため、連続発話推定装置１の出力する連続発話検出結果に基づいて、目的音区間の開始位置や応答音発出の有無を変化させることが可能となる。

［第二実施形態］
第二実施形態の連続発話推定装置２は、第一実施形態と同様に、利用者の音声を入力とし、キーワード検出結果と連続発話検出結果とを出力する。連続発話推定装置２は、図５に示すように、第一実施形態のキーワード検出部１１、音声検出部１２、および連続発話検出部１３に加えて、遅延部２１をさらに備える。

遅延部２１は、キーワード検出部１１の出力するキーワード検出結果に遅延を与える。この遅延は、キーワード検出の遅延が、連続発話の話頭の有無を判定するには短すぎる場合に、不足分の遅延をキーワード検出部１１の出力に与えるための遅延である。連続発話の話頭の有無を判定するために適切な遅延がＸであるとき、キーワード検出の遅延がＹであった場合、Ｘ－Ｙの遅延を設定する。

このように構成することにより、第二実施形態によれば、適切なタイミングで連続発話の有無の判定を行うことができる。

［第三実施形態］
第三実施形態は、第一実施形態または第二実施形態の連続発話検出結果に基づいて、応答音の発出の有無を変化させる構成である。キーワードを検出した時に、キーワードを検出したことを利用者に知らせるため、応答音を発出することを考える。キーワードと連続して目的音を発音する場合では、応答音を発出する前に目的音が発話されているため、応答音は不要である。また、この場合に応答音を発出してしまうと、目的音に応答音が重畳してしまうため、音声認識などにとって不都合がある。そこで、第三実施形態では、キーワード検出時に連続発話を検出したら応答音の発出を行わず、キーワード検出時に連続発話を検出しなければ応答音の発出を行う。

第三実施形態の連続発話推定装置３は、利用者の音声を入力とし、入力音声からキーワードを検出した時に連続発話を検出しなかった場合、応答音の発出を行う。連続発話推定装置３は、図６に示すように、連続発話検出付キーワード検出部１０、スイッチ部２０、および応答音出力部３０を備える。

連続発話検出付キーワード検出部１０は、具体的には、第一実施形態の連続発話推定装置１または第二実施形態の連続発話推定装置２と同様に構成される。すなわち、連続発話検出付キーワード検出部１０は、キーワード検出部１１、音声検出部１２、および連続発話検出部１３を少なくとも備え、利用者の音声を入力とし、キーワード検出結果と連続発話検出結果とを出力する。

スイッチ部２０は、連続発話検出付キーワード検出部１０の出力するキーワード検出結果を応答音出力部３０へ伝達するか否かを制御する。連続発話検出付キーワード検出部１０の出力する連続発話検出結果が真の場合（すなわち、連続発話を検出した場合）は、キーワード検出結果を応答音出力部３０へ伝達せず、連続発話推定結果が偽の場合（すなわち、連続発話を検出しなかった場合）は、キーワード検出結果を応答音出力部３０へ伝達する。

応答音出力部３０は、スイッチ部２０からキーワードを検出したことを示すキーワード検出結果が伝達されてきた場合、所定の応答音を出力する。

このように構成することにより、第三実施形態によれば、キーワードに続いて連続発話が行われた場合に、不要な応答音を発出することなく、音声認識などの精度劣化を防ぐことができる。

［第四実施形態］
第四実施形態は、第一実施形態または第二実施形態の連続発話検出結果に基づいて、目的音区間の開始位置を変化させる構成である。キーワードと目的音を連続して発話する利用方法では、キーワード検出の遅延により、キーワードを検出するより前に、目的音の発話が開始されていることが想定される。そのため、キーワードを検出した時に、時間をさかのぼって、目的音を切り出す必要がある。キーワードを発話した後で応答音を待ってから目的音を発話する利用方法では、応答音よりも後の部分を目的音として切り出すために、キーワード検出時点から応答音の長さ分だけ時間が経過した時点から、目的音を切り出す必要がある。このようにしないと、目的音に応答音が重畳してしまうことになり、音声認識などにとって不都合が生じる。

第四実施形態の連続発話推定装置４は、利用者の音声を入力とし、入力音声からキーワードを検出した時に連続発話を検出した場合、キーワード発話直後から目的音を出力し、入力音声からキーワードを検出した時に連続発話を検出しなかった場合、応答音発出終了後から目的音を出力する。連続発話推定装置４は、図７に示すように、第三実施形態の連続発話検出付キーワード検出部１０に加えて、遅延部４１，４３、スイッチ部４２，４４、および目的音出力部４５を備える。

遅延部４１は、連続発話検出付キーワード検出部１０の出力するキーワード検出結果に応答音の長さ分の遅延を与える。

スイッチ部４２は、遅延部４１の出力する遅延後のキーワード検出結果がキーワードを検出したことを示す場合に、スイッチをオンにして、入力音声を目的音出力部４５へ出力する。すなわち、応答音発出終了後からスイッチがオンとなるように動作する。

遅延部４３は、入力音声に連続発話検出付キーワード検出部１０が行うキーワード検出の遅延に相当する遅延を与える。

スイッチ部４４は、連続発話検出付キーワード検出部１０の出力するキーワード検出結果（すなわち、遅延させていないキーワード検出結果）がキーワードを検出したことを示す場合に、スイッチをオンにして、遅延部４３の出力する遅延後の入力音声を目的音出力部４５へ出力する。すなわち、キーワード発話直後からスイッチがオンとなるように動作する。

目的音出力部４５は、スイッチ部４２とスイッチ部４４の出力のうちいずれか一方を選択し、目的音として出力する。具体的には、目的音出力部４５は、連続発話検出付キーワード検出部１０の出力する連続発話検出結果が真の場合（すなわち、連続発話を検出した場合）、スイッチ部４４の出力（すなわち、キーワード発話直後からの入力音声）を選択し、連続発話検出結果が偽の場合（すなわち、連続発話を検出しなかった場合）、スイッチ部４２の出力（すなわち、応答音発出後からの入力音声）を選択して、目的音として出力する。このようにすることで、キーワード検出時に連続発話を検出した場合は、キーワード発話直後から目的音を出力し、キーワード検出時に連続発話を検出しなかった場合は、応答音発出終了後から目的音を出力する。

このように構成することにより、第四実施形態によれば、キーワードに続いて連続発話が行われた場合は、キーワード発話直後からの入力音声を目的音として出力し、音声認識などで話頭が切れることを防ぐことができる。また、キーワード発話後に応答音が出力された後に目的音が発話された場合は、目的音発出終了後からの入力音声を目的音として出力し、応答音の重畳による音声認識の劣化を防ぐことができる。

［第五実施形態］
第五実施形態は、第三実施形態と第四実施形態とを組み合わせた構成である。第五実施形態の連続発話推定装置５は、利用者の音声を入力とし、入力音声からキーワードを検出した時に連続発話を検出した場合、キーワード発話直後から目的音を出力し、入力音声からキーワードを検出した時に連続発話を検出しなかった場合、応答音の発出を行い、応答音発出終了後から目的音を出力する。

連続発話推定装置５は、図８に示すように、第三実施形態の連続発話検出付キーワード検出部１０、スイッチ部２０、および応答音出力部３０と、第四実施形態の遅延部４１，４３、スイッチ部４２，４４、および目的音出力部４５とを備える。各処理部の動作は第三実施形態および第四実施形態と同様である。

［第六実施形態］
第六実施形態の連続発話推定装置６は、マルチチャネルの音声を入力とし、各チャネルのキーワード検出結果と連続発話検出結果とを出力する。連続発話推定装置６は、図９に示すように、第一実施形態のキーワード検出部１１および連続発話検出部１４の組を入力音声のチャネル数Ｍ（≧２）だけ備え、さらにＭチャネル入出力の多入力音声検出部６２を備える。

多入力音声検出部６２は、マルチチャネルの音声を入力とし、１以上Ｍ以下の各整数ｉについて、チャネルｉの音声信号から音声区間を検出した音声区間検出結果を連続発話検出部１４－ｉへ出力する。多入力音声検出部６２は、チャネル間で音声レベル情報をやり取りすることで、より正確に音声区間を検出することができる。マルチチャネル入力の音声区間検出の方法は、下記参考文献１に記載の手法などを用いることができる。

〔参考文献１〕特開２０１７－１８７６８８号公報
このように構成することにより、第六実施形態によれば、マルチチャネルの音声信号が入力されたときに、精度よく音声区間を検出することができ、結果として連続発話推定の精度が向上する。

以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１，２，３，４，５，６連続発話推定装置
９キーワード検出装置
１１，９１キーワード検出部
１２音声検出部
１３連続発話検出部
３０，９２応答音出力部
２１，４１，４３，９３遅延部
２０，４２，４４スイッチ部
４５，９９目的音出力部
６２多入力音声検出部

Claims

入力音声から所定のキーワードの発音を検出した結果を示すキーワード検出結果を生成するキーワード検出部と、
上記入力音声から音声区間を検出した結果を示す音声区間検出結果を生成する音声検出部と、
上記キーワード検出結果がキーワードを検出したことを示し、かつ、上記音声区間検出結果が音声区間を検出したことを示す場合、連続発話であることを示す連続発話検出結果を生成する連続発話検出部と、
を含む連続発話推定装置。
請求項１に記載の連続発話推定装置であって、
上記キーワード検出結果が生成した上記キーワード検出結果に所定の遅延を与える遅延部をさらに含む、
連続発話推定装置。
請求項１または２に記載の連続発話推定装置であって、
上記キーワード検出結果がキーワードを検出したことを示し、かつ、上記連続発話検出結果が連続発話を検出したことを示すとき、所定の応答音を発出する応答音出力部をさらに含む、
連続発話推定装置。
請求項３に記載の連続発話推定装置であって、
上記キーワード検出結果がキーワードを検出したことを示し、かつ、上記連続発話検出結果が連続発話を検出したことを示す場合、上記応答音の長さ分遅延させた上記入力音声を目的音として出力し、上記キーワード検出結果がキーワードを検出したことを示し、かつ、上記連続発話検出結果が連続発話を検出しなかったことを示す場合、上記入力音声を遅延させずに目的音として出力する目的音出力部をさらに含む、
連続発話推定装置。
請求項１から４のいずれかに記載の連続発話推定装置であって、
上記入力音声は、複数のチャネルを含む音声信号であり、
上記音声検出部は、上記入力音声に含まれる各チャネルに対応する上記音声区間検出結果を生成するものであり、
上記キーワード検出部と上記連続発話検出部とを、上記入力音声に含まれる各チャネルの音声信号の数だけ含む、
連続発話推定装置。
キーワード検出部が、入力音声から所定のキーワードの発音を検出した結果を示すキーワード検出結果を生成し、
音声検出部が、上記入力音声から音声区間を検出した結果を示す音声区間検出結果を生成し、
連続発話検出部が、上記キーワード検出結果がキーワードを検出したことを示し、かつ、上記音声区間検出結果が音声区間を検出したことを示す場合、連続発話であることを示す連続発話検出結果を生成する、
連続発話推定方法。
請求項１から５のいずれかに記載の連続発話推定装置としてコンピュータを機能させるためのプログラム。