JP7482086B2

JP7482086B2 - キーワード検出装置、方法及びプログラム

Info

Publication number: JP7482086B2
Application number: JP2021110285A
Authority: JP
Inventors: 大貴田中; 岳彦籠嶋
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2021-07-01
Filing date: 2021-07-01
Publication date: 2024-05-13
Anticipated expiration: 2041-07-01
Also published as: JP2023007190A

Description

本発明の実施形態は、キーワード検出装置、方法及びプログラムに関する。

キーワード検出技術では、キーワードの発音列を構成する単位の特徴を隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）でモデル化した音響モデルを用いて、入力された音声信号から、予め定められたキーワードに対応する音声区間を検出する。ＨＭＭの状態遷移パスから計算される検出判定スコアが設定する閾値を超した場合にキーワード検出を行う。

特開平０８－１６０９８７号公報

特許文献１に係る技術は、ＨＭＭのある状態のみが長く継続して、その他の状態では自己遷移を持たないという特徴に着目し、各状態のうち、自己遷移を持たない状態の割合に基づいて各候補の出力確率に重み付けを行い、この重み付けに基づいて不正解単語の湧き出しを排除する。この技術では、自己遷移を持たない状態を多く含むキーワードを誤認識する可能性がある。また、早い段階で設定した検出閾値を超えると、最終状態まで自己遷移を持たない状態が続くことがあるため、誤って誤認識する可能性がある。

本発明が解決しようとする課題は、キーワードの正解検出又は誤検出を高精度に識別することが可能なキーワード検出装置、方法及びプログラムを提供することである。

実施形態に係るキーワード検出装置は、検出部、取得部及び判定部を有する。検出部は、音声信号から、特定のキーワードの発音列の構成単位の特徴をモデル化した隠れマルコフモデルを用いて、前記特定のキーワードに対応する音声区間を検出する。取得部は、前記音声区間について、前記隠れマルコフモデルの各状態の遷移回数又は当該遷移回数に応じた特徴量に関する第１のベクトルを取得する。判定部は、前記取得された第１のベクトルに基づいて前記音声区間が正解検出か誤検出かを判定する。

第１実施形態に係るリモコン装置の外観図第１実施形態に係るリモコン装置の構成例を示す図第１実施形態に係るキーワード検出装置の機能構成例を示す図キーワード検出部の機能構成例を示す図第１実施形態にキーワード検出装置の処理例の流れを示す図候補音声区間の検出処理を模式的に示す図隠れマルコフモデル（ＨＭＭ）の一例を示す図正解検出の状態遷移を示すグラフ誤検出の状態遷移を示すグラフ状態遷移回数確率分布を模式的に示す図正解検出に関する尤度特徴量ベクトルの算出方法を模式的に示す図誤検出に関する尤度特徴量ベクトルの算出方法を模式的に示す図未学習の識別器に対する学習処理を模式的に示す図正解検出又は誤検出の判定処理を模式的に示す図第２実施形態に係るキーワード検出装置の機能構成例を示す図第２実施形態にキーワード検出装置の処理例の流れを示す図正解検出に関する尤度変換特徴量ベクトルの一例を示す図誤検出に関する尤度変換特徴量ベクトルの一例を示す図第３実施形態に係るキーワード検出装置の機能構成例を示す図第１、第２及び第３実施形態に係るキーワード検出装置のハードウェア構成例を示す図

以下、図面を参照しながら本実施形態に係わるキーワード検出装置、方法及びプログラムを説明する。

（第１実施形態）
本実施形態では、本実施形態に係るキーワード検出装置が家電製品を操作するためのリモコン装置に搭載されているものとし、例として電気照明を操作する場合について説明する。リモコン装置は、「電気つけて」「暗くして」などのあらかじめ設定されたキーワード（以後、コマンドワードと呼ぶ）の音声に反応して電気照明を操作するものである。

図１は、第１実施形態に係るリモコン装置１００の外観図である。図１に示すように、リモコン装置１００は、マイク１０１と通信機器１０２とを備えている。

図２は、第１実施形態に係るリモコン装置１００の構成例を示す図である。図２に示すように、リモコン装置１００は、マイク１０１と通信機器１０２に加えて、キーワード検出装置１０３を備えている。マイク１０１は、操作者等が発したコマンドワードの発声を含む音声を観測し、アナログの音声信号に変換する。アナログの音声信号は、有線又は無線を介してキーワード検出装置１０３に入力される。

キーワード検出装置１０３は、入力されたアナログの音声信号に対してコマンドワードの発声の有無を判定する。コマンドワードの発生が検出された場合、キーワード検出装置１０３は、コマンドワードに対応するＩＤを出力する。通信機器１０２は、ＩＤが入力されると、当該ＩＤに対応する制御信号に変換し、赤外線などを用いて電気照明器具１０４に送信する。電気照明器具１０４は、通信機器１０２から送信された制御信号を受信して規定の動作を行う。

図３は、キーワード検出装置１０３の機能構成例を示す図である。キーワード検出装置１０３は、音声取得部１１１、キーワード検出部１１２、尤度特徴量取得部１１３、確率分布記憶部１１４、判定部１１５及び識別器記憶部１１６を有している。

音声取得部１１１は、マイク１０１で観測されたアナログの音声信号をデジタルの音声信号に変換する。デジタルの音声信号は、キーワード検出部１１２に供給される。

キーワード検出部１１２は、デジタルの音声信号から、特定のキーワード（コマンドワード）の発音列の構成単位の特徴をモデル化した隠れマルコフモデル（ＨＭＭ）を用いて、当該コマンドワードに対応する音声区間を検出する。本実施形態に係る構成単位は、音素でもよいし、音節や単語等の任意の単位でもよいが、以下の説明を具体的に行うため、音素であるとする。具体的には、キーワード検出部１１２は、音声信号にコマンドワードに対応する音声信号が含まれているか否かを、ＨＭＭを用いて判定し、含まれていると判定された場合、コマンドワードに対応する音声区間が検出される。この時点では、コマンドワードの検出が正解検出であるか誤検出であるかは不明である。検出された音声区間を候補音声区間と呼ぶことにする。また、候補音声区間の検出は、コマンドワード候補の検出と表現することも可能である。

図４は、キーワード検出部１１２の機能構成例を示す図である。図４に示すように、キーワード検出部１１２は、音響特徴量計算部１２１、スコア計算部１２２及び候補音声区間検出部１２３を有する。音響特徴量計算部１２１は、入力されたデジタルの音声信号から所定のフレーム単位でスペクトルの特徴を表す音響特徴ベクトルを計算する。スコア計算部１２２は、音響特徴ベクトルから各音素の尤度に対応する発声状態スコアを推定する。候補音声区間検出部１２３は、コマンドワードの発音列の構成単位に対応する発声状態スコアを用いて計算された検出判定スコアが、閾値以上となった場合、コマンドワードの発音列に対応する音声区間を、候補音声区間として検出する。

図３に戻り、尤度特徴量取得部１１３は、検出された候補音声区間について、ＨＭＭの各状態の遷移回数に応じた特徴量に関する第１のベクトルを取得する。特徴量は、キーワード検出部１１２によるコマンドワードに対応する候補音声区間の検出が正解検出か誤検出かを判定するための指標である。第１のベクトルは、コマンドワードに対応するＨＭＭの複数の状態にそれぞれ対応する複数の特徴量の系列を意味する。換言すれば、第１のベクトルは、コマンドワードの発音列の構成単位（例えば、音素）の個数に応じた次元数を有する。尤度特徴量取得部１１３は、具体的には、ＨＭＭの各状態の遷移回数と当該遷移回数に関する確率分布とに基づいて、特徴量として、尤度を算出する。以下、尤度に関する第１のベクトルを尤度特徴量ベクトルと呼ぶことにする。遷移回数に関する確率分布は、確率分布記憶部１１４に記憶されている。

判定部１１５は、尤度特徴量ベクトルに基づいて、コマンドワードに対応する候補音声区間が、正解検出か誤検出かを判定する。具体的には、判定部１１５は、尤度特徴量ベクトルを、学習済みの識別器に適用し、コマンドワードに対応する候補音声区間が正解検出か誤検出かを判定する。判定結果は通信機器１０２に供給される。識別器は、入力された尤度特徴量ベクトルから、当該尤度特徴量ベクトルに対応する候補音声区間が正解検出か誤検出かを識別するように学習された機械学習モデルである。学習済みの識別器は、識別器記憶部１１６に記憶されている。

次に、第１実施形態にキーワード検出装置１０３の一連の処理について詳細に説明する。

図５は、第１実施形態にキーワード検出装置１０３の処理例の流れを示す図である。図５に示すように、まず、音声取得部１１１は、操作者が発声した音声に関する音声信号を取得する（ステップＳＡ１）。より詳細には、操作者が任意の音声を発すると、マイク１０１は、当該音声をアナログの音声信号に変換する。音声取得部１１１は、当該アナログの音声信号を、有線又は無線を介して取得する。

ステップＳＡ１が行われるとキーワード検出部１１２は、ステップＳＡ１において取得された音声信号の中から、コマンドワードに対応する候補音声区間（コマンドワード候補）を検出する（ステップＳＡ２）。ステップＳＡ２の処理について詳細に説明する。

図６は、ステップＳＡ２に係るキーワード検出部１１２による候補音声区間の検出処理を模式的に示す図である。図６に示すように、キーワード検出部１１２の音響特徴量計算部１２１は、音声認識処理で用いられるのと同様の処理によって、デジタルの音声信号から音響特徴ベクトル６１を算出する（ステップＳＡ２１）。ステップＳＡ２１において音響特徴量計算部１２１は、まず、デジタルの音声信号に対して、例えばフレーム長１０ｍｓ及びフレームシフト５ｍｓで短時間フーリエ変換を行いスペクトルに変換する。次に音響特徴量計算部１２１は、所定の帯域幅の仕様に基づいて帯域毎のパワースペクトルの総和を算出し、フィルタバンク特徴ベクトルに変換する。フィルタバンク特徴ベクトルは、音響特徴ベクトル６１の一例である。フィルタバンク特徴ベクトル以外にも、ＭＦＣＣ（Mel Frequency Cepstral Coefficients）等の種々の音響特徴ベクトルを用いることが可能である。音響特徴ベクトル６１はキーワード検出部１１２のスコア計算部１２２に供給される。

ステップＳＡ２１が行われるとスコア計算部１２２は、ステップＳＡ２１において算出された音響特徴ベクトル６１から発声状態スコアを算出する（ステップＳＡ２２）。発声状態スコアは、隠れマルコフモデル（ＨＭＭ）における状態毎に算出される。

図７は、隠れマルコフモデル（ＨＭＭ）の一例を示す図である。図７に示すように、本実施例におけるＨＭＭにおける各状態は、対応する音素を独立にモデル化したモノフォンでモデル化されているものとする。なお、本実施形態に係るＨＭＭの状態は、モノフォンでモデル化する場合に限定されず、音素とその前の音素、または後ろの音素の依存関係を考慮するバイフォンや、前後の音素との依存関係を考慮するトライフォンなどでモデル化してもよい。また、本実施例では１音素あたりを１状態のＨＭＭで表現したが、１音素あたり２状態、３状態・・・で表現してもよい。

図６に示すように、スコア計算部１２２は、フレーム毎に音響特徴ベクトルを、学習済みＤＮＮ（Deep Neural Network）６２に適用して、コマンドワードの発音列に含まれる複数の状態にそれぞれ対応する複数の発声状態スコアを計算する。学習済みＤＮＮ６２は、フレーム毎の音響特徴ベクトルを入力して、コマンドワードの発音列に含まれる複数の状態にそれぞれ対応する複数の発声状態スコアを出力するように学習パラメータが訓練されたＤＮＮである。学習済みＤＮＮ６２のネットワーク構造は特に限定されないが、隠れ層に全結合層を含む回帰モデルが用いられるとよい。学習済みＤＮＮ６２としては、全結合によるＤＮＮの代わりに、ＣＮＮ（Convolutional Neural Network）やＬＳＴＭ（long short term memory）等が用いられてもよい。また、学習済みＤＮＮ６２を使用する実施例に限定されず、音声認識で利用されている種々の手法により、音響特徴ベクトルから発声状態スコアが算出されてもよい。

ステップＳＡ２２が行われると候補音声区間検出部１２３は、ステップＳＡ２２においてフレーム毎に算出された複数の状態にそれぞれ対応する複数の発声状態スコアに基づいてコマンドワード検出を行う（ステップＳＡ２３）。

ステップＳＡ２３において候補音声区間検出部１２３は、状態とフレーム（時刻）とで表現されるトレリス空間６３において、コマンドワードの初期音素に対応するＨＭＭの初期状態から、当該コマンドワードの最終音素に対応するＨＭＭの最終状態までの経路（状態遷移パス）のうち、閾値θを超える検出判定スコアを有する状態遷移パスＰ＞θを探索する。検出判定スコアは、当該状態遷移パスの出現確率に関する指標である。検出判定スコアは、当該状態遷移パスが通る状態の発声状態スコアに基づいて算出される。

一例として、まず、ＨＭＭの初期状態の発声状態スコアが閾値よりも高いフレームを始端フレームに設定する。ＨＭＭの初期状態からの遷移先の状態を探索する。ＨＭＭにおいて遷移先は、現状態の次の状態だけでなく、現状態も許容される。次に初期状態から遷移先の状態までの状態遷移パス毎の検出判定スコアが、遷移先の状態の発声状態スコアに基づいて算出される。フレーム毎に最大の検出判定スコアを有する状態遷移パスが選択される。このような状態遷移パスの取捨選択が、始端フレームから終端フレームまでの各フレームについて行われる。終端フレームにおいて選択された状態遷移パスＰが閾値θよりも大きい場合（Ｐ＞θ）、コマンドワードに対応する状態遷移パスとして検出される。始端フレームから終端フレームまでの音声区間が候補音声区間として検出される。状態遷移パスＰ＞θの状態毎の状態遷移回数が記録される。

ここで、正解検出と誤検出との状態遷移の相違について説明する。図８及び図９は、同一コマンドワードに対する正解検出及び誤検出の状態遷移を示すグラフである。図８及び図９の縦軸は状態の番号を表し、横軸はフレーム又は時間を表す。図８に示すように、正解検出では、各状態を数回ずつ遷移している。図９に示すように、誤検出では、ある状態のみが長く継続して（定常状態）、その他の状態では自己遷移を有さない（１状態遷移）という特徴を有している。本実施形態は、正解検出及び／又は誤検出における状態遷移回数の時間的な推移の統計を利用して、コマンドワード候補の検出が正解検出か誤検出かを判定する。

ステップＳＡ２が行われると尤度特徴量取得部１１３は、ステップＳＡ２において検出された候補音声区間における状態毎の状態遷移回数を取得する（ステップＳＡ３）。尤度特徴量取得部１１３は、ステップＳＡ２３において記録された状態遷移パスＰ＞θの状態毎の状態遷移回数を取得する。

ステップＳＡ３が行われると尤度特徴量取得部１１３は、ステップＳＡ３において取得された状態遷移回数と、状態遷移回数確率分布とに基づいて、尤度特徴量ベクトルを算出する（ステップＳＡ４）。状態遷移回数確率分布は、ＨＭＭの各状態について、任意のプロセッサ（確率分布計算装置）により予め算出される。確率分布記憶部１１４は、状態遷移回数確率分布を検索可能に体系的に記憶している。

図１０は、状態遷移回数確率分布を模式的に示す図である。図１０に示すように、状態遷移回数確率分布は、各音素をモデル化したＨＭＭの各状態の遷移回数に関する確率分布である。状態遷移回数確率分布の縦軸は確率を表し、横軸は状態遷移回数を表している。

確率分布計算装置による状態遷移回数確率分布の算出方法は以下の通りである。確率分布計算装置は、大量の発声音声信号から、各音素のＨＭＭの状態遷移回数を算出する。一例として、音素単位がモノフォンでモデル化されている場合、１音素あたり１状態で表現された音素／ａ／のＨＭＭについて、大量の発声音声信号から当該１状態の状態遷移回数が算出される。次に各状態において、Ｎ個の状態遷移回数毎に出現回数をカウントし、状態遷移回数の出現頻度に関するヒストグラムを生成する。ここで、Ｎは状態遷移回数のサンプル数を表している。最後に、状態遷移回数の出現回数をＮで割ることで、状態遷移回数確率分布が生成される。本実施例では、状態遷移回数をサンプル数で割ることにより状態遷移回数確率分布を得るものとしたが、状態遷移回数確率分布は、正規分布や指数分布などの他の確率分布で表現されるものが用いられてもよい。

図１１及び図１２は、それぞれ正解検出及び誤検出に関する尤度特徴量ベクトルの算出方法を模式的に示す図である。図１１及び図１２に示す実施例では、音素単位をモノフォンとし、１音素あたり１状態のＨＭＭでコマンドワードをモデル化するものとする。例えば、コマンドワードが「電気つけて」である場合を考える。「電気つけて」の音素は「ｄ」「ｅ」「ｎ」「ｋ」「ｉ」「ｔ」「ｕ」「ｋ」「ｅ」「ｔ」「ｅ」の１１個であり、ＨＭＭの状態数は１１個である。すなわち、コマンドワード候補として検出された候補音声区間の音声は、ＨＭＭの状態を１１個持つことになる。図１１に示す正解検出の例では、「電気つけて」と正しく発話された音声信号が入力され、この発話がキーワード検出部１１２によりコマンドワード「電気つけて」として検出されているとする。図１２に示す誤検出の例では、雑音、例えば、「ガシャガシャ」という音の音声信号が入力され、この雑音がキーワード検出部１１２によりコマンドワード「電気つけて」として検出されているとする。

図１１及び図１２に示すように、尤度特徴量取得部１１３は、候補音声区間に関するＨＭＭの複数の状態各々について、当該状態に関する状態遷移回数と状態遷移回数確率分布とを照合し、状態遷移回数の尤度を算出する。具体的には、「電気つけて」の１１個のＨＭＭ状態に対応する確率分布が確率分布記憶部１１４から読み出される。そして、コマンドワード候補の１１個の各状態の状態遷移回数を、取得した各状態に対応する確率分布に当て嵌めて、１１個の尤度を有する尤度特徴量ベクトルが算出される。尤度特徴量ベクトルは、各発音列に関する状態遷移回数の時間的な推移を表しているといえる。

図１１に示すように、正解検出の場合、全ての状態について概ね数回程度の状態遷移回数で推移する。従って尤度も全ての状態について概ね略一定の値で推移する。誤検出の場合、図１２に示すように、ある状態（図１２では「ｎ」や「ｉ」）について状態遷移回数が突出して多い。従って状態遷移回数が突出して多い状態については、正解検出の場合に比して、尤度特徴量が小さく異なった値を有している。

ステップＳＡ４が行われると判定部１１５は、ステップＳＡ４において算出された尤度特徴量ベクトルを、学習済み識別器に適用して正解検出か誤検出か判定する（ステップＳＡ５）。学習済みの識別器は、任意のプロセッサ（識別器学習装置）により予め学習されている。識別器記憶部１１６は、学習済み識別器を検索可能に体系的に記憶している。学習済み識別器は、キーワード検出部１１２により検出された候補音声区間に関する尤度特徴量ベクトルを入力して、当該候補音声区間が正解検出か誤検出かを識別するように学習された機械学習モデルである。学習済み識別器は、正解検出及び誤検出における状態遷移回数の時間的な推移の統計又は事前知識であると表現できる。上記の通り、尤度特徴量ベクトルがコマンドワードのＨＭＭの状態の個数に応じた次元数を有し、且つ識別器が尤度特徴量ベクトルに基づいて学習されるので、学習済み識別器は、コマンドワードの種別又は構成単位（音素）数毎に用意される。以下、説明を具体的に行うため、識別器はコマンドワードの種別毎に用意されるものとする。

図１３は、未学習の識別器１３０に対する学習処理を模式的に示す図である。図１３に示すように、識別器１３０は、あるコマンドワード候補に関する大量の正解検出の尤度特徴量ベクトル及び誤検出の尤度特徴量ベクトルに基づいて、識別器学習装置により学習される。大量の正解検出の尤度特徴量ベクトルと大量の誤検出の尤度特徴量ベクトルとは学習データとも呼ばれる。

識別器学習装置は、ステップＳＡ４と同様、正解検出の音声信号及び誤検出の音声信号各々から取得した各状態の遷移回数と状態遷移回数確率分布とを照合し、各状態の尤度を計算することにより尤度特徴量ベクトルを算出する。例えば、検出すべきコマンドワードを「電気つけて」とした場合、正解検出の音声信号は「電気つけて」の発声に関し、誤検出の音声信号は「電気つけて」ではない発声や雑音などに関する。「電気つけて」の場合、音素数が１１個であるため、ＨＭＭの状態は１１個となる。すなわち、１１個の状態の遷移回数から１１個の尤度が求まるため、１１次元の尤度特徴量ベクトルが算出される。学習データ内の全ての正解検出と誤検出の音声信号に対して尤度特徴量ベクトルが計算され、その全ての尤度特徴量ベクトルを用いて未学習の識別器１３０に対する学習が行われる。

識別器１３０としては、例えば、ＳＶＭ（Support Vector Machine）が用いられる。この場合、識別器学習装置は、尤度特徴量ベクトルに関する１１次元の特徴量空間において、正解検出の尤度特徴量ベクトルと誤検出の尤度特徴量ベクトルとの汎化誤差を最小にする決定境界を、学習データと決定境界との最短距離であるマージンを最大化することにより決定する。

図１４は、判定部１１５による正解検出又は誤検出の判定処理を模式的に示す図である。図１４に示すように、判定部１１５は、上記処理で生成された学習済み識別器１４０を利用して、候補音声区間（コマンドワード候補）が正解検出か誤検出かを判定する。より詳細には、まず、判定部１１５は、ステップＳＡ４において算出された、コマンドワード候補の音声信号に関する尤度特徴量ベクトルを取得する。これに並行して判定部１１５は、当該候補音声区間に対応するコマンドワードに関する学習済み識別器１４０を識別器記憶部１１６から読み出す。そして判定部１１５は、当該尤度特徴量ベクトルを識別器１４０に適用して、当該尤度特徴量ベクトルを決定境界に対して比較して正解検出か誤検出かを判定する。当該尤度特徴量ベクトルが決定境界よりも正解検出側にある場合、候補音声区間が正解検出であると判定され、当該尤度特徴量ベクトルが決定境界よりも誤検出側にある場合、候補音声区間が誤検出であると判定される。

なお、本実施形態に係る識別器１３０は、ＳＶＭに限定されず、識別タスクで利用される種々の機械学習モデルが用いられればよい。例えば、ＳＶＭの代わりにＫ平均法やＤＮＮなどが用いられてもよい。

ステップＳＡ５において正解検出であると判定された場合（ステップＳＡ６：ＹＥＳ）、判定部１１５は、コマンドワードに対応するＩＤを出力する（ステップＳＡ７）。例えば、出力されたＩＤは、リモコン装置１００の通信機器１０２に供給される。通信機器１０２は、当該ＩＤに対応する制御信号を電気照明器具１０４に送信する。例えば、コマンドワードが「電気付けて」である場合、「電気付けて」に対応するＩＤが通信機器１０２に供給され、当該ＩＤに対応する制御信号が電気照明器具１０４に供給され、電気照明器具１０４は照明をＯＮにする。コマンドワードが「電気消して」である場合、「電気消して」に対応するＩＤが通信機器１０２に供給され、当該ＩＤに対応する制御信号が電気照明器具１０４に供給され、電気照明器具１０４は照明をＯＦＦにする。

一方、ステップＳＡ５において誤検出であると判定された場合（ステップＳＡ６：ＮＯ）、判定部１１５は、候補音声区間を棄却する（ステップＳＡＳ８）。

ステップＳＡ７又はＳＡ８が行われると、第１実施形態にキーワード検出装置１０３の処理が終了する。

以上述べた実施形態では、キーワード検出装置１０３は、ＨＭＭの状態遷移回数を統計的な特徴量で表現し、その特徴量で学習された識別器を使って候補音声区間（コマンドワード候補）が正解検出であるか誤検出であるかを判定し、コマンドワード検出を行う。ＨＭＭ系列全体の状態遷移回数を統計的に見ることで、誤検出の湧き出しを排除しつつ適切なコマンドワード検出が可能になる。

（第２実施形態）
第１実施形態に係る尤度特徴量ベクトルは、ＨＭＭの状態数に依存する次元数を有するものとした。第２実施形態に係るキーワード検出装置は、ＨＭＭの状態数に依存しない次元数を有する尤度特徴量ベクトルを使用して正解検出又は誤検出を判定する。以下、第２実施形態について説明する。なお以下の説明において、第１実施形態と略同一の機能を有する構成要素については、同一符号を付し、必要な場合にのみ重複説明する。

図１５は、第２実施形態に係るキーワード検出装置１０３の機能構成例を示す図である。図１５に示すように、キーワード検出装置１０３は、音声取得部１１１、キーワード検出部１１２、尤度特徴量取得部１１３、確率分布記憶部１１４、変換部１５１、判定部１５２及び識別器記憶部１５３を有する。

変換部１５１は、尤度特徴量取得部１１３により算出された尤度特徴量ベクトルを、コマンドワードに含まれる構成単位（例えば、音素）の個数に依存しない次元数を有する、遷移回数に応じた特徴量のベクトルに変換する。以下、当該ベクトルを尤度変換特徴量ベクトルと呼ぶ。なお、尤度特徴量取得部１１３により算出される尤度特徴量ベクトルは、コマンドワードに含まれる構成単位（例えば、音素）の個数に依存する次元を有する。

判定部１５２は、尤度変換特徴量ベクトルに基づいて、コマンドワードに対応する候補音声区間が、正解検出か誤検出かを判定する。具体的には、判定部１５２は、尤度変換特徴量ベクトルを、第２実施形態に係る識別器に適用し、コマンドワードに対応する候補音声区間が正解検出か誤検出かを判定する。判定結果は通信機器１０２に供給される。識別器は、入力された尤度変換特徴量ベクトルから、当該尤度変換特徴量ベクトルに対応する候補音声区間が正解検出か誤検出かを識別するように学習された機械学習モデルである。識別器は、識別記憶部１５３に記憶されている。なお、第２実施形態に係る識別器は、第１実施形態のように、コマンドワードの種別又は構成単位（音素等）数毎に用意する必要はない。

次に、第２実施形態にキーワード検出装置１０３の一連の処理について詳細に説明する。

図１６は、第２実施形態にキーワード検出装置１０３の処理例の流れを示す図である。図１６に示すステップＳＢ１からＳＢ４は図５に示すステップＳＡ１からＳＡ４と同一であるので、ここでの説明を省略する。

ステップＳＢ４が行われると変換部１５１は、ステップＳＢ４において算出された状態数依存の尤度特徴量ベクトルを、状態数非依存の尤度変換特徴量ベクトルに変換する（ステップＳＢ５）。

変換部１５１の詳細な動作について説明する。変換部１５１は、状態数依存の尤度特徴量ベクトルを入力とし、次元変換手法を用いて任意の次元の尤度変換特徴量ベクトルへと変換する。次元変換手法としては、例えば、離散コサイン変換を用いることができる。離散コサイン変換は、入力信号をコサイン基底で展開し、低周波や高周波などの周波数成分に分解して低周波成分へ情報を集中させる特徴がある。すなわち、入力信号を離散コサイン変換し、入力信号の重要な情報を多く含む低周波成分を任意の個数取得することで次元圧縮を行う。

状態数依存の尤度特徴量ベクトルをＸ_Ｎと表し、ｎ次元の特徴量ベクトルへと変換を行う場合、下記（１）式に基づいて次元圧縮を行う。Ｎは尤度特徴量ベクトルの要素数、Ｃ_ｎは尤度変換特徴量ベクトル、ｉは０≦ｉ＜Ｎを満たすＸ_Ｎの要素番号、ｋは０≦ｋ＜ｎを満たすＣ_ｎの要素番号を表す。ここでは（１）式に基づく離散コサイン変換であったが、これ以外にも公知の式で表現される離散コサイン変換を用いてもよい。

次に、変換部１５１の別の実施例について説明する。まず、コマンドワード候補のＨＭＭ状態を、前半、中間、後半の三区間に分け、尤度特徴量ベクトルＸ_Ｎを分割する。このとき、尤度特徴量ベクトルの前半部をＸ^Ｌ、中間部をＸ^Ｃ、後半部をＸ^Ｒと表す。次に、Ｘ^Ｌの平均μ^Ｌと標準偏差σ^Ｌ、Ｘ^Ｃの平均μ^Ｃと標準偏差σ^Ｃ、Ｘ^Ｒの平均μ^Ｒと標準偏差σ^Ｒを算出する。これらの平均と標準偏差とを結合し、一つの特徴量ベクトルＣ_ｎ（ｎ＝６）を生成する。Ｃ_ｎ（ｎ＝６）は下記（２）式で表現される。ここでは、前半、中間、後半の三区間に分けたが、他にも一区間、二区間、四区間・・・としてもよい。

また変換部１５１は、上記の変換方法の他に公知の手法を用いることができる。離散コサイン変換による次元圧縮や、ベクトルを区間に分けて平均と標準偏差を求める圧縮方法の代わりに、ベクトル量子化やｔ－ＳＮＥを用いるようにしてもよい。

ステップＳＢ５が行われると判定部１５２は、ステップＳＢ５において算出された尤度変換特徴量ベクトルを、学習済みの識別器に適用して正解検出か誤検出かを判定する（ステップＳＢ６）。学習済みの識別器は、コマンドワードの種別に依らずに、任意のプロセッサ（識別器学習装置）により予め学習されている。識別器記憶部１５３は、学習済みの識別器を検索可能に体系的に記憶している。学習済みの識別器は、キーワード検出部１１２により検出された候補音声区間に関する尤度変換特徴量ベクトルを入力して、当該候補音声区間が正解検出か誤検出かを識別するように学習された機械学習モデルである。

ここで、識別器記憶部１５３に記憶された学習済み識別器の詳細について説明する。ここでは、第１実施形態と同様、音素単位をモノフォンとし、１音素あたり１状態のＨＭＭでモデル化して説明する。

図１７は、正解検出に関する尤度変換特徴量ベクトルの一例を示す図であり、図１８は、誤検出に関する尤度変換特徴量ベクトルの一例を示す図である。図１７及び図１８においてコマンドワードは「電気つけて」及び「暗くして」の２種類であるとする。図１７及び図１８に示すように、識別器学習装置は、ステップＳＢ４と同様、学習データ内の正解検出の音声信号及び誤検出の音声信号各々から取得した各状態の遷移回数及び状態遷移回数確率分布を照合し、各状態の尤度を計算することにより尤度特徴量ベクトルを算出する。図１７及び図１８ではコマンドワード「電気つけて」及び「暗くして」の正解検出及び誤検出の学習データを示しているが、このときのコマンドワードは何でもよく、「スイッチオン」や「消して」、照明操作に関係ない「拡大」や「エアコンつけて」などをコマンドワードとした時の学習データを用いることができる。学習データ内の正解検出の音声データは様々なコマンドワードの発声であり、誤検出の音声データはコマンドワードではない発声や雑音などになる。「電気つけて」の場合、その音素が「ｄ」「ｅ」「ｎ」「ｋ」「ｉ」「ｔ」「ｕ」「ｋ」「ｅ」「ｔ」「ｅ」の１１個であるため、ＨＭＭの状態は１１個となる。すなわち、１１個の状態の遷移回数から１１個の尤度が求まるため、１１次元の尤度特徴量ベクトルが算出される。「暗くして」の場合、その音素が「ｋ」「ｕ」「ｒ」「ａ」「ｋ」「ｕ」「ｓ」「ｉ」「ｔ」「ｅ」の１０個であるため、ＨＭＭの状態は１０個であり、１０次元の尤度特徴量ベクトルが算出される。

次に、識別器学習装置は、尤度特徴量ベクトルから任意の次元数の尤度変換特徴量ベクトルが算出される。例えば、図１７及び図１８では、「電気つけて」の１１次元の尤度特徴量ベクトルと「暗くして」の１０次元の尤度特徴量ベクトルが、それぞれ６次元の尤度変換特徴量ベクトルに変換される。なお、異なる音声信号に対応する尤度特徴量ベクトルについて尤度変換特徴量ベクトルの次元数は同一値に設定される。学習データ内に含まれる全てのコマンドワードに関する正解検出及び誤検出の音声信号に対して、同一次元数の尤度変換特徴量ベクトルが算出される。識別器学習装置は、その全ての尤度変換特徴量ベクトルを用いて１個の未学習の識別器を学習する。識別器としては、例えば、ＳＶＭが用いられる。この場合、識別器学習装置は、尤度変換特徴量ベクトルに関する６次元の特徴量空間において、正解検出の尤度変換特徴量ベクトルと誤検出の尤度変換特徴量ベクトルとの汎化誤差を最小にする決定境界を、学習データと決定境界との最短距離であるマージンを最大化することにより決定する。学習に使用する尤度変換特徴量ベクトルは、次元数が所定数に固定されているので、コマンドワードの次元数に依存しない識別器が生成されることとなる。

次に、判定部１５２の詳細な処理について説明する。上記処理で生成された学習済み識別器を利用して、候補音声区間（コマンドワード候補）が正解検出か誤検出かを判定する。より詳細には、まず、判定部１５２は、ステップＳＢ５において算出された、コマンドワード候補の音声信号に関する尤度変換特徴量ベクトルを取得する。これに並行して判定部１５２は、学習済み識別器を識別器記憶部１５３から読み出す。そして判定部１５２は、当該尤度変換特徴量ベクトルを識別器に適用して、当該尤度変換特徴量ベクトルを決定境界に対して比較して正解検出か誤検出かを判定する。当該尤度変換特徴量ベクトルが決定境界よりも正解検出側にある場合、候補音声区間が正解検出であると判定され、当該尤度特徴量ベクトルが決定境界よりも誤検出側にある場合、候補音声区間が誤検出であると判定される。

なお、第２実施形態に係る識別器も、ＳＶＭに限定されず、識別タスクで利用される種々の機械学習モデルが用いられればよい。例えば、ＳＶＭの代わりにＫ平均法やＤＮＮなどが用いられてもよい。

図１６に示すステップＳＢ７からＳＢ９は図５に示すステップＳＡ６からＳＡ８と同一であるので、ここでの説明を省略する。

上記の通り、第１実施形態ではコマンドワードに対応した識別器を用意する必要があったが、第２実施形態では、コマンドワードのＨＭＭ状態数に依存しない尤度変換特徴量ベクトルを用いて識別器を学習するため、コマンドワードの種別又は構成単位（音素等）数毎に識別器を生成する必要がなくなる。したがって、学習済み識別器の記憶容量を削減することができる。また、コマンドワードの種別に応じて学習済み識別器を使い分ける必要がないのでキーワード検出処理を簡略化することが可能になる。

（第３実施形態）
第１及び第２実施形態に係る判定部１１５，１５２は、遷移回数に応じた尤度を要素に有する尤度特徴量ベクトルを用いて正解検出又は誤検出の判定を行うものとした。第３実施形態に係る判定部は、遷移回数を要素に有するベクトルを用いて正解検出又は誤検出の判定を行う。以下、第３実施形態について説明する。なお以下の説明において、第１及び第２実施形態と略同一の機能を有する構成要素については、同一符号を付し、必要な場合にのみ重複説明する。

図１９は、第３実施形態に係るキーワード検出装置１０３の機能構成例を示す図である。図１９に示すように、キーワード検出装置１０３は、音声取得部１１１、キーワード検出部１１２、遷移回数取得部１９１、判定部１９２及び識別器記憶部１９３を有する。

遷移回数取得部１９１は、キーワード検出装置１０３により検出された候補音声区間について、ＨＭＭの各状態の遷移回数に関するベクトル（以下、遷移回数ベクトルと呼ぶ）を取得する。遷移回数ベクトルは、コマンドワードに対応するＨＭＭの複数の状態にそれぞれ対応する複数の遷移回数の系列を意味する。換言すれば、遷移回数ベクトルは、コマンドワードに対応するＨＭＭの状態数に等しい次元数を有する。

判定部１９２は、遷移回数ベクトルに基づいて、コマンドワードに対応する候補音声区間が、正解検出か誤検出かを判定する。具体的には、判定部１９２は、遷移回数ベクトルを、第３実施形態に係る識別器に適用し、正解検出又は誤検出を判定する。第３実施形態に係る識別器は、入力された遷移回数ベクトルから、当該遷移回数ベクトルに対応する候補音声区間が正解検出か誤検出からを識別するように学習された機械学習モデルである。学習済みの識別器は、正解検出及び誤検出における状態遷移回数の時間的な推移の統計又は事前知識であると表現できる。識別器は、識別器記憶部１９３に記憶されている。

ここで、第３実施形態に係る識別器に対する学習処理について説明する。識別器は、コマンドワードの種別毎に、識別器学習装置により学習される。識別器学習装置は、あるコマンドワード候補に関する大量の正解検出の遷移回数ベクトル及び誤検出の遷移回数ベクトルに基づいて未学習の識別器を学習する。より詳細には、識別器学習装置は、正解検出の音声信号及び誤検出の音声信号各々から取得した各状態の遷移回数を取得し、遷移回数ベクトルを生成する。例えば、コマンドワード「電気つけて」の場合、音素数が１１個であるため、ＨＭＭの状態は１１個であり、１１次元の遷移回数ベクトルが生成される。学習データ内の全ての正解検出及び誤検出の音声信号に対して遷移回数ベクトルが生成され、その全ての遷移回数ベクトルを用いて未学習の識別器が学習される。

第３実施形態に係る識別器としては、例えば、ＳＶＭが用いられる。この場合、識別器学習装置は、遷移回数ベクトルに関する１１次元の特徴量空間において、正解検出の遷移回数ベクトルと誤検出の遷移回数ベクトルとの汎化誤差を最小にする決定境界を、学習データと決定境界との最短距離であるマージンを最大化することにより決定する。なお、本実施形態に係る識別器１３０は、ＳＶＭに限定されず、識別タスクで利用される種々の機械学習モデルが用いられればよい。例えば、ＳＶＭの代わりにＫ平均法やＤＮＮなどが用いられてもよい。

第３実施形態によれば、遷移回数を用いて候補音声区間の正解検出又は誤検出を判定することが可能になる。尤度を算出する必要がないので、第１及び第２実施形態に比して処理を簡略化することが可能になる。

なお、第３実施形態が第２実施形態に適用されてもよい。すなわち、第３実施形態に係る変換部は、コマンドワードの発音列の構成単位（例えば、音素）の個数、換言すれば、ＨＭＭの状態数に依存する遷移回数ベクトルを、ＨＭＭの状態数に依存しない遷移回数変換ベクトルに変換してもよい。この場合、第３実施形態に係る識別器は、正解検出の遷移回数変換ベクトルと誤検出の遷移回数変換ベクトルとに基づいて学習されることとなる。第３実施形態に係る判定部は、候補音声区間の遷移回数変換ベクトルを、当該識別器に適用して正解検出か誤検出かを判定することが可能である。

（ハードウェア構成）
図２０は、第１、第２及び第３実施形態に係るキーワード検出装置１０３のハードウェア構成例を示す図である。キーワード検出装置１０３は、処理回路２０１、主記憶装置２０２、補助記憶装置２０３、表示機器２０４及び入力機器２０５を備える。処理回路２０１、主記憶装置２０２、補助記憶装置２０３、表示機器２０４及び入力機器２０５は、バスを介して接続されている。

処理回路２０１は、補助記憶装置２０３から主記憶装置２０２に読み出されたキーワード検出プログラムを実行し、音声取得部１１１、キーワード検出部１１２、尤度特徴量取得部１１３、判定部１１５、変換部１５１、判定部１５２、遷移回数取得部１９１及び判定部１９２として動作する。主記憶装置２０２は、ＲＯＭ（Read Only Memory）、及び、ＲＡＭ（Random Access Memory）等のメモリである。主記憶装置２０２は、確率分布記憶部１１４、識別器記憶部１１６、識別器記憶部１５３及び識別器記憶部１９３として動作する。補助記憶装置２０３は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、及び、メモリカード等である。

表示機器２０４は、種々の表示情報を表示する。表示機器２０４は、例えばディスプレイやプロジェクタ等である。入力機器２０５は、コンピュータを操作するためのインタフェースである。入力機器２０５は、例えばキーボードやマウス等である。コンピュータがスマートフォン及びタブレット型端末等のスマートデバイスの場合、表示機器１４及び入力機器２０５は、例えばタッチパネルである。

コンピュータで実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ、メモリカード、ＣＤ－Ｒ及びＤＶＤ（Digital Versatile Disc）等のコンピュータで読み取り可能な記憶媒体に記録されてコンピュータ・プログラム・プロダクトとして提供される。

コンピュータで実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。またコンピュータで実行されるプログラムをダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。

コンピュータで実行されるプログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。コンピュータで実行されるプログラムは、上述のキーワード検出装置１０３の機能構成（機能ブロック）のうち、プログラムによっても実現可能な機能ブロックを含むモジュール構成となっている。当該各機能ブロックは、実際のハードウェアとしては、処理回路２０１が記憶媒体からプログラムを読み出して実行することにより、上記各機能ブロックが主記憶装置２０２上にロードされる。すなわち上記各機能ブロックは主記憶装置２０２上に生成される。

上述した各機能ブロックの一部又は全部をソフトウェアにより実現せずに、ＩＣ（Integrated Circuit）等のハードウェアにより実現してもよい。複数のプロセッサを用いて各機能を実現する場合、各プロセッサは、各機能のうち１つを実現してもよいし、各機能のうち２つ以上を実現してもよい。

キーワード検出装置１０３を実現するコンピュータの動作形態は任意でよい。例えば、キーワード検出装置１０３を１台のコンピュータにより実現してもよい。また例えば、キーワード検出装置１０３を、ネットワーク上のクラウドシステムとして動作させてもよい。

（付言）
上記の実施形態に係るキーワード検出装置は、検出部、取得部及び判定部を有する。検出部は、音声信号から、コマンドワードの発音列の構成単位の特徴をモデル化した隠れマルコフモデルを用いて、当該コマンドワードに対応する候補音声区間を検出する。取得部は、検出された候補音声区間について、隠れマルコフモデルの各状態の遷移回数又は当該遷移回数に応じた特徴量に関するベクトルを取得する。判定部は、取得されたベクトルに基づいて候補音声区間が正解検出か誤検出かを判定する。

上記の構成によれば、隠れマルコフモデルの各状態の遷移回数又は特徴量の系列であるベクトルに基づいて候補音声区間の正解検出又は誤検出を判定するので、特許文献１に比して、自己遷移を有さない状態を多く持つキーワードの誤判定を低減することができる。また、早い段階で検出されたキーワード候補に対しても適切に判定することができるようになる。

かくして、本実施例によれば、キーワードの正解検出又は誤検出を高精度に識別することが可能になる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００…リモコン装置、１０１…マイク、１０２…通信機器、１０３…キーワード検出装置、１０４…電気照明器具、１１１…音声取得部、１１２…キーワード検出部、１１３…尤度特徴量取得部、１１４…確率分布記憶部、１１５…判定部、１１６…識別器記憶部、１２１…音響特徴量計算部、１２２…スコア計算部、１２３…候補音声区間検出部、１３０…未学習識別器、１４０…学習済み識別器、１５１…変換部、１５２…判定部、１５３…識別器記憶部、１９１…遷移回数取得部、１９２…判定部、１９３…識別器記憶部、２０１…処理回路、２０２…主記憶装置、２０３…補助記憶装置、２０４…表示機器、２０５…入力機器。

Claims

音声信号から、特定のキーワードの発音列の構成単位の特徴をモデル化した隠れマルコフモデルを用いて、前記特定のキーワードに対応する音声区間を検出する検出部と、
前記音声区間について、前記特定のキーワードの発音列の構成単位の個数に応じた次元数を有する、前記隠れマルコフモデルの各状態の遷移回数に応じた特徴量に関する第１のベクトルを取得する取得部と、
前記第１のベクトルを、前記特定のキーワードに含まれる構成単位の個数に依存しない次元数を有する、前記遷移回数に応じた特徴量に関する第２のベクトルに変換する変換部と、
前記変換後の第２のベクトルに基づいて前記音声区間が正解検出か誤検出かを判定する判定部と、
を具備するキーワード検出装置。
正解検出に対応する音声信号に関する前記遷移回数に応じた特徴量に関する第２のベクトルと、誤検出に対応する音声信号に関する前記遷移回数に応じた特徴量に関する第２のベクトルと、に基づいて正解検出及び誤検出を識別するように学習された識別器を記憶する識別器記憶部を更に備え、
前記判定部は、前記変換後の第２のベクトルを前記識別器に適用して正解検出か誤検出かを判定する、
請求項１記載のキーワード検出装置。
キーワード検出装置が行うキーワード検出方法であって、
音声信号から、特定のキーワードの発音列の構成単位の特徴をモデル化した隠れマルコフモデルを用いて、前記特定のキーワードに対応する音声区間を検出する検出し、
前記音声区間について、前記特定のキーワードの発音列の構成単位の個数に応じた次元数を有する、前記隠れマルコフモデルの各状態の遷移回数に応じた特徴量に関する第１のベクトルを取得し、
前記第１のベクトルを、前記特定のキーワードに含まれる構成単位の個数に依存しない次元数を有する、前記遷移回数に応じた特徴量に関する第２のベクトルに変換し、
前記変換後の第２のベクトルに基づいて前記音声区間が正解検出か誤検出かを判定する、
ことを具備するキーワード検出方法。
コンピュータに、
音声信号から、特定のキーワードの発音列の構成単位の特徴をモデル化した隠れマルコフモデルを用いて、前記特定のキーワードに対応する音声区間を検出させる機能と、
前記音声区間について、前記特定のキーワードの発音列の構成単位の個数に応じた次元数を有する、前記隠れマルコフモデルの各状態の遷移回数に応じた特徴量に関する第１のベクトルを取得させる機能と、
前記第１のベクトルを、前記特定のキーワードに含まれる構成単位の個数に依存しない次元数を有する、前記遷移回数に応じた特徴量に関する第２のベクトルに変換させる機能と、
前記変換後の第２のベクトルに基づいて前記音声区間が正解検出か誤検出かを判定させる機能と、
を実現させるキーワード検出プログラム。