JP2017126051A

JP2017126051A - テンプレート生成装置、テンプレート生成方法、テンプレート生成プログラムおよびフレーズ検知システム

Info

Publication number: JP2017126051A
Application number: JP2016059970A
Authority: JP
Inventors: 雅弘西光; Masahiro Nishimitsu; 祥史大西; Yoshifumi Onishi
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2016-01-07
Filing date: 2016-03-24
Publication date: 2017-07-20

Abstract

【課題】音声認識誤りが生じる可能性がある音声認識用モデルが用いられる場合に頑健にフレーズを検知するために使用されるテンプレートを生成できるテンプレート生成装置を提供する。【解決手段】テンプレート生成装置３０は、音声に含まれる所定のフレーズの検知に使用されるテンプレートを生成するテンプレート生成装置であって、所定のフレーズとノードで構成されるニューラルネットワークに基づいた音響モデルとを入力とし、所定のフレーズを構成する単位の所定のフレーズに対応する音声に出現する確率が音響モデルに入力された時のノードの出力を用いてテンプレートを生成するテンプレート生成手段３１を備える。【選択図】図１２

Description

本発明は、信号のパターンマッチングに使用されるテンプレートを生成するテンプレート生成装置、テンプレート生成方法、テンプレート生成プログラムおよびフレーズ検知システムに関し、特に音声信号に含まれる特定の単語列（以下、フレーズと呼ぶ。）の検知に使用されるテンプレートを生成するテンプレート生成装置、テンプレート生成方法、テンプレート生成プログラムおよびフレーズ検知システムに関する。

音声信号に含まれるフレーズを検知するための技術が非特許文献１に記載されている。非特許文献１には、音声認識技術を用いて音声信号をシンボル化し、検知目的のフレーズとシンボルをマッチングすることによってフレーズを検知する技術が記載されている。

シンボルは、例えば単語や音素である。また、音声信号がシンボル化されると、例えば、音声信号に含まれる単語列、音素列、またはキーワード列に音声信号が変換される。

非特許文献１には、音声認識技術を用いてフレーズを検知する技術として、３種類の検知技術が記載されている（非特許文献１には、検知技術は“Keyword Spotting: KWS”と記載されている）。３種類の検知技術は、フレーズを検知する際にいずれも認識エンジンを用いて音声信号をシンボル化する（非特許文献１には、認識エンジンはDecoderと記載されている）。

音声信号に含まれるフレーズを検知するための他の技術が、非特許文献２に記載されている“Query-By-Example”と呼ばれる技術である。“Query-By-Example”は、音声認識技術を利用する非特許文献１に記載されている技術と異なり、検知対象の音声信号に含まれるフレーズを検知するために、検知目的のフレーズに関する音声信号を用いる。非特許文献２には、検知目的のフレーズに関する音声信号は“audio snippets”と記載されている。“audio snippets”は、検知対象の音声信号と異なる。

具体的には、“Query-By-Example”は、検知対象の音声信号と、検知目的のフレーズに関する音声信号である“audio snippets”を、DTW(Dynamic Time Warping)に基づいてマッチングすることによって、フレーズを検知する。

Moyal, A., Aharonson, V., Tetariy, E. and Gishri, M., "Phonetic Search Methods for Large Speech Databases," ISBN 978-1-4614-6489-1, 2013, Chapter 2: Keyword Spotting Methods Hazen, T.J., Shen, W. and White, C., "Query-by-example spoken term detection using phonetic posteriorgram templates," Proceeding of ASRU, 2009, pp. 421-426 岡谷貴之著、「深層学習」、講談社、２０１５年４月７日、Chapter5

非特許文献１に記載されている技術には、検知目的のフレーズとのマッチング処理の前に音声認識誤りが生じるとフレーズが検知されにくいという第１の問題点がある。非特許文献１に記載されている技術で用いられる音声認識技術では、音声認識誤りが発生しやすい。

すなわち、音声認識技術によって音声信号がシンボル化される際に音声認識誤りが発生すると、非特許文献１に記載されている技術は、誤った認識に基づいて生成されたシンボルを用いてフレーズを検知する。使用されるシンボルが正しい認識に基づいて生成されたシンボルではないため、検知目的のフレーズが検知されにくい。

特に、音声認識に用いられるモデルが脆弱なモデルであれば、音声認識誤りが頻繁に発生する。例えば、音声認識用のモデルが学習した音声と認識対象の音声（すなわち、検知対象の音声）が大きく異なる場合、音声認識用のモデルは脆弱なモデルである。音声認識用のモデルが脆弱なモデルであれば、検知目的のフレーズを検知することはさらに困難になる。

音声認識技術が使用されないため、非特許文献２に記載されている技術には第１の問題点がない。代わりに、検知目的のフレーズに関する音声信号、すなわち非特許文献２に記載されている“audio snippets”の準備が面倒という第２の問題点がある。

第２の問題点が存在する理由は、非特許文献２に記載されている技術では、ユーザがフレーズを検知しようとする度に、検知目的のフレーズに関する音声信号をフレーズごとに準備することがユーザに求められるためである。

そこで、本発明は、上述したような問題を解決する、音声認識誤りが生じる可能性がある音声認識用モデルが用いられる場合に頑健にフレーズを検知するために使用されるテンプレートを生成できるテンプレート生成装置、テンプレート生成方法、テンプレート生成プログラム、およびフレーズ検知システムを提供することを目的とする。

本発明によるテンプレート生成装置は、音声に含まれる所定のフレーズの検知に使用されるテンプレートを生成するテンプレート生成装置であって、所定のフレーズとノードで構成されるニューラルネットワークに基づいた音響モデルとを入力とし、所定のフレーズを構成する単位の所定のフレーズに対応する音声に出現する確率が音響モデルに入力された時のノードの出力を用いてテンプレートを生成するテンプレート生成手段を備えることを特徴とする。

本発明によるテンプレート生成方法は、音声に含まれる所定のフレーズの検知に使用されるテンプレートを生成するテンプレート生成装置において実行されるテンプレート生成方法であって、所定のフレーズとノードで構成されるニューラルネットワークに基づいた音響モデルとを入力とし、所定のフレーズを構成する単位の所定のフレーズに対応する音声に出現する確率が音響モデルに入力された時のノードの出力を用いてテンプレートを生成することを特徴とする。

本発明によるテンプレート生成プログラムは、音声に含まれる所定のフレーズの検知に使用されるテンプレートを生成するコンピュータにおいて実行されるテンプレート生成プログラムであって、コンピュータに、所定のフレーズとノードで構成されるニューラルネットワークに基づいた音響モデルとを入力とし、所定のフレーズを構成する単位の所定のフレーズに対応する音声に出現する確率が音響モデルに入力された時のノードの出力を用いてテンプレートを生成する生成処理を実行させることを特徴とする。

本発明によるフレーズ検知システムは、音声に含まれる所定のフレーズの検知に使用されるテンプレートを生成するテンプレート生成装置と、生成されたテンプレートを使用して音声中の所定のフレーズを検知するフレーズ検知装置とを含むフレーズ検知システムであって、テンプレート生成装置は、所定のフレーズとノードで構成されるニューラルネットワークに基づいた音響モデルとを入力とし、所定のフレーズを構成する単位の所定のフレーズに対応する音声に出現する確率が音響モデルに入力された時のノードの出力を用いてテンプレートを生成するテンプレート生成手段を含むことを特徴とする。

本発明によれば、音声認識誤りが生じる可能性がある音声認識用モデルが用いられる場合に頑健にフレーズを検知するために使用されるテンプレートを生成できる。

本発明によるテンプレート生成システム１０の第１の実施形態の構成例を示すブロック図である。記憶手段２００に記憶されているニューラルネットワークに基づいた音響モデルの例を示す説明図である。第１の実施形態のテンプレート生成手段１０１による生成処理の例を示す説明図である。第１の実施形態のテンプレート生成装置１００による生成処理の動作を示すフローチャートである。本発明によるテンプレート生成システム１０の第２の実施形態の構成例を示すブロック図である。第２の実施形態のテンプレート生成手段１０１による生成処理の例を示す説明図である。第２の実施形態のテンプレート生成装置１００による生成処理の動作を示すフローチャートである。本発明によるテンプレート生成システム１０の第３の実施形態の構成例を示すブロック図である。第３の実施形態のテンプレート生成装置１００による生成処理の動作を示すフローチャートである。本発明によるフレーズ検知システム２０の構成例を示すブロック図である。フレーズ検知システム２０による検知処理の動作を示すフローチャートである。本発明によるテンプレート生成装置の概要を示すブロック図である。本発明によるフレーズ検知システムの概要を示すブロック図である。

実施形態１．
［構成の説明］
以下、本発明の実施形態を、図面を参照して説明する。図１は、本発明によるテンプレート生成システム１０の第１の実施形態の構成例を示すブロック図である。図１に示すように、本実施形態のテンプレート生成システム１０は、テンプレート生成装置１００と、記憶手段２００とを含む。

テンプレート生成装置１００は、テンプレート生成手段１０１を有する。テンプレート生成手段１０１は、検知目的のフレーズを用いて、フレーズの検知に使用されるテンプレートを生成する機能を有する。

記憶手段２００は、ニューラルネットワークに基づいた音響モデルを記憶する機能を有する。ニューラルネットワークに基づいた音響モデルは、シンボル化された音声信号を出力する出力層を有する。

図２は、記憶手段２００に記憶されているニューラルネットワークに基づいた音響モデルの例を示す説明図である。図２に示すニューラルネットワークに基づいた音響モデルは、入力層と、中間層と、出力層とで構成される。また、図２に示す円は、各層におけるノードを表す。また、図２に示す直線はリンクを表す。リンクで結ばれたノード同士は結合している。

図２に示す例において、シンボルは音節である。すなわち、図２に示す出力層における各ノードは、各音節にそれぞれ対応する。日本語であれば、およそ一文字のひらがなが１つの音節に対応する。よって、図２に示す出力層には、「あ」〜「ん」のひらがなそれぞれに対応する複数のノードが含まれている。なお、ノードに定義されたシンボルの状態は、前後両方の音素が考慮されたトライフォン(triphone)の状態である場合が多い。

また、図２に示すように、中間層は第１中間層と第２中間層の２層で構成されている。すなわち、図２に示す音響モデルが基づいたニューラルネットワークは、標準的なディープニューラルネットワーク(Deep Neural Network)である。

また、記憶手段２００には、音響モデルに入力された音声信号にシンボルが出現している確率（以下、「シンボルらしさ」ともいう。）の計算に用いられるパラメータ類も記憶されている。また、記憶手段２００には、音響モデルが学習される際に使用された、ニューラルネットワークに音声データが入力された時の各ノードの入出力値が記憶されてもよい。

ニューラルネットワークに基づいた音響モデルでは、入力される音声信号の情報に関する、ニューラルネットワークの出力層における各ノードに対して定義された各シンボルが識別される性能が最大になるようなパラメータが学習されている。

ニューラルネットワークを構成する各ノードに音声信号が入力されると、出力層における各シンボルにそれぞれ対応する各ノードは、入力された音声信号における各シンボルらしさをそれぞれ出力する。また、出力層における各シンボルにそれぞれ対応する各ノードに対して各シンボルらしさがそれぞれ入力されると、ニューラルネットワークを構成する各ノードは、入力された各シンボルらしさに応じた音声信号の情報をそれぞれ出力する。

入力された音声信号における各シンボルらしさの出力の具体例と、入力された各シンボルらしさに応じた音声信号の情報の出力の具体例を以下に示す。図２に示す音響モデルが基づいたディープニューラルネットワークは、例えば、以下の式で表現される。

u^(l+1)=W^(l+1)z^(l)+b^(l+1) ・・・式（１）
z^(l+1)=f(u^(l+1)) ・・・式（２）

式（１）におけるu^(l+1)は、(l+1)層における各ノードの入力が要素である入力ベクトルである。また、W^(l+1)は、l層と(l+1)層を接続するリンクの重み行列である。また、b^(l+1)は、(l+1)層における各ノードに関するバイアスベクトルである。

また、式（１）におけるz^(l)と式（２）におけるz^(l+1)はそれぞれ、l層における各ノードの出力が要素である出力ベクトル、(l+1)層における各ノードの出力が要素である出力ベクトルである。また、式（２）におけるfは、各ノードに関する活性化関数である。

図２に示す音響モデルが基づいたディープニューラルネットワークに、音声信号Xが入力される場合を考える。音声信号Xが所定の時間長ごとに分割されることによって、例えば、時刻iに関する音声信号ベクトルx_iが得られる。

音声信号ベクトルx_iがx_i=z⁽⁰⁾として入力層に入力されると、式（１）および式（２）に基づいて、出力層から出力される出力ベクトルy_iとしてz⁽³⁾が得られる。同様に、第１中間層から出力されるベクトルとしてz⁽¹⁾が、第２中間層から出力されるベクトルとしてz⁽²⁾がそれぞれ得られる。

また、出力層から出力される出力ベクトルyが出力層における各ノードに入力され、式（１）および式（２）の各パラメータが用いられることによって、図２に示す入力層における各ノードの出力が要素である音声信号ベクトルx^が得られる。

具体的には、図２に示す出力層における各ノードに値が入力され、入力層における各ノードが値を出力するニューラルネットワークは、例えば、以下の式で表現される。

u^^(l)=f^(z^^(l)) ・・・式（３）
z^^(l-1)=W^^(l-1)u^^(l)+b^^(l-1) ・・・式（４）

なお、式（３）において、

f^(z^^(l-1))=f^-1(z^^(l-1)) ・・・式（５）

である。また、式（４）において、

W^=W^-1, b^=-b ・・・式（６）

である。

出力ベクトルyがy=z^⁽³⁾として出力層に入力されると、式（３）〜式（６）に基づいて、入力層における各ノードの出力が要素である音声信号ベクトルx^としてz^⁽⁰⁾が得られる。同様に、第１中間層から出力されるベクトルとしてz^⁽¹⁾が、第２中間層から出力されるベクトルとしてz^⁽²⁾がそれぞれ得られる。

上記の出力ベクトルの例は式（３）〜式（６）で示された表現が用いられた場合の例であるが、出力ベクトルは、他の表現が用いられて算出されてもよい。例えば、出力ベクトルは、非特許文献３に記載されている自己符号化器の技術が用いられて算出されてもよい。

また、例えば、ニューラルネットワークを構成する各ノードの出力が要素であるベクトルz^^(l-1)を式（１）および式（２）に入力することによって得られるz^^’(l)が用いられて、l層における新たなテンプレートが作成されてもよい。

なお、Wが接続するニューラルネットワークの２つの層に含まれるノードの数が異なる場合、式（６）における逆行列W^-1が求められない。W^-1が求められない場合、W^に一般化逆行列を利用することが考えられる。

また、活性化関数fに関して、式（５）における逆関数f^-1(z^^(l-1))が存在しない場合がある。逆関数が存在しないと、式（４）における入力z^^(l)に対する出力u^^(l)が一意に求まらない。f^-1が求められない場合、ニューラルネットワークに基づいた音響モデルが学習された際に使用された各ノードの入出力値を利用することによって、出力u^^(l)を求めることが考えられる。

例えば、活性化関数fが、以下の式で表現されるソフトマックス関数である場合を想定する。

z_i=exp(u_i)/Σ_jexp(u_j) ・・・式（７）

なお、式（７）において、z_iは出力ベクトルzの一要素、u_jは入力ベクトルuの一要素である。式（７）で表現されるソフトマックス関数の逆関数において、入力z^^(l)に対する出力u^^(l)は一意に求まらない。

上記の場合、例えば、ニューラルネットワークに基づいた音響モデルが学習された際に使用された音声データの入力ベクトルu^(l)の平均ノルム内に距離が納まるような出力u^^(l)を求めることが考えられる。

また、例えば、活性化関数fが、以下の式で表現される正規化線形関数である場合を想定する。

z_i=max(u_i, 0) ・・・式（８）

式（８）で表現される正規化線形関数の逆関数において、負の値であるz^_iに対するu^_iは一意に求まらない。上記の場合、例えば、ニューラルネットワークに基づいた音響モデルが学習された際に使用された音声データの出力ベクトルz^(l)のうち、入力z^^(l)に類似する１つ以上の出力ベクトルに対応する入力ベクトルu^(l)を用いて、出力u^^(l)を求めることが考えられる。例えば、入力z^^(l)に類似する１つ以上の出力ベクトルz^(l)に対応する入力ベクトルu^(l)の平均値で構成されるベクトルが、出力u^^(l)として求められる。

また、例えば、活性化関数fが、以下の式で表現されるマックスアウト関数である場合を想定する。

z_i=max_k u_k ・・・式（９）

式（９）で表現されるマックスアウト関数の逆関数において、kが１より大きいとu^_iは一意に求まらない。上記の場合、例えば、ニューラルネットワークに基づいた音響モデルが学習された際に使用された音声データの出力ベクトルz^(l)のうち、入力z^^(l)に類似する１つ以上の出力ベクトルに対応する入力ベクトルu^(l)を用いて、出力u^^(l)を求めることが考えられる。例えば、正規化線形関数の場合と同様に、入力z^^(l)に類似する１つ以上の出力ベクトルz^(l)に対応する入力ベクトルu^(l)の平均値で構成されるベクトルが、出力u^^(l)として求められる。

また、入力z^^(l)の一要素であるz^_iが、活性化関数fで定義されていないため、z^_iに対応するu^_iが求まらない場合がある。上記の場合、z^_iを活性化関数fで定義されている値に近似または変換することが考えられる。

例えば、活性化関数fが、以下の式で表現される標準シグモイド関数である場合を想定する。

z_i=1/(1+exp(-u_i)) ・・・式（１０）

式（１０）における任意の実数u_iに対するz_iの値域は、0<z_i<1である。従って、標準シグモイド関数の逆関数であるロジット関数におけるz^_iの定義域は0<z^_i<1である。ロジット関数において０以下のz^_iおよび１以上のz^_iは定義されないため、０以下のz^_iおよび１以上のz^_iに対応するu^_iは求まらない。

上記の場合、０以下のz^_iを標準シグモイド関数の逆関数で定義されている０より大きい最小値に変換することが考えられる。また、１以上のz^_iを標準シグモイド関数の逆関数で定義されている１より小さい最大値に変換することが考えられる。

テンプレート生成手段１０１は、ニューラルネットワークに基づいた音響モデルと検知目的のフレーズとを入力とし、検知対象の音声信号に含まれる検知目的のフレーズを検知するために使用されるテンプレートを生成する。

以下、本実施形態のテンプレート生成手段１０１がフレーズとニューラルネットワークに基づいた音響モデルを用いてテンプレートを生成する生成処理の具体例を図３を参照して説明する。図３は、第１の実施形態のテンプレート生成手段１０１による生成処理の例を示す説明図である。

図３に示す例では、検知目的のフレーズは「こんにちわ」である。上記の通り、出力層にはひらがなそれぞれに対応する複数のノードが含まれているため、フレーズ「こんにちわ」を構成する各文字に対応する各ノードが、ニューラルネットワークに基づいた音響モデルの出力層に存在する。すなわち、「こんにちわ」に対応する音声の各音節を表す各文字が、音響モデルの出力層に存在する各ノードに対応付けられている。

上記の通り、出力層における各ノードに対して各シンボルらしさがそれぞれ入力されると、入力された各シンボルらしさに応じた音声信号の情報が各ノードから出力される。よって、テンプレート生成手段１０１は、フレーズ「こんにちわ」とニューラルネットワークに基づいた音響モデルを用いて、フレーズ「こんにちわ」に対応する音声の各音節に対応する音声信号の情報をそれぞれ生成できる。

例えば、テンプレート生成手段１０１が音声「こんにちわ」の音節「こ」に関する音声信号の情報をテンプレートとして生成する場合を考える。テンプレート生成手段１０１は、出力ベクトルyの「こ」に対応するノードに入力される要素の値を１、残りのノードに入力される要素の値を０にそれぞれ設定する。すなわち、出力ベクトルyは、y=[y_あ=0,y_い=0,・・・,y_こ=1,・・・,y_ん=0]になる。

出力層における「こ」に対応するノードには、出力ベクトルの要素であるシンボルらしさ、すなわち「こ」らしさとして「１」が入力される。「こ」らしさとして「１」が入力されることは、シンボル「こ」である確率が１００％である音声信号の情報を出力する場合、すなわちニューラルネットワークに基づいた音響モデルが想定されるシンボル「こ」の音声信号の情報を出力する場合に対応する。

また、出力層における他のノードには、出力ベクトルの要素であるシンボルらしさとして「０」が入力される。シンボルらしさとして「０」が入力されることは、シンボル「こ」以外のシンボルである確率が０％である音声信号の情報を出力する場合、すなわちニューラルネットワークに基づいた音響モデルが想定されるシンボル「こ」以外のシンボルの情報が全く含まれない音声信号の情報を出力する場合に対応する。

図３には、各ひらがなの下に位置する括弧内に数字が示されている。数字は、出力層におけるノードに入力されるひらがなのシンボルらしさである。図６においても同様である。図３に示すように、「こ」のシンボルらしさとして「１」が、「こ」以外のひらがなのシンボルらしさとして「０」が、それぞれ対応する各ノードに入力される。

テンプレート生成手段１０１は、上記の出力ベクトルを出力層に入力した時の、ニューラルネットワークを構成する各ノードの出力が要素であるベクトルz^^(l)を、「こ」に関する音声信号のテンプレートにすることができる。

例えば、テンプレート生成手段１０１は、第２中間層における各ノードの出力が要素であるベクトル、すなわちz^⁽²⁾を、「こ」に関するテンプレートt_こにすることができる。すなわち、本例においてt_こ=z^⁽²⁾である。

「こ」に関するテンプレートの生成手順と同様の手順で、テンプレート生成手段１０１は、「ん」、「に」、「ち」、「わ」それぞれに関するテンプレートt_ん、t_に、t_ち、t_わを生成できる。次いで、テンプレート生成手段１０１は、各音節に関するテンプレートを用いて、「こんにちわ」に関するテンプレート行列、すなわちT_{こんにちわ}=[t_こ,t_ん,t_に,t_ち,t_わ]を生成できる。以下、フレーズに関するテンプレート行列を、単にフレーズに関するテンプレートと呼ぶ。

なお、テンプレート生成手段１０１は、上記の手順以外の他の手順でもテンプレートを生成できる。例えば、テンプレート生成手段１０１は、テンプレートの要素として、第２中間層における各ノードの出力の代わりに、第１中間層における各ノードの出力を用いてもよい。また、テンプレート生成手段１０１は、第１中間層または第２中間層における全てのノードの出力を用いてもよいし、一部のノードの出力を用いてもよい。

また、音響モデルが基づいたニューラルネットワークに含まれる中間層の数やネットワークの構成は、図２および図３に示す例に限られない。例えば、記憶手段２００が記憶する音響モデルが基づいたニューラルネットワークは、中間層の数が２以外のディープニューラルネットワークでもよい。また、音響モデルが基づいたニューラルネットワークは、コンボリューションニューラルネットワーク(Convolution Neural Network)と呼ばれるニューラルネットワーク、またはリカレントニューラルネットワーク(Recurrent Neural Network)と呼ばれるニューラルネットワークでもよい。

［動作の説明］
以下、本実施形態のテンプレート生成装置１００の動作を図４を参照して説明する。図４は、第１の実施形態のテンプレート生成装置１００による生成処理の動作を示すフローチャートである。

テンプレート生成装置１００のテンプレート生成手段１０１に、検知目的のフレーズが入力される。また、テンプレート生成手段１０１に、記憶手段２００に記憶されているニューラルネットワークに基づいた音響モデルが入力される（ステップＳ１１）。

次いで、テンプレート生成手段１０１は、入力されたニューラルネットワークに基づいた音響モデルと検知目的のフレーズを用いて、検知目的のフレーズに関するテンプレートを生成する（ステップＳ１２）。テンプレート生成手段１０１がテンプレートを生成する方法は、上記の方法でもよいし、他の方法でもよい。

次いで、テンプレート生成手段１０１は、生成されたテンプレートを出力する。出力した後、テンプレート生成装置１００は、生成処理を終了する。

［効果の説明］
本実施形態のテンプレート生成装置は、検知目的のフレーズとニューラルネットワークに基づいた音響モデルを用いて、検知目的のフレーズに関するテンプレートを生成できる。テンプレート生成装置は、検知対象の音声信号と異なる、フレーズに関する音声信号を用いずにテンプレートを生成できる。

生成されたテンプレートは、音声信号中のフレーズの検知に利用される。生成されたテンプレートは、音声認識誤りが生じる可能性がある場合に、特に音声認識用モデルが脆弱で十分な音声認識精度の確保が困難な場合に、頑健にフレーズを検知するために利用されるテンプレートである。

例えば、上記の例のように、ニューラルネットワークに検知対象の音声信号に関する音声信号ベクトルx_iがx_i=z⁽⁰⁾として入力されると、式（１）および式（２）に基づいて、ニューラルネットワークのl層における各ノードの出力が要素であるベクトルz^(l)が得られる。l層における全てのノードの出力または一部のノードの出力が用いられて、検知対象の音声信号に関するテンプレートが生成される。

生成された検知対象の音声信号に関するテンプレートと、検知目的のフレーズに関するテンプレートがマッチングされることによって、検知対象の音声信号のシンボル化を要することなくフレーズが検知される。

上記の通り、非特許文献１に記載されている技術において、検知対象の音声信号は、出力層における各ノードにそれぞれ対応付けられている各シンボルに変換される。すなわち、変換先のシンボルが誤って認識されると、フレーズが正しく検知されない可能性がある。

本実施形態のテンプレート生成装置が生成するテンプレートは、例えば、テンプレートを構成する各ノードの出力が要素であるベクトルで音声信号を表現する。ベクトルの要素は、中間層における各ノードの出力でもよい。よって、生成されたテンプレートは、出力層における各ノードに対応付けられている各シンボルに混同されやすい複数のシンボルが含まれている状況において、シンボルが用いられる方法以外の方法で音声信号を柔軟に表現できる。

すなわち、音声信号がシンボル化される際に発生する音声認識誤りが原因であるフレーズの検知ミスは生じない。よって、本実施形態のテンプレート生成装置を使用すれば、ユーザは、シンボル化の際に音声認識誤りを発生させやすい音声認識技術を用いる場合であっても、頑健にフレーズを検知できる。

また、本実施形態のテンプレート生成装置は、テンプレートを生成するために検知目的のフレーズに関する音声を要しない。よって、本実施形態のテンプレート生成装置を使用すれば、ユーザは、検知目的のフレーズに関するテンプレートを容易に生成できるため、非特許文献２に記載されている技術を使用した場合に比べて任意のフレーズの検知に要する手間をより省くことができる。

実施形態２．
［構成の説明］
次に、本発明の第２の実施形態を、図面を参照して説明する。図５は、本発明によるテンプレート生成システム１０の第２の実施形態の構成例を示すブロック図である。図５に示すように、本実施形態のテンプレート生成システム１０は、テンプレート生成装置１００と、記憶手段２００とを含む。

また、図５に示すように、テンプレート生成装置１００は、テンプレート生成手段１０１と、混合音パラメータ生成手段１０２とを有する。混合音パラメータ生成手段１０２以外の図５に示すテンプレート生成システム１０の構成は、図１に示すテンプレート生成システム１０の構成と同様である。

本実施形態のテンプレート生成手段１０１が有する機能は、第１の実施形態のテンプレート生成手段１０１が有する機能と同様である。

混合音パラメータ生成手段１０２は、入力されるフレーズを構成する複数のシンボルそれぞれが表す音が混合した混合音における、各音の混合度合いを示す混合音パラメータを生成する機能を有する。混合音パラメータが使用されると、生成されるテンプレートは曖昧な音も表現できる。

以下、本実施形態の混合音パラメータ生成手段１０２が生成した混合音パラメータを用いてテンプレート生成手段１０１がテンプレートを生成する生成処理の具体例を図６を参照して説明する。図６は、第２の実施形態のテンプレート生成手段１０１による生成処理の例を示す説明図である。

第１の実施形態で説明した通り、テンプレート生成手段１０１は、フレーズ「こんにちわ」に対して、「こんにちわ」を構成する各シンボル「こ」、「ん」、「に」、「ち」、「わ」それぞれに関するテンプレートで構成されるT_{こんにちわ}=[t_こ,t_ん,t_に,t_ち,t_わ]を生成できる。

しかし、フレーズ「こんにちは」を含む音声信号は連続的に変化している。すなわち、音声信号には各シンボルが表す音が混合した音が含まれている。例えば、「こんにちは」の「こん」の部分の音声信号は、「こ」が表す音から「ん」が表す音に連続的に変化している。変化途中の音声信号は、「こ」が表す音と「ん」が表す音が混合した混合音である。

上記のような混合音を表現するために、混合音パラメータ生成手段１０２は、ニューラルネットワークに基づいた音響モデルの出力層における、各シンボルに対応する各ノードに入力される各シンボルらしさを変化させる混合音パラメータを生成する。

具体的には、混合音パラメータ生成手段１０２は、例えば「こ」に対応するノードに入力されるシンボルらしさに関する混合音パラメータを「０．５」と算出する。また、混合音パラメータ生成手段１０２は、「ん」に対応するノードに入力されるシンボルらしさに関する混合音パラメータを「０．５」と算出する。

本実施形態のテンプレート生成手段１０１は、混合音パラメータ生成手段１０２が生成した混合音パラメータも用いてテンプレートを生成する。例えば、テンプレート生成手段１０１は、入力を予定しているシンボルらしさに混合音パラメータを乗じた値をノードに入力する。

例えば、テンプレート生成手段１０１が音声「こんにちわ」の音節「こ」に関する音声信号の情報を生成するために、「こ」に対応するノードにシンボルらしさとして「１」を入力する予定であるとする。混合音パラメータ生成手段１０２が算出した「こ」に対応するノードに入力されるシンボルらしさに関する混合音パラメータが「０．５」であるので、テンプレート生成手段１０１は、「１×０．５＝０．５」を「こ」に対応するノードに入力する。

同様に、テンプレート生成手段１０１は、「１×０．５＝０．５」を「ん」に対応するノードに入力する。よって、図６に示すように、本実施形態では「こ」のシンボルらしさとして「０．５」が、「ん」のシンボルらしさとして「０．５」が、結果的にそれぞれ対応する各ノードに入力される。

すなわち、テンプレート生成手段１０１は、出力層に入力される出力ベクトルyとしてy=[y_あ=0,y_い=0,・・・,y_こ=0.5,・・・,y_を=0,y_ん=0.5]を生成する。なお、テンプレート生成手段１０１は、混合音パラメータ生成手段１０２が生成した混合音パラメータを直接各シンボルに対応する各ノードに入力してもよい。

各ノードに入力される各シンボルらしさに関する混合音パラメータを用いてテンプレートを生成することによって、テンプレート生成手段１０１は、「こ」が表す音と「ん」が表す音が半分ずつ混合した音声信号の情報を有するテンプレートt_{こ:0.5,ん:0.5}を生成できる。

なお、混合音パラメータ生成手段１０２は、上記の手順以外の他の手順でも混合音パラメータを生成できる。例えば、混合音パラメータ生成手段１０２は、各シンボルが表す音の混同のされやすさに基づいて混合音パラメータを生成してもよい。

また、混合音パラメータ生成手段１０２は、ニューラルネットワークに基づいた音響モデルが学習される際に使用された音声データに出現する複数のシンボルそれぞれが表す音の混合の度合いに基づいて、混合音パラメータを生成してもよい。

［動作の説明］
以下、本実施形態のテンプレート生成装置１００の動作を図７を参照して説明する。図７は、第２の実施形態のテンプレート生成装置１００による生成処理の動作を示すフローチャートである。

テンプレート生成装置１００の混合音パラメータ生成手段１０２に、検知目的のフレーズが入力される（ステップＳ２１）。混合音パラメータ生成手段１０２は、入力された検知目的のフレーズに関する混合音パラメータを生成する（ステップＳ２２）。混合音パラメータ生成手段１０２が混合音パラメータを生成する方法は、上記の方法でもよいし、他の方法でもよい。

次いで、混合音パラメータ生成手段１０２は、生成された混合音パラメータをテンプレート生成手段１０１に入力する。また、テンプレート生成手段１０１に、検知目的のフレーズと、記憶手段２００に記憶されているニューラルネットワークに基づいた音響モデルが入力される（ステップＳ２３）。なお、検知目的のフレーズは、テンプレート生成手段１０１に入力されなくてもよい。

次いで、テンプレート生成手段１０１は、入力されたニューラルネットワークに基づいた音響モデルと混合音パラメータを用いて、検知目的のフレーズに関するテンプレートを生成する（ステップＳ２４）。テンプレート生成手段１０１がテンプレートを生成する方法は、上記の方法でもよいし、他の方法でもよい。

［効果の説明］
本実施形態のテンプレート生成装置は、検知目的のフレーズを構成する複数のシンボルそれぞれが表す音が混合して含まれている音声信号の情報を表すテンプレートを生成できる。その理由は、混合音パラメータ生成手段が入力された検知目的のフレーズに関する混合音パラメータを生成し、テンプレート生成手段が生成された混合音パラメータを用いてテンプレートを生成するためである。

よって、本実施形態のテンプレート生成装置が生成するテンプレートは、例えば、上記の例のように、連続的に変化する音声信号に含まれる混合音を表現できる。また、テンプレートは、例えば、早口や発話スタイルの変化によって生じる発声の怠けに対応する、シンボルが明確に発声されていない音声信号を表現できる。また、テンプレートは、例えば、英語の「あ」と「え」の中間音のような、出力層におけるノードに対応付けられているシンボルで表現されない音声信号も表現できる。

よって、本実施形態のテンプレート生成装置は、入力される多様な音声信号をより現実的に表現するテンプレートを生成できる。本実施形態のテンプレート生成装置が生成したテンプレートを使用した場合、ユーザは、より高精度にフレーズを検知できる。

実施形態３．
［構成の説明］
次に、本発明の第３の実施形態を、図面を参照して説明する。図８は、本発明によるテンプレート生成システム１０の第３の実施形態の構成例を示すブロック図である。図８に示すように、本実施形態のテンプレート生成システム１０は、テンプレート生成装置１００と、記憶手段２００とを含む。

また、図８に示すように、テンプレート生成装置１００は、テンプレート生成手段１０１と、生成テンプレート調整手段１０３とを有する。生成テンプレート調整手段１０３以外の図８に示すテンプレート生成システム１０の構成は、図１に示すテンプレート生成システム１０の構成と同様である。なお、本実施形態のテンプレート生成装置１００は、混合音パラメータ生成手段１０２を有していてもよい。

生成テンプレート調整手段１０３は、テンプレート生成手段１０１から入力される生成されたテンプレートを調整する機能を有する。生成テンプレート調整手段１０３は、各シンボルに関するテンプレートの類似度、または各シンボルが表す音の継続時間長に基づいて生成されたテンプレートを調整する。生成テンプレート調整手段１０３は、調整されたテンプレートを出力する。

例えば、第１の実施形態で説明した通り、テンプレート生成手段１０１は、フレーズ「こんにちわ」に対して、「こんにちわ」を構成する各シンボル「こ」、「ん」、「に」、「ち」、「わ」それぞれに関するテンプレートで構成されるT_{こんにちわ}=[t_こ,t_ん,t_に,t_ち,t_わ]を生成できる。本実施形態のテンプレート生成手段１０１は、生成されたテンプレートを生成テンプレート調整手段１０３に入力する。

以下、上記の場合における本実施形態の生成テンプレート調整手段１０３によるテンプレートを調整する調整処理の具体例を２つ説明する。

第１の例は、検知対象の音声信号を基に生成されたテンプレートの継続時間長とテンプレート生成手段１０１で生成されたテンプレートの継続時間長との違いを考慮した上でテンプレートを生成する調整処理である。

第２の実施形態で説明した通り、音声信号は連続的に変化している。また、各シンボルに関する音声信号は、所定時間継続している。本実施形態の生成テンプレート調整手段１０３は、各シンボルに関する音声信号が所定時間継続していることが表現されるように、生成されたテンプレートを調整する。

具体的には、例えば、検知対象の音声信号Xが、Xが所定の時間長ごとに分割された音声信号ベクトルx_iを用いて、X=[x₁,_…,x_i,_…,x_N]と表現されるとする。また、シンボル「こ」に関する音声信号が音声信号ベクトルx₁〜x₁₀に連続して対応しているとする。

上記の場合、生成テンプレート調整手段１０３は、例えば、T_{こんにちわ}=[t_こ,t_ん,t_に,t_ち,t_わ]のt_こに関して、「こ」に関する音声信号に対応するように、t_こをx₁〜x₁₀の音声信号ベクトルに対応するようにコピーする。すなわち、生成テンプレート調整手段１０３は、生成されたテンプレートT_{こんにちわ}=[t_こ,t_ん,t_に,t_ち,t_わ]がT_{こんにちわ}=[t_こ,x1,_…,t_こ,x10,t_ん,t_に,t_ち,t_わ]になるように調整する。

本実施形態の生成テンプレート調整手段１０３は、高精度なマッチング処理が行われるように、テンプレート生成手段１０１が生成したシンボル「こ」に関するテンプレートを「こ」に関する音声信号に合わせてコピーする。コピーすることによって、生成テンプレート調整手段１０３は、検知対象の音声信号を表したテンプレートの継続時間長とテンプレート生成手段１０１で生成されたテンプレートの継続時間長との違いを考慮した上でシンボル「こ」に関するテンプレートを生成できる。

なお、生成テンプレート調整手段１０３は、ニューラルネットワークに基づいた音響モデルが学習される際に使用された音声データに出現する各シンボルの継続時間長に基づいて、生成されたテンプレートを調整してもよい。

例えば、生成テンプレート調整手段１０３は、ニューラルネットワークに基づいた音響モデルが学習される際に使用された音声データに出現するシンボル「こ」の継続時間長の平均値を、所定のフレーズを構成する単位に対応する音声の長さにする。シンボル「こ」の継続時間長の平均値を所定のフレーズを構成する単位に対応する音声の長さにした場合、生成テンプレート調整手段１０３は、t_こを継続時間長の平均値分コピーする。

さらに、生成テンプレート調整手段１０３は、検知対象の音声信号の時間長に基づいて、生成されたテンプレートを調整してもよい。例えば、生成テンプレート調整手段１０３が各継続時間長の平均値に基づいて「こんにちは」を構成する各シンボルのテンプレートをそれぞれコピーした時に、連結されたテンプレートの継続時間長が検知対象の音声信号の時間長より長くなったとする。

上記の場合、生成テンプレート調整手段１０３は、連結されたテンプレートの継続時間長が検知対象の音声信号の時間長になるように、連結されたテンプレートを正規化してもよい。

例えば、検知対象の音声信号の時間長がＮ、「こんにちは」を構成する各シンボルのテンプレートがそれぞれコピーされた後に連結されたテンプレートの継続時間長がＭであり、Ｎ＜Ｍであるとする。生成テンプレート調整手段１０３は、コピーする分量を元の分量のＮ／Ｍだけにすることによって、連結されたテンプレートの継続時間長を検知対象の音声信号の時間長にすることができる。

以上のように、生成テンプレート調整手段１０３は、検知対象の音声信号を表したテンプレートの継続時間長とテンプレート生成手段１０１で生成されたテンプレートの継続時間長との違いを考慮した上でテンプレートを生成できる。

第２の例は、類似する複数のテンプレートを１つのテンプレートに圧縮する調整処理である。具体的には、例えば、フレーズ「こんにちわ」の「ん」に関するテンプレートt_んと「に」に関するテンプレートt_にが類似している場合、両シンボルが結合された「んに」に関するテンプレートは冗長なテンプレートである。

上記の場合、生成テンプレート調整手段１０３は、例えば以下の式（１１）に示すように、「ん」に関するテンプレートの各要素の値と「に」に関するテンプレートの各要素の値の平均値が各要素の値である、新しい１つのテンプレートt_んにを生成する。

t_んに=(t_ん+t_に)/2 ・・・式（１１）

よって、「ん」および「に」の２つのシンボルが、１つのテンプレートt_んにで表現される。

なお、生成テンプレート調整手段１０３は、上記の手順以外の他の手順でも類似する複数のテンプレートを圧縮できる。例えば、生成テンプレート調整手段１０３は、主成分分析、線形判別分析、特異値分解のいずれかに基づいて類似する複数のテンプレートを圧縮してもよい。

［動作の説明］
以下、本実施形態のテンプレート生成装置１００の動作を図９を参照して説明する。図９は、第３の実施形態のテンプレート生成装置１００による生成処理の動作を示すフローチャートである。

テンプレート生成装置１００のテンプレート生成手段１０１に、検知目的のフレーズが入力される。また、テンプレート生成手段１０１に、記憶手段２００に記憶されているニューラルネットワークに基づいた音響モデルが入力される（ステップＳ３１）。

次いで、テンプレート生成手段１０１は、入力されたニューラルネットワークに基づいた音響モデルと検知目的のフレーズを用いて、検知目的のフレーズに関するテンプレートを生成する（ステップＳ３２）。テンプレート生成手段１０１がテンプレートを生成する方法は、第１の実施形態で説明された方法でもよいし、他の方法でもよい。

次いで、テンプレート生成手段１０１は、生成されたテンプレートを生成テンプレート調整手段１０３に入力する（ステップＳ３３）。

次いで、生成テンプレート調整手段１０３は、入力されたテンプレートを調整することによって、新たなテンプレートを生成する（ステップＳ３４）。生成テンプレート調整手段１０３は、例えば、各シンボルに関するテンプレートの類似度、または各シンボルが表す音の継続時間長に基づいて入力されたテンプレートを調整する。なお、生成テンプレート調整手段１０３は、上記の方法以外の他の方法でテンプレートを調整してもよい。

次いで、生成テンプレート調整手段１０３は、新たに生成されたテンプレートを出力する。出力した後、テンプレート生成装置１００は、生成処理を終了する。

［効果の説明］
本実施形態のテンプレート生成装置の生成テンプレート調整手段は、音声信号の各シンボルが表す音の継続時間長を考慮して、生成されたテンプレートを調整する。テンプレート生成手段で生成されたテンプレートの継続時間長と、検知対象の音声信号を基に生成されたテンプレートの継続時間長との違いが考慮されるため、フレーズが高精度に検知される。

また、生成テンプレート調整手段は、シンボルごとに生成された類似する複数のテンプレートを基に、複数のシンボルに関する１つのテンプレートを新たに生成する。すなわち、テンプレート生成手段により生成されたテンプレートのうち余分なテンプレートが削減されるため、マッチング処理がより高速に実行される。

実施形態４．
［構成の説明］
次に、本発明の第４の実施形態を、図面を参照して説明する。図１０は、本発明によるフレーズ検知システム２０の構成例を示すブロック図である。図１０に示すように、本実施形態のフレーズ検知システム２０は、テンプレート生成装置１００と、記憶手段２００と、音声信号用テンプレート生成手段３００と、フレーズ検知手段４００とを含む。

また、図１０に示すように、テンプレート生成装置１００は、フレーズ用テンプレート生成手段１０４を有する。本実施形態のフレーズ用テンプレート生成手段１０４が有する機能は、第１の実施形態のテンプレート生成手段１０１が有する機能と同様である。

すなわち、図１０に示すテンプレート生成装置１００の構成は、図１に示すテンプレート生成装置１００の構成と同様である。なお、本実施形態のテンプレート生成装置１００は、混合音パラメータ生成手段１０２や生成テンプレート調整手段１０３を有していてもよい。

本実施形態のフレーズ用テンプレート生成手段１０４による生成処理は、第１の実施形態のテンプレート生成手段１０１による生成処理と同様である。また、本実施形態の記憶手段２００が有する機能は、第１の実施形態の記憶手段２００が有する機能と同様である。

音声信号用テンプレート生成手段３００は、検知対象の音声信号とニューラルネットワークに基づいた音響モデルとを入力として、テンプレートを生成する機能を有する。

図１０に示すように、音声信号用テンプレート生成手段３００に入力されるニューラルネットワークに基づいた音響モデルは記憶装置２００に記憶されている音響モデルである。すなわち、音声信号用テンプレート生成手段３００に入力される音響モデルは、フレーズ用テンプレート生成手段１０４がテンプレートの生成に使用する音響モデルと同一である。

音声信号用テンプレート生成手段３００は、ニューラルネットワークに基づいた音響モデルに検知対象の音声信号が入力された時の、ニューラルネットワークを構成する各ノードの出力を用いてテンプレートを生成する。音声信号用テンプレート生成手段３００は、フレーズ用テンプレート生成手段１０４がテンプレートの生成に利用するノードと同一のノードをテンプレートの生成に利用する。

フレーズ用テンプレート生成手段１０４に合わせてテンプレートを生成するため、音声信号用テンプレート生成手段３００は、全てのノードの出力を用いてテンプレートを生成する場合もあるし、一部のノードの出力を用いてテンプレートを生成する場合もある。また、音声信号用テンプレート生成手段３００は、各ノードの出力が要素であるテンプレートを生成する場合もある。

例えば、本実施形態の記憶装置２００に記憶されているニューラルネットワークに基づいた音響モデルが図２に示すような音響モデルであるとする。検知対象の音声信号は、図２に示す入力層における各ノードに入力される。

フレーズ用テンプレート生成手段１０４がテンプレートの生成に利用するノードが第２中間層におけるノードであれば、音声信号用テンプレート生成手段３００は、検知対象の音声信号が入力された時の第２中間層における各ノードの出力をテンプレートの生成に用いる。

フレーズ検知手段４００は、検知対象の音声信号に検知目的のフレーズが含まれるか否かを検知する機能を有する。フレーズ検知手段４００は、音声信号用テンプレート生成手段３００が生成したテンプレートと、テンプレート生成装置１００が生成したテンプレートとを入力とし、入力された両テンプレートをマッチングする。次いで、フレーズ検知手段４００は、マッチング処理の結果をフレーズ検知結果として出力する。

例えば、フレーズ検知手段４００は、非特許文献２に記載されている方法を用いてフレーズを検知できる。非特許文献２に記載されている方法では、音素単位の“Phonetic Posteriorgram”がテンプレートとして使用されている。

上記のように、本実施形態ではニューラルネットワークを構成する各ノードの出力を用いて生成されたテンプレートが使用される。非特許文献２に記載されている方法で使用されるテンプレートと本実施形態で使用されるテンプレートは異なるが、テンプレートが用いられるマッチング処理の動作自体は同一である。よって、フレーズ検知手段４００は、非特許文献２に記載されている方法を用いてマッチング処理を実行できる。

なお、テンプレート生成装置１００は、１つのテンプレートを生成してもよいし、複数のテンプレートを生成してもよい。音声信号用テンプレート生成手段３００は、テンプレート生成装置１００が複数のテンプレートを生成する場合、複数のテンプレートを生成する。複数のテンプレートを組み合わせた上でマッチング処理を実行する場合であっても、フレーズ検知手段４００は、非特許文献２に記載されている方法を用いてマッチング処理を実行できる。

なお、フレーズ検知手段４００は、非特許文献２に記載されているテンプレート毎に得られるスコアを用いてマッチング処理を実行する方法を用いてもよいし、他の方法を用いてもよい。

例えば、フレーズ検知手段４００は、音声信号Xの時刻iに関する音声信号ベクトルx_i毎に、マッチング処理に使用される各テンプレートのマッチングスコアの重みを変化させてもよい。

例えば、第１の実施形態に記載されているフレーズ「こんにちわ」の「こ」に関するテンプレートが、第２中間層における各ノードの出力が要素であるベクトルz^⁽²⁾と、第１中間層における各ノードの出力が要素であるベクトルz^⁽¹⁾の２つである場合を想定する。

上記の例において、音声信号ベクトルx_iと各テンプレートとのマッチングスコアは、非特許文献２に記載されている方法と同様に内積(dot product)が用いられた場合、具体的には以下の式で表現される。

Score(x_i, z^⁽²⁾) = x_i・z^⁽²⁾ ・・・式（１２）
Score(x_i, z^⁽¹⁾) = x_i・z^⁽¹⁾ ・・・式（１３）

また、各テンプレートのマッチングスコアが重み付き和として統合されることによって、音声信号ベクトルx_iと各テンプレートとのスコアが例えば以下の式で表現される。

Score(x_i, z^⁽¹⁾, z^⁽²⁾) = αScore(x_i, z^⁽¹⁾) + βScore(x_i, z^⁽²⁾) ・・・式（１４）

なお、式（１４）におけるα、βは、各テンプレートのマッチングスコアに関する重みである。α、βは、任意の実数を取り得る。また、αとβが以下の関係式を満たす線形補間が用いられてもよい。

α＋β＝１・・・式（１５）

なお、上記の例では第１中間層および第２中間層に関するテンプレートが用いられたが、他の層に関するテンプレートが用いられてもよい。例えば、出力層における各ノードの出力が要素であるベクトルがテンプレートでもよい。また、第１の実施形態に記載されている、第１中間層における一部のノードの出力が要素であるベクトルがテンプレートでもよい。

また、上記のマッチングスコアは、非特許文献２に記載されている方法と同様に内積が用いられて算出されているが、他の方法で算出されてもよい。例えば、フレーズ検知手段４００に入力される音声信号ベクトルとテンプレートベクトルの各ノルムで正規化されたコサイン距離が距離測度でもよい。

また、音声信号用テンプレート生成手段３００が生成したテンプレートとテンプレート生成装置１００が生成したテンプレートの、いずれかのノルムで正規化された値が距離測度でもよい。なお、距離測度は、マッチングスコアに相当する量である。

さらに、フレーズ検知手段４００は、線形補間の重みを、出力層における各ノードの出力が要素であるテンプレートに含まれる各ノードの出力を用いて、以下の式で表現されるエントロピーを算出することによって決定してもよい。

-Σz_ilog(z_i) ・・・式（１６）

例えば、フレーズ検知手段４００は、式（１４）における線形補間の重みαを、以下の式で求める。

α = exp(-1×-Σz_ilog(z_i)) ・・・式（１７）

αが式（１７）で求められる場合、出力層におけるエントロピーが小さいと式（１４）におけるScore(x_i, z^⁽¹⁾)の重みがScore(x_i, z^⁽²⁾)の重みに比べて大きくなる。また、出力層におけるエントロピーが大きいと式（１４）におけるScore(x_i, z^⁽¹⁾)の重みがScore(x_i, z^⁽²⁾)の重みに比べて小さくなる。

すなわち、上記の方法では、出力層におけるエントロピーが小さい場合に音声信号ベクトルとz^⁽¹⁾とのマッチングスコアが重視される。また、出力層におけるエントロピーが大きい場合に音声信号ベクトルとz^⁽²⁾とのマッチングスコアが重視される。

通常、ニューラルネットワークに基づいた音響モデルが学習された際に使用された音声データに類似する音声データが音響モデルに入力された時、エントロピーは小さくなる。上記のエントロピーの性質を利用して、フレーズ検知手段４００は、線形補間の重みを制御してもよい。フレーズ検知手段４００は、音声信号Xの時刻i毎に線形補間の重みを制御できる。

［動作の説明］
以下、本実施形態のフレーズ検知システム２０の動作を図１１を参照して説明する。図１１は、フレーズ検知システム２０による検知処理の動作を示すフローチャートである。

音声信号用テンプレート生成手段３００に、検知対象の音声信号が入力される。また、音声信号用テンプレート生成手段３００に、記憶手段２００に記憶されているニューラルネットワークに基づいた音響モデルが入力される（ステップＳ４１）。

また、テンプレート生成装置１００のフレーズ用テンプレート生成手段１０４に、検知目的のフレーズが入力される。また、フレーズ用テンプレート生成手段１０４に、記憶手段２００に記憶されているニューラルネットワークに基づいた音響モデルが入力される（ステップＳ４２）。

次いで、テンプレート生成装置１００のフレーズ用テンプレート生成手段１０４は、入力されたニューラルネットワークに基づいた音響モデルと検知目的のフレーズを用いて、検知目的のフレーズに関するテンプレートを生成する。フレーズ用テンプレート生成手段１０４がテンプレートを生成する方法は、第１の実施形態で説明された方法でもよいし、他の方法でもよい。

また、音声信号用テンプレート生成手段３００は、入力されたニューラルネットワークに基づいた音響モデルと検知対象の音声信号を用いて、検知対象の音声信号に関するテンプレートを生成する（ステップＳ４３）。音声信号用テンプレート生成手段３００がテンプレートを生成する方法は、第１の実施形態で説明された方法でもよいし、他の方法でもよい。音声信号用テンプレート生成手段３００が生成したテンプレートは、フレーズ用テンプレート生成手段１０４が生成したテンプレートとマッチングされる。

次いで、音声信号用テンプレート生成手段３００は、生成された検知対象の音声信号に関するテンプレートを、フレーズ検知手段４００に入力する。また、フレーズ用テンプレート生成手段１０４は、生成された検知目的のフレーズに関するテンプレートを、フレーズ検知手段４００に入力する（ステップＳ４４）。

次いで、フレーズ検知手段４００は、入力された検知対象の音声信号に関するテンプレートと検知目的のフレーズに関するテンプレートをマッチングする。フレーズ検知手段４００は、マッチング処理の結果をフレーズ検知結果として出力する（ステップＳ４５）。出力した後、フレーズ検知システム２０は、検知処理を終了する。

［効果の説明］
本実施形態のフレーズ検知システムは、検知対象の音声信号に関するテンプレートを生成する音声信号用テンプレート生成手段と、テンプレート同士をマッチングすることによってフレーズを検知するフレーズ検知手段とを含む。よって、フレーズ検知システムは、テンプレート生成装置が生成したテンプレートを用いて、検知対象の音声信号に含まれる検知目的のフレーズを検知できる。

本発明によるテンプレート生成装置は、所定のフレーズとニューラルネットワークに基づいた音響モデルを用いてテンプレートを生成する。生成されるテンプレートは、音声信号を誤ってシンボル化する音響モデルが用いられる場合に頑健にフレーズを検知するために使用されるテンプレートである。テンプレート生成装置は、検知対象の音声信号と異なる、所定のフレーズに関する音声信号を使用せずにテンプレートを生成する。

ニューラルネットワークに基づいた音響モデルのパラメータは、ニューラルネットワークの出力層における各ノードに定義された各シンボルが識別される性能が最大になるように学習されたパラメータである。テンプレート生成装置は、ニューラルネットワークに基づいた音響モデルを用いて所定のフレーズを構成する各シンボルに関する特徴量を生成し、生成された特徴量を結合することによって、所定のフレーズの検知に使用されるテンプレートを生成する。所定のフレーズに関するテンプレートを生成することによって、テンプレート生成装置は、以下の効果を奏する。

第１の効果として、ニューラルネットワークに基づいた音響モデルを用いて生成された所定のフレーズに関するテンプレートが用いられるマッチング処理が実行される。上記のマッチング処理が実行されるのであれば、音声認識誤りが頻繁に生じる音響モデルが使用される場合であっても、頑健にフレーズが検知される。

その理由は、検知対象の音声信号がシンボル化されず、マッチング処理が音声認識誤りの影響を受けないためである。よって、音声認識誤りが生じる音響モデルが使用される場合であっても、フレーズの検知のためのマッチング処理が頑健に実行される。

第２の効果として、ユーザが所定のフレーズに関する音声信号を準備せずに済む。その理由は、テンプレート生成装置が所定のフレーズを構成するシンボルとニューラルネットワークに基づいた音響モデルを使用してテンプレートを生成するので、テンプレートの生成のために所定のフレーズに関する音声信号が求められないためである。

なお、各実施形態のテンプレート生成装置１００は、例えば、記憶媒体に格納されているプログラムに従って処理を実行するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）によって実現される。すなわちテンプレート生成手段１０１、混合音パラメータ生成手段１０２、生成テンプレート調整手段１０３、およびフレーズ用テンプレート生成手段１０４は、例えば、プログラム制御に従って処理を実行するＣＰＵによって実現される。

また、各実施形態のテンプレート生成装置１００における各部は、ハードウェア回路によって実現されてもよい。

次に、本発明の概要を説明する。図１２は、本発明によるテンプレート生成装置の概要を示すブロック図である。本発明によるテンプレート生成装置３０は、音声に含まれる所定のフレーズの検知に使用されるテンプレートを生成するテンプレート生成装置であって、所定のフレーズとノードで構成されるニューラルネットワークに基づいた音響モデルとを入力とし、所定のフレーズを構成する単位（例えば、シンボル）の所定のフレーズに対応する音声に出現する確率が音響モデルに入力された時のノードの出力を用いてテンプレートを生成するテンプレート生成手段３１（例えば、テンプレート生成手段１０１）を備える。

そのような構成により、テンプレート生成装置は、音声認識誤りが生じる可能性がある音声認識用モデルが用いられる場合に頑健にフレーズを検知するために使用されるテンプレートを生成できる。

また、テンプレート生成手段３１は、ノードの出力が要素であるテンプレートを生成してもよい。

そのような構成により、テンプレート生成装置は、ノードの出力が要素であるベクトル、およびベクトルで構成された行列をテンプレートにすることができる。

また、所定のフレーズを構成する単位は、ニューラルネットワークに基づいた音響モデルの出力層における所定のノードに対応付けられてもよい。

そのような構成により、テンプレート生成装置は、標準的なディープニューラルネットワークに基づいた音響モデルを使用できる。

また、テンプレート生成手段３１は、ニューラルネットワークに基づいた音響モデルが学習された際に使用された音声データが音響モデルに入力された時のノードへの入力またはノードの出力を用いてテンプレートを生成してもよい。

そのような構成により、テンプレート生成装置は、所定のフレーズに対応する音声に出現する確率を用いて直接テンプレートを生成できない場合であってもテンプレートを生成できる。

また、テンプレート生成手段３１は、各ノードへの入力の平均値、最小値、または最大値のいずれか１つを用いてテンプレートを生成してもよい。

また、テンプレート生成手段３１は、各ノードの出力の平均値、最小値、または最大値のいずれか１つを用いてテンプレートを生成してもよい。

そのような構成により、テンプレート生成装置は、本来生成されるはずのテンプレートにより類似するテンプレートを生成できる。

また、テンプレート生成装置３０は、所定のフレーズに対応する音声に混合して含まれている複数の単位それぞれに対して音声における混合度合いを示す混合音パラメータを決定する混合音パラメータ決定手段（例えば、混合音パラメータ生成手段１０２）を備え、テンプレート生成手段３１は、決定された混合音パラメータを用いてテンプレートを生成してもよい。

そのような構成により、テンプレート生成装置は、より高精度にフレーズを検知するために使用されるテンプレートを生成できる。

また、混合音パラメータ決定手段は、各単位の混同されやすさを各単位の混合度合いに決定してもよい。

また、テンプレート生成装置３０は、検知対象の音声に含まれる所定のフレーズを構成する単位に対応する音声の長さを用いてテンプレート生成手段３１が生成したテンプレートを加工するテンプレート加工手段（例えば、生成テンプレート調整手段１０３）を備えてもよい。

そのような構成により、テンプレート生成装置は、検知対象の音声信号を表したテンプレートの継続時間長と、テンプレート生成手段で生成されるテンプレートの継続時間長との違いが考慮された、フレーズが高精度に検知されるテンプレートを生成できる。

また、テンプレート生成装置３０は、テンプレート生成手段３１が生成した類似の度合いが所定の条件を満たす複数のテンプレートを基に１つのテンプレートを生成する第２テンプレート生成手段（例えば、生成テンプレート調整手段１０３）を備えてもよい。

そのような構成により、テンプレート生成装置は、マッチング処理に係る時間を短縮できる。

また、第２テンプレート生成手段は、生成された複数のテンプレートを主成分分析、線形判別分析、特異値分解のいずれかを用いて次元圧縮することによって１つのテンプレートを生成してもよい。

図１３は、本発明によるフレーズ検知システムの概要を示すブロック図である。本発明によるフレーズ検知システム４０は、音声に含まれる所定のフレーズの検知に使用されるテンプレートを生成するテンプレート生成装置５０（例えば、テンプレート生成装置１００）と、生成されたテンプレートを使用して音声中の所定のフレーズを検知するフレーズ検知装置６０とを含むフレーズ検知システムであって、テンプレート生成装置５０は、所定のフレーズとノードで構成されるニューラルネットワークに基づいた音響モデルとを入力とし、所定のフレーズを構成する単位（例えば、シンボル）の所定のフレーズに対応する音声に出現する確率が音響モデルに入力された時のノードの出力を用いてテンプレートを生成するテンプレート生成手段５１（例えば、フレーズ用テンプレート生成手段１０４）を含む。

そのような構成により、フレーズ検知システムは、音声認識誤りが生じる可能性がある音声認識用モデルが用いられる場合に頑健にフレーズを検知するために使用されるテンプレートを生成できる。

また、フレーズ検知装置６０は、テンプレート生成手段５１に入力されたニューラルネットワークに基づいた音響モデルに検知対象の音声を入力することによってテンプレート生成手段５１が生成したテンプレートと照合されるテンプレートを生成する照合テンプレート生成手段（例えば、音声信号用テンプレート生成手段３００）を含んでもよい。

そのような構成により、フレーズ検知システムは、所定のフレーズに関するテンプレートとの照合用のテンプレートを生成できる。

また、照合テンプレート生成手段は、テンプレート生成手段５１が生成するテンプレートの数に応じて照合されるテンプレートを生成してもよい。

そのような構成により、フレーズ検知システムは、生成される照合用のテンプレートの数を照合が適切に行われるように調整できる。

また、フレーズ検知装置６０は、テンプレート生成手段５１が生成した所定のフレーズに対応するテンプレートと照合テンプレート生成手段が生成したテンプレートを照合する際に検知対象の音声が所定の時間長毎に分割された信号毎にスコアを算出し、算出されたスコアの重み付き和を用いて所定のフレーズを検知する検知手段（例えば、フレーズ検知手段４００）を含んでもよい。

そのような構成により、フレーズ検知システムは、テンプレート同士を照合することによってフレーズを検知できる。

また、検知手段は、線形補間が適用された重み付き和を用いて所定のフレーズを検知する。

そのような構成により、フレーズ検知システムは、スコアの重みに線形補間を適用することができる。

また、検知手段は、テンプレート生成手段５１が生成した所定のフレーズに対応するテンプレートと照合テンプレート生成手段が生成したテンプレートの内積を計算することによってスコアを算出してもよい。

そのような構成により、フレーズ検知システムは、ベクトルで構成されるテンプレートを基に容易にスコアを算出できる。

また、検知手段は、テンプレートのノルムを用いてスコアを算出してもよい。

そのような構成により、フレーズ検知システムは、ノルムで正規化されたスコアを算出できる。

また、検知手段は、テンプレート生成手段に入力されたニューラルネットワークに基づいた音響モデルに検知対象の音声が入力された時の音響モデルの出力層におけるノードの出力を用いて重み付き和における重みを決定してもよい。

そのような構成により、フレーズ検知システムは、音響モデルの出力層におけるノードの出力を制御することによって、重み付き和における重みを決定できる。

また、検知手段は、音響モデルの出力層におけるノードの出力を用いてエントロピーを計算し、計算されたエントロピーを用いて重み付き和における重みを決定してもよい。

そのような構成により、フレーズ検知システムは、エントロピーを用いて重み付き和における重みを決定できる。

本発明は、音声信号に含まれる所定のフレーズを検知する装置や、音声信号に含まれる所定のフレーズを検知する装置を実現するための処理を実行するＣＰＵを制御するプログラム等に好適に適用可能である。

１０テンプレート生成システム
２０、４０フレーズ検知システム
３０、５０、１００テンプレート生成装置
３１、５１、１０１テンプレート生成手段
６０フレーズ検知装置
１０２混合音パラメータ生成手段
１０３生成テンプレート調整手段
１０４フレーズ用テンプレート生成手段
２００記憶手段
３００音声信号用テンプレート生成手段
４００フレーズ検知手段

Claims

音声に含まれる所定のフレーズの検知に使用されるテンプレートを生成するテンプレート生成装置であって、
前記所定のフレーズとノードで構成されるニューラルネットワークに基づいた音響モデルとを入力とし、前記所定のフレーズを構成する単位の前記所定のフレーズに対応する音声に出現する確率が前記音響モデルに入力された時の前記ノードの出力を用いて前記テンプレートを生成するテンプレート生成手段を備える
ことを特徴とするテンプレート生成装置。
テンプレート生成手段は、ノードの出力が要素であるテンプレートを生成する
請求項１記載のテンプレート生成装置。
所定のフレーズを構成する単位は、ニューラルネットワークに基づいた音響モデルの出力層における所定のノードに対応付けられる
請求項１または請求項２記載のテンプレート生成装置。
テンプレート生成手段は、ニューラルネットワークに基づいた音響モデルが学習された際に使用された音声データが前記音響モデルに入力された時のノードへの入力またはノードの出力を用いてテンプレートを生成する
請求項１から請求項３のうちのいずれか１項に記載のテンプレート生成装置。
テンプレート生成手段は、各ノードへの入力の平均値、最小値、または最大値のいずれか１つを用いてテンプレートを生成する
請求項４記載のテンプレート生成装置。
テンプレート生成手段は、各ノードの出力の平均値、最小値、または最大値のいずれか１つを用いてテンプレートを生成する
請求項４または請求項５記載のテンプレート生成装置。
所定のフレーズに対応する音声に混合して含まれている複数の単位それぞれに対して前記音声における混合度合いを示す混合音パラメータを決定する混合音パラメータ決定手段を備え、
テンプレート生成手段は、決定された前記混合音パラメータを用いてテンプレートを生成する
請求項１から請求項６のうちのいずれか１項に記載のテンプレート生成装置。
検知対象の音声に含まれる所定のフレーズを構成する単位に対応する音声の長さを用いてテンプレート生成手段が生成したテンプレートを加工するテンプレート加工手段を備える
請求項１から請求項７のうちのいずれか１項に記載のテンプレート生成装置。
テンプレート生成手段が生成した類似の度合いが所定の条件を満たす複数のテンプレートを基に１つのテンプレートを生成する第２テンプレート生成手段を備える
請求項１から請求項８のうちのいずれか１項に記載のテンプレート生成装置。
音声に含まれる所定のフレーズの検知に使用されるテンプレートを生成するテンプレート生成装置において実行されるテンプレート生成方法であって、
前記所定のフレーズとノードで構成されるニューラルネットワークに基づいた音響モデルとを入力とし、前記所定のフレーズを構成する単位の前記所定のフレーズに対応する音声に出現する確率が前記音響モデルに入力された時の前記ノードの出力を用いて前記テンプレートを生成する
ことを特徴とするテンプレート生成方法。
音声に含まれる所定のフレーズの検知に使用されるテンプレートを生成するコンピュータにおいて実行されるテンプレート生成プログラムであって、
前記コンピュータに、
前記所定のフレーズとノードで構成されるニューラルネットワークに基づいた音響モデルとを入力とし、前記所定のフレーズを構成する単位の前記所定のフレーズに対応する音声に出現する確率が前記音響モデルに入力された時の前記ノードの出力を用いて前記テンプレートを生成する生成処理
を実行させるためのテンプレート生成プログラム。
音声に含まれる所定のフレーズの検知に使用されるテンプレートを生成するテンプレート生成装置と、生成された前記テンプレートを使用して音声中の前記所定のフレーズを検知するフレーズ検知装置とを含むフレーズ検知システムであって、
前記テンプレート生成装置は、
前記所定のフレーズとノードで構成されるニューラルネットワークに基づいた音響モデルとを入力とし、前記所定のフレーズを構成する単位の前記所定のフレーズに対応する音声に出現する確率が前記音響モデルに入力された時の前記ノードの出力を用いて前記テンプレートを生成するテンプレート生成手段を含む
ことを特徴とするフレーズ検知システム。
フレーズ検知装置は、
テンプレート生成手段に入力されたニューラルネットワークに基づいた音響モデルに検知対象の音声を入力することによって前記テンプレート生成手段が生成した所定のフレーズに対応するテンプレートと照合されるテンプレートを生成する照合テンプレート生成手段を含む
請求項１２記載のフレーズ検知システム。
照合テンプレート生成手段は、テンプレート生成手段が生成するテンプレートの数に応じて照合されるテンプレートを生成する
請求項１３記載のフレーズ検知システム。
フレーズ検知装置は、
テンプレート生成手段が生成した所定のフレーズに対応するテンプレートと照合テンプレート生成手段が生成したテンプレートを照合する際に検知対象の音声が所定の時間長毎に分割された信号毎にスコアを算出し、算出された前記スコアの重み付き和を用いて前記所定のフレーズを検知する検知手段を含む
請求項１３または請求項１４記載のフレーズ検知システム。
検知手段は、線形補間が適用された重み付き和を用いて所定のフレーズを検知する
請求項１５記載のフレーズ検知システム。
検知手段は、テンプレート生成手段が生成した所定のフレーズに対応するテンプレートと照合テンプレート生成手段が生成したテンプレートの内積を計算することによってスコアを算出する
請求項１５または請求項１６記載のフレーズ検知システム。
検知手段は、テンプレートのノルムを用いてスコアを算出する
請求項１５または請求項１６記載のフレーズ検知システム。
検知手段は、テンプレート生成手段に入力されたニューラルネットワークに基づいた音響モデルに検知対象の音声が入力された時の前記音響モデルの出力層におけるノードの出力を用いて重み付き和における重みを決定する
請求項１５から請求項１８のうちのいずれか１項に記載のフレーズ検知システム。
検知手段は、音響モデルの出力層におけるノードの出力を用いてエントロピーを計算し、計算された前記エントロピーを用いて重み付き和における重みを決定する
請求項１９記載のフレーズ検知システム。