JP2017126051A - テンプレート生成装置、テンプレート生成方法、テンプレート生成プログラムおよびフレーズ検知システム - Google Patents

テンプレート生成装置、テンプレート生成方法、テンプレート生成プログラムおよびフレーズ検知システム Download PDF

Info

Publication number
JP2017126051A
JP2017126051A JP2016059970A JP2016059970A JP2017126051A JP 2017126051 A JP2017126051 A JP 2017126051A JP 2016059970 A JP2016059970 A JP 2016059970A JP 2016059970 A JP2016059970 A JP 2016059970A JP 2017126051 A JP2017126051 A JP 2017126051A
Authority
JP
Japan
Prior art keywords
template
phrase
template generation
input
acoustic model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016059970A
Other languages
English (en)
Inventor
雅弘 西光
Masahiro Nishimitsu
雅弘 西光
祥史 大西
Yoshifumi Onishi
祥史 大西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2017126051A publication Critical patent/JP2017126051A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】音声認識誤りが生じる可能性がある音声認識用モデルが用いられる場合に頑健にフレーズを検知するために使用されるテンプレートを生成できるテンプレート生成装置を提供する。【解決手段】テンプレート生成装置30は、音声に含まれる所定のフレーズの検知に使用されるテンプレートを生成するテンプレート生成装置であって、所定のフレーズとノードで構成されるニューラルネットワークに基づいた音響モデルとを入力とし、所定のフレーズを構成する単位の所定のフレーズに対応する音声に出現する確率が音響モデルに入力された時のノードの出力を用いてテンプレートを生成するテンプレート生成手段31を備える。【選択図】図12

Description

本発明は、信号のパターンマッチングに使用されるテンプレートを生成するテンプレート生成装置、テンプレート生成方法、テンプレート生成プログラムおよびフレーズ検知システムに関し、特に音声信号に含まれる特定の単語列(以下、フレーズと呼ぶ。)の検知に使用されるテンプレートを生成するテンプレート生成装置、テンプレート生成方法、テンプレート生成プログラムおよびフレーズ検知システムに関する。
音声信号に含まれるフレーズを検知するための技術が非特許文献1に記載されている。非特許文献1には、音声認識技術を用いて音声信号をシンボル化し、検知目的のフレーズとシンボルをマッチングすることによってフレーズを検知する技術が記載されている。
シンボルは、例えば単語や音素である。また、音声信号がシンボル化されると、例えば、音声信号に含まれる単語列、音素列、またはキーワード列に音声信号が変換される。
非特許文献1には、音声認識技術を用いてフレーズを検知する技術として、3種類の検知技術が記載されている(非特許文献1には、検知技術は“Keyword Spotting: KWS”と記載されている)。3種類の検知技術は、フレーズを検知する際にいずれも認識エンジンを用いて音声信号をシンボル化する(非特許文献1には、認識エンジンはDecoderと記載されている)。
音声信号に含まれるフレーズを検知するための他の技術が、非特許文献2に記載されている“Query-By-Example”と呼ばれる技術である。“Query-By-Example”は、音声認識技術を利用する非特許文献1に記載されている技術と異なり、検知対象の音声信号に含まれるフレーズを検知するために、検知目的のフレーズに関する音声信号を用いる。非特許文献2には、検知目的のフレーズに関する音声信号は“audio snippets”と記載されている。“audio snippets”は、検知対象の音声信号と異なる。
具体的には、“Query-By-Example”は、検知対象の音声信号と、検知目的のフレーズに関する音声信号である“audio snippets”を、DTW(Dynamic Time Warping)に基づいてマッチングすることによって、フレーズを検知する。
Moyal, A., Aharonson, V., Tetariy, E. and Gishri, M., "Phonetic Search Methods for Large Speech Databases," ISBN 978-1-4614-6489-1, 2013, Chapter 2: Keyword Spotting Methods Hazen, T.J., Shen, W. and White, C., "Query-by-example spoken term detection using phonetic posteriorgram templates," Proceeding of ASRU, 2009, pp. 421-426 岡谷貴之著、「深層学習」、講談社、2015年4月7日、Chapter5
非特許文献1に記載されている技術には、検知目的のフレーズとのマッチング処理の前に音声認識誤りが生じるとフレーズが検知されにくいという第1の問題点がある。非特許文献1に記載されている技術で用いられる音声認識技術では、音声認識誤りが発生しやすい。
すなわち、音声認識技術によって音声信号がシンボル化される際に音声認識誤りが発生すると、非特許文献1に記載されている技術は、誤った認識に基づいて生成されたシンボルを用いてフレーズを検知する。使用されるシンボルが正しい認識に基づいて生成されたシンボルではないため、検知目的のフレーズが検知されにくい。
特に、音声認識に用いられるモデルが脆弱なモデルであれば、音声認識誤りが頻繁に発生する。例えば、音声認識用のモデルが学習した音声と認識対象の音声(すなわち、検知対象の音声)が大きく異なる場合、音声認識用のモデルは脆弱なモデルである。音声認識用のモデルが脆弱なモデルであれば、検知目的のフレーズを検知することはさらに困難になる。
音声認識技術が使用されないため、非特許文献2に記載されている技術には第1の問題点がない。代わりに、検知目的のフレーズに関する音声信号、すなわち非特許文献2に記載されている“audio snippets”の準備が面倒という第2の問題点がある。
第2の問題点が存在する理由は、非特許文献2に記載されている技術では、ユーザがフレーズを検知しようとする度に、検知目的のフレーズに関する音声信号をフレーズごとに準備することがユーザに求められるためである。
そこで、本発明は、上述したような問題を解決する、音声認識誤りが生じる可能性がある音声認識用モデルが用いられる場合に頑健にフレーズを検知するために使用されるテンプレートを生成できるテンプレート生成装置、テンプレート生成方法、テンプレート生成プログラム、およびフレーズ検知システムを提供することを目的とする。
本発明によるテンプレート生成装置は、音声に含まれる所定のフレーズの検知に使用されるテンプレートを生成するテンプレート生成装置であって、所定のフレーズとノードで構成されるニューラルネットワークに基づいた音響モデルとを入力とし、所定のフレーズを構成する単位の所定のフレーズに対応する音声に出現する確率が音響モデルに入力された時のノードの出力を用いてテンプレートを生成するテンプレート生成手段を備えることを特徴とする。
本発明によるテンプレート生成方法は、音声に含まれる所定のフレーズの検知に使用されるテンプレートを生成するテンプレート生成装置において実行されるテンプレート生成方法であって、所定のフレーズとノードで構成されるニューラルネットワークに基づいた音響モデルとを入力とし、所定のフレーズを構成する単位の所定のフレーズに対応する音声に出現する確率が音響モデルに入力された時のノードの出力を用いてテンプレートを生成することを特徴とする。
本発明によるテンプレート生成プログラムは、音声に含まれる所定のフレーズの検知に使用されるテンプレートを生成するコンピュータにおいて実行されるテンプレート生成プログラムであって、コンピュータに、所定のフレーズとノードで構成されるニューラルネットワークに基づいた音響モデルとを入力とし、所定のフレーズを構成する単位の所定のフレーズに対応する音声に出現する確率が音響モデルに入力された時のノードの出力を用いてテンプレートを生成する生成処理を実行させることを特徴とする。
本発明によるフレーズ検知システムは、音声に含まれる所定のフレーズの検知に使用されるテンプレートを生成するテンプレート生成装置と、生成されたテンプレートを使用して音声中の所定のフレーズを検知するフレーズ検知装置とを含むフレーズ検知システムであって、テンプレート生成装置は、所定のフレーズとノードで構成されるニューラルネットワークに基づいた音響モデルとを入力とし、所定のフレーズを構成する単位の所定のフレーズに対応する音声に出現する確率が音響モデルに入力された時のノードの出力を用いてテンプレートを生成するテンプレート生成手段を含むことを特徴とする。
本発明によれば、音声認識誤りが生じる可能性がある音声認識用モデルが用いられる場合に頑健にフレーズを検知するために使用されるテンプレートを生成できる。
本発明によるテンプレート生成システム10の第1の実施形態の構成例を示すブロック図である。 記憶手段200に記憶されているニューラルネットワークに基づいた音響モデルの例を示す説明図である。 第1の実施形態のテンプレート生成手段101による生成処理の例を示す説明図である。 第1の実施形態のテンプレート生成装置100による生成処理の動作を示すフローチャートである。 本発明によるテンプレート生成システム10の第2の実施形態の構成例を示すブロック図である。 第2の実施形態のテンプレート生成手段101による生成処理の例を示す説明図である。 第2の実施形態のテンプレート生成装置100による生成処理の動作を示すフローチャートである。 本発明によるテンプレート生成システム10の第3の実施形態の構成例を示すブロック図である。 第3の実施形態のテンプレート生成装置100による生成処理の動作を示すフローチャートである。 本発明によるフレーズ検知システム20の構成例を示すブロック図である。 フレーズ検知システム20による検知処理の動作を示すフローチャートである。 本発明によるテンプレート生成装置の概要を示すブロック図である。 本発明によるフレーズ検知システムの概要を示すブロック図である。
実施形態1.
[構成の説明]
以下、本発明の実施形態を、図面を参照して説明する。図1は、本発明によるテンプレート生成システム10の第1の実施形態の構成例を示すブロック図である。図1に示すように、本実施形態のテンプレート生成システム10は、テンプレート生成装置100と、記憶手段200とを含む。
テンプレート生成装置100は、テンプレート生成手段101を有する。テンプレート生成手段101は、検知目的のフレーズを用いて、フレーズの検知に使用されるテンプレートを生成する機能を有する。
記憶手段200は、ニューラルネットワークに基づいた音響モデルを記憶する機能を有する。ニューラルネットワークに基づいた音響モデルは、シンボル化された音声信号を出力する出力層を有する。
図2は、記憶手段200に記憶されているニューラルネットワークに基づいた音響モデルの例を示す説明図である。図2に示すニューラルネットワークに基づいた音響モデルは、入力層と、中間層と、出力層とで構成される。また、図2に示す円は、各層におけるノードを表す。また、図2に示す直線はリンクを表す。リンクで結ばれたノード同士は結合している。
図2に示す例において、シンボルは音節である。すなわち、図2に示す出力層における各ノードは、各音節にそれぞれ対応する。日本語であれば、およそ一文字のひらがなが1つの音節に対応する。よって、図2に示す出力層には、「あ」〜「ん」のひらがなそれぞれに対応する複数のノードが含まれている。なお、ノードに定義されたシンボルの状態は、前後両方の音素が考慮されたトライフォン(triphone)の状態である場合が多い。
また、図2に示すように、中間層は第1中間層と第2中間層の2層で構成されている。すなわち、図2に示す音響モデルが基づいたニューラルネットワークは、標準的なディープニューラルネットワーク(Deep Neural Network)である。
また、記憶手段200には、音響モデルに入力された音声信号にシンボルが出現している確率(以下、「シンボルらしさ」ともいう。)の計算に用いられるパラメータ類も記憶されている。また、記憶手段200には、音響モデルが学習される際に使用された、ニューラルネットワークに音声データが入力された時の各ノードの入出力値が記憶されてもよい。
ニューラルネットワークに基づいた音響モデルでは、入力される音声信号の情報に関する、ニューラルネットワークの出力層における各ノードに対して定義された各シンボルが識別される性能が最大になるようなパラメータが学習されている。
ニューラルネットワークを構成する各ノードに音声信号が入力されると、出力層における各シンボルにそれぞれ対応する各ノードは、入力された音声信号における各シンボルらしさをそれぞれ出力する。また、出力層における各シンボルにそれぞれ対応する各ノードに対して各シンボルらしさがそれぞれ入力されると、ニューラルネットワークを構成する各ノードは、入力された各シンボルらしさに応じた音声信号の情報をそれぞれ出力する。
入力された音声信号における各シンボルらしさの出力の具体例と、入力された各シンボルらしさに応じた音声信号の情報の出力の具体例を以下に示す。図2に示す音響モデルが基づいたディープニューラルネットワークは、例えば、以下の式で表現される。
u(l+1)=W(l+1)z(l)+b(l+1) ・・・式(1)
z(l+1)=f(u(l+1)) ・・・式(2)
式(1)におけるu(l+1)は、(l+1)層における各ノードの入力が要素である入力ベクトルである。また、W(l+1)は、l層と(l+1)層を接続するリンクの重み行列である。また、b(l+1)は、(l+1)層における各ノードに関するバイアスベクトルである。
また、式(1)におけるz(l)と式(2)におけるz(l+1)はそれぞれ、l層における各ノードの出力が要素である出力ベクトル、(l+1)層における各ノードの出力が要素である出力ベクトルである。また、式(2)におけるfは、各ノードに関する活性化関数である。
図2に示す音響モデルが基づいたディープニューラルネットワークに、音声信号Xが入力される場合を考える。音声信号Xが所定の時間長ごとに分割されることによって、例えば、時刻iに関する音声信号ベクトルxiが得られる。
音声信号ベクトルxiがxi=z(0)として入力層に入力されると、式(1)および式(2)に基づいて、出力層から出力される出力ベクトルyiとしてz(3)が得られる。同様に、第1中間層から出力されるベクトルとしてz(1)が、第2中間層から出力されるベクトルとしてz(2)がそれぞれ得られる。
また、出力層から出力される出力ベクトルyが出力層における各ノードに入力され、式(1)および式(2)の各パラメータが用いられることによって、図2に示す入力層における各ノードの出力が要素である音声信号ベクトルx^が得られる。
具体的には、図2に示す出力層における各ノードに値が入力され、入力層における各ノードが値を出力するニューラルネットワークは、例えば、以下の式で表現される。
u^(l)=f^(z^(l)) ・・・式(3)
z^(l-1)=W^(l-1)u^(l)+b^(l-1) ・・・式(4)
なお、式(3)において、
f^(z^(l-1))=f-1(z^(l-1)) ・・・式(5)
である。また、式(4)において、
W^=W-1, b^=-b ・・・式(6)
である。
出力ベクトルyがy=z^(3)として出力層に入力されると、式(3)〜式(6)に基づいて、入力層における各ノードの出力が要素である音声信号ベクトルx^としてz^(0)が得られる。同様に、第1中間層から出力されるベクトルとしてz^(1)が、第2中間層から出力されるベクトルとしてz^(2)がそれぞれ得られる。
上記の出力ベクトルの例は式(3)〜式(6)で示された表現が用いられた場合の例であるが、出力ベクトルは、他の表現が用いられて算出されてもよい。例えば、出力ベクトルは、非特許文献3に記載されている自己符号化器の技術が用いられて算出されてもよい。
また、例えば、ニューラルネットワークを構成する各ノードの出力が要素であるベクトルz^(l-1)を式(1)および式(2)に入力することによって得られるz^’(l)が用いられて、l層における新たなテンプレートが作成されてもよい。
なお、Wが接続するニューラルネットワークの2つの層に含まれるノードの数が異なる場合、式(6)における逆行列W-1が求められない。W-1が求められない場合、W^に一般化逆行列を利用することが考えられる。
また、活性化関数fに関して、式(5)における逆関数f-1(z^(l-1))が存在しない場合がある。逆関数が存在しないと、式(4)における入力z^(l)に対する出力u^(l)が一意に求まらない。f-1が求められない場合、ニューラルネットワークに基づいた音響モデルが学習された際に使用された各ノードの入出力値を利用することによって、出力u^(l)を求めることが考えられる。
例えば、活性化関数fが、以下の式で表現されるソフトマックス関数である場合を想定する。
zi=exp(ui)/Σjexp(uj) ・・・式(7)
なお、式(7)において、ziは出力ベクトルzの一要素、ujは入力ベクトルuの一要素である。式(7)で表現されるソフトマックス関数の逆関数において、入力z^(l)に対する出力u^(l)は一意に求まらない。
上記の場合、例えば、ニューラルネットワークに基づいた音響モデルが学習された際に使用された音声データの入力ベクトルu(l)の平均ノルム内に距離が納まるような出力u^(l)を求めることが考えられる。
また、例えば、活性化関数fが、以下の式で表現される正規化線形関数である場合を想定する。
zi=max(ui, 0) ・・・式(8)
式(8)で表現される正規化線形関数の逆関数において、負の値であるz^iに対するu^iは一意に求まらない。上記の場合、例えば、ニューラルネットワークに基づいた音響モデルが学習された際に使用された音声データの出力ベクトルz(l)のうち、入力z^(l)に類似する1つ以上の出力ベクトルに対応する入力ベクトルu(l)を用いて、出力u^(l)を求めることが考えられる。例えば、入力z^(l)に類似する1つ以上の出力ベクトルz(l)に対応する入力ベクトルu(l)の平均値で構成されるベクトルが、出力u^(l)として求められる。
また、例えば、活性化関数fが、以下の式で表現されるマックスアウト関数である場合を想定する。
zi=maxk uk ・・・式(9)
式(9)で表現されるマックスアウト関数の逆関数において、kが1より大きいとu^iは一意に求まらない。上記の場合、例えば、ニューラルネットワークに基づいた音響モデルが学習された際に使用された音声データの出力ベクトルz(l)のうち、入力z^(l)に類似する1つ以上の出力ベクトルに対応する入力ベクトルu(l)を用いて、出力u^(l)を求めることが考えられる。例えば、正規化線形関数の場合と同様に、入力z^(l)に類似する1つ以上の出力ベクトルz(l)に対応する入力ベクトルu(l)の平均値で構成されるベクトルが、出力u^(l)として求められる。
また、入力z^(l)の一要素であるz^iが、活性化関数fで定義されていないため、z^iに対応するu^iが求まらない場合がある。上記の場合、z^iを活性化関数fで定義されている値に近似または変換することが考えられる。
例えば、活性化関数fが、以下の式で表現される標準シグモイド関数である場合を想定する。
zi=1/(1+exp(-ui)) ・・・式(10)
式(10)における任意の実数uiに対するziの値域は、0<zi<1である。従って、標準シグモイド関数の逆関数であるロジット関数におけるz^iの定義域は0<z^i<1である。ロジット関数において0以下のz^iおよび1以上のz^iは定義されないため、0以下のz^iおよび1以上のz^iに対応するu^iは求まらない。
上記の場合、0以下のz^iを標準シグモイド関数の逆関数で定義されている0より大きい最小値に変換することが考えられる。また、1以上のz^iを標準シグモイド関数の逆関数で定義されている1より小さい最大値に変換することが考えられる。
テンプレート生成手段101は、ニューラルネットワークに基づいた音響モデルと検知目的のフレーズとを入力とし、検知対象の音声信号に含まれる検知目的のフレーズを検知するために使用されるテンプレートを生成する。
以下、本実施形態のテンプレート生成手段101がフレーズとニューラルネットワークに基づいた音響モデルを用いてテンプレートを生成する生成処理の具体例を図3を参照して説明する。図3は、第1の実施形態のテンプレート生成手段101による生成処理の例を示す説明図である。
図3に示す例では、検知目的のフレーズは「こんにちわ」である。上記の通り、出力層にはひらがなそれぞれに対応する複数のノードが含まれているため、フレーズ「こんにちわ」を構成する各文字に対応する各ノードが、ニューラルネットワークに基づいた音響モデルの出力層に存在する。すなわち、「こんにちわ」に対応する音声の各音節を表す各文字が、音響モデルの出力層に存在する各ノードに対応付けられている。
上記の通り、出力層における各ノードに対して各シンボルらしさがそれぞれ入力されると、入力された各シンボルらしさに応じた音声信号の情報が各ノードから出力される。よって、テンプレート生成手段101は、フレーズ「こんにちわ」とニューラルネットワークに基づいた音響モデルを用いて、フレーズ「こんにちわ」に対応する音声の各音節に対応する音声信号の情報をそれぞれ生成できる。
例えば、テンプレート生成手段101が音声「こんにちわ」の音節「こ」に関する音声信号の情報をテンプレートとして生成する場合を考える。テンプレート生成手段101は、出力ベクトルyの「こ」に対応するノードに入力される要素の値を1、残りのノードに入力される要素の値を0にそれぞれ設定する。すなわち、出力ベクトルyは、y=[y=0,y=0,・・・,y=1,・・・,y=0]になる。
出力層における「こ」に対応するノードには、出力ベクトルの要素であるシンボルらしさ、すなわち「こ」らしさとして「1」が入力される。「こ」らしさとして「1」が入力されることは、シンボル「こ」である確率が100%である音声信号の情報を出力する場合、すなわちニューラルネットワークに基づいた音響モデルが想定されるシンボル「こ」の音声信号の情報を出力する場合に対応する。
また、出力層における他のノードには、出力ベクトルの要素であるシンボルらしさとして「0」が入力される。シンボルらしさとして「0」が入力されることは、シンボル「こ」以外のシンボルである確率が0%である音声信号の情報を出力する場合、すなわちニューラルネットワークに基づいた音響モデルが想定されるシンボル「こ」以外のシンボルの情報が全く含まれない音声信号の情報を出力する場合に対応する。
図3には、各ひらがなの下に位置する括弧内に数字が示されている。数字は、出力層におけるノードに入力されるひらがなのシンボルらしさである。図6においても同様である。図3に示すように、「こ」のシンボルらしさとして「1」が、「こ」以外のひらがなのシンボルらしさとして「0」が、それぞれ対応する各ノードに入力される。
テンプレート生成手段101は、上記の出力ベクトルを出力層に入力した時の、ニューラルネットワークを構成する各ノードの出力が要素であるベクトルz^(l)を、「こ」に関する音声信号のテンプレートにすることができる。
例えば、テンプレート生成手段101は、第2中間層における各ノードの出力が要素であるベクトル、すなわちz^(2)を、「こ」に関するテンプレートtにすることができる。すなわち、本例においてt=z^(2)である。
「こ」に関するテンプレートの生成手順と同様の手順で、テンプレート生成手段101は、「ん」、「に」、「ち」、「わ」それぞれに関するテンプレートtん、tに、tち、tを生成できる。次いで、テンプレート生成手段101は、各音節に関するテンプレートを用いて、「こんにちわ」に関するテンプレート行列、すなわちTこんにちわ=[t,t,t,t,t]を生成できる。以下、フレーズに関するテンプレート行列を、単にフレーズに関するテンプレートと呼ぶ。
なお、テンプレート生成手段101は、上記の手順以外の他の手順でもテンプレートを生成できる。例えば、テンプレート生成手段101は、テンプレートの要素として、第2中間層における各ノードの出力の代わりに、第1中間層における各ノードの出力を用いてもよい。また、テンプレート生成手段101は、第1中間層または第2中間層における全てのノードの出力を用いてもよいし、一部のノードの出力を用いてもよい。
また、音響モデルが基づいたニューラルネットワークに含まれる中間層の数やネットワークの構成は、図2および図3に示す例に限られない。例えば、記憶手段200が記憶する音響モデルが基づいたニューラルネットワークは、中間層の数が2以外のディープニューラルネットワークでもよい。また、音響モデルが基づいたニューラルネットワークは、コンボリューションニューラルネットワーク(Convolution Neural Network)と呼ばれるニューラルネットワーク、またはリカレントニューラルネットワーク(Recurrent Neural Network)と呼ばれるニューラルネットワークでもよい。
[動作の説明]
以下、本実施形態のテンプレート生成装置100の動作を図4を参照して説明する。図4は、第1の実施形態のテンプレート生成装置100による生成処理の動作を示すフローチャートである。
テンプレート生成装置100のテンプレート生成手段101に、検知目的のフレーズが入力される。また、テンプレート生成手段101に、記憶手段200に記憶されているニューラルネットワークに基づいた音響モデルが入力される(ステップS11)。
次いで、テンプレート生成手段101は、入力されたニューラルネットワークに基づいた音響モデルと検知目的のフレーズを用いて、検知目的のフレーズに関するテンプレートを生成する(ステップS12)。テンプレート生成手段101がテンプレートを生成する方法は、上記の方法でもよいし、他の方法でもよい。
次いで、テンプレート生成手段101は、生成されたテンプレートを出力する。出力した後、テンプレート生成装置100は、生成処理を終了する。
[効果の説明]
本実施形態のテンプレート生成装置は、検知目的のフレーズとニューラルネットワークに基づいた音響モデルを用いて、検知目的のフレーズに関するテンプレートを生成できる。テンプレート生成装置は、検知対象の音声信号と異なる、フレーズに関する音声信号を用いずにテンプレートを生成できる。
生成されたテンプレートは、音声信号中のフレーズの検知に利用される。生成されたテンプレートは、音声認識誤りが生じる可能性がある場合に、特に音声認識用モデルが脆弱で十分な音声認識精度の確保が困難な場合に、頑健にフレーズを検知するために利用されるテンプレートである。
例えば、上記の例のように、ニューラルネットワークに検知対象の音声信号に関する音声信号ベクトルxiがxi=z(0)として入力されると、式(1)および式(2)に基づいて、ニューラルネットワークのl層における各ノードの出力が要素であるベクトルz(l)が得られる。l層における全てのノードの出力または一部のノードの出力が用いられて、検知対象の音声信号に関するテンプレートが生成される。
生成された検知対象の音声信号に関するテンプレートと、検知目的のフレーズに関するテンプレートがマッチングされることによって、検知対象の音声信号のシンボル化を要することなくフレーズが検知される。
上記の通り、非特許文献1に記載されている技術において、検知対象の音声信号は、出力層における各ノードにそれぞれ対応付けられている各シンボルに変換される。すなわち、変換先のシンボルが誤って認識されると、フレーズが正しく検知されない可能性がある。
本実施形態のテンプレート生成装置が生成するテンプレートは、例えば、テンプレートを構成する各ノードの出力が要素であるベクトルで音声信号を表現する。ベクトルの要素は、中間層における各ノードの出力でもよい。よって、生成されたテンプレートは、出力層における各ノードに対応付けられている各シンボルに混同されやすい複数のシンボルが含まれている状況において、シンボルが用いられる方法以外の方法で音声信号を柔軟に表現できる。
すなわち、音声信号がシンボル化される際に発生する音声認識誤りが原因であるフレーズの検知ミスは生じない。よって、本実施形態のテンプレート生成装置を使用すれば、ユーザは、シンボル化の際に音声認識誤りを発生させやすい音声認識技術を用いる場合であっても、頑健にフレーズを検知できる。
また、本実施形態のテンプレート生成装置は、テンプレートを生成するために検知目的のフレーズに関する音声を要しない。よって、本実施形態のテンプレート生成装置を使用すれば、ユーザは、検知目的のフレーズに関するテンプレートを容易に生成できるため、非特許文献2に記載されている技術を使用した場合に比べて任意のフレーズの検知に要する手間をより省くことができる。
実施形態2.
[構成の説明]
次に、本発明の第2の実施形態を、図面を参照して説明する。図5は、本発明によるテンプレート生成システム10の第2の実施形態の構成例を示すブロック図である。図5に示すように、本実施形態のテンプレート生成システム10は、テンプレート生成装置100と、記憶手段200とを含む。
また、図5に示すように、テンプレート生成装置100は、テンプレート生成手段101と、混合音パラメータ生成手段102とを有する。混合音パラメータ生成手段102以外の図5に示すテンプレート生成システム10の構成は、図1に示すテンプレート生成システム10の構成と同様である。
本実施形態のテンプレート生成手段101が有する機能は、第1の実施形態のテンプレート生成手段101が有する機能と同様である。
混合音パラメータ生成手段102は、入力されるフレーズを構成する複数のシンボルそれぞれが表す音が混合した混合音における、各音の混合度合いを示す混合音パラメータを生成する機能を有する。混合音パラメータが使用されると、生成されるテンプレートは曖昧な音も表現できる。
以下、本実施形態の混合音パラメータ生成手段102が生成した混合音パラメータを用いてテンプレート生成手段101がテンプレートを生成する生成処理の具体例を図6を参照して説明する。図6は、第2の実施形態のテンプレート生成手段101による生成処理の例を示す説明図である。
第1の実施形態で説明した通り、テンプレート生成手段101は、フレーズ「こんにちわ」に対して、「こんにちわ」を構成する各シンボル「こ」、「ん」、「に」、「ち」、「わ」それぞれに関するテンプレートで構成されるTこんにちわ=[t,t,t,t,t]を生成できる。
しかし、フレーズ「こんにちは」を含む音声信号は連続的に変化している。すなわち、音声信号には各シンボルが表す音が混合した音が含まれている。例えば、「こんにちは」の「こん」の部分の音声信号は、「こ」が表す音から「ん」が表す音に連続的に変化している。変化途中の音声信号は、「こ」が表す音と「ん」が表す音が混合した混合音である。
上記のような混合音を表現するために、混合音パラメータ生成手段102は、ニューラルネットワークに基づいた音響モデルの出力層における、各シンボルに対応する各ノードに入力される各シンボルらしさを変化させる混合音パラメータを生成する。
具体的には、混合音パラメータ生成手段102は、例えば「こ」に対応するノードに入力されるシンボルらしさに関する混合音パラメータを「0.5」と算出する。また、混合音パラメータ生成手段102は、「ん」に対応するノードに入力されるシンボルらしさに関する混合音パラメータを「0.5」と算出する。
本実施形態のテンプレート生成手段101は、混合音パラメータ生成手段102が生成した混合音パラメータも用いてテンプレートを生成する。例えば、テンプレート生成手段101は、入力を予定しているシンボルらしさに混合音パラメータを乗じた値をノードに入力する。
例えば、テンプレート生成手段101が音声「こんにちわ」の音節「こ」に関する音声信号の情報を生成するために、「こ」に対応するノードにシンボルらしさとして「1」を入力する予定であるとする。混合音パラメータ生成手段102が算出した「こ」に対応するノードに入力されるシンボルらしさに関する混合音パラメータが「0.5」であるので、テンプレート生成手段101は、「1×0.5=0.5」を「こ」に対応するノードに入力する。
同様に、テンプレート生成手段101は、「1×0.5=0.5」を「ん」に対応するノードに入力する。よって、図6に示すように、本実施形態では「こ」のシンボルらしさとして「0.5」が、「ん」のシンボルらしさとして「0.5」が、結果的にそれぞれ対応する各ノードに入力される。
すなわち、テンプレート生成手段101は、出力層に入力される出力ベクトルyとしてy=[y=0,y=0,・・・,y=0.5,・・・,y=0,y=0.5]を生成する。なお、テンプレート生成手段101は、混合音パラメータ生成手段102が生成した混合音パラメータを直接各シンボルに対応する各ノードに入力してもよい。
各ノードに入力される各シンボルらしさに関する混合音パラメータを用いてテンプレートを生成することによって、テンプレート生成手段101は、「こ」が表す音と「ん」が表す音が半分ずつ混合した音声信号の情報を有するテンプレートtこ:0.5,ん:0.5を生成できる。
なお、混合音パラメータ生成手段102は、上記の手順以外の他の手順でも混合音パラメータを生成できる。例えば、混合音パラメータ生成手段102は、各シンボルが表す音の混同のされやすさに基づいて混合音パラメータを生成してもよい。
また、混合音パラメータ生成手段102は、ニューラルネットワークに基づいた音響モデルが学習される際に使用された音声データに出現する複数のシンボルそれぞれが表す音の混合の度合いに基づいて、混合音パラメータを生成してもよい。
[動作の説明]
以下、本実施形態のテンプレート生成装置100の動作を図7を参照して説明する。図7は、第2の実施形態のテンプレート生成装置100による生成処理の動作を示すフローチャートである。
テンプレート生成装置100の混合音パラメータ生成手段102に、検知目的のフレーズが入力される(ステップS21)。混合音パラメータ生成手段102は、入力された検知目的のフレーズに関する混合音パラメータを生成する(ステップS22)。混合音パラメータ生成手段102が混合音パラメータを生成する方法は、上記の方法でもよいし、他の方法でもよい。
次いで、混合音パラメータ生成手段102は、生成された混合音パラメータをテンプレート生成手段101に入力する。また、テンプレート生成手段101に、検知目的のフレーズと、記憶手段200に記憶されているニューラルネットワークに基づいた音響モデルが入力される(ステップS23)。なお、検知目的のフレーズは、テンプレート生成手段101に入力されなくてもよい。
次いで、テンプレート生成手段101は、入力されたニューラルネットワークに基づいた音響モデルと混合音パラメータを用いて、検知目的のフレーズに関するテンプレートを生成する(ステップS24)。テンプレート生成手段101がテンプレートを生成する方法は、上記の方法でもよいし、他の方法でもよい。
次いで、テンプレート生成手段101は、生成されたテンプレートを出力する。出力した後、テンプレート生成装置100は、生成処理を終了する。
[効果の説明]
本実施形態のテンプレート生成装置は、検知目的のフレーズを構成する複数のシンボルそれぞれが表す音が混合して含まれている音声信号の情報を表すテンプレートを生成できる。その理由は、混合音パラメータ生成手段が入力された検知目的のフレーズに関する混合音パラメータを生成し、テンプレート生成手段が生成された混合音パラメータを用いてテンプレートを生成するためである。
よって、本実施形態のテンプレート生成装置が生成するテンプレートは、例えば、上記の例のように、連続的に変化する音声信号に含まれる混合音を表現できる。また、テンプレートは、例えば、早口や発話スタイルの変化によって生じる発声の怠けに対応する、シンボルが明確に発声されていない音声信号を表現できる。また、テンプレートは、例えば、英語の「あ」と「え」の中間音のような、出力層におけるノードに対応付けられているシンボルで表現されない音声信号も表現できる。
よって、本実施形態のテンプレート生成装置は、入力される多様な音声信号をより現実的に表現するテンプレートを生成できる。本実施形態のテンプレート生成装置が生成したテンプレートを使用した場合、ユーザは、より高精度にフレーズを検知できる。
実施形態3.
[構成の説明]
次に、本発明の第3の実施形態を、図面を参照して説明する。図8は、本発明によるテンプレート生成システム10の第3の実施形態の構成例を示すブロック図である。図8に示すように、本実施形態のテンプレート生成システム10は、テンプレート生成装置100と、記憶手段200とを含む。
また、図8に示すように、テンプレート生成装置100は、テンプレート生成手段101と、生成テンプレート調整手段103とを有する。生成テンプレート調整手段103以外の図8に示すテンプレート生成システム10の構成は、図1に示すテンプレート生成システム10の構成と同様である。なお、本実施形態のテンプレート生成装置100は、混合音パラメータ生成手段102を有していてもよい。
本実施形態のテンプレート生成手段101が有する機能は、第1の実施形態のテンプレート生成手段101が有する機能と同様である。
生成テンプレート調整手段103は、テンプレート生成手段101から入力される生成されたテンプレートを調整する機能を有する。生成テンプレート調整手段103は、各シンボルに関するテンプレートの類似度、または各シンボルが表す音の継続時間長に基づいて生成されたテンプレートを調整する。生成テンプレート調整手段103は、調整されたテンプレートを出力する。
例えば、第1の実施形態で説明した通り、テンプレート生成手段101は、フレーズ「こんにちわ」に対して、「こんにちわ」を構成する各シンボル「こ」、「ん」、「に」、「ち」、「わ」それぞれに関するテンプレートで構成されるTこんにちわ=[t,t,t,t,t]を生成できる。本実施形態のテンプレート生成手段101は、生成されたテンプレートを生成テンプレート調整手段103に入力する。
以下、上記の場合における本実施形態の生成テンプレート調整手段103によるテンプレートを調整する調整処理の具体例を2つ説明する。
第1の例は、検知対象の音声信号を基に生成されたテンプレートの継続時間長とテンプレート生成手段101で生成されたテンプレートの継続時間長との違いを考慮した上でテンプレートを生成する調整処理である。
第2の実施形態で説明した通り、音声信号は連続的に変化している。また、各シンボルに関する音声信号は、所定時間継続している。本実施形態の生成テンプレート調整手段103は、各シンボルに関する音声信号が所定時間継続していることが表現されるように、生成されたテンプレートを調整する。
具体的には、例えば、検知対象の音声信号Xが、Xが所定の時間長ごとに分割された音声信号ベクトルxiを用いて、X=[x1,,xi,,xN]と表現されるとする。また、シンボル「こ」に関する音声信号が音声信号ベクトルx1〜x10に連続して対応しているとする。
上記の場合、生成テンプレート調整手段103は、例えば、Tこんにちわ=[t,t,t,t,t]のtに関して、「こ」に関する音声信号に対応するように、tをx1〜x10の音声信号ベクトルに対応するようにコピーする。すなわち、生成テンプレート調整手段103は、生成されたテンプレートTこんにちわ=[t,t,t,t,t]がTこんにちわ=[tこ,x1,,tこ,x10,t,t,t,t]になるように調整する。
本実施形態の生成テンプレート調整手段103は、高精度なマッチング処理が行われるように、テンプレート生成手段101が生成したシンボル「こ」に関するテンプレートを「こ」に関する音声信号に合わせてコピーする。コピーすることによって、生成テンプレート調整手段103は、検知対象の音声信号を表したテンプレートの継続時間長とテンプレート生成手段101で生成されたテンプレートの継続時間長との違いを考慮した上でシンボル「こ」に関するテンプレートを生成できる。
なお、生成テンプレート調整手段103は、ニューラルネットワークに基づいた音響モデルが学習される際に使用された音声データに出現する各シンボルの継続時間長に基づいて、生成されたテンプレートを調整してもよい。
例えば、生成テンプレート調整手段103は、ニューラルネットワークに基づいた音響モデルが学習される際に使用された音声データに出現するシンボル「こ」の継続時間長の平均値を、所定のフレーズを構成する単位に対応する音声の長さにする。シンボル「こ」の継続時間長の平均値を所定のフレーズを構成する単位に対応する音声の長さにした場合、生成テンプレート調整手段103は、tを継続時間長の平均値分コピーする。
さらに、生成テンプレート調整手段103は、検知対象の音声信号の時間長に基づいて、生成されたテンプレートを調整してもよい。例えば、生成テンプレート調整手段103が各継続時間長の平均値に基づいて「こんにちは」を構成する各シンボルのテンプレートをそれぞれコピーした時に、連結されたテンプレートの継続時間長が検知対象の音声信号の時間長より長くなったとする。
上記の場合、生成テンプレート調整手段103は、連結されたテンプレートの継続時間長が検知対象の音声信号の時間長になるように、連結されたテンプレートを正規化してもよい。
例えば、検知対象の音声信号の時間長がN、「こんにちは」を構成する各シンボルのテンプレートがそれぞれコピーされた後に連結されたテンプレートの継続時間長がMであり、N<Mであるとする。生成テンプレート調整手段103は、コピーする分量を元の分量のN/Mだけにすることによって、連結されたテンプレートの継続時間長を検知対象の音声信号の時間長にすることができる。
以上のように、生成テンプレート調整手段103は、検知対象の音声信号を表したテンプレートの継続時間長とテンプレート生成手段101で生成されたテンプレートの継続時間長との違いを考慮した上でテンプレートを生成できる。
第2の例は、類似する複数のテンプレートを1つのテンプレートに圧縮する調整処理である。具体的には、例えば、フレーズ「こんにちわ」の「ん」に関するテンプレートtと「に」に関するテンプレートtが類似している場合、両シンボルが結合された「んに」に関するテンプレートは冗長なテンプレートである。
上記の場合、生成テンプレート調整手段103は、例えば以下の式(11)に示すように、「ん」に関するテンプレートの各要素の値と「に」に関するテンプレートの各要素の値の平均値が各要素の値である、新しい1つのテンプレートtんにを生成する。
tんに=(t+t)/2 ・・・式(11)
よって、「ん」および「に」の2つのシンボルが、1つのテンプレートtんにで表現される。
なお、生成テンプレート調整手段103は、上記の手順以外の他の手順でも類似する複数のテンプレートを圧縮できる。例えば、生成テンプレート調整手段103は、主成分分析、線形判別分析、特異値分解のいずれかに基づいて類似する複数のテンプレートを圧縮してもよい。
[動作の説明]
以下、本実施形態のテンプレート生成装置100の動作を図9を参照して説明する。図9は、第3の実施形態のテンプレート生成装置100による生成処理の動作を示すフローチャートである。
テンプレート生成装置100のテンプレート生成手段101に、検知目的のフレーズが入力される。また、テンプレート生成手段101に、記憶手段200に記憶されているニューラルネットワークに基づいた音響モデルが入力される(ステップS31)。
次いで、テンプレート生成手段101は、入力されたニューラルネットワークに基づいた音響モデルと検知目的のフレーズを用いて、検知目的のフレーズに関するテンプレートを生成する(ステップS32)。テンプレート生成手段101がテンプレートを生成する方法は、第1の実施形態で説明された方法でもよいし、他の方法でもよい。
次いで、テンプレート生成手段101は、生成されたテンプレートを生成テンプレート調整手段103に入力する(ステップS33)。
次いで、生成テンプレート調整手段103は、入力されたテンプレートを調整することによって、新たなテンプレートを生成する(ステップS34)。生成テンプレート調整手段103は、例えば、各シンボルに関するテンプレートの類似度、または各シンボルが表す音の継続時間長に基づいて入力されたテンプレートを調整する。なお、生成テンプレート調整手段103は、上記の方法以外の他の方法でテンプレートを調整してもよい。
次いで、生成テンプレート調整手段103は、新たに生成されたテンプレートを出力する。出力した後、テンプレート生成装置100は、生成処理を終了する。
[効果の説明]
本実施形態のテンプレート生成装置の生成テンプレート調整手段は、音声信号の各シンボルが表す音の継続時間長を考慮して、生成されたテンプレートを調整する。テンプレート生成手段で生成されたテンプレートの継続時間長と、検知対象の音声信号を基に生成されたテンプレートの継続時間長との違いが考慮されるため、フレーズが高精度に検知される。
また、生成テンプレート調整手段は、シンボルごとに生成された類似する複数のテンプレートを基に、複数のシンボルに関する1つのテンプレートを新たに生成する。すなわち、テンプレート生成手段により生成されたテンプレートのうち余分なテンプレートが削減されるため、マッチング処理がより高速に実行される。
実施形態4.
[構成の説明]
次に、本発明の第4の実施形態を、図面を参照して説明する。図10は、本発明によるフレーズ検知システム20の構成例を示すブロック図である。図10に示すように、本実施形態のフレーズ検知システム20は、テンプレート生成装置100と、記憶手段200と、音声信号用テンプレート生成手段300と、フレーズ検知手段400とを含む。
また、図10に示すように、テンプレート生成装置100は、フレーズ用テンプレート生成手段104を有する。本実施形態のフレーズ用テンプレート生成手段104が有する機能は、第1の実施形態のテンプレート生成手段101が有する機能と同様である。
すなわち、図10に示すテンプレート生成装置100の構成は、図1に示すテンプレート生成装置100の構成と同様である。なお、本実施形態のテンプレート生成装置100は、混合音パラメータ生成手段102や生成テンプレート調整手段103を有していてもよい。
本実施形態のフレーズ用テンプレート生成手段104による生成処理は、第1の実施形態のテンプレート生成手段101による生成処理と同様である。また、本実施形態の記憶手段200が有する機能は、第1の実施形態の記憶手段200が有する機能と同様である。
音声信号用テンプレート生成手段300は、検知対象の音声信号とニューラルネットワークに基づいた音響モデルとを入力として、テンプレートを生成する機能を有する。
図10に示すように、音声信号用テンプレート生成手段300に入力されるニューラルネットワークに基づいた音響モデルは記憶装置200に記憶されている音響モデルである。すなわち、音声信号用テンプレート生成手段300に入力される音響モデルは、フレーズ用テンプレート生成手段104がテンプレートの生成に使用する音響モデルと同一である。
音声信号用テンプレート生成手段300は、ニューラルネットワークに基づいた音響モデルに検知対象の音声信号が入力された時の、ニューラルネットワークを構成する各ノードの出力を用いてテンプレートを生成する。音声信号用テンプレート生成手段300は、フレーズ用テンプレート生成手段104がテンプレートの生成に利用するノードと同一のノードをテンプレートの生成に利用する。
フレーズ用テンプレート生成手段104に合わせてテンプレートを生成するため、音声信号用テンプレート生成手段300は、全てのノードの出力を用いてテンプレートを生成する場合もあるし、一部のノードの出力を用いてテンプレートを生成する場合もある。また、音声信号用テンプレート生成手段300は、各ノードの出力が要素であるテンプレートを生成する場合もある。
例えば、本実施形態の記憶装置200に記憶されているニューラルネットワークに基づいた音響モデルが図2に示すような音響モデルであるとする。検知対象の音声信号は、図2に示す入力層における各ノードに入力される。
フレーズ用テンプレート生成手段104がテンプレートの生成に利用するノードが第2中間層におけるノードであれば、音声信号用テンプレート生成手段300は、検知対象の音声信号が入力された時の第2中間層における各ノードの出力をテンプレートの生成に用いる。
フレーズ検知手段400は、検知対象の音声信号に検知目的のフレーズが含まれるか否かを検知する機能を有する。フレーズ検知手段400は、音声信号用テンプレート生成手段300が生成したテンプレートと、テンプレート生成装置100が生成したテンプレートとを入力とし、入力された両テンプレートをマッチングする。次いで、フレーズ検知手段400は、マッチング処理の結果をフレーズ検知結果として出力する。
例えば、フレーズ検知手段400は、非特許文献2に記載されている方法を用いてフレーズを検知できる。非特許文献2に記載されている方法では、音素単位の“Phonetic Posteriorgram”がテンプレートとして使用されている。
上記のように、本実施形態ではニューラルネットワークを構成する各ノードの出力を用いて生成されたテンプレートが使用される。非特許文献2に記載されている方法で使用されるテンプレートと本実施形態で使用されるテンプレートは異なるが、テンプレートが用いられるマッチング処理の動作自体は同一である。よって、フレーズ検知手段400は、非特許文献2に記載されている方法を用いてマッチング処理を実行できる。
なお、テンプレート生成装置100は、1つのテンプレートを生成してもよいし、複数のテンプレートを生成してもよい。音声信号用テンプレート生成手段300は、テンプレート生成装置100が複数のテンプレートを生成する場合、複数のテンプレートを生成する。複数のテンプレートを組み合わせた上でマッチング処理を実行する場合であっても、フレーズ検知手段400は、非特許文献2に記載されている方法を用いてマッチング処理を実行できる。
なお、フレーズ検知手段400は、非特許文献2に記載されているテンプレート毎に得られるスコアを用いてマッチング処理を実行する方法を用いてもよいし、他の方法を用いてもよい。
例えば、フレーズ検知手段400は、音声信号Xの時刻iに関する音声信号ベクトルxi毎に、マッチング処理に使用される各テンプレートのマッチングスコアの重みを変化させてもよい。
例えば、第1の実施形態に記載されているフレーズ「こんにちわ」の「こ」に関するテンプレートが、第2中間層における各ノードの出力が要素であるベクトルz^(2)と、第1中間層における各ノードの出力が要素であるベクトルz^(1)の2つである場合を想定する。
上記の例において、音声信号ベクトルxiと各テンプレートとのマッチングスコアは、非特許文献2に記載されている方法と同様に内積(dot product)が用いられた場合、具体的には以下の式で表現される。
Score(xi, z^(2)) = xi・z^(2) ・・・式(12)
Score(xi, z^(1)) = xi・z^(1) ・・・式(13)
また、各テンプレートのマッチングスコアが重み付き和として統合されることによって、音声信号ベクトルxiと各テンプレートとのスコアが例えば以下の式で表現される。
Score(xi, z^(1), z^(2)) = αScore(xi, z^(1)) + βScore(xi, z^(2)) ・・・式(14)
なお、式(14)におけるα、βは、各テンプレートのマッチングスコアに関する重みである。α、βは、任意の実数を取り得る。また、αとβが以下の関係式を満たす線形補間が用いられてもよい。
α+β=1 ・・・式(15)
なお、上記の例では第1中間層および第2中間層に関するテンプレートが用いられたが、他の層に関するテンプレートが用いられてもよい。例えば、出力層における各ノードの出力が要素であるベクトルがテンプレートでもよい。また、第1の実施形態に記載されている、第1中間層における一部のノードの出力が要素であるベクトルがテンプレートでもよい。
また、上記のマッチングスコアは、非特許文献2に記載されている方法と同様に内積が用いられて算出されているが、他の方法で算出されてもよい。例えば、フレーズ検知手段400に入力される音声信号ベクトルとテンプレートベクトルの各ノルムで正規化されたコサイン距離が距離測度でもよい。
また、音声信号用テンプレート生成手段300が生成したテンプレートとテンプレート生成装置100が生成したテンプレートの、いずれかのノルムで正規化された値が距離測度でもよい。なお、距離測度は、マッチングスコアに相当する量である。
さらに、フレーズ検知手段400は、線形補間の重みを、出力層における各ノードの出力が要素であるテンプレートに含まれる各ノードの出力を用いて、以下の式で表現されるエントロピーを算出することによって決定してもよい。
-Σzilog(zi) ・・・式(16)
例えば、フレーズ検知手段400は、式(14)における線形補間の重みαを、以下の式で求める。
α = exp(-1×-Σzilog(zi)) ・・・式(17)
αが式(17)で求められる場合、出力層におけるエントロピーが小さいと式(14)におけるScore(xi, z^(1))の重みがScore(xi, z^(2))の重みに比べて大きくなる。また、出力層におけるエントロピーが大きいと式(14)におけるScore(xi, z^(1))の重みがScore(xi, z^(2))の重みに比べて小さくなる。
すなわち、上記の方法では、出力層におけるエントロピーが小さい場合に音声信号ベクトルとz^(1)とのマッチングスコアが重視される。また、出力層におけるエントロピーが大きい場合に音声信号ベクトルとz^(2)とのマッチングスコアが重視される。
通常、ニューラルネットワークに基づいた音響モデルが学習された際に使用された音声データに類似する音声データが音響モデルに入力された時、エントロピーは小さくなる。上記のエントロピーの性質を利用して、フレーズ検知手段400は、線形補間の重みを制御してもよい。フレーズ検知手段400は、音声信号Xの時刻i毎に線形補間の重みを制御できる。
[動作の説明]
以下、本実施形態のフレーズ検知システム20の動作を図11を参照して説明する。図11は、フレーズ検知システム20による検知処理の動作を示すフローチャートである。
音声信号用テンプレート生成手段300に、検知対象の音声信号が入力される。また、音声信号用テンプレート生成手段300に、記憶手段200に記憶されているニューラルネットワークに基づいた音響モデルが入力される(ステップS41)。
また、テンプレート生成装置100のフレーズ用テンプレート生成手段104に、検知目的のフレーズが入力される。また、フレーズ用テンプレート生成手段104に、記憶手段200に記憶されているニューラルネットワークに基づいた音響モデルが入力される(ステップS42)。
次いで、テンプレート生成装置100のフレーズ用テンプレート生成手段104は、入力されたニューラルネットワークに基づいた音響モデルと検知目的のフレーズを用いて、検知目的のフレーズに関するテンプレートを生成する。フレーズ用テンプレート生成手段104がテンプレートを生成する方法は、第1の実施形態で説明された方法でもよいし、他の方法でもよい。
また、音声信号用テンプレート生成手段300は、入力されたニューラルネットワークに基づいた音響モデルと検知対象の音声信号を用いて、検知対象の音声信号に関するテンプレートを生成する(ステップS43)。音声信号用テンプレート生成手段300がテンプレートを生成する方法は、第1の実施形態で説明された方法でもよいし、他の方法でもよい。音声信号用テンプレート生成手段300が生成したテンプレートは、フレーズ用テンプレート生成手段104が生成したテンプレートとマッチングされる。
次いで、音声信号用テンプレート生成手段300は、生成された検知対象の音声信号に関するテンプレートを、フレーズ検知手段400に入力する。また、フレーズ用テンプレート生成手段104は、生成された検知目的のフレーズに関するテンプレートを、フレーズ検知手段400に入力する(ステップS44)。
次いで、フレーズ検知手段400は、入力された検知対象の音声信号に関するテンプレートと検知目的のフレーズに関するテンプレートをマッチングする。フレーズ検知手段400は、マッチング処理の結果をフレーズ検知結果として出力する(ステップS45)。出力した後、フレーズ検知システム20は、検知処理を終了する。
[効果の説明]
本実施形態のフレーズ検知システムは、検知対象の音声信号に関するテンプレートを生成する音声信号用テンプレート生成手段と、テンプレート同士をマッチングすることによってフレーズを検知するフレーズ検知手段とを含む。よって、フレーズ検知システムは、テンプレート生成装置が生成したテンプレートを用いて、検知対象の音声信号に含まれる検知目的のフレーズを検知できる。
本発明によるテンプレート生成装置は、所定のフレーズとニューラルネットワークに基づいた音響モデルを用いてテンプレートを生成する。生成されるテンプレートは、音声信号を誤ってシンボル化する音響モデルが用いられる場合に頑健にフレーズを検知するために使用されるテンプレートである。テンプレート生成装置は、検知対象の音声信号と異なる、所定のフレーズに関する音声信号を使用せずにテンプレートを生成する。
ニューラルネットワークに基づいた音響モデルのパラメータは、ニューラルネットワークの出力層における各ノードに定義された各シンボルが識別される性能が最大になるように学習されたパラメータである。テンプレート生成装置は、ニューラルネットワークに基づいた音響モデルを用いて所定のフレーズを構成する各シンボルに関する特徴量を生成し、生成された特徴量を結合することによって、所定のフレーズの検知に使用されるテンプレートを生成する。所定のフレーズに関するテンプレートを生成することによって、テンプレート生成装置は、以下の効果を奏する。
第1の効果として、ニューラルネットワークに基づいた音響モデルを用いて生成された所定のフレーズに関するテンプレートが用いられるマッチング処理が実行される。上記のマッチング処理が実行されるのであれば、音声認識誤りが頻繁に生じる音響モデルが使用される場合であっても、頑健にフレーズが検知される。
その理由は、検知対象の音声信号がシンボル化されず、マッチング処理が音声認識誤りの影響を受けないためである。よって、音声認識誤りが生じる音響モデルが使用される場合であっても、フレーズの検知のためのマッチング処理が頑健に実行される。
第2の効果として、ユーザが所定のフレーズに関する音声信号を準備せずに済む。その理由は、テンプレート生成装置が所定のフレーズを構成するシンボルとニューラルネットワークに基づいた音響モデルを使用してテンプレートを生成するので、テンプレートの生成のために所定のフレーズに関する音声信号が求められないためである。
なお、各実施形態のテンプレート生成装置100は、例えば、記憶媒体に格納されているプログラムに従って処理を実行するCPU(Central Processing Unit)によって実現される。すなわちテンプレート生成手段101、混合音パラメータ生成手段102、生成テンプレート調整手段103、およびフレーズ用テンプレート生成手段104は、例えば、プログラム制御に従って処理を実行するCPUによって実現される。
また、各実施形態のテンプレート生成装置100における各部は、ハードウェア回路によって実現されてもよい。
次に、本発明の概要を説明する。図12は、本発明によるテンプレート生成装置の概要を示すブロック図である。本発明によるテンプレート生成装置30は、音声に含まれる所定のフレーズの検知に使用されるテンプレートを生成するテンプレート生成装置であって、所定のフレーズとノードで構成されるニューラルネットワークに基づいた音響モデルとを入力とし、所定のフレーズを構成する単位(例えば、シンボル)の所定のフレーズに対応する音声に出現する確率が音響モデルに入力された時のノードの出力を用いてテンプレートを生成するテンプレート生成手段31(例えば、テンプレート生成手段101)を備える。
そのような構成により、テンプレート生成装置は、音声認識誤りが生じる可能性がある音声認識用モデルが用いられる場合に頑健にフレーズを検知するために使用されるテンプレートを生成できる。
また、テンプレート生成手段31は、ノードの出力が要素であるテンプレートを生成してもよい。
そのような構成により、テンプレート生成装置は、ノードの出力が要素であるベクトル、およびベクトルで構成された行列をテンプレートにすることができる。
また、所定のフレーズを構成する単位は、ニューラルネットワークに基づいた音響モデルの出力層における所定のノードに対応付けられてもよい。
そのような構成により、テンプレート生成装置は、標準的なディープニューラルネットワークに基づいた音響モデルを使用できる。
また、テンプレート生成手段31は、ニューラルネットワークに基づいた音響モデルが学習された際に使用された音声データが音響モデルに入力された時のノードへの入力またはノードの出力を用いてテンプレートを生成してもよい。
そのような構成により、テンプレート生成装置は、所定のフレーズに対応する音声に出現する確率を用いて直接テンプレートを生成できない場合であってもテンプレートを生成できる。
また、テンプレート生成手段31は、各ノードへの入力の平均値、最小値、または最大値のいずれか1つを用いてテンプレートを生成してもよい。
また、テンプレート生成手段31は、各ノードの出力の平均値、最小値、または最大値のいずれか1つを用いてテンプレートを生成してもよい。
そのような構成により、テンプレート生成装置は、本来生成されるはずのテンプレートにより類似するテンプレートを生成できる。
また、テンプレート生成装置30は、所定のフレーズに対応する音声に混合して含まれている複数の単位それぞれに対して音声における混合度合いを示す混合音パラメータを決定する混合音パラメータ決定手段(例えば、混合音パラメータ生成手段102)を備え、テンプレート生成手段31は、決定された混合音パラメータを用いてテンプレートを生成してもよい。
そのような構成により、テンプレート生成装置は、より高精度にフレーズを検知するために使用されるテンプレートを生成できる。
また、混合音パラメータ決定手段は、各単位の混同されやすさを各単位の混合度合いに決定してもよい。
また、テンプレート生成装置30は、検知対象の音声に含まれる所定のフレーズを構成する単位に対応する音声の長さを用いてテンプレート生成手段31が生成したテンプレートを加工するテンプレート加工手段(例えば、生成テンプレート調整手段103)を備えてもよい。
そのような構成により、テンプレート生成装置は、検知対象の音声信号を表したテンプレートの継続時間長と、テンプレート生成手段で生成されるテンプレートの継続時間長との違いが考慮された、フレーズが高精度に検知されるテンプレートを生成できる。
また、テンプレート生成装置30は、テンプレート生成手段31が生成した類似の度合いが所定の条件を満たす複数のテンプレートを基に1つのテンプレートを生成する第2テンプレート生成手段(例えば、生成テンプレート調整手段103)を備えてもよい。
そのような構成により、テンプレート生成装置は、マッチング処理に係る時間を短縮できる。
また、第2テンプレート生成手段は、生成された複数のテンプレートを主成分分析、線形判別分析、特異値分解のいずれかを用いて次元圧縮することによって1つのテンプレートを生成してもよい。
図13は、本発明によるフレーズ検知システムの概要を示すブロック図である。本発明によるフレーズ検知システム40は、音声に含まれる所定のフレーズの検知に使用されるテンプレートを生成するテンプレート生成装置50(例えば、テンプレート生成装置100)と、生成されたテンプレートを使用して音声中の所定のフレーズを検知するフレーズ検知装置60とを含むフレーズ検知システムであって、テンプレート生成装置50は、所定のフレーズとノードで構成されるニューラルネットワークに基づいた音響モデルとを入力とし、所定のフレーズを構成する単位(例えば、シンボル)の所定のフレーズに対応する音声に出現する確率が音響モデルに入力された時のノードの出力を用いてテンプレートを生成するテンプレート生成手段51(例えば、フレーズ用テンプレート生成手段104)を含む。
そのような構成により、フレーズ検知システムは、音声認識誤りが生じる可能性がある音声認識用モデルが用いられる場合に頑健にフレーズを検知するために使用されるテンプレートを生成できる。
また、フレーズ検知装置60は、テンプレート生成手段51に入力されたニューラルネットワークに基づいた音響モデルに検知対象の音声を入力することによってテンプレート生成手段51が生成したテンプレートと照合されるテンプレートを生成する照合テンプレート生成手段(例えば、音声信号用テンプレート生成手段300)を含んでもよい。
そのような構成により、フレーズ検知システムは、所定のフレーズに関するテンプレートとの照合用のテンプレートを生成できる。
また、照合テンプレート生成手段は、テンプレート生成手段51が生成するテンプレートの数に応じて照合されるテンプレートを生成してもよい。
そのような構成により、フレーズ検知システムは、生成される照合用のテンプレートの数を照合が適切に行われるように調整できる。
また、フレーズ検知装置60は、テンプレート生成手段51が生成した所定のフレーズに対応するテンプレートと照合テンプレート生成手段が生成したテンプレートを照合する際に検知対象の音声が所定の時間長毎に分割された信号毎にスコアを算出し、算出されたスコアの重み付き和を用いて所定のフレーズを検知する検知手段(例えば、フレーズ検知手段400)を含んでもよい。
そのような構成により、フレーズ検知システムは、テンプレート同士を照合することによってフレーズを検知できる。
また、検知手段は、線形補間が適用された重み付き和を用いて所定のフレーズを検知する。
そのような構成により、フレーズ検知システムは、スコアの重みに線形補間を適用することができる。
また、検知手段は、テンプレート生成手段51が生成した所定のフレーズに対応するテンプレートと照合テンプレート生成手段が生成したテンプレートの内積を計算することによってスコアを算出してもよい。
そのような構成により、フレーズ検知システムは、ベクトルで構成されるテンプレートを基に容易にスコアを算出できる。
また、検知手段は、テンプレートのノルムを用いてスコアを算出してもよい。
そのような構成により、フレーズ検知システムは、ノルムで正規化されたスコアを算出できる。
また、検知手段は、テンプレート生成手段に入力されたニューラルネットワークに基づいた音響モデルに検知対象の音声が入力された時の音響モデルの出力層におけるノードの出力を用いて重み付き和における重みを決定してもよい。
そのような構成により、フレーズ検知システムは、音響モデルの出力層におけるノードの出力を制御することによって、重み付き和における重みを決定できる。
また、検知手段は、音響モデルの出力層におけるノードの出力を用いてエントロピーを計算し、計算されたエントロピーを用いて重み付き和における重みを決定してもよい。
そのような構成により、フレーズ検知システムは、エントロピーを用いて重み付き和における重みを決定できる。
本発明は、音声信号に含まれる所定のフレーズを検知する装置や、音声信号に含まれる所定のフレーズを検知する装置を実現するための処理を実行するCPUを制御するプログラム等に好適に適用可能である。
10 テンプレート生成システム
20、40 フレーズ検知システム
30、50、100 テンプレート生成装置
31、51、101 テンプレート生成手段
60 フレーズ検知装置
102 混合音パラメータ生成手段
103 生成テンプレート調整手段
104 フレーズ用テンプレート生成手段
200 記憶手段
300 音声信号用テンプレート生成手段
400 フレーズ検知手段

Claims (20)

  1. 音声に含まれる所定のフレーズの検知に使用されるテンプレートを生成するテンプレート生成装置であって、
    前記所定のフレーズとノードで構成されるニューラルネットワークに基づいた音響モデルとを入力とし、前記所定のフレーズを構成する単位の前記所定のフレーズに対応する音声に出現する確率が前記音響モデルに入力された時の前記ノードの出力を用いて前記テンプレートを生成するテンプレート生成手段を備える
    ことを特徴とするテンプレート生成装置。
  2. テンプレート生成手段は、ノードの出力が要素であるテンプレートを生成する
    請求項1記載のテンプレート生成装置。
  3. 所定のフレーズを構成する単位は、ニューラルネットワークに基づいた音響モデルの出力層における所定のノードに対応付けられる
    請求項1または請求項2記載のテンプレート生成装置。
  4. テンプレート生成手段は、ニューラルネットワークに基づいた音響モデルが学習された際に使用された音声データが前記音響モデルに入力された時のノードへの入力またはノードの出力を用いてテンプレートを生成する
    請求項1から請求項3のうちのいずれか1項に記載のテンプレート生成装置。
  5. テンプレート生成手段は、各ノードへの入力の平均値、最小値、または最大値のいずれか1つを用いてテンプレートを生成する
    請求項4記載のテンプレート生成装置。
  6. テンプレート生成手段は、各ノードの出力の平均値、最小値、または最大値のいずれか1つを用いてテンプレートを生成する
    請求項4または請求項5記載のテンプレート生成装置。
  7. 所定のフレーズに対応する音声に混合して含まれている複数の単位それぞれに対して前記音声における混合度合いを示す混合音パラメータを決定する混合音パラメータ決定手段を備え、
    テンプレート生成手段は、決定された前記混合音パラメータを用いてテンプレートを生成する
    請求項1から請求項6のうちのいずれか1項に記載のテンプレート生成装置。
  8. 検知対象の音声に含まれる所定のフレーズを構成する単位に対応する音声の長さを用いてテンプレート生成手段が生成したテンプレートを加工するテンプレート加工手段を備える
    請求項1から請求項7のうちのいずれか1項に記載のテンプレート生成装置。
  9. テンプレート生成手段が生成した類似の度合いが所定の条件を満たす複数のテンプレートを基に1つのテンプレートを生成する第2テンプレート生成手段を備える
    請求項1から請求項8のうちのいずれか1項に記載のテンプレート生成装置。
  10. 音声に含まれる所定のフレーズの検知に使用されるテンプレートを生成するテンプレート生成装置において実行されるテンプレート生成方法であって、
    前記所定のフレーズとノードで構成されるニューラルネットワークに基づいた音響モデルとを入力とし、前記所定のフレーズを構成する単位の前記所定のフレーズに対応する音声に出現する確率が前記音響モデルに入力された時の前記ノードの出力を用いて前記テンプレートを生成する
    ことを特徴とするテンプレート生成方法。
  11. 音声に含まれる所定のフレーズの検知に使用されるテンプレートを生成するコンピュータにおいて実行されるテンプレート生成プログラムであって、
    前記コンピュータに、
    前記所定のフレーズとノードで構成されるニューラルネットワークに基づいた音響モデルとを入力とし、前記所定のフレーズを構成する単位の前記所定のフレーズに対応する音声に出現する確率が前記音響モデルに入力された時の前記ノードの出力を用いて前記テンプレートを生成する生成処理
    を実行させるためのテンプレート生成プログラム。
  12. 音声に含まれる所定のフレーズの検知に使用されるテンプレートを生成するテンプレート生成装置と、生成された前記テンプレートを使用して音声中の前記所定のフレーズを検知するフレーズ検知装置とを含むフレーズ検知システムであって、
    前記テンプレート生成装置は、
    前記所定のフレーズとノードで構成されるニューラルネットワークに基づいた音響モデルとを入力とし、前記所定のフレーズを構成する単位の前記所定のフレーズに対応する音声に出現する確率が前記音響モデルに入力された時の前記ノードの出力を用いて前記テンプレートを生成するテンプレート生成手段を含む
    ことを特徴とするフレーズ検知システム。
  13. フレーズ検知装置は、
    テンプレート生成手段に入力されたニューラルネットワークに基づいた音響モデルに検知対象の音声を入力することによって前記テンプレート生成手段が生成した所定のフレーズに対応するテンプレートと照合されるテンプレートを生成する照合テンプレート生成手段を含む
    請求項12記載のフレーズ検知システム。
  14. 照合テンプレート生成手段は、テンプレート生成手段が生成するテンプレートの数に応じて照合されるテンプレートを生成する
    請求項13記載のフレーズ検知システム。
  15. フレーズ検知装置は、
    テンプレート生成手段が生成した所定のフレーズに対応するテンプレートと照合テンプレート生成手段が生成したテンプレートを照合する際に検知対象の音声が所定の時間長毎に分割された信号毎にスコアを算出し、算出された前記スコアの重み付き和を用いて前記所定のフレーズを検知する検知手段を含む
    請求項13または請求項14記載のフレーズ検知システム。
  16. 検知手段は、線形補間が適用された重み付き和を用いて所定のフレーズを検知する
    請求項15記載のフレーズ検知システム。
  17. 検知手段は、テンプレート生成手段が生成した所定のフレーズに対応するテンプレートと照合テンプレート生成手段が生成したテンプレートの内積を計算することによってスコアを算出する
    請求項15または請求項16記載のフレーズ検知システム。
  18. 検知手段は、テンプレートのノルムを用いてスコアを算出する
    請求項15または請求項16記載のフレーズ検知システム。
  19. 検知手段は、テンプレート生成手段に入力されたニューラルネットワークに基づいた音響モデルに検知対象の音声が入力された時の前記音響モデルの出力層におけるノードの出力を用いて重み付き和における重みを決定する
    請求項15から請求項18のうちのいずれか1項に記載のフレーズ検知システム。
  20. 検知手段は、音響モデルの出力層におけるノードの出力を用いてエントロピーを計算し、計算された前記エントロピーを用いて重み付き和における重みを決定する
    請求項19記載のフレーズ検知システム。
JP2016059970A 2016-01-07 2016-03-24 テンプレート生成装置、テンプレート生成方法、テンプレート生成プログラムおよびフレーズ検知システム Pending JP2017126051A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016001432 2016-01-07
JP2016001432 2016-01-07

Publications (1)

Publication Number Publication Date
JP2017126051A true JP2017126051A (ja) 2017-07-20

Family

ID=59364068

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016059970A Pending JP2017126051A (ja) 2016-01-07 2016-03-24 テンプレート生成装置、テンプレート生成方法、テンプレート生成プログラムおよびフレーズ検知システム

Country Status (1)

Country Link
JP (1) JP2017126051A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019053715A (ja) * 2017-09-18 2019-04-04 三星電子株式会社Samsung Electronics Co.,Ltd. Oos文章を生成する方法及びこれを行う装置
WO2019116503A1 (ja) * 2017-12-14 2019-06-20 三菱電機株式会社 光受信装置および光受信方法
CN111145732A (zh) * 2019-12-27 2020-05-12 苏州思必驰信息科技有限公司 多任务语音识别后的处理方法及系统
WO2021144901A1 (ja) * 2020-01-16 2021-07-22 日本電信電話株式会社 音声認識装置、方法及びプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019053715A (ja) * 2017-09-18 2019-04-04 三星電子株式会社Samsung Electronics Co.,Ltd. Oos文章を生成する方法及びこれを行う装置
JP7029351B2 (ja) 2017-09-18 2022-03-03 三星電子株式会社 Oos文章を生成する方法及びこれを行う装置
WO2019116503A1 (ja) * 2017-12-14 2019-06-20 三菱電機株式会社 光受信装置および光受信方法
CN111145732A (zh) * 2019-12-27 2020-05-12 苏州思必驰信息科技有限公司 多任务语音识别后的处理方法及系统
CN111145732B (zh) * 2019-12-27 2022-05-10 思必驰科技股份有限公司 多任务语音识别后的处理方法及系统
WO2021144901A1 (ja) * 2020-01-16 2021-07-22 日本電信電話株式会社 音声認識装置、方法及びプログラム
JPWO2021144901A1 (ja) * 2020-01-16 2021-07-22
JP7294458B2 (ja) 2020-01-16 2023-06-20 日本電信電話株式会社 音声認識装置、方法及びプログラム

Similar Documents

Publication Publication Date Title
AU2019347734B2 (en) Conversational agent pipeline trained on synthetic data
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
KR20230003056A (ko) 비음성 텍스트 및 스피치 합성을 사용한 스피치 인식
US9558741B2 (en) Systems and methods for speech recognition
KR20210146368A (ko) 숫자 시퀀스에 대한 종단 간 자동 음성 인식
JP2016110082A (ja) 言語モデル学習方法及び装置、音声認識方法及び装置
JP6815899B2 (ja) 出力文生成装置、出力文生成方法および出力文生成プログラム
CN110021293B (zh) 语音识别方法及装置、可读存储介质
JP2019159654A (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
CN112669845B (zh) 语音识别结果的校正方法及装置、电子设备、存储介质
JP2017126051A (ja) テンプレート生成装置、テンプレート生成方法、テンプレート生成プログラムおよびフレーズ検知システム
KR20210146089A (ko) 대화 스타일링 서비스를 위한 다중 페르소나 모델 생성 방법 및 이를 이용한 대화 스타일링 방법
JP2010020102A (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
KR20220148245A (ko) 스트리밍 시퀀스 모델에 대한 일관성 예측
KR102152902B1 (ko) 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치
JP7393585B2 (ja) テキスト読み上げのためのWaveNetの自己トレーニング
US10741184B2 (en) Arithmetic operation apparatus, arithmetic operation method, and computer program product
KR20240051176A (ko) 스피치 합성 기반 모델 적응을 통한 스피치 인식 개선하기
JP2024511198A (ja) シーケンスにわたって対照損失を用いる教師ありトレーニングおよび教師なしトレーニング
JP6879521B1 (ja) 多言語音声認識およびテーマ−意義素解析方法および装置
JP6625961B2 (ja) 発音辞書及び音響モデル生成装置、音声認識装置、方法及びプログラム
KR20200120595A (ko) 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
CN112509565A (zh) 语音识别方法、装置、电子设备及可读存储介质
JP2020057129A (ja) 言語識別モデルを用いた発音評価プログラム、装置及び方法
JP7280605B2 (ja) 音声処理装置、および音声処理方法