JP6085538B2

JP6085538B2 - 音響認識装置、音響認識方法、及び音響認識プログラム

Info

Publication number: JP6085538B2
Application number: JP2013181521A
Authority: JP
Inventors: 圭佑中村; 一博中臺
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2013-09-02
Filing date: 2013-09-02
Publication date: 2017-02-22
Anticipated expiration: 2033-09-02
Also published as: US9911436B2; US20150066507A1; JP2015049398A

Description

本発明は、音響認識装置、音響認識方法、及び音響認識プログラムに関する。

音は、人間が発声した音声と、それ以外の音に分けられる。それ以外の音は、一般音と呼ばれ言語情報を有しない。一般音には、機器の動作に伴って発生する動作音、物体同士が接触することによって発生する物音等の環境音や歌詞を伴わない楽音が含まれる。一般音は、音源としての物体、事象、動作状態、等を把握するための手掛かりとして用いられることがある。なお、人間が発生した音声であっても、その音声が表現する言語情報を無視し音源としての物体、事象、状態を識別するために用いられれば、その音声も一般音に含まれることがある。

例えば、特許文献１に記載の監視システムは、複数のマイクによって周囲の音を観測することにより、複数の音源から発せられた音が混合された観測音を表現する信号を取得する。そして、音源毎の分離信号を生成し、雑音除去回路を経て、音認識回路によって音源毎の分離信号によって表現される音が目的の環境音であるか否かを判定する。
また、特許文献２に記載の画像処理装置では、音声データにブラインド音源分離処理を行い、各音源の音声データを抽出し、音源の方向を示す方向データを生成する。また、当該画像処理装置は、各音源の音声が、人の発話ではない環境音であるか否かを判別し、環境音をテキスト化し、テキスト化された環境音に基づいて、環境音を視覚的に提示するエフェクト画像を生成し、コンテンツ画像上にエフェクト画像をオーバーレイする。当該画像処理装置は、環境音をテキスト化する環境音識別部を備える。

特開２００８−２４１９９１号公報特開２０１１−２５０１００号公報

しかしながら、特許文献２に記載の画像処理装置の環境音識別部は、人間が発話した音声について行われる音声認識処理と同様の処理を行う。即ち、当該環境音識別部は、音声データから特徴量を抽出し、音素などの単位毎の音響的な特徴を表す音響モデルを用いてマッチングを行う。他方、一般音は、物体、事象、動作状態などによって特徴（例えば、周波数特性、時間変動、等）が大きく異なり、音素毎の音響的な特徴では説明し切れない。そのため、多様な一般音を認識することができなかった。

本発明は上記の点に鑑みてなされたものであり、多様な一般音を認識することができる音響認識装置、音響認識方法、及び音響認識プログラムを提供する。

（１）本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、音響信号に基づいて音響特徴量を算出する音響特徴量算出部と、音響特徴量と音の構成単位である音ユニットを示すラベルとの対応を示すラベルデータを参照して、前記音響特徴量算出部が算出した音響特徴量に対応するラベルに変換するラベル変換部と、少なくとも１個の音ユニットからなる音ユニット系列を少なくとも１個の音ユニット群に区切る確率を示す区切りデータを参照して、前記ラベル変換部が変換したラベルから形成されるラベル系列が音ユニット群毎に区切られた音ユニット群系列毎の確率を算出し、算出した確率に基づいて選択した音ユニット群系列に対応した音響イベントを、音響イベント毎の音ユニット群系列を示す音響イベントデータを参照して同定する音響同定部と、を備える音響認識装置である。

（２）本発明の他の態様は、（１）の音響認識装置であって、前記ラベルデータは、前記音響特徴量の空間の一部であるクラスタと前記ラベルとの対応を示し、前記音ユニット群に前記音ユニットが現れる頻度の分散が、所定の分散よりも大きいことを特徴とする。

（３）本発明の他の態様は、（１）又は（２）の音響認識装置であって、前記区切りデータは、前記音ユニット群の出現確率と、少なくとも１個の前記音ユニット群が与えられているときに次の音ユニット群の出現確率を示す確率モデルであることを特徴とする。

（４）本発明の他の態様は、（１）から（３）のいずれかの音響認識装置であって、前記音響同定部は、前記選択した音ユニット群系列を形成する音ユニットのうち、クラスタ間の距離が所定の距離よりも小さいクラスタのそれぞれに対応する音ユニットを相互に交換して生成した音ユニット群系列に対応した音響イベントを同定することを特徴とする。

（５）本発明の他の態様は、音響認識装置における音響認識方法において、前記音響認識装置は、音響信号に基づいて音響特徴量を算出する音響特徴量算出過程と、ラベルデータ記憶部に記憶された音響特徴量と音の構成単位である音ユニットを示すラベルとの対応を示すラベルデータを参照して、前記音響特徴量に対応するラベルに変換するラベル変換過程と、区切りデータ記憶部に記憶された少なくとも１個の音ユニットからなる音ユニット系列を少なくとも１個の音ユニット群に区切る確率を示す区切りデータを参照して、前記ラベルから形成されるラベル系列が音ユニット群毎に区切られた音ユニット群系列毎の確率を算出し、算出した確率に基づいて選択した音ユニット群系列に対応した音響イベントを、イベント記憶部に記憶された音響イベント毎の音ユニット群系列を示す音響イベントデータを参照して同定する音響同定過程と、を有する音響認識方法である。

（６）本発明の他の態様は、音響認識装置のコンピュータに、音響信号に基づいて音響特徴量を算出する音響特徴量算出手順、ラベルデータ記憶部に記憶された音響特徴量と音の構成単位である音ユニットを示すラベルとの対応を示すラベルデータを参照して、前記音響特徴量に対応するラベルに変換するラベル変換手順、区切りデータ記憶部に記憶された少なくとも１個の音ユニット音系列を少なくとも１個の音ユニット群に区切る確率を示す区切りデータを参照して、前記ラベルから形成されるラベル系列が音ユニット群毎に区切られた音ユニット群系列毎の確率を算出し、算出した確率に基づいて選択した音ユニット群系列に対応した音響イベントを、イベント記憶部に記憶された音響イベント毎の音ユニット群系列を示す音響イベントデータを参照して同定する音響同定過程手順、を実行させるための音響認識プログラムである。

上述した（１）、（５）又は（６）の構成によれば、入力された音響信号の音響的な特徴は、その時間的な変化を示す音ユニット群毎に区切られた音ユニット群系列で示される。そして、算出した確率に基づいて選択した音ユニット群系列に応じた音響イベントが同定される。そのため、多様な音響的な性質を有する一般音を認識することが可能になる。

上述した（２）の構成によれば、入力された音響信号の音響的な特徴を、音ユニットで十分に表現できるため、一般音の認識率を向上させることができる。

上述した（３）の構成によれば、入力された音響信号に基づいて得られた音ユニット群系列の出現確率を逐次に算出することができるため、処理量を低減し処理の高速化を図ることができる。
上述した（４）の構成によれば、音響的な性質が近似した音ユニット同士を交換して音ユニット群系列の候補が生成されるので、雑音等により入力された音響信号の音響的な特徴が変動しても所望の音響イベントを同定することができる。

本発明の第１の実施形態に係る音響認識装置の構成を示すブロック図である。ラベルデータの例を示す図である。区切りデータの一部の例を示す図である。区切りデータの他の一部の例を示す図である。イベントデータの例を示す図である。本実施形態に係る音響認識処理を示すフローチャートである。本実施形態に係るモデルデータを生成する処理の一例を示すフローチャートである。本実施形態に係る音ユニット候補決定処理を示すフローチャートである。生成されたヒストグラムの一例を示す図である。本実施形態に係る音ユニット決定処理を示すフローチャートである。音響特徴量ベクトルのクラスタの例を示す図である。出現確率の例を示す図である。ＬＤＡ法の概念図である。ＬＤＡ法のグラフィカルモデルを示す。ＮＰＹ過程で生成されるＮＰＹモデルの例を示す図である。本実施形態に係る区切りデータ生成処理を示すフローチャートである。本実施形態に係るモデルデータを生成する処理の変形例を示すフローチャートである。本発明の第２の実施形態に係る音響認識装置の構成を示すブロック図である。音ユニット系列、音ユニット群系列の一例を示す図である。音ユニット系列、音ユニット群系列の他の例を示す図である。平均フレーム正解率の一例を示す図である。平均フレーム正解率の他の例を示す図である。

（第１の実施形態）
以下、図面を参照しながら本発明の第１の実施形態について説明する。
図１は、本実施形態に係る音響認識装置１の構成を示すブロック図である。
音響認識装置１は、音響信号入力部１０１、音響特徴量算出部１０２、ラベルデータ記憶部１０３、ラベル変換部１０４、認識データ出力部１０９、音響同定部１１０、及びモデルデータ生成部１２０を含んで構成される。音響同定部１１０は、区切りデータ記憶部１０５、区切り決定部１０６、イベントデータ記憶部１０７、及びイベントデータ照合部１０８を含んで構成される。

音響信号入力部１０１は、音響認識装置１の外部から入力された音響信号を音響特徴量算出部１０２に出力する。音響信号入力部１０１は、例えば、データ入力インタフェースである。
音響特徴量算出部１０２は、音響信号入力部１０１から入力された音響信号に基づいて予め定めた時間（例えば、３０ｍｓ）のフレーム毎に、その音の物理的な特徴を示す音響特徴量を算出する。音響特徴量算出部１０２が算出する音響特徴量は、例えば、４１次元の音響特徴量ベクトルである。この音響特徴量ベクトルは、１３次のメルスケール対数スペクトル（ＭＳＬＳ：ＭｅｌＳｃａｌｅＬｏｇＳｐｒｃｔｒｕｍ）、１３次のＭＳＬＳの一次回帰係数、１３次のＭＳＬＳの２次回帰係数、パワーの一次差分、及びその２次差分である。ＭＳＬＳは、（ＭＦＣＣ：ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔｓ）を逆離散コサイン変換して算出することができる。ＭＳＬＳやその回帰係数からなる音響特徴量ベクトルを用いることで高い雑音耐性を得ることができる。音響特徴量算出部１０２は、算出した音響特徴量ベクトルをラベル変換部１０４に出力する。

ラベルデータ記憶部１０３には、ラベルとクラスタ重心とを対応づけたデータであるラベルデータが予め記憶されている。ラベルは、音の基本単位である音ユニットを識別する識別データである。音ユニットは、人間が発声した音声の音韻に相当する単位である。クラスタ重心は、音響特徴量ベクトルのベクトル空間における重心であって、各音ユニットのクラスタに属する領域の重心点である。つまり、クラスタ重心は、音響特徴量ベクトルが音ユニット毎のクラスタを判別する際に用いられる係数である。従って、ラベルデータは、音声認識で用いられる音響モデルに相当する。

ラベルデータは、従来から音声認識で用いられた確率モデル、例えば、ＧＭＭ（ＧａｓｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ、混合ガウスモデル）、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ、隠れマルコフモデル）として構成されたデータであってもよい。ＧＭＭは、入力されたデータに対する出力確率を複数（例えば、１６個）の正規分布を基底として重みづけ加算して表す確率モデルである。従って、ＧＭＭは、正規分布毎の混合重み係数（ｍｉｘｔｕｒｅｗｅｉｇｈｔ）、平均値（ｍｅａｎ）、共分散行列（ｃｏｖａｒｉａｎｃｅｍａｔｒｉｘ）といった統計量で規定される。本実施形態では、音響特徴量ベクトルとこれらの統計量との組が音ユニットを示すラベルと対応付けてラベルデータが構成される。

ＨＭＭも、入力されたデータに対する出力確率が複数の正規分布を基底として重み付け加算して表す確率モデルである。ＨＭＭは、正規分布毎の混合重み係数、平均値、共分散行列、遷移確率といった統計量で規定される。本実施形態では、入力された音響特徴量とこれらの統計量との組が音ユニットを示すラベルと対応付けてラベルデータが構成される。
これらの確率モデルでは、入力された音響特徴量ベクトルに対して、各ラベルの出力確率を与えるように事前学習によって統計量を定めておく。事前学習では、例えば、音響特徴量ベクトルがあるクラスタのクラスタ重心となるとき、そのクラスタに係る音ユニットの出力確率が１であって、その他のクラスタに係る音ユニットの出力確率が０となるように統計量を定めておいてもよい。

ラベル変換部１０４は、ラベルデータ記憶部１０３に記憶されたラベルデータを参照して、音響特徴量算出部１０２から入力された音響特徴量ベクトルが属するクラスタを判別し、判別したクラスタに対応するラベルを同定する。但し、ラベルデータがＧＭＭやＨＭＭ等の確率モデルで構成されている場合、ラベル変換部１０４は、ラベルデータを参照して入力された音響特徴量ベクトルに対応する出力確率を算出し、算出した出力確率が最も高いラベルを同定する。

これにより、入力された音響特徴量ベクトルがラベルに変換される。ラベル変換部１０４は、例えば、ラベルデータ記憶部１０３に記憶されたラベルデータが示すクラスタ重心のうち、入力された音響特徴量ベクトルとの距離が最も小さいクラスタ重心を選択する。距離の指標は、例えば、ユークリッド距離（Ｅｕｃｌｉｄｅａｎｄｉｓｔａｎｃｅ）である。ユークリッド距離は、ユークリッド平方距離とも呼ばれる。ラベル変換部１０４は、選択したクラスタ重心に対応するラベルをラベルデータ記憶部１０３から読み出す。ラベル変換部１０４は、読み出したラベルｃ_ｄｎ（ｎは、ラベルの順序を示す整数）を順次配列してラベル列［ｃ_ｄ］を形成する。ここで、記号［…］は、…が複数の要素を含むデータ系列、ベクトル又は行列であることを示す。ラベル変換部１０４は、形成したラベル列［ｃ_ｄ］を区切り決定部１０６に出力する。つまり、出力されるラベル列［ｃ_ｄ］は、複数の音ユニットから形成される音ユニット系列を示す。

なお、ラベル変換部１０４は、入力された音響特徴量が異常であると判定された場合には、その音響特徴量に係る音ユニットが区切り（後述）であると判定してもよい。ラベル変換部１０４は、例えば、入力された音響信号量が示すパワーが予め定めたパワーの閾値を下回るとき、選択されたクラスタ重心に係る距離が予め定めた距離の上限を超えるときに音響特徴量が異常であると判定してもよい。

区切りデータ記憶部１０５は、予め区切りデータが記憶された記憶部である。区切り（ｓｅｇｍｅｎｔａｔｉｏｎ）とは、ある音ユニット群とその後の音ユニット群との間の境界である。音ユニット群とは１つ又は複数の音ユニットからなる音ユニット系列である。
区切りデータは、音ユニットＮグラムモデルと音ユニット群Ｎグラムモデルとを含む統計モデルである。この統計モデルを、以下の説明では音ユニット・音ユニット群Ｎグラムモデルと呼ぶことがある。区切りデータ、つまり音ユニット・音ユニット群Ｎグラムモデルは、言語処理における言語モデルの一種である文字・単語Ｎグラムモデルに相当する。
区切りデータは、次に説明するように、１個又は複数の音ユニットからなる音ユニット系列を１個又は複数の音ユニット群に区切る確率を示すデータを含むデータのセットである。

音ユニットＮグラムモデルは、任意の音ユニット系列において１つまたは複数の音ユニットの後に出現する音ユニット毎の確率（Ｎグラム）を示すデータである。音ユニットＮグラムモデルでは、区切りを１つの音ユニットとして扱ってもよい。なお、音ユニットＮグラムモデルとは、その確率を含んで構成される統計モデルを指すこともある。

音ユニット群Ｎグラムモデルは、任意の音ユニット群系列において１つ又は複数の音ユニット群の後に出現する音ユニット群毎の確率（Ｎグラム）を示すデータである。つまり、音ユニット群の出現確率と、少なくとも１個の音ユニット群からなる音ユニット群系列が与えられているときに次の音ユニット群の出現確率とを示す確率モデルである。
なお、音ユニット群Ｎグラムモデルとは、その確率を含んで構成される統計モデルを指すこともある。
音ユニット群Ｎグラムモデルでは、区切りを１種の音ユニット群として扱ってもよい。音ユニットＮグラムモデル、音ユニット群Ｎグラムモデルは、言語処理における文字モデル、単語モデルにそれぞれ相当する。

区切りデータも、従来から音声認識で用いられた確率モデル、例えば、ＧＭＭ、ＨＭＭとして構成されたデータであってもよい。本実施形態では、１つ又は複数のラベルと確率モデルを規定する統計量との組が、その後に現れる音ユニットを示すラベルと対応付けて音ユニットＮグラムモデルが構成されてもよい。そして、１つ又は複数の音ユニット群と確率モデルを規定する統計量との組が、その後に出現する音ユニット群と対応付けて音ユニット群Ｎグラムモデルが構成されてもよい。確率モデルを規定する統計量は、確率モデルがＧＭＭの場合には、正規分布毎の混合重み係数、平均値、共分散行列であり、確率モデルがＨＭＭの場合には、正規分布毎の混合重み係数、平均値、共分散行列及び遷移確率である。

音ユニットＮグラムモデルでは、入力された１つ又は複数のラベルに対して、その後に出現する音ユニットを示すラベルの出現確率を与えるように事前学習によって統計量を定めておく。事前学習では、その後に出現する他の音ユニットを示すラベルの出現確率が０となるように条件を課してもよい。音ユニット群Ｎグラムモデルでは、入力された１つ又は複数の音ユニット群に対して、その後に現れる各音ユニット群の出現確率を与えるように事前学習によって統計量を定めておく。事前学習では、その後に出現する他の音ユニット群の出現確率が０となるように条件を課してもよい。

区切り決定部１０６は、ラベル変換部１０４から入力されたラベル列が示す音ユニット列について、区切りデータ記憶部１０５に記憶された区切りデータを参照して音ユニット列の区切り、つまり音ユニット群ｗ_ｔ（ｔは、音ユニット群の順序を示す整数）からなる音ユニット群系列［ｃ_ｄ’］を定める。つまり、音ユニット群系列［ｃ_ｄ’］は、音ユニットに対応したラベルｃ_ｄからなるラベル系列［ｃ_ｄ］が音ユニット群ｗ_ｔ毎に区切られたデータ系列である。区切り決定部１０６は、区切りデータ記憶部１０５に記憶された区切りデータを用いて複数の音ユニット群系列の候補毎に出現確率、つまり認識尤度を算出する。

区切り決定部１０６は、算出した出現確率が最も高い音ユニット群系列の候補を、認識結果となる音ユニット群系列［ｃ_ｄ’］として選択する。選択された音ユニット群系列［ｃ_ｄ’］は、音ユニット群のそれぞれを形成する音ユニット系列と音ユニット群間の区切りからなる音ユニット系列である。音ユニット群系列の候補間では、音ユニット列は同一であるが音ユニットの区切り、つまり音ユニット群の組み合わせ又はその順序が異なる。
区切り決定部１０６は、選択した音ユニット群系列をイベントデータ照合部１０８に出力する。

区切り決定部１０６は、音ユニット群系列の候補毎の出現確率を算出する際、その候補に含まれる音ユニット群毎のＮグラムが示す出現確率を順次乗算する。音ユニット群のＮグラムの出現確率は、その音ユニット群の直前までの音ユニット群系列が与えられたときに、その音ユニット群が出現する確率である。この出現確率は、上述した音ユニット群Ｎグラムモデルを参照して与えられる。個々の音ユニット群の出現確率は、その音ユニット群の先頭の音ユニットの出現確率に、その後の音ユニットのＮグラムの出現確率を順次乗算して算出することができる。音ユニットのＮグラムの出現確率は、その音ユニットの直前までの音ユニット系列が与えられたときに、その音ユニットが出現する確率である。先頭の音ユニットの出現確率（ユニグラム）、音ユニットのＮグラムの出現確率は、音ユニットＮグラムモデルを参照して与えられる。

区切りデータを構成する音ユニットＮグラムモデルは、上述したようにＧＭＭやＨＭＭ等の確率モデルで構成されている場合がある。その場合には、区切り決定部１０６は、音ユニットＮグラムモデルを参照して、入力された１つ又は複数のラベルに対して、その後に音ユニットが現れる出現確率を算出する。また、区切りデータを構成する音ユニット群ＮグラムモデルもＧＭＭやＨＭＭ等の確率モデルで構成されている場合がある。その場合には、区切り決定部１０６は、音ユニット群Ｎグラムモデルを参照して、入力された１つ又は複数の音ユニット群に対して、その後に音ユニット群が現れる出現確率を算出する。

イベントデータ記憶部１０７は、予めイベントデータが記憶された記憶部である。イベントデータは、イベントとそのイベントに係る音ユニット群系列とを対応付けて形成されたデータである。イベントとは、一般音を発生する事物、事象又はその音、つまり音響イベントである。イベントは、例えば、アラーム時計のアラーム音、電話機の着信音などの各種機器の動作やその音、拍手などの人間の動作やその音、等である。イベントデータ記憶部１０７には、予め複数のイベントのそれぞれに係るイベントデータを記憶させておいてもよい。

イベントデータ照合部１０８は、区切り決定部１０６から音ユニット群系列が入力され、入力された音ユニット群系列とイベントデータ記憶部１０７に記憶された各イベントデータが示す音ユニット群系列とを照合する。これにより、イベントデータ照合部１０８は、入力された音ユニット群系列に対応するイベントを同定する。
イベントデータ照合部１０８は、照合に成功した音ユニット群系列に対応するイベントを示す認識データを生成し、生成した認識データを認識データ出力部１０９に出力する。ここで、イベントデータ照合部１０８は、イベントデータが示す音ユニット群系列のうち入力された音ユニット群系列と合致する部分の割合（例えば、音ユニットの個数又は音ユニット群の個数）が、最も多いイベントデータと照合に成功したと判定してもよい。また、イベントデータ照合部１０８は、その割合が予め定めた割合（例えば、８０％）よりも大きいとき照合に成功したと判定してもよい。なお、イベントデータ照合部１０８は、照合に失敗したと判定した場合、認識できなかったことを示すエラーデータを認識データとして認識データ出力部１０９に出力してもよい。
認識データ出力部１０９は、イベントデータ照合部１０８から認識データが入力され、入力された認識データを音響認識装置１の外部に出力する。認識データ出力部１０９は、例えば、データ出力インタフェースである。認識データ出力部１０９は、音響信号入力部１０１と一体化され、データ入出力インタフェースとして構成されていてもよい。

モデルデータ生成部１２０は、一般音の音響信号を含んだ一般音データに基づいて一般音の認識処理に用いられるモデルデータ、例えば、ラベルデータ、区切りデータを生成する。モデルデータ生成部１２０は、一般音データ取得部１２１、ラベルデータ生成部１２２、区切りデータ生成部１２３、及びイベントデータ生成部１２４を含んで構成される。

一般音データ取得部１２１は、モデルデータの生成に用いる一般音データを取得する。一般音データ取得部１２１は、例えば、イベントとそのイベントに係る一般音を示す音響信号を含む一般音データ（コーパス）を予め音響認識装置１の外部から入力して、記憶させておいた記憶部を備えていてもよい。

ラベルデータ生成部１２２は、一般音データ取得部１２１から一般音データを読み出し、読み出した一般音データに含まれる音響信号について予め定めた時間のフレーム毎に音響特徴量ベクトルを算出する。ラベルデータ生成部１２２は、算出した音響特徴量ベクトルをクラスタリングして、クラスタ毎のクラスタ重心を算出する。ラベルデータ生成部１２２は、クラスタ毎にラベルを生成し、生成したラベルとクラスタ重心とを対応付けてラベルデータを生成する。ラベルデータ生成部１２２は、生成したラベルデータをラベルデータ記憶部１０３に記憶させ、区切りデータ生成部１２３に出力する。

区切りデータ生成部１２３は、一般音データ取得部１２１から一般音データを読み出し、読み出した一般音データに含まれる音響信号について予め定めた時間の音響特徴量ベクトルを算出する。区切りデータ生成部１２３は、算出した音響特徴量ベクトルのうちラベルデータ生成部１２２から入力されたラベルデータが示すクラスタ重心に最も近似するクラスタ重心を選択する。区切りデータ生成部１２３は、選択したクラスタ重心に対応するラベルを特定し、特定したラベルを要素とするラベル列を生成する。区切りデータ生成部１２３は、生成したラベル列に基づいて音ユニットのＮグラムの出現確率を算出し、そのラベル列と算出した音ユニットのＮグラムの出現確率に基づいて音ユニット群のＮグラムの出現確率を算出する。区切りデータ生成部１２３は、算出した音ユニットのＮグラムの出現確率と音ユニット群のＮグラムの出現確率を示す音ユニット・音ユニット群Ｎグラムモデルを区切りデータとして生成する。区切りデータ生成部１２３は、生成した区切りデータを区切りデータ記憶部１０５に記憶し、イベントデータ生成部１２４に出力する。また、区切りデータ生成部１２３は、生成したラベル列と読み出した一般音データとをイベントデータ生成部１２４に出力する。

イベントデータ生成部１２４は、区切りデータ生成部１２３から入力されたラベル列が示す音ユニット列について、区切りデータ生成部１２３から入力された区切りデータを参照して複数の音ユニット群系列の候補毎にその出現確率を算出する。イベントデータ生成部１２４は、算出した出現確率が最も高い音ユニット群系列の候補を選択する。イベントデータ生成部１２４は、区切りデータ生成部１２３から入力された一般音データが示すイベントと、選択した音ユニット群系列とを対応付けてイベントデータを生成し、生成したイベントデータをイベントデータ記憶部１０７に記憶する。

モデルデータ生成部１２０がモデルデータ（主に、ラベルデータ、区切りデータ）を生成する処理については、後述する。
なお、ラベルデータ記憶部１０３、区切りデータ記憶部１０５、イベントデータ記憶部１０７に、それぞれラベルデータ、区切りデータ、イベントデータが記憶されていれば、モデルデータ生成部１２０は省略されてもよい。モデルデータ生成部１２０が行うモデルデータを生成する処理は、音響認識装置１の外部の装置、例えば、電子計算機で行われてもよい。

（ラベルデータの例）
次に、ラベルデータの例について説明する。
図２は、ラベルデータの例を示す図である。ラベルデータは、ラベルとクラスタ重心とが対応付けられているデータである。例えば、図２の第２行では、ラベルとして「ｃ_１」とクラスタ重心として「［ｘ_１］」とが対応付けられている。

（区切りデータの例）
次に、区切りデータの例について説明する。区切りデータは、音ユニット・音ユニット群Ｎグラムモデルである。つまり、区切りデータは、音ユニットＮグラムモデルと音ユニット群Ｎグラムモデルとを含んで構成される。Ｎグラムとは、１個の要素が出現する確率（ユニグラム（ｕｎｉｇｒａｍ））とＮ−１（Ｎは、１よりも大きい整数）個の要素（例えば、音ユニット）の系列が与えられたときに次の要素が出現する確率を示す統計的なモデルの総称である。ユニグラムは、モノグラム（ｍｏｎｏｇｒａｍ）とも呼ばれる。特に、Ｎ＝２、３の場合、Ｎグラムは、それぞれバイグラム（ｂｉｇｒａｍ）、トライグラム（ｔｒｉｇｒａｍ）と呼ばれる。

図３は、区切りデータの一部の例を示す図である。
図３に示す区切りデータの一部は、音ユニットＮグラムモデルである。図３（ａ）、（ｂ）、（ｃ）は、それぞれ音ユニットユニグラム、音ユニットバイグラム、音ユニットトライグラムの例を示す。
図３（ａ）は、１個の音ユニットを示すラベルと音ユニットユニグラムが対応付けられていることを示す。図３（ａ）の第２行では、ラベル「ｃ_１」と音ユニットユニグラム「ｐ（ｃ_１）」とが対応付けられている。ここで、ｐ（ｃ_１）は、ラベル「ｃ_１」の出現確率を示す。図３（ｂ）の第３行では、ラベル系列「ｃ_１ｃ_２」と音ユニットバイグラム「ｐ（ｃ_１｜ｃ_２）」とが対応付けられている。ここで、ｐ（ｃ_１｜ｃ_２）は、音ユニットｃ_２が与えられているときに、音ユニットｃ_１が出現する確率を示す。図３（ｃ）の第２行では、ラベル系列「ｃ_１ｃ_１ｃ_１」と音ユニットトライグラム「ｐ（ｃ_１｜ｃ_１ｃ_１）」とが対応付けられている。

図４は、区切りデータの他の一部の例を示す図である。
図４に示す区切りデータの他の一部は、音ユニット群Ｎグラムモデルである。図４（ａ）、（ｂ）、（ｃ）は、それぞれ音ユニット群ユニグラム、音ユニット群バイグラム、音ユニットトライグラムの例を示す。
図４（ａ）は、１個の音ユニット群を示すラベルと音ユニットユニグラムが対応付けられていることを示す。図４（ａ）の第２行では、ラベル「ｗ_１」と音ユニット群ユニグラム「ｐ（ｗ_１）」とが対応付けられている。１個の音ユニット群を示すラベルは、１個又は複数個の音ユニットから形成される音ユニット群を示す。
図４（ｂ）の第３行では、ラベル系列「ｗ_１ｗ_２」と音ユニット群バイグラム「ｐ（ｗ_１｜ｗ_２）」とが対応付けられている。図４（ｃ）の第２行では、ラベル系列「ｗ_１ｗ_１ｗ_１」と音ユニット群トライグラム「ｐ（ｗ_１｜ｗ_１ｗ_１）」とが対応付けられている。図４に示す例では、音ユニット群毎のラベルが付されているが、これに代えて音ユニット群のそれぞれを形成する音ユニット系列が用いられていてもよい（図５参照）。その場合には、音ユニット群間で区切りを示す区切り符号（例えば、｜）が挿入されていてもよい。

（イベントデータの例）
次に、イベントデータの例について説明する。
図５は、イベントデータの例を示す図である。
イベントデータは、イベントとそのイベントに係る音ユニット群系列とを対応付けたデータである。図５の第２行では、イベント「ｅ_１」と音ユニット群系列「ｃ_１ｃ_１｜ｃ_１ｃ_１ …」が対応付けられている。音ユニット群系列「ｃ_１ｃ_１｜ｃ_１ｃ_１ …」のうち、冒頭の「ｃ_１ｃ_１」と、その後の「ｃ_１ｃ_１ …」との間には区切り符号「｜」が挿入されている。この区切り符号は、冒頭の「ｃ_１ｃ_１」から形成される音ユニット群と、その後の「ｃ_１ｃ_１ …」から形成される音ユニット群の境界を示す。

（音響認識処理）
次に、本実施形態に係る音響認識処理について説明する。
図６は、本実施形態に係る音響認識処理を示すフローチャートである。
（ステップＳ１０１）音響信号入力部１０１は、音響認識装置１の外部から音響信号が入力され、入力された音響信号を音響特徴量算出部１０２に出力する。その後、ステップＳ１０２に進む。
（ステップＳ１０２）音響特徴量算出部１０２は、音響信号入力部１０１から入力された音響信号に基づいてその音の物理的な特徴を示す音響特徴量ベクトルを算出する。次に、音響特徴量算出部１０２は、算出した音響特徴量ベクトルをラベル変換部１０４に出力する。その後、ステップＳ１０３に進む。

（ステップＳ１０３）ラベル変換部１０４は、ラベルデータ記憶部１０３に記憶されたラベルデータを参照して、音響特徴量算出部１０２から入力された音響特徴量ベクトルが属するクラスタを判別し、判別したクラスタに対応するラベルに変換する。次に、ラベル変換部１０４は、変換したラベルからなるラベル列を生成し、生成したラベル列を区切り決定部１０６に出力する。その後、ステップＳ１０４に進む。

（ステップＳ１０４）区切り決定部１０６は、ラベル変換部１０４から入力されたラベル列が示す音ユニット列について、区切りデータ記憶部１０５に記憶された区切りデータを参照して複数の音ユニット群系列の候補毎にその出現確率を算出する。次に、区切り決定部１０６は、算出した出現確率が最も高い音ユニット群系列の候補を選択する（区切り決定）。次に、区切り決定部１０６は、選択した音ユニット群系列の候補を認識結果となる音ユニット群系列としてイベントデータ照合部１０８に出力する。その後、ステップＳ１０５に進む。

（ステップＳ１０５）イベントデータ照合部１０８は、区切り決定部１０６から音ユニット群系列が入力され、イベントデータ記憶部１０７に記憶された各イベントデータが示す音ユニット群系列と照合する。次に、イベントデータ照合部１０８は、照合に成功した音ユニット群系列に対応するイベントを示す認識データを生成し、生成した認識データを認識データ出力部１０９に出力する。その後、ステップＳ１０６に進む。
（ステップＳ１０６）認識データ出力部１０９は、イベントデータ照合部１０８から入力された認識データを、音響認識装置１の外部に出力する。その後、図１に示す音響認識処理を終了する。

（モデルデータ生成処理）
次に、モデルデータ生成部１２０がモデルデータを生成する処理（モデルデータ生成処理）について説明する。
図７は、本実施形態に係るモデルデータを生成する処理の一例を示すフローチャートである。
（ステップＳ２０１）ラベルデータ生成部１２２は、一般音データ取得部１２１から取得した一般音データに基づいて音ユニットの候補を決定する（音ユニット候補決定）。その後、ステップＳ２０２に進む。
（ステップＳ２０２）ラベルデータ生成部１２２は、決定した音ユニットの候補毎に音ユニット群毎の頻度分布を算出し、算出した頻度分布が最も分散する音ユニットの候補を選択する（音ユニット決定）。その後、ステップＳ２０３に進む。
（ステップＳ２０３）ラベルデータ生成部１２２は、選択した音ユニットの候補に係るラベルとクラスタ重心を対応付けたラベルデータを生成し、生成したラベルデータをラベルデータ記憶部１０３に記憶する。その後、ステップＳ２０４に進む。

（ステップＳ２０４）区切りデータ生成部１２３は、ラベルデータ生成部１２２が生成したラベルデータに基づいて一般音データ取得部１２１から取得した一般音データについてラベル列を生成する。次に、区切りデータ生成部１２３は、生成したラベル列について、音ユニット・音ユニット群Ｎグラムモデルを区切りデータとして生成する（区切りデータ生成）。その後、ステップＳ２０５に進む。
（ステップＳ２０５）区切りデータ生成部１２３は、生成した区切りデータを区切りデータ記憶部１０５に記憶する。その後、ステップＳ２０６に進む。

（ステップＳ２０６）イベントデータ生成部１２４は、区切りデータ生成部１２３が生成した音ユニット列について、区切りデータ生成部１２３が生成した区切りデータを参照して複数の音ユニット群系列の候補毎にその出現確率を算出する。次に、イベントデータ生成部１２４は、算出した出現確率が最も高い音ユニット群系列の候補を選択する。次に、イベントデータ生成部１２４は、区切りデータ生成部１２３が音ユニット列を生成する際に用いた一般音データが示すイベントと、選択した音ユニット群系列とを対応付けてイベントデータを生成する。次に、イベントデータ生成部１２４は、生成したイベントデータをイベントデータ記憶部１０７に記憶する。その後、図７に示す処理を終了する。

（音ユニット候補決定処理）
次に、ラベルデータ生成部１２２がステップＳ２０１（図７）で行う音ユニット候補決定処理について説明する。一般音データには、Ｄ（Ｄは、１又は１よりも大きい整数）個のイベントと音響信号の組が含まれていることを仮定する。

図８は、本実施形態に係る音ユニット候補決定処理を示すフローチャートである。
（ステップＳ３０１）ラベルデータ生成部１２２は、一般音データ取得部１２１から読み出した一般音データに含まれる音響信号について予め定めた時間のフレーム毎に音響特徴量ベクトルを算出する。その後、ステップＳ３０２に進む。
（ステップＳ３０２）ラベルデータ生成部１２２は、フレーム毎に算出した音響特徴量ベクトルについて予め定めた手法（例えば、凝集型階層クラスタリング）を用いてクラスタリングを行う。クラスタリングによって、クラスタ毎にクラスタ重心が算出される。このステップで行われるクラスタリングを第１クラスタリングと呼んで、ステップＳ３０４で行われるクラスタリングと区別する。その後、ステップＳ３０３に進む。

（ステップＳ３０３）ラベルデータ生成部１２２は、予め定めた距離の区間毎に、算出したクラスタ重心間の距離の個数を計数してヒストグラムを生成する。次に、ラベルデータ生成部１２２は、生成したヒストグラムにおいて計数したクラスタ重心間の個数が極小となる区間に係る距離の代表値を距離候補Ｄ_ｌとして選択する。以下の説明では、選択した距離候補Ｄ_ｌの数をＮ_ｌと表記する。距離候補Ｄ_ｌの数Ｎ_ｌは、典型的には複数である。その後、ステップＳ３０４に進む。

（ステップＳ３０４）ラベルデータ生成部１２２は、フレーム毎に算出した音響特徴量ベクトルについてクラスタ重心間の距離と選択した距離候補Ｄ_ｌのいずれかとの誤差が最小となるようにクラスタリングを行う。このステップで行われるクラスタリングを第２クラスタリングと呼ぶ。ラベルデータ生成部１２２は、第２クラスタリングを距離候補Ｄ_ｌのそれぞれについて実行する。これにより、各距離候補Ｄ_ｌについてクラスタ毎にクラスタ重心が算出される。次に、ラベルデータ生成部１２２は、各距離候補Ｄ_ｌについて算出したクラスタ重心と対応付けて音ユニット候補を定める。その後、ステップＳ３０５に進む。

（ステップＳ３０５）ラベルデータ生成部１２２は、フレーム毎に算出した音響特徴量ベクトルについて各距離候補Ｄ_ｌについて算出したクラスタ重心との距離が最も小さいクラスタ重心を選択し、選択したクラスタ重心に対応する音ユニット候補を定める。ここで、ラベルデータ生成部１２２は、各距離候補Ｄ_ｌについてイベントｄ（最大値は、Ｄ）について定めた音ユニット候補から形成される音ユニット候補系列［ｃ_ｄ］を生成する。音ユニット候補系列［ｃ_ｄ］は、ｃ_ｄ１ｃ_ｄ２…ｃ_ｄＮｄと表される。ｃ_ｄ１等は、イベントｄの１番目の音ユニット候補等を示す。その後、図８に示す処理を終了する。

上述した凝集型階層クラスタリングとは、あるクラスタｉのクラスタ重心と他のクラスタｊのクラスタ重心との間の距離Δ_ｉｊのうち、最小となる距離Δ_ｉｊに係るクラスタ同士を凝集する処理を、予め定めたクラスタ数に達するまで繰り返す処理である。ここで、ラベルデータ生成部１２２は、例えば、式（１）を用いて距離Δ_ｉｊを、算出する。

式（１）において、Ｎ_ｉ、Ｎ_ｊは、それぞれクラスタｉ、クラスタｊに属する音響特徴量ベクトルの個数を示す。総和記号Σと、その下に記されているｎ∈ｉは、クラスタｉに属する音響特徴量ベクトル［ｘ_ｎ］についての総和を示す。ｎは、各音響特徴量ベクトル［ｘ_ｎ］を区別するインデックスであって、最大値がフレーム総数Ｎとなる整数である。つまり、ラベルデータ生成部１２２は、距離の指標としてユークリッド距離を用いて、クラスタｉ、クラスタｊ間における距離Δ_ｉｊを算出する。

図９は、生成されたヒストグラムの一例を示す図である。
図９において、横軸はクラスタ重心間の距離、縦軸は距離の区間毎の個数を示す。破線は、それぞれ個数が最小となる距離、つまり距離候補Ｄ_ｌを示す。ステップＳ３０４では、この距離候補Ｄ_ｌにクラスタ重心間の距離が近似するようにクラスタリングがなされるため、クラスタ間で音響特徴量ベクトルが均等に分布する。つまり、各クラスタに対応する音ユニット候補でイベント毎の音響的な特徴を十分に説明できることを示す。図９に示す例では、距離候補Ｄ_ｌの数Ｎ_ｌは、１７個である。

（音ユニット決定処理）
次に、ラベルデータ生成部１２２がステップＳ２０２（図７）で行う音ユニット決定処理について説明する。音ユニット候補の数は、距離候補Ｄ_ｌによって異なる可能性があるが、いずれもＭと表記する。音ユニット候補の数は、予め設定された数であってもよい。

図１０は、本実施形態に係る音ユニット決定処理を示すフローチャートである。
（ステップＳ３０６）ラベルデータ生成部１２２は、各距離候補Ｄ_ｌについて生成した音ユニット候補系列［ｃ_ｄ］に基づいて、各音ユニット群候補ｚ_ｋに、音ユニット候補ｃ_ｍが出現する出現確率（ユニグラム）ｐ（ｃ_ｍ｜ｚ_ｋ）を算出する。ここで、ｋは、音ユニット群候補を識別するインデックスを示し、ｋの最大値はＮ_ｚである。ｍは、音ユニット候補を識別するインデックスを示し、ｍの最大値はＭである。
次に、ラベルデータ生成部１２２は、算出した出現確率を各行の要素として有する列ベクトル［β_ｍ］を音ユニット候補ｍ毎に生成する。以下の説明では、この列ベクトル［β_ｍ］を、出現確率ベクトルと呼ぶ。出現確率ｐ（ｃ_ｍ｜ｚ_ｋ）を算出する際、ラベルデータ生成部１２２は、例えば、ＬＤＡ（ＬａｔｅｎｔＤｉｒｉｃｈｌｅｔＡｌｌｏｃａｔｉｏｎ、潜在的ディリクレ配分）法を用いる。後述するように、ラベルデータ生成部１２２は、ＬＤＡ法を実行する過程で音ユニット群候補ｚ_ｋを生成する。その後、ステップＳ３０７に進む。

（ステップＳ３０７）ラベルデータ生成部１２２は、各距離候補Ｄ_ｌについて音ユニットｍ間で算出した出現確率ベクトル［β_ｍ］の分散σ_ｌを算出する。その後、ステップＳ３０８に進む。
（ステップＳ３０８）ラベルデータ生成部１２２は、算出した分散σ_ｌが所定の距離の閾値よりも大きい距離候補Ｄ_ｌ、例えば、分散σ_ｌが最大となる距離候補Ｄ_ｌを選択する。次に、ラベルデータ生成部１２２は、選択した距離候補Ｄ_ｌに係る音ユニットの候補を選択する。その後、図１０に示す処理を終了する。
これにより、音ユニットに応じて各音ユニット群の出現確率が極力分散するようにクラスタ重心間の距離が選択されるので、多様な音ユニット群を十分に表現できる音ユニット群が選択される。

図１１は、音響特徴量ベクトルのクラスタの例を示す図である。
図１１（ａ）、（ｂ）、（ｃ）は、それぞれ異なる距離候補Ｄ_ｌに係るクラスタを楕円で示す。ｃ_１等の符号は、各クラスタを識別する符号である。楕円に囲まれている黒丸のそれぞれは、音響特徴量ベクトルを示す。この例では、図１１（ａ）、（ｂ）、（ｃ）の順で、距離候補Ｄ_ｌの値が小さい。即ち、図１１（ａ）が最もクラスタが小さく、最も多くの音ユニットで音響信号の特徴が表される。そのため、雑音等による音響特徴量の変化の影響を受けやすいので雑音耐性が低い。図１１（ｃ）が最もクラスタが大きく、最も少ない音ユニットで音響信号の特徴が表される。そのため、雑音等による音響特徴量の変化の影響を受けにくいが、各クラスタに対応した音ユニットでは音響信号の特徴を十分に表すことができない。

図１２は、出現確率の例を示す図である。
図１２において、横軸は音ユニットを示し、縦軸は音ユニット群を示す。
図１２（ａ）、（ｂ）、（ｃ）は、図１１（ａ）、（ｂ）、（ｃ）に係るクラスタに基づいて得られた出現確率を濃淡で示す。濃く示された部分ほど出現確率が高く、薄く示された部分ほど出現確率が低いことを示す。
図１２（ａ）、（ｃ）に示す例では、特定の音ユニットについて音ユニット群毎の出現確率が高い部分が縦線状に現れる傾向がある。これに対し、図１２（ｂ）に示す例では、特定の音ユニットについて音ユニット群毎の出現確率が高い斑点状の部分が、図１２（ａ）、（ｃ）に示す例よりも分散している。即ち、音ユニットに応じて各音ユニット群の出現確率が分散するようにクラスタ重心間の距離が選択されるので、対応する音ユニットからなる音ユニット系列で音響的な特徴を少ない数で十分に表すことができる。

次に、上述したＬＤＡ法について説明する。
ＬＤＡ法は、従来、Ｎ_ｚ個の潜在トピックを用いてコーパス上の文書を表す統計モデルとして、主に言語処理で利用されていた。本実施形態では、言語処理における文書、潜在トピック、単語に代えて、イベント、音ユニット群、音ユニットを適用する。

図１３は、ＬＤＡ法の概念図である。
図１３に示すように、ＬＤＡ法では、Ｄ個のイベント［ｃ_１］［ｃ_２］、…、［ｃ_Ｄ］が扱われ、ｄ番目のイベント［ｃ_ｄ］は、Ｎ_ｄ個の音ユニット（［ｃ_ｄ］＝ｃ_Ｄ１ｃ_Ｄ２…ｃ_ＤＮｄ）から構成される音ユニット系列であると仮定する。ｄ番目のイベント［ｃ_ｄ］は、｛ｃ_１ ^{（μｄ１）}，…，ｃ_Ｍ ^{（μｄＭ）}｝と表わされる。ここで、μ_ｄｍは、ｄ番目のイベントに現れる音ユニットｃ_ｍの個数を示す。即ち、ｄ番目のイベント［ｃ_ｄ］は、各音ユニットｃ_ｍをμ_ｄｍ個有する音ユニット系列であり、μ_ｄｍのｍ間の総和はＮ_ｄ個である。

ＬＤＡ法では、ｄ番目のイベントにおいて音ユニット群（［ｚ］＝［ｚ_１，ｚ_２，…，ｚ_Ｎｚ］）を生成する確率（［θ_ｄ］＝［θ_１，θ_２，…，θ_Ｎｚ］）がディリクレ分布（Ｄｉｒｉｃｈｌｅｔｄｉｓｔｒｉｂｕｔｉｏｎ）Ｄｉｒ（［θ_ｄ］｜［α］）に従うと仮定する。以下の説明では、［θ_ｄ］を生成確率ベクトルと呼ぶ。ここで、［α］は、発生回数ベクトルを示す。発生回数ベクトル［α］は、音ユニット群ｚ_ｋの発生回数α_ｋ（ｋは、１からＮ_ｚまでの整数）を要素として有するベクトルである。ディリクレ分布（［θ_ｄ］｜［α］）は、ｍ個の音ユニットｃ_ｍがα_ｋ−１個含まれる場合に、音ユニット群ｚ_ｋが現れる確率がθ_ｋとなる確率を与える確率分布である。音ユニット群ｚ_ｋは、１又は複数の音ユニットからなる音ユニット系列であるが、ラベルデータ生成部１２２は、出現確率が最も高いものからＮ_ｚ番目までに高い音ユニット群ｚ_ｋを採用する。

その場合、Ｄ個のイベント［ｃ_１］［ｃ_２］、…、［ｃ_Ｄ］からなるコーパス［Ｗ］を生成する確率は、式（２）で表される。

式（２）において、［β］は、各列に出現確率ベクトル［β_ｍ］を有する出現確率行列を示す。ｐ（ｚ_ｄｋ｜［θ_ｄ］）は、生成確率ベクトル［θ_ｄ］が与えられているときにイベントｄに音ユニット群ｚ_ｄｋが現れる確率を示す。本実施形態では、ｐ（ｚ_ｄｋ｜［θ_ｄ］）は、生成確率ベクトル［θ_ｄ］による多項分布を仮定してもよい。
ｐ（ｃ_ｄｎ｜ｚ_ｄｋ，［β］）は、音ユニット群ｚ_ｄｋ、出現確率行列［β］が与えられたときに、イベントｄのｎ番目のフレームに音ユニットｃ_ｄｎが現れる確率を示す。ラベルデータ生成部１２２は、各距離候補Ｄ_ｌについて生成した音ユニット候補系列［ｃ_ｄ］に基づいて、式（２）を満たす発生回数ベクトル［α］、出現確率行列［β］を算出する。

図１４は、ＬＤＡ法のグラフィカルモデルを示す。
［ｚ］から［Ｗ］に向かう矢印及び［β］から［Ｗ］に向かう矢印は、コーパス［Ｗ］を生成する確率が音ユニット群ｚ_ｄｋの集合［ｚ］及び出現確率行列［β］で与えられることを示す。［ｚ］と［Ｗ］を囲む四角形とその四角形内左下端のＮ_ｄは、Ｎ_ｄ個の音ユニットｃ_ｄからイベントｄ毎に音ユニット群ｚ_ｄｋの集合［ｚ］及び出現確率行列［β］が与えられることを示す。［θ］から［ｚ］に向かう矢印は、音ユニット群ｚ_ｄｋの確率が生成確率ベクトル［θ］で与えられることを示す。［θ］を囲む四角形とその左下のＤは、確率［θ］がＤ個のイベントｄ毎に与えられることを示す。［α］から［θ］に向かう矢印は、生成確率ベクトル［θ］が発生回数ベクトル［α］で与えられることを示す。また、発生回数ベクトル［α］、出現確率行列［β］が上述した四角形の外部にあることは、未知数として推定の対象となることを示す。

（区切りデータ生成部の処理）
次に、区切りデータ生成部１２３が行う処理について説明する。
区切りデータ生成部１２３（図１参照）は、ラベルデータ生成部１２２が生成したラベルデータを用いて、一般音データ取得部１２１から読み出した一般音データに基づいて音ユニット系列を生成する。区切りデータ生成部１２３は、生成した音ユニット系列に基づいて所定の手法、例えば、ＮＰＹ（ＮｅｓｔｅｄＰｉｔｍａｎ−Ｙｏｒ）過程を用いて区切りデータを生成する。ＮＰＹ過程は、従来、自然言語の形態素解析に用いられていた手法である。

本実施形態では、形態素解析における単語、文字に代えて、音ユニット群、音ユニットをＮＰＹ過程に適用する。つまり、ＮＰＹ過程は、音ユニット系列の統計的な性質を音ユニット群Ｎグラムと音ユニットＮグラムとの入れ子（ネスト）構造で統計モデルを生成するために行われる。ＮＰＹ過程によって生成された統計モデルは、ＮＰＹモデルと呼ばれる。区切りデータ生成部１２３は、音ユニット群Ｎグラムと音ユニットＮグラムを生成する際、例えば、それぞれＨＰＹ（ＨｉｅｒａｒｃｈｉｃａｌＰｉｔｍａｎ−Ｙｏｒ）過程を用いる。ＨＰＹ過程は、ディリクレ過程を階層的に拡張した確率過程である。

ＨＰＹ過程を用いて音ユニット群Ｎグラムを生成する際、区切りデータ生成部１２３は、音ユニット群系列［ｈ’］の次の音ユニット群ｗの生起確率ｐ（ｗ｜［ｈ’］）に基づいて、音ユニット群系列［ｈ］の次の音ユニット群ｗの生起確率ｐ（ｗ｜［ｈ］）を算出する。生起確率（ｐ（ｗ｜［ｈ］）を算出する際、区切りデータ生成部１２３は、例えば、式（３）を用いる。ここで、音ユニット群系列［ｈ’］は、直近までのｎ−１個の音ユニット群からなる音ユニット群系列ｗ_{ｔ−ｎ−１}…ｗ_ｔ−１である。ｔは、現在の音ユニット群を識別するインデックスを示す。音ユニット群系列［ｈ］は、音ユニット群系列［ｈ’］にその直前の音ユニット群ｗ_ｔ−ｎを付加したｎ個の音ユニット群からなる音ユニット群系列ｗ_ｔ−ｎ…ｗ_ｔ−１である。

式（３）においてγ（ｗ｜［ｈ］）は、音ユニット群系列［ｈ］が与えられているときに音ユニット群ｗが生起した回数（ｎグラムカウント）を示す。γ（［ｈ］）は、回数γ（ｗ｜［ｈ］）の音ユニット群ｗ間での総和Σ_ｗγ（ｗ｜［ｈ］）である。ｔ_ｈｗは、音ユニット群系列［ｈ’］が与えられているときに音ユニット群ｗが生起した回数（ｎ−１グラムカウント）を示す。ｔ_ｈは、ｔ_ｈｗの音ユニット群ｗ間での総和Σ_ｗｔ_ｈｗである。ξは、強度パラメータ（ｓｔｒｅｎｇｔｈｐａｒａｍｅｔｅｒ）を示す。強度パラメータξは、算出しようとする生起確率ｐ（ｗ｜［ｈ］）からなる確率分布を基底測度に近似する度合いを制御するパラメータである。基底測度とは、音ユニット群もしくは音ユニットの事前確率である。ηは、ディスカウントパラメータ（ｄｉｓｃｏｕｎｔｐａｒａｍｅｔｅｒ）を示す。ディスカウントパラメータηは、与えられた音ユニット群系列［ｈ］が与えられているときの音ユニット群ｗが生起した回数による影響を緩和する度合いを制御するパラメータである。区切りデータ生成部１２３は、パラメータξ、ηを定める際、例えば、予め定めた候補値からそれぞれギブスサンプリング（Ｇｉｂｂｓｓａｍｐｌｉｎｇ）を行ってもよい。

区切りデータ生成部１２３は、上述したように、ある次数の生起確率ｐ（ｗ｜［ｈ’］）を基底測度として用いることにより、その次数よりも１次高い次数の生起確率ｐ（ｗ｜［ｈ］）を算出する。しかしながら、音ユニット群の境界、つまり区切りに係る情報が与えられていない場合、基底測度を得ることができない。
そこで、区切りデータ生成部１２３は、ＨＰＹ過程を用いて音ユニットＮグラムを生成し、生成した音ユニットＮグラムを音ユニット群Ｎグラムの基底測度として用いる。

区切りデータ生成部１２３は、音ユニットＮグラムを生成する際、与えられた音ユニット系列［ｃ’］の次の音ユニットｃの生起確率ｐ（ｃ｜［ｃ’］）に基づいて、音ユニット系列［ｃ］の次の音ユニットｃの生起確率ｐ（ｃ｜［ｃ］）を算出する。区切りデータ生成部１２３は、生起確率ｐ（ｃ｜［ｃ］）を算出する際、例えば、式（４）を用いる。ここで、音ユニット系列［ｃ’］は、直近までのｎ−１個の音ユニットからなる音ユニット系列ｃ_{ｔ−ｎ−１}…ｃ_ｔ−１である。ｔは、現在の音ユニットを識別するインデックスを示す。音ユニット系列［ｃ］は、音ユニット系列［ｃ’］にその直前の音ユニットｃ_ｔ−ｎを付加したｎ個の音ユニットからなる音ユニット系列ｃ_ｔ−ｎ…ｃ_ｔ−１である。

式（４）において、（ｃ｜［ｃ］）は、音ユニット系列［ｃ］が与えられているときに音ユニットｃが生起した回数（ｎグラムカウント）を示す。δ（［ｃ］）は、回数δ（ｃ｜［ｃ］）の音ユニットｃ間での総和Σ_ｃδ（ｃ｜［ｃ］）である。ｓ_［ｃ］ｃは、音ユニット系列［ｃ’］が与えられているときに音ユニットｃが生起した回数（ｎ−１グラムカウント）を示す。ｓ_ｃは、ｓ_［ｃ］ｃの音ユニットｃ間での総和Σ_ｃｓ_［ｃ］ｃである。θ、ｓは、それぞれ強度パラメータ、ディスカウントパラメータである。区切りデータ生成部１２３は、上述したようにギブスサンプリングを行って強度パラメータθ、ディスカウントパラメータｓを定めてもよい。
なお、区切りデータ生成部１２３には、音ユニットＮグラムの次数、音ユニット群Ｎグラムの次数は、予め設定しておいてもよい。音ユニットＮグラムの次数、音ユニット群Ｎグラムの次数は、例えば、それぞれ１０次、３次である。

図１５は、ＮＰＹ過程で生成されるＮＰＹモデルの例を示す図である。
図１５に示されるＮＰＹモデルは、音ユニット群Ｎグラムと音ユニットＮグラムモデルを含んで構成される音ユニット群・音ユニットＮグラムモデルである。
区切りデータ生成部１２３は、音ユニットＮグラムモデルを生成する際、例えば、音ユニットｃ_１の出現確率を示すユニグラムｐ（ｃ_１）に基づいて、バイグラムｐ（ｃ_１｜ｃ_１）、ｐ（ｃ_１｜ｃ_２）を算出する。区切りデータ生成部１２３は、バイグラムｐ（ｃ_１｜ｃ_１）に基づいて、トライグラムｐ（ｃ_１｜ｃ_１ｃ_１）、ｐ（ｃ_１｜ｃ_１ｃ_２）を算出される。

そして、区切りデータ生成部１２３は、算出された音ユニットＮグラム、つまり、これらのユニグラム、バイグラム、トライグラム等を基底測度Ｇ_１’として用いて、音ユニット群Ｎグラムに含まれる音ユニット群ユニグラムを算出する。例えば、ユニグラムｐ（ｃ_１）は、音ユニットｃ_１からなる音ユニット群ｗ_１の出現確率を示すユニグラムｐ（ｗ_１）の算出に用いられる。区切りデータ生成部１２３は、ユニグラムｐ（ｃ_１）とバイグラムｐ（ｃ_１｜ｃ_２）を、音ユニット系列ｃ_１ｃ_２からなる音ユニット群ｗ_２のユニグラムｐ（ｗ_２）の算出に用いる。区切りデータ生成部１２３は、ユニグラムｐ（ｃ_１）、バイグラムｐ（ｃ_１｜ｃ_１）、トライグラムｐ（ｃ_１｜ｃ_１ｃ_２）を、音ユニット系列ｃ_１ｃ_１ｃ_２からなる音ユニット群ｗ_３のユニグラムｐ（ｗ_３）の算出に用いる。

区切りデータ生成部１２３は、音ユニット群Ｎグラムモデルを生成する際、例えば、音ユニット群ｗ_１の出現確率を示すユニグラムｐ（ｗ_１）を基底測度Ｇ_１として用いて、バイグラムｐ（ｗ_１｜ｗ_１）、ｐ（ｗ_１｜ｗ_２）を算出する。また、区切りデータ生成部１２３は、バイグラムｐ（ｗ_１｜ｗ_１）を基底測度Ｇ_１１として用いて、トライグラムｐ（ｗ_１｜ｗ_１ｗ_１）、ｐ（ｗ_１｜ｗ_１ｗ_２）を算出する。

このように、区切りデータ生成部１２３は、選択した音ユニット群系列に基づいて、ある次数の音ユニット群のＮグラムに基づいて、より高次の音ユニット群のＮグラムを順次算出する。しかしながら、ある次数の音ユニット群に後続する音ユニット群の種類の数（分岐数）が多いと統計モデルとして複雑になり、処理量が膨大になる。
そこで、区切りデータ生成部１２３は、予め定めた複数の音ユニット群の個数Ｎ_ｚの候補のそれぞれについて、区切りデータを生成して、生成した区切りデータに基づいてモデルの複雑さの度合いを示す指標、例えば、パープレキシティ（ｐｅｒｐｌｅｘｉｔｙ）を算出してもよい。パープレキシティは、具体的には音ユニット群の平均分岐数を示す指標である。区切りデータ生成部１２３は、算出した指標が所定の指標値よりも小さい音ユニット群の個数Ｎ_ｚの候補と、その候補に対応する区切りデータとを学習結果として選択する。特に、そのような音ユニット群の個数Ｎ_ｚが複数通りある場合には、区切りデータ生成部１２３は、算出した指標が最小となる音ユニット群の個数Ｎ_ｚの候補と、その候補に対応する区切りデータとを学習結果として選択してもよい。

区切りデータ生成部１２３は、モデルの複雑さの度合いを示す指標としてパープレキシティを算出する際、一般音データに基づいて得られた音ユニット群系列から音ユニット群毎の出現確率を算出する。区切りデータ生成部１２３は、算出した出現確率に基づいて音ユニット群１個当たりのエントロピーＨを算出し、２をＨ乗することによって得られる値２^Ｈをパープレキシティとして算出する。これにより、一般音のイベントを同定する際、処理量が過大になることが避けられる。また、音ユニット系列が最も少ない区切り、つまり最も少ない音ユニット群（セグメント数）で表現される。

（区切りデータ生成処理）
次に、区切りデータ生成部１２３がステップＳ２０４（図７）で行う区切りデータ生成処理について説明する。
図１６は、本実施形態に係る区切りデータ生成処理を示すフローチャートである。
（ステップＳ４０１）区切りデータ生成部１２３は、一般音データ取得部１２１から一般音データを読み出し、読み出した一般音データに含まれる音響信号について予め定めた時間の音響特徴量ベクトルを算出する。その後、ステップＳ４０２に進む。
（ステップＳ４０２）区切りデータ生成部１２３は、算出した音響特徴量ベクトルのうちラベルデータ生成部１２２が生成したラベルデータが示すクラスタ重心に最も近似するクラスタ重心を選択する。次に、区切りデータ生成部１２３は、選択したクラスタ重心に対応するラベルを特定し、特定したラベルを要素とするラベル列、つまり音ユニット系列を生成する。その後、ステップＳ４０３に進む。

（ステップＳ４０３）区切りデータ生成部１２３は、生成した音ユニット系列に基づいて音ユニットＮグラムを生成する。その後、ステップＳ４０４に進む。
（ステップＳ４０４）区切りデータ生成部１２３は、生成した音ユニットＮグラムを基底測度として音ユニット群のユニグラムを生成する。その後、ステップＳ４０５に進む。
（ステップＳ４０５）区切りデータ生成部１２３は、生成した音ユニットＮグラムの要素毎の１個又は複数の音ユニット、音ユニット群及びそのユニグラムを対応付けた変換テーブルを生成する。次に、区切りデータ生成部１２３は、生成した変換テーブルを用いて、生成した音ユニット系列を複数通りの音ユニット群系列に変換し、変換した複数通りの音ユニット群系列のうち出現確率が最も高い音ユニット群系列を選択する。その後、ステップＳ４０６に進む。
（ステップＳ４０６）区切りデータ生成部１２３は、選択した音ユニット群系列に基づいて、ある次数の音ユニット群のＮグラムを基底測度として用いて、その次数より１次高い次数の音ユニット群のＮグラムを順次算出する。その後、図１６に示す処理を終了する。

（モデルデータ生成処理の変形例）
モデルデータ生成部１２０は、次に説明する変形例に係るモデルデータ生成処理を行ってもよい。上述した実施形態と同一の構成、過程については、同一の符号を付して説明を援用する。
図１７は、本実施形態に係るモデルデータを生成する処理の変形例を示すフローチャートである。
本変形例は、ステップＳ２０１、ステップＳ２０３、ステップＳ２０６（図７参照）を有し、さらに、ステップＳ２０２ａ、ステップＳ２０４ａ及びステップＳ２０４ｂを有する。本変形例では、ステップＳ２０１が終了した後、ステップＳ２０４ａに進む。

（ステップＳ２０４ａ）区切りデータ生成部１２３は、ラベルデータ生成部１２２が各距離候補について生成した音ユニット候補系列に基づいて音ユニット群候補に係る区切りデータ、即ち、音ユニット群候補・音ユニット候補Ｎグラムを生成する。ここで、区切りデータ生成部１２３は、音ユニット系列に代えて各距離候補について生成した音ユニット候補系列について、ステップＳ４０３からステップＳ４０６（図１６参照）に示す処理を行う。その後、ステップＳ２０２ａに進む。

（ステップＳ２０２ａ）ラベルデータ生成部１２２は、区切りデータ生成部１２３が各距離候補について生成した区切りデータに基づいて、出現確率ｐ（ｃ_ｍ｜ｚ_ｋ）を算出する。ここで、ラベルデータ生成部１２２は、例えば、区切りデータが示す音ユニット群候補ｚ_ｋを形成する１個又は複数の音ユニット候補のうち音ユニット候補ｃ_ｍの出現確率を、音ユニット群候補ｚ_ｋの出現確率で除算して出現確率ｐ（ｃ_ｍ｜ｚ_ｋ）を算出することができる。次に、ラベルデータ生成部１２２は、算出した出現確率を各行の要素として有する出現確率ベクトル［β_ｍ］を音ユニット候補ｍ毎に算出する。その後、ラベルデータ生成部１２２は、各距離候補について算出した［β_ｍ］の分散σ_ｌを算出する。次に、ラベルデータ生成部１２２は、算出した分散σ_ｌが最大となる距離候補Ｄ_ｌを選択する。ラベルデータ生成部１２２は、選択した距離候補Ｄ_ｌに係る音ユニットの候補を選択する。その後、ステップＳ２０４ｂに進む。

（ステップＳ２０４ｂ）区切りデータ生成部１２３は、生成した区切りデータのうち、ラベルデータ生成部１２２が選択した距離候補Ｄ_ｌに係る区切りデータを選択し、選択した区切りデータを区切りデータ記憶部１０５に記憶する。その後、ステップＳ２０３に進む。
ステップＳ２０３が終了した後、ステップＳ２０６に進む。その後、図１７に示す処理を終了する。

なお、ステップＳ２０２ａにおいて、ラベルデータ生成部１２２は、各距離候補について生成した音ユニット候補系列に基づいてＬＤＡ法を用いて出現確率ベクトル［β_ｍ］を音ユニット候補ｍ毎に算出してもよい。ＬＤＡ法を用いる際、区切りデータ生成部１２３が生成した区切りデータで指定されている音ユニット候補を用いてもよい。
このように、クラスタ重心間の距離候補毎に生成されたラベルデータと区切りデータに基づいて、音ユニット候補及び音ユニット候補毎の頻度が算出され、その頻度の分散が最も大きくなるように音ユニット及び音ユニット候補が定められる。そのため、音ユニットや音ユニット候補の数が過大になることなく、多様な一般音データの音響的な特徴を十分に説明することができる。

なお、上述した例では、ラベルデータ生成部１２２は、算出した分散σ_ｌが最大となる距離候補Ｄ_ｌを選択する場合を例にとって説明した（図１０、ステップＳ３１０参照）。そして、ラベルデータ生成部１２２は、選択された距離候補Ｄ_ｌに応じて音響特徴量ベクトルをクラスタリングして音響特徴量ベクトルのベクトル空間をＭ個のクラスタに分割し、クラスタ毎に音ユニット（Ｍ個）のラベルを特定する。本実施形態では、これには限られず、ラベルデータ生成部１２２は、選択された距離候補Ｄ_ｌのうち一般音データから算出されるイベント間の出現確率（認識尤度）の平均値が、所定の平均値の閾値よりも大きくなる距離候補Ｄ_ｌを選択してもよい。

そのような距離候補Ｄ_ｌが複数個ある場合には、ラベルデータ生成部１２２は、その複数の距離候補Ｄ_ｌにおいて出現確率が最も高い距離候補Ｄ_ｌを選択してもよい。ここで、ラベルデータ生成部１２２は、距離候補Ｄ_ｌ毎に音響特徴量ベクトルをクラスタリングして音響特徴量ベクトルのベクトル空間をクラスタに分割し、クラスタ毎に音ユニット候補のラベルを特定してラベルデータを生成する処理を先行する。その後、区切りデータ生成部１２３は、特定されたラベルテータに基づいて生成した音ユニット候補系列を用いて区切りデータを生成する（図１７、ステップＳ２０４ａ参照）。そして、ラベルデータ生成部１２２は、一般音データに含まれるイベント毎の音響信号について、生成したラベルデータと区切りデータを用いて音ユニット群候補系列を生成し、その出現確率を算出する（図１、区切り決定部１０６参照）。これにより、同定されるイベントの正解率を向上させることができる。

以上、説明したように、本実施形態に係る音響認識装置（例えば、音響認識装置１）は、入力された音響信号に基づいて音響特徴量を算出する音響特徴量算出部（例えば、音響特徴量算出部１０２）を備える。また、本実施形態に係る音響認識装置は、音響特徴量と音の構成単位である音ユニットを示すラベルとの対応を示すラベルデータを参照して、前記音響特徴量に対応するラベルに変換するラベル変換部（例えば、ラベル変換部１０４）を備える。また、本実施形態に係る音響認識装置は、少なくとも１個の音ユニットからなる音ユニット系列を少なくとも１個の音ユニット群に区切る確率を示す区切りデータを参照して、前記ラベルから形成されるラベル系列が音ユニット群毎に区切られた音ユニット群系列毎の確率を算出し、算出した確率に基づいて選択した音ユニット群系列に対応した音響イベントを、音響イベント毎の音ユニット群系列を示す音響イベントデータを参照して同定する音響同定部（例えば、音響同定部１１０）を備える。
音響イベントデータは、音響イベントと音ユニット群系列とが対応付けられたデータテーブルとして構成されていてもよい（図５参照）。

これにより、入力された音響信号の音響的な特徴が、音響的な特徴の時間的な変化を示す音ユニット群毎に区切られた音ユニット群系列で示される。本実施形態に係る音響認識装置により、算出した確率に基づいて選択した音ユニット群系列に応じた音響イベントが選択される。そのため、本実施形態に係る音響認識装置は、多様な音響的性質を有する一般音を認識することができる。音響イベントとして、例えば、目覚まし時計等の機器が発する報知音の種別、機器が発する動作音に応じた動作状態、環境音に応じた環境、等が認識される。

（第２の実施形態）
以下、図面を参照しながら本発明の第２実施形態について説明する。上述と同一の構成については、同一の符号を付して説明を援用する。
図１８は、本実施形態に係る音響認識装置１ａの構成を示すブロック図である。
音響認識装置１ａは、音響信号入力部１０１、音響特徴量算出部１０２、ラベルデータ記憶部１０３、ラベル変換部１０４、認識データ出力部１０９、音響同定部１１０ａ、及びモデルデータ生成部１２０を含んで構成される。即ち、音響認識装置１ａは、音響認識装置１（図１）において音響同定部１１０に代えて音響同定部１１０ａを備える。
音響同定部１１０ａは、区切りデータ記憶部１０５、区切り決定部１０６、イベントデータ記憶部１０７、及びイベントデータ照合部１０８ａを含んで構成される。即ち、音響同定部１１０ａは、音響同定部１１０においてイベントデータ照合部１０８（図１）に代えてイベントデータ照合部１０８ａを備える。

イベントデータ照合部１０８ａは、イベントデータ照合部１０８（図１）と同様な処理を行う他、区切り決定部１０６から入力された音ユニット群系列と各イベントデータが示す音ユニット群系列との照合において、あいまい検索を行ってもよい。あいまい検索では、イベントデータ照合部１０８ａは、ラベルデータ記憶部１０３に記憶されたラベルデータを参照して、ある１つの音ユニット（第１音ユニット）と、第１音ユニットのクラスタ重心から近似するＮ_Δ（Ｎ_Δは予め定めた整数、例えば１）個のクラスタ重心に係る音ユニットとを互いに同一の音ユニットとみなす。近似するＮ_Δ個のクラスタ重心に係る音ユニットとは、第１音ユニットのクラスタ重心に最も近似するクラスタ重心に係る音ユニット（第２音ユニット）からＮ_Δ番目に近似するクラスタ重心に係る音ユニット（第Ｎ_Δ＋１音ユニットである。つまり、イベントデータ照合部１０８ａは、第１音ユニットと同一とみなされたＮ_Δ個の音ユニットのいずれかと、を交換して生成された音ユニット群系列のそれぞれについて各イベントデータが示す音ユニット群系列と照合を行う。近似の度合いを評価する指標は、例えば、ユークリッド距離である。ゆえに、Ｎ_ｄ個の音ユニットを含む１つの音ユニット群系列については、イベントデータ照合部１０８ａは、Ｎ_ｄ ^ＮΔ＋１個の候補系列と各イベントデータが示す音ユニット群系列との照合を行う。

一例として、入力された音ユニット群系列［ｃ_ｄ’］がｃ_１ｃ_２｜ｃ_３（ｃ_１等は音ユニット、｜は、区切り）であって、ｃ_１とｃ_２とが同一、ｃ_３とｃ_４とが互いに同一とみなされる場合（Ｎ_Δ＝１）を考える。このとき、イベントデータ照合部１０８ａは、各イベントデータが示す音ユニット群系列との照合において、次の８種類の候補系列を用いる：がｃ_１ｃ_１ｃ_３、ｃ_２ｃ_１ｃ_３、ｃ_１ｃ_２ｃ_３、ｃ_２ｃ_２ｃ_３、ｃ_１ｃ_１ｃ_４、ｃ_２ｃ_１ｃ_４、ｃ_１ｃ_２ｃ_４、ｃ_２ｃ_２ｃ_４。ここで、イベントデータ照合部１０８は、照合において区切りを無視してもよい。これにより、雑音が混入した音響信号が音響信号入力部１０１に入力される場合であっても、雑音に対する耐性を強化することができる。

ここで、イベントデータ照合部１０８ａは、ラベルデータ記憶部１０３に記憶されたラベルデータを参照して、第１音ユニットと、そのクラスタ重心からの距離が予め定めた距離の範囲内にあるクラスタ重心に係る他の音ユニットと、を互いに同一の音ユニットとみなしてもよい。その場合、イベントデータ照合部１０８ａは、第１音ユニットと同一とみなされた他の音ユニットとが互いに入れ替えられた音ユニット群系列のそれぞれについて各イベントデータが示す音ユニット群系列と照合を行う。そのため、雑音等により音響的な特徴が変化しても、同一とみなされる音ユニットについて第１音ユニットに係るイベントが選択される。つまり、雑音等による耐性が高くなることにより、イベントの認識率の低下が防止される。

また、イベントデータ照合部１０８ａは、区切りを無視せずに音ユニットを入れ替えて形成された候補系列について、区切りデータ記憶部１０５に記憶した区切りデータを参照して、出現確率を再計算してもよい。そして、再計算した出現確率が所定の確率、例えば、もとの音ユニット群系列の１／１０よりも高い候補系列のみについて音ユニット群系列と照合してもよい。これにより、認識率を低下させずに照合に係る処理量を低減することができる。

なお、ラベルデータ記憶部１０３には、対応するクラスタ重心間の距離が予め定めた距離の範囲内にある音ユニットの組である音ユニットセットを示す音ユニットセットデータを予め記憶させておいてもよい。ここで、イベントデータ照合部１０８ａは、音ユニットセットデータを参照して、第１の音ユニットと同一の音ユニットセットに属するその他の音ユニットを特定してもよい。そして、イベントデータ照合部１０８ａは、第１音ユニットとその他の音ユニットとが互いに入れ替えられた音ユニット群系列のそれぞれについて各イベントデータが示す音ユニット群系列と照合を行ってもよい。

以上、説明したように、本実施形態に係る音響認識装置（例えば、音響認識装置１ａ）は、上述の実施形態に係る音響認識装置（例えば、音響認識装置１）と同様な構成を備えるとともに、本実施形態に係る音響認識装置の音響同定部（例えば、音響同定部１１０ａ）は、前記選択した音ユニット群系列を形成する音ユニットのうち、クラスタ間の距離が所定の距離よりも小さいクラスタのそれぞれに対応する音ユニットを相互に交換して生成した音ユニット群系列に対応した音響イベントを同定する。
これにより、音響的な性質が近似した音ユニット同士を交換して音ユニット群系列の候補が生成される。そのため、本実施形態に係る音響認識装置は、雑音等により入力された音響信号の音響的な特徴が変動しても所望の音響イベントを同定することができ、雑音等による耐性が向上する。

（音ユニット系列、音ユニット群系列の例）
次に、ラベル変換部１０４から出力される音ユニット系列、区切り決定部１０６から出力される音ユニット群系列の例を示す。
図１９は、ラベル変換部１０４から出力される音ユニット系列、区切り決定部１０６から出力される音ユニット群系列の一例を示す図である。
図１９は、紙面に対して上段から下段の順に、（ａ）に入力音響信号、（ｂ）にスペクトログラム、（ｃ）に音ユニット系列、（ｄ）に音ユニット群系列を示す。図１９（ａ）、（ｂ）、（ｃ）、（ｄ）の縦軸は、それぞれ振幅、周波数、音ユニットの番号、音ユニットの番号を示す。横軸はいずれも時刻を示す。この例では、イベントは電話の着信音である。

ここで、入力音響信号は、音響信号入力部１０１に入力される音響信号であり、時刻による振幅の変化を示す。スペクトログラムは、入力音響信号の周波数毎のパワーである。パワーの大きさは濃淡で示されている。濃く示されている部分ほどパワーが大きく、薄く示されている部分ほどパワーが小さい。音ユニット系列として、各時刻における音ユニットがプロットで示されている。音ユニット群系列として、プロットを結ぶ線で示されている。それぞれ１つの線で結ばれている複数の音ユニットが１つの音ユニット群を形成していることを示す。つまり、線で結ばれていない互いに隣接するプロットは、それらの間に区切りがあることを示す。
図１９（ａ）は、時刻が０．１−１．１２秒の間、着信音が発生し、約０．０６秒周期で入力音響信号の波形が反復していることを示す。図１９（ｂ）−（ｄ）は、入力音響信号に応じて、スペクトログラム、音ユニット、音ユニット群も約０．０６秒周期で反復していることを示す。

図２０は、ラベル変換部１０４から出力される音ユニット系列、区切り決定部１０６から出力される音ユニット群系列の他の例を示す図である。
図２０（ａ）−（ｄ）がそれぞれ示す情報、縦軸、横軸の関係は、図１９（ａ）−（ｄ）と同様である。但し、この例では、イベントは拍手である。

図２０（ａ）は、入力音響信号の振幅は、時刻０．１秒、３．１秒において、突発的に
変化し、０と有意に異なる振幅を有する区間の長さが０．００８秒と極めて狭いことを示す。それらの前後の時刻では、振幅は、ほぼ０である。図２０（ｂ）は、入力音響信号よりも広い区間でパワーが有意に０と異なる区間が広いことを示す。これは、スペクトログラムが、所定の時間間隔を有するフレーム毎に算出されるためである。図２０（ｃ）は、パワーが有意に０と異なる区間で、番号が０以外の有意な音ユニットが選択されていることを示す。図２０（ｄ）は、入力音響信号のパワーが０と有意に異なる振幅を有する区間が、それぞれ音ユニット群として区切られたことを示す。

（評価結果）
次に、上述した音響認識装置１ａを用いて評価実験を行って得られた評価結果について説明する。評価実験は、残響時間が０．２秒の実験室内で行った。実験室のほぼ中央に人型ロボット（以下、単にロボットと呼ぶ）が設置され、ロボットの頭部にマイクロホンを内蔵し、音響認識装置１ａをロボットの胴体部に内蔵しておいた。ここで、マイクロホンが収録した音響信号は、音響信号入力部１０１に入力される。マイクロホンから１ｍ離れた位置に、音（イベント）を発生させるために用いる音源を設置した。

音響信号入力部１０１に入力される音響信号のサンプリング周波数は１６ｋＨｚであり、各サンプルは１６ビットの振幅値を示すデータで形成される。音響特徴量ベクトルを算出する際のフレーム長、シフト長は、それぞれ５１２サンプル、１６０サンプルである。ラベルデータ、区切りデータ、イベントデータを事前学習によって生成する際に用いる一般音データ（学習用データセット）や、音源から音を発生させるために用いる音響信号（評価用データセット）として、次のデータを用いた。（１）環境音データセット：ＲＷＣＰ−ＳＳＤ（ＲｅａｌＷｏｒｌｄＣｏｍｐｕｔｉｎｇＰａｒｔｎｅｒｓｈｉｐ−ＳｏｕｎｄＳｐｅａｃｈＤａｔａｂａｓｅ）各４分間の９２種類の環境音データ（例えば、電話の着信音、拍手、等）を含む。（２）音楽データセット：ＲＷＣ−ＭＤＢ−Ｇ（ＲｅａｌＷｏｒｌｄＣｏｍｐｕｔｉｎｇ−ＭｕｓｉｃＤａｔａｂａｓｅ−Ｇ）各５分間の３２種類の音楽データ（例えば、ポピュラー音楽、バレエ音楽、等）を含む。（３）音声データセット：ＡＴＲ（ＡｄｖａｎｃｅｄＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＲｅｓｅａｒｃｈＩｎｓｔｉｔｕｔｅＩｎｔｅｒｎａｔｉｏｎａｌ）ｄａｔａｓｅｔ５名の男性話者、５名の女性話者がそれぞれ発声した２１６単語の音声を含む。

事前学習及び評価において、これらのデータセットについてＫ−分割交差検定を行った。交差検定では、データセットをＫ（Ｋは、１より大きい整数、ここでは、Ｋ＝５）個に分割し、Ｋ−１個のデータセットを用いて事前学習を行い、残りの１個のデータセットを用いて評価を行った。但し、事前学習においては、雑音がない環境でのデータ（クリーン音声）のみを用いた。評価は、ロボットが備えるファンの動作音を雑音とし、そのＳＮ比を複数段階に設定して行われた。ＳＮ比（ｄＢ）は、２０ｌｏｇ１０（π_ｓ／（１−π_ｓ））で与えられるが、制御パラメータπ_ｓを１、０．９５、０．９、０．８５、０．８、０．７、０．５、０．３の８通りに設定した。このとき、ＳＮ比は、それぞれ、∞（雑音なし）、１２．８、９．５、７．５、６．０、３．７．０．０、−３．７となる。

事前学習及び評価では、統計モデルで構成されるラベルデータ、区切りデータを学習し、学習したラベルデータ、区切りデータを評価に用いた。第１の評価実験では、本実施形態でＬＤＡ法を行って定めた音ユニットによる雑音耐性（ロバスト性）を評価するために、統計モデルとしてＧＭＭを用いた場合（本実施形態）、統計モデルとしてＧＭＭを用い手動でラベルを付したもの（ＧＭＭ−Ｓ）を用いた場合とで評価結果を比較する。本実施形態では、音ユニットの数Ｍは９６である。ＧＭＭ−Ｓでは、音ユニットの数を１２６とした。この１２６という数は、データセットに含まれるイベントの数の合計値（２＋３２＋９２）である。評価結果として、各イベントの平均フレーム正解率を用いた。

図２１は、平均フレーム正解率の一例を示す図である。
図２１において、最左列から右側に順に、ＳＮ比、ＧＭＭ−Ｓ、本実施形態を示す。
ＳＮ比が∞である場合には、ＧＭＭ−Ｓの正解率の方が８２．１％と本実施形態の７４．１％が高いが、その他の場合では、本実施形態の正解率の方がＧＭＭ−Ｓの正解率よりも２−９％高い。例えば、ＳＮ比が６．０ｄＢの場合には、本実施形態の正解率は３３．４％と、ＧＭＭ−Ｓの正解率の２４．１％よりも高い。この結果は、本実施形態により雑音耐性が向上することを示す。

第２の評価実験では、本実施形態で区切りデータを用いて定めた音ユニット群による雑音耐性を評価するために、本実施形態、統計モデルとしてＨＭＭを用いてユニグラムを適用した場合（ＭＯＮＯ−Ｄ、モノフォンモデル）、その場合においてあいまい検索（図１８、イベントデータ照合部１０８ａ参照）を行った場合（ＭＯＮＯ−Ｐ）とで平均フレーム正解率を評価結果として比較する。ユニグラムを適用したとは、区切りデータにおいてユニグラム（音ユニット群単独の生起確率）よりも高次の生起確率を用いないことを意味する。ここで、ＨＭＭにおける状態数、混合数を１、１６とした。

図２２は、平均フレーム正解率の他の例を示す図である。
図２２において、最左列から右側に順に、ＳＮ比、本実施形態、ＭＯＮＯ−Ｄ、ＭＯＮＯ−Ｐを示す。
ＭＯＮＯ−Ｄでは、ＳＮ比にかかわらず本実施形態よりも正解率が２−９％低下する。例えば、ＳＮ比が９．５ｄＢの場合、本実施形態での正解率は４１．７％であるのに対し、ＭＯＮＯ−Ｄでは、３３．３％となる。これは、モデルにおいて高次の生起確率が考慮されないため、音ユニット群間の時間変化が表されないことによる。

ＭＯＮＯ−Ｐでは、ＭＯＮＯ−Ｄでの正解率よりも７−１４％正解率が向上する。例えば、ＳＮ比が１２．８ｄＢの場合、ＭＯＮＯ−Ｐでの正解率は４２．５％であるのに対し、ＭＯＮＯ−Ｄでの正解率は、５３．１％と、本実施形態の正解率５０．１％を上回る。ＭＯＮＯ−Ｐでは、ＳＮ比が∞である場合を除き、本実施形態、ＧＭＭ−Ｓよりも正解率がそれぞれ、５−１３％、５−１８％高くなる。この結果は、イベントデータ照合部１０８ａでのあいまい検索により、雑音耐性を向上できることを示す。

一般音を同定するために用いるモデルデータを生成する処理は、人手で行われることがあったが、その作業量は一般に膨大である。上述したモデルデータ生成処理（図７、図１７参照）を行うことでモデルデータを効率的に生成することができる。本実施形態では、モデルデータとして人間の音声よりも多様な特徴を有する一般音の特徴を十分に表現できる音ユニットを示すラベルデータと、その音ユニットや音ユニットの時系列を示す音ユニット群の統計的性質を示す区切りデータを生成する。これにより、生成したモデルデータを用いることで、人手で作成したモデルデータを用いる場合よりも正解率を得ることができる。

なお、上述ではラベルデータがカテゴリ毎のカテゴリ重心を示すデータを含む場合を例にとって説明したが、これには限られない。ラベルデータは、音響特徴量ベクトルを複数のカテゴリのいずれかに分類することができるデータであればよい。例えば、ラベルデータは、音響特徴量ベクトルのベクトル空間において隣接するカテゴリ間の境界を示すデータであってもよい。

また、上述では、ラベル変換部１０４、イベントデータ照合部１０８ａ、ラベルデータ生成部１２２が、距離の指標としてユークリッド距離を用いる場合を例にとったが、これには限られない。ラベル変換部１０４、イベントデータ照合部１０８ａ、ラベルデータ生成部１２２は、距離の指標として、その他の指標を用いてもよい。その他の指標には、例えば、ユークリッド距離を一般化したミンコフスキー距離（Ｍｉｎｋｏｗｓｋｉｄｉｓｔａｎｃｅ）、マハラノビス汎距離（Ｍａｈａｒａｎｏｂｉｓ’ｇｅｎｅｒａｌｉｚｅｄｄｉｓｔａｎｃｅ）、等を用いてもよい。

また、音響認識装置１、１ａは、入力された音響信号が、人間が発生した音声であるか否かを判定する音声判定部を備えてもよい。そして、ラベルデータ記憶部１０３にはラベルデータの他に従来の音声認識処理で用いられる音響モデルが記憶されていてもよい。また、区切りデータ記憶部１０５には区切りデータの他に従来の音声認識処理で用いられる言語モデルが記憶されていてもよい。音声判定部は、例えば、音響信号のパワーが予め定めたパワーの閾値よりも大きく、かつ、音響信号の単位時間当たりの零交差数が予め定めた範囲内である場合に音声と判定し、それ以外の場合に非音声と判定する。零交差数とは、振幅が０よりも小さい負値から０よりも大きい正値に変化する回数と、正値から負値に変化する回数との合計数である。そして、音声判定部が非音声と判定した場合には、ラベル変換部１０４がラベルデータを用いて音ユニット系列を生成し、区切り決定部１０６は区切りデータを用いて音ユニット群系列を生成する。音声判定部が音声と判定した場合には、ラベル変換部１０４が音響モデルを用いて音素列を生成し、区切り決定部１０６は言語モデルを用いて単語列を生成する。区切り決定部１０６は、生成した単語列を認識データとして認識データ出力部１０９を介して、音響認識装置１、１ａの外部に出力する。これにより、音声が入力された場合には、発話内容を示す認識データが出力され、非音声が入力された場合には、イベントを示す認識データが出力される。

なお、上述した実施形態及び変形例における音響認識装置１、１ａの一部、例えば、音響特徴量算出部１０２、ラベル変換部１０４、区切り決定部１０６、及びイベントデータ照合部１０８をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、音響認識装置１、１ａに内蔵されたコンピュータシステムであって、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態及び変形例における音響認識装置１、１ａの一部、または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現してもよい。音響認識装置１、１ａの各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

１、１ａ…音響認識装置、
１０１…音響信号入力部、１０２…音響特徴量算出部、１０３…ラベルデータ記憶部、
１０４…ラベル変換部、１０５…区切りデータ記憶部、１０６…区切り決定部、
１０７…イベントデータ記憶部、１０８、１０８ａ…イベントデータ照合部、
１０９…認識データ照合部、１１０、１１０ａ…音響同定部、
１２０…モデルデータ生成部、１２１…一般音データ取得部、
１２２…ラベルデータ生成部、１２３…区切りデータ生成部、
１２４…イベントデータ生成部

Claims

音響信号に基づいて音響特徴量を算出する音響特徴量算出部と、
音響特徴量と音の構成単位である音ユニットを示すラベルとの対応を示すラベルデータを参照して、前記音響特徴量算出部が算出した音響特徴量に対応するラベルに変換するラベル変換部と、
少なくとも１個の音ユニットからなる音ユニット系列を少なくとも１個の音ユニット群に区切る確率を示す区切りデータを参照して、前記ラベル変換部が変換したラベルから形成されるラベル系列が音ユニット群毎に区切られた音ユニット群系列毎の確率を算出し、算出した確率に基づいて選択した音ユニット群系列に対応した音響イベントを、音響イベント毎の音ユニット群系列を示す音響イベントデータを参照して同定する音響同定部と
を備える音響認識装置。
前記ラベルデータは、前記音響特徴量の空間の一部であるクラスタと前記ラベルとの対応を示し、前記音ユニット群に前記音ユニットが現れる頻度の分散が、所定の分散よりも大きいことを特徴とする請求項１に記載の音響認識装置。
前記区切りデータは、前記音ユニット群の出現確率と、少なくとも１個の前記音ユニット群が与えられているときに次の音ユニット群の出現確率を示す確率モデルであることを特徴とする請求項１又は２に記載の音響認識装置。
前記音響同定部は、前記選択した音ユニット群系列を形成する音ユニットのうち、クラスタ間の距離が所定の距離よりも小さいクラスタのそれぞれに対応する音ユニットを相互に交換して生成した音ユニット群系列に対応した音響イベントを同定することを特徴とする請求項１から３のいずれかに記載の音響認識装置。
音響認識装置における音響認識方法において、
前記音響認識装置が、
音響信号に基づいて音響特徴量を算出する音響特徴量算出過程と、
ラベルデータ記憶部に記憶された音響特徴量と音の構成単位である音ユニットを示すラベルとの対応を示すラベルデータを参照して、前記音響特徴量に対応するラベルに変換するラベル変換過程と、
区切りデータ記憶部に記憶された少なくとも１個の音ユニットからなる音ユニット系列を少なくとも１個の音ユニット群に区切る確率を示す区切りデータを参照して、前記ラベルから形成されるラベル系列が音ユニット群毎に区切られた音ユニット群系列毎の確率を算出し、算出した確率に基づいて選択した音ユニット群系列に対応した音響イベントを、イベント記憶部に記憶された音響イベント毎の音ユニット群系列を示す音響イベントデータを参照して同定する音響同定過程と
を有する音響認識方法。
音響認識装置のコンピュータに、
音響信号に基づいて音響特徴量を算出する音響特徴量算出手順、
ラベルデータ記憶部に記憶された音響特徴量と音の構成単位である音ユニットを示すラベルとの対応を示すラベルデータを参照して、前記音響特徴量に対応するラベルに変換するラベル変換手順、
区切りデータ記憶部に記憶された少なくとも１個の音ユニット音系列を少なくとも１個の音ユニット群に区切る確率を示す区切りデータを参照して、前記ラベルから形成されるラベル系列が音ユニット群毎に区切られた音ユニット群系列毎の確率を算出し、算出した確率に基づいて選択した音ユニット群系列に対応した音響イベントを、イベント記憶部に記憶された音響イベント毎の音ユニット群系列を示す音響イベントデータを参照して同定する音響同定過程手順、
を実行させるための音響認識プログラム。