JP6085538B2 - 音響認識装置、音響認識方法、及び音響認識プログラム - Google Patents

音響認識装置、音響認識方法、及び音響認識プログラム Download PDF

Info

Publication number
JP6085538B2
JP6085538B2 JP2013181521A JP2013181521A JP6085538B2 JP 6085538 B2 JP6085538 B2 JP 6085538B2 JP 2013181521 A JP2013181521 A JP 2013181521A JP 2013181521 A JP2013181521 A JP 2013181521A JP 6085538 B2 JP6085538 B2 JP 6085538B2
Authority
JP
Japan
Prior art keywords
sound
unit
label
sound unit
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013181521A
Other languages
English (en)
Other versions
JP2015049398A (ja
Inventor
圭佑 中村
圭佑 中村
一博 中臺
一博 中臺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2013181521A priority Critical patent/JP6085538B2/ja
Priority to US14/468,576 priority patent/US9911436B2/en
Publication of JP2015049398A publication Critical patent/JP2015049398A/ja
Application granted granted Critical
Publication of JP6085538B2 publication Critical patent/JP6085538B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音響認識装置、音響認識方法、及び音響認識プログラムに関する。
音は、人間が発声した音声と、それ以外の音に分けられる。それ以外の音は、一般音と呼ばれ言語情報を有しない。一般音には、機器の動作に伴って発生する動作音、物体同士が接触することによって発生する物音等の環境音や歌詞を伴わない楽音が含まれる。一般音は、音源としての物体、事象、動作状態、等を把握するための手掛かりとして用いられることがある。なお、人間が発生した音声であっても、その音声が表現する言語情報を無視し音源としての物体、事象、状態を識別するために用いられれば、その音声も一般音に含まれることがある。
例えば、特許文献1に記載の監視システムは、複数のマイクによって周囲の音を観測することにより、複数の音源から発せられた音が混合された観測音を表現する信号を取得する。そして、音源毎の分離信号を生成し、雑音除去回路を経て、音認識回路によって音源毎の分離信号によって表現される音が目的の環境音であるか否かを判定する。
また、特許文献2に記載の画像処理装置では、音声データにブラインド音源分離処理を行い、各音源の音声データを抽出し、音源の方向を示す方向データを生成する。また、当該画像処理装置は、各音源の音声が、人の発話ではない環境音であるか否かを判別し、環境音をテキスト化し、テキスト化された環境音に基づいて、環境音を視覚的に提示するエフェクト画像を生成し、コンテンツ画像上にエフェクト画像をオーバーレイする。当該画像処理装置は、環境音をテキスト化する環境音識別部を備える。
特開2008−241991号公報 特開2011−250100号公報
しかしながら、特許文献2に記載の画像処理装置の環境音識別部は、人間が発話した音声について行われる音声認識処理と同様の処理を行う。即ち、当該環境音識別部は、音声データから特徴量を抽出し、音素などの単位毎の音響的な特徴を表す音響モデルを用いてマッチングを行う。他方、一般音は、物体、事象、動作状態などによって特徴(例えば、周波数特性、時間変動、等)が大きく異なり、音素毎の音響的な特徴では説明し切れない。そのため、多様な一般音を認識することができなかった。
本発明は上記の点に鑑みてなされたものであり、多様な一般音を認識することができる音響認識装置、音響認識方法、及び音響認識プログラムを提供する。
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、音響信号に基づいて音響特徴量を算出する音響特徴量算出部と、音響特徴量と音の構成単位である音ユニットを示すラベルとの対応を示すラベルデータを参照して、前記音響特徴量算出部が算出した音響特徴量に対応するラベルに変換するラベル変換部と、少なくとも1個の音ユニットからなる音ユニット系列を少なくとも1個の音ユニット群に区切る確率を示す区切りデータを参照して、前記ラベル変換部が変換したラベルから形成されるラベル系列が音ユニット群毎に区切られた音ユニット群系列毎の確率を算出し、算出した確率に基づいて選択した音ユニット群系列に対応した音響イベントを、音響イベント毎の音ユニット群系列を示す音響イベントデータを参照して同定する音響同定部と、を備える音響認識装置である。
(2)本発明の他の態様は、(1)の音響認識装置であって、前記ラベルデータは、前記音響特徴量の空間の一部であるクラスタと前記ラベルとの対応を示し、前記音ユニット群に前記音ユニットが現れる頻度の分散が、所定の分散よりも大きいことを特徴とする。
(3)本発明の他の態様は、(1)又は(2)の音響認識装置であって、前記区切りデータは、前記音ユニット群の出現確率と、少なくとも1個の前記音ユニット群が与えられているときに次の音ユニット群の出現確率を示す確率モデルであることを特徴とする。
(4)本発明の他の態様は、(1)から(3)のいずれかの音響認識装置であって、前記音響同定部は、前記選択した音ユニット群系列を形成する音ユニットのうち、クラスタ間の距離が所定の距離よりも小さいクラスタのそれぞれに対応する音ユニットを相互に交換して生成した音ユニット群系列に対応した音響イベントを同定することを特徴とする。
(5)本発明の他の態様は、音響認識装置における音響認識方法において、前記音響認識装置は、音響信号に基づいて音響特徴量を算出する音響特徴量算出過程と、ラベルデータ記憶部に記憶された音響特徴量と音の構成単位である音ユニットを示すラベルとの対応を示すラベルデータを参照して、前記音響特徴量に対応するラベルに変換するラベル変換過程と、区切りデータ記憶部に記憶された少なくとも1個の音ユニットからなる音ユニット系列を少なくとも1個の音ユニット群に区切る確率を示す区切りデータを参照して、前記ラベルから形成されるラベル系列が音ユニット群毎に区切られた音ユニット群系列毎の確率を算出し、算出した確率に基づいて選択した音ユニット群系列に対応した音響イベントを、イベント記憶部に記憶された音響イベント毎の音ユニット群系列を示す音響イベントデータを参照して同定する音響同定過程と、を有する音響認識方法である。
(6)本発明の他の態様は、音響認識装置のコンピュータに、音響信号に基づいて音響特徴量を算出する音響特徴量算出手順、ラベルデータ記憶部に記憶された音響特徴量と音の構成単位である音ユニットを示すラベルとの対応を示すラベルデータを参照して、前記音響特徴量に対応するラベルに変換するラベル変換手順、区切りデータ記憶部に記憶された少なくとも1個の音ユニット音系列を少なくとも1個の音ユニット群に区切る確率を示す区切りデータを参照して、前記ラベルから形成されるラベル系列が音ユニット群毎に区切られた音ユニット群系列毎の確率を算出し、算出した確率に基づいて選択した音ユニット群系列に対応した音響イベントを、イベント記憶部に記憶された音響イベント毎の音ユニット群系列を示す音響イベントデータを参照して同定する音響同定過程手順、を実行させるための音響認識プログラムである。
上述した(1)、(5)又は(6)の構成によれば、入力された音響信号の音響的な特徴は、その時間的な変化を示す音ユニット群毎に区切られた音ユニット群系列で示される。そして、算出した確率に基づいて選択した音ユニット群系列に応じた音響イベントが同定される。そのため、多様な音響的な性質を有する一般音を認識することが可能になる。
上述した(2)の構成によれば、入力された音響信号の音響的な特徴を、音ユニットで十分に表現できるため、一般音の認識率を向上させることができる。
上述した(3)の構成によれば、入力された音響信号に基づいて得られた音ユニット群系列の出現確率を逐次に算出することができるため、処理量を低減し処理の高速化を図ることができる。
上述した(4)の構成によれば、音響的な性質が近似した音ユニット同士を交換して音ユニット群系列の候補が生成されるので、雑音等により入力された音響信号の音響的な特徴が変動しても所望の音響イベントを同定することができる。
本発明の第1の実施形態に係る音響認識装置の構成を示すブロック図である。 ラベルデータの例を示す図である。 区切りデータの一部の例を示す図である。 区切りデータの他の一部の例を示す図である。 イベントデータの例を示す図である。 本実施形態に係る音響認識処理を示すフローチャートである。 本実施形態に係るモデルデータを生成する処理の一例を示すフローチャートである。 本実施形態に係る音ユニット候補決定処理を示すフローチャートである。 生成されたヒストグラムの一例を示す図である。 本実施形態に係る音ユニット決定処理を示すフローチャートである。 音響特徴量ベクトルのクラスタの例を示す図である。 出現確率の例を示す図である。 LDA法の概念図である。 LDA法のグラフィカルモデルを示す。 NPY過程で生成されるNPYモデルの例を示す図である。 本実施形態に係る区切りデータ生成処理を示すフローチャートである。 本実施形態に係るモデルデータを生成する処理の変形例を示すフローチャートである。 本発明の第2の実施形態に係る音響認識装置の構成を示すブロック図である。 音ユニット系列、音ユニット群系列の一例を示す図である。 音ユニット系列、音ユニット群系列の他の例を示す図である。 平均フレーム正解率の一例を示す図である。 平均フレーム正解率の他の例を示す図である。
(第1の実施形態)
以下、図面を参照しながら本発明の第1の実施形態について説明する。
図1は、本実施形態に係る音響認識装置1の構成を示すブロック図である。
音響認識装置1は、音響信号入力部101、音響特徴量算出部102、ラベルデータ記憶部103、ラベル変換部104、認識データ出力部109、音響同定部110、及びモデルデータ生成部120を含んで構成される。音響同定部110は、区切りデータ記憶部105、区切り決定部106、イベントデータ記憶部107、及びイベントデータ照合部108を含んで構成される。
音響信号入力部101は、音響認識装置1の外部から入力された音響信号を音響特徴量算出部102に出力する。音響信号入力部101は、例えば、データ入力インタフェースである。
音響特徴量算出部102は、音響信号入力部101から入力された音響信号に基づいて予め定めた時間(例えば、30ms)のフレーム毎に、その音の物理的な特徴を示す音響特徴量を算出する。音響特徴量算出部102が算出する音響特徴量は、例えば、41次元の音響特徴量ベクトルである。この音響特徴量ベクトルは、13次のメルスケール対数スペクトル(MSLS:Mel Scale Log Sprctrum)、13次のMSLSの一次回帰係数、13次のMSLSの2次回帰係数、パワーの一次差分、及びその2次差分である。MSLSは、(MFCC:Mel Frequency Cepstrum Coefficients)を逆離散コサイン変換して算出することができる。MSLSやその回帰係数からなる音響特徴量ベクトルを用いることで高い雑音耐性を得ることができる。音響特徴量算出部102は、算出した音響特徴量ベクトルをラベル変換部104に出力する。
ラベルデータ記憶部103には、ラベルとクラスタ重心とを対応づけたデータであるラベルデータが予め記憶されている。ラベルは、音の基本単位である音ユニットを識別する識別データである。音ユニットは、人間が発声した音声の音韻に相当する単位である。クラスタ重心は、音響特徴量ベクトルのベクトル空間における重心であって、各音ユニットのクラスタに属する領域の重心点である。つまり、クラスタ重心は、音響特徴量ベクトルが音ユニット毎のクラスタを判別する際に用いられる係数である。従って、ラベルデータは、音声認識で用いられる音響モデルに相当する。
ラベルデータは、従来から音声認識で用いられた確率モデル、例えば、GMM(Gasussian Mixture Model、混合ガウスモデル)、HMM(Hidden Markov Model、隠れマルコフモデル)として構成されたデータであってもよい。GMMは、入力されたデータに対する出力確率を複数(例えば、16個)の正規分布を基底として重みづけ加算して表す確率モデルである。従って、GMMは、正規分布毎の混合重み係数(mixture weight)、平均値(mean)、共分散行列(covariance matrix)といった統計量で規定される。本実施形態では、音響特徴量ベクトルとこれらの統計量との組が音ユニットを示すラベルと対応付けてラベルデータが構成される。
HMMも、入力されたデータに対する出力確率が複数の正規分布を基底として重み付け加算して表す確率モデルである。HMMは、正規分布毎の混合重み係数、平均値、共分散行列、遷移確率といった統計量で規定される。本実施形態では、入力された音響特徴量とこれらの統計量との組が音ユニットを示すラベルと対応付けてラベルデータが構成される。
これらの確率モデルでは、入力された音響特徴量ベクトルに対して、各ラベルの出力確率を与えるように事前学習によって統計量を定めておく。事前学習では、例えば、音響特徴量ベクトルがあるクラスタのクラスタ重心となるとき、そのクラスタに係る音ユニットの出力確率が1であって、その他のクラスタに係る音ユニットの出力確率が0となるように統計量を定めておいてもよい。
ラベル変換部104は、ラベルデータ記憶部103に記憶されたラベルデータを参照して、音響特徴量算出部102から入力された音響特徴量ベクトルが属するクラスタを判別し、判別したクラスタに対応するラベルを同定する。但し、ラベルデータがGMMやHMM等の確率モデルで構成されている場合、ラベル変換部104は、ラベルデータを参照して入力された音響特徴量ベクトルに対応する出力確率を算出し、算出した出力確率が最も高いラベルを同定する。
これにより、入力された音響特徴量ベクトルがラベルに変換される。ラベル変換部104は、例えば、ラベルデータ記憶部103に記憶されたラベルデータが示すクラスタ重心のうち、入力された音響特徴量ベクトルとの距離が最も小さいクラスタ重心を選択する。距離の指標は、例えば、ユークリッド距離(Euclidean distance)である。ユークリッド距離は、ユークリッド平方距離とも呼ばれる。ラベル変換部104は、選択したクラスタ重心に対応するラベルをラベルデータ記憶部103から読み出す。ラベル変換部104は、読み出したラベルcdn(nは、ラベルの順序を示す整数)を順次配列してラベル列[c]を形成する。ここで、記号[…]は、…が複数の要素を含むデータ系列、ベクトル又は行列であることを示す。ラベル変換部104は、形成したラベル列[c]を区切り決定部106に出力する。つまり、出力されるラベル列[c]は、複数の音ユニットから形成される音ユニット系列を示す。
なお、ラベル変換部104は、入力された音響特徴量が異常であると判定された場合には、その音響特徴量に係る音ユニットが区切り(後述)であると判定してもよい。ラベル変換部104は、例えば、入力された音響信号量が示すパワーが予め定めたパワーの閾値を下回るとき、選択されたクラスタ重心に係る距離が予め定めた距離の上限を超えるときに音響特徴量が異常であると判定してもよい。
区切りデータ記憶部105は、予め区切りデータが記憶された記憶部である。区切り(segmentation)とは、ある音ユニット群とその後の音ユニット群との間の境界である。音ユニット群とは1つ又は複数の音ユニットからなる音ユニット系列である。
区切りデータは、音ユニットNグラムモデルと音ユニット群Nグラムモデルとを含む統計モデルである。この統計モデルを、以下の説明では音ユニット・音ユニット群Nグラムモデルと呼ぶことがある。区切りデータ、つまり音ユニット・音ユニット群Nグラムモデルは、言語処理における言語モデルの一種である文字・単語Nグラムモデルに相当する。
区切りデータは、次に説明するように、1個又は複数の音ユニットからなる音ユニット系列を1個又は複数の音ユニット群に区切る確率を示すデータを含むデータのセットである。
音ユニットNグラムモデルは、任意の音ユニット系列において1つまたは複数の音ユニットの後に出現する音ユニット毎の確率(Nグラム)を示すデータである。音ユニットNグラムモデルでは、区切りを1つの音ユニットとして扱ってもよい。なお、音ユニットNグラムモデルとは、その確率を含んで構成される統計モデルを指すこともある。
音ユニット群Nグラムモデルは、任意の音ユニット群系列において1つ又は複数の音ユニット群の後に出現する音ユニット群毎の確率(Nグラム)を示すデータである。つまり、音ユニット群の出現確率と、少なくとも1個の音ユニット群からなる音ユニット群系列が与えられているときに次の音ユニット群の出現確率とを示す確率モデルである。
なお、音ユニット群Nグラムモデルとは、その確率を含んで構成される統計モデルを指すこともある。
音ユニット群Nグラムモデルでは、区切りを1種の音ユニット群として扱ってもよい。音ユニットNグラムモデル、音ユニット群Nグラムモデルは、言語処理における文字モデル、単語モデルにそれぞれ相当する。
区切りデータも、従来から音声認識で用いられた確率モデル、例えば、GMM、HMMとして構成されたデータであってもよい。本実施形態では、1つ又は複数のラベルと確率モデルを規定する統計量との組が、その後に現れる音ユニットを示すラベルと対応付けて音ユニットNグラムモデルが構成されてもよい。そして、1つ又は複数の音ユニット群と確率モデルを規定する統計量との組が、その後に出現する音ユニット群と対応付けて音ユニット群Nグラムモデルが構成されてもよい。確率モデルを規定する統計量は、確率モデルがGMMの場合には、正規分布毎の混合重み係数、平均値、共分散行列であり、確率モデルがHMMの場合には、正規分布毎の混合重み係数、平均値、共分散行列及び遷移確率である。
音ユニットNグラムモデルでは、入力された1つ又は複数のラベルに対して、その後に出現する音ユニットを示すラベルの出現確率を与えるように事前学習によって統計量を定めておく。事前学習では、その後に出現する他の音ユニットを示すラベルの出現確率が0となるように条件を課してもよい。音ユニット群Nグラムモデルでは、入力された1つ又は複数の音ユニット群に対して、その後に現れる各音ユニット群の出現確率を与えるように事前学習によって統計量を定めておく。事前学習では、その後に出現する他の音ユニット群の出現確率が0となるように条件を課してもよい。
区切り決定部106は、ラベル変換部104から入力されたラベル列が示す音ユニット列について、区切りデータ記憶部105に記憶された区切りデータを参照して音ユニット列の区切り、つまり音ユニット群w(tは、音ユニット群の順序を示す整数)からなる音ユニット群系列[c’]を定める。つまり、音ユニット群系列[c’]は、音ユニットに対応したラベルcからなるラベル系列[c]が音ユニット群w毎に区切られたデータ系列である。区切り決定部106は、区切りデータ記憶部105に記憶された区切りデータを用いて複数の音ユニット群系列の候補毎に出現確率、つまり認識尤度を算出する。
区切り決定部106は、算出した出現確率が最も高い音ユニット群系列の候補を、認識結果となる音ユニット群系列[c’]として選択する。選択された音ユニット群系列[c’]は、音ユニット群のそれぞれを形成する音ユニット系列と音ユニット群間の区切りからなる音ユニット系列である。音ユニット群系列の候補間では、音ユニット列は同一であるが音ユニットの区切り、つまり音ユニット群の組み合わせ又はその順序が異なる。
区切り決定部106は、選択した音ユニット群系列をイベントデータ照合部108に出力する。
区切り決定部106は、音ユニット群系列の候補毎の出現確率を算出する際、その候補に含まれる音ユニット群毎のNグラムが示す出現確率を順次乗算する。音ユニット群のNグラムの出現確率は、その音ユニット群の直前までの音ユニット群系列が与えられたときに、その音ユニット群が出現する確率である。この出現確率は、上述した音ユニット群Nグラムモデルを参照して与えられる。個々の音ユニット群の出現確率は、その音ユニット群の先頭の音ユニットの出現確率に、その後の音ユニットのNグラムの出現確率を順次乗算して算出することができる。音ユニットのNグラムの出現確率は、その音ユニットの直前までの音ユニット系列が与えられたときに、その音ユニットが出現する確率である。先頭の音ユニットの出現確率(ユニグラム)、音ユニットのNグラムの出現確率は、音ユニットNグラムモデルを参照して与えられる。
区切りデータを構成する音ユニットNグラムモデルは、上述したようにGMMやHMM等の確率モデルで構成されている場合がある。その場合には、区切り決定部106は、音ユニットNグラムモデルを参照して、入力された1つ又は複数のラベルに対して、その後に音ユニットが現れる出現確率を算出する。また、区切りデータを構成する音ユニット群NグラムモデルもGMMやHMM等の確率モデルで構成されている場合がある。その場合には、区切り決定部106は、音ユニット群Nグラムモデルを参照して、入力された1つ又は複数の音ユニット群に対して、その後に音ユニット群が現れる出現確率を算出する。
イベントデータ記憶部107は、予めイベントデータが記憶された記憶部である。イベントデータは、イベントとそのイベントに係る音ユニット群系列とを対応付けて形成されたデータである。イベントとは、一般音を発生する事物、事象又はその音、つまり音響イベントである。イベントは、例えば、アラーム時計のアラーム音、電話機の着信音などの各種機器の動作やその音、拍手などの人間の動作やその音、等である。イベントデータ記憶部107には、予め複数のイベントのそれぞれに係るイベントデータを記憶させておいてもよい。
イベントデータ照合部108は、区切り決定部106から音ユニット群系列が入力され、入力された音ユニット群系列とイベントデータ記憶部107に記憶された各イベントデータが示す音ユニット群系列とを照合する。これにより、イベントデータ照合部108は、入力された音ユニット群系列に対応するイベントを同定する。
イベントデータ照合部108は、照合に成功した音ユニット群系列に対応するイベントを示す認識データを生成し、生成した認識データを認識データ出力部109に出力する。ここで、イベントデータ照合部108は、イベントデータが示す音ユニット群系列のうち入力された音ユニット群系列と合致する部分の割合(例えば、音ユニットの個数又は音ユニット群の個数)が、最も多いイベントデータと照合に成功したと判定してもよい。また、イベントデータ照合部108は、その割合が予め定めた割合(例えば、80%)よりも大きいとき照合に成功したと判定してもよい。なお、イベントデータ照合部108は、照合に失敗したと判定した場合、認識できなかったことを示すエラーデータを認識データとして認識データ出力部109に出力してもよい。
認識データ出力部109は、イベントデータ照合部108から認識データが入力され、入力された認識データを音響認識装置1の外部に出力する。認識データ出力部109は、例えば、データ出力インタフェースである。認識データ出力部109は、音響信号入力部101と一体化され、データ入出力インタフェースとして構成されていてもよい。
モデルデータ生成部120は、一般音の音響信号を含んだ一般音データに基づいて一般音の認識処理に用いられるモデルデータ、例えば、ラベルデータ、区切りデータを生成する。モデルデータ生成部120は、一般音データ取得部121、ラベルデータ生成部122、区切りデータ生成部123、及びイベントデータ生成部124を含んで構成される。
一般音データ取得部121は、モデルデータの生成に用いる一般音データを取得する。一般音データ取得部121は、例えば、イベントとそのイベントに係る一般音を示す音響信号を含む一般音データ(コーパス)を予め音響認識装置1の外部から入力して、記憶させておいた記憶部を備えていてもよい。
ラベルデータ生成部122は、一般音データ取得部121から一般音データを読み出し、読み出した一般音データに含まれる音響信号について予め定めた時間のフレーム毎に音響特徴量ベクトルを算出する。ラベルデータ生成部122は、算出した音響特徴量ベクトルをクラスタリングして、クラスタ毎のクラスタ重心を算出する。ラベルデータ生成部122は、クラスタ毎にラベルを生成し、生成したラベルとクラスタ重心とを対応付けてラベルデータを生成する。ラベルデータ生成部122は、生成したラベルデータをラベルデータ記憶部103に記憶させ、区切りデータ生成部123に出力する。
区切りデータ生成部123は、一般音データ取得部121から一般音データを読み出し、読み出した一般音データに含まれる音響信号について予め定めた時間の音響特徴量ベクトルを算出する。区切りデータ生成部123は、算出した音響特徴量ベクトルのうちラベルデータ生成部122から入力されたラベルデータが示すクラスタ重心に最も近似するクラスタ重心を選択する。区切りデータ生成部123は、選択したクラスタ重心に対応するラベルを特定し、特定したラベルを要素とするラベル列を生成する。区切りデータ生成部123は、生成したラベル列に基づいて音ユニットのNグラムの出現確率を算出し、そのラベル列と算出した音ユニットのNグラムの出現確率に基づいて音ユニット群のNグラムの出現確率を算出する。区切りデータ生成部123は、算出した音ユニットのNグラムの出現確率と音ユニット群のNグラムの出現確率を示す音ユニット・音ユニット群Nグラムモデルを区切りデータとして生成する。区切りデータ生成部123は、生成した区切りデータを区切りデータ記憶部105に記憶し、イベントデータ生成部124に出力する。また、区切りデータ生成部123は、生成したラベル列と読み出した一般音データとをイベントデータ生成部124に出力する。
イベントデータ生成部124は、区切りデータ生成部123から入力されたラベル列が示す音ユニット列について、区切りデータ生成部123から入力された区切りデータを参照して複数の音ユニット群系列の候補毎にその出現確率を算出する。イベントデータ生成部124は、算出した出現確率が最も高い音ユニット群系列の候補を選択する。イベントデータ生成部124は、区切りデータ生成部123から入力された一般音データが示すイベントと、選択した音ユニット群系列とを対応付けてイベントデータを生成し、生成したイベントデータをイベントデータ記憶部107に記憶する。
モデルデータ生成部120がモデルデータ(主に、ラベルデータ、区切りデータ)を生成する処理については、後述する。
なお、ラベルデータ記憶部103、区切りデータ記憶部105、イベントデータ記憶部107に、それぞれラベルデータ、区切りデータ、イベントデータが記憶されていれば、モデルデータ生成部120は省略されてもよい。モデルデータ生成部120が行うモデルデータを生成する処理は、音響認識装置1の外部の装置、例えば、電子計算機で行われてもよい。
(ラベルデータの例)
次に、ラベルデータの例について説明する。
図2は、ラベルデータの例を示す図である。ラベルデータは、ラベルとクラスタ重心とが対応付けられているデータである。例えば、図2の第2行では、ラベルとして「c」とクラスタ重心として「[x]」とが対応付けられている。
(区切りデータの例)
次に、区切りデータの例について説明する。区切りデータは、音ユニット・音ユニット群Nグラムモデルである。つまり、区切りデータは、音ユニットNグラムモデルと音ユニット群Nグラムモデルとを含んで構成される。Nグラムとは、1個の要素が出現する確率(ユニグラム(unigram))とN−1(Nは、1よりも大きい整数)個の要素(例えば、音ユニット)の系列が与えられたときに次の要素が出現する確率を示す統計的なモデルの総称である。ユニグラムは、モノグラム(monogram)とも呼ばれる。特に、N=2、3の場合、Nグラムは、それぞれバイグラム(bigram)、トライグラム(trigram)と呼ばれる。
図3は、区切りデータの一部の例を示す図である。
図3に示す区切りデータの一部は、音ユニットNグラムモデルである。図3(a)、(b)、(c)は、それぞれ音ユニットユニグラム、音ユニットバイグラム、音ユニットトライグラムの例を示す。
図3(a)は、1個の音ユニットを示すラベルと音ユニットユニグラムが対応付けられていることを示す。図3(a)の第2行では、ラベル「c」と音ユニットユニグラム「p(c)」とが対応付けられている。ここで、p(c)は、ラベル「c」の出現確率を示す。図3(b)の第3行では、ラベル系列「c」と音ユニットバイグラム「p(c|c)」とが対応付けられている。ここで、p(c|c)は、音ユニットcが与えられているときに、音ユニットcが出現する確率を示す。図3(c)の第2行では、ラベル系列「c」と音ユニットトライグラム「p(c|c)」とが対応付けられている。
図4は、区切りデータの他の一部の例を示す図である。
図4に示す区切りデータの他の一部は、音ユニット群Nグラムモデルである。図4(a)、(b)、(c)は、それぞれ音ユニット群ユニグラム、音ユニット群バイグラム、音ユニットトライグラムの例を示す。
図4(a)は、1個の音ユニット群を示すラベルと音ユニットユニグラムが対応付けられていることを示す。図4(a)の第2行では、ラベル「w」と音ユニット群ユニグラム「p(w)」とが対応付けられている。1個の音ユニット群を示すラベルは、1個又は複数個の音ユニットから形成される音ユニット群を示す。
図4(b)の第3行では、ラベル系列「w」と音ユニット群バイグラム「p(w|w)」とが対応付けられている。図4(c)の第2行では、ラベル系列「w」と音ユニット群トライグラム「p(w|w)」とが対応付けられている。図4に示す例では、音ユニット群毎のラベルが付されているが、これに代えて音ユニット群のそれぞれを形成する音ユニット系列が用いられていてもよい(図5参照)。その場合には、音ユニット群間で区切りを示す区切り符号(例えば、|)が挿入されていてもよい。
(イベントデータの例)
次に、イベントデータの例について説明する。
図5は、イベントデータの例を示す図である。
イベントデータは、イベントとそのイベントに係る音ユニット群系列とを対応付けたデータである。図5の第2行では、イベント「e」と音ユニット群系列「c|c …」が対応付けられている。音ユニット群系列「c|c …」のうち、冒頭の「c」と、その後の「c …」との間には区切り符号「|」が挿入されている。この区切り符号は、冒頭の「c」から形成される音ユニット群と、その後の「c …」から形成される音ユニット群の境界を示す。
(音響認識処理)
次に、本実施形態に係る音響認識処理について説明する。
図6は、本実施形態に係る音響認識処理を示すフローチャートである。
(ステップS101)音響信号入力部101は、音響認識装置1の外部から音響信号が入力され、入力された音響信号を音響特徴量算出部102に出力する。その後、ステップS102に進む。
(ステップS102)音響特徴量算出部102は、音響信号入力部101から入力された音響信号に基づいてその音の物理的な特徴を示す音響特徴量ベクトルを算出する。次に、音響特徴量算出部102は、算出した音響特徴量ベクトルをラベル変換部104に出力する。その後、ステップS103に進む。
(ステップS103)ラベル変換部104は、ラベルデータ記憶部103に記憶されたラベルデータを参照して、音響特徴量算出部102から入力された音響特徴量ベクトルが属するクラスタを判別し、判別したクラスタに対応するラベルに変換する。次に、ラベル変換部104は、変換したラベルからなるラベル列を生成し、生成したラベル列を区切り決定部106に出力する。その後、ステップS104に進む。
(ステップS104)区切り決定部106は、ラベル変換部104から入力されたラベル列が示す音ユニット列について、区切りデータ記憶部105に記憶された区切りデータを参照して複数の音ユニット群系列の候補毎にその出現確率を算出する。次に、区切り決定部106は、算出した出現確率が最も高い音ユニット群系列の候補を選択する(区切り決定)。次に、区切り決定部106は、選択した音ユニット群系列の候補を認識結果となる音ユニット群系列としてイベントデータ照合部108に出力する。その後、ステップS105に進む。
(ステップS105)イベントデータ照合部108は、区切り決定部106から音ユニット群系列が入力され、イベントデータ記憶部107に記憶された各イベントデータが示す音ユニット群系列と照合する。次に、イベントデータ照合部108は、照合に成功した音ユニット群系列に対応するイベントを示す認識データを生成し、生成した認識データを認識データ出力部109に出力する。その後、ステップS106に進む。
(ステップS106)認識データ出力部109は、イベントデータ照合部108から入力された認識データを、音響認識装置1の外部に出力する。その後、図1に示す音響認識処理を終了する。
(モデルデータ生成処理)
次に、モデルデータ生成部120がモデルデータを生成する処理(モデルデータ生成処理)について説明する。
図7は、本実施形態に係るモデルデータを生成する処理の一例を示すフローチャートである。
(ステップS201)ラベルデータ生成部122は、一般音データ取得部121から取得した一般音データに基づいて音ユニットの候補を決定する(音ユニット候補決定)。その後、ステップS202に進む。
(ステップS202)ラベルデータ生成部122は、決定した音ユニットの候補毎に音ユニット群毎の頻度分布を算出し、算出した頻度分布が最も分散する音ユニットの候補を選択する(音ユニット決定)。その後、ステップS203に進む。
(ステップS203)ラベルデータ生成部122は、選択した音ユニットの候補に係るラベルとクラスタ重心を対応付けたラベルデータを生成し、生成したラベルデータをラベルデータ記憶部103に記憶する。その後、ステップS204に進む。
(ステップS204)区切りデータ生成部123は、ラベルデータ生成部122が生成したラベルデータに基づいて一般音データ取得部121から取得した一般音データについてラベル列を生成する。次に、区切りデータ生成部123は、生成したラベル列について、音ユニット・音ユニット群Nグラムモデルを区切りデータとして生成する(区切りデータ生成)。その後、ステップS205に進む。
(ステップS205)区切りデータ生成部123は、生成した区切りデータを区切りデータ記憶部105に記憶する。その後、ステップS206に進む。
(ステップS206)イベントデータ生成部124は、区切りデータ生成部123が生成した音ユニット列について、区切りデータ生成部123が生成した区切りデータを参照して複数の音ユニット群系列の候補毎にその出現確率を算出する。次に、イベントデータ生成部124は、算出した出現確率が最も高い音ユニット群系列の候補を選択する。次に、イベントデータ生成部124は、区切りデータ生成部123が音ユニット列を生成する際に用いた一般音データが示すイベントと、選択した音ユニット群系列とを対応付けてイベントデータを生成する。次に、イベントデータ生成部124は、生成したイベントデータをイベントデータ記憶部107に記憶する。その後、図7に示す処理を終了する。
(音ユニット候補決定処理)
次に、ラベルデータ生成部122がステップS201(図7)で行う音ユニット候補決定処理について説明する。一般音データには、D(Dは、1又は1よりも大きい整数)個のイベントと音響信号の組が含まれていることを仮定する。
図8は、本実施形態に係る音ユニット候補決定処理を示すフローチャートである。
(ステップS301)ラベルデータ生成部122は、一般音データ取得部121から読み出した一般音データに含まれる音響信号について予め定めた時間のフレーム毎に音響特徴量ベクトルを算出する。その後、ステップS302に進む。
(ステップS302)ラベルデータ生成部122は、フレーム毎に算出した音響特徴量ベクトルについて予め定めた手法(例えば、凝集型階層クラスタリング)を用いてクラスタリングを行う。クラスタリングによって、クラスタ毎にクラスタ重心が算出される。このステップで行われるクラスタリングを第1クラスタリングと呼んで、ステップS304で行われるクラスタリングと区別する。その後、ステップS303に進む。
(ステップS303)ラベルデータ生成部122は、予め定めた距離の区間毎に、算出したクラスタ重心間の距離の個数を計数してヒストグラムを生成する。次に、ラベルデータ生成部122は、生成したヒストグラムにおいて計数したクラスタ重心間の個数が極小となる区間に係る距離の代表値を距離候補Dとして選択する。以下の説明では、選択した距離候補Dの数をNと表記する。距離候補Dの数Nは、典型的には複数である。その後、ステップS304に進む。
(ステップS304)ラベルデータ生成部122は、フレーム毎に算出した音響特徴量ベクトルについてクラスタ重心間の距離と選択した距離候補Dのいずれかとの誤差が最小となるようにクラスタリングを行う。このステップで行われるクラスタリングを第2クラスタリングと呼ぶ。ラベルデータ生成部122は、第2クラスタリングを距離候補Dのそれぞれについて実行する。これにより、各距離候補Dについてクラスタ毎にクラスタ重心が算出される。次に、ラベルデータ生成部122は、各距離候補Dについて算出したクラスタ重心と対応付けて音ユニット候補を定める。その後、ステップS305に進む。
(ステップS305)ラベルデータ生成部122は、フレーム毎に算出した音響特徴量ベクトルについて各距離候補Dについて算出したクラスタ重心との距離が最も小さいクラスタ重心を選択し、選択したクラスタ重心に対応する音ユニット候補を定める。ここで、ラベルデータ生成部122は、各距離候補Dについてイベントd(最大値は、D)について定めた音ユニット候補から形成される音ユニット候補系列[c]を生成する。音ユニット候補系列[c]は、cd1d2…cdNdと表される。cd1等は、イベントdの1番目の音ユニット候補等を示す。その後、図8に示す処理を終了する。
上述した凝集型階層クラスタリングとは、あるクラスタiのクラスタ重心と他のクラスタjのクラスタ重心との間の距離Δijのうち、最小となる距離Δijに係るクラスタ同士を凝集する処理を、予め定めたクラスタ数に達するまで繰り返す処理である。ここで、ラベルデータ生成部122は、例えば、式(1)を用いて距離Δijを、算出する。
式(1)において、N、Nは、それぞれクラスタi、クラスタjに属する音響特徴量ベクトルの個数を示す。総和記号Σと、その下に記されているn∈iは、クラスタiに属する音響特徴量ベクトル[x]についての総和を示す。nは、各音響特徴量ベクトル[x]を区別するインデックスであって、最大値がフレーム総数Nとなる整数である。つまり、ラベルデータ生成部122は、距離の指標としてユークリッド距離を用いて、クラスタi、クラスタj間における距離Δijを算出する。
図9は、生成されたヒストグラムの一例を示す図である。
図9において、横軸はクラスタ重心間の距離、縦軸は距離の区間毎の個数を示す。破線は、それぞれ個数が最小となる距離、つまり距離候補Dを示す。ステップS304では、この距離候補Dにクラスタ重心間の距離が近似するようにクラスタリングがなされるため、クラスタ間で音響特徴量ベクトルが均等に分布する。つまり、各クラスタに対応する音ユニット候補でイベント毎の音響的な特徴を十分に説明できることを示す。図9に示す例では、距離候補Dの数Nは、17個である。
(音ユニット決定処理)
次に、ラベルデータ生成部122がステップS202(図7)で行う音ユニット決定処理について説明する。音ユニット候補の数は、距離候補Dによって異なる可能性があるが、いずれもMと表記する。音ユニット候補の数は、予め設定された数であってもよい。
図10は、本実施形態に係る音ユニット決定処理を示すフローチャートである。
(ステップS306)ラベルデータ生成部122は、各距離候補Dについて生成した音ユニット候補系列[c]に基づいて、各音ユニット群候補zに、音ユニット候補cが出現する出現確率(ユニグラム)p(c|z)を算出する。ここで、kは、音ユニット群候補を識別するインデックスを示し、kの最大値はNである。mは、音ユニット候補を識別するインデックスを示し、mの最大値はMである。
次に、ラベルデータ生成部122は、算出した出現確率を各行の要素として有する列ベクトル[β]を音ユニット候補m毎に生成する。以下の説明では、この列ベクトル[β]を、出現確率ベクトルと呼ぶ。出現確率p(c|z)を算出する際、ラベルデータ生成部122は、例えば、LDA(Latent Dirichlet Allocation、潜在的ディリクレ配分)法を用いる。後述するように、ラベルデータ生成部122は、LDA法を実行する過程で音ユニット群候補zを生成する。その後、ステップS307に進む。
(ステップS307)ラベルデータ生成部122は、各距離候補Dについて音ユニットm間で算出した出現確率ベクトル[β]の分散σを算出する。その後、ステップS308に進む。
(ステップS308)ラベルデータ生成部122は、算出した分散σが所定の距離の閾値よりも大きい距離候補D、例えば、分散σが最大となる距離候補Dを選択する。次に、ラベルデータ生成部122は、選択した距離候補Dに係る音ユニットの候補を選択する。その後、図10に示す処理を終了する。
これにより、音ユニットに応じて各音ユニット群の出現確率が極力分散するようにクラスタ重心間の距離が選択されるので、多様な音ユニット群を十分に表現できる音ユニット群が選択される。
図11は、音響特徴量ベクトルのクラスタの例を示す図である。
図11(a)、(b)、(c)は、それぞれ異なる距離候補Dに係るクラスタを楕円で示す。c等の符号は、各クラスタを識別する符号である。楕円に囲まれている黒丸のそれぞれは、音響特徴量ベクトルを示す。この例では、図11(a)、(b)、(c)の順で、距離候補Dの値が小さい。即ち、図11(a)が最もクラスタが小さく、最も多くの音ユニットで音響信号の特徴が表される。そのため、雑音等による音響特徴量の変化の影響を受けやすいので雑音耐性が低い。図11(c)が最もクラスタが大きく、最も少ない音ユニットで音響信号の特徴が表される。そのため、雑音等による音響特徴量の変化の影響を受けにくいが、各クラスタに対応した音ユニットでは音響信号の特徴を十分に表すことができない。
図12は、出現確率の例を示す図である。
図12において、横軸は音ユニットを示し、縦軸は音ユニット群を示す。
図12(a)、(b)、(c)は、図11(a)、(b)、(c)に係るクラスタに基づいて得られた出現確率を濃淡で示す。濃く示された部分ほど出現確率が高く、薄く示された部分ほど出現確率が低いことを示す。
図12(a)、(c)に示す例では、特定の音ユニットについて音ユニット群毎の出現確率が高い部分が縦線状に現れる傾向がある。これに対し、図12(b)に示す例では、特定の音ユニットについて音ユニット群毎の出現確率が高い斑点状の部分が、図12(a)、(c)に示す例よりも分散している。即ち、音ユニットに応じて各音ユニット群の出現確率が分散するようにクラスタ重心間の距離が選択されるので、対応する音ユニットからなる音ユニット系列で音響的な特徴を少ない数で十分に表すことができる。
次に、上述したLDA法について説明する。
LDA法は、従来、N個の潜在トピックを用いてコーパス上の文書を表す統計モデルとして、主に言語処理で利用されていた。本実施形態では、言語処理における文書、潜在トピック、単語に代えて、イベント、音ユニット群、音ユニットを適用する。
図13は、LDA法の概念図である。
図13に示すように、LDA法では、D個のイベント[c][c]、…、[c]が扱われ、d番目のイベント[c]は、N個の音ユニット([c]=cD1D2…cDNd)から構成される音ユニット系列であると仮定する。d番目のイベント[c]は、{c (μd1),…,c (μdM)}と表わされる。ここで、μdmは、d番目のイベントに現れる音ユニットcの個数を示す。即ち、d番目のイベント[c]は、各音ユニットcをμdm個有する音ユニット系列であり、μdmのm間の総和はN個である。
LDA法では、d番目のイベントにおいて音ユニット群([z]=[z,z,…,zNz])を生成する確率([θ]=[θ,θ,…,θNz])がディリクレ分布(Dirichlet distribution)Dir([θ]|[α])に従うと仮定する。以下の説明では、[θ]を生成確率ベクトルと呼ぶ。ここで、[α]は、発生回数ベクトルを示す。発生回数ベクトル[α]は、音ユニット群zの発生回数α(kは、1からNまでの整数)を要素として有するベクトルである。ディリクレ分布([θ]|[α])は、m個の音ユニットcがα−1個含まれる場合に、音ユニット群zが現れる確率がθとなる確率を与える確率分布である。音ユニット群zは、1又は複数の音ユニットからなる音ユニット系列であるが、ラベルデータ生成部122は、出現確率が最も高いものからN番目までに高い音ユニット群zを採用する。
その場合、D個のイベント[c][c]、…、[c]からなるコーパス[W]を生成する確率は、式(2)で表される。
式(2)において、[β]は、各列に出現確率ベクトル[β]を有する出現確率行列を示す。p(zdk|[θ])は、生成確率ベクトル[θ]が与えられているときにイベントdに音ユニット群zdkが現れる確率を示す。本実施形態では、p(zdk|[θ])は、生成確率ベクトル[θ]による多項分布を仮定してもよい。
p(cdn|zdk,[β])は、音ユニット群zdk、出現確率行列[β]が与えられたときに、イベントdのn番目のフレームに音ユニットcdnが現れる確率を示す。ラベルデータ生成部122は、各距離候補Dについて生成した音ユニット候補系列[c]に基づいて、式(2)を満たす発生回数ベクトル[α]、出現確率行列[β]を算出する。
図14は、LDA法のグラフィカルモデルを示す。
[z]から[W]に向かう矢印及び[β]から[W]に向かう矢印は、コーパス[W]を生成する確率が音ユニット群zdkの集合[z]及び出現確率行列[β]で与えられることを示す。[z]と[W]を囲む四角形とその四角形内左下端のNは、N個の音ユニットcからイベントd毎に音ユニット群zdkの集合[z]及び出現確率行列[β]が与えられることを示す。[θ]から[z]に向かう矢印は、音ユニット群zdkの確率が生成確率ベクトル[θ]で与えられることを示す。[θ]を囲む四角形とその左下のDは、確率[θ]がD個のイベントd毎に与えられることを示す。[α]から[θ]に向かう矢印は、生成確率ベクトル[θ]が発生回数ベクトル[α]で与えられることを示す。また、発生回数ベクトル[α]、出現確率行列[β]が上述した四角形の外部にあることは、未知数として推定の対象となることを示す。
(区切りデータ生成部の処理)
次に、区切りデータ生成部123が行う処理について説明する。
区切りデータ生成部123(図1参照)は、ラベルデータ生成部122が生成したラベルデータを用いて、一般音データ取得部121から読み出した一般音データに基づいて音ユニット系列を生成する。区切りデータ生成部123は、生成した音ユニット系列に基づいて所定の手法、例えば、NPY(Nested Pitman−Yor)過程を用いて区切りデータを生成する。NPY過程は、従来、自然言語の形態素解析に用いられていた手法である。
本実施形態では、形態素解析における単語、文字に代えて、音ユニット群、音ユニットをNPY過程に適用する。つまり、NPY過程は、音ユニット系列の統計的な性質を音ユニット群Nグラムと音ユニットNグラムとの入れ子(ネスト)構造で統計モデルを生成するために行われる。NPY過程によって生成された統計モデルは、NPYモデルと呼ばれる。区切りデータ生成部123は、音ユニット群Nグラムと音ユニットNグラムを生成する際、例えば、それぞれHPY(Hierarchical Pitman−Yor)過程を用いる。HPY過程は、ディリクレ過程を階層的に拡張した確率過程である。
HPY過程を用いて音ユニット群Nグラムを生成する際、区切りデータ生成部123は、音ユニット群系列[h’]の次の音ユニット群wの生起確率p(w|[h’])に基づいて、音ユニット群系列[h]の次の音ユニット群wの生起確率p(w|[h])を算出する。生起確率(p(w|[h])を算出する際、区切りデータ生成部123は、例えば、式(3)を用いる。ここで、音ユニット群系列[h’]は、直近までのn−1個の音ユニット群からなる音ユニット群系列wt−n−1…wt−1である。tは、現在の音ユニット群を識別するインデックスを示す。音ユニット群系列[h]は、音ユニット群系列[h’]にその直前の音ユニット群wt−nを付加したn個の音ユニット群からなる音ユニット群系列wt−n…wt−1である。
式(3)においてγ(w|[h])は、音ユニット群系列[h]が与えられているときに音ユニット群wが生起した回数(nグラムカウント)を示す。γ([h])は、回数γ(w|[h])の音ユニット群w間での総和Σγ(w|[h])である。thwは、音ユニット群系列[h’]が与えられているときに音ユニット群wが生起した回数(n−1グラムカウント)を示す。tは、thwの音ユニット群w間での総和Σhwである。ξは、強度パラメータ(strength parameter)を示す。強度パラメータξは、算出しようとする生起確率p(w|[h])からなる確率分布を基底測度に近似する度合いを制御するパラメータである。基底測度とは、音ユニット群もしくは音ユニットの事前確率である。ηは、ディスカウントパラメータ(discount parameter)を示す。ディスカウントパラメータηは、与えられた音ユニット群系列[h]が与えられているときの音ユニット群wが生起した回数による影響を緩和する度合いを制御するパラメータである。区切りデータ生成部123は、パラメータξ、ηを定める際、例えば、予め定めた候補値からそれぞれギブスサンプリング(Gibbs sampling)を行ってもよい。
区切りデータ生成部123は、上述したように、ある次数の生起確率p(w|[h’])を基底測度として用いることにより、その次数よりも1次高い次数の生起確率p(w|[h])を算出する。しかしながら、音ユニット群の境界、つまり区切りに係る情報が与えられていない場合、基底測度を得ることができない。
そこで、区切りデータ生成部123は、HPY過程を用いて音ユニットNグラムを生成し、生成した音ユニットNグラムを音ユニット群Nグラムの基底測度として用いる。
区切りデータ生成部123は、音ユニットNグラムを生成する際、与えられた音ユニット系列[c’]の次の音ユニットcの生起確率p(c|[c’])に基づいて、音ユニット系列[c]の次の音ユニットcの生起確率p(c|[c])を算出する。区切りデータ生成部123は、生起確率p(c|[c])を算出する際、例えば、式(4)を用いる。ここで、音ユニット系列[c’]は、直近までのn−1個の音ユニットからなる音ユニット系列ct−n−1…ct−1である。tは、現在の音ユニットを識別するインデックスを示す。音ユニット系列[c]は、音ユニット系列[c’]にその直前の音ユニットct−nを付加したn個の音ユニットからなる音ユニット系列ct−n…ct−1である。
式(4)において、(c|[c])は、音ユニット系列[c]が与えられているときに音ユニットcが生起した回数(nグラムカウント)を示す。δ([c])は、回数δ(c|[c])の音ユニットc間での総和Σδ(c|[c])である。s[c]cは、音ユニット系列[c’]が与えられているときに音ユニットcが生起した回数(n−1グラムカウント)を示す。sは、s[c]cの音ユニットc間での総和Σ[c]cである。θ、sは、それぞれ強度パラメータ、ディスカウントパラメータである。区切りデータ生成部123は、上述したようにギブスサンプリングを行って強度パラメータθ、ディスカウントパラメータsを定めてもよい。
なお、区切りデータ生成部123には、音ユニットNグラムの次数、音ユニット群Nグラムの次数は、予め設定しておいてもよい。音ユニットNグラムの次数、音ユニット群Nグラムの次数は、例えば、それぞれ10次、3次である。
図15は、NPY過程で生成されるNPYモデルの例を示す図である。
図15に示されるNPYモデルは、音ユニット群Nグラムと音ユニットNグラムモデルを含んで構成される音ユニット群・音ユニットNグラムモデルである。
区切りデータ生成部123は、音ユニットNグラムモデルを生成する際、例えば、音ユニットcの出現確率を示すユニグラムp(c)に基づいて、バイグラムp(c|c)、p(c|c)を算出する。区切りデータ生成部123は、バイグラムp(c|c)に基づいて、トライグラムp(c|c)、p(c|c)を算出される。
そして、区切りデータ生成部123は、算出された音ユニットNグラム、つまり、これらのユニグラム、バイグラム、トライグラム等を基底測度G’として用いて、音ユニット群Nグラムに含まれる音ユニット群ユニグラムを算出する。例えば、ユニグラムp(c)は、音ユニットcからなる音ユニット群wの出現確率を示すユニグラムp(w)の算出に用いられる。区切りデータ生成部123は、ユニグラムp(c)とバイグラムp(c|c)を、音ユニット系列cからなる音ユニット群wのユニグラムp(w)の算出に用いる。区切りデータ生成部123は、ユニグラムp(c)、バイグラムp(c|c)、トライグラムp(c|c)を、音ユニット系列cからなる音ユニット群wのユニグラムp(w)の算出に用いる。
区切りデータ生成部123は、音ユニット群Nグラムモデルを生成する際、例えば、音ユニット群wの出現確率を示すユニグラムp(w)を基底測度Gとして用いて、バイグラムp(w|w)、p(w|w)を算出する。また、区切りデータ生成部123は、バイグラムp(w|w)を基底測度G11として用いて、トライグラムp(w|w)、p(w|w)を算出する。
このように、区切りデータ生成部123は、選択した音ユニット群系列に基づいて、ある次数の音ユニット群のNグラムに基づいて、より高次の音ユニット群のNグラムを順次算出する。しかしながら、ある次数の音ユニット群に後続する音ユニット群の種類の数(分岐数)が多いと統計モデルとして複雑になり、処理量が膨大になる。
そこで、区切りデータ生成部123は、予め定めた複数の音ユニット群の個数Nの候補のそれぞれについて、区切りデータを生成して、生成した区切りデータに基づいてモデルの複雑さの度合いを示す指標、例えば、パープレキシティ(perplexity)を算出してもよい。パープレキシティは、具体的には音ユニット群の平均分岐数を示す指標である。区切りデータ生成部123は、算出した指標が所定の指標値よりも小さい音ユニット群の個数Nの候補と、その候補に対応する区切りデータとを学習結果として選択する。特に、そのような音ユニット群の個数Nが複数通りある場合には、区切りデータ生成部123は、算出した指標が最小となる音ユニット群の個数Nの候補と、その候補に対応する区切りデータとを学習結果として選択してもよい。
区切りデータ生成部123は、モデルの複雑さの度合いを示す指標としてパープレキシティを算出する際、一般音データに基づいて得られた音ユニット群系列から音ユニット群毎の出現確率を算出する。区切りデータ生成部123は、算出した出現確率に基づいて音ユニット群1個当たりのエントロピーHを算出し、2をH乗することによって得られる値2をパープレキシティとして算出する。これにより、一般音のイベントを同定する際、処理量が過大になることが避けられる。また、音ユニット系列が最も少ない区切り、つまり最も少ない音ユニット群(セグメント数)で表現される。
(区切りデータ生成処理)
次に、区切りデータ生成部123がステップS204(図7)で行う区切りデータ生成処理について説明する。
図16は、本実施形態に係る区切りデータ生成処理を示すフローチャートである。
(ステップS401)区切りデータ生成部123は、一般音データ取得部121から一般音データを読み出し、読み出した一般音データに含まれる音響信号について予め定めた時間の音響特徴量ベクトルを算出する。その後、ステップS402に進む。
(ステップS402)区切りデータ生成部123は、算出した音響特徴量ベクトルのうちラベルデータ生成部122が生成したラベルデータが示すクラスタ重心に最も近似するクラスタ重心を選択する。次に、区切りデータ生成部123は、選択したクラスタ重心に対応するラベルを特定し、特定したラベルを要素とするラベル列、つまり音ユニット系列を生成する。その後、ステップS403に進む。
(ステップS403)区切りデータ生成部123は、生成した音ユニット系列に基づいて音ユニットNグラムを生成する。その後、ステップS404に進む。
(ステップS404)区切りデータ生成部123は、生成した音ユニットNグラムを基底測度として音ユニット群のユニグラムを生成する。その後、ステップS405に進む。
(ステップS405)区切りデータ生成部123は、生成した音ユニットNグラムの要素毎の1個又は複数の音ユニット、音ユニット群及びそのユニグラムを対応付けた変換テーブルを生成する。次に、区切りデータ生成部123は、生成した変換テーブルを用いて、生成した音ユニット系列を複数通りの音ユニット群系列に変換し、変換した複数通りの音ユニット群系列のうち出現確率が最も高い音ユニット群系列を選択する。その後、ステップS406に進む。
(ステップS406)区切りデータ生成部123は、選択した音ユニット群系列に基づいて、ある次数の音ユニット群のNグラムを基底測度として用いて、その次数より1次高い次数の音ユニット群のNグラムを順次算出する。その後、図16に示す処理を終了する。
(モデルデータ生成処理の変形例)
モデルデータ生成部120は、次に説明する変形例に係るモデルデータ生成処理を行ってもよい。上述した実施形態と同一の構成、過程については、同一の符号を付して説明を援用する。
図17は、本実施形態に係るモデルデータを生成する処理の変形例を示すフローチャートである。
本変形例は、ステップS201、ステップS203、ステップS206(図7参照)を有し、さらに、ステップS202a、ステップS204a及びステップS204bを有する。本変形例では、ステップS201が終了した後、ステップS204aに進む。
(ステップS204a)区切りデータ生成部123は、ラベルデータ生成部122が各距離候補について生成した音ユニット候補系列に基づいて音ユニット群候補に係る区切りデータ、即ち、音ユニット群候補・音ユニット候補Nグラムを生成する。ここで、区切りデータ生成部123は、音ユニット系列に代えて各距離候補について生成した音ユニット候補系列について、ステップS403からステップS406(図16参照)に示す処理を行う。その後、ステップS202aに進む。
(ステップS202a)ラベルデータ生成部122は、区切りデータ生成部123が各距離候補について生成した区切りデータに基づいて、出現確率p(c|z)を算出する。ここで、ラベルデータ生成部122は、例えば、区切りデータが示す音ユニット群候補zを形成する1個又は複数の音ユニット候補のうち音ユニット候補cの出現確率を、音ユニット群候補zの出現確率で除算して出現確率p(c|z)を算出することができる。次に、ラベルデータ生成部122は、算出した出現確率を各行の要素として有する出現確率ベクトル[β]を音ユニット候補m毎に算出する。その後、ラベルデータ生成部122は、各距離候補について算出した[β]の分散σを算出する。次に、ラベルデータ生成部122は、算出した分散σが最大となる距離候補Dを選択する。ラベルデータ生成部122は、選択した距離候補Dに係る音ユニットの候補を選択する。その後、ステップS204bに進む。
(ステップS204b)区切りデータ生成部123は、生成した区切りデータのうち、ラベルデータ生成部122が選択した距離候補Dに係る区切りデータを選択し、選択した区切りデータを区切りデータ記憶部105に記憶する。その後、ステップS203に進む。
ステップS203が終了した後、ステップS206に進む。その後、図17に示す処理を終了する。
なお、ステップS202aにおいて、ラベルデータ生成部122は、各距離候補について生成した音ユニット候補系列に基づいてLDA法を用いて出現確率ベクトル[β]を音ユニット候補m毎に算出してもよい。LDA法を用いる際、区切りデータ生成部123が生成した区切りデータで指定されている音ユニット候補を用いてもよい。
このように、クラスタ重心間の距離候補毎に生成されたラベルデータと区切りデータに基づいて、音ユニット候補及び音ユニット候補毎の頻度が算出され、その頻度の分散が最も大きくなるように音ユニット及び音ユニット候補が定められる。そのため、音ユニットや音ユニット候補の数が過大になることなく、多様な一般音データの音響的な特徴を十分に説明することができる。
なお、上述した例では、ラベルデータ生成部122は、算出した分散σが最大となる距離候補Dを選択する場合を例にとって説明した(図10、ステップS310参照)。そして、ラベルデータ生成部122は、選択された距離候補Dに応じて音響特徴量ベクトルをクラスタリングして音響特徴量ベクトルのベクトル空間をM個のクラスタに分割し、クラスタ毎に音ユニット(M個)のラベルを特定する。本実施形態では、これには限られず、ラベルデータ生成部122は、選択された距離候補Dのうち一般音データから算出されるイベント間の出現確率(認識尤度)の平均値が、所定の平均値の閾値よりも大きくなる距離候補Dを選択してもよい。
そのような距離候補Dが複数個ある場合には、ラベルデータ生成部122は、その複数の距離候補Dにおいて出現確率が最も高い距離候補Dを選択してもよい。ここで、ラベルデータ生成部122は、距離候補D毎に音響特徴量ベクトルをクラスタリングして音響特徴量ベクトルのベクトル空間をクラスタに分割し、クラスタ毎に音ユニット候補のラベルを特定してラベルデータを生成する処理を先行する。その後、区切りデータ生成部123は、特定されたラベルテータに基づいて生成した音ユニット候補系列を用いて区切りデータを生成する(図17、ステップS204a参照)。そして、ラベルデータ生成部122は、一般音データに含まれるイベント毎の音響信号について、生成したラベルデータと区切りデータを用いて音ユニット群候補系列を生成し、その出現確率を算出する(図1、区切り決定部106参照)。これにより、同定されるイベントの正解率を向上させることができる。
以上、説明したように、本実施形態に係る音響認識装置(例えば、音響認識装置1)は、入力された音響信号に基づいて音響特徴量を算出する音響特徴量算出部(例えば、音響特徴量算出部102)を備える。また、本実施形態に係る音響認識装置は、音響特徴量と音の構成単位である音ユニットを示すラベルとの対応を示すラベルデータを参照して、前記音響特徴量に対応するラベルに変換するラベル変換部(例えば、ラベル変換部104)を備える。また、本実施形態に係る音響認識装置は、少なくとも1個の音ユニットからなる音ユニット系列を少なくとも1個の音ユニット群に区切る確率を示す区切りデータを参照して、前記ラベルから形成されるラベル系列が音ユニット群毎に区切られた音ユニット群系列毎の確率を算出し、算出した確率に基づいて選択した音ユニット群系列に対応した音響イベントを、音響イベント毎の音ユニット群系列を示す音響イベントデータを参照して同定する音響同定部(例えば、音響同定部110)を備える。
音響イベントデータは、音響イベントと音ユニット群系列とが対応付けられたデータテーブルとして構成されていてもよい(図5参照)。
これにより、入力された音響信号の音響的な特徴が、音響的な特徴の時間的な変化を示す音ユニット群毎に区切られた音ユニット群系列で示される。本実施形態に係る音響認識装置により、算出した確率に基づいて選択した音ユニット群系列に応じた音響イベントが選択される。そのため、本実施形態に係る音響認識装置は、多様な音響的性質を有する一般音を認識することができる。音響イベントとして、例えば、目覚まし時計等の機器が発する報知音の種別、機器が発する動作音に応じた動作状態、環境音に応じた環境、等が認識される。
(第2の実施形態)
以下、図面を参照しながら本発明の第2実施形態について説明する。上述と同一の構成については、同一の符号を付して説明を援用する。
図18は、本実施形態に係る音響認識装置1aの構成を示すブロック図である。
音響認識装置1aは、音響信号入力部101、音響特徴量算出部102、ラベルデータ記憶部103、ラベル変換部104、認識データ出力部109、音響同定部110a、及びモデルデータ生成部120を含んで構成される。即ち、音響認識装置1aは、音響認識装置1(図1)において音響同定部110に代えて音響同定部110aを備える。
音響同定部110aは、区切りデータ記憶部105、区切り決定部106、イベントデータ記憶部107、及びイベントデータ照合部108aを含んで構成される。即ち、音響同定部110aは、音響同定部110においてイベントデータ照合部108(図1)に代えてイベントデータ照合部108aを備える。
イベントデータ照合部108aは、イベントデータ照合部108(図1)と同様な処理を行う他、区切り決定部106から入力された音ユニット群系列と各イベントデータが示す音ユニット群系列との照合において、あいまい検索を行ってもよい。あいまい検索では、イベントデータ照合部108aは、ラベルデータ記憶部103に記憶されたラベルデータを参照して、ある1つの音ユニット(第1音ユニット)と、第1音ユニットのクラスタ重心から近似するNΔ(NΔは予め定めた整数、例えば1)個のクラスタ重心に係る音ユニットとを互いに同一の音ユニットとみなす。近似するNΔ個のクラスタ重心に係る音ユニットとは、第1音ユニットのクラスタ重心に最も近似するクラスタ重心に係る音ユニット(第2音ユニット)からNΔ番目に近似するクラスタ重心に係る音ユニット(第NΔ+1音ユニットである。つまり、イベントデータ照合部108aは、第1音ユニットと同一とみなされたNΔ個の音ユニットのいずれかと、を交換して生成された音ユニット群系列のそれぞれについて各イベントデータが示す音ユニット群系列と照合を行う。近似の度合いを評価する指標は、例えば、ユークリッド距離である。ゆえに、N個の音ユニットを含む1つの音ユニット群系列については、イベントデータ照合部108aは、N NΔ+1個の候補系列と各イベントデータが示す音ユニット群系列との照合を行う。
一例として、入力された音ユニット群系列[c’]がc|c(c等は音ユニット、|は、区切り)であって、cとcとが同一、cとcとが互いに同一とみなされる場合(NΔ=1)を考える。このとき、イベントデータ照合部108aは、各イベントデータが示す音ユニット群系列との照合において、次の8種類の候補系列を用いる:がc、c、c、c、c、c、c、c。ここで、イベントデータ照合部108は、照合において区切りを無視してもよい。これにより、雑音が混入した音響信号が音響信号入力部101に入力される場合であっても、雑音に対する耐性を強化することができる。
ここで、イベントデータ照合部108aは、ラベルデータ記憶部103に記憶されたラベルデータを参照して、第1音ユニットと、そのクラスタ重心からの距離が予め定めた距離の範囲内にあるクラスタ重心に係る他の音ユニットと、を互いに同一の音ユニットとみなしてもよい。その場合、イベントデータ照合部108aは、第1音ユニットと同一とみなされた他の音ユニットとが互いに入れ替えられた音ユニット群系列のそれぞれについて各イベントデータが示す音ユニット群系列と照合を行う。そのため、雑音等により音響的な特徴が変化しても、同一とみなされる音ユニットについて第1音ユニットに係るイベントが選択される。つまり、雑音等による耐性が高くなることにより、イベントの認識率の低下が防止される。
また、イベントデータ照合部108aは、区切りを無視せずに音ユニットを入れ替えて形成された候補系列について、区切りデータ記憶部105に記憶した区切りデータを参照して、出現確率を再計算してもよい。そして、再計算した出現確率が所定の確率、例えば、もとの音ユニット群系列の1/10よりも高い候補系列のみについて音ユニット群系列と照合してもよい。これにより、認識率を低下させずに照合に係る処理量を低減することができる。
なお、ラベルデータ記憶部103には、対応するクラスタ重心間の距離が予め定めた距離の範囲内にある音ユニットの組である音ユニットセットを示す音ユニットセットデータを予め記憶させておいてもよい。ここで、イベントデータ照合部108aは、音ユニットセットデータを参照して、第1の音ユニットと同一の音ユニットセットに属するその他の音ユニットを特定してもよい。そして、イベントデータ照合部108aは、第1音ユニットとその他の音ユニットとが互いに入れ替えられた音ユニット群系列のそれぞれについて各イベントデータが示す音ユニット群系列と照合を行ってもよい。
以上、説明したように、本実施形態に係る音響認識装置(例えば、音響認識装置1a)は、上述の実施形態に係る音響認識装置(例えば、音響認識装置1)と同様な構成を備えるとともに、本実施形態に係る音響認識装置の音響同定部(例えば、音響同定部110a)は、前記選択した音ユニット群系列を形成する音ユニットのうち、クラスタ間の距離が所定の距離よりも小さいクラスタのそれぞれに対応する音ユニットを相互に交換して生成した音ユニット群系列に対応した音響イベントを同定する。
これにより、音響的な性質が近似した音ユニット同士を交換して音ユニット群系列の候補が生成される。そのため、本実施形態に係る音響認識装置は、雑音等により入力された音響信号の音響的な特徴が変動しても所望の音響イベントを同定することができ、雑音等による耐性が向上する。
(音ユニット系列、音ユニット群系列の例)
次に、ラベル変換部104から出力される音ユニット系列、区切り決定部106から出力される音ユニット群系列の例を示す。
図19は、ラベル変換部104から出力される音ユニット系列、区切り決定部106から出力される音ユニット群系列の一例を示す図である。
図19は、紙面に対して上段から下段の順に、(a)に入力音響信号、(b)にスペクトログラム、(c)に音ユニット系列、(d)に音ユニット群系列を示す。図19(a)、(b)、(c)、(d)の縦軸は、それぞれ振幅、周波数、音ユニットの番号、音ユニットの番号を示す。横軸はいずれも時刻を示す。この例では、イベントは電話の着信音である。
ここで、入力音響信号は、音響信号入力部101に入力される音響信号であり、時刻による振幅の変化を示す。スペクトログラムは、入力音響信号の周波数毎のパワーである。パワーの大きさは濃淡で示されている。濃く示されている部分ほどパワーが大きく、薄く示されている部分ほどパワーが小さい。音ユニット系列として、各時刻における音ユニットがプロットで示されている。音ユニット群系列として、プロットを結ぶ線で示されている。それぞれ1つの線で結ばれている複数の音ユニットが1つの音ユニット群を形成していることを示す。つまり、線で結ばれていない互いに隣接するプロットは、それらの間に区切りがあることを示す。
図19(a)は、時刻が0.1−1.12秒の間、着信音が発生し、約0.06秒周期で入力音響信号の波形が反復していることを示す。図19(b)−(d)は、入力音響信号に応じて、スペクトログラム、音ユニット、音ユニット群も約0.06秒周期で反復していることを示す。
図20は、ラベル変換部104から出力される音ユニット系列、区切り決定部106から出力される音ユニット群系列の他の例を示す図である。
図20(a)−(d)がそれぞれ示す情報、縦軸、横軸の関係は、図19(a)−(d)と同様である。但し、この例では、イベントは拍手である。
図20(a)は、入力音響信号の振幅は、時刻0.1秒、3.1秒において、突発的に
変化し、0と有意に異なる振幅を有する区間の長さが0.008秒と極めて狭いことを示す。それらの前後の時刻では、振幅は、ほぼ0である。図20(b)は、入力音響信号よりも広い区間でパワーが有意に0と異なる区間が広いことを示す。これは、スペクトログラムが、所定の時間間隔を有するフレーム毎に算出されるためである。図20(c)は、パワーが有意に0と異なる区間で、番号が0以外の有意な音ユニットが選択されていることを示す。図20(d)は、入力音響信号のパワーが0と有意に異なる振幅を有する区間が、それぞれ音ユニット群として区切られたことを示す。
(評価結果)
次に、上述した音響認識装置1aを用いて評価実験を行って得られた評価結果について説明する。評価実験は、残響時間が0.2秒の実験室内で行った。実験室のほぼ中央に人型ロボット(以下、単にロボットと呼ぶ)が設置され、ロボットの頭部にマイクロホンを内蔵し、音響認識装置1aをロボットの胴体部に内蔵しておいた。ここで、マイクロホンが収録した音響信号は、音響信号入力部101に入力される。マイクロホンから1m離れた位置に、音(イベント)を発生させるために用いる音源を設置した。
音響信号入力部101に入力される音響信号のサンプリング周波数は16kHzであり、各サンプルは16ビットの振幅値を示すデータで形成される。音響特徴量ベクトルを算出する際のフレーム長、シフト長は、それぞれ512サンプル、160サンプルである。ラベルデータ、区切りデータ、イベントデータを事前学習によって生成する際に用いる一般音データ(学習用データセット)や、音源から音を発生させるために用いる音響信号(評価用データセット)として、次のデータを用いた。(1)環境音データセット: RWCP−SSD(Real World Computing Partnership−Sound Speach Database)各4分間の92種類の環境音データ(例えば、電話の着信音、拍手、等)を含む。(2)音楽データセット: RWC−MDB−G(Real World Computing−Music Database−G)各5分間の32種類の音楽データ(例えば、ポピュラー音楽、バレエ音楽、等)を含む。(3)音声データセット: ATR(Advanced Telecommunications Research Institute International) dataset 5名の男性話者、5名の女性話者がそれぞれ発声した216単語の音声を含む。
事前学習及び評価において、これらのデータセットについてK−分割交差検定を行った。交差検定では、データセットをK(Kは、1より大きい整数、ここでは、K=5)個に分割し、K−1個のデータセットを用いて事前学習を行い、残りの1個のデータセットを用いて評価を行った。但し、事前学習においては、雑音がない環境でのデータ(クリーン音声)のみを用いた。評価は、ロボットが備えるファンの動作音を雑音とし、そのSN比を複数段階に設定して行われた。SN比(dB)は、20log10(π/(1−π))で与えられるが、制御パラメータπを1、0.95、0.9、0.85、0.8、0.7、0.5、0.3の8通りに設定した。このとき、SN比は、それぞれ、∞(雑音なし)、12.8、9.5、7.5、6.0、3.7.0.0、−3.7となる。
事前学習及び評価では、統計モデルで構成されるラベルデータ、区切りデータを学習し、学習したラベルデータ、区切りデータを評価に用いた。第1の評価実験では、本実施形態でLDA法を行って定めた音ユニットによる雑音耐性(ロバスト性)を評価するために、統計モデルとしてGMMを用いた場合(本実施形態)、統計モデルとしてGMMを用い手動でラベルを付したもの(GMM−S)を用いた場合とで評価結果を比較する。本実施形態では、音ユニットの数Mは96である。GMM−Sでは、音ユニットの数を126とした。この126という数は、データセットに含まれるイベントの数の合計値(2+32+92)である。評価結果として、各イベントの平均フレーム正解率を用いた。
図21は、平均フレーム正解率の一例を示す図である。
図21において、最左列から右側に順に、SN比、GMM−S、本実施形態を示す。
SN比が∞である場合には、GMM−Sの正解率の方が82.1%と本実施形態の74.1%が高いが、その他の場合では、本実施形態の正解率の方がGMM−Sの正解率よりも2−9%高い。例えば、SN比が6.0dBの場合には、本実施形態の正解率は33.4%と、GMM−Sの正解率の24.1%よりも高い。この結果は、本実施形態により雑音耐性が向上することを示す。
第2の評価実験では、本実施形態で区切りデータを用いて定めた音ユニット群による雑音耐性を評価するために、本実施形態、統計モデルとしてHMMを用いてユニグラムを適用した場合(MONO−D、モノフォンモデル)、その場合においてあいまい検索(図18、イベントデータ照合部108a参照)を行った場合(MONO−P)とで平均フレーム正解率を評価結果として比較する。ユニグラムを適用したとは、区切りデータにおいてユニグラム(音ユニット群単独の生起確率)よりも高次の生起確率を用いないことを意味する。ここで、HMMにおける状態数、混合数を1、16とした。
図22は、平均フレーム正解率の他の例を示す図である。
図22において、最左列から右側に順に、SN比、本実施形態、MONO−D、MONO−Pを示す。
MONO−Dでは、SN比にかかわらず本実施形態よりも正解率が2−9%低下する。例えば、SN比が9.5dBの場合、本実施形態での正解率は41.7%であるのに対し、MONO−Dでは、33.3%となる。これは、モデルにおいて高次の生起確率が考慮されないため、音ユニット群間の時間変化が表されないことによる。
MONO−Pでは、MONO−Dでの正解率よりも7−14%正解率が向上する。例えば、SN比が12.8dBの場合、MONO−Pでの正解率は42.5%であるのに対し、MONO−Dでの正解率は、53.1%と、本実施形態の正解率50.1%を上回る。MONO−Pでは、SN比が∞である場合を除き、本実施形態、GMM−Sよりも正解率がそれぞれ、5−13%、5−18%高くなる。この結果は、イベントデータ照合部108aでのあいまい検索により、雑音耐性を向上できることを示す。
一般音を同定するために用いるモデルデータを生成する処理は、人手で行われることがあったが、その作業量は一般に膨大である。上述したモデルデータ生成処理(図7、図17参照)を行うことでモデルデータを効率的に生成することができる。本実施形態では、モデルデータとして人間の音声よりも多様な特徴を有する一般音の特徴を十分に表現できる音ユニットを示すラベルデータと、その音ユニットや音ユニットの時系列を示す音ユニット群の統計的性質を示す区切りデータを生成する。これにより、生成したモデルデータを用いることで、人手で作成したモデルデータを用いる場合よりも正解率を得ることができる。
なお、上述ではラベルデータがカテゴリ毎のカテゴリ重心を示すデータを含む場合を例にとって説明したが、これには限られない。ラベルデータは、音響特徴量ベクトルを複数のカテゴリのいずれかに分類することができるデータであればよい。例えば、ラベルデータは、音響特徴量ベクトルのベクトル空間において隣接するカテゴリ間の境界を示すデータであってもよい。
また、上述では、ラベル変換部104、イベントデータ照合部108a、ラベルデータ生成部122が、距離の指標としてユークリッド距離を用いる場合を例にとったが、これには限られない。ラベル変換部104、イベントデータ照合部108a、ラベルデータ生成部122は、距離の指標として、その他の指標を用いてもよい。その他の指標には、例えば、ユークリッド距離を一般化したミンコフスキー距離(Minkowski distance)、マハラノビス汎距離(Maharanobis’generalized distance)、等を用いてもよい。
また、音響認識装置1、1aは、入力された音響信号が、人間が発生した音声であるか否かを判定する音声判定部を備えてもよい。そして、ラベルデータ記憶部103にはラベルデータの他に従来の音声認識処理で用いられる音響モデルが記憶されていてもよい。また、区切りデータ記憶部105には区切りデータの他に従来の音声認識処理で用いられる言語モデルが記憶されていてもよい。音声判定部は、例えば、音響信号のパワーが予め定めたパワーの閾値よりも大きく、かつ、音響信号の単位時間当たりの零交差数が予め定めた範囲内である場合に音声と判定し、それ以外の場合に非音声と判定する。零交差数とは、振幅が0よりも小さい負値から0よりも大きい正値に変化する回数と、正値から負値に変化する回数との合計数である。そして、音声判定部が非音声と判定した場合には、ラベル変換部104がラベルデータを用いて音ユニット系列を生成し、区切り決定部106は区切りデータを用いて音ユニット群系列を生成する。音声判定部が音声と判定した場合には、ラベル変換部104が音響モデルを用いて音素列を生成し、区切り決定部106は言語モデルを用いて単語列を生成する。区切り決定部106は、生成した単語列を認識データとして認識データ出力部109を介して、音響認識装置1、1aの外部に出力する。これにより、音声が入力された場合には、発話内容を示す認識データが出力され、非音声が入力された場合には、イベントを示す認識データが出力される。
なお、上述した実施形態及び変形例における音響認識装置1、1aの一部、例えば、音響特徴量算出部102、ラベル変換部104、区切り決定部106、及びイベントデータ照合部108をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、音響認識装置1、1aに内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態及び変形例における音響認識装置1、1aの一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。音響認識装置1、1aの各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
1、1a…音響認識装置、
101…音響信号入力部、102…音響特徴量算出部、103…ラベルデータ記憶部、
104…ラベル変換部、105…区切りデータ記憶部、106…区切り決定部、
107…イベントデータ記憶部、108、108a…イベントデータ照合部、
109…認識データ照合部、110、110a…音響同定部、
120…モデルデータ生成部、121…一般音データ取得部、
122…ラベルデータ生成部、123…区切りデータ生成部、
124…イベントデータ生成部

Claims (6)

  1. 音響信号に基づいて音響特徴量を算出する音響特徴量算出部と、
    音響特徴量と音の構成単位である音ユニットを示すラベルとの対応を示すラベルデータを参照して、前記音響特徴量算出部が算出した音響特徴量に対応するラベルに変換するラベル変換部と、
    少なくとも1個の音ユニットからなる音ユニット系列を少なくとも1個の音ユニット群に区切る確率を示す区切りデータを参照して、前記ラベル変換部が変換したラベルから形成されるラベル系列が音ユニット群毎に区切られた音ユニット群系列毎の確率を算出し、算出した確率に基づいて選択した音ユニット群系列に対応した音響イベントを、音響イベント毎の音ユニット群系列を示す音響イベントデータを参照して同定する音響同定部と
    を備える音響認識装置。
  2. 前記ラベルデータは、前記音響特徴量の空間の一部であるクラスタと前記ラベルとの対応を示し、前記音ユニット群に前記音ユニットが現れる頻度の分散が、所定の分散よりも大きいことを特徴とする請求項1に記載の音響認識装置。
  3. 前記区切りデータは、前記音ユニット群の出現確率と、少なくとも1個の前記音ユニット群が与えられているときに次の音ユニット群の出現確率を示す確率モデルであることを特徴とする請求項1又は2に記載の音響認識装置。
  4. 前記音響同定部は、前記選択した音ユニット群系列を形成する音ユニットのうち、クラスタ間の距離が所定の距離よりも小さいクラスタのそれぞれに対応する音ユニットを相互に交換して生成した音ユニット群系列に対応した音響イベントを同定することを特徴とする請求項1から3のいずれかに記載の音響認識装置。
  5. 音響認識装置における音響認識方法において、
    前記音響認識装置が、
    音響信号に基づいて音響特徴量を算出する音響特徴量算出過程と、
    ラベルデータ記憶部に記憶された音響特徴量と音の構成単位である音ユニットを示すラベルとの対応を示すラベルデータを参照して、前記音響特徴量に対応するラベルに変換するラベル変換過程と、
    区切りデータ記憶部に記憶された少なくとも1個の音ユニットからなる音ユニット系列を少なくとも1個の音ユニット群に区切る確率を示す区切りデータを参照して、前記ラベルから形成されるラベル系列が音ユニット群毎に区切られた音ユニット群系列毎の確率を算出し、算出した確率に基づいて選択した音ユニット群系列に対応した音響イベントを、イベント記憶部に記憶された音響イベント毎の音ユニット群系列を示す音響イベントデータを参照して同定する音響同定過程と
    を有する音響認識方法。
  6. 音響認識装置のコンピュータに、
    音響信号に基づいて音響特徴量を算出する音響特徴量算出手順、
    ラベルデータ記憶部に記憶された音響特徴量と音の構成単位である音ユニットを示すラベルとの対応を示すラベルデータを参照して、前記音響特徴量に対応するラベルに変換するラベル変換手順、
    区切りデータ記憶部に記憶された少なくとも1個の音ユニット音系列を少なくとも1個の音ユニット群に区切る確率を示す区切りデータを参照して、前記ラベルから形成されるラベル系列が音ユニット群毎に区切られた音ユニット群系列毎の確率を算出し、算出した確率に基づいて選択した音ユニット群系列に対応した音響イベントを、イベント記憶部に記憶された音響イベント毎の音ユニット群系列を示す音響イベントデータを参照して同定する音響同定過程手順、
    を実行させるための音響認識プログラム。
JP2013181521A 2013-09-02 2013-09-02 音響認識装置、音響認識方法、及び音響認識プログラム Active JP6085538B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013181521A JP6085538B2 (ja) 2013-09-02 2013-09-02 音響認識装置、音響認識方法、及び音響認識プログラム
US14/468,576 US9911436B2 (en) 2013-09-02 2014-08-26 Sound recognition apparatus, sound recognition method, and sound recognition program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013181521A JP6085538B2 (ja) 2013-09-02 2013-09-02 音響認識装置、音響認識方法、及び音響認識プログラム

Publications (2)

Publication Number Publication Date
JP2015049398A JP2015049398A (ja) 2015-03-16
JP6085538B2 true JP6085538B2 (ja) 2017-02-22

Family

ID=52584441

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013181521A Active JP6085538B2 (ja) 2013-09-02 2013-09-02 音響認識装置、音響認識方法、及び音響認識プログラム

Country Status (2)

Country Link
US (1) US9911436B2 (ja)
JP (1) JP6085538B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105632503B (zh) * 2014-10-28 2019-09-03 南宁富桂精密工业有限公司 信息隐藏方法及系统
US10152298B1 (en) * 2015-06-29 2018-12-11 Amazon Technologies, Inc. Confidence estimation based on frequency
JP7006592B2 (ja) * 2016-06-16 2022-01-24 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
US20180254054A1 (en) * 2017-03-02 2018-09-06 Otosense Inc. Sound-recognition system based on a sound language and associated annotations
US20180268844A1 (en) * 2017-03-14 2018-09-20 Otosense Inc. Syntactic system for sound recognition
CN107295164B (zh) * 2017-05-31 2020-05-26 Oppo广东移动通信有限公司 闹钟铃声生成的方法、移动终端及存储介质
US10923110B2 (en) * 2017-08-25 2021-02-16 International Business Machines Corporation Priors adaptation for conservative training of acoustic model
CN107993664B (zh) * 2018-01-26 2021-05-28 北京邮电大学 一种基于竞争神经网络的鲁棒说话人识别方法
US11341185B1 (en) * 2018-06-19 2022-05-24 Amazon Technologies, Inc. Systems and methods for content-based indexing of videos at web-scale
JP2022001967A (ja) * 2018-09-11 2022-01-06 ソニーグループ株式会社 音響イベント認識装置
JP6882814B2 (ja) * 2018-09-13 2021-06-02 LiLz株式会社 音解析装置及びその処理方法、プログラム
JP7292646B2 (ja) * 2019-12-11 2023-06-19 本田技研工業株式会社 音源分離装置、音源分離方法、およびプログラム
CN111314557B (zh) * 2020-02-20 2022-05-20 上海掌门科技有限公司 信息处理方法和装置
CN112735470B (zh) * 2020-12-28 2024-01-23 携程旅游网络技术(上海)有限公司 基于时延神经网络的音频切割方法、系统、设备及介质

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5987069A (en) * 1996-12-24 1999-11-16 Gte Government Systems Corporation Method and apparatus for variably allocating upstream and downstream communication spectra
US6246982B1 (en) * 1999-01-26 2001-06-12 International Business Machines Corporation Method for measuring distance between collections of distributions
DE60236161D1 (de) * 2001-07-20 2010-06-10 Gracenote Inc Automatische identifizierung von klangaufzeichnungen
JP4209122B2 (ja) * 2002-03-06 2009-01-14 旭化成株式会社 野鳥の鳴き声及び人の音声認識装置及びその認識方法
US20050171948A1 (en) * 2002-12-11 2005-08-04 Knight William C. System and method for identifying critical features in an ordered scale space within a multi-dimensional feature space
US6963835B2 (en) * 2003-03-31 2005-11-08 Bae Systems Information And Electronic Systems Integration Inc. Cascaded hidden Markov model for meta-state estimation
EP1616275A1 (en) * 2003-04-14 2006-01-18 Koninklijke Philips Electronics N.V. Method and apparatus for summarizing a music video using content analysis
SG140445A1 (en) * 2003-07-28 2008-03-28 Sony Corp Method and apparatus for automatically recognizing audio data
EP1531478A1 (en) * 2003-11-12 2005-05-18 Sony International (Europe) GmbH Apparatus and method for classifying an audio signal
US20050125223A1 (en) * 2003-12-05 2005-06-09 Ajay Divakaran Audio-visual highlights detection using coupled hidden markov models
RU2403626C2 (ru) * 2005-06-09 2010-11-10 А.Г.И. Инк. Анализатор речи, обнаруживающий частоту основного тона, способ анализа речи и программа анализа речи
CN1889172A (zh) * 2005-06-28 2007-01-03 松下电器产业株式会社 可增加和修正声音类别的声音分类系统及方法
WO2008103925A1 (en) * 2007-02-22 2008-08-28 Personics Holdings Inc. Method and device for sound detection and audio control
JP4859130B2 (ja) 2007-03-27 2012-01-25 株式会社メガチップス 監視システム
JP2009139894A (ja) * 2007-12-11 2009-06-25 Advanced Telecommunication Research Institute International 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム
US8762285B2 (en) * 2008-01-06 2014-06-24 Yahoo! Inc. System and method for message clustering
US9020816B2 (en) * 2008-08-14 2015-04-28 21Ct, Inc. Hidden markov model for speech processing with training method
WO2010038385A1 (ja) * 2008-09-30 2010-04-08 パナソニック株式会社 音判定装置、音判定方法、及び、音判定プログラム
WO2010086928A1 (ja) * 2009-01-28 2010-08-05 三菱電機株式会社 音声認識装置
JP5356527B2 (ja) * 2009-09-19 2013-12-04 株式会社東芝 信号分類装置
JP5174068B2 (ja) * 2010-03-11 2013-04-03 株式会社東芝 信号分類装置
CN102237084A (zh) * 2010-04-22 2011-11-09 松下电器产业株式会社 声音空间基准模型的在线自适应调节方法及装置和设备
JP2011250100A (ja) 2010-05-26 2011-12-08 Sony Corp 画像処理装置および方法、並びにプログラム
US8605830B2 (en) * 2010-07-30 2013-12-10 National Instruments Corporation Blind carrier/timing recovery and detection of modulation scheme
JP5599064B2 (ja) * 2010-12-22 2014-10-01 綜合警備保障株式会社 音認識装置および音認識方法
JP5602653B2 (ja) * 2011-01-31 2014-10-08 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理装置、情報処理方法、情報処理システム、およびプログラム
US9443511B2 (en) * 2011-03-04 2016-09-13 Qualcomm Incorporated System and method for recognizing environmental sound
JP5917270B2 (ja) * 2011-05-27 2016-05-11 キヤノン株式会社 音検出装置及びその制御方法、プログラム
US8949237B2 (en) * 2012-01-06 2015-02-03 Microsoft Corporation Detecting overlapping clusters
JP5800718B2 (ja) * 2012-01-12 2015-10-28 日本電信電話株式会社 特定状況モデルデータベース作成装置とその方法と状況推定装置とプログラム
JP5749186B2 (ja) * 2012-02-06 2015-07-15 日本電信電話株式会社 音響モデル適応装置と音声認識装置とそれらの方法と、プログラム

Also Published As

Publication number Publication date
US9911436B2 (en) 2018-03-06
US20150066507A1 (en) 2015-03-05
JP2015049398A (ja) 2015-03-16

Similar Documents

Publication Publication Date Title
JP6085538B2 (ja) 音響認識装置、音響認識方法、及び音響認識プログラム
Yu et al. Calibration of confidence measures in speech recognition
US7421387B2 (en) Dynamic N-best algorithm to reduce recognition errors
JP6501260B2 (ja) 音響処理装置及び音響処理方法
US8738378B2 (en) Speech recognizer, speech recognition method, and speech recognition program
Moselhy et al. LPC and MFCC performance evaluation with artificial neural network for spoken language identification
JP2011065120A (ja) すべての言語の音声識別及び音声識別を利用した単字入力の方法
JP5692493B2 (ja) 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法
WO2018051945A1 (ja) 音声処理装置、音声処理方法、および記録媒体
KR101068122B1 (ko) 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법
Swain et al. Study of feature combination using HMM and SVM for multilingual Odiya speech emotion recognition
CN112151015A (zh) 关键词检测方法、装置、电子设备以及存储介质
Khan et al. An intelligent system for spoken term detection that uses belief combination
JP5183120B2 (ja) 平方根ディスカウンティングを使用した統計的言語による音声認識
US20050187767A1 (en) Dynamic N-best algorithm to reduce speech recognition errors
JP2007240589A (ja) 音声認識信頼度推定装置、その方法、およびプログラム
CN111640423B (zh) 一种词边界估计方法、装置及电子设备
JP2011053569A (ja) 音響処理装置およびプログラム
Ons et al. A self learning vocal interface for speech-impaired users
Dua et al. Noise robust automatic speech recognition: review and analysis
Walter et al. An evaluation of unsupervised acoustic model training for a dysarthric speech interface
Kurian et al. Connected digit speech recognition system for Malayalam language
CN110419078B (zh) 用于自动语音识别的系统和方法
JP7107377B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP5315976B2 (ja) 音声認識装置、音声認識方法、および、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170130

R150 Certificate of patent or registration of utility model

Ref document number: 6085538

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150