JP2016006504A

JP2016006504A - 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム

Info

Publication number: JP2016006504A
Application number: JP2015105939A
Authority: JP
Inventors: 孝文越仲; Takafumi Koshinaka; 鈴木　隆之; Takayuki Suzuki; 隆之鈴木
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2014-05-29
Filing date: 2015-05-26
Publication date: 2016-01-14
Anticipated expiration: 2035-05-26
Also published as: JP6596924B2; US20150348571A1

Abstract

【課題】複数の音声データに関する類似度を、効率的かつ高精度に算出することができる。
【解決手段】音声データ処理装置４は、第１の音声データを、音声データが有するデータ構造に基づいて分割してセグメントを抽出するセグメント抽出部４０と、クラスタリングによって係るセグメントをクラスタに分類し、そのクラスタごとにセグメントのモデルを生成するセグメントモデル生成部４１と、係るセグメントのモデルと第二の音声データを用いて、第一の音声データと第二の音声データとの間の類似度を計算する類似度計算部４２と、を備える。
【選択図】図５

Description

本願発明は、複数の音声データの間における類似度を算出する音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラムに関する。

近年、音声認識機能を搭載した電子機器が増加し、様々な場面において、音声認識機能が利用されている。これにより、精度の高い音声認識を効率よく行うことを実現する技術への期待が高まってきている。

このような技術に関連する技術として、特許文献１には、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）よりも少ないモデルパラメータ数で確率的セグメントモデルを生成し、当該確率的セグメントモデルに基づいて生成された単語モデルを用いて音素認識することにより、音素認識率を改善した装置が開示されている。

また、特許文献２には、音声認識機能を利用する利用者に、誤認識となる原因を、例えば人間が直感的に理解し易い要因によって知らせることができるようにした装置が開示されている。この装置は、入力された音声の特徴量に基づいて複数の誤認識の要因に関する特徴量を求め、要因毎に係る特徴量の関する標準モデルからのずれの度合いを算出する。そして、この装置は、最もずれの度合いが大きい要因を検出して、誤認識となる要因として出力する。

さらに、特許文献３には、音声認識に関する適応学習によって高精度の音素モデルを得られるように、類似する音素モデルを適切にクラスタリングすることができるようにした装置が開示されている。この装置は、学習用の音声データを少量しか利用できない任意の音素モデルに対して、学習用の音声データを大量に利用できる１つ以上の音素モデルが必ず同じクラスタに属するという制約を満たすように、音素モデルをクラスタリングする。

また、音声認識機能に関係して、複数の音声データセット（音声情報）間の類似度を算出する一般的な音声データ処理装置の詳細が、非特許文献１に開示されている。この音声データ処理装置は、複数の音声データセット間の類似度を計算することにより、それらの音声データセットが同一の話者から発せられたか否かを判定する話者照合を行う装置である。

係る一般的な音声データ処理装置の構成を示すブロック図を図７に示す。図７に示すように、この音声データ処理装置５は、音声データ入力部５１と、セグメント整合部５２と、音声モデル記憶部５３と、類似度計算部５４と、音声データ記憶部５５と、フレームモデル生成部５６と、フレームモデル記憶部５７と、音声データ変換部５８と、を備えている。音声データ処理装置５は、音声データ入力部５１が入力音声５１１をデジタル処理することにより生成した入力音声データ５１０を、音声データ記憶部５５に記憶された比較対象音声データ５５０と比較して、入力音声データ５１０と比較対象音声データ５５０との間の類似度を算出する。音声データ処理装置５は、以下に示す通りに動作する。

フレームモデル生成部５６は、音声データ記憶部５５に記憶された比較対象音声データ５５０を、数十ミリ秒程度の短時間のフレームに分割し、係るフレームの統計的な性質を表現したモデルを生成する。具体的なフレームモデルの形態としては、例えば、いくつかのガウス分布モデルの集合体であるガウス混合モデル（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ；以降ＧＭＭと称する）が用いられる。フレームモデル生成部５６は、最尤推定などの方法に基づき、ＧＭＭを規定するパラメータを決定する。パラメータがすべて決定されたＧＭＭは、フレームモデル記憶部５７に記憶される。

音声データ変換部５８は、比較対象音声データ５５０を分割した各フレームと、フレームモデル記憶部５７に記憶されたフレームモデルに関する各ガウス分布モデルとの類似度を計算し、各々のフレームを類似度最大のガウス分布モデルに変換する。これにより、比較対象音声データ５５０は、その長さに等しいガウス分布モデル系列に変換される。こうして得られたガウス分布モデル系列を、以降、図７に関する説明において、音声モデルと称する。この音声モデルは、音声モデル記憶部５３に記憶される。

音声データ入力部５１は、入力音声５１１をデジタル処理して入力音声データ５１０を生成し、生成した入力音声データ５１０を、セグメント整合部５２へ入力する。

セグメント整合部５２は、入力音声データ５１０の一部を切り出したセグメントと、音声モデル記憶部５３に記憶された音声モデルの一部を切り出したセグメントとの間の類似度を計算して、両者の対応関係を検出する。例えば、入力音声データ５１０の時間長をＴＤ、音声モデルの時間長をＴＭとした場合を考える。セグメント整合部５２は、入力音声データ５１０について、０≦ｔ１＜ｔ２≦ＴＤを満たす時間ｔ１及びｔ２により示される、全てのセグメント（ｔ１，ｔ２）を抽出する。セグメント整合部５２は、音声モデルについて、０≦ｔ３＜ｔ４≦ＴＭを満たす時間ｔ３及びｔ４により示される、全てのセグメント（ｔ３，ｔ４）を抽出する。セグメント整合部５２は、抽出されたそれらのセグメント（ｔ１，ｔ２）とセグメント（ｔ３，ｔ４）とからなるセグメント対の全ての組合せについて類似度を計算し、係る類似度が大きく、かつなるべく長いセグメント対を求める。そして、セグメント整合部５２は、音声モデルのすべての時刻が、入力音声データ５１０のいずれかの部分に対応付くように、セグメント間の対応関係を求める。

類似度計算部５４は、セグメント整合部５２が求めたセグメント間の対応関係に基づき、すべてのセグメント対の類似度を総計して、その総計を類似度として出力する。

尚、比較対象音声データ５５０、及び、入力音声データ５１０は、フレームごとの処理によって得られる特徴ベクトル系列に変換して用いられる場合が多い。特徴ベクトルとしては、メルケプストラム係数（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ；以降ＭＦＣＣと称する）などがよく知られている。

特開平10-149189号公報特開2004-325635号公報特開2009-103962号公報

A. Jafari, R. Srinivasan, D. Crookes, J. Ming, "A Longest Matching Segment Approach for Text-Independent Speaker Recognition," Proceedings of Interspeech 2010, Sep. 2010. Scott Shaobing Chen and P. S. Gopalakrishnan, "Speaker, Environment And Channel Change Detection And Clustering Via The Bayesian Information Criterion," Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop, Feb. 1998.

図７に示した一般的な音声データ処理装置５は、あらゆるセグメント対の組み合わせに関して、類似度を算出する計算を行う必要がある。入力音声データ５１０の時間長がＴＤである場合、入力音声データ５１０から抽出可能なセグメントの数は、ＴＤの２乗のオーダーとなる。同様に、音声モデルの時間長がＴＭである場合、係る音声モデルから抽出可能なセグメントの数は、ＴＭの２乗のオーダーとなる。したがって、係る類似度を計算する組み合わせの数は、（ＴＤの２乗）ｘ（ＴＭの２乗）（「ｘ」は積算を表す）のオーダーとなる。

例えば、時間長が１分である入力音声データ５１０と、時間長が１分である音声モデルとの間の類似度を計算する場合を考える。この場合、入力音声データ５１０及び音声モデルに関するフレーム数は、１フレームを１０ミリ秒とした場合、６０００程度となる。したがって、類似度を計算する組み合わせの数は、６０００の４乗、すなわち１３億のオーダーとなる。これだけの数の組み合わせに関して、音声データ処理装置５が現実的な時間内に計算を完了することは困難である。

また、時間長が様々な値であるセグメント同士に関して類似度を計算した場合、本来、類似度が低いはずのセグメント同士が、偶然高い類似度を示すことがある。特に、音声データにノイズが重畳する場合、あるいは、データの時間長が短い場合において、このような現象が発生することが多い。したがって、このような現象が多く発生した場合、音声データ処理装置５が算出した類似度の精度が低下する。

特許文献１乃至３が開示した技術は、このような問題を解決することができない。本願発明の主たる目的は、係る問題を解決可能な、音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラムを提供することである。

本願発明の一態様に係る音声データ処理装置は、第一の音声データを、音声データが有するデータ構造に基づいて分割してセグメントを抽出するセグメント抽出手段と、クラスタリングによって前記セグメントをクラスタに分類し、前記クラスタごとにセグメントのモデルを生成するセグメントモデル生成手段と、前記セグメントのモデルと第二の音声データを用いて、前記第一の音声データと前記第二の音声データとの間の類似度を計算する類似度計算手段と、を備える。

上記目的を達成する他の見地において、本願発明の一態様に係る音声データ処理方法は、情報処理装置によって、第一の音声データを、音声データが有するデータ構造に基づいて分割してセグメントを抽出し、クラスタリングによって前記セグメントをクラスタに分類し、前記クラスタごとにセグメントのモデルを生成し、前記セグメントのモデルと第二の音声データを用いて、前記第一の音声データと前記第二の音声データとの間の類似度を計算する。

また、上記目的を達成する更なる見地において、本願発明の一態様に係る音声データ処理プログラムは、第一の音声データを、音声データが有するデータ構造に基づいて分割してセグメントを抽出するセグメント抽出処理と、クラスタリングによって前記セグメントをクラスタに分類し、前記クラスタごとにセグメントのモデルを生成するセグメントモデル生成処理と、前記セグメントのモデルと第二の音声データを用いて、前記第一の音声データと前記第二の音声データとの間の類似度を計算する類似度計算処理と、をコンピュータに実行させる。

更に、本発明の他の見地は、係る音声データ処理プログラム（コンピュータプログラム）が格納された、コンピュータ読み取り可能な、不揮発性の記憶媒体によっても実現可能である。

本願発明は、複数の音声データに関する類似度を、効率的かつ高精度に算出することができる。

本願発明の第１の実施形態に係る音声データ処理装置の構成を示すブロック図である。本願発明の第１の実施形態に係る音声データ処理装置の動作を示すフローチャートである。本願発明の第２の実施形態に係る音声データ処理装置の構成を示すブロック図である。本願発明の第３の実施形態に係る音声データ処理装置の構成を示すブロック図である。本願発明の第４の実施形態に係る音声データ処理装置の構成を示すブロック図である。本願発明の各実施形態に係る音声データ処理装置を実行可能な情報処理装置の構成を示すブロック図である。一般的な音声データ処理装置の構成を示すブロック図である。

以下、本願発明の実施の形態について図面を参照して詳細に説明する。

＜第１の実施形態＞
図１は第１の実施形態の音声データ処理装置１の構成を概念的に示すブロック図である。

図１に示すとおり、音声データ処理装置１は、セグメント抽出部１０、セグメントモデル生成部１１、類似度計算部１２、音声データ記憶部１３、及び、音声データ入力部１４を備えている。

セグメント抽出部１０、セグメントモデル生成部１１、及び、類似度計算部１２は、電子回路の場合もあれば、コンピュータプログラムとそのコンピュータプログラムに従って動作するプロセッサである場合もある。音声データ記憶部１３は、電子回路、あるいは、コンピュータプログラムとそのコンピュータプログラムに従って動作するプロセッサによりアクセス制御される、磁気ディスクあるいは電子ディスク等の電子デバイスである。

音声データ入力部１４は、マイクロフォン等の音声入力デバイスを備えている。音声データ入力部１４は、音声データ処理装置１を使用するユーザから発せられた入力音声１４１をデジタル処理することにより、入力音声データ１４０（第２の音声データ）を生成する。音声データ入力部１４は、生成した入力音声データ１４０を、類似度計算部１２へ入力する。

音声データ記憶部１３は、比較対象音声データ１３０（第１の音声データ）を記憶している。比較対象音声データ１３０は、音声データ処理装置１が、入力音声データ１４０との間の類似度を算出する対象とする音声データである。

セグメント抽出部１０は、音声データ記憶部１３から比較対象音声データ１３０を読み出して、比較対象音声データ１３０をセグメントに分割して、そのセグメントを抽出する。セグメント抽出部１０が比較対象音声データ１３０をセグメントに分割する方法には、いくつかある。

第１の方法としては、セグメント抽出部１０は、比較対象音声データ１３０を所定の時間間隔により１以上のセグメントに分割する。係る所定の時間間隔としては、音声に含まれる音素あるいは音節に関する時間スケール（数十乃至１００ミリ秒程度）に相当する時間間隔を用いることができる。音素あるいは音節は、音声のデータ構造を表す情報として扱うことができる。係る所定の時間間隔は、音声のデータ構造を表す他の時間間隔でもよい。

第２の方法としては、セグメント抽出部１０は、いわゆる変化点検出を行うことにより、比較対象音声データ１３０が示す値に関する単位時間当たりの変化量により表されるデータ構造に基づき、係る変化量が大きい時刻において、比較対象音声データ１３０を１以上のセグメントに分割する。この場合、セグメント抽出部１０は、時系列の特徴ベクトル系列（ｘ_１，ｘ_２，・・・，ｘ_Ｔ）（Ｔは比較対象音声データ１３０の時間長）として表現された比較対象音声データ１３０に関して、隣接する特徴ベクトル間の差分のノルム｜ｘ_ｔ＋１−ｘ_ｔ｜（ｔは０≦ｔ≦Ｔを満たすいずれかの時間）が示す値を算出する（「｜｜」は、絶対値（即ち大きさ）を表す）。そして、セグメント抽出部１０は、係るノルムが示す値が閾値以上である場合に、それらの隣接する特徴ベクトル間において、比較対象音声データ１３０を分割する。

第３の方法としては、セグメント抽出部１０は、規範となる所定の部分的な音声モデルであるセグメントのモデル（セグメント音声モデル）により表される音声のデータ構造を基準として、比較対象音声データ１３０を１以上のセグメントに分割する。この場合、規範となる所定のセグメント音声モデル（基準モデル）としては、例えば、ＨＭＭ等の時系列データの統計モデルがある。そして、セグメント抽出部１０は、比較対象音声データ１３０を表す特徴ベクトル系列（ｘ_１，ｘ_２，・・・，ｘ_Ｔ）に対するＨＭＭに関する最適アラインメントを算出する。すなわち、セグメント抽出部１０は、ｍ個（ｍは１以上の整数）のＨＭＭ（λ_１，λ_２，・・・，λ_ｍ）をセグメント音声モデルとして、数１が示す数式により算出される値が最大となるような、時間軸上の分割点（ｔ_０（＝０），ｔ_１，・・・，ｔ_ｓ−１，ｔ_ｓ（＝Ｔ））、及び、セグメント音声モデル系列（ｍ_１，・・・，ｍ_ｓ−１，ｍ_ｓ）を、最適アラインメントとして算出する。最適アラインメントは、数１において数式ΣlogPの値が最大となるときの、音声モデルを表すパラメータ群の値のことである。セグメント抽出部１０は、音声認識の技術領域において周知である動的計画法に基づく探索アルゴリズム（ワンパスＤＰ（Dynamic Programming）法など）を使用することにより、係る最適アラインメントを算出する。尚、数１において、Ｐは、セグメント音声モデルにおける、特徴ベクトル系列に関する確率分布を示す。また、数１において、Ｓは、時系列データの統計モデルであるセグメント音声モデルの状態数を示す。

セグメントモデル生成部１１は、セグメント抽出部１０によって分割されたセグメントに対して、クラスタリングを行う。すなわち、セグメントモデル生成部１１は、特性が類似したセグメントをまとめることにより、セグメントを１以上のクラスタに分類する。さらに、セグメントモデル生成部１１は、各クラスタに含まれる特性が類似したセグメントを学習データとして、クラスタごとにセグメント音声モデルを生成する。係るセグメント音声モデルは、図１に示さない記憶装置に記憶されてもよい。

クラスタリングの方法としては、種々の方法が知られている。例えば、数２が示す数式が表す、セグメントやクラスタの近さ（非特許文献２参照）を、それらに含まれる特徴ベクトルの分散共分散行列を用いて算出する方法などがよく知られている。数２において、ｎ_１及びｎ_２は、２つのクラスタ（またはセグメント）に含まれる特徴ベクトルの数であり、ｎは、ｎ_１及びｎ_２の和である。また数２において、Σ_１及びΣ_２は、２つのクラスタ（またはセグメント）に含まれる特徴ベクトルの分散共分散行列であり、Σは２つのクラスタ（またはセグメント）を合わせたときの特徴ベクトルの分散共分散行列である。数２が示す指標は、特徴ベクトルが正規分布に従うと仮定した場合に、２つのクラスタ（またはセグメント）を統合すべきか否かを尤度比により表したものである。セグメントモデル生成部１１は、数２が示す値が所定の条件を満たす場合に、２つのクラスタ（またはセグメント）を、１つのクラスタに統合する。

セグメントモデル生成部１１は、セグメント音声モデルを生成する際に、セグメント音声モデルとして、ＨＭＭのような時系列データの統計モデルを仮定して、周知であるパラメータ推定法を適用する。例えば、最尤推定に基づくＨＭＭに関するパラメータ推定法は、Ｂａｕｍ−Ｗｅｌｃｈ法としてよく知られている。あるいは、ベイズ推定に基づくパラメータ推定方法についても、変分ベイズ法あるいはモンテ・カルロ法に基づく方法などが知られている。セグメントモデル生成部１１は、セグメント音声モデルの個数、各セグメント音声モデル（ＨＭＭ）の状態数、及び、混合数などに関しては、既存のモデル選択に関する手法（記述長最小基準、ベイズ情報量基準、赤池情報量基準、及び、ベイズ的な事後確率等）を使用して決定する。

なお、セグメント抽出部１０は、セグメントモデル生成部１１からのフィードバックを受けて、比較対象音声データ１３０を、セグメントに再分割してもよい。すなわち、セグメント抽出部１０は、セグメントモデル生成部１１が生成したセグメント音声モデルを用いて、上述したセグメント分割に関する第３の方法により、比較対象音声データ１３０をセグメントに再分割する。セグメントモデル生成部１１は、新たに分割されたセグメントを用いて、セグメント音声モデルを生成する。セグメント抽出部１０及びセグメントモデル生成部１１は、このようなフィードバックによる動作を、セグメント抽出部１０による比較対象音声データ１３０の分割が収束するまで、反復してよい。

類似度計算部１２は、音声データ入力部１４から入力音声データ１４０を受け取る。類似度計算部１２はまた、セグメントモデル生成部１１もしくは図１に図示しない記憶装置から、セグメント音声モデルを受け取る。類似度計算部１２は、入力音声データ１４０とセグメント音声モデルを用いて、入力音声データ１４０と比較対象音声データ１３０との間の類似度を算出する。類似度計算部１２は、例えば数１に示した数式を使用してセグメント抽出部１０と同様に最適アラインメントを算出することによって、類似度を算出する。ここで、類似度計算部１２は、数１に示した数式において、入力音声データ１４０から抽出した特徴ベクトル系列をパラメータｘ_ｔとして使用し、セグメントモデル生成部１１から入手したセグメント音声モデルをλｍとして使用する。類似度計算部１２は、その際、例えば、動的計画法に基づく探索アルゴリズムを使用する。

次に図２のフローチャートを参照して、本実施形態の音声データ処理装置１の動作（処理）について詳細に説明する。

セグメント抽出部１０は、音声データ記憶部１３から、比較対象音声データ１３０を読み出す（ステップＳ１０１）。セグメント抽出部１０は、比較対象音声データ１３０を、所定の基準に基づいて、複数のセグメントに分割して、そのセグメントを抽出する（ステップＳ１０２）。セグメントモデル生成部１１は、セグメント抽出部１０により分割されたセグメントのうち、特性が類似するセグメントを同一のクラスタに分類し、クラスタごとにセグメント音声モデルを生成する（ステップＳ１０３）。

セグメントモデル生成部１１は、生成したセグメント音声モデルを、セグメント抽出部１０へ入力する（ステップＳ１０４）。セグメント抽出部１０は、セグメントモデル生成部１１から入力されたセグメント音声モデルを基準として、比較対象音声データ１３０を、再度セグメントに分割可能か否かを確認する（ステップＳ１０５）。

再度セグメントに分割可能である場合（ステップＳ１０６でＹｅｓ）、処理はステップＳ１０２へ戻る。再度セグメントに分割可能でない場合（ステップＳ１０６でＮｏ）、セグメント抽出部１０は、比較対象音声データ１３０を、セグメントに再分割できないことを、セグメントモデル生成部１１へ通知する（ステップＳ１０７）。

セグメントモデル生成部１１は、生成したセグメント音声モデルを、類似度計算部１２へ入力する（ステップＳ１０９）。音声データ入力部１４は、入力された入力音声１４１から入力音声データ１４０を生成して、生成した入力音声データ１４０を、類似度計算部１２へ入力する（ステップＳ１０９）。類似度計算部１２は、比較対象音声データ１３０と、入力音声データ１４０との間の類似度を算出し（ステップＳ１１０）、全体の処理は終了する。

尚、音声データ処理装置１が行う処理は、ステップＳ１０１乃至Ｓ１０８に係る処理と、ステップＳ１０９乃至Ｓ１１０に係る処理とに大別される。音声データ処理装置１は、これら２つの処理について、いずれか一方の処理の１回の実行に対して、他方の処理を複数回実行してもよい。

本実施形態に係る音声データ処理装置１は、複数の音声データに関する類似度を、効率的かつ高精度に算出することができる。その理由は、音声データ処理装置１が、以下の手順によって当該類似度を算出するからである。すなわち、
・セグメント抽出部１０が比較対象音声データ１３０をセグメントに分割する。
・セグメントモデル生成部１１が係るセグメントをクラスタリングすることによって１以上のクラスタに分割し、当該クラスタ別にセグメント音声モデルを生成する。
・類似度計算部１２が係るセグメント音声モデルを使用して比較対象音声データ１３０と入力音声データ１４０との間の類似度を算出する。

図７に示す一般的な音声データ処理装置５は、比較対象音声データ５５０を所定の時間単位に分割したフレームを基に音声モデルを生成し、係る音声モデルを使用して、入力音声データ５１０と比較対象音声データ５５０との間の類似度を算出する。この際、音声データ処理装置５が処理する計算量は、上述した通り、非常に多くなる。また、入力音声データ５１０にノイズが重畳した場合などでは、音声データ処理装置５が算出した類似度の精度が低下する虞もある。

これに対して、本実施形態に係る音声データ処理装置１は、比較対象音声データ１３０を音声データの構造を踏まえてセグメントに分割したのち、特性が類似したセグメントを同一のクラスタに分類する。そして、音声データ処理装置１は、係るクラスタごとにセグメント音声モデルを生成し、当該セグメント音声モデルを使用して、比較対象音声データ１３０と入力音声データ１４０との間の類似度を算出する。この際、当該セグメント音声モデルの規模が小さくなるため、音声データ処理装置１が処理する計算量は、音声データ処理装置５が処理する計算量と比較して、大幅に少なくなる。したがって、音声データ処理装置１は、複数の音声情報に関する類似度を、効率的に算出することができる。

また、本実施形態に係る音声データ処理装置１が生成するセグメント音声モデルは、音声データの構造を踏まえて分割されたセグメントに基づいているため、音声データ処理装置１は、複数の音声データに関する類似度を、高精度に算出することができる。

さらに、本実施形態に係るセグメント抽出部１０及びセグメントモデル生成部１１は、比較対象音声データ１３０のセグメントへの分割、及び、セグメント音声モデルの生成に係る処理に関して反復動作を行うことができる。これにより、音声データ処理装置１は、係る類似度を、より効率的かつ高精度に算出することを実現するセグメント音声モデルを生成することができる。

＜第２の実施形態＞
図３は第２の実施形態の音声データ処理装置２の構成を概念的に示すブロック図である。

図３に示すとおり、音声データ処理装置２は、セグメント抽出部２０、セグメントモデル生成部２１、類似度計算部２２、音声データ記憶部２３、及び、音声データ入力部２４を備えている。音声データ処理装置２は、第１の実施形態に係る音声データ処理装置１と同様の構成要素を包含している。

音声データ入力部２４は、入力音声２４１をデジタル処理することにより、入力音声データ２４０を生成し、生成した入力音声データ２４０を、セグメント抽出部２０へ入力する。

セグメント抽出部２０は、音声データ記憶部２３に記憶された比較対象音声データ２３０、及び、入力音声データ２４０を受け取り、それらの音声データをセグメントに分割して、そのセグメントを抽出する。すなわち、セグメント抽出部２０は、第１の実施形態に係るセグメント抽出部１０と比較して、比較対象音声データ２３０に加えて、入力音声データ２４０についてもセグメントに分割する。セグメント抽出部２０は、第１の実施形態に係るセグメント抽出部１０が行う方法と同様の方法、すなわち最適アラインメントを算出することによって、これらの音声データを、セグメントに分割する。

セグメントモデル生成部２１は、セグメント抽出部２０によって分割されたセグメントに対してクラスタリングを行い、１以上のクラスタに分類する。そして、セグメントモデル生成部２１は、係るクラスタごとにセグメント音声モデルを生成する。係るセグメント音声モデルは、図３に図示しない記憶装置に記憶されてもよい。セグメントモデル生成部２１は、第１の実施形態に係るセグメントモデル生成部１１と比較して、比較対象音声データ２３０に加えて、入力音声データ２４０に関しても、セグメント音声モデルを生成する。セグメントモデル生成部２１は、第１の実施形態に係るセグメントモデル生成部１１が行う方法と同様の方法により、これらの音声データに関して、セグメント音声モデルを生成する。

また、セグメント抽出部２０及びセグメントモデル生成部２１は、第１の実施形態に係るセグメント抽出部１０及びセグメントモデル生成部２０と同様に、反復的な処理を行ってもよい。

類似度計算部２２は、セグメントモデル生成部２１から、比較対象音声データ２３０及び入力音声データ２４０、及び、これらの音声データに関するセグメント音声モデルを受け取り、これらの情報から比較対象音声データ２３０と入力音声データ２４０との間の類似度を算出する。類似度計算部２２は、例えば、数３に示す数式「Ｌ−Ｌ_１−Ｌ_２」を用いて、係る類似度を算出する。

数３に示す数式において、Ｌ_１は、比較対象音声データ２３０に関する特徴ベクトル系列（ｘ_１，ｘ_２，・・・，ｘ_Ｔ）を用いて生成されたセグメント音声モデルλ_ｍ ^（１）と、比較対象音声データ２３０との間の類似度を示す。数３に示す数式において、Ｌ_２は、入力音声データ２４０に関する特徴ベクトル系列（ｙ_１，ｙ_２，・・・，ｙ_Ｔ）を用いて生成されたセグメント音声モデルλ_ｍ ^（２）と、入力音声データ２４０との間の類似度を示す。数３に示す数式において、Ｌは、比較対象音声データ２３０及び入力音声データ２４０に関する特徴ベクトル系列を用いて生成されたセグメント音声モデルλ_ｍと、比較対象音声データ２３０及び入力音声データ２４０との間の類似度を示す。これらの類似度は、比較対象音声データ２３０及び入力音声データ２４０が、同一の確率分布から生起したものか否かについて、対数尤度比により表したものである。

本実施形態に係る音声データ処理装置２は、複数の音声データ（データセット）に関する類似度を、効率的かつ高精度に算出することができる。その理由は、音声データ処理装置２が、以下の手順によって当該類似度を算出するからである。すなわち、
・セグメント抽出部２０が比較対象音声データ２３０及び入力音声データ２４０をセグメントに分割する。
・セグメントモデル生成部２１が係るセグメントを、比較対象音声データ２３０に関するクラスタと入力音声データ２４０に関するクラスタとにクラスタリングすることによって１以上のクラスタに分割し、当該クラスタ別にセグメント音声モデルを生成する。
・類似度計算部２２が係るセグメント音声モデルを使用して比較対象音声データ２３０と入力音声データ２４０との間の類似度を算出する。

また、本実施形態に係る音声データ処理装置２は、比較対象音声データ２３０に加えて、入力音声データ２４０に関しても、セグメントへの分割処理、及び、セグメント音声モデルの合成処理を行う。これにより、音声データ処理装置２は、比較対象音声データ２３０と入力音声データ２４０に共通する部分を、双方の音声データから生成されたセグメント音声モデルを使用することにより、直接的に比較することができる。したがって、音声データ処理装置２は、係る類似度をさらに高精度に算出することができる。

＜第３の実施形態＞
図４は第３の実施形態の音声データ処理装置３の構成を概念的に示すブロック図である。本実施形態に係る音声データ処理装置３は、ユーザから発せられた音声が、複数の比較対象音声データのいずれと類似しているかを判定する装置である。

図４に示すとおり、音声データ処理装置３は、ｎ個（ｎは２以上の整数）の音声データ記憶部３３−１乃至３３−ｎ、音声データ入力部３４、ｎ個のマッチング部３５−１乃至３５−ｎ、及び、比較部３６を備えている。

音声データ入力部３４は、入力音声３４１をデジタル処理することにより、入力音声データ３４０を生成し、生成した入力音声データ３４０を、マッチング部３５−１乃至３５−ｎへ入力する。

マッチング部３５−１乃至３５−ｎは、それぞれ、セグメント抽出部３０−１乃至３０−ｎ、セグメントモデル生成部３１−１乃至３１−ｎ、及び、類似度計算部３２−１乃至３２−ｎを備えている。セグメント抽出部３０−１乃至３０−ｎは、第１の実施形態に係るセグメント抽出部１０、あるいは、第２の実施形態に係るセグメント抽出部２０と同様の処理を行う。セグメントモデル生成部３１−１乃至３１−ｎは、第１の実施形態に係るセグメントモデル生成部１１、あるいは、第２の実施形態に係るセグメントモデル生成部２１と同様の処理を行う。類似度計算部３２−１乃至３２−ｎは、第１の実施形態に係る類似度計算部１２、あるいは、第２の実施形態に係る類似度計算部２２と同様の処理を行う。

マッチング部３５−１乃至３５−ｎは、それぞれ、音声データ記憶部３３−１乃至３３−ｎから、比較対象音声データ３３０−１乃至３３０−ｎを入手する。マッチング部３５−１乃至３５−ｎは、音声データ入力部３４から入力音声データ３４０を入手する。マッチング部３５−１乃至３５−ｎは、それぞれ、比較対象音声データ３３０−１乃至３３０−ｎと入力音声データ３４０との間の類似度を算出し、算出した類似度を、比較対象音声データ３３０−１乃至３３０−ｎを識別可能な識別子とともに、比較部３６へ入力する。

比較部３６は、マッチング部３５−１乃至３５−ｎから入手した、比較対象音声データ３３０−１乃至３３０−ｎと入力音声データ３４０との間の類似度が示す値を比較する。そして、比較部３６は、値が最も高い類似度に対応付けられる比較対象音声データを識別可能な識別子を求めて出力する。

本実施形態に係る音声データ処理装置３は、複数の音声データに関する類似度を、効率的かつ高精度に算出することができる。その理由は、音声データ処理装置３が、以下の手順によって当該類似度を算出するからである。すなわち、
・セグメント抽出部３０−１乃至３０−ｎが比較対象音声データ３３０−１乃至３３０−ｎをセグメントに分割する。
・セグメントモデル生成部３１−１乃至３１−ｎが係るセグメントをクラスタリングすることによって１以上のクラスタに分割し、当該クラスタ別にセグメント音声モデルを生成する。
・類似度計算部３２−１乃至３２−ｎが係るセグメント音声モデルを使用して比較対象音声データ３３０−１乃至３３０−ｎと入力音声データ３４０との間の類似度を算出する。

また、本実施形態に係る音声データ処理装置３は、複数の比較対象音声データ３３０−１乃至３３０−ｎと、入力音声データ３４０との間の類似度を算出し、係る類似度が示す値が最も高い比較対象音声データを識別可能な識別子を出力する。したがって、音声データ処理装置３は、入力音声３４１が、複数の比較対象音声データのいずれかと合致するかを判定する音声識別を行うことができる。

＜第４の実施形態＞
図５は第４の実施形態の音声データ処理装置４の構成を概念的に示すブロック図である。

本実施形態の音声データ処理装置４は、セグメント抽出部４０、セグメントモデル生成部４１、及び、類似度計算部４２を備えている。

セグメント抽出部４０は、第１の音声データを、音声データが有するデータ構造に基づいて分割して、セグメントを抽出する。

セグメントモデル生成部４１は、クラスタリングによって係るセグメントをクラスタに分類し、そのクラスタごとにセグメントのモデルを生成する。

類似度計算部４２は、係るセグメントのモデルと第２の音声データを用いて、第１の音声データと第２の音声データとの間の類似度を計算する。

本実施形態に係る音声データ処理装置４は、複数の音声データに関する類似度を、効率的かつ高精度に算出することができる。その理由は、音声データ処理装置４が、以下の手順によって当該類似度を算出するからである。すなわち、
・セグメント抽出部４０が第１の音声情報をセグメントに分割する。
・セグメントモデル生成部４１が係るセグメントをクラスタリングすることによって１以上のクラスタに分割し、当該クラスタ別にセグメント音声モデルを生成する。
・類似度計算部４２が係るセグメント音声モデルを使用して第１の音声情報と第２の音声情報との間の類似度を算出する。

＜ハードウェア構成例＞
上述した実施形態において図１、及び、図３乃至５に示した各部は、専用のＨＷ（ＨａｒｄＷａｒｅ）（電子回路）によって実現することができる。また、少なくとも、セグメント抽出部１０、２０、３０−１乃至３０−ｎ、及び、４０、セグメントモデル生成部１１、２１、３１−１乃至３１−ｎ、及び、４１、及び、類似度計算部１２、２２、３２−１乃至３２−ｎ、及び、４２は、ソフトウェアプログラムの機能（処理）単位（ソフトウェアモジュール）と捉えることができる。但し、これらの図面に示した各部の区分けは、説明の便宜上の構成であり、実装に際しては、様々な構成が想定され得る。この場合のハードウェア環境の一例を、図６を参照して説明する。

図６は、本発明の模範的な各実施形態に係る音声データ処理装置を実行可能な情報処理装置９００（コンピュータ）の構成を例示的に説明する図である。即ち、図６は、図１、及び、図３乃至５に示した音声データ処理装置を実現可能なコンピュータ（情報処理装置）の構成であって、上述した実施形態における各機能を実現可能なハードウェア環境を表す。

図６に示した情報処理装置９００は、ＣＰＵ（Ｃｅｎｔｒａｌ＿Ｐｒｏｃｅｓｓｉｎｇ＿Ｕｎｉｔ）９０１、ＲＯＭ（Ｒｅａｄ＿Ｏｎｌｙ＿Ｍｅｍｏｒｙ）９０２、ＲＡＭ（Ｒａｎｄｏｍ＿Ａｃｃｅｓｓ＿Ｍｅｍｏｒｙ）９０３、ハードディスク９０４（記憶装置）、外部装置との通信インタフェース９０５（Ｉｎｔｅｒｆａｃｅ：以降、「Ｉ／Ｆ」と称する）、ＣＤ−ＲＯＭ（Ｃｏｍｐａｃｔ＿Ｄｉｓｃ＿Ｒｅａｄ＿Ｏｎｌｙ＿Ｍｅｍｏｒｙ）等の記憶媒体９０７に格納されたデータを読み書き可能なリーダライタ９０８、及び、入出力インタフェース９０９を備え、これらの構成がバス９０６（通信線）を介して接続された一般的なコンピュータである。

そして、上述した実施形態を例に説明した本発明は、図６に示した情報処理装置９００に対して、次の機能を実現可能なコンピュータプログラムを供給する。その機能とは、その実施形態の説明において参照したブロック構成図（図１、及び、図３乃至５）における、セグメント抽出部１０、２０、３０−１乃至３０−ｎ、及び、４０、セグメントモデル生成部１１、２１、３１−１乃至３１−ｎ、及び、４１、及び、類似度計算部１２、２２、３２−１乃至３２−ｎ、及び、４２、或いはフローチャート（図２）の機能である。本発明は、その後、そのコンピュータプログラムを、当該ハードウェアのＣＰＵ９０１に読み出して解釈し実行することによって達成される。また、当該装置内に供給されたコンピュータプログラムは、読み書き可能な揮発性の記憶メモリ（ＲＡＭ９０３）またはハードディスク９０４等の不揮発性の記憶デバイスに格納すれば良い。

また、前記の場合において、当該ハードウェア内へのコンピュータプログラムの供給方法は、ＣＤ−ＲＯＭ等の各種記憶媒体９０７を介して当該装置内にインストールする方法や、インターネット等の通信回線を介して外部よりダウンロードする方法等のように、現在では一般的な手順を採用することができる。そして、このような場合において、本発明は、係るコンピュータプログラムを構成するコード或いは、そのコードが格納された記憶媒体９０７によって構成されると捉えることができる。

以上、上述した実施形態を模範的な例として本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。

尚、本発明は、入力された音声を登録された複数話者の音声と比較して、入力された音声の話者を特定する話者識別装置、及び、入力された音声が登録された特定の話者のものか否かを判定する話者照合装置などに適用できる。本発明は、あるいはまた、音声から話者の感情等の状態を推定したり感情の変化を検出したりする感情認識装置、及び、音声から話者の特性（性別、年齢、性格、心身疾患など）を推測する装置などにも適用できる。

尚、上述した各実施形態の一部又は全部は、以下の付記のようにも記載されうる。しかしながら、上述した各実施形態により例示的に説明した本発明は、以下には限られない。すなわち、
（付記１）
第一の音声データを、音声データが有するデータ構造に基づいて分割してセグメントを抽出するセグメント抽出手段と、
クラスタリングによって前記セグメントをクラスタに分類し、前記クラスタごとにセグメントのモデルを生成するセグメントモデル生成手段と、
前記セグメントのモデルと第二の音声データを用いて、前記第一の音声データと前記第二の音声データとの間の類似度を計算する類似度計算手段と、
を備えたことを特徴とする音声データ処理装置。
（付記２）
前記セグメント抽出手段は、前記セグメントモデル生成手段が生成した前記セグメントのモデルを用いてセグメントを再抽出し、
前記セグメントモデル生成手段は、前記セグメント抽出手段が再抽出した前記セグメントを用いて前記セグメントのモデルを再生成することを特徴とする、付記１に記載の音声データ処理装置。
（付記３）
前記類似度計算手段は、前記第二の音声データに対する前記セグメントのモデルの最適アラインメントを求めることにより、前記第一の音声データと前記第二の音声データとの間の類似度を計算することを特徴とする、付記１または２に記載の音声データ処理装置。
（付記４）
前記セグメント抽出手段は、前記第一の音声データに加えて前記第二の音声データからもセグメントを抽出し、前記セグメントモデル生成手段は、前記第一の音声データおよび前記第二の音声データから抽出されたセグメントを用いてセグメントのモデルを生成し、
前記類似度計算手段は、前記セグメントのモデル、前記第一の音声データ、および、前記第二の音声データを用いて、前記第一の音声データと前記第二の音声データとの間の類似度を計算することを特徴とする、付記１ないし３のいずれかに記載の音声データ処理装置。
（付記５）
前記セグメント抽出手段は、前記第一及び第二の音声データ、または、前記第一の音声データに対する前記セグメントのモデルの最適アラインメント、または、所定の基準モデルの最適アラインメントを求めることによりセグメントを抽出することを特徴とする、付記１ないし４のいずれかに記載の音声データ処理装置。
（付記６）
前記セグメントモデル生成手段は、前記セグメントの近さに基づいてクラスタリングを行い、さらにその結果として生ずるクラスタごとに、時系列データの統計モデルを規定するパラメータを推定することを特徴とする、付記１ないし５のいずれかに記載の音声データ処理装置。
（付記７）
比較手段をさらに備え、
前記セグメント抽出手段は、異なる複数の前記第一の音声データから、それぞれ、前記セグメントを抽出し、
前記セグメントモデル生成手段は、前記第一の音声データ別に、前記セグメントのモデルを生成し、
前記類似度計算手段は、複数の前記第一の音声データの各々と前記第二の音声データとの間の類似度を計算し、
前記比較手段は、前記類似度を比較し、所定の類似度を有する前記第一の音声データを選択することを特徴とする付記１ないし６のいずれかに記載の音声データ処理装置。
（付記８）
情報処理装置によって、
第一の音声データを、音声データが有するデータ構造に基づいて分割してセグメントを抽出し、
クラスタリングによって前記セグメントをクラスタに分類し、前記クラスタごとにセグメントのモデルを生成し、
前記セグメントのモデルと第二の音声データを用いて、前記第一の音声データと前記第二の音声データとの間の類似度を計算する、
音声データ処理方法。
（付記９）
第一の音声データを、音声データが有するデータ構造に基づいて分割してセグメントを抽出するセグメント抽出処理と、
クラスタリングによって前記セグメントをクラスタに分類し、前記クラスタごとにセグメントのモデルを生成するセグメントモデル生成処理と、
前記セグメントのモデルと第二の音声データを用いて、前記第一の音声データと前記第二の音声データとの間の類似度を計算する類似度計算処理と、
をコンピュータに実行させる音声データ処理プログラム。
（付記１０）
第一の音声情報を、前記第一の音声情報の構造に応じた所定の基準に基づいて、複数のセグメントに分割して、前記セグメントを抽出するセグメント抽出手段と、
特性が類似する前記セグメントを同一のクラスタに分類し、前記クラスタ別に部分的な音声モデルであるセグメント音声モデルを生成するセグメントモデル生成手段と、
前記セグメント音声モデルと第二の音声情報とを使用して、前記所定の基準に基づいて、前記第一の音声情報と前記第二の音声情報との間の類似度を算出する類似度計算手段と、
を備える音声データ処理装置。
（付記１１）
前記セグメント抽出手段は、前記セグメントモデル生成手段が生成した前記セグメント音声モデルを基準として、前記第一の音声情報を、複数の前記セグメントに再分割し、
前記セグメントモデル生成手段は、前記セグメント抽出手段が再分割した前記セグメントを用いて、前記セグメント音声モデルを再生成する、
付記１０に記載の音声データ処理装置。
（付記１２）
前記セグメント抽出手段は、前記第二の音声情報を、前記第二の音声情報の構造に応じた前記所定の基準に基づいて、複数の前記セグメントに分割し、
前記セグメントモデル生成手段は、前記第二の音声情報に関して、前記セグメント音声モデルを生成し、
前記類似度計算手段は、前記セグメント音声モデルと、前記第一及び第二の音声情報とを使用して、前記類似度が示す値を算出する、
付記１０または１１に記載の音声データ処理装置。
（付記１３）
前記セグメント抽出手段は、前記第二の音声情報、あるいは、前記第一及び第二の音声情報に対する前記セグメント音声モデルに関する最適アラインメントを求めることによって、前記セグメントに分割し、
前記類似度計算手段は、前記最適アラインメントに基づき、前記類似度が示す値を算出する、
付記１０乃至１２のいずれかに記載の音声データ処理装置。
（付記１４）
前記セグメント抽出手段は、前記第一の音声情報、あるいは、前記第一及び第二の音声情報を、所定の時系列統計モデルを基準として、前記セグメントに分割し、
前記セグメントモデル生成手段は、前記クラスタ別に、前記統計モデルを規定するパラメータ値を設定する、
付記１０乃至１３のいずれかに記載の音声データ処理装置。
（付記１５）
前記セグメント抽出手段は、前記第一の音声情報、あるいは、前記第一及び第二の音声情報が有する１つの音素あるいは音節が、開始してから終了するまでに要する時間ごとに、前記セグメントに分割する、
付記１０乃至１４のいずれかに記載の音声データ処理装置。
（付記１６）
前記セグメント抽出手段は、特徴ベクトルの時系列により示される、前記第一の音声情報、あるいは、前記第一及び第二の音声情報について、前記特徴ベクトルが示す値に関する単位時間当たりの変化量が示す値が閾値以上となる時刻ごとに、前記セグメントに分割する、
付記１０乃至１５のいずれかに記載の音声データ処理装置。
（付記１７）
前記セグメント抽出手段は、複数の前記第一の音声情報を、それぞれ、複数の前記セグメントに分割し、
前記セグメントモデル生成手段は、前記第一の音声情報別に、前記セグメント音声モデルを生成し、
前記類似度計算手段は、前記第一の音声情報別に、前記第二の音声情報との間の前記類似度を算出し、
複数の前記第一の音声情報に関する前記類似度が示す値を比較して、その値が最も大きい前記第一の音声情報を識別可能な識別子を求める比較手段をさらに備える、
付記１０乃至１６のいずれかに記載の音声データ処理装置。
（付記１８）
情報処理装置によって、
第一の音声情報を、前記第一の音声情報の構造に応じた所定の基準に基づいて、複数のセグメントに分割して、前記セグメントを抽出し、
特性が類似する前記セグメントを同一のクラスタに分類し、前記クラスタ別に部分的な音声モデルであるセグメント音声モデルを生成し、
前記セグメント音声モデルと第二の音声情報とを使用して、前記所定の基準に基づいて、前記第一の音声情報と前記第二の音声情報との間の類似度を算出する、
音声データ処理方法。
（付記１９）
第一の音声情報を、前記第一の音声情報の構造に応じた所定の基準に基づいて、複数のセグメントに分割して、前記セグメントを抽出するセグメント抽出処理と、
特性が類似する前記セグメントを同一のクラスタに分類し、前記クラスタ別に部分的な音声モデルであるセグメント音声モデルを生成するセグメント生成処理と、
前記セグメント音声モデルと第二の音声情報とを使用して、前記所定の基準に基づいて、前記第一の音声情報と前記第二の音声情報との間の類似度を算出する類似度計算処理と、
をコンピュータに実行させる音声データ処理プログラム。

１音声データ処理装置
１０セグメント抽出部
１１セグメントモデル生成部
１２類似度計算部
１３音声データ記憶部
１３０比較対象音声データ
１４音声データ入力部
１４０入力音声データ
１４１入力音声
２音声データ処理装置
２０セグメント抽出部
２１セグメントモデル生成部
２２類似度計算部
２３音声データ記憶部
２３０比較対象音声データ
２４音声データ入力部
２４０入力音声データ
２４１入力音声
３音声データ処理装置
３０−１乃至３０−ｎセグメント抽出部
３１−１乃至３１−ｎセグメントモデル生成部
３２−１乃至３２−ｎ類似度計算部
３３−１乃至３３−ｎ音声データ記憶部
３３０−１乃至３３０−ｎ比較対象音声データ
３４音声データ入力部
３４０入力音声データ
３４１入力音声
３５−１乃至３５−ｎマッチング部
３６比較部
４音声データ処理装置
４０セグメント抽出部
４１セグメントモデル生成部
４２類似度計算部
５音声データ処理装置
５１音声データ入力部
５１０入力音声データ
５１１入力音声
５２セグメント整合部
５３音声モデル記憶部
５４類似度計算部
５５音声データ記憶部
５５０比較対象音声データ
５６フレームモデル生成部
５７フレームモデル記憶部
５８音声データ変換部
９００情報処理装置
９０１ＣＰＵ
９０２ＲＯＭ
９０３ＲＡＭ
９０４ハードディスク
９０５通信インタフェース
９０６バス
９０７記憶媒体
９０８リーダライタ
９０９入出力インタフェース

Claims

第一の音声データを、音声データが有するデータ構造に基づいて分割してセグメントを抽出するセグメント抽出手段と、
クラスタリングによって前記セグメントをクラスタに分類し、前記クラスタごとにセグメントのモデルを生成するセグメントモデル生成手段と、
前記セグメントのモデルと第二の音声データを用いて、前記第一の音声データと前記第二の音声データとの間の類似度を計算する類似度計算手段と、
を備えたことを特徴とする音声データ処理装置。
前記セグメント抽出手段は、前記セグメントモデル生成手段が生成した前記セグメントのモデルを用いてセグメントを再抽出し、
前記セグメントモデル生成手段は、前記セグメント抽出手段が再抽出した前記セグメントを用いて前記セグメントのモデルを再生成することを特徴とする、請求項１に記載の音声データ処理装置。
前記類似度計算手段は、前記第二の音声データに対する前記セグメントのモデルの最適アラインメントを求めることにより、前記第一の音声データと前記第二の音声データとの間の類似度を計算することを特徴とする、請求項１または２に記載の音声データ処理装置。
前記セグメント抽出手段は、前記第一の音声データに加えて前記第二の音声データからもセグメントを抽出し、前記セグメントモデル生成手段は、前記第一の音声データおよび前記第二の音声データから抽出されたセグメントを用いてセグメントのモデルを生成し、
前記類似度計算手段は、前記セグメントのモデル、前記第一の音声データ、および、前記第二の音声データを用いて、前記第一の音声データと前記第二の音声データとの間の類似度を計算することを特徴とする、請求項１ないし３のいずれかに記載の音声データ処理装置。
前記セグメント抽出手段は、前記第一及び第二の音声データ、または、前記第一の音声データに対する前記セグメントのモデルの最適アラインメント、または、所定の基準モデルの最適アラインメントを求めることによりセグメントを抽出することを特徴とする、請求項１ないし４のいずれかに記載の音声データ処理装置。
前記セグメントモデル生成手段は、前記セグメントの近さに基づいてクラスタリングを行い、さらにその結果として生ずるクラスタごとに、時系列データの統計モデルを規定するパラメータを推定することを特徴とする、請求項１ないし５のいずれかに記載の音声データ処理装置。
比較手段をさらに備え、
前記セグメント抽出手段は、異なる複数の前記第一の音声データから、それぞれ、前記セグメントを抽出し、
前記セグメントモデル生成手段は、前記第一の音声データ別に、前記セグメントのモデルを生成し、
前記類似度計算手段は、複数の前記第一の音声データの各々と前記第二の音声データとの間の類似度を計算し、
前記比較手段は、前記類似度を比較し、所定の類似度を有する前記第一の音声データを選択することを特徴とする請求項１ないし６のいずれかに記載の音声データ処理装置。
情報処理装置によって、
第一の音声データを、音声データが有するデータ構造に基づいて分割してセグメントを抽出し、
クラスタリングによって前記セグメントをクラスタに分類し、前記クラスタごとにセグメントのモデルを生成し、
前記セグメントのモデルと第二の音声データを用いて、前記第一の音声データと前記第二の音声データとの間の類似度を計算する、
音声データ処理方法。
第一の音声データを、音声データが有するデータ構造に基づいて分割してセグメントを抽出するセグメント抽出処理と、
クラスタリングによって前記セグメントをクラスタに分類し、前記クラスタごとにセグメントのモデルを生成するセグメントモデル生成処理と、
前記セグメントのモデルと第二の音声データを用いて、前記第一の音声データと前記第二の音声データとの間の類似度を計算する類似度計算処理と、
をコンピュータに実行させる音声データ処理プログラム。