JP2017058483A

JP2017058483A - 音声処理装置、音声処理方法及び音声処理プログラム

Info

Publication number: JP2017058483A
Application number: JP2015182325A
Authority: JP
Inventors: 寧丁; Ning Ding; 誠広畑; Makoto Hirohata
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2015-09-15
Filing date: 2015-09-15
Publication date: 2017-03-23
Anticipated expiration: 2035-09-15
Also published as: US10832685B2; JP6556575B2; US20170076727A1

Abstract

【課題】複数の話者の複数の発話データから、同一の話者の発話を特定する音声処理装置、音声処理方法及び音声処理プログラムを提供する。
【解決手段】音声処理装置１００は、抽出部１０２と、分類部１０１と、類似度算出部１０４と、特定部１０６とを有する。抽出部１０２は、発話データから、音声特徴を抽出する。分類部１０１は、抽出された音声特徴をもとに、発話データを、話者毎の発話の集合に分類する。類似度算出部１０４は、集合に含まれる発話データの音声特徴と、複数の話者モデルそれぞれとの類似度を算出する。特定部１０６は、算出された類似度に基づいて、集合ごとに話者を特定する。
【選択図】図２

Description

本発明の実施形態は、音声処理装置、音声処理方法及び音声処理プログラムに関する。

従来、話者の発話データを用いて、該話者の話者モデルを学習し、学習した話者モデルを用いて、対応する話者の発話を特定する技術がある。

特許第４８５４７３２号公報

従来技術は、同一の話者の発話を準備しなければならず、また、複数の話者の発話データに対して、何名の話者が存在するのか、どの発話データが同一の話者のものなのかを判別することが困難である。

本発明が解決しようとする課題は、複数の話者の複数の発話データから、同一の話者の発話を特定することができる音声処理装置、音声処理方法及び音声処理プログラムを提供することである。

実施形態の音声処理装置は、抽出部と、分類部と、類似度算出部と、特定部とを有する。抽出部は、発話データから、音声特徴を抽出する。分類部は、抽出された音声特徴をもとに、発話データを、話者毎の発話の集合に分類する。類似度算出部は、集合に含まれる発話データの音声特徴と、複数の話者モデルそれぞれとの類似度を算出する。特定部は、算出された類似度に基づいて、集合ごとに話者を特定する。

実施形態１に係る音声処理装置のハードウェア構成を示す図。実施形態１に係る音声処理装置の機能構成を示すブロック図。実施形態１に係る発話データの分類手法を説明する図。実施形態１に係る類似度算出を説明する図。実施形態１に係るクラスタの話者の特定を説明する図。実施形態１に係る話者モデルの学習を説明する図。実施形態１に係る音声処理装置による処理の流れを示すフローチャート。実施形態２に係る音声処理装置の機能構成を示すブロック図。実施形態２に係る発話データの分類を説明する図。実施形態２に係る類似度算出を説明する図。実施形態２に係るクラスタの話者の特定を説明する図。実施形態２に係るクラスタの統合を説明する図。実施形態２に係る音声処理装置による処理の流れを示すフローチャート。

（実施形態１）
図１は、実施形態１に係る音声処理装置１００のハードウェア構成例を示す図である。図１に示すように、音声処理装置１００は、ＣＰＵ（Central Processing Unit）１２と、ＲＡＭ（Random Access Memory）１３と、ＲＯＭ（Read Only Memory）１４と、表示装置１５と、音声入力装置１６と、通信Ｉ／Ｆ１７と、操作部１８とを有する。各ハードウェアは、システムバス１１により互いに接続される。例えば、音声処理装置１００は、ＰＣ（Personal Computer）やタブレット端末、サーバ装置等の情報処理装置である。

ＣＰＵ１２は、音声処理装置１００全体の動作を制御する。ＣＰＵ１２は、ＲＡＭ１３等を作業領域として、ＲＯＭ１４等に記憶されたプログラムを実行することで、音声処理装置１００全体の動作を制御する。ＲＡＭ１３は、各種処理に関する情報等を一時的に記憶するとともに、ＲＯＭ１４等に格納されたプログラムの実行時の作業領域として使用される。ＲＯＭ１４は、音声処理装置１００による処理を実現するためのプログラムを記憶する。表示装置１５は、音声処理装置１００による処理結果や状態等を表示する。例えば、表示装置１５は、液晶ディスプレイやタッチパネルである。音声入力装置１６は、音声等を入力するためのマイクロフォン等である。通信Ｉ／Ｆ１７は、外部機器との通信を制御するインタフェースである。操作部１８は、音声処理装置１００を操作するためのインタフェースである。例えば、操作部１８は、キーボードやマウス等である。音声処理装置１００がタッチパネルを備える場合、表示装置１５と操作部１８とは、操作表示部として統合されても良い。なお、音声処理装置１００は、本実施形態を実現するために、少なくともＣＰＵ１２、ＲＡＭ１３、ＲＯＭ１４、表示装置１５を備えていれば良い。

図２は、実施形態１に係る音声処理装置１００の機能構成例を示すブロック図である。図２に示すように、音声処理装置１００は、分割部１０１と、抽出部１０２と、分類部１０３と、類似度算出部１０４と、記憶部１０５と、特定部１０６と、生成部１０７と、出力制御部１０８とを有する。記憶部１０５以外の上記各部は、これらの一部又は全てがソフトウェア（プログラム）で実現されても良いし、ハードウェアで実現されても良い。かかる音声処理装置１００は、音声入力装置１６を用いた音声データや、予め生成された音声ファイル等のデータの入力をもとに、データに混在する複数の話者の発話を分類・特定するとともに話者モデルを学習し、処理結果を出力する。

分割部１０１は、音声データを分割する。より具体的には、分割部１０１は、入力された音声データが所定時間より長ければ、該音声データを分割する。発話の時間の長さが分割後の音声データよりも短い方が好ましく、一つの様態として、音声データは、一定時間ごとに分割されれば良い。すなわち、分割部１０１による処理は、ある程度長い時間の音声データを分割する際に実行される。換言すると、音声処理装置１００に入力される音声データが、複数の音声データに予め分割されている場合は、分割部１０１による処理は省略される。

抽出部１０２は、発話データから音声特徴を抽出する。より具体的には、抽出部１０２は、分割部１０１によって分割された、話者による発話を含む音声データから、ＭＦＣＣ（Mel‐Frequency Cepstrum Coefficient）やＬＰＣ（Linear Predictive Coding）ケプストラム等を使用して、発話の特徴量を抽出する。

分類部１０３は、抽出された音声特徴をもとに、発話データを、話者毎の発話の集合に分類する。本実施形態では、話者毎の発話の集合を「クラスタ」と呼ぶ。分類の手法としては、階層的分類等を使用すれば良い。より具体的には、分類部１０３は、複数の発話データの中から、抽出部１０２によって抽出された音声特徴の距離がより近くなるデータの対を１のクラスタとして統合する。そして、分類部１０３は、生成したクラスタと残りの発話データとから、音声特徴の距離がより近いデータの対を探索していくことで、複数の話者ごとの発話データのクラスタそれぞれに分類する。クラスタは、データ間の音声特徴の距離が所定距離内である場合に１のクラスタとして統合される。

図３は、実施形態１に係る発話データの分類手法の例を説明する図である。例えば、図３に示すように、発話データとして、ｕ_１、ｕ_２、ｕ_３、ｕ_４、ｕ_５、ｕ_６、ｕ_７、ｕ_８の８つのデータを分類する場合を例に挙げる。分類部１０３は、発話データｕ_１と、他の発話データとの音声特徴の距離から、発話データｕ_１と発話データｕ_８とを１のクラスタ１（ｃ_１）に分類する。そして、分類部１０３は、クラスタ１（ｃ_１）と、残りの発話データとの音声特徴の距離を確認し、統合する発話データがあればクラスタ１（ｃ_１）に統合する。図３の例では、クラスタ１（ｃ_１）は、発話データｕ_１と発話データｕ_８とを統合したものとなる。続いて、分類部１０３は、発話データｕ_２と、残りの発話データとの音声特徴の距離から、発話データｕ_２と発話データｕ_５とを１のクラスタ２（ｃ_２）に分類する。その後、分類部１０３は、クラスタ２（ｃ_２）と、残りの発話データとの音声特徴の距離を確認し、統合する発話データがあればクラスタ２（ｃ_２）に統合する。図３の例では、クラスタ２（ｃ_２）は、発話データｕ_２と発話データｕ_５とを統合したものとなる。これらの処理を繰り返し実行することで、図３に示すように、発話データを複数のクラスタに分類する。

図２の説明に戻り、類似度算出部１０４は、集合に含まれる発話データの音声特徴と、複数の話者モデルそれぞれとの類似度を算出する。より具体的には、類似度算出部１０４は、分類部１０３によって分類されたクラスタに含まれる複数の発話データの音声特徴と、記憶部１０５に記憶された話者モデルとの類似度を算出する。記憶部１０５には、複数の話者モデルが記憶されている。類似度算出部１０４は、各クラスタに含まれる複数の発話データの音声特徴と、各話者モデルとの類似度を算出していく。但し、記憶部１０５は、全ての話者に対する話者モデルを記憶しているわけではない。後述するように、本実施形態では、既に記憶されている話者モデルを学習によりその精度を向上させるとともに、未知の話者の発話も新たな話者の話者モデルとして追加される。例えば、話者モデルは、ガウス混合モデル（GMM：Gaussian Mixture Model）によって表現されても良いし、ｉ−ｖｅｃｔｏｒによって表現されても良い。本実施形態では、話者モデルに対する音声特徴の尤度を、音声特徴と話者モデルとの類似度として利用する。ＧＭＭは、例えば、「Douglas A，Reynolds et al，“Speaker Verification Using Adapted Gaussian Mixture Models”，Digital Signal Processing，Vol．10，2000，p．19‐41．」を参照のこと。また、ｉ−ｖｅｃｔｏｒは、例えば、「Najim Dehak et al，“Front‐End Factor Analysis for Speaker Verification”，IEEE Trans on audio，speech，and language processing，vol．19，NO．4，2011，pp．788‐798．」を参照のこと。

図４は、実施形態１に係る類似度算出の例を説明する図である。図４に示す分類結果は、図３で説明した分類による結果である。また、現状では、記憶部１０５には、話者モデルｍ_Ａと、話者モデルｍ_Ｂとの２つが記憶されているものとする。例えば、図４に示すように、類似度算出部１０４は、クラスタ１（ｃ_１）の発話データｕ_１と、話者モデルｍ_Ａとの類似度「Ｄ（ｕ_１，ｍ_Ａ）＝０．８」を算出する。また、類似度算出部１０４は、クラスタ１（ｃ_１）の発話データｕ_１と、話者モデルｍ_Ｂとの類似度「Ｄ（ｕ_１，ｍ_Ｂ）＝０．１」を算出する。また、類似度算出部１０４は、クラスタ１（ｃ_１）の発話データｕ_８と、話者モデルｍ_Ａとの類似度「Ｄ（ｕ_８，ｍ_Ａ）＝０．７」を算出する。また、類似度算出部１０４は、クラスタ１（ｃ_１）の発話データｕ_８と、話者モデルｍ_Ｂとの類似度「Ｄ（ｕ_８，ｍ_Ｂ）＝０．２」を算出する。このようにして、類似度算出部１０４は、クラスタ２（ｃ_２）に含まれる各発話データと各話者モデルとの類似度、クラスタ３（ｃ_３）に含まれる各発話データと各話者モデルとの類似度、クラスタ４（ｃ_４）に含まれる各発話データと各話者モデルとの類似度についても算出する。

図２の説明に戻り、特定部１０６は、算出された類似度に基づいて、集合ごとに話者を特定する。より具体的には、特定部１０６は、同一のクラスタに分類された全ての発話データと、話者モデルとの類似度について重みを付け、これらの和を求める。例えば、重み付けは、より短い時間での発話に対し、重みをより小さくする。すなわち、短い時間での発話は、時間が短いことによる揺らぎから特徴の変動が大きく、類似度の信頼性が低くなることが多いため、重みをより小さくする。また、例えば、重み付けは、分類の精度がより低い発話に対し、その重みをより小さくする。すなわち、分類部１０３による分類で誤りが発生し、同一のクラスタに異なる話者の発話が混在している可能性があるため、類似度がより低い発話については、その重みをより小さくする。そして、特定部１０６は、類似度の重み付き和が所定の閾値以上であるクラスタの話者を話者モデルに対応する話者として特定する。類似度の重み付き和が所定の閾値以上であるクラスタが複数存在する場合は、類似度が最も大きいクラスタを、話者モデルに対応する話者として特定すれば良い。

図５は、実施形態１に係るクラスタの話者を特定する例を説明する図である。例えば、図５に示すように、特定部１０６は、クラスタ１（ｃ_１）について、話者モデルｍ_Ａとの類似度の重み付き和「Ｄ（ｃ_１，ｍ_Ａ）＝０．７７」を求める。図５に示す例では、発話データｕ_１と話者モデルｍ_Ａとの類似度の重みα_１が「１」、発話データｕ_８と話者モデルｍ_Ａとの類似度の重みα_８が「０．５」となっている。そして、特定部１０６は、求めた重み付き和「Ｄ（ｃ_１，ｍ_Ａ）＝０．７７」が、所定の閾値（例えば、０．５）以上であれば、クラスタ１（ｃ_１）の話者を話者モデルｍ_Ａの話者Ａとして特定する。特定部１０６は、クラスタ２〜クラスタ４についても同様の処理を実行する。これらにより、クラスタ２（ｃ_２）は話者Ｂとして特定され、クラスタ３（ｃ_３）は未知の話者として特定され、クラスタ４（ｃ_４）は未知の話者として特定される。ここで、クラスタ３（ｃ_３）の話者と、クラスタ４（ｃ_４）の話者とは、何れも未知の話者であるが、異なるクラスタに分類されているため、それぞれは異なる未知の話者（未知１、未知２）として特定されている。

図２の説明に戻り、生成部１０７は、類似度の重み付き和が所定の閾値未満である集合の話者を新たな話者として話者モデルを生成する。より具体的には、生成部１０７は、特定部１０６による話者の特定において、類似度の重み付き和が所定の閾値未満となった未知の話者のクラスタそれぞれを、記憶部１０５に記憶された話者モデルには存在しないものとして、クラスタ内の複数の発話の音声特徴を用いて、新たな話者モデルとして生成する。そして、生成部１０７は、生成した新たな話者モデルを記憶部１０５に格納する。話者モデルの学習方法については、ＧＭＭによる学習方法でも良いし、ｉ−ｖｅｃｔｏｒによる学習方法でも良い。

図６は、実施形態１に係る話者モデルを学習する例を説明する図である。例えば、図６に示すように、生成部１０７は、クラスタ３（ｃ_３）に対し、類似度の重み付き和が所定の閾値未満であることから、記憶部１０５に既に記憶された話者モデル（話者モデルｍ_Ａ、話者モデルｍ_Ｂ）の何れにも該当しない場合に、未知の話者の一つとして話者モデルｍ_Ｃを生成する。そして、生成部１０７は、生成した話者モデルｍ_Ｃを新たな話者モデルとして記憶部１０５に格納する。生成部１０７は、未知２となったクラスタ４（ｃ_４）に対しても、同様に、話者モデルｍ_Ｄを新たな話者モデルとして記憶部１０５に格納する。このようにして、生成部１０７は、話者モデルを学習する。

ここで、特定部１０６や生成部１０７によって使用される閾値については、上述した使用例に限られるものではない。上記では、特定部１０６が、類似度の重み付き和が所定の閾値以上であるクラスタの話者を話者モデルに対応する話者として特定し、生成部１０７が、類似度の重み付き和が所定の閾値未満であるクラスタの話者を新たな話者として話者モデルを生成する場合を説明した。このほか、特定部１０６が、類似度の重み付き和が第１の閾値以上であるクラスタの話者を話者モデルに対応する話者として特定し、生成部１０７が、類似度の重み付き和が第１の閾値よりも小さい第２の閾値未満であるクラスタの話者を新たな話者として話者モデルを生成するようにしても良い。なお、例えば、第１の閾値は所定の閾値よりも大きく、第２の閾値は所定の閾値よりも小さいものとする。これらにより、前者の場合は、全てのクラスタについて話者（未知の話者を含む）を特定することができる。後者の場合は、ある程度高い閾値（第１の閾値）を話者モデルの特定に使用し、ある程度低い閾値（第２の閾値）を新たな話者モデルの生成条件に使用するので、より高精度に話者の特定を実現することができる。

図２の説明に戻り、出力制御部１０８は、話者の特定結果の出力を制御する。例えば、出力制御部１０８は、特定部１０６によって特定された話者の名称等と、対応する音声データの格納場所等とを表示装置１５に出力するための制御を行なう。また、例えば、出力制御部１０８は、音声データの再生のための操作に応じて、指定された話者の音声データの再生のための制御を行なう。

図７は、実施形態１に係る音声処理装置１００による処理の流れの例を示すフローチャートである。図７に示すように、音声処理装置１００は、入力された音声データを一定時間ごと等に分割する（ステップＳ１０１）。そして、音声処理装置１００は、分割された音声データそれぞれに含まれる発話の音声特徴を抽出する（ステップＳ１０２）。続いて、音声処理装置１００は、抽出された音声特徴をもとに、分割された音声データに含まれる発話をクラスタに分類する（ステップＳ１０３）。その後、音声処理装置１００は、クラスタに含まれる複数の発話の音声特徴と、記憶部１０５に記憶された話者モデルとの類似度を算出する（ステップＳ１０４）。

そして、音声処理装置１００は、同一のクラスタに分類された全ての発話と、話者モデルとの類似度について重みを付けてこれらの和を求め、類似度の重み付き和が所定の閾値以上であるクラスタの話者を話者モデルに対応する話者として特定する（ステップＳ１０５）。続いて、音声処理装置１００は、類似度の重み付き和が所定の閾値未満となった未知のクラスタそれぞれを、記憶部１０５に記憶された話者モデルには存在しないものとして、クラスタ内の複数の発話の音声特徴を用いて新たな話者モデルを生成し、生成した新たな話者モデルを記憶部１０５に格納することにより、話者モデルの学習を行なう（ステップＳ１０６）。その後、音声処理装置１００は、話者の特定結果を表示装置１５等に表示出力する（ステップＳ１０７）。

実施形態によれば、発話データの音声特徴を抽出し、抽出された音声特徴をもとに、複数の発話データを、異なる話者の発話のクラスタに分類し、クラスタに含まれる発話の音声特徴と、複数の話者モデルそれぞれとの類似度を算出して、算出された類似度の重み付き和から、クラスタごとに話者を特定するので、複数の話者の複数の発話データから、同一の話者の発話を特定することができる。

また、実施形態によれば、話者モデルに対応する話者としてクラスタを特定できない場合に、該クラスタを、話者モデルには存在しない新たな話者のクラスタとして特定するので、複数の新たな話者モデルを学習することができる。

（実施形態２）
図８は、実施形態２に係る音声処理装置２００の機能構成例を示すブロック図である。実施形態２では、実施形態１に係る音声処理装置１００の機能構成と同様の構成については同一の符号を付し、その詳細な説明を省略する場合がある。具体的には、以下に説明する統合部２０９以外の各部の機能は、実施形態１に係る各部の機能と同様である。なお、実施形態２に係る音声処理装置２００のハードウェア構成は、実施形態１に係る音声処理装置１００のハードウェア構成と同様である。

図８に示すように、音声処理装置２００は、分割部１０１と、抽出部１０２と、分類部１０３と、類似度算出部１０４と、記憶部１０５と、特定部１０６と、生成部１０７と、出力制御部１０８と、統合部２０９とを有する。記憶部１０５以外の上記各部は、これらの一部又は全てがソフトウェア（プログラム）で実現されても良いし、ハードウェアで実現されても良い。

統合部２０９は、特定された話者が同一である集合を統合する。より具体的には、統合部２０９は、特定部１０６によって各クラスタに対応する話者が特定されたときに、同一の話者として特定されたクラスタそれぞれを、１のクラスタに統合する。これにより、生成部１０７は、統合部２０９によって統合されたクラスタをもとに、話者モデルを生成することになる。

以下、図９〜図１２を用いて、実施形態２に係る音声処理装置２００による処理を説明する。なお、同一の話者として特定されたクラスタそれぞれを１のクラスタに統合する処理以外は、実施形態１に係る音声処理装置１００による処理と同様であるため、詳細な処理については説明を省略する。

図９は、実施形態２に係る発話データの分類の例を説明する図である。例えば、図９に示すように、分類部１０３によって、実際には同一の話者の異なる発話である発話データｕ_２と、発話データｕ_５とが、クラスタ２（ｃ_２）と、クラスタ５（ｃ_５）とに分類されたこととする。なお、発話データｕ_２と、発話データｕ_５とは、話者モデルｍ_Ｂに対応する話者Ｂによる発話のデータであるものとする。

図１０は、実施形態２に係る類似度算出の例を説明する図である。例えば、図１０に示すように、クラスタ２（ｃ_２）の発話データｕ_２と、話者モデルｍ_Ｂとの類似度「Ｄ（ｕ_２，ｍ_Ｂ）＝０．９」が類似度算出部１０４によって算出される。また、クラスタ５（ｃ_５）の発話データｕ_５と、話者モデルｍ_Ｂとの類似度「Ｄ（ｕ_５，ｍ_Ｂ）＝０．８」が類似度算出部１０４によって算出される。

図１１は、実施形態２に係るクラスタの話者を特定する例を説明する図である。例えば、図１１に示すように、クラスタ２（ｃ_２）について、話者モデルｍ_Ｂとの類似度の重み付き和「Ｄ（ｃ_２，ｍ_Ｂ）＝０．９」が特定部１０６によって求められる。なお、図１１に示す例では、発話データｕ_２と話者モデルｍ_Ｂとの類似度の重みα_２が「１」となっている。そして、求められた重み付き和が所定の閾値以上であることから、クラスタ２（ｃ_２）の話者が話者モデルｍ_Ｂの話者Ｂとして特定部１０６によって特定される。同様に、クラスタ５（ｃ_５）について、話者モデルｍ_Ｂとの類似度の重み付き和「Ｄ（ｃ_５，ｍ_Ｂ）＝０．８」が特定部１０６によって求められる。なお、図１１に示す例では、発話データｕ_５と話者モデルｍ_Ｂとの類似度の重みα_５が「１」となっている。そして、求められた重み付き和が所定の閾値以上であることから、クラスタ５（ｃ_５）の話者が話者モデルｍ_Ｂの話者Ｂとして特定部１０６によって特定される。すなわち、クラスタ２とクラスタ５とは、特定された話者が同一である。

図１２は、実施形態２に係るクラスタの統合の例を説明する図である。例えば、図１２上段に示すように、クラスタ２とクラスタ５とが、特定部１０６によって同一の話者（話者Ｂ）に特定されているものとする。このとき、図１２下段に示すように、統合部２０９は、特定部１０６によって同一の話者に特定されたクラスタ２とクラスタ５とを１のクラスタに統合する。図１２では、クラスタ２とクラスタ５とを、１のクラスタ２に統合する場合を例に挙げている。

図１３は、実施形態２に係る音声処理装置２００による処理の流れの例を示すフローチャートである。なお、図１３に示すステップＳ２０１〜ステップＳ２０５は、図７に示したステップＳ１０１〜ステップＳ１０５の処理と同様であるため、その説明を省略する。また、図１３に示すステップＳ２０７及びステップＳ２０８は、図７に示したステップＳ１０６及びステップＳ１０７の処理と同様であるため、その説明を省略する。

図１３に示すように、音声処理装置２００は、特定された話者が同一のクラスタが存在する場合にこれらのクラスタを統合し、クラスタの分類結果を修正する（ステップＳ２０６）。この後、音声処理装置２００は、クラスタの分類結果を修正した統合後のクラスタをもとに、話者モデルを学習し、処理結果を出力する。

実施形態によれば、同一の話者であると特定された異なるクラスタを統合するので、より高精度に話者の発話を特定することができるとともに、より高精度に複数の新たな話者モデルを学習することができる。

上記文書中や図面中等で示した処理手順、制御手順、具体的名称、各種のデータやパラメータ等を含む情報は、特記する場合を除いて任意に変更することができる。また、図示した装置の各構成要素は、機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、装置の分散又は統合の具体的形態は、図示のものに限られず、その全部又は一部を各種の負担や使用状況等に応じて、任意の単位で機能的又は物理的に、分散又は統合することができる。

また、上記実施形態に係る音声処理装置１００や音声処理装置２００は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることで実現することが可能である。実行されるプログラムは、上述してきた各機能を含むモジュール構成となっている。また、実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録されて提供しても、ＲＯＭ等に予め組み込んで提供しても良い。

また、上述した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。また、各実施形態は、内容を矛盾させない範囲で適宜組み合わせることが可能である。また、各実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００音声処理装置
１０１分割部
１０２抽出部
１０３分類部
１０４類似度算出部
１０５記憶部
１０６特定部
１０７生成部
１０８出力制御部

Claims

発話データから、音声特徴を抽出する抽出部と、
抽出された前記音声特徴をもとに、前記発話データを、話者毎の発話の集合に分類する分類部と、
前記集合に含まれる前記発話データの前記音声特徴と、複数の話者モデルそれぞれとの類似度を算出する類似度算出部と、
算出された前記類似度に基づいて、前記集合ごとに話者を特定する特定部と
を有する音声処理装置。
前記分類部は、音声特徴の距離がより近い発話データの対を１の集合とし、前記集合の発話データの音声特徴との距離がより近い残りの発話データを該集合に分類する処理を繰り返し実行する請求項１に記載の音声処理装置。
前記特定部は、前記類似度の重み付き和が第１の閾値以上である前記集合の話者を前記話者モデルに対応する話者として特定する請求項１又は２に記載の音声処理装置。
前記類似度の重み付き和が前記第１の閾値よりも小さい第２の閾値未満である前記集合の話者を新たな話者として話者モデルを生成する生成部をさらに有する請求項３に記載の音声処理装置。
前記特定部は、前記類似度の重み付き和が所定の閾値以上である前記集合の話者を前記話者モデルに対応する話者として特定する請求項１又は２に記載の音声処理装置。
前記類似度の重み付き和が前記所定の閾値未満である前記集合の話者を新たな話者として話者モデルを生成する生成部をさらに有する請求項５に記載の音声処理装置。
前記特定部は、より短い時間での発話に対し、前記類似度の重みをより小さくする請求項３〜６の何れか一つに記載の音声処理装置。
前記特定部は、分類の精度がより低い発話に対し、前記類似度の重みをより小さくする請求項３〜７の何れか一つに記載の音声処理装置。
特定された話者が同一である前記集合を統合する統合部をさらに有する請求項１〜８の何れか一つに記載の音声処理装置。
話者の特定結果の出力を制御する出力制御部をさらに有する請求項１〜９の何れか一つに記載の音声処理装置。
発話データから、音声特徴を抽出するステップと、
抽出された前記音声特徴をもとに、前記発話データを、話者毎の発話の集合に分類するステップと、
前記集合に含まれる前記発話データの前記音声特徴と、複数の話者モデルそれぞれとの類似度を算出するステップと、
算出された前記類似度に基づいて、前記集合ごとに話者を特定するステップと
を含む音声処理方法。
音声処理装置に、
発話データから、音声特徴を抽出するステップと、
抽出された前記音声特徴をもとに、前記発話データを、話者毎の発話の集合に分類するステップと、
前記集合に含まれる前記発話データの前記音声特徴と、複数の話者モデルそれぞれとの類似度を算出するステップと、
算出された前記類似度に基づいて、前記集合ごとに話者を特定するステップと
を実行させるための音声処理プログラム。