JP6171544B2 - 音声処理装置、音声処理方法及びプログラム - Google Patents

音声処理装置、音声処理方法及びプログラム Download PDF

Info

Publication number
JP6171544B2
JP6171544B2 JP2013098683A JP2013098683A JP6171544B2 JP 6171544 B2 JP6171544 B2 JP 6171544B2 JP 2013098683 A JP2013098683 A JP 2013098683A JP 2013098683 A JP2013098683 A JP 2013098683A JP 6171544 B2 JP6171544 B2 JP 6171544B2
Authority
JP
Japan
Prior art keywords
vowel
combination
speaker
clusters
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013098683A
Other languages
English (en)
Other versions
JP2014219557A (ja
Inventor
井手 博康
博康 井手
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2013098683A priority Critical patent/JP6171544B2/ja
Priority to US14/251,201 priority patent/US10037759B2/en
Priority to CN201410189831.8A priority patent/CN104143332B/zh
Publication of JP2014219557A publication Critical patent/JP2014219557A/ja
Application granted granted Critical
Publication of JP6171544B2 publication Critical patent/JP6171544B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification

Description

本発明は、音声処理装置、音声処理方法及びプログラムに関する。
IC(Integrated Circuit)レコーダをはじめとする小型録音機器の普及により、会議や座談会といった、不規則に入れ替わる複数の話者の音声を録音する機会が増えている。録音した音声データを効率的に利用するため、音声データにおいて何時、誰が発話したか特定する技術が開発されている(例えば、特許文献1など)。この技術は、話者特定(Speaker Diarization)と呼ばれている。
特許文献1が開示する技術では、録音データの音声区間の特徴量と予め記録した話者の音声の特徴量とを比較して、話者を特定する。
特開2004−145161号公報
特許文献1の技術では、話者を特定するために、予め対象となる話者の音声特徴量を記録しておかなければならない。すなわち、登録されていない未知の話者を処理対象にできなかった。
本発明は、上記問題に鑑みてなされたものであって、事前に話者を登録することなく、話者特定を容易に実行する音声処理装置、音声処理方法、及びプログラムを提供することを目的とする。
上記目的を達成するため、本発明の音声処理装置は、
音声データに含まれる母音区間の特徴量を取得する取得手段と、
前記取得した特徴量のうち、同一の母音に対応する特徴量を、教師無し分類法で複数のクラスタに分類する分類手段と、
前記分類したクラスタの組合せであって、同一の話者に対応する対応組合せを決定する決定手段と、
を備えることを特徴とする。
本発明によれば、事前に話者を登録することなく、話者特定を容易に実行できる。
この発明の実施形態1に係る音声処理装置の機能構成を示すブロック図である。 音声処理装置の物理構成を示すブロック図である。 (A)は、音声データにおける音素認識の処理を説明するための図である。(B)は、特徴量テーブルの例を示す図である。 (A)は、特徴量のクラスタリング処理の概念図である。(B)は、クラスタリングテーブルの例を示す図である。 (A)は、頻度をカウントする処理を説明するための図である。(B)は、頻度テーブル及びペアスコアテーブルの例を示す図である。 (A)は、組合せスコアの算出方法を説明するための図である。(B)は、組合せスコアテーブルの例を示す図である。 決定組合せテーブルの例を示す図である。 (A)は、仮話者番号を付与する処理を説明するための図である。(B)は、仮話者テーブルの例を示す図である。 (A)確定話者番号を決定する処理を説明するための図である。(B)は、確定話者テーブルの例を示す図である。 話者情報出力処理の一例を示すフローチャートである。 ダイアライゼーション処理の一例を示すフローチャートである。 ペアスコア決定処理の一例を示すフローチャートである。 組合せ決定処理の一例を示すフローチャートである。 区分処理の一例を示すフローチャートである。 変形例に係る頻度をカウントする処理を説明するための図である。
以下、本発明を実施するための形態に係る音声処理装置を、図を参照して説明する。なお、図中同一又は相当する部分には同一符号を付す。
(実施形態1)
実施形態1に係る音声処理装置1は、i)音声をマイクを用いて録音する録音機能、ii)録音した音声データから音声区間の特徴量を抽出する特徴量抽出機能、iii)抽出した特徴量に基づいて音声区間を話者別に区分けする区分機能、iv)区分結果を出力する出力機能、等を備える。
音声処理装置1は図1に示すようにマイク10と、情報処理部20と、表示部30と、出力部40と、入力部50と、操作部60と、を備える。
マイク10は、音波を電気信号に変換する変換部と、変換した電気信号を情報処理部20に伝達する伝達部を有するマイクロフォンである。マイク10はこのような物理構成により複数の話者が発した音声を電気信号に変換して情報処理部20伝達する。以下、マイク10が「a」、「i」、「u」、「e」、「o」の5つの母音を含む日本語を用いた複数話者の会話を録音した場合を例にとって説明する。
情報処理部20は、物理的には、図2に示すようにCPU(Central Processing Unit)21と、RAM(Random Access Memory)22と、ROM(Read−Only Memory)23と、I/O(Input/Output)部24と、外部記憶装置25と、内部バス26と、から構成される。
CPU21は、音声処理装置1の諸機能を制御する中央演算装置であり、ROM23からRAM22にロードされたプログラムを実行して、後述する処理を実行する。
RAM22は、CPU21が実行するプログラムや中間データを一時的に保存し、CPU21が各種処理を行う際の作業領域として使用する揮発性メモリである。
ROM23は、CPU21が実行するプログラムを格納している不揮発性メモリである。
I/O部24は、USB(Universal Serial Bus)やシリアルポート、LAN(Local Area Network)アダプタ等のインターフェース機器から構成され、情報処理部20に接続された表示部30、操作部60やその他外部装置等との情報の入出力を実現する。I/O部24は、図1の入力部50や出力部40として機能する。
外部記憶装置25は、ハードディスクドライブ、CD−ROM(Compact Disc Read Only Memory)、フラッシュメモリ等の不揮発性記憶装置であり、音響モデル等の後述する処理に用いるデータを記憶している。
なお、CPU21と、RAM22と、ROM23と、I/O部24と、外部記憶装置25とは内部バス26によってそれぞれ接続され、相互に情報の送信が可能である。
情報処理部20は、上記物理構成により音声データ記憶部210と、特徴量抽出部220と、特徴量分類部230と、ペアスコア決定部2410及び組合せスコア決定部2420を含む組合せ決定部240と、区分部250と、として機能する。情報処理部20の詳細については後述する。
表示部30は、液晶ディスプレイ等から構成され、情報処理部20から伝達された情報を表示する。
出力部40は、情報処理部20から音声データや、後述する話者特定結果を示す情報といった出力データを受け取り、外部装置に出力する。
入力部50は、外部装置から音声データや特徴量データといった入力データを受け取り、情報処理部20に伝達する。後述する母音区間の特徴量を入力データとして受け取る場合は、入力部50は特徴量を取得する取得手段として機能する。
操作部60は、タッチパネル、キーボード、ボタン、ポインティングデバイス等の、ユーザの操作を受付ける操作受付装置と、操作受付装置が受け付けた操作の情報を情報処理部20に伝達する伝達部と、から構成される。操作部60はこのような物理構成によりユーザの操作を受け付けて、操作情報を情報処理部20に伝達する。
次に、情報処理部20の機能について説明する。情報処理部20は、図1にしめすように、機能単位として音声データ記憶部210と、特徴量抽出部220と、特徴量分類部230と、ペアスコア決定部2410及び組合せスコア決定部2420を含む組合せ決定部240と、区分部250と、を含む。
音声データ記憶部210は、マイク10から伝達された信号(音声信号)を音声データとして記録する。又は、入力部50が外部機器から受け取った音声データを記録する。音声データ記憶部210は、記録した処理対象となる音声データを特徴量抽出部220に伝達する。
特徴量抽出部220は、音声データ記憶部210から伝達された音声データに含まれる母音区間の特徴量を取得する。母音区間の特徴量を取得するため、まず特徴量抽出部220は音声データに対して音素認識を実行する。具体的には、音声データのうち音量(パワー)が所定の閾値を越える部分を音声区間と推定して、音響特徴量を抽出する。そして、音響モデルに含まれる各音素の特徴量と比較して、最も類似している音素をその音声区間の音素として決定する(図3(A))。このとき、最も類似している音素との類似度が所定の閾値よりも低い場合は、非音声区間として処理対象から排除してもよい。
例えば、個人差・性差を超えて音素を決定できるように、多数の話者の音声に基づいて作成された一般的な音響モデルを、予めROM23又は外部記憶装置25に記録しておく。この音響モデルは話者の用いる言語(ここでは日本語)に含まれる各母音及び子音の特徴量をそれぞれ含む。
ここでは簡単のために、音声データの話者は全員が音声処理装置1が記憶する一つの音響モデルに対応する言語を発話したとする。一つの音声処理装置1で複数の言語を処理可能とするためには、複数の言語にそれぞれ対応する複数の音響モデルを用意し、ユーザの設定操作に基づいて最適な音響モデルを選択すれば良い。また、話者の性別・年齢毎に応じた音声モデルを選択可能としてもよい。
特徴量抽出部220は、音声認識の結果特定された母音の音声区間(母音区間)の特徴量を抽出する。ここでは、特徴量として16次元のISPs(Immittance Spectral Pairs)を抽出する。そして抽出した母音区間の特徴量と、時間情報と、母音の種別と、を関連付けた情報(図3(B)参照)を特徴量分類部230に伝達する。特徴量抽出部220は、音声データに含まれる母音区間の特徴量を取得するので、取得手段とも言う。
なお、ここでは複数の母音区間で話者個人の特徴が保たれる程度が高いことを重視してISPsを特量として採用した。しかし、本発明ではこれに限らず、LSPs(Line Spectral Pairs)やMFCCs(Mel−Frequency Cepstral Coefficients)など任意の特徴量を採用してもよい。
例えば、図3(A)に示したように、音声データにおける時刻t1〜t2(母音区間VI1)に母音「a」が、時刻t3〜t4(母音区間VI2)に母音「i」が、それぞれ録音されていたとする。この場合、特徴量抽出部220は、母音区間毎に、母音を特定する情報(例えば、母音区間VI1について「a」)と、音声区間の情報(VI1、VI2…)と、その音声区間の特徴量と、を特定する。母音区間の情報は、その音声区間のタイミングを示す情報(例えば、VI1ついて開始時刻t1と終了時刻t2)を含む。そして、特定した情報を特徴量テーブルFT(図3(B))に対応付けて記憶する。音声データに現れる全母音の情報を特徴量テーブルに記録した後、特徴量抽出部220は生成した特徴量テーブルFTを特徴量分類部230に伝達する。
特徴量分類部230は、取得した特徴量のうち、同一の母音に対応する特徴量を、教師無し分類法で複数のクラスタに分類する。なお、特徴量分類部230は入力部50を介して外部装置から母音区間の特徴量を取得してもよい。
具体的には、まず特徴量抽出部220から伝達された特徴量テーブルに含まれる特徴量を、母音別(日本語であれば「a」、「i」、「u」、「e」、「o」の五種類)に分割する。そして、分割した特徴量テーブル毎に、クラスタリングを実行して、特徴空間上で特徴量を既知の話者人数のクラスタに分割する。クラスタリングは、予め正解となる教師データを用いない教師無し学習(Unsupervised Learning)によって、特徴量を話者の人数分のクラスタに分類する(教師なし分類:Unsupervised Classification)処理である。
本実施の形態では、話者の人数は予めユーザが操作部60を用いて入力するものとする。入力された話者数は設定情報としてRAM22に記憶される。
図4(A)は、特徴量分類部230が実行するクラスタリングの概念図である。図4(A)では、2次元の特徴量空間FP上で、黒いドットで示された特徴量の配置に応じてクラスタリングを行い、点線で区切られた3つのクラスタに特徴量を分類した結果を示している。このとき、特徴量空間FPの座標軸は、特徴量のパラメータに対応する。あるいは、主成分分析により次元削減をする場合には、各座標軸がそれぞれ主成分スコアに対応する空間に座標変換を行ったうえで特徴量をクラスタリングする。この場合には、n次元の特徴量空間FPの座標軸は、それぞれ第1〜第n主成分スコアの何れかに対応する。
本実施の形態では、母音毎に集めた特徴量をLBG(Linde−Buzo−Gray)法によりベクトル量子化して、VQ(Vector Quantisation)テーブルを作成することによりクラスタリングを行う。VQテーブルはコードブックとも呼ばれる。
作成したVQテーブルは、特徴空間における各話者の母音特徴量の代表ベクトルを含む。各母音区間の特徴量は、VQテーブルに含まれる代表値のうち、距離(例えばマハラノビス距離)が最も近い代表値に量子化される。すなわち、代表ベクトルをクラスタと考えれば、各特徴量は複数のクラスタの何れかに分類される。
なお、クラスタリングの方法はこれに限らない。例えば、LBG法の変わりに、PNN(Pairwise Nearest Neighbor)法によりVQテーブルを作成してもよい。あるいは、群平均法やウォード法といった階層的クラスタリングや、SOM(Self−Organizing Maps)を用いたクラスリング方法など、教師無しでクラスタ分析するための既知の任意の方法で代用することが出来る。どの方法でクラスタリングしても、クラスタリング結果として得られるクラスタは、それぞれ処理対象となった母音の特徴量を、話者毎に分別したものとなる。理想的には、各クラスタに含まれる特徴量の母音区間は、すべて一人の話者が発したものとなる。そして、クラスタの代表値は、その話者の母音特徴量であるといえる。
全母音についてクラスタリングを終えると、特徴量分類部230はクラスタリング結果を組合せ決定部240に伝達する。例えば、母音「a」の特徴量を図4(A)で模式的に示したように特徴量空間FT上で3つのクラスタA1〜A3に分割した場合は、特徴量抽出部220は例えば図4(B)に示すようなクラスタテーブルCTを作成する。
クラスタテーブルCTは、母音の種別に応じて時系列順に割り当てられた「母音ID」(図4(B)ではa1〜a3…)と、その母音が現れる音声データ上の区間「母音区間」(図4(B)ではVI1、VIk、VIj…)と、その母音区間の特徴量が属するクラスタ(図4(B)ではA1〜A3)と、が対応づけて記録されている。特徴量分類部230は、「a」〜「o」の全母音についてクラスタリングを実行し、クラスタテーブルCTを作成する。そして、作成したクラスタテーブルCTを組合せ決定部240に伝達する。
このように、特徴量分類部230は、同一の母音に対応する特徴量を教師無し分類法で複数のクラスタに分類する処理を、話者が用いた言語に含まれる各母音について実行する。教師無し分類法を用いるため、登録されてない話者(音声の特徴量が未知の話者)についても分類の処理対象に出来る。また、予めユーザが入力した話者の数を用いてクラスタリングするため、話者数を推定する処理が省略できるため処理量が少なくなる。さらに、話者数の推定誤差によるクラスタリング精度の低下を防ぐことが出来る。特に、会話を録音したユーザにとっては会話に参加した人数(話者数)は既知である場合が多いので、話者数の設定するとしても、ユーザの負担は小さい。
また、特徴量分類部230は、クラスタリング処理を母音別に行う。即ち、クラスタリング対象を同一の音素(母音)の特徴量に限定出来るため、異なる特徴を持つ複数の音素について一括でクラスタリングする場合よりも、クラスタリングの精度が高くなる。つまり、クラスタリングによって生成されるクラスタに含まれる特徴量が、同一話者が発音した母音区間の特徴量である割合が高い。言い換えれば、分類によって生成したクラスタが同一の話者に対応する程度が高くなる。
また、話者個人の特徴が強く現れる母音の特徴量に絞ってクラスタリングを実行するため、処理対象となる特徴量を低減出来る。さらに、話者個人の特徴が現れない(現れる割合が小さい)環境音や子音の影響でクラスタリングの精度が低下することを防止することができる。
組合せ決定部240は、特徴量分類部230が分類したクラスタに含まれる特徴量の母音区間が出現する音声データにおけるタイミングに基づいて、分類したクラスタの組合せのうち同一の話者に対応する組合せ(対応組合せ)を決定する。
対応組合せとは、母音毎に一つずつクラスタを抽出した組合せのうち、全クラスタが同一の話者に対応する組合せである。
上述したクラスタリング処理の結果、各母音区間の特徴量は話者毎に別々のクラスタに分類される。しかしながら、母音毎にクラスタリングしているので、ある母音のあるクラスタの話者が、他の母音のどのクラスタに対応するか、その対応関係が明らかではない。そこで、本実施の形態では、組合せ決定部240が各話者に対応するクラスタの組合せを決定する。
組合せを決定するにあたっては、まずペアスコア決定部2410が、特徴量分類部230が異なる2つの母音(母音ペア)について分類したクラスタから一つずつ抽出したクラスタのペアについて、同一の話者に対応する程度を示すペアスコアを決定する。
本例のように特徴量分類部230が日本語に含まれる5つの母音についてそれぞれ特徴量をクラスタリングした場合には、母音ペアは、{「a」,「i」}、{「a」、「u」}、…、{「e」,「o」}といった、=10とおり存在する。ペアスコア決定部2410は、特徴量分類部230が分類処理を行った母音から2つを抽出した母音ペアの、全組合せ(本例では10とおり)について後述のペアスコアを求める処理を実行する。
一つの母音ペアは、特徴量分類部230が分類処理を実行した異なる2つの母音を含む。ペアスコア決定部2410は、その片方の母音について分類した結果のクラスタ集合と、もう一方の母音について分類した結果のクラスタ集合と、から一つずつ抽出したクラスタのペア(クラスタペア)について、ペアスコアを決定する。母音ペアが「a」と「i」であり、それぞれ3つのクラスタに分類した場合には、「クラスタA1」と「クラスタI1」、「クラスタA1」と「クラスタI2」、…「クラスタA3」と「クラスタI3」の9つである(図5(B)参照)。母音数をN、クラスタ数(話者数)をMとすると、合計で×M×M(個)のクラスタペアが定義される。ペアスコア決定部2410は、この各クラスタペアについて後述する方法でペアスコアを求める。
本実施の形態では、ペアスコア決定部2410は、一方のクラスタに含まれる特徴量の母音区間と、他方のクラスタに含まれる特徴量の母音区間と、が音声データの部分区間に共に現れる頻度に基づいて、ペアスコアを決定する。ペアスコアの求め方の具体例を、図5を参照して説明する。ペアスコア決定部2410は音声データに対して、所定数の音素を含む部分区間を、1音素分ずつずらしながら定義する(図5(A)のPI1、PI2…)。そして、同一の部分区間で、クラスタペアに含まれる母音区間が共に出現する頻度をカウントする。なお、部分区間に含まれる音素の数は5〜10の範囲から1つを選んで設定するのが適当である。
例えば、ある部分区間PIkで、クラスタペアの一方(例えばクラスタA1)に属する特徴量を持つ母音区間と他方(例えばクラスタI1)に属する特徴量を持つ母音区間が現れた場合、個数がいくつあってもA1とI1の共存回数は1回として頻度をカウントする。
あるいは、例えば1〜m秒を部分区間PI1、m+1〜2m秒を部分区間PI2,といったように時間で等分に区切って部分区間を定義した上で、次のようにカウントしてもよい。ある部分区間PIkで、クラスタペアの一方(例えばクラスタA1)に属する特徴量を持つ母音区間がa個、他方(例えばクラスタI1)に属する特徴量を持つ母音区間がb個、それぞれ現れる場合を考える。この場合、両方の母音区間が共存している頻度は、(a+b)回、(a×b)回、といったように複数の定義が可能である。そこで片方のクラスタペアから母音区間を一つずつ抽出した組合せの合計であるa×b/2回を部分区間PI1で共に出現している頻度とする。例えば、a+bの値が100と大きい場合でも、a=99、b=1といったように一方に偏っている場合には、両方のクラスタが同一人物に対応する程度は低いと考えられる。そこで、a×b/2回とすることによって、同一人物に対応する程度をより反映した形で頻度を計測できる。
ペアスコア決定部2410は、各部分区間についてクラスタペアの母音区間が共存している頻度をカウントする。カウントした頻度は、例えば図5(B)のペア頻度テーブルPFTのように示すことが出来る。図5(B)のペア頻度テーブルPFTでは、母音ペア{「a」,「i」}のクラスタペアのうち、{A2,I1}が1039と最も共に出現する頻度が多い。頻度が多いペアほど、そのペアに含まれる2つのクラスタに含まれる母音区間が時間的に接近して現れる程度が高い。会話において話者が変化する頻度は新たな母音が発音される頻度よりもずっと低い。そのため、音声データにおいて接近して現れる母音区間の特徴量は、同一の話者の特徴量である蓋然性が高い。そこで、本実施の形態ではカウントした頻度が高いクラスタペアほど、同一の話者に対応する程度が高いとしてクラスタスコアを設定する。
本実施形態では、処理負担を減らすため、ペア頻度テーブルPFTにおける頻度の順位を、そのままペアスコアとして扱う。具体的には、ペアスコア決定部2410は、図5(B)のようにペア頻度テーブルPFTの各セルについて、頻度の値が大きい順に1から数値を振りなおして、ペアスコアテーブルPSTに変換する。この場合、ペアスコアが低い方が同一の話者に対応する程度が高くなる。
なお、頻度からペアスコアを求める方法は、頻度が高いほど同一の話者に対応する程度が高くなる他の方法を用いて求めることが出来る。例えば、頻度の値をftとしたときに、ペアスコアpsを下記の式(1)を用いて算出してもよい。
ps=1/log(ft)…(1)
また、ペアスコアが高いほど同一の話者に対応する程度が高い、とする構成も可能である。この場合、例えば下記の式(2)を用いてペアスコアを算出できる。
ps=log(ft)…(2)
組合せ決定部240は、ペアスコア決定部2410が求めたペアスコアに基づいて、全母音から一つずつ抽出したクラスタの組合せについて、同一話者に対応する程度を示すスコア(組合せスコア)を決定する。具体的には、組合せスコア決定部2420は、組合せ各母音のクラスタ集合から一つずつ抽出したクラスタの組合せの全てを、同一話者に対応する組合せの候補とする。そして、各候補について、後述する方法で組合せスコアを求める。その後、求めた組合せスコアが最も高い組合せを、同一話者に対応する対応組合せとして決定する。
組合せスコア決定部2420は、候補となる各組合せについて、組合せに含まれるクラスタペアを全て抽出する。例えば、現在処理対象となっている候補組合せが、図6(A)に示す組合せC1(クラスタA1,クラスタI1,クラスタU1,クラスタE1及びクラスタO1を含む)である場合には、{A1、I1}、{A1、U1}、…、{E1、O1}の10個のクラスタペアを抽出する。そして、抽出したクラスタペアのクラスタスコアを加算した値を、候補組合せの組合せスコアとする(図6(A)参照)。
候補組合せは、母音の数をn、話者数をmとすると、N=m^n個定義できる。例えば、母音の数n=5、話者数m=3の場合に、N=3^5=243個の候補組合せが定義できる。組合せスコア決定部2420は、定義した候補組合せ(C1〜CN)のそれぞれについて、クラスタスコアを決定する。決定結果は、例えば図6(B)のような、組合せIDと、組合せに含まれるクラスタIDと、組合せスコアと、を対応付けた組合せスコアテーブルCSTに記憶される。
本実施形態では、ペアスコアが小さいほどそのクラスタペアは同一の話者に対応する程度が高い。そのため、候補組み合わせのうち、含まれるクラスタペアのペアスコアが最も低い組合せが、最も同一の話者に対応する程度が高いといえる。そこで、本実施形態の組合せ決定部240は、図6(B)の組合せスコアテーブルCSTのうち最も組合せスコアが小さいものを最初の対応組合せとして決定する。なお、ペアスコアが大きいほど同一の話者に対応する程度が高い場合には、組合せスコアが最も大きい組合せを、対応組合せとして決定すればよい。以下同様である。
次に、すでに決定した対応組合せに含まれるクラスタを含まない候補組合せのうち、最も組合せスコアが小さい組合せを、次の対応組合せとして決定する。このように、組合せ決定部240は話者数分の対応組合せを決定する。決定した各対応組合せは、それぞれ音声データbの話者のいずれか一人について、全母音の特徴量に対応する組合せとなる。そのため、決定した各組合せについて、話者番号を振り分けることができる。組合せ決定部240による決定結果は、例えば図7にしめす決定組合せテーブルDCTのように示すことが出来る。
区分部250は、組合せ決定部240が決定した各対応組合せのクラスタに含まれる特徴量の母音区間が、音声データに現れるタイミングに基づいて、音声データの音声区間を話者別に区分けする。
具体的には、区分部250は、まず各母音区間に対して、その特徴量が含むクラスタが何れの話者番号の対応組合せに属するかに応じて、仮話者番号を付与する。例えば、図8(A)に示すように、母音区間VI1(母音a1)が、クラスタA1に含まれる場合には、クラスタA1が属する対応組合せの話者番号P3が仮話者番号として設定される。以下、音声データに含まれる各母音区間について、同様に仮話者番号を割り当てる。割り当てた結果は、例えば図8(B)に示したように、母音のIDと、母音区間を示す情報と、仮話者番号と、を対応付けた仮話者テーブルPTに記憶する。
仮話者番号は、クラスタリング結果を用いて、スムージングせずにそのまま話者特定を行った結果である。例えば特徴量分類部230が行ったクラスタリング結果に誤差があった場合、実際には話者が交換していなくてもその特徴量の箇所で話者が交換したと決定されてしまう。クラスタリング結果に全く誤差が無いことは期待できないので、このまままでは話者特定の結果の精度が低くなってしまう。
次に、区分部250は、各音声区間について割り当てた仮話者番号に基づいて、各音声区間(母音区間と子音区間)を、話者毎に区分する。例えば、区分部250は各母音区間について、その前後x個の母音区間に割り振られた仮話者番号の最頻値を特定する。そして、特定した話者番号を、その音声区間の確定話者番号とする。
この処理を、図9(A)を例にとって説明する。図9(A)では、音声データ上に白抜き長方形で示した母音区間と、黒塗り長方形で示した子音区間と、の2種類の音声区間について話者特定を行っている。
例えば、図9(A)にしめす母音区間VIkでは、前後4つの母音区間(母音区間VIk−4〜VIk+4)に対して仮話者番号P1が5つ、PI2が2つ、PI3が1つ割り振られている。この場合、最頻値のP1が、母音区間VIkの確定話者番号となる。同様に、母音区間VIk+1については、前後4つの母音区間(母音区間VIk−3〜VIk+5)の最頻値であるP1が確定話者番号となる。
このような処理により、最初に実行した話者特定の結果を、前後の母音区間の情報を用いてスムージングをすることができる。そのため、特徴量分類部230が行ったクラスタリング結果に多少の誤差があっても、前後の所定期間の情報に基づいて誤った話者交換点を補正ことができる。そのため、精度が高い話者特定を実現できる。
各母音区間について確定話者番号を割り振ると、区分部250は次に子音区間の話者特定を行う。本実施形態では、処理対象となる子音区間の前後の母音区間に対して決定された確定話者番号に基づいて、子音区間の確定話者番号を割り振る。例えば、図9(A)(B)のCIjのように、子音区間が、母音区間が同じ確定話者番号が割り振られた母音区間に囲まれている場合には、前後の母音区間と同じ話者番号を割りふる。もし、前後の母音区間について異なる確定話者番号が決定されている場合には、時間距離が近い母音区間について決定された確定話者番号を、その子音区間の確定話者番号として決定する。
区分部250は、確定話者番号を各音声区間に割り振ることで、話者特定を行う。話者特定の結果は、例えば図9(B)に示したように、音声区間を示す情報と、確定話者番号と、を対応付けた確定話者テーブルDSTに記憶する。そして、確定話者テーブルDSTを出力部40が出力する。あるいは、表示部30が話者確定テーブルDSTを示す画面を表示する。
次に、音声処理装置1が実行する処理に付いて、フローチャートを参照して説明する。音声処理装置1は、ユーザがマイク10を用いて音声を録音するか、入力部50を用いて取り込むか、何れかの方法で音声データを音声データ記憶部210に記憶した後に、話者特定の実行を指示する操作を操作部60を用いて実行した場合に、図10に示す話者情報出力処理を開始する。
話者情報出力処理では、まず特徴量抽出部220が音声データ記憶部210に記憶された音声データを取得する(ステップS101)。そして、取得した音声データについて、音声区間を特定し、音素認識を実行する(ステップS102)。
次に、特徴量抽出部220は音素認識の結果特定された各母音区間について、16次元のISPsを抽出する(ステップS103)。抽出した特徴量(ISPs)は、特徴量テーブルFTに記憶される。
ステップS103が終わると、特徴量分類部230がダイアライゼーション処理を開始する(ステップS104)。
ステップS104で実行されるダイアライゼーション処理について、図11を参照して説明する。ダイアライゼーション処理では、まず特徴量分類部230が話者の人数を取得する(ステップS201)。話者の人数は、ユーザが予め操作部60を用いて入力し、RAM22に記憶されているものとする。
ステップS201が終わると、特徴量分類部230が、設定された言語に含まれる母音のうち、現在のループで処理対象となる注目母音を選択する(ステップS202)。
次に、特徴量分類部230は特徴量テーブルFTから、注目母音の特徴量を抽出する(ステップS203)。例えば、注目母音が「a」であるばあいに、特徴量テーブルFTから母音種別「a」の行だけを収集して、新たな特徴量テーブルを作成すればよい。新たな特徴量テーブルは、同一の母音に対応する特徴量だけが記憶されている。
次に、特徴量分類部230は抽出した注目母音の特徴量を、ステップS201で取得した数のクラスタに分類する(ステップS204)。クラスタリングは、LBG法でVQテーブルを作成することにより実現する。
注目母音についてクラスタリングを終えると、次に特徴量分類部230は処理対象となる全ての母音についてクラスタリング処理を終了したか判別する(ステップS205)。未処理の母音がある場合には(ステップS205;No)、次の未処理の母音を注目母音として、ステップS202から処理を繰り返す。一方、全母音について処理済である場合には(ステップS205;Yes)、ペアスコア決定部2410がペアスコア決定処理を開始する(ステップS206)。
ステップS206で実行されるペアスコア決定処理について、図12を参照して説明する。ペアスコア決定処理では、まずペアスコア決定部2410が音声データを、時間的に部分区間に分割する(ステップS301)。
次に、ペアスコア決定部2410は、特徴量分類部230がクラスタリングした全母音に対して定義可能な母音ペアの全てについて、ペア頻度テーブルPFTのひな型を作成する(ステップS302)。例えば、日本語の母音5つについてクラスタリングした場合には、RAM22の所定領域に=10個のペア頻度テーブルを作成すればよい。ペア頻度テーブルは、図5(B)に示すように、母音ペアに対して定義されるクラスタペアのそれぞれに対応して、一方の母音のクラスタ数×他方の母音のクラスタ数に相当する数の頻度値を記録するセルが含まれる。本実施形態では、この数は話者人数の二乗に等しい。
次に、ペアスコア決定部2410は、ステップS301の分割により作成した部分区間のうち、未処理の一つを注目部分区間として選択する(ステップS303)。例えば、音声データの先頭から一つずつ後ろに向かって選択していけばよい。
次に、ペアスコア決定部2410は、ペア頻度テーブルに定義された各クラスタペアに含まれる特徴量の母音区間が注目部分区間に共に現れる頻度に基づいて、全ペア頻度テーブルを更新する(ステップS304)。
具体的には、各ペア頻度テーブルの各セルに対応するクラスタペアについて、注目部分区間に、両方のクラスタに含まれる特徴量の母音区間が共存する場合に出現頻度のカウントを+1更新する。この処理を、全セルについて実行して、一つのペア頻度テーブルを更新する。なお、上述したように、時間で等分に区切って部分区間を定義した場合には、一方のクラスタに含まれる特徴量の母音区間が現れる数aと、一方のクラスタに含まれる特徴量の母音区間が現れる数bと、を共に数え、カウントしたaとbを用いて、a×b/2の値を注目部分区間におけるクラスタペアの共出現頻度として、現在のセルに加算するようにしてもよい。
ステップS304で全ペア頻度テーブルを更新すると、次にペアスコア決定部2410は、ステップS301で定義した全部分区間について上記処理済であるか否か判別する(ステップS305)。未処理の部分区間がある場合には(ステップS305;No)、次の未処理の部分区間についてステップS303から処理を繰り返す。一方、全部分区間について処理済みの場合には(ステップS305;Yes)、頻度のカウントが終わり、ペア頻度テーブルPFTが完成したので、ステップS306に移行する。
ステップS306では、ペアスコア決定部2410が、ペア頻度テーブルPFTに記録されている頻度に基づいて、ペアスコアを決定する(ステップS306)。具体的には、各ペア頻度テーブルPFTについて、頻度の値が大きい順に1から数値を振りなおして、ペアスコアテーブルPSTに変換する。このようにして、ペアスコアを全て決定する。
図11にもどって、ステップS206でペアスコアが全て決定されると、次に組合せ決定部240が組合せ決定処理を開始する(ステップS207)。
ステップS207で実行される組合せ決定処理について、図13を参照して説明する。組合せ決定処理では、まず組合せスコア決定部2420が、生成されたクラスタ集合の、各母音から一つずつ抽出した全組合せを、候補組合せとして抽出する(ステップS401)。
候補組合せを抽出すると、次に組合せスコア決定部2420が、抽出した候補組合せのうち、現在のループで処理対象となる注目組合せを選択する(ステップS402)。そして、選択した注目組合せについて、図6で説明したように組合せスコアを決定する(ステップS403)。
次に、組合せスコア決定部2420はステップS401で抽出した全候補組合せについて組合せスコアを決定する処理済みであるか否か判別する(ステップS404)。未処理の候補組合せがある場合には(ステップS404;No)、次の未処理の候補組合せについてステップS402から処理を繰り返す。一方、全候補組合せについて組合せスコアを決定済みである場合には(ステップS404;Yes)、処理はステップS405に進む。
次に、組合せ決定部240は決定した組合せスコアに基づいて各話者に対応する対応組合せを決定する(ステップS405〜S408)。まず、組合せ決定部240は候補となる組合せのうち、未決定クラスタの組合せであって、かつ同一の話者に対応する尤度が最も高い組合せ(最尤組合せ)を決定する(ステップS405)。なお、未決定クラスタの組合せとは、後述する決定済みフラグがセットされているクラスタを一つも含まない組合せを言う。最初のループでは、何れのクラスタにも決定済みフラグはセットされていないので、組合せスコアテーブルに記録されたうちもっとも組合せスコアが小さい組合せを、最尤組合せとして決定する。
次に、組合せ決定部240は決定した最尤組合せに話者番号を割当てる(ステップS406)。話者番号は、ループ毎にユニークな番号であれば良いが、ここではループ毎にP1,P2、…といった番号を順に割り当てる。例えば、最初にクラスタA1、I1,U2、E2及びO1を含む組合せを最尤組合せとして決定した場合には、図7に示すように、その組合せに話者番号P1を関連付けて決定組合せテーブルDCTに記憶すればよい。
次に、組合せ決定部240は最尤組合せに含まれるクラスタに決定済フラグをセットする(ステップS407)。この場合、クラスタA1、I1,U2、E2及びO1に対して決定済フラグをセットする。以後、ステップS405〜S408のループにおいて、決定済フラグがセットされたクラスタを一つでも含む候補組合せは、ステップS405の決定対象から排除される。
このような処理により、母音毎にクラスタリングした結果から、尤度が高い順に同一人物に対応する母音の特徴量の組合せを、クラスタの重複なく決定することが出来る。
そのため、クラスタリング処理を母音毎に実行して精度を高めるとともに、それぞれの話者が複数の母音をどのような特徴量をもって発生するかについて、少ない計算量で特定することができる。
次に、組合せ決定部240は、ダイアライゼーション処理(図11)のステップS201で取得した人数の全話者分の対応組合せを決定済みであるか否か判別する(ステップS408)。全話者分決定していない場合には(ステップS408;No)、決定済フラグが立っていないクラスタの組合せである候補組合せついて、ステップS405から処理を繰り返す。一方、全話者分を決定済みである場合には(ステップS408;Yes)、組合せ決定処理を終了する。
図11にもどって、ステップS207で対応組合せが全て決定されると、次に区分部250が区分処理を開始する(ステップS208)。
ステップS208で実行される区分処理について、図14を参照して説明する。区分処理では、まず区分部250が、各母音区間に仮話者番号を付与する(ステップS501)。具体的には、図8で説明したように、区分部250が各母音区間に対して、その特徴量を含むクラスタが何れの話者番号の対応組合せに属するかに応じて、仮話者番号を付与する。
そして、区分部250が各母音区間に対して確定話者番号を特定する(ステップS502)。具体的には、図9で説明したように、区分部250は各母音区間について、その前後4個の母音区間に割り振られた仮話者番号の最頻値を、確定話者番号として特定する。
次に、区分部250が各子音区間に対して確定話者番号を特定する(ステップS503)。具体的には、図9で説明したように、区分部250は各子音区間について、その前後の母音区間に割り振られた仮話者番号に基づいて、確定話者番号を特定する。そして、区分処理を終了する。
図11に戻って、ステップS208で区分処理が終了すると、ダイアライゼーション処理は終了する。
図10にもどって、ステップS104でダイアライゼーション処理を終えると、出力部40が話者特定の結果を示す情報(確定話者テーブルDST)を出力する(ステップS105)。
そして、話者情報出力処理は終了する。
以上説明したとおり、本実施形態の音声処理装置1は、同一の母音に対応する特徴量を、分類部230が教師無し分類法で複数のクラスタに分類する。そして、組合せ決定部240が、分類した特徴量のうち同一の話者に対応する組合せを決定する。事前に話者の登録をせず話者特定を行うにあたっては、同一の話者が発音した区間の特徴量を特定することの困難性が、特に課題となる。その点、本実施形態の音声処理装置1では、組合せ決定部240が決定した組合せのクラスタに含まれる特徴量の母音区間は、同一の話者が発声したものであるとみなすことが出来るので、話者特定が容易になる。
特に、教師無し分類法により特徴量を分類する場合、音声の特徴量を音素に関わらず一括してクラスタリングするとクラスタリング精度が低下する。しかしながら、別々にクラスタリングした場合には、それぞれのクラスタと話者との対応が解らないため話者特定が困難となる。ここで、本実施形態では、クラスタリングを同じ母音に対応する特徴量について実施した上で、同一の話者に対応するクラスタの組合せを決定することにより、クラスタリング精度を保ちながら話者特定を容易にすることが出来る。
また、本実施形態の音声処理装置1は、組合せ決定部240が決定した組合せのクラスタに含まれる音声区間が音声データに現れるタイミングに基づいて、区分部250が音声データの音声区間を話者別に区分する。そして、区分結果を出力する。このため、事前に話者を登録することなく、話者特定を実行できる。
本実施形態の音声処理装置1は、同一の母音に対応する特徴量毎にクラスタリングするため、クラスタリングの精度が高い。そのため、音素の区別無くクラスタリングする場合よりも、精度のよい話者特定が実現できる。また、クラスタリング処理を母音毎に実行して精度を高めるとともに、それぞれの話者が、どのような特徴量の母音を発するかを、少ない計算量で特定することができる。
また、複数の母音についてそれぞれクラスタリングした結果に基づいて話者特定を行うことで、クラスタリング精度が低い母音があっても他の母音で補うことが出来るので、話者特定の精度の低下を押さえることが出来る。
また、話者特定に当たって、クラスタリングの対象を話者毎に特徴がはっきりしている母音に限定している。そのため、話者毎に差が出にくい子音や雑音によって話者同士の差異が薄まることがないため、話者特定の精度が高い。また、処理対象となる音声区間が母音区間に絞られるので、必要計算量が小さい。
また、母音毎にクラスタリングした結果から、分類したクラスタのそれぞれに含まれる特徴量の母音区間が音声データに出現するタイミングに基づいて、対応組合せを決定する。会話においては、同一の話者が発話する母音区間同士は、そうでない母音区間同士よりも時間的に接近している割合が高い。そのため、出現タイミングに基づいてクラスタ同士を対応付けることにより、話者とクラスタの対応を適切に決定することができる。
具体的には、複数の候補となる組合のそれぞれに対して、同一の話者に対応する程度を示す組合せスコアを決定して、決定した組合せスコアに応じて対応組合せを決定する。このような構成によれば、候補を立てずに組合せ決めうちする場合よりも、正確に対応する組合せを決定することが出来る。
特に本実施形態では、候補組合せに含まれるクラスタペアについてペアスコアを決定し、決定したペアスコアに基づいて組合せスコアを決定する。2つの特徴量のクラスタについては、上述したように単純かつ計算量の少ない方法で同一話者に対応する程度を求めることが出来る。本実施形態では、このような方法を用いることで、対応組合せを高い精度で、かつ少ない計算量で決定することが出来る。その結果、少ない計算量で高い精度の話者特定を実現できる。
なお、複数のペアスコアから組合せスコアを求める構成は、候補組合せが複数のクラスタペアを含んでいる場合に有効である。すなわち、候補組合せが少なくとも3つのクラスタを含んでいる場合に有効である。
本実施形態では、クラスタペアのうち一方のクラスタに含まれる特徴量の母音区間と、他方のクラスタに含まれる特徴量の母音区間と、が音声データの部分区間に共に現れる頻度に基づいて、ペアスコアを決定する。両クラスタの特徴量の母音区間の頻度をカウントする処理は、単純かつ計算量が少ない上に、同一の話者に対応する程度の指標として優れている。このような方法でペアスコアを決定することにより、対応組合せを高い精度で、かつ少ない計算量で決定することが出来る。その結果、少ない計算量で高い精度の話者特定を実現できる。
(変形例)
以上、本発明の実施形態1について説明したが、本発明の実施形態はこれに限られない。
例えば、上記実施形態では、5つの母音を含む日本語の会話を録音した音声データについての処理について主に説明した。しかし、本発明は日本語に限らず、英語・中国語・フランス語など、任意の言語について応用可能である。この場合でも、特徴量分類部及び組合せ決定部が処理する母音の数・組合せの数がその言語の母音数によって増減するだけで、同様に処理することができる。
また上記実施形態では、使用言語に含まれる全ての母音毎にクラスタリング・組合せ決定処理を実行したが、本発明はこれに限らず、使用言語の一部の母音について上記処理を実行する構成でも効果を奏する。特に英語のように母音数が多い場合などに、その言語に含まれる全ての母音についてクラスタリング・及び組合せ決定処理を実行すると処理量が大きくなる場合がある。そこで、「a」(非円唇前舌広母音)と「ae」(準開前舌非円唇母音)といった類似の母音を一つの母音としてクラスタリング等の処理を実行してもよい。あるいは、個人の特徴量が明確に出る母音についてのみ、上記処理を実行しても良い。
上記実施形態では、話者数を既知の数値としてクラスタリングを実行した。しかし、本発明は話者数が未知の場合でも応用可能である。例えば、ダイアライゼーション処理(図11)のステップS204にて、母音毎に特徴量のクラスタ数を推定する。そして、母音毎に推定したクラスタリング数の最頻値を、話者数と推定し、改めて推定した話者数のクラスタに分類すればよい。例えば推定したクラスタ数として、母音「a」について4、母音「i」について4、母音「u」について3、母音「e」について3、母音「o」について4、がそれぞれ得られた場合には、最頻値の4を話者数とする。そして、最頻値と異なる母音(この例では母音「u」と母音「e」)を、最頻値の4つのクラスタに分類する。なお、話者数の推定方法はこれに限らない。他の方法としては、話者の特徴が明確な母音(例えば、「a」又は「i」)について話者数を推定した値を他の母音にも適用する方法が挙げられる。なお、クラスタの数は、ウォード法、Upper Tail法、X−means法などの既知の方法を用いて推定することができる。
また、出力情報は図9(B)に限らず、話者特定の結果を含むものであれば、ユーザが所望する任意の情報であってよい。出力情報は違う形でもよい。例えば、話者変更点タイミングと交代後の話者番号とを対応づけたファイルや、話者毎に分割された音声データであってもよい。
また、同一の話者に対応する組合せを決定する方法は、上記実施形態の例に限られない。例えば、ペアスコアを求めるに当たって、クラスタペアの頻度をカウントする方法は上記実施形態で例示した方法に限られない。例えば、各母音区間を中心に、所定時間(例えば10秒)を部分区間として、頻度を計算してもよい。例えば、図15(A)のように、クラスタA1に含まれる母音区間a1を注目母音区間とすると、a1を中心に部分区間1を定義して、部分区間1に他の母音のクラスタの母音区間が現れる数を数える。この場合、部分区間1には、I1が1回、U2が1回、E2が2回、E3が1回、O1が1回、それぞれ現れる。そこで、頻度テーブルのうち、A1−I1のセルに1を、A1−U2のセルに1を、A1−E2のセルに2を、A1−E3のセルに1を、A1−O1のセルに1を、それぞれ加える。このようなカウント処理を、各母音区間を中心に実行することにより頻度を求めてもよい。
また、ペアスコアを求めるにあたって、そのペアに含まれる2つのクラスタに含まれる母音区間が接近して現れるほど、同一人物に対応する程度が高くなる他の方法を用いて求めても良い。例えば、両クラスタに含まれる母音区間の距離に基づいてペアスコアを決定することも可能である。具体的には、頻度に変わって、クラスタペアの母音区間どうしの距離の平均値を、クラスタスコアとしてもよい。この場合には、クラスタスコアが小さいほど、同一人物に対応する程度が高い。
また、ペアスコアから組合せスコアを求める方法も、上記実施形態で例示した方法に限られない。例えば、上記実施形態では、各ペアスコアを均等に評価して組合せスコアを求めた。しかし、母音ペア毎に異なる重みを用いて、重み付き加算した値を組合せスコアとしてもよい。例えば、日本語の母音のうち「a」と「i」は話者毎に明確に特徴があわられる一方、「u」については正確なクラスタリングが困難である。そこで、「a」と「i」を含む母音ペアのペアスコアは1.5、「u」を含む母音ペアのペアスコアは0.7を重み付けして、組合せスコアを求めてもよい。このような構成によれば、音素毎の性質を反映した、より精度の高い話者特定を実現できる。
また、候補となる組合せについて組合せスコアを求める以外の方法を採用することもできる。例えば、全ペアスコアテーブルのうち最も頻度が高いクラスタペアを一つ特定する。そして、特定したクラスタペアに含まれるクラスタを含む他のクラスタペアのうち、最も頻度が高いクラスタペアを特定する。以下、全母音について、最も頻度が高い組合せを決定する事により、同一話者に対応する組合せを簡便に決定することが出来る。以下、特定したクラスタを除いて、残ったテーブルのうち最も頻度が高いクラスタペアを特定していくことにより、各話者に対応する組合せを決定することが出来る。このような構成によれば、少ない計算量で対応組合せを決定することが出来る。
尚、本発明は、実施形態1、若しくはその変形例に係る音声処理装置1として提供できることはもとより、プログラムの適用により、既存のパーソナルコンピュータなど、汎用の計算機を音声処理装置1として機能させることもできる。すなわち、音声処理装置1による各機能構成を実現させるためのテキスト検索プログラムを、既存のテキスト検索装置を制御するコンピュータ(CPUなど)が実行できるように適用することで、実施形態1、若しくは変形例に係る音声処理装置1として機能させることができる。
このようなプログラムの配布方法は任意であり、例えば、メモリカード、CD−ROM(Compact Disc Read Only Memory)又はDVD−ROM(Digital Versatile Disk Read Only Memory)などの記録媒体に格納して配布できる他、インタネットなどの通信媒体を介して配布することもできる。また、再配置CTD及び転置インデックス等の上記処理に必要なデータの一部又は全部は、外部サーバに記憶されており、通信機能によりこれらのデータを取得して上記処理を実行する構成も可能である。
また、本発明は、本発明の広義の精神と範囲を逸脱することなく、様々な実施形態及び変形が可能とされるものである。つまり、本発明のいくつかの実施形態を説明したが、上述した実施形態は本発明を説明するためのものであり、本発明の範囲を限定するものではない。本発明の範囲は、実施形態ではなく、特許請求の範囲に記載された発明とその均等の範囲を含む。
以下に本願出願の当初の特許請求の範囲に記載された発明を付記する。
(付記1)
音声データに含まれる母音区間の特徴量を取得する取得手段と、
前記取得した特徴量のうち、同一の母音に対応する特徴量を、教師無し分類法で複数のクラスタに分類する分類手段と、
前記分類したクラスタの組合せであって、同一の話者に対応する対応組合せを決定する決定手段と、
を備えることを特徴とする音声処理装置。
(付記2)
前記決定した対応組合せのクラスタに含まれる特徴量の母音区間が前記音声データに現れるタイミングに基づいて、前記音声データの音声区間を話者別に区分けする区分手段と、
前記区分けした結果を示す情報を出力する出力手段と、
を更に備えることを特徴とする付記1に記載の音声処理装置。
(付記3)
前記決定手段は、前記分類したクラスタのそれぞれに含まれる特徴量の母音区間が前記音声データに出現するタイミングに基づいて、前記対応組合せを決定する、
ことを特徴とする付記1又は2に記載の音声処理装置。
(付記4)
前記決定手段は、
前記対応組合せの候補となる複数の組合せのそれぞれに対して、同一の話者に対応する程度を示す組合せスコアを決定し、
前記決定した組合せスコアに応じて前記対応組合せを決定する、
ことを特徴とする付記1乃至3の何れかに記載の音声処理装置。
(付記5)
前記分類手段は、前記話者が用いた言語に含まれる母音のうち少なくとも3つの母音について、前記分類する処理を実行し、
前記決定手段は、
前記分類手段が異なる2つの母音について分類したクラスタから一つずつ抽出したクラスタのペアについて、同一の話者に対応する程度を示すペアスコアを決定し、
前記分類手段が分類する処理を実行した母音毎に一つずつクラスタを抽出して前記候補となる組合せを生成し、
該生成した候補となる組合せに含まれるクラスタのペアについて決定したペアスコアに基づいて、前記組合せスコアを決定する、
ことを特徴とする付記4に記載の音声処理装置。
(付記6)
前記決定手段は、前記クラスタのペアのうち一方のクラスタに含まれる特徴量の母音区間と、他方のクラスタに含まれる特徴量の母音区間と、が前記音声データの部分区間に共に現れる頻度に基づいて、前記ペアスコアを決定する、
ことを特徴とする付記5に記載の音声処理装置。
(付記7)
音声データに含まれる母音区間の特徴量を取得し、
前記取得した特徴量のうち、同一の母音に対応する特徴量を、教師無し分類法で複数のクラスタに分類し、
前記分類したクラスタの組合せであって、同一の話者に対応する対応組合せを決定する、
ことを特徴とする音声処理方法。
(付記8)
コンピュータに、
音声データに含まれる母音区間の特徴量を取得する処理、
前記取得した特徴量のうち、同一の母音に対応する特徴量を、教師無し分類法で複数のクラスタに分類する処理、
前記分類したクラスタの組合せであって、同一の話者に対応する対応組合せを決定する処理、
を実行させるためのプログラム。
1…音声処理装置、10…マイク、20…情報処理部、21…CPU、22…RAM、23…ROM、24…I/O部、25…外部記憶装置、26…内部バス、210…音声データ記憶部、220…特徴量抽出部、230…特徴量分類部、240…組合せ決定部、2410…ペアスコア決定部、2420…組合せスコア決定部、250…区分部、30…表示部、40…出力部、50…入力部、60…操作部

Claims (8)

  1. 音声データに含まれる母音区間の特徴量を取得する取得手段と、
    前記取得した特徴量のうち、同一の母音に対応する特徴量を、教師無し分類法で複数のクラスタに分類する分類手段と、
    前記分類したクラスタの組合せであって、同一の話者に対応する対応組合せを決定する決定手段と、
    を備えることを特徴とする音声処理装置。
  2. 前記決定した対応組合せのクラスタに含まれる特徴量の母音区間が前記音声データに現れるタイミングに基づいて、前記音声データの音声区間を話者別に区分けする区分手段と、
    前記区分けした結果を示す情報を出力する出力手段と、
    を更に備えることを特徴とする請求項1に記載の音声処理装置。
  3. 前記決定手段は、前記分類したクラスタのそれぞれに含まれる特徴量の母音区間が前記音声データに出現するタイミングに基づいて、前記対応組合せを決定する、
    ことを特徴とする請求項1又は2に記載の音声処理装置。
  4. 前記決定手段は、
    前記対応組合せの候補となる複数の組合せのそれぞれに対して、同一の話者に対応する程度を示す組合せスコアを決定し、
    前記決定した組合せスコアに応じて前記対応組合せを決定する、
    ことを特徴とする請求項1乃至3の何れかに記載の音声処理装置。
  5. 前記分類手段は、前記話者が用いた言語に含まれる母音のうち少なくとも3つの母音について、前記分類する処理を実行し、
    前記決定手段は、
    前記分類手段が異なる2つの母音について分類したクラスタから一つずつ抽出したクラスタのペアについて、同一の話者に対応する程度を示すペアスコアを決定し、
    前記分類手段が分類する処理を実行した母音毎に一つずつクラスタを抽出して前記候補となる組合せを生成し、
    該生成した候補となる組合せに含まれるクラスタのペアについて決定したペアスコアに基づいて、前記組合せスコアを決定する、
    ことを特徴とする請求項4に記載の音声処理装置。
  6. 前記決定手段は、前記クラスタのペアのうち一方のクラスタに含まれる特徴量の母音区間と、他方のクラスタに含まれる特徴量の母音区間と、が前記音声データの部分区間に共に現れる頻度に基づいて、前記ペアスコアを決定する、
    ことを特徴とする請求項5に記載の音声処理装置。
  7. 音声データに含まれる母音区間の特徴量を取得し、
    前記取得した特徴量のうち、同一の母音に対応する特徴量を、教師無し分類法で複数のクラスタに分類し、
    前記分類したクラスタの組合せであって、同一の話者に対応する対応組合せを決定する、
    ことを特徴とする音声処理方法。
  8. コンピュータに、
    音声データに含まれる母音区間の特徴量を取得する処理、
    前記取得した特徴量のうち、同一の母音に対応する特徴量を、教師無し分類法で複数のクラスタに分類する処理、
    前記分類したクラスタの組合せであって、同一の話者に対応する対応組合せを決定する処理、
    を実行させるためのプログラム。
JP2013098683A 2013-05-08 2013-05-08 音声処理装置、音声処理方法及びプログラム Active JP6171544B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2013098683A JP6171544B2 (ja) 2013-05-08 2013-05-08 音声処理装置、音声処理方法及びプログラム
US14/251,201 US10037759B2 (en) 2013-05-08 2014-04-11 Voice processing device, voice processing method, and non-transitory recording medium that stores program
CN201410189831.8A CN104143332B (zh) 2013-05-08 2014-05-07 声音处理装置以及声音处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013098683A JP6171544B2 (ja) 2013-05-08 2013-05-08 音声処理装置、音声処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2014219557A JP2014219557A (ja) 2014-11-20
JP6171544B2 true JP6171544B2 (ja) 2017-08-02

Family

ID=51852490

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013098683A Active JP6171544B2 (ja) 2013-05-08 2013-05-08 音声処理装置、音声処理方法及びプログラム

Country Status (3)

Country Link
US (1) US10037759B2 (ja)
JP (1) JP6171544B2 (ja)
CN (1) CN104143332B (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9368109B2 (en) * 2013-05-31 2016-06-14 Nuance Communications, Inc. Method and apparatus for automatic speaker-based speech clustering
CN105869641A (zh) * 2015-01-22 2016-08-17 佳能株式会社 语音识别装置及语音识别方法
US10133538B2 (en) * 2015-03-27 2018-11-20 Sri International Semi-supervised speaker diarization
US9368110B1 (en) 2015-07-07 2016-06-14 Mitsubishi Electric Research Laboratories, Inc. Method for distinguishing components of an acoustic signal
JP2017120609A (ja) * 2015-12-24 2017-07-06 カシオ計算機株式会社 感情推定装置、感情推定方法及びプログラム
CN107633843B (zh) * 2017-09-08 2021-01-19 深圳大学 识别人国籍的方法及装置
CN107610691B (zh) * 2017-09-08 2021-07-06 深圳大学 英语元音发声纠错方法及装置
JP7047386B2 (ja) * 2018-01-10 2022-04-05 セイコーエプソン株式会社 異常を警告する方法および異常警告システム
JP6640896B2 (ja) 2018-02-15 2020-02-05 株式会社東芝 データ処理装置、データ処理方法およびプログラム
US11024291B2 (en) 2018-11-21 2021-06-01 Sri International Real-time class recognition for an audio stream
KR102655628B1 (ko) * 2018-11-22 2024-04-09 삼성전자주식회사 발화의 음성 데이터를 처리하는 방법 및 장치
CN109903777B (zh) * 2019-01-15 2020-10-27 华南理工大学 一种基于元音谱空间衰减率的异常说话人与正常说话人区分方法
EP3948848B1 (en) * 2019-03-29 2023-07-19 Microsoft Technology Licensing, LLC Speaker diarization with early-stop clustering
CN113129901A (zh) * 2020-01-10 2021-07-16 华为技术有限公司 一种语音处理方法、介质及系统
JP7471139B2 (ja) 2020-04-30 2024-04-19 株式会社日立製作所 話者ダイアライゼーション装置、及び話者ダイアライゼーション方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3081108B2 (ja) * 1994-08-11 2000-08-28 株式会社トレンディ 話者分類処理装置及び方法
AU2003218320A1 (en) * 2002-03-21 2003-10-08 U.S. Army Medical Research And Materiel Command Methods and systems for detecting, measuring, and monitoring stress in speech
JP3980988B2 (ja) 2002-10-28 2007-09-26 日本電信電話株式会社 音声発生区間検索方法,音声発生区間検索装置,並びにそのプログラムおよびそのプログラムの記録媒体
US7664643B2 (en) * 2006-08-25 2010-02-16 International Business Machines Corporation System and method for speech separation and multi-talker speech recognition
JP4909854B2 (ja) * 2007-09-27 2012-04-04 株式会社東芝 電子機器および表示処理方法
JP5022387B2 (ja) * 2009-01-27 2012-09-12 日本電信電話株式会社 クラスタリング計算装置、クラスタリング計算方法、クラスタリング計算プログラム並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2011053569A (ja) * 2009-09-03 2011-03-17 Nippon Hoso Kyokai <Nhk> 音響処理装置およびプログラム
US9262612B2 (en) * 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
CN102543063B (zh) * 2011-12-07 2013-07-24 华南理工大学 基于说话人分割与聚类的多说话人语速估计方法
CN103035239B (zh) * 2012-12-17 2014-10-08 清华大学 一种基于局部学习的说话人识别方法

Also Published As

Publication number Publication date
CN104143332B (zh) 2017-10-20
CN104143332A (zh) 2014-11-12
US10037759B2 (en) 2018-07-31
US20140337027A1 (en) 2014-11-13
JP2014219557A (ja) 2014-11-20

Similar Documents

Publication Publication Date Title
JP6171544B2 (ja) 音声処理装置、音声処理方法及びプログラム
JP6596376B2 (ja) 話者識別方法及び話者識別装置
US10176811B2 (en) Neural network-based voiceprint information extraction method and apparatus
US8935167B2 (en) Exemplar-based latent perceptual modeling for automatic speech recognition
US8675973B2 (en) Signal classification apparatus
CN108346427A (zh) 一种语音识别方法、装置、设备及存储介质
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
JP7342915B2 (ja) 音声処理装置、音声処理方法、およびプログラム
CN108874895B (zh) 交互信息推送方法、装置、计算机设备及存储介质
US8738378B2 (en) Speech recognizer, speech recognition method, and speech recognition program
US9251808B2 (en) Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof
CN108520752A (zh) 一种声纹识别方法和装置
KR20180121831A (ko) 흥미 판정 장치, 흥미 판정 방법, 및 기억 매체
CN102439660A (zh) 基于置信度得分的语音标签方法和装置
Shivakumar et al. Simplified and supervised i-vector modeling for speaker age regression
CN115457938A (zh) 识别唤醒词的方法、装置、存储介质及电子装置
JP2020060757A (ja) 話者認識装置、話者認識方法、及び、プログラム
JP5083951B2 (ja) 音声処理装置およびプログラム
JP6996627B2 (ja) 情報処理装置、制御方法、及びプログラム
JP5997813B2 (ja) 話者分類装置、話者分類方法および話者分類プログラム
CN111462762A (zh) 一种说话人向量正则化方法、装置、电子设备和存储介质
CN113051426A (zh) 音频信息分类方法、装置、电子设备及存储介质
CN110419078B (zh) 用于自动语音识别的系统和方法
US20220335928A1 (en) Estimation device, estimation method, and estimation program
JP7107377B2 (ja) 音声処理装置、音声処理方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160428

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170619

R150 Certificate of patent or registration of utility model

Ref document number: 6171544

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150