JP5644772B2 - 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム - Google Patents

音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム Download PDF

Info

Publication number
JP5644772B2
JP5644772B2 JP2011543085A JP2011543085A JP5644772B2 JP 5644772 B2 JP5644772 B2 JP 5644772B2 JP 2011543085 A JP2011543085 A JP 2011543085A JP 2011543085 A JP2011543085 A JP 2011543085A JP 5644772 B2 JP5644772 B2 JP 5644772B2
Authority
JP
Japan
Prior art keywords
speaker
model
occurrence
cluster
session
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011543085A
Other languages
English (en)
Other versions
JPWO2011064938A1 (ja
Inventor
孝文 越仲
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011543085A priority Critical patent/JP5644772B2/ja
Publication of JPWO2011064938A1 publication Critical patent/JPWO2011064938A1/ja
Application granted granted Critical
Publication of JP5644772B2 publication Critical patent/JP5644772B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/16Hidden Markov models [HMM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、音声データ解析装置、音声データ解析方法及び音声データ解析用プログラムに関し、特に、多数の話者から発せられる音声データから話者を学習または認識することに用いる音声データ解析装置、音声データ解析方法及び音声データ解析用プログラムに関する。
音声データ解析装置の一例が、非特許文献1に記載されている。非特許文献1に記載されている音声データ解析装置は、予め記憶されている話者ごとの音声データと話者ラベルを用いて、話者ごとの音声の性質を規定する話者モデルを学習する。
例えば、話者A(音声データX,X,・・・),話者B(音声データX,・・・),話者C(音声データX,・・・),話者D(音声データX,・・・),・・・の各々について、話者モデルを学習する。
そして、記憶されている音声データとは独立に得られた未知の音声データXを受け取り、学習した個々の話者モデルと音声データXとの類似度を、「当該話者モデルが音声データXを生成する確率」といったものから定義される定義式に基づいて計算するマッチング処理を行う。ここでは、類似度上位あるいは所定のしきい値を超えるモデルに対応する話者ID(話者を識別する識別子。前述のA、B、C、D、・・・に相当)を出力する。あるいは、話者マッチング手段205は、未知の音声データXとある話者ID(指定話者ID)の対を受け取り、その指定話者IDのモデルと音声データXとの類似度を計算するマッチング処理を行う。そして、類似度が所定のしきい値を超えたか否か、すなわち音声データXがその指定話者IDのものであるか否かの判定結果を出力する。
また、例えば、特許文献1には、標準話者に対する声道長の伸縮係数に基づいてクラスタリングされた各クラスタに属する話者集合毎の学習によって混合ガウス分布型音響モデルを生成し、生成した各音響モデルに対する学習話者の音響サンプルの尤度を算出することにより、入力話者の特徴として1つの音響モデルを抽出する話者特徴抽出装置が記載されている。
特開2003−22088号公報
Douglas A, Reynolds et al, "Speaker Verification Using Adapted Gaussian Mixture Models", Digital signal Processing, Vol.10, 2000, p.19-41
非特許文献1および特許文献1に記載されている技術の問題点は、話者間に何らかの関係性がある場合に、その関係性を有効に利用できず、認識精度の低下を招くということである。
例えば、非特許文献1に記載されている方法では、話者ごとに独立に用意された音声データ及び話者ラベルを使い、話者ごとに独立に話者モデルを学習する。そして、話者モデルごとに独立に、入力された音声データXとのマッチング処理を行う。このような方法においては、ある話者と別の話者との間の関係性は一切考慮されない。
また、例えば、特許文献1に記載されている方法では、各学習話者に対して、標準話者に対する声道長の伸縮係数を求めて、学習話者をクラスタリングする。このような方法においては、非特許文献1と同様に、ある話者と別の話者との間の関係性は一切考慮されない。
この種の音声データ解析装置の代表的な用途の一つとして、機密情報を保管したセキュリティルームの入退場管理(音声認証)が挙げられる。このような用途であれば、問題はさほど深刻ではない。なぜなら、セキュリティルームの入退場は、原則一人ずつ行われ、他者との関係性は基本的に生じないからである。
しかし、このような想定が成り立たない用途も存在する。例えば、犯罪捜査の場面では、誘拐犯が身代金要求の電話などで話した音声データを収集し、後の犯罪捜査に活用することがある。このようなケースでは、一人の犯人による単独犯の他に、犯人グループによる複数犯があり得る。例えば振り込め詐欺などが典型例である。近年、「劇団型振り込め詐欺」と呼ばれる犯行が増加していて、被害者の身内を装う者の他に、警察官や弁護士を装う者、交通事故や痴漢事件の当事者を装う者などが次々と電話口に登場し、被害者を巧妙に欺くという被害が起こっている。
また、テロリズムの問題は、近年ますます深刻化しているが、テロリストに対する犯罪捜査において電話や無線通信機によるテロリスト同士の通信を傍受して得られた音声データを解析するという用途が考えられる。このような場面でも、テロ組織という集団での活動の中で、組織の関係者同士が頻繁に連絡を取り合うことが想定できる。すなわち、一つの音声データの中に、関係性をもった複数の話者が出現するという傾向が存在する。
また、第2の問題点は、仮に話者間の関係性がわかったとしても、それが時間的な変化、すなわち経時変化を伴う場合、時間とともに精度が低下するということである。その理由は、実際と異なる誤った関係性を用いて認識を行った場合、当然誤った認識結果を生ずるためである。前述の振り込め詐欺やテロリストの例で言えば、犯人グループは、月日や年月とともに変動すると予想されるからである。すなわち、メンバーの増減、グループの増減、分裂、合併などがあって話者間の関係の強弱が変わると、それを利用した話者の認識は誤りを生ずる可能性が高くなる。
また、第3の問題点は、話者の関係性そのものを認識する手段が存在しないということである。その理由は、犯人グループのような関係性の強い話者の集合を特定するためには、話者の関係性を何らかのかたちで取得する必要があるからである。例えば、前述の振り込め詐欺やテロリストに対する犯罪捜査の場面では、犯人を特定することもさることながら、犯人グループを特定することも重要であると考えられるからである。
そこで、本発明は、複数の話者に対しても、高精度に話者を認識できる音声データ解析装置、音声データ解析方法及び音声データ解析用プログラムを提供することを目的とする。また、本発明は、複数の話者の関係性が経時変化を伴う場合でも、高精度に話者を認識できる音声データ解析装置、音声データ解析方法及び音声データ解析用プログラムを提供することを目的とする。また、関係性の強い話者の集合といった話者間の関係性そのものを認識できる音声データ解析装置、音声データ解析方法及び音声データ解析用プログラムを提供することを目的とする。
本発明による音声データ解析装置は、複数の発話からなる音声データから、話者ごとの音声の性質を規定するモデルである話者モデルを導出する話者モデル導出手段と、話者モデル導出手段が導出した話者モデルを用いて、音声データを一連の会話の単位で分割したセッションデータから、話者間の共起関係の強さを表すモデルである話者共起モデルを導出する話者共起モデル導出手段と、新たに追加された音声データのセッションを参照して、話者モデルまたは話者共起モデルにおいて話者またはその集合であるクラスタが変化する事象として予め定めておいた事象を検知し、所定の事象が検知された場合に、話者モデルまたは話者共起モデルのうち少なくとも一方の構造を更新するモデル構造更新手段とを備えたことを特徴とする。
また、音声データ解析装置は、複数の発話からなる音声データから導出される、話者ごとの音声の性質を規定するモデルである話者モデルを記憶する話者モデル記憶手段と、音声データを一連の会話の単位で分割したセッションデータから導出される、話者間の共起関係を集約したモデルであって、話者間の共起関係をネットワークとした場合に特に共起関係の強いサブネットワークを形成する話者の集合であるクラスタの特徴を規定する確率モデルである話者共起モデルを記憶する話者共起モデル記憶手段と、話者モデルと話者共起モデルとを用いて、クラスタごとに指定された音声データが属する確率を求めることにより、指定された音声データがいずれのクラスタに該当するかを認識する話者集合認識手段を備えたような構成であってもよい。
本発明による音声データ解析方法は、複数の発話からなる音声データから、話者ごとの音声の性質を規定するモデルである話者モデルを導出し、導出された話者モデルを用いて、音声データを一連の会話の単位で分割したセッションデータから、話者間の共起関係の強さを表すモデルである話者共起モデルを導出し、新たに追加された音声データのセッションを参照して、話者モデルまたは話者共起モデルにおいて話者またはその集合であるクラスタが変化する事象として予め定めておいた事象を検知し、所定の事象が検知された場合に、話者モデルまたは話者共起モデルのうち少なくとも一方の構造を更新することを特徴とする。
また、音声データ解析方法は、複数の発話からなる音声データから導出される、話者ごとの音声の性質を規定するモデルである話者モデルと、音声データを一連の会話の単位で分割したセッションデータから導出される、話者間の共起関係を集約したモデルであって、話者間の共起関係をネットワークとした場合に特に共起関係の強いサブネットワークを形成する話者の集合であるクラスタの特徴を規定する確率モデルである話者共起モデルとを用いて、クラスタごとに指定された音声データが属する確率を求めることにより、指定された音声データがいずれのクラスタに該当するかを認識するような構成であってもよい。
本発明による音声データ解析用プログラムは、コンピュータに、複数の発話からなる音声データから、話者ごとの音声の性質を規定するモデルである話者モデルを導出する処理、導出される話者モデルを用いて、音声データを一連の会話の単位で分割したセッションデータから、話者間の共起関係の強さを表すモデルである話者共起モデルを導出する処理、および新たに追加された音声データのセッションを参照して、話者モデルまたは話者共起モデルにおいて話者またはその集合であるクラスタが変化する事象として予め定めておいた事象を検知し、所定の事象が検知された場合に、話者モデルまたは話者共起モデルのうち少なくとも一方の構造を更新する処理を実行させることを特徴とする。
また、音声データ解析用プログラムは、コンピュータに、複数の発話からなる音声データから導出される、話者ごとの音声の性質を規定するモデルである話者モデルと、音声データを一連の会話の単位で分割したセッションデータから導出される、話者間の共起関係を集約したモデルであって、話者間の共起関係をネットワークとした場合に特に共起関係の強いサブネットワークを形成する話者の集合であるクラスタの特徴を規定する確率モデルである話者共起モデルとを用いて、クラスタごとに指定された音声データが属する確率を求めることにより、指定された音声データがいずれのクラスタに該当するかを認識する処理を実行させるような構成であってもよい。
本発明によれば、上述のような構成を有することにより話者間の関係性を考慮して話者の認識を行うことができるので、複数の話者に対しても、高精度に話者を認識できる音声データ解析装置、音声データ解析方法及び音声データ解析用プログラムを提供することができる。
第1の実施形態の音声データ解析装置の構成例を示すブロック図である。 セッション音声データ記憶手段100及びセッション話者ラベル記憶手段101に記憶される情報の例を示す説明図である。 話者モデルを模式的に表す状態遷移図である。 話者共起モデルの基本単位を模式的に表す状態遷移図である。 話者共起モデルを模式的に表す状態遷移図である。 第1の実施形態における学習手段11の動作例を示すフローチャートである。 第1の実施形態における認識手段12の動作例を示すフローチャートである。 第2の実施形態の音声データ解析装置の構成例を示すブロック図である。 第2の実施形態における学習手段31の動作例を示すフローチャートである。 第3の実施形態の音声データ解析装置の構成例を示すブロック図である。 第4の実施形態の音声データ解析装置の構成例を示すブロック図である。 第5の実施形態の音声データ解析装置(モデル生成装置)の構成例を示すブロック図である。 第6の実施形態の音声データ解析装置(話者/話者集合認識装置)の構成例を示すブロック図である。 本発明の概要を示すブロック図である。 本発明の他の構成例を示すブロック図である。 本発明の他の構成例を示すブロック図である。 本発明の他の構成例を示すブロック図である。
実施形態1.
以下、本発明の実施形態を図面を参照して説明する。図1は、本発明の第1の実施形態の音声データ解析装置の構成例を示すブロック図である。図1に示すように、本実施形態の音声データ解析装置は、学習手段11と、認識手段12とを備える。
学習手段11は、セッション音声データ記憶手段100と、セッション話者ラベル記憶手段101と、話者モデル学習手段102と、話者共起学習手段104と、話者モデル記憶手段105と、話者共起モデル記憶手段106とを含む。
また、認識手段12は、セッションマッチング手段107と、話者モデル記憶手段105と、話者共起モデル記憶手段106とを含む。なお、話者モデル記憶手段105と話者共起モデル記憶手段106は、学習手段11と共有している。
これらの手段はそれぞれ概略次のように動作する。まず、学習手段11は、当該学習手段11に含まれる各手段の動作により、音声データと話者ラベルを用いて、話者モデルと話者共起モデルを学習する。
本実施形態では、セッション音声データ記憶手段100は、話者モデル学習手段102が学習に使用する多数の音声データを記憶する。音声データは、何らかの録音機で録音した音声信号であってもよいし、メルケプストラム係数(MFCC)などの特徴ベクトル系列に変換したものであってもよい。また、音声データの時間長については特に制約はないが、一般には長いほどよいとされている。また、各々の音声データは、単一の話者のみが発声する形態の他に、複数の話者から構成され、これらの話者が交替で発声するような形態において生成される音声データも含む。例えば、前出の振り込め詐欺のケースでは、単独犯の犯行から採取した音声データの他に、複数人からなる犯行グループのメンバーが交替で電話口で台詞を述べたような音声データも含む。このような一連の会話として収録された音声データの一つ一つを、ここでは「セッション」と呼ぶ。振り込め詐欺の場合は、1回の犯行が1セッションに相当する。
なお、各々の音声データは、非音声区間を除去することにより、適当な単位に分割されているものとする。この分割の単位を以降では「発話」と呼ぶ。もし分割がなされていない場合は、図示しない音声検出手段により、音声区間のみを検出し、分割がなされた形式に容易に変換することができる。
セッション話者ラベル記憶手段101は、話者モデル学習手段102及び話者共起学習手段104が学習に使用する話者ラベルを記憶する。ここで話者ラベルとは、各セッションの各発話に付与されている、話者を一意に特定するIDである。図2は、セッション音声データ記憶手段100及びセッション話者ラベル記憶手段101に記憶される情報の例を示す説明図である。なお、図2(a)でセッション音声データ記憶手段100に記憶される例を示し、図2(b)でセッション話者ラベル記憶手段101に記憶される情報の例を示している。図2(a)に示す例では、セッション音声データ記憶手段100に、各セッションを構成する発話X (n)が記憶されている。また、図2(b)に示す例では、セッション話者ラベル記憶手段101には、個々の発話に対応する話者ラベルz (n)が記憶されている。ここに、X (n)とz (n)は、それぞれ第nセッションのk番目の発話と話者ラベルを意味する。また、X (n)は、例えば以下の式(1)のように、メルケプストラム係数(MFCC)などの特徴ベクトル系列として扱うのが一般的である。ここに、L (n)は発話X (n)のフレーム数、つまり長さである。
Figure 0005644772
話者モデル学習手段102は、セッション音声データ記憶手段100及びセッション話者ラベル記憶手段101に記憶された音声データおよび話者ラベルを用いて、各話者のモデルを学習する。話者モデル学習手段102は、例えば、話者ごとの音声の性質を規定するモデル(確率モデルなどの数式モデル)を話者モデルとし、そのパラメータを導出する。具体的な学習の方法については、上述の非特許文献1に準じればよい。すなわち、話者A、話者B、話者C、・・・の各々について、図2に示すようなデータ一式から、当該話者ラベルが付与された発話をすべて用いて、話者ごとの音声特徴量の出現確率を規定する確率モデル(例えば、ガウス混合モデル(GMM)など)のパラメータを話者ごとに求めてもよい。
話者共起学習手段104は、セッション音声データ記憶手段100に記憶された音声データ、セッション話者ラベル記憶手段101に記憶された話者ラベル及び話者モデル学習手段102が求めた各話者モデルを用いて、話者間の共起関係を集約したモデルである話者共起モデルを学習する。発明が解決しようとする課題でも述べたように、話者間には人間的な関係の強弱がある。話者と話者とのつながりをネットワークと考えた場合、そのネットワークは均質ではなく、結合の強い箇所、弱い箇所がある。ネットワークを大局的にみると、結合の特に強いサブネットワーク(クラスタ)が散在するような様相を呈する。
話者共起学習手段104が行う学習では、このようなクラスタを抽出し、当該クラスタの特徴を表す数式モデル(確率モデル)を導出する。
次に、話者モデル学習手段102および話者共起学習手段104の動作について、さらに詳しく述べる。
まず、話者モデル学習手段102が学習する話者モデルは、発話Xの確率分布を規定する確率モデルであり、例えば図3のような状態遷移図で表すことができる。厳密には、話者i(i=1,2,・・・,S)のモデルは以下の式(2)の確率密度関数で表される。
Figure 0005644772
このような確率モデルは1状態の隠れマルコフモデルと呼ばれる。特にパラメータaは状態遷移確率と呼ばれる。fはパラメータλで規定される関数で、発話を構成する個々の特徴ベクトルxの分布を規定する。話者モデルの実体はパラメータa、λであり、話者モデル学習手段102における学習はこれらのパラメータの値を決定することといえる。なお、fの具体的な関数形としては、ガウス混合分布(GMM)などが挙げられる。話者モデル学習手段102は、このような学習方法に基づき、パラメータa、λを計算し、話者モデル記憶手段105に記録する。
次に、話者共起学習手段104が学習する話者共起モデルについては、上述の各話者(i=1,2,・・・,S)の話者モデルを並列させた図4に示すような状態遷移図を基本単位とし、さらにこれをT個並列させた図5に示すような状態遷移図(マルコフネットワーク)で表すことができる。
図4におけるwji(j=1,2,・・・,T、i=1,2,・・・,S)は、話者の集合(クラスタ)jにおける話者iの出現確率を意味するパラメータ(wj,1+・・・+wj,s=1)で、jに応じて異なるT通りのパターンがある。wji=0であれば、話者iは決して出現しないことになる。逆に、wji>0なる話者は互いに共起する可能性がある、つまり人間的な関係性があるということになる。また、wji>0なる話者の集合は、話者のネットワークにおけるクラスタに相当し、劇団型振り込め詐欺の例でいえば、典型的な犯行グループ1つを表すといえる。
図4が1つの振り込め詐欺の犯行グループを表すとして、犯行グループはT個のパターンに大別されると仮定したのが、図5のマルコフネットワークで現される確率モデルである。uは、犯行グループ、すなわち話者の集合(クラスタ)jの出現確率を表すパラメータで、犯行グループの活動の活発さと解釈できる。vは、話者の集合jの1セッションにおける発話数に関係するパラメータである。話者共起モデルの実体はパラメータu,v,wjiであり、話者共起学習手段104における学習は、これらのパラメータの値を決定することといえる。
ここまでに定義したパラメータのセットをθ={u,v,wji,a,λ}として、K個の発話からなるセッションΞ=(X,X,・・・,X)の確率分布を規定する確率モデルは以下の式(3)で表される。
Figure 0005644772
ここに、yは話者の集合(クラスタ)を指定するインデクスであり、Z=(z,z,・・・,z)は発話ごとに話者を指定するインデクス列である。また、表記の簡単化のため以下の式(4)のように置き換えを行っている。
Figure 0005644772
話者共起学習手段104は、セッション音声データ記憶手段100に記憶された音声データX (n)、セッション話者ラベル記憶手段101に記憶された話者ラベルz (n)及び話者モデル学習手段102が求めた各話者のモデルa、λを用いて、パラメータu,v,wjiを推定する。推定方法についてはいくつか考えられるが、尤度最大化基準(最尤基準)による方法が一般的である。すなわち、所与の音声データ、話者ラベル、各話者のモデルに対して、上述の式(3)の確率p(Ξ|θ)が最大となるように推定する。
最尤基準に基づく具体的な計算は、例えば期待値最大化法(Expectation-Maximization法、略してEM法)によって導出できる。具体的には、以下のステップS0〜S3において、ステップS1とステップS2を交互に反復するアルゴリズムを実行する。
ステップS0:
パラメータu,v,wjiに適当な値をセットする。
ステップS1:
セッションΞ(n)がクラスタyに属する確立を、以下の式(5)に従って計算する。ここに、K(n)は、セッションΞ(n)に含まれる発話数である。
Figure 0005644772
ステップS2:
パラメータu,v,wjiを以下の式(6)に従って更新する。ここに、Nはセッション総数、δijはクロネッカのデルタである。
Figure 0005644772
ステップS3:
以降、上述の式(3)の確率p(Ξ|θ)の値の上昇度合いなどから収束判定を行い、収束するまでステップS1とステップS2を交互に反復する。
以上のステップを経て計算された話者共起モデル、すなわちパラメータu,v,wjiは、話者共起モデル記憶手段106に記録される。
また、認識手段12は、当該認識手段12に含まれる各手段の動作により、与えられた任意の音声データに含まれる話者を認識する。
本実施形態では、セッションマッチング手段107は、任意の音声データを受け取る。ここでの音声データは、学習手段11で取り扱った音声データと同様、単一の話者のみが発声する形態の他に、複数の話者が交替で発声するような発話列の形態において生成される音声データも含む。このような音声データを、これまでと同様、Ξ=(X,X,・・・,X)と表し、Ξをセッションと呼ぶ。
セッションマッチング手段107はさらに、学習手段11によりあらかじめ計算されて、それぞれ話者モデル記憶手段104、話者共起モデル記憶手段106に記録された、話者モデル、話者共起モデルを参照して、セッションΞに含まれる各発話がどの話者から発せられたか、すなわち話者ラベル列Z=(z,z,・・・,z)を推定する。具体的に は、セッション音声データΞとパラメータθ={u,v,wji,a,λ}を所与として、以下の式(7)に基づいて話者ラベル列Zの確率分布が理論的に計算できる。
Figure 0005644772
よって、確率p(Ξ|θ)が最大となるZを求めることで、各発話の話者ラベルを計算することができる。なお、式(7)の右辺分母はZに依存しない定数となるので、計算を省略することができる。また、分子のクラスタjに関する総和は、この種の計算でよく行われるように、最大値演算maxに置き換えて近似計算としてもよい。さらに、Zの取り得る値の組合せはS通りあり、確率p(Ξ|θ)の最大値探索は計算量が膨大化する可能性があるが、動的計画法などの計算手法を適用することにより、効率的に探索することができる。
なお、以上述べた動作では、認識手段12に入力される音声データが、学習手段11で学習した話者の発話のみから構成されていることを前提としている。しかし、実際応用上は、学習手段11で獲得し得なかった未知の話者の発話を含む音声データが入力される場合があり得る。このような場合には、各発話について、未知話者か否かを判定する後処理を容易に導入することが可能である。すなわち、以下の式(8)によって個々の発話Xが話者zに属する確率を計算し、所定のしきい値以下の値となった場合に未知話者であると判定してもよい。
Figure 0005644772
あるいは、上述の式(8)に代えて以下の式(9)に示すような近似計算を行ってもよい。
Figure 0005644772
また、式(8)や式(9)の右辺は、話者モデルi=1,・・・,Sに関する総和形式を含んでいるが、これらを非特許文献1に記載されている平均的な話者のモデル、すなわちユニバーサル・バックグラウンド・モデル(Universal Background model)に置き換えて計算してもよい。
本実施形態において、セッション音声データ記憶手段100と、セッション話者ラベル記憶手段101と、話者モデル記憶手段105と、話者共起モデル記憶手段106とは、例えば、メモリなどの記憶装置によって実現される。また、話者モデル学習手段102と、話者共起学習手段104と、セッションマッチング手段107とは、例えば、CPUなどのプログラムに従って動作する情報処理装置(プロセッサユニット)によって実現される。なお、セッション音声データ記憶手段100、セッション話者ラベル記憶手段101、話者モデル記憶手段105、話者共起モデル記憶手段106は、それぞれの別々の記憶装置として実現されていてもよい。また、話者モデル学習手段102、話者共起学習手段104、セッションマッチング手段107は、それぞれ別々のユニットとして実現されていてもよい。
次に、図6及び図7のフローチャートを参照して、本実施形態の全体の動作について詳細に説明する。なお、図6は、学習手段11の動作の一例を示すフローチャートである。また、図7は、認識手段12の動作の一例を示すフローチャートである。
まず、学習手段11において、話者モデル学習手段102と話者共起モデル学習手段104は、セッション音声データ記憶手段100から音声データを読み込む(図6のステップA1)。また、セッション話者ラベル記憶手段101から話者ラベルを読み込む(ステップA2)。これらのデータの読み込みについては、順序は任意である。また、話者モデル学習手段102と話者共起モデル学習手段104のデータ読み込みのタイミングを合わせなくてもよい。
次に、話者モデル学習手段102は、読み込んだ音声データおよび話者ラベルを用いて、各話者モデル、すなわちパラメータa,λ(i=1,・・・,S)を計算し(ステップA3)、話者モデル記憶手段105に記録する(ステップA4)。
さらに、話者共起学習手段104は、音声データ、話者ラベル及び話者モデル学習手段102によって計算された各話者モデルを用いて、例えば上述の式(5),式(6)の計算を含む反復解法等の所定の計算を実行することにより、話者共起モデル、すなわちパラメータu,v,wji(i=1,・・・,S、j=1,・・・,T)を計算し(ステップA5)、話者共起モデル記憶手段106に記録する(ステップA6)。
一方、認識手段12においては、セッションマッチング手段107は、話者モデル記憶手段105から話者モデルを読み込み(図7のステップB1)、話者共起モデル記憶手段106から話者共起モデルを読み込む(ステップB2)。また、任意の音声データを受け取り(ステップB3)、さらに、例えば上述の式(7)及び必要に応じて式(8)または式(9)等の所定の計算をすることにより、受け取った音声データの各発話に対する話者ラベルを求める。
以上のように、本実施形態によれば、学習手段11において、話者共起学習手段104が、会話などにおける一連の発話をまとめたセッションの単位で記録された音声データ及び話者ラベルを用いることにより、話者間の共起関係を話者共起モデルとして獲得(生成)する。また、認識手段12において、セッションマッチング手段107が、個々の発話について独立に話者の認識を行うのではなく、学習手段11が獲得した話者共起モデルを用いて、セッション全体の話者の共起の整合性を考慮して話者認識を行う。従って、話者のラベルを正確に求めることができ、話者を高精度に認識することができる。
例えば、振り込め詐欺の例を考えると、劇団型振り込め詐欺のような複数犯の場合、話者間の関係性が生ずる。例えば、話者Aと話者Bは同じ犯行グループに属して活動しており、1回の犯行(電話)の中に共に現れる可能性が高いとか、話者Bと話者Cは犯行グループが異なり、一緒には現れないとか、話者Dは常に単独犯である等である。話者Aと話者Bのように、ある話者と話者が一緒に現れることを、本発明では「共起」と呼んでいる。
このような話者間の関係性が、話者、すなわち犯人を特定するための重要な情報である。とりわけ、電話から得られた音声は、帯域が狭く音質が劣悪であり、話者の区別が難しい。したがって、「ここに話者Aが出てきているから、こっちのこの声はおそらく仲間の話者Bのものであろう」というような推論は有効と予想される。したがって、上述のような構成を採用し、話者間の関係性を考慮して話者の認識を行うことにより本発明の目的を達成することができる。
実施形態2.
次に、本発明の第2の実施形態について説明する。図8は、本発明の第2の実施形態の音声データ解析装置の構成例を示すブロック図である。図8に示すように、本実施形態の音声データ解析装置は、学習手段31と、認識手段32とを備える。
また、学習手段31は、セッション音声データ記憶手段300と、セッション話者ラベル記憶手段301と、話者モデル学習手段302と、話者分類手段303と、話者共起学習手段304と、話者モデル記憶手段305と、話者共起モデル記憶手段306とを含む。なお、話者分類手段303を含む点が第1の実施形態と異なる。
また、認識手段32は、セッションマッチング手段307と、話者モデル記憶手段304と、話者共起モデル記憶手段306とを含む。なお、話者モデル記憶手段304と、話者共起モデル記憶手段306は、学習手段31と共有している。
これらの手段はそれぞれ概略次のように動作する。
学習手段31は、第1の実施形態と同様に、当該学習手段31が含む各手段の動作により、音声データと話者ラベルを用いて、話者モデルと話者共起モデルを学習する。ただし、第1の実施形態における学習手段11とは異なり、話者ラベルが不完全であってもよい。すなわち、音声データ中の一部のセッション、あるいは一部の発話に対応する話者ラベルが未知であってもよいとする。一般に、各発話に対して話者ラベルを付与する作業は、音声データの検聴などの多大な人的コストを伴うものであるから、このような状況は実際応用上しばしば起こり得る。
一部の話者ラベルが未知であるという点を除けば、セッション音声データ記憶手段300及びセッション話者ラベル記憶手段301は、第1の実施形態におけるセッション音声データ記憶手段100及びセッション話者ラベル記憶手段101と同様である。
話者モデル学習手段302は、セッション音声データ記憶手段300及びセッション話者ラベル記憶手段301にそれぞれ記憶された音声データおよび話者ラベル、並びに、話者分類手段303によって計算される未知の話者ラベルの推定結果、話者共起学習手段304によって計算される各セッションの帰属クラスタの推定結果を用いて、各話者のモデルを学習した後、最終的な話者モデルを話者モデル記憶手段305に記録する。
話者分類手段303は、セッション音声データ記憶手段300及びセッション話者ラベル記憶手段301にそれぞれ記憶された音声データおよび話者ラベル、並びに、話者モデル学習手段302によって計算される話者モデル、話者共起学習手段304によって計算される話者共起モデルを用いて、話者ラベル未知の発話に付与すべき話者ラベルを確率的に推定する。
話者共起学習手段304は、セッションごとに帰属クラスタを確率的に推定し、話者分類手段303によって計算される未知の話者ラベルの推定結果を参照し、話者共起モデルを学習する。また、最終的な話者共起モデルを話者共起モデル記憶手段306に記録する。
ここで、話者モデル学習手段302、話者分類手段303、話者共起学習手段304の動作についてさらに詳しく述べる。
話者モデル学習手段302が学習する話者モデル、話者共起学習手段304が学習する話者共起モデルは、いずれも第1の実施形態と同様であり、それぞれ図3や図5の状態遷移図で表される。ただし、話者ラベルが不完全であることから、話者モデル学習手段302、話者分類手段303、話者共起学習手段304は、互いの出力に依存し、交互に反復的に動作して、話者モデルおよび話者共起モデルを学習する。具体的には、以下のステップS30〜S35において、ステップS31〜S34をくり返すアルゴリズムによって推定する。
ステップS30:
話者共起学習手段304は、話者共起モデルのパラメータu,v,wji(i=1,・・・,S、j=1,・・・,T)に適当な値をセットする。話者分類手段303は、未知の話者ラベルについて、乱数などにより適当なラベル(値)を付与する。
ステップS31:
話者モデル学習手段302は、セッション音声データ記憶手段300に記録された音声データ、セッション話者ラベル記憶手段301に記録された既知の話者ラベル及び話者分類手段303が推定した話者ラベルを用いて話者モデルを学習し、パラメータa,λ(i=1,・・・,S)を更新する。例えば話者モデルが、平均μと分散Σで規定されるガウス分布モデル、すなわちλ=(a,μ,Σ)であれば、以下の式(10)によってパラメータを更新する。
Figure 0005644772
ステップS32:
話者分類手段303は、セッション音声データ記憶手段300に記録された音声データ、並びに話者モデル、話者共起モデルを用いて、話者ラベルが未知の発話について、以下の式(11)に従って話者ラベルを確率的に推定する。
Figure 0005644772
ステップS33:
話者共起学習手段304は、セッション音声データ記憶手段300、セッション話者ラベル記憶手段301にそれぞれに記録された音声データ、既知の話者ラベル、並びに話者モデル学習手段302が算出した話者モデル、話者分類手段303が算出した未知の話者ラベルの推定結果を用いて、セッションΞ(n)がクラスタyに属する確率を、上述の式(5)に従って計算する。
ステップS34:
話者共起学習手段304はさらに、ステップS33の算出結果を用いて、話者共起モデルを学習する。すなわち、パラメータu,v,wji(i=1,・・・,S、j=1,・・・,T)を以下の式(12)に従って更新する。
Figure 0005644772
ステップS35:
以降、収束するまでステップS31〜S34を反復する。収束に至った時点で、話者モデル学習手段302は話者モデルを話者モデル記憶手段305に、話者共起学習手段304は話者共起モデルを話者共起モデル記憶手段306に、それぞれ記録する。
上記ステップS31〜S35の処理は、第1の実施形態と同様に、尤度最大化基準に基づく期待値最大化法から導出されるものである。また、この導出はあくまで一例であり、他のよく知られる基準、例えば事後確率最大化(MAP)基準やベイズ基準に基づく定式化も可能である。
また、本実施形態の認識手段32は、当該認識手段32が含む各手段の動作により、与えられた任意の音声データに含まれる話者を認識する。動作の詳細については、第1の実施形態における認識手段12と同じであるため、説明を省略する。
本実施形態において、例えば、セッション音声データ記憶手段300と、セッション話者ラベル記憶手段301と、話者モデル記憶手段305と、話者共起モデル記憶手段306とは、メモリなどの記憶装置によって実現される。また、話者モデル学習手段302と、話者分類手段303と、話者共起学習手段304と、セッションマッチング手段307とは、CPUなどのプログラムに従って動作する情報処理装置(プロセッサユニット)によって実現される。なお、セッション音声データ記憶手段300、セッション話者ラベル記憶手段301、話者モデル記憶手段305、話者共起モデル記憶手段306は、それぞれの別々の記憶装置として実現されていてもよい。また、話者モデル学習手段302、話者分類手段303、話者共起学習手段304、セッションマッチング手段307は、それぞれ別々のユニットとして実現されていてもよい。
次に、図9に示すフローチャートを参照して、本実施形態の動作について詳細に説明する。図9は、本実施形態の学習手段31の動作の一例を示すフローチャートである。なお、認識手段32の動作については、第1の実施形態と同様であるため、説明を省略する。
まず、話者モデル学習手段302、話者分類手段303、話者共起学習手段304は、セッション音声データ記憶手段300に記憶された音声データを読み込む(図9のステップC1)。また、話者モデル学習手段302、話者共起学習手段304はさらに、セッション話者ラベル記憶手段301に記憶された既知の話者ラベルを読み込む(ステップC2)。
次に、話者モデル学習手段302は、話者分類手段303によって計算される未知の話者ラベルの推定結果、話者共起学習手段304によって計算される各セッションの帰属クラスタの推定結果を用いて、話者モデルを更新する(ステップC3)。
話者分類手段303は、話者モデル学習手段302から話者モデル、話者共起学習手段304から話者共起モデルをそれぞれ受け取り、話者ラベル未知の発話に付与すべきラベルを例えば、上述の式(11)に従って確率的に推定する(ステップC4)。
話者共起学習手段304は、セッションごとに帰属クラスタを例えば、上述の式(5)に従って確率的に推定し、さらに話者分類手段303によって計算される未知の話者ラベルの推定結果を参照し、話者共起モデルを例えば、上述の式(12)に従って更新する(ステップC5)。
ここで、収束判定を行い(ステップC6)、未収束であれば、ステップC3に戻る。収束していれば、話者モデル学習手段302は、話者モデルを話者モデル記憶手段305に記録し(ステップC7)、話者共起学習手段304は、話者共起モデルを話者共起モデル記憶手段306に記録する(ステップC8)。
なお、ステップC1とステップC2、ステップC7とステップC8の順序はそれぞれ任意である。また、ステップS33〜S35の順序についても、任意に入れ替え可能である。
以上のように、本実施形態によれば、学習手段31において、話者ラベルが未知であっても、話者分類手段303が話者ラベルを推定し、話者モデル学習手段302、話者共起学習手段304を含めた3つの手段が協調して反復的に動作することにより、話者モデル、話者共起モデルを得るように構成されているため、話者ラベルが一部欠如している、さらには完全にない場合であっても、話者を高精度に認識することができる。なお、他の点に関しては第1の実施形態と同様である。
実施形態3.
次に、本発明の第3の実施形態について説明する。図10は、本発明の第3の実施形態の音声データ解析装置の構成例を示すブロック図である。本実施形態は、話者モデルおよび話者共起モデルが、時間(例えば、月日)とともに変化する場合を想定した実施形態である。すなわち、逐次入力される音声データを解析し、その解析結果に応じて、話者の増減、話者の集合であるクラスタの増減等を検知し、話者モデルおよび話者共起モデルの構造を順応させる。話者および話者間の関係は、一般に時間とともに変化する。本実施形態では、そのような時間的な変化(経時変化)を考慮した実施形態である。
図10に示すように、本実施形態の音声データ解析装置は、学習手段41と、認識手段42とを備える。
また、学習手段41は、データ入力手段408と、セッション音声データ記憶手段400と、セッション話者ラベル記憶手段401と、話者モデル学習手段402と、話者分類手段403と、話者共起学習手段404と、話者モデル記憶手段405と、話者共起モデル記憶手段406と、モデル構造更新手段409とを含む。なお、データ入力手段408とモデル構造更新手段409とを含む点が第2の実施形態と異なる。
また、認識手段42は、セッションマッチング手段407と、話者モデル記憶手段404と、話者共起モデル記憶手段406とを含む。なお、認識手段42と学習手段41は、話者モデル記憶手段404と話者共起モデル記憶手段406とをお互いに共有している。
これらの手段はそれぞれ概略次のように動作する。
学習手段41は、初期の動作としては、第2の実施形態における学習手段31と同様の動作を行う。すなわち、その時点でセッション音声データ記憶手段400とセッション話者ラベル記憶手段401に各々記憶されている音声データおよび話者ラベルを用いて、あらかじめ定めた話者数Sとクラスタ数Tに基づき、話者モデル学習手段104と話者分類手段403と、話者共起学習手段404の動作により、話者モデルと話者共起モデルを学習する。そして、学習した話者モデルと話者共起モデルを話者モデル記憶手段405と話者共起モデル記憶手段406にそれぞれ記憶する。
学習手段41に含まれる各手段は、このような初期動作の後には、次のように動作する。データ入力手段408は、新たな音声データおよび話者ラベルを受け取り、それぞれ音声データ記憶手段400、セッション話者ラベル記憶手段401に追加して記録する。なお、第2の実施形態と同様に、何らかの理由で話者ラベルが取得できない場合は、音声データのみを取得し、音声データ記憶手段400に記録する。
話者モデル学習手段402、発話分類手段403、話者共起学習集団404は、音声データ記憶手段400およびセッション話者ラベル記憶手段401に記録された各データを参照し、第2の実施形態におけるステップS30〜S35と同様の動作を行う。ただし、ステップS40においては、第2の実施形態におけるステップS30とは異なり、その時点で得られている話者モデルおよび話者共起モデルのパラメータを用いる。
ステップS40:
話者共起学習手段404は、話者共起モデルのパラメータu,v,wji(i=1,・・・,S、j=1,・・・,T)に適当な値をセットする。話者分類手段403は、未知の話者ラベルについて、その時点で得られている話者モデルおよび話者共起モデルのパラメータの値を用いて、上述の式(11)に従って話者ラベルを推定する。
ステップS41:
話者モデル学習手段402は、セッション音声データ記憶手段400に記録された既知の話者ラベル、およびステップS40または後述するステップS42で推定された話者ラベルを用いて話者モデルを学習し、パラメータa,λ(i=1,・・・,S)を更新する。例えば話者モデルが、平均μと分散Σで規定されるガウス分布モデル、すなわちλ=(a,μ,Σ)であれば、上述の式(10)によってパラメータを更新する。
ステップS42:
発話分類手段403は、セッション音声データ記憶手段400に記録された音声データ並びに話者モデル、共起モデルを用いて、話者ラベルが未知の発話について、上述の式(11)に従って話者ラベルを確率的に推定する。
ステップS43:
話者共起学習手段404は、セッション音声データ記憶手段400、セッション話者ラベル記憶手段401にそれぞれに記録された音声データ、既知の話者ラベル、話者モデル学習手段402が算出した話者モデル、発話分類手段403が算出した未知の話者ラベルの推定結果を用いて、セッションΞ(n)がクラスタyに属する確率を、上述の式(5)に従って計算する。
ステップS44:
話者共起学習手段404はさらに、ステップS43の算出結果を用いて、話者共起モデルを学習する。すなわち、パラメータu,v,wji(i=1,・・・,S、j=1,・・・,T)を上述の式(12)に従って更新する。
ステップS45:
以降、収束するまでステップS41〜S44を反復する。収束に至った時点で、話者モデル学習手段402は、更新された話者モデルを話者モデル記憶手段405に、話者共起学習手段404は、更新された話者共起モデルを話者共起モデル記憶手段406に、それぞれ記録する。
上記ステップS41〜S45の処理は、第1及び第2の実施形態と同様に、尤度最大化基準に基づく期待値最大化法から導出されるものである。なお、他のよく知られる基準、例えば事後確率最大化(MAP)基準やベイズ基準に基づく定式化も可能である。
また、本実施形態の学習手段41は、さらに次のように動作する。
モデル構造更新手段409は、データ入力手段408が受け取った新たなセッション音声データと、話者モデル学習手段402、話者共起学習手段404、発話分類手段403から、話者モデル、話者共起モデル、話者ラベルとをそれぞれ受け取り、話者モデル、話者共起モデルの構造の変化を例えば以下に示す方法によって検知し、構造の変化を反映した話者モデル、話者共起モデルを生成する。
ここで、構造の変化とは、次に示す6種類の事象を指す。
1)話者の発生:過去に観測されたことのない新たな話者が出現すること。
2)話者の消滅:既知の話者が出現しなくなること。
3)クラスタの発生:過去に観測されたことのない新たなクラスタ(話者の集合)が出現すること。
4)クラスタの消滅:既存のクラスタが出現しなくなること。
5)クラスタの分裂:既存のクラスタが複数のクラスタに分かれること。
6)クラスタの合併:既存の複数のクラスタが1つのクラスタにまとまること。
モデル構造更新手段409は、上述の6種類の事象について、それぞれ以下のように検知し、検知結果に応じて話者モデルおよび話者共起モデルの構造を更新する。
「1)話者の発生」については、音声データに含まれる個々の発話X (n)(1≦k≦K(n))について、上述の式(11)及び次の式(13)で定義された話者ラベルのエントロピーを計算する。
Figure 0005644772
このエントロピーの値が所定のしきい値よりも大きい場合、発話X (n)は既存のいずれの話者にも適合しない新出話者によるものと考えられることから、話者数Sをインクリメント(1加算)し、新たな話者モデルのパラメータaS+1、λS+1、及び滞欧する話者共起モデルのパラメータwj,S+1(1≦j≦T)を用意し、これらに適当な値をセット(設定)する。値は乱数によって決めてもよいし、発話X (n)の平均や分散などの統計量を利用して決めてもよい。
「2)話者の消滅」については、各話者i=1,2,・・・,Sについて、話者共起モデルのパラメータwj,i(1≦j≦T)の最大値を調べる。この最大値が所定のしきい値よりも小さければ、当該話者iはいずれのクラスタでも出現確率が低い、すなわち出現しなくなったと考えられることから、対応する話者モデルのパラメータa、λ及び話者共起モデルのパラメータwj,i(1≦j≦T)を削除する。
「3)クラスタの発生」については、音声データのセッション全体がどのクラスタに属するか、すなわち上述の式(5)に関して、以下の式(14)のようなエントロピーを計算する。
Figure 0005644772
このエントロピーの値が所定のしきい値よりも大きい場合、セッション音声データΞ(n)=( (n))は既存のいずれのクラスタにも適合しない新出クラスタであると考えられることから、クラスタ数Tをインクリメントし、話者共起モデルのパラメータuT+1,vT+1,wT+1,i(1≦i≦S)を新たに用意し、これらに適当な値をセットする。このとき、u,u,・・・,uT+1については、u+u+・・・+uT+1=1を満たすように適宜正規化することが望ましい。
「4)クラスタの消滅」については、各クラスタj=1,2,・・・,Tについて、話者共起モデルのパラメータuの値を調べる。この値が所定のしきい値よりも小さければ、当該クラスタjは出現確率が低い、すなわち出現しなくなったと考えられることから、対応する話者共起モデルのパラメータu,v,wj,i(1≦i≦S)を削除する。
「5)クラスタの分裂」については、最近入力されたm個の音声データΞ(n−m+1),Ξ(n−m+2),・・・,Ξ(n)を参照し、以下の式(15)のような評価関数を各クラスタyについて計算する。
Figure 0005644772
ここに、総和記号内の第1及び第2項は上述の式(5)に基づいて計算される。また、第3項は、次の式(16)で定義されるベクトルを使って計算される。
Figure 0005644772
さらに、式(16)の各要素は、以下の式(17)を使って計算される。
Figure 0005644772
以下に、式(15)の意味するところについて説明する。まず式(17)は、τ番目の音声データΞ(τ)がクラスタyに属すると仮定した場合の、Ξ(τ)内での話者zの出現確率を表している。よって式(16)は、クラスタyにおける話者の出現確率を並べたベクトルとなる。
また、式(15)の総和記号内の第1及び第2項は、τ番目の音声データΞ(τ)及びτ’番目の音声データΞ(τ’)が、ともにクラスタyに属する可能性が高い場合に大きい値を取る。また、第3項は、式(16)のベクトルの余弦類似度の符号を反転して1を加えた一種の相違度であるから、τ番目の音声データΞ(τ)およびτ’番目の音声データΞ(τ’)における各話者の出現確率が異なる場合に大きい値を取る。以上から、式(15)は、最近入力されたm個の音声データに関して、τ番目の音声データΞ(τ)とτ’番目の音声データΞ(τ’)が同じクラスタに属していて、かつ話者の出現確率が異なる場合に大きい値を取る。
従って、式(15)の値が最大かつ所定のしきい値を超えるようなクラスタyについては、クラスタが分裂したとみなせることから、当該クラスタを分割する。
分割の具体的な操作については、例えば、クラスタyを2つのクラスタy1とy2に分割する場合、k平均法などの公知のクラスタリング技術を使って式(16)のベクトル(τ=n−m+1,n−m+2,・・・,n)を2つのグループに分けて、それぞれのグループの平均ベクトルを、話者共起モデルのパラメータwy1,z及びwy2,zに割り当てればよい。またパラメータuについては、1/2ずつをuy1及びuy2に割り当てればよく、パラメータvについては、同じ値をvy1及びvy2にコピーすればよい。
「6)クラスタの合併」については、話者共起モデルのパラメータwyzから、以下の式(18)に示すようなベクトルwを構成し、各クラスタ間でベクトルの内積w・wy’を計算する。この内積の値が大きい場合は、話者の出現確率の類似度が高いので、当該クラスタy,y’間の話者の出現確率が類似しているといえるので、クラスタy,y’間を合併する。
Figure 0005644772
合併の具体的な操作については、例えば、パラメータwyzとvについては、両クラスタのパラメータの値を足して2で割る、すなわち平均を取ればよい。また、パラメータuについては、両クラスタの和u+uy’とすればよい。
なお、話者の発生、消滅、あるいはクラスタの発生、消滅、分裂、合併により、モデル構造更新手段409が話者モデルまたは話者共起モデルの構造を更新した場合、話者モデル学習手段402、発話分類手段403、話者共起学習手段404は、上述のステップS41〜S45の動作を行い、各モデルの再学習を行うことが望ましい。
また、再学習の結果、各モデルの構造の更新を最終的に行うべきかどうかを、記述長最小(MDL)基準、赤池情報量基準(AIC)、ベイズ情報量基準(BIC)などといった公知のモデル選択基準により検証し、モデルの更新が不要と判断された場合は、更新前のモデルを維持するように動作することが望ましい。
また、これらのステップの中で行われる式(5),式(10),式(11),式(12)などの計算は、セッション音声データ記憶手段400に記録された音声データを毎回すべて用いて行うことを想定しているが、これでは計算量が膨大になる可能性がある。そのような場合は、文献「M.Neal et al., "A View of the EM Algorithm That Justifies Incremental, Sparse, and Other Variants," Learning in Graphical Models, The MIT Press, November 1998, p.355-368」(非特許文献2)に記載の方法により、最新の音声データ、あるいは最近のm個の音声データのみを参照して計算を行うようにすれば、計算量が削減できる。
認識手段42は、セッションマッチング手段407と、話者モデル記憶手段404と、話者共起モデル記憶手段406の動作により、与えられた任意の音声データに含まれる話者を認識する。動作の詳細については、第1または第2の実施形態と同じであるため、説明を省略する。
以上のように、本実施形態によれば、第1または第2の実施形態の効果に加えて、学習手段41において、データ入力手段408が、新規に得られた音声データを受け取ってセッション音声データ記憶手段400に追加し、またモデル構造更新手段409が、追加された音声データに応じて、話者の発生、話者の消滅、クラスタの発生、クラスタの消滅、クラスタの分裂、クラスタの合併といった事象を検知し、話者モデルおよび話者共起モデルの構造を更新するように構成されているため、話者やそれらの間の共起関係が時間とともに変化する場合であっても、その変化に追従し、話者を高精度に認識することができる。また、学習手段41がそのような事象を検知するように構成されているため、話者やクラスタ(話者の集合)の行動パターンを知ることができ、振り込め詐欺やテロ犯罪の犯人の追跡調査などに有益な情報を、大量の音声データから抽出して提供することができる。
実施形態4.
次に、本発明の第4の実施形態について説明する。図11は、本発明の第4の実施形態の音声データ解析装置の構成例を示すブロック図である。図11に示すように、本実施形態の音声データ解析装置は、学習手段51と、認識手段52とを備える。
また、学習手段51は、セッション音声データ記憶手段500と、セッション話者ラベル記憶手段501と、話者モデル学習手段502と、話者分類手段503と、話者共起学習手段504と、話者モデル記憶手段505と、話者共起モデル記憶手段506とを含む。また、認識手段52は、セッションマッチング手段507と、話者モデル記憶手段505と、話者共起モデル記憶手段506とを含む。なお、認識手段52と学習手段51は、話者モデル記憶手段504と話者共起モデル記憶手段506とをお互いに共有している。
これらの手段はそれぞれ概略次のように動作する。
学習手段51は、セッション音声データ記憶手段500と、セッション話者ラベル記憶手段501と、話者モデル学習手段502と、話者分類手段503と、話者共起学習手段504と、話者モデル記憶手段505と、話者共起モデル記憶手段506の動作により、話者モデルおよび話者共起モデルを学習する。各動作の詳細については、それぞれ第2の実施形態におけるセッション音声データ記憶手段300、セッション話者ラベル記憶手段301、話者モデル学習手段302、話者分類手段303、話者共起学習手段304、話者モデル記憶手段305、話者共起モデル記憶手段306と同じであるため、説明を省略する。
なお、学習手段51の構成は、第1の実施形態における学習手段11や第3の実施形態における学習手段41と同じ構成としてもよい。
認識手段52は、セッションマッチング手段507と、話者モデル記憶手段504と、話者共起モデル記憶手段506の動作により、与えられた任意の音声データが属するクラスタを認識する。
セッションマッチング手段507は、任意のセッション音声データΞを受け取る。ここでの音声データは、これまでと同様、単一の話者のみが発声する形態の他に、複数の話者が交替で発声するような発話列の形態も含む。
セッションマッチング手段507はさらに、学習手段51によりあらかじめ計算されて、話者モデル記憶手段504および話者共起モデル記憶手段506に記録された話者モデルおよび話者共起モデルを参照して、音声データΞがどのクラスタに属するかを推定する。具体的には、上述した式(5)に基づいてクラスタごとに音声データΞが属する確率が計算する。
よって、確率p(y|Ξ,θ)が最大となるyを求めることで、音声データが属するクラスタを計算することができる。なお、式(5)の右辺分母はyに依存しない定数となるので、計算を省略することができる。また、分子の話者iに関する総和は、この種の計算でよく行われるように、最大値演算maxに置き換えて近似計算としてもよい。
なお、以上述べた動作では、認識手段52に入力される音声データが、学習手段51で学習されたクラスタのいずれか一つに属することを想定している。しかしながら実際応用上は、学習段階で獲得し得なかった未知のクラスタに属する音声データが入力される場合があり得る。このような場合に対しては、確率p(y|Ξ,θ)の最大値取得時に、所定のしきい値と比較して、しきい値以下の値となった場合に未知のクラスタであると判定するような処理を導入してもよい。あるいは、式(14)のエントロピーのような基準に対してしきい値判定を行ってもよい。
以上のように、本実施形態によれば、認識手段52において、セッションマッチング手段507が、入力された音声データが属するクラスタ(話者の集合)のIDを推定するように構成されているため、個々の話者以外に、話者の集合を認識することができる。すなわち、個々の振り込め詐欺犯やテロリストのような個人ではなく、犯行グループを認識することができる。さらには、任意の音声データを、登場人物の構成(キャスティング)の類似性に基づいて自動分類することができる。
実施形態5.
次に、本発明の第5の実施形態について説明する。図12は、本発明の第5の実施形態の音声データ解析装置(モデル生成装置)の構成例を示すブロック図である。図12に示すように、本実施形態の音声データ解析装置は、音声データ解析用プログラム21−1と、データ処理装置22と、記憶装置23とを備える。また、記憶装置23には、セッション音声データ記憶領域231と、セッション話者ラベル記憶領域232と、話者モデル記憶領域233と、話者共起モデル記憶領域234とが含まれる。なお、本実施形態は、第1の実施形態における学習手段11を、プログラムにより動作されるコンピュータにより実現した場合の構成例である。
音声データ解析用プログラム21−1は、データ処理装置22に読み込まれ、データ処理装置22の動作を制御する。なお、音声データ解析用プログラム21−1には、第1の実施形態における学習手段の動作がプログラム言語を用いて記述されている。なお、第1の実施形態における学習手段11に限らず、第2〜第4の実施形態における学習手段(学習手段31、学習手段41または学習手段51)をプログラムにより動作されるコンピュータにより実現することも可能である。そのような場合には、音声データ解析用プログラム21−1には、第1〜第4の実施形態におけるいずれかの学習手段の動作がプログラム言語を用いて記述されていればよい。
すなわち、データ処理装置22は、音声データ解析用プログラム21−1の制御により、第1の実施形態における話者モデル学習手段102および話者共起学習手段104の処理か、第2の実施形態における話者モデル学習手段302、話者分類手段303および話者共起学習手段304の処理か、第3の実施形態におけるデータ入力手段408、話者モデル学習手段402、話者分類手段403、話者共起学習手段404およびモデル構造更新手段409の処理か、または第4の実施形態における話者モデル学習手段502、話者分類手段503および話者共起学習手段504の処理と同一の処理を実行する。
データ処理装置22は、音声データ解析用プログラム51−1に従って処理を実行することによって、記憶装置23内のセッション音声データ記憶領域231、セッション話者ラベル記憶領域232にそれぞれ記録された音声データ、話者ラベルを読み込み、それらを用いて話者モデルおよび話者共起モデルを求め、求めた話者モデルおよび話者共起モデルを記憶装置23内の話者モデル記憶領域233、話者共起モデル記憶領域234にそれぞれ記録する。
以上のように、本実施形態の音声データ解析装置(モデル生成装置)によれば、多数の話者から発せられる音声データから話者を学習または認識する際に有効な話者モデルおよび話者共起モデルを得ることができるため、得られた話者モデルおよび話者共起モデルを用いることによって話者を高精度に認識することができる。
実施形態6.
次に、本発明の第6の実施形態について説明する。図13は、本発明の第6の実施形態の音声データ解析装置(話者認識装置)の構成例を示すブロック図である。図13に示すように、本実施形態の音声データ解析装置は、音声データ解析用プログラム21−2と、データ処理装置22と、記憶装置23とを備える。また、記憶装置23には、話者モデル記憶領域233と、話者共起モデル記憶領域234とが含まれる。なお、本実施形態は、第1の実施形態における認識手段を、プログラムにより動作されるコンピュータにより実現した場合の構成例である。
音声データ解析用プログラム21−2は、データ処理装置22に読み込まれ、データ処理装置22の動作を制御する。なお、音声データ解析用プログラム21−2には、第1の実施形態における認識手段12の動作がプログラム言語を用いて記述されている。なお、第1の実施形態における認識手段12に限らず、第2〜第4の実施形態における認識手段(認識手段32、学習手段42または学習手段52)をプログラムにより動作されるコンピュータにより実現することも可能である。そのような場合には、音声データ解析用プログラム21−2には、第1〜第4の実施形態におけるいずれかの認識手段の動作がプログラム言語を用いて記述されていればよい。
すなわち、データ処理装置22は、音声データ解析用プログラム21−2の制御により、第1の実施形態におけるセッションマッチング手段107の処理か、第2の実施形態におけるセッションマッチング手段307の処理か、第3の実施形態におけるセッションマッチング手段407の処理か、または第4の実施形態におけるセッションマッチング手段507の処理と同一の処理を実行する。
データ処理装置22は、音声データ解析用プログラム21−2に従って処理を実行することによって、記憶装置23内の話者モデル記憶領域233、話者共起モデル記憶領域234にそれぞれ記録されている話者モデル、話者共起モデルを参照し、任意の音声データに対して話者認識または話者集合の認識を行う。なお、話者モデル記憶領域233、話者共起モデル記憶領域234には、同実施形態における学習手段もしくは上記音声データ解析用プログラム51−1によるデータ処理装置52の制御によって生成されるものと同等の話者モデル、話者共起モデルが予め記憶されているものとする。
以上のように、本実施形態の音声データ解析装置(話者/話者集合認識装置)によれば、話者モデルだけでなく、話者間の共起関係をモデル化(数式等で表現)した話者共起モデルを用いて、セッション全体の話者の共起の整合性を考慮して話者認識を行うので、話者を高精度に認識することができる。また、個々の話者以外に、話者の集合を認識することができる。なお、話者モデルおよび話者共起モデルが予め記憶されていることによりモデル化のための演算処理が省略できる点を除けば、第1〜第4の実施形態の効果と同様である。なお、第3の実施形態における認識手段を実現させる場合には、例えば別装置により実現した学習手段によって話者モデルおよび話者共起モデルが更新される毎に、記憶装置23の内容が更新されるように構成すればよい。
なお、第5の実施形態の音声データ解析用プログラム51−1と、第6の実施形態の音声データ解析用プログラム51−2とを結合した音声データ解析用プログラム51をデータ処理装置52に読み込ませることにより、1つのデータ処理装置52に、第1〜第4の実施形態における学習手段および認識手段の各処理をさせることも可能である。
次に、本発明の概要について説明する。図14は、本発明の概要を示すブロック図である。図14に示す音声データ解析装置は、話者モデル導出手段601と、話者共起モデル導出手段602と、モデル構造更新手段603とを備える。
話者モデル導出手段601(例えば、話者モデル学習手段102,302,402,502)は、複数の発話からなる音声データから、話者ごとの音声の性質を規定するモデルである話者モデルを導出する。なお音声データの少なくとも一部には、当該音声データに含まれる発話の話者を識別する話者ラベルが付与されているものとする。
話者モデル導出手段601は、例えば、話者モデルとして、話者ごとの音声特徴量の出現確率を規定する確率モデルを導出してもよい。確率モデルは、例えば、ガウス混合モデルまたは隠れマルコフモデルであってもよい。
話者共起モデル学習手段602(例えば、話者共起モデル学習手段104,304,404,504)は、話者モデル学習手段601が導出した話者モデルを用いて、音声データを一連の会話の単位で分割したセッションデータから、話者間の共起関係の強さを表すモデルである話者共起モデルを導出する。
話者共起モデル学習手段602は、例えば、話者共起モデルとして、共起関係の強い話者の集合すなわちクラスタの出現確率およびクラスタ内での話者の出現確率で規定されるマルコフネットワークを導出してもよい。
なお、話者モデル導出手段601と話者共起モデル学習手段602とは、それぞれ話者モデルおよび話者共起モデルを、音声データおよび音声データに含まれる発話に付与された話者ラベルに対する尤度最大化基準、事後確率最大化基準、ベイズ基準のいずれかの基準に基づいて、反復演算させることにより学習してもよい。
モデル構造更新手段603(例えば、モデル構造更新手段409)は、新たに追加された音声データのセッションを参照して、話者モデルまたは話者共起モデルにおいて話者またはその集合であるクラスタが変化する事象として予め定めておいた事象を検知し、そのような所定の事象が検知された場合に、話者モデルまたは話者共起モデルのうち少なくとも一方の構造を更新する。
話者またはその集合であるクラスタが変化する事象として、話者の発生、話者の消滅、クラスタの発生、クラスタの消滅、クラスタの分裂、クラスタの合併のいずれかが定められていてもよい。
モデル構造更新手段603は、例えば、話者またはその集合であるクラスタが変化する事象として、話者の発生が定められている場合に、新たに追加された音声データのセッション内の各発話について、発話に付与された話者を識別する情報である話者ラベルの推定結果のエントロピーが所定のしきい値よりも大きいときに、話者の発生を検知し、話者モデルに新規話者を規定するパラメータを追加してもよい。
モデル構造更新手段603は、例えば、話者またはその集合であるクラスタが変化する事象として、話者の消滅が定められている場合に、話者共起モデル内の話者の出現確率に対応するすべてのパラメータの値が所定のしきい値よりも小さいときに、話者の消滅を検知し、話者モデルの当該話者を規定するパラメータを削除してもよい。
モデル構造更新手段603は、例えば、話者またはその集合であるクラスタが変化する事象として、クラスタの発生が定められている場合に、新たに追加された音声データのセッションに関して、各クラスタに属する確率のエントロピーが所定のしきい値よりも大きいときに、クラスタの発生を検知し、話者共起モデルに新規クラスタを規定するパラメータを追加してもよい。
モデル構造更新手段603は、例えば、話者またはその集合であるクラスタが変化する事象として、クラスタの消滅が定められている場合に、話者共起モデル内のクラスタの出現確率に対応するパラメータの値が所定のしきい値よりも小さいときに、クラスタの消滅を検知し、話者共起モデルの当該クラスタを規定するパラメータを削除してもよい。
モデル構造更新手段603は、例えば、話者またはその集合であるクラスタが変化する事象として、クラスタの分裂が定められている場合に、直近に追加された所定個の音声データのセッションそれぞれについて、各クラスタに属する確率および話者の出現確率を計算し、さらに、それぞれのセッション対について、同一のクラスタに属する確率と、話者の出現確率の相違度を計算し、同一のクラスタに属する確率と相違度から定まる評価関数が所定のしきい値よりも大きいときに、クラスタの分裂を検知し、話者共起モデルの当該クラスタを規定するパラメータを分割してもよい。
モデル構造更新手段603は、例えば、話者またはその集合であるクラスタが変化する事象として、クラスタの合併が定められている場合に、話者共起モデルの話者の出現確率をクラスタ間で比較し、話者の出現確率の類似度が所定のしきい値よりも高いクラスタ対が存在するときに、クラスタの合併を検知し、話者共起モデルの当該クラスタ対を規定するパラメータを統合してもよい。
また、モデル構造更新手段603は、話者モデルまたは話者共起モデルの構造の更新の要否を、記述長最小(MDL)基準、赤池情報量基準(AIC)、ベイズ情報量基準(BIC)などといったモデル選択基準に基づいて決定してもよい。
また、図14は、本発明の音声データ解析装置の他の構成例を示すブロック図である。図14に示すように、音声データ解析装置は、さらに話者推定手段604を備えていてもよい。
話者推定手段604(例えば、話者分類手段304,404)は、話者モデル導出手段601または話者共起モデル導出手段602に入力される音声データに含まれる発話の話者が未知の場合、すなわち音声データ内に話者ラベルが付与されていない発話が存在する場合に、少なくともその時点において導出されている話者モデルまたは話者共起モデルを参照して、話者ラベルが付与されていない発話について話者ラベルを推定する。
このような構成の場合には、話者モデル導出手段601、話者共起モデル導出手段602および話者推定手段604を交互に反復動作させてもよい。
また、図15は、本発明の音声データ解析装置の他の構成例を示すブロック図である。図15に示すように、音声データ解析装置は、話者モデル記憶手段605と、話者共起モデル記憶手段606と、話者集合認識手段607とを備える構成であってもよい。
話者モデル記憶手段605(例えば、話者モデル記憶手段105,305,405,505)は、複数の発話からなる音声データから導出される、話者ごとの音声の性質を規定するモデルである話者モデルを記憶する。
話者共起モデル記憶手段605(例えば、話者共起モデル記憶手段106,306,406,506)は、音声データを一連の会話の単位で分割したセッションデータから導出される、話者間の共起関係の強さを表すモデルである話者共起モデルを記憶する。
話者集合認識手段607(例えば、セッションマッチング手段507)は、記憶されている話者モデルと話者共起モデルとを用いて、指定された音声データに含まれる各発話について、話者モデルとの整合性および音声データ全体における共起関係の整合性を算出し、指定された音声データがいずれのクラスタに該当するかを認識する。
話者集合認識手段607は、例えば、指定された音声データのセッションについて、各クラスタに該当する確率を算出し、算出した確率が最大となるクラスタを認識結果として選択してもよい。また、例えば、算出した確率が最大となるクラスタの確率が所定のしきい値に達しない場合に、該当するクラスタなしと判定してもよい。
なお、図16に示すように、記憶手段の代わりに話者モデル導出手段601と話者共起モデル導出手段602とモデル構造更新手段603と必要であれば話者推定手段604とを備え、1つの装置によりモデルの生成・更新から話者集合の認識までの動作を実現させることも可能である。なお、話者集合認識手段607に代わりまたは話者集合認識手段607とともに、指定された音声データに含まれる各発話の話者がいずれの話者かを認識する話者認識手段608を備えていてもよい。
話者認識手段608(例えば、セッションマッチング手段107,307,407)は、話者モデルと話者共起モデルとを用いて、指定された音声データに含まれる各発話について、話者モデルとの整合性および音声データ全体における共起関係の整合性を算出し、指定された音声データに含まれる各発話の話者がいずれの話者かを認識する。なお、上記第4の実施形態のように、話者集合認識手段607と話者集合認識手段608とを一つの話者・話者集合認識手段として実装することも可能である。
以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2009年11月25日に出願された日本特許出願2009−267770を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、多数の話者の音声を記録した人物データベースと入力音声とを照合する話者検索装置や話者照合装置といった用途に適用可能である。また、映像や音声からなるメディアデータのインデクシング・検索装置、あるいは、会議で出席者の発言を記録する会議録作成支援装置、会議支援装置といった用途にも適用可能である。また、話者間の関係性が経時変化を伴うような音声データの話者認識や話者集合そのものを認識する用途に好適に適用可能である。
11,31,41,51 学習手段
100,300,400,500 セッション音声データ記憶手段
101,301,401,501 セッション話者ラベル記憶手段
102,302,402,502 話者モデル学習手段
104,304,404,504 話者共起学習手段
105,305,405,505 話者モデル記憶手段
106,306,406,506 話者共起モデル記憶手段
303 話者分類手段
408 データ入力手段
409 モデル構造更新手段
12,32,42,52 認識手段
107,307,407,507 セッションマッチング手段
21,21−1,21−2 音声データ解析用プログラム
22 データ処理装置
23 記憶装置
231 セッション音声データ記憶領域
232 セッション話者ラベル記憶領域
233 話者モデル記憶領域
234 話者共起モデル記憶領域
601 話者モデル導出手段
602 話者共起モデル導出手段
603 モデル構造更新手段手段
604 話者推定手段
605 話者モデル記憶手段
606 話者共起モデル記憶手段
607 話者集合認識手段
608 話者認識手段

Claims (10)

  1. 複数の発話からなる音声データから、話者ごとの音声の性質を規定するモデルである話者モデルを導出する話者モデル導出手段と、
    前記話者モデル導出手段が導出した話者モデルを用いて、前記音声データを一連の会話の単位で分割したセッションデータから、前記話者間の共起関係の強さを表すモデルである話者共起モデルを導出する話者共起モデル導出手段と、
    新たに追加された音声データのセッションを参照して、前記話者モデルまたは前記話者共起モデルにおいて話者またはその集合であるクラスタが変化する事象として予め定めておいた事象を検知し、前記事象が検知された場合に、話者モデルまたは話者共起モデルのうち少なくとも一方の構造を更新するモデル構造更新手段とを備えた
    ことを特徴とする音声データ解析装置。
  2. 話者またはその集合であるクラスタが変化する事象として、話者の発生、話者の消滅、クラスタの発生、クラスタの消滅、クラスタの分裂、クラスタの合併のいずれかが定められている
    請求項1に記載の音声データ解析装置。
  3. 話者またはその集合であるクラスタが変化する事象として、少なくとも話者の発生または話者の消滅が定められ、
    モデル構造更新手段は、話者またはその集合であるクラスタが変化する事象として、話者の発生が定められている場合に、新たに追加された音声データのセッション内の各発話について、前記発話に付与された話者を識別する情報である話者ラベルの推定結果のエントロピーが所定のしきい値よりも大きいときに、話者の発生を検知し、話者モデルに新規話者を規定するパラメータを追加し、
    前記モデル構造更新手段は、話者またはその集合であるクラスタが変化する事象として、話者の消滅が定められている場合に、話者共起モデル内の話者の出現確率に対応するすべてのパラメータの値が所定のしきい値よりも小さいときに、話者の消滅を検知し、話者モデルの当該話者を規定するパラメータを削除する
    請求項1または請求項2に記載の音声データ解析装置。
  4. 話者またはその集合であるクラスタが変化する事象として、少なくともクラスタの発生、クラスタの消滅、クラスタの分裂、クラスタの合併のいずれかが定められ、
    モデル構造更新手段は、話者またはその集合であるクラスタが変化する事象として、クラスタの発生が定められている場合に、新たに追加された音声データのセッションに関して、各クラスタに属する確率のエントロピーが所定のしきい値よりも大きいときに、クラスタの発生を検知し、話者共起モデルに新規クラスタを規定するパラメータを追加し、
    前記モデル構造更新手段は、話者またはその集合であるクラスタが変化する事象として、クラスタの消滅が定められている場合に、話者共起モデル内のクラスタの出現確率に対応するパラメータの値が所定のしきい値よりも小さいときに、前記クラスタの消滅を検知し、話者共起モデルの当該クラスタを規定するパラメータを削除し、
    前記モデル構造更新手段は、話者またはその集合であるクラスタが変化する事象として、クラスタの分裂が定められている場合に、直近に追加された所定個の音声データのセッションそれぞれについて、各クラスタに属する確率および話者の出現確率を計算し、さらに、それぞれのセッション対について、同一のクラスタに属する確率と、前記話者の出現確率の相違度を計算し、前記同一のクラスタに属する確率と前記相違度から定まる評価関数が所定のしきい値よりも大きいときに、前記クラスタの分裂を検知し、話者共起モデルの当該クラスタを規定するパラメータを分割し、
    前記モデル構造更新手段は、話者またはその集合であるクラスタが変化する事象として、クラスタの合併が定められている場合に、話者共起モデルの話者の出現確率をクラスタ間で比較し、前記話者の出現確率の類似度が所定のしきい値よりも高いクラスタ対が存在するときに、前記クラスタの合併を検知し、話者共起モデルの当該クラスタ対を規定するパラメータを統合する
    請求項1または請求項2に記載の音声データ解析装置。
  5. 音声データに含まれる各発話の話者が未知の場合に、話者モデルと話者共起モデルとを参照して、各発話の話者を推定する話者推定手段を備えた
    請求項1から請求項4のうちのいずれか1項に記載の音声データ解析装置。
  6. 複数の発話からなる音声データから導出される、話者ごとの音声の性質を規定するモデルである話者モデルを記憶する話者モデル記憶手段と、
    前記音声データを一連の会話の単位で分割したセッションデータから導出される、前記話者間の共起関係を集約したモデルであって、前記話者間の共起関係をネットワークとした場合に特に共起関係の強いサブネットワークを形成する話者の集合であるクラスタの特徴を規定する確率モデルである話者共起モデルを記憶する話者共起モデル記憶手段と、
    前記話者モデルと前記話者共起モデルとを用いて、前記クラスタごとに指定された音声データが属する確率を求めることにより、指定された音声データがいずれのクラスタに該当するかを認識する話者集合認識手段を備えた
    ことを特徴とする音声データ解析装置。
  7. 複数の発話からなる音声データから、話者ごとの音声の性質を規定するモデルである話者モデルを導出し、
    導出された話者モデルを用いて、前記音声データを一連の会話の単位で分割したセッションデータから、前記話者間の共起関係の強さを表すモデルである話者共起モデルを導出し、
    新たに追加された音声データのセッションを参照して、前記話者モデルまたは前記話者共起モデルにおいて話者またはその集合であるクラスタが変化する事象として予め定めておいた事象を検知し、前記事象が検知された場合に、話者モデルまたは話者共起モデルのうち少なくとも一方の構造を更新する
    ことを特徴とする音声データ解析方法。
  8. 複数の発話からなる音声データから導出される、話者ごとの音声の性質を規定するモデルである話者モデルと、前記音声データを一連の会話の単位で分割したセッションデータから導出される、前記話者間の共起関係を集約したモデルであって、前記話者間の共起関係をネットワークとした場合に特に共起関係の強いサブネットワークを形成する話者の集合であるクラスタの特徴を規定する確率モデルである話者共起モデルとを用いて、前記クラスタごとに指定された音声データが属する確率を求めることにより、指定された音声データがいずれのクラスタに該当するかを認識する
    ことを特徴とする音声データ解析方法。
  9. コンピュータに、
    複数の発話からなる音声データから、話者ごとの音声の性質を規定するモデルである話者モデルを導出する処理、
    導出される前記話者モデルを用いて、前記音声データを一連の会話の単位で分割したセッションデータから、前記話者間の共起関係の強さを表すモデルである話者共起モデルを導出する処理、および
    新たに追加された音声データのセッションを参照して、前記話者モデルまたは前記話者共起モデルにおいて話者またはその集合であるクラスタが変化する事象として予め定めておいた事象を検知し、前記事象が検知された場合に、話者モデルまたは話者共起モデルのうち少なくとも一方の構造を更新する処理
    を実行させるための音声データ解析用プログラム。
  10. コンピュータに、
    複数の発話からなる音声データから導出される、話者ごとの音声の性質を規定するモデルである話者モデルと、前記音声データを一連の会話の単位で分割したセッションデータから導出される、前記話者間の共起関係を集約したモデルであって、前記話者間の共起関係をネットワークとした場合に特に共起関係の強いサブネットワークを形成する話者の集合であるクラスタの特徴を規定する確率モデルである話者共起モデルとを用いて、前記クラスタごとに指定された音声データが属する確率を求めることにより、指定された音声データがいずれのクラスタに該当するかを認識する処理
    を実行させるための音声データ解析用プログラム。
JP2011543085A 2009-11-25 2010-10-21 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム Active JP5644772B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011543085A JP5644772B2 (ja) 2009-11-25 2010-10-21 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009267770 2009-11-25
JP2009267770 2009-11-25
JP2011543085A JP5644772B2 (ja) 2009-11-25 2010-10-21 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
PCT/JP2010/006239 WO2011064938A1 (ja) 2009-11-25 2010-10-21 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム

Publications (2)

Publication Number Publication Date
JPWO2011064938A1 JPWO2011064938A1 (ja) 2013-04-11
JP5644772B2 true JP5644772B2 (ja) 2014-12-24

Family

ID=44066054

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011543085A Active JP5644772B2 (ja) 2009-11-25 2010-10-21 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム

Country Status (3)

Country Link
US (1) US20120239400A1 (ja)
JP (1) JP5644772B2 (ja)
WO (1) WO2011064938A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7460308B2 (ja) 2021-09-16 2024-04-02 敏也 川北 バドミントン練習用手首関節固定具

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5250576B2 (ja) * 2010-02-25 2013-07-31 日本電信電話株式会社 ユーザ判定装置、方法、プログラム及びコンテンツ配信システム
US9837078B2 (en) * 2012-11-09 2017-12-05 Mattersight Corporation Methods and apparatus for identifying fraudulent callers
JP6596924B2 (ja) * 2014-05-29 2019-10-30 日本電気株式会社 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム
US9257120B1 (en) * 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
JP6303971B2 (ja) * 2014-10-17 2018-04-04 富士通株式会社 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム
WO2016095218A1 (en) * 2014-12-19 2016-06-23 Dolby Laboratories Licensing Corporation Speaker identification using spatial information
US9817817B2 (en) 2016-03-17 2017-11-14 International Business Machines Corporation Detection and labeling of conversational actions
US10789534B2 (en) 2016-07-29 2020-09-29 International Business Machines Corporation Measuring mutual understanding in human-computer conversation
KR20180082033A (ko) * 2017-01-09 2018-07-18 삼성전자주식회사 음성을 인식하는 전자 장치
US10403287B2 (en) * 2017-01-19 2019-09-03 International Business Machines Corporation Managing users within a group that share a single teleconferencing device
BR112020009783A2 (pt) * 2017-11-17 2020-11-03 Nissan Motor Co., Ltd. dispositivo de assistência à operação do veículo
KR102598057B1 (ko) * 2018-09-10 2023-11-06 삼성전자주식회사 음소기반 화자모델 적응 방법 및 장치
JP7376985B2 (ja) * 2018-10-24 2023-11-09 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理方法、情報処理装置、及び、プログラム
SG10201809737UA (en) * 2018-11-01 2020-06-29 Rakuten Inc Information processing device, information processing method, and program
CN110197665B (zh) * 2019-06-25 2021-07-09 广东工业大学 一种用于公安刑侦监听的语音分离与跟踪方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002051300A (ja) * 2000-05-25 2002-02-15 Fujitsu Ltd 放送受信機,放送制御方法,コンピュータ読み取り可能な記録媒体,及びコンピュータプログラム
JP2003529136A (ja) * 1999-12-01 2003-09-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オブジェクト追跡によるプログラム分類方法
WO2006028116A1 (ja) * 2004-09-09 2006-03-16 Pioneer Corporation 登場物推定装置及び方法、並びにコンピュータプログラム
JP2007233149A (ja) * 2006-03-02 2007-09-13 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5655058A (en) * 1994-04-12 1997-08-05 Xerox Corporation Segmentation of audio data for indexing of conversational speech for real-time or postprocessing applications
US6556969B1 (en) * 1999-09-30 2003-04-29 Conexant Systems, Inc. Low complexity speaker verification using simplified hidden markov models with universal cohort models and automatic score thresholding
CN101661754B (zh) * 2003-10-03 2012-07-11 旭化成株式会社 数据处理单元和数据处理单元控制方法
WO2006069381A2 (en) * 2004-12-22 2006-06-29 Enterprise Integration Group Turn-taking confidence
US7490043B2 (en) * 2005-02-07 2009-02-10 Hitachi, Ltd. System and method for speaker verification using short utterance enrollments
US8972549B2 (en) * 2005-06-10 2015-03-03 Adaptive Spectrum And Signal Alignment, Inc. User-preference-based DSL system
US7822605B2 (en) * 2006-10-19 2010-10-26 Nice Systems Ltd. Method and apparatus for large population speaker identification in telephone interactions
JP4812029B2 (ja) * 2007-03-16 2011-11-09 富士通株式会社 音声認識システム、および、音声認識プログラム
WO2008117626A1 (ja) * 2007-03-27 2008-10-02 Nec Corporation 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム
JP2009237285A (ja) * 2008-03-27 2009-10-15 Toshiba Corp 人物名付与装置および方法
US8965765B2 (en) * 2008-09-19 2015-02-24 Microsoft Corporation Structured models of repetition for speech recognition
US8301443B2 (en) * 2008-11-21 2012-10-30 International Business Machines Corporation Identifying and generating audio cohorts based on audio data input
US20100131502A1 (en) * 2008-11-25 2010-05-27 Fordham Bradley S Cohort group generation and automatic updating

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003529136A (ja) * 1999-12-01 2003-09-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オブジェクト追跡によるプログラム分類方法
JP2002051300A (ja) * 2000-05-25 2002-02-15 Fujitsu Ltd 放送受信機,放送制御方法,コンピュータ読み取り可能な記録媒体,及びコンピュータプログラム
WO2006028116A1 (ja) * 2004-09-09 2006-03-16 Pioneer Corporation 登場物推定装置及び方法、並びにコンピュータプログラム
JP2007233149A (ja) * 2006-03-02 2007-09-13 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6011000005; 村井則之 他: '"話者性と発話交代を考慮した複数話者対話音声の認識"' 電子情報通信学会論文誌D-II Vol.J83-D-II,No.11, 20001125, p.2465-2472 *
JPN6011000008; Daben Liu et al.: '"Online Speaker Clustering"' Proc. of IEEE ICASSP'04 Vol.1, 20040517, p.I-333-I-336 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7460308B2 (ja) 2021-09-16 2024-04-02 敏也 川北 バドミントン練習用手首関節固定具

Also Published As

Publication number Publication date
JPWO2011064938A1 (ja) 2013-04-11
US20120239400A1 (en) 2012-09-20
WO2011064938A1 (ja) 2011-06-03

Similar Documents

Publication Publication Date Title
JP5644772B2 (ja) 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
US20210183395A1 (en) Method and system for automatically diarising a sound recording
CN111261146B (zh) 语音识别及模型训练方法、装置和计算机可读存储介质
JP3584458B2 (ja) パターン認識装置およびパターン認識方法
Heittola et al. Supervised model training for overlapping sound events based on unsupervised source separation
US20110224978A1 (en) Information processing device, information processing method and program
Wyatt et al. Conversation detection and speaker segmentation in privacy-sensitive situated speech data.
JP5704071B2 (ja) 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
CN113628612A (zh) 语音识别方法、装置、电子设备及计算机可读存储介质
KR102406512B1 (ko) 음성인식 방법 및 그 장치
US10699224B2 (en) Conversation member optimization apparatus, conversation member optimization method, and program
Khan et al. Infrastructure-less occupancy detection and semantic localization in smart environments
JP6784255B2 (ja) 音声処理装置、音声処理システム、音声処理方法、およびプログラム
Richiardi et al. Confidence and reliability measures in speaker verification
JP2000259198A (ja) パターン認識装置および方法、並びに提供媒体
JP7377736B2 (ja) オンライン話者逐次区別方法、オンライン話者逐次区別装置及びオンライン話者逐次区別システム
Pan et al. Fusing audio and visual features of speech
Madhusudhana Rao et al. Machine hearing system for teleconference authentication with effective speech analysis
Fabien et al. Graph2Speak: Improving Speaker Identification using Network Knowledge in Criminal Conversational Data
Naga Sai Manish et al. Spoken Keyword Detection in Speech Processing using Error Rate Estimations.
CN117457005A (zh) 一种基于动量对比学习的声纹识别方法和设备
JPH10149190A (ja) 音声認識方法及び音声認識装置
Kumar et al. On the Soft Fusion of Probability Mass Functions for Multimodal Speech Processing
Kumar et al. Research Article On the Soft Fusion of Probability Mass Functions for Multimodal Speech Processing
Sharma et al. Crypto Fuzzy Logic Based Audio Surveillance System

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130904

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140610

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140805

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141007

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141020

R150 Certificate of patent or registration of utility model

Ref document number: 5644772

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150