JP7471139B2 - 話者ダイアライゼーション装置、及び話者ダイアライゼーション方法 - Google Patents

話者ダイアライゼーション装置、及び話者ダイアライゼーション方法 Download PDF

Info

Publication number
JP7471139B2
JP7471139B2 JP2020079958A JP2020079958A JP7471139B2 JP 7471139 B2 JP7471139 B2 JP 7471139B2 JP 2020079958 A JP2020079958 A JP 2020079958A JP 2020079958 A JP2020079958 A JP 2020079958A JP 7471139 B2 JP7471139 B2 JP 7471139B2
Authority
JP
Japan
Prior art keywords
speaker diarization
feature
unit
clustering
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020079958A
Other languages
English (en)
Other versions
JP2021173952A (ja
Inventor
翔太 堀口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020079958A priority Critical patent/JP7471139B2/ja
Priority to PCT/JP2021/015202 priority patent/WO2021220789A1/ja
Publication of JP2021173952A publication Critical patent/JP2021173952A/ja
Application granted granted Critical
Publication of JP7471139B2 publication Critical patent/JP7471139B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、話者ダイアライゼーション装置、及び話者ダイアライゼーション方法に関する。
特許文献1には、最適なダイアライゼーションの実行等を目的として構成された信号分析装置について記載されている。信号分析装置は、複数の音源位置候補についての時間区間であるフレーム毎の各音源位置候補から信号が到来する確率からなる音源位置生起確率行列Qを、複数の音源についての音源毎の各音源位置候補から信号が到来する確率からなる音源位置確率行列Bと、フレーム毎の各音源からの信号の存在確率からなる音源存在確率行列Aと、の積でモデル化し、このモデル化に基づき、音源位置確率行列B及び音源存在確率行列Aの少なくとも一方を推定する。
非特許文献1には、話者ダイアライゼーションを行う手法について記載されている。この手法は、モノラルマイクで収録した音声における音声区間を細かいセグメントに分割し、各セグメントから話者性を含む特徴量を抽出し、この特徴量をクラスタリングし、クラスタリングの結果から話者ダイアライゼーションを行う。
特開2019-184747号公報
特許文献1では、予め定められた位置に配置されたマイクロフォン(以下、「マイク」と称する。)を用いて収録された音声から音源の方向を推定し、異なる方向から到来した音声は異なる話者であるとして話者ダイアライゼーション(Speaker diarisation)を行
う。しかし特許文献1では、話者ダイアライゼーションに際し、マイクの配置が既知であることを利用し、実測データを用いて事前に準備された音源位置候補毎の周波数ビンに対する特徴ベクトルの確率分布を用いている。そのため、マイクの配置が未知であり確率分布のような学習データが存在しない場合は話者ダイアライゼーションを行うことができない。
また、非特許文献1では、1つのモノラルマイクを用いるため、音声区間を分割して得られる各セグメントがいずれかの話者に割り当てられることになる。そのため、例えば、複数の話者が同時に発話した場合、どの話者をそのセグメントに割り当てるべきか判定することができない。さらに、全ての話者の音声が1つのモノラルマイクで収録されるため、全ての話者がモノラルマイクの近くで発話する必要もある。
本発明はこうした背景に鑑みてなされたものであり、複数の話者が同時に発話する場合でも精度よく話者ダイアライゼーションを行うことが可能な、話者ダイアライゼーション装置及び話者ダイアライゼーション方法を提供することを目的とする。
上記目的を達成するための本発明の一つは、話者ダイアライゼーション装置であって、情報処理装置を用いて構成され、複数の音声信号の入力部の夫々から取得される複数の信号を、夫々、所定時間幅の複数のセグメントに分割する信号分割部と、前記セグメントの夫々から特徴量を抽出する特徴量抽出部と、前記複数の信号の夫々のセグメントから抽出された前記特徴量を一括してクラスタリングするクラスタリング部と、前記クラスタリングの結果に基づき話者ダイアライゼーションを行う話者ダイアライゼーション部と、を備え、前記特徴量抽出部によって抽出された前記特徴量の中から、前記クラスタリングの対象とする前記特徴量を選択する特徴量選択部をさらに備え、前記クラスタリング部は、選択された前記特徴量をクラスタリングする
その他、本願が開示する課題、及びその解決方法は、発明を実施するための形態の欄、及び図面により明らかにされる。
本発明によれば、複数の話者が同時に発話するような場合であっても、精度よく話者ダイアライゼーションを行うことができる。
第1実施形態の話者ダイアライゼーション装置のハードウェア構成図である。 話者ダイアライゼーション実行部の詳細を説明する図である。 クラスタリングの結果と話者ダイアライゼーションの結果を説明する模式図である。 話者ダイアライゼーション処理を説明するフローチャートである。 第2実施形態の話者ダイアライゼーション実行部の詳細を説明する図である。 話者ダイアライゼーション処理を説明するフローチャートである。 話者ダイアライゼーション実行部の変形例を示す図である。 話者ダイアライゼーション処理を説明するフローチャートである。 第3実施形態の話者ダイアライゼーション実行部の詳細を説明する図である。 話者とマイクの配置例を示す図である。 特徴量空間における特徴量の分布を説明する模式図である。 クラスタリングの結果を説明する模式図である。 話者ダイアライゼーション処理を説明するフローチャートである。
以下、実施形態について、図面を用いて詳細に説明する。但し、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。
以下に説明する発明の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、重複する説明は省略することがある。また、同一あるいは同様な機能を有する要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。但し、複数の要素を区別する必要がない場合には、添字を省略して説明する場合がある。また、本明細書等における「第1」、「第2」、「第3」などの表記は、構成要素を識別するために付するものであり、必ずしも、数、順序、もしくはその内容を限定するものではない。また、構成要素の識別のための番号は文脈毎に用いられ、一つの文脈で用いた番号が、他の文脈で必ずしも同一の構成を示すとは限らない。また、ある番号で識別された構成要素が、他の番号で識別された構成要素の機能を兼ねることを妨
げるものではない。以下の説明において、符号の前に付した「S」の文字は処理ステップの意味である。
[第1実施形態]
図1に、第1実施形態として説明する、話者ダイアライゼーション(Speaker diarisation)を行う装置(以下、「話者ダイアライゼーション装置1」と称する。)のハードウ
ェア構成を示している。話者ダイアライゼーション装置1は、情報処理装置(コンピュータ)であり、プロセッサ11、ROM12(ROM:Read Only Memory)、RAM13(RAM:Random Access Memory)、2つの信号入力装置14a,14bを備える。これらはバス10等を通して互いに通信可能に接続されている。尚、例示する話者ダイアライゼーション装置1は、2つの信号入力装置14a,14bを備えるが、話者ダイアライゼーション装置1は、3つ以上の信号入力装置を備えていてもよい。信号入力装置14a,14bは、マイクロフォン(以下、「マイク」と称する。)等の音声入力装置でもよいし、残響除去や音源分離等が行われた後の音声信号を出力する装置でもよい。RAM13には、話者ダイアライゼーション装置1の機能(以下、「話者ダイアライゼーション実行部131」と称する。)を実現するためのプログラムが格納されている。
話者ダイアライゼーション装置1は、通信可能に接続された複数の情報処理装置を用いて構成してもよい。また、話者ダイアライゼーション装置1は、その全部または一部を、例えば、クラウドシステムによって提供される仮想サーバのように、仮想化技術やプロセス空間分離技術等を用いて提供される仮想的な情報処理資源を用いて実現してもよい。また、話者ダイアライゼーション装置1によって提供される機能の全部または一部を、例えば、クラウドシステムがAPI(Application Programming Interface)等を介して提供
するサービスによって実現してもよい。また、話者ダイアライゼーション装置1が備える話者ダイアライゼーション実行部131等の機能は、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)、AI(Artificial Intelligence)チップ等のハードウェアによっ
て実現してもよい。
図2は、話者ダイアライゼーション実行部131の詳細を説明する図である。同図に示すように、話者ダイアライゼーション実行部131は、信号入力部1001a,1001b、信号分割部1002a,1002b、特徴量抽出部1003a,1003b、クラスタリング部1007、話者ダイアライゼーション部1008の各機能を含む。
信号入力部1001aには、信号入力装置14aから信号が入力される。また、信号入力部1001bには、信号入力装置14bから信号が入力される。尚、信号入力装置14aから信号が入力される信号について、信号入力部1001a、信号分割部1002a、及び特徴量抽出部1003aが行う処理と、信号入力装置14bから信号が入力される信号について、信号入力部1001b、信号分割部1002b、及び特徴量抽出部1003bが行う処理は基本的に同様であるので、以下では、とくに必要でない限り、前者についてのみ説明し、後者については説明を省略する。また、とくに区別する必要がない限り、これらを区別するための添え字(「a」、「b」)の記載を省略する。尚、本実施形態では、話者ダイアライゼーション装置1が2つの信号入力装置14を備える場合について説明するが、信号入力部1001、信号分割部1002、及び特徴量抽出部1003の組は、信号入力装置14の数に応じて設けられる。
信号入力部1001は、信号入力装置14から入力される信号(以下、「入力信号」と称する。)を取得する。入力信号は、例えば、不図示のAD変換部によってアナログ値からデジタル値に変換されている。また、入力信号は、信号入力装置14がマイクの場合には単に収録された音声信号となる。入力信号は、例えば、予め残響除去や音声強調、音源
分離が行われた後の音声信号でもよい。信号入力部1001が信号入力装置14から取得した信号xmは、例えば、以下のように表記することができる。
ここで、mは信号入力装置の数を示し、tは時刻を示している。2つの信号入力装置14a,14bの夫々に入力される信号は、必ずしも開始時刻tm,start及び終了時刻tm,endが同じである必要はない。つまり、信号入力装置14a,14bの夫々の開始時刻tm,start及び終了時刻tm,endは異なっていてもよい。
信号分割部1002は、信号入力部1001から取得した信号を、所定時間幅を有する複数のセグメントに分割する。セグメントsにおける信号入力装置14から取得した信号は、以下のように表記することができる。
ここで、各セグメントsの開始時刻ts,start及び終了時刻ts,endは、信号入力装置14に依存しない変数として定められる。また、セグメントsの時間幅は、以下のように表記される。
セグメントsの時間幅は、例えば、1.5秒程度に定められるが、これに限定されない。例えば、セグメントsの時間幅として1.5秒よりも長い時間幅を採用すれば、後段の特徴量抽出部1003において話者性を表す特徴量を抽出する際により多くの信号を用いることができ、特徴量の信頼性を向上させることができる。また、セグメントsの時間幅として1.5秒よりも短い時間幅を採用すれば、話者ダイアライゼーションを行う時間単位が短くなり、後段の話者ダイアライゼーション部1008において粒度の高い話者ダイアライゼーションを実現することができる。
また、各セグメントsは、上記のように同一の時間幅で単に分割されることに限定されず、隣り合うセグメントs同士の一部が重複するようにしてもよい。例えば、隣り合うセグメントs同士の重複する時間幅をセグメントs自体の時間幅よりも短く設定すれば,話者性を表す特徴量の信頼性を損なうことなく、粒度の高い話者ダイアライゼーションを実現することができる。
特徴量抽出部1003は、信号分割部1002で得られた各セグメントsから話者性を表す特徴量を抽出する。特徴量抽出部1003が抽出する話者性を表す特徴量として、例えば、基本周波数やフォルマント周波数を要素に持つベクトル、GMM(Gaussian Mixture Model)スーパーベクトル、HMM(Hidden Markov Model)スーパーベクトル、i-vector、d-vector、x-vectorや、これらを組み合わせたもの等がある。
2つの信号入力装置14a,14bが、例えば、部屋の中に分散して配置されるマイクである場合、例えば、スマートスピーカのように各マイクが数センチメートル程度しか離れていないようなマイクアレイとは異なり、夫々のマイクによって同一の発話が大きく異なる音圧で収録され得る。つまり、発話が話者に近い側のマイクで収録された場合には音圧が大きく、話者から遠い側のマイクで収録された場合には音圧が小さく収録される。そこで、マイクと話者との相対的位置を表す特徴量として、マイクで収録された音圧を並べたベクトルや、それを主成分分析などによって次元削減したベクトルなどを用いてもよい
。また、話者性を表す特徴量と、マイク及び話者の相対的位置を表す特徴量とを連結した特徴量等を用いてもよい。このようにして特徴量抽出部1003によって抽出された特徴量vm,sは、以下のように表記することができる。
ここでSmは、信号入力装置14の収録区間に含まれるセグメントsの集合である。
クラスタリング部1007は、特徴量抽出部1003a,1003bの夫々によって抽出された特徴量を一括してクラスタリングする。つまり、信号入力装置14a,14bが、例えば、マイクである場合、その集合をMとして、次式で表されるベクトルを一度にクラスタリングする。
上記のクラスタリングの手法は必ずしも限定されないが、例えば、K-meansクラスタリ
ング、Mean-shiftクラスタリング、凝集型階層的クラスタリング等を用いることができる。
図3は、信号入力装置14として3つのマイク1~3が用意され、2人の話者A,Bが発話する場合における、話者ダイアライゼーション装置1によるクラスタリングの結果と話者ダイアライゼーションの結果を模式的に示した図である。
同図左側に示すように、マイク1~3によって収録された音声は、クラスタA(斜線で示す領域)とクラスタB(ドットで示す領域)の2つにクラスタリングされる。ここでクラスタリング部1007は、3つのマイク1~3を通して収録された音声から抽出された特徴量を一括してクラスタリングするため、話者の音声はいずれかのマイクによって十分大きな音圧で収録されていればよく、1つのマイクを用いる場合に比べて、より広い空間での話者ダイアライゼーションが可能となる。また、特徴量を一括してクラスタリングすることで、同一時刻に異なるマイクを通して取得された各セグメントsに別のクラスタを割り当てることができ、発話のオーバーラップを考慮した話者ダイアライゼーションが可能になる。
話者ダイアライゼーション部1008は、クラスタリング部1007によってクラスタリングされた結果に基づき話者ダイアライゼーションを行う。クラスタリング部1007によるクラスタリングの結果を用いることで、話者ダイアライゼーションの結果Dは、以下の式から求めることができる。
ここでΩcはクラスタcに属する特徴量の集合、Sはセグメント数、Cはクラスタ数(話者数)である。以上のようにして、同図右側に示すように話者ダイアライゼーションが行われる。
図4は、話者ダイアライゼーション装置1が行う処理(以下、「話者ダイアライゼーション処理S2000」と称する。)を説明するフローチャートである。以下、同図とともに話者ダイアライゼーション処理S2000について説明する。
まず信号入力部1001が、信号入力装置14から取得した入力信号を信号分割部1002に入力し、信号分割部1002が入力信号を所定時間幅の複数のセグメントに分割する(S2001)。
続いて、信号分割部1002が、分割した複数のセグメントを特徴量抽出部1003に入力し、特徴量抽出部1003が複数のセグメントの夫々から特徴量を抽出し、抽出した特徴量をクラスタリング部1007に入力する(S2002)。
続いて、クラスタリング部1007は、特徴量抽出部1003(1003a,1003b)の夫々から入力された特徴量を一括してクラスタリングし、その結果を話者ダイアライゼーション部1008に入力する(S2003)。
続いて、話者ダイアライゼーション部1008が、入力されたクラスタリングの結果に基づき話者ダイアライゼーションを行う(S2004)。以上で話者ダイアライゼーション処理S2000は終了する。
以上に説明したように、本実施形態の話者ダイアライゼーション装置1によれば、複数の話者が同時に発話する場合でも、精度よく話者ダイアライゼーションを行うことができる。
[第2実施形態]
第2実施形態の話者ダイアライゼーション装置1は、信号入力部1001が、取得した入力信号を信号分割部1002に入力する前に音声区間を検出する機能を有する点で第1実施形態の話者ダイアライゼーション装置1と異なる。第2実施形態の話者ダイアライゼーション装置1のその他の構成については、基本的に第1実施形態と同様である。以下、第1実施形態と相違する点を中心に説明する。
図5は、第2実施形態として示す話者ダイアライゼーション装置1の話者ダイアライゼーション実行部131の詳細を説明する図である。同図に示すように、第2実施形態の話者ダイアライゼーション実行部131は、信号入力部1001と信号分割部1002との間に音声区間検出部1005が介在する構成を有する点で第1実施形態の話者ダイアライゼーション実行部131と異なる。
音声区間検出部1005は、信号入力部1001から入力される入力信号について音声区間を検出し、検出した音声区間の信号を信号分割部1002に出力する。音声区間検出部1005は、例えば、信号入力部1001から入力される入力信号について、音圧が所定の閾値を超える区間を音声区間として検出する。また、音声区間検出部1005は、例えば、DNN(Deep Neural Network)等の手法を用いて学習した機械学習モデル(音声
区間検出器)に入力信号を入力することにより音声区間を検出する。
信号分割部1002は、音声区間検出部1005から入力された信号を対象として当該音声区間を複数のセグメントに分割し、得られたセグメントを特徴量抽出部1003に入力し、特徴量抽出部1003は、入力されたセグメントから特徴量を抽出する。
図6は、第2実施形態の話者ダイアライゼーション装置1が行う処理(以下、「話者ダ
イアライゼーション処理S2100」と称する。)を説明するフローチャートである。以下、同図とともに話者ダイアライゼーション処理S2100について説明する。
まず信号入力部1001が、信号入力装置14から取得した入力信号を音声区間検出部1005に入力し、音声区間検出部1005が入力信号から音声区間を検出し、検出した音声区間の信号を信号分割部1002に入力する(S2101)。
続いて、信号分割部1002が、音声区間検出部1005から入力された信号を対象として当該音声区間を複数のセグメントに分割し、得られたセグメントを特徴量抽出部1003に入力する(S2102)。
続いて、特徴量抽出部1003は、入力されたセグメントから特徴量を抽出し、抽出した特徴量をクラスタリング部1007に入力する(S2103)。
続くS2104~S2105の処理は、図4のS2003~S2004の処理と同様であるので説明を省略する。
尚、以上では、図5に示すように、音声区間検出部1005を、信号入力部1001と信号分割部1002の間に介在させているが、音声区間検出部1005は、他の態様で実装することもできる。
例えば、図7に示すように、音声区間検出部1005は、信号分割部1002と特徴量抽出部1003との間、即ち信号分割部1002の後段に介在させてもよい。この場合、音声区間検出部1005は、信号分割部1002で分割された複数のセグメントから音声区間を検出する。音声区間検出部1005は、検出された音声区間の信号を特徴量抽出部1003に入力する。特徴量抽出部1003は、音声区間検出部1005から取得した音声区間を含むセグメントから特徴量を抽出してクラスタリング部1007に入力する。クラスタリング部1007は、特徴量抽出部1003a,1003bから入力される特徴量を一括してクラスタリングし、その結果を話者ダイアライゼーション部1008に入力する。話者ダイアライゼーション部1008は、入力されるクラスタリングの結果に基づき話者ダイアライゼーションを行う。
図8は、図7に示した話者ダイアライゼーション実行部131が行う処理(以下、「話者ダイアライゼーション処理S2200」と称する。)を説明するフローチャートである。以下、同図とともに話者ダイアライゼーション処理S2200について説明する。
まずS2201の処理は、図4に示した第1実施形態の話者ダイアライゼーション処理S2200のS2001と同様であり、信号分割部1002は、信号入力部1001で取得した信号を複数のセグメントに分割し、分割した複数のセグメントを音声区間検出部1005に入力する。
続いて、音声区間検出部1005が、信号分割部1002から入力される複数のセグメントの中から音声区間を含むセグメントを検出し、検出された音声区間を含むセグメントを特徴量抽出部1003に出力する(S2202)。
続いて、特徴量抽出部1003が、音声区間検出部1005から入力される音声区間を含んだセグメントから特徴量を抽出し、抽出した特徴量をクラスタリング部1007に入力する(S2203)。
続くS2204~S2205の処理は、図6のS2104~S2105と同様である。
以上のように、第2実施形態の話者ダイアライゼーション装置1は、信号入力部1001で取得した信号から音声区間を検出し、検出した音声区間を対象として特徴量を抽出する。そのため、非音声区間が特徴量の抽出対象から除外され、クラスタリングを短い時間で効率よく行うことができる。また、無音区間やノイズ区間といった非音声区間が特徴量の抽出対象から除外され、話者ダイアライゼーションの精度を向上することができる。
[第3実施形態]
第1実施形態及び第2実施形態における話者ダイアライゼーション装置1は、いずれも特徴量抽出部1003によって抽出された全ての特徴量を一括してクラスタリングし、クラスタリングの結果に基づき話者ダイアライゼーションを行う。これに対し第3実施形態の話者ダイアライゼーション装置1は、特徴量抽出部1003によって抽出された特徴量の中からクラスタリングに用いる特徴量を選択し、選択した特徴量を用いてクラスタリングを行う。以下、第3実施形態の話者ダイアライゼーション装置1について、第1実施形態の話者ダイアライゼーション装置1と相違する点を中心として説明する。尚、第3実施形態の話者ダイアライゼーション装置1は、第2実施形態の話者ダイアライゼーション装置1の構成を備えていてもよい。
図9は、第3実施形態の話者ダイアライゼーション実行部131の詳細を説明する図である。同図に示すように、第3実施形態の話者ダイアライゼーション実行部131は、特徴量抽出部1003とクラスタリング部1007との間、即ちクラスタリング部1007の前段に特徴量選択部1006が介在する点で第1実施形態と構成が異なる。
特徴量選択部1006は、特徴量抽出部1003a,1003bによって抽出された特徴量の中から、クラスタリングに用いる特徴量を選択する。クラスタリング部1007は、特徴量選択部1006によって選択された特徴量を用いてクラスタリングを行う。特徴量選択部1006は、例えば、次のようにして特徴量を選択する。
図10は、特徴量選択部1006が特徴量を選択する方法を説明する図であり、2人の話者A、Bと、3つのマイク(1)~(3)を配置した例である。マイク(1)~(3)は、話者Aと話者Bの間の空間に配置されている。マイク(1)は、話者Aに最も近い位置に配置され、マイク(3)は、話者Bに最も近い位置に配置され、マイク(2)は、マイク(1)とマイク(3)の間の空間に配置されている。
図10の配置において、話者Aと話者Bが同時に発話する場合を考える。この場合、マイク(1)では話者Aの音声の方が話者Bの音声よりも大きい音圧で収録され、マイク(3)では話者Bの音声の方が話者Aの音声よりも大きい音圧で収録されることが期待される。
図11は、特徴量空間における特徴量の分布を説明する模式図である。マイク(1)~(3)で収録された音声から抽出された話者を表す特徴量を夫々、特徴量(1)~(3)とすれば、特徴量(1)~(3)は、特徴量空間において話者Aと話者Bの音声の混合割合に応じて実質的に一列に並ぶことが期待される。これらの特徴量は、マイクの数が増加するほどこの列に密に並ぶことになるが、これら全ての特徴量を用いてクラスタリングを行うとクラスタリングに悪影響を及ぼす可能性がある。即ち、例えば、話者Aのクラスタの中心は特徴量(1)の付近に存在し、話者Bのクラスタの中心は特徴量(3)の付近に存在するが、特徴量(2)についてもクラスタリングに用いると、クラスタの中心が特徴量(2)方向に移動してしまうことになる。そこで、本実施形態では、クラスタリングに用いる特徴量を適切に選択することで、この問題の解決を図る。
まず信号入力部1001で取得した信号で、セグメントsにおける特徴量の集合Vsは次式で表される。
この集合の要素数が信号入力部1001で取得した信号に含まれる話者数よりも多い場合、その中から話者数(Cで表記する)の特徴量を選択する。特徴量の選択は、例えば、次式に従って行う。
ここで、dist(vi,vj)は特徴量同士の距離を表す関数であり、例えば、ユークリッド距離などを用いることができる。
図11の例では、話者ダイアライゼーション実行部131は、特徴量抽出部1003で抽出された特徴量のうち、最も離れた2つの特徴量を選択してクラスタリングを行う。即ち、話者ダイアライゼーション実行部131は、特徴量空間における差が最大となる特徴量(1)と特徴量(3)の組を選択し、選択した特徴量の組に基づきクラスタリングを行う。これにより各話者A、Bの音声が支配的に収録されているセグメントから抽出された特徴量のみを用いてクラスタリングが行われることになる。
図12は、第3実施形態の話者ダイアライゼーション装置によるクラスタリング結果の一例を示す模式図である。同図において、斜線で示す領域は話者Aの特徴量をグループ化したクラスタであり、ドットで示す領域は話者Bの特徴量をグループ化したクラスタである。黒塗りで示す領域はクラスタリングに用いられない領域である。
図13は、第3実施形態の話者ダイアライゼーション装置が行う話者ダイアライゼーション処理S2300を説明するフローチャートである。以下、同図とともに話者ダイアライゼーション処理S2300について説明する。
まず同図におけるS2301~S2302までの処理は、図4に示した話者ダイアライゼーション処理S2000におけるS2001~S2002までの処理と同様であるので説明を省略する。尚、S2302では、特徴量抽出部1003が複数のセグメントの夫々から特徴量を抽出し、抽出した特徴量を特徴量選択部1006に入力する。
続くS2303では、特徴量選択部1006が、入力された特徴量の中から、特徴量空間での差が最大となる特徴量の組を選択し、選択した特徴量の組をクラスタリング部1007に入力する。
続いて、クラスタリング部1007が、入力された特徴量の組についてクラスタリングを行い、クラスタリングの結果を話者ダイアライゼーション部1008に入力する(S2304)。
続いて、話者ダイアライゼーション部1008が、入力されたクラスタリングの結果に基づき話者ダイアライゼーションを行う(S2305)。以上で話者ダイアライゼーション処理S2300は終了する。
以上のように、第3実施形態の話者ダイアライゼーション装置1は、特徴量抽出部10
03が抽出した全ての特徴量をクラスタリングに用いるのではなく、特徴量選択部1006が選択した特徴量を用いてクラスタリングするため、信頼性の高い話者ダイアライゼーションを実現することができる。
尚、以上では、特徴量抽出部1003が抽出した特徴量のうち、選択する特徴量の数を話者数Cとしたが、セグメント毎に話者数の推定を行い、推定された話者数を代わりに用いてもよい。話者数の推定を行う場合、例えば、話者に近い特徴を順次グループ化していく、いわゆるボトムアップ型のクラスタリング手法を用いることができる。これにより、信号入力部1001で取得した信号全体に存在する話者数Cに比べて選択する特徴量が少なくなり、2話者の混合比が0に近くなるような、即ち2話者の音声が同程度の音圧で混合されている特徴量がクラスタリングに使われてしまうのを抑制することができる。
また、特徴量選択部1006による特徴量の選択は、音圧を元にした方法により行ってもよい。例えば、信号入力部1001で取得した信号の音圧が小さい場合、信号対雑音比が小さいため、話者性を表す特徴量を抽出した場合にその信頼性が低くなることが予想される。従って、特徴量選択部1006は、特徴量空間での差が最大となる音圧が大きい順に話者数分の特徴量を選択するようにしてもよい。これにより信頼性の高い特徴のみを用いてクラスタリングを行うことができる。尚、特徴量選択部1006が、上記の2つの特徴量選択の方法を組み合わせて用いてもよい。
以上、本発明の実施形態につき説明したが、本発明は以上に説明した実施形態に限定されるものではなく、様々な変形例が含まれる。また、例えば、以上に説明した実施形態は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施形態の構成の一部について、他の構成に追加、削除、置換することが可能である。
例えば、以上に説明した話者ダイアライゼーション装置1の機能は、例えば、分散モノラルマイクを用いた音声認識システムにおける音声区間検出や話者ダイアライゼーションを行う処理部分に用いることができる。また、話者ダイアライゼーション装置1の機能は、例えば、上記の音声認識システムにおいて、音声認識結果が得られた後に誰の発話であったのかを判定する処理部分に適用することもできる。
1 話者ダイアライゼーション装置
14、15 信号入力装置
131 話者ダイアライゼーション実行部
1001 信号入力部
1002 信号分割部
1003 特徴量抽出部
1005 音声区間検出部
1006 特徴量選択部
1007 クラスタリング部
1008 話者ダイアライゼーション部

Claims (12)

  1. 情報処理装置を用いて構成され、
    複数の音声信号の入力部の夫々から取得される複数の信号を、夫々、所定時間幅の複数のセグメントに分割する信号分割部と、
    前記セグメントの夫々から特徴量を抽出する特徴量抽出部と、
    前記複数の信号の夫々のセグメントから抽出された前記特徴量を一括してクラスタリングするクラスタリング部と、
    前記クラスタリングの結果に基づき話者ダイアライゼーションを行う話者ダイアライゼーション部と、
    を備え
    前記特徴量抽出部によって抽出された前記特徴量の中から、前記クラスタリングの対象とする前記特徴量を選択する特徴量選択部をさらに備え、
    前記クラスタリング部は、選択された前記特徴量をクラスタリングする、
    話者ダイアライゼーション装置。
  2. 請求項1に記載の話者ダイアライゼーション装置であって、
    前記特徴量抽出部は、前記特徴量として、話者性を含む特徴量を抽出する、
    話者ダイアライゼーション装置。
  3. 請求項1に記載の話者ダイアライゼーション装置であって、
    前記特徴量抽出部は、前記特徴量として、音圧を含む特徴量を抽出する、
    話者ダイアライゼーション装置。
  4. 請求項1に記載の話者ダイアライゼーション装置であって、
    前記複数の信号の夫々から音声信号を含む区間である音声区間を検出する音声区間検出部をさらに備え、
    前記信号分割部は、前記複数の信号の夫々の前記音声区間を対象として前記セグメントへの分割を行い、
    前記特徴量抽出部は、前記分割により得られた前記セグメントの夫々から前記特徴量を抽出する、
    話者ダイアライゼーション装置。
  5. 請求項1に記載の話者ダイアライゼーション装置であって、
    前記複数の信号の夫々から音声信号を含む区間である音声区間を検出する音声区間検出部をさらに備え、
    前記信号分割部は、前記複数の信号を、夫々、複数の前記セグメントに分割し、
    前記音声区間検出部は、前記セグメントが音声区間であるか否かを判定し、
    前記特徴量抽出部は、音声区間であると判定された前記セグメントを対象として前記特徴量を抽出する、
    話者ダイアライゼーション装置。
  6. 請求項に記載の話者ダイアライゼーション装置であって、
    前記特徴量選択部は、前記特徴量抽出部によって抽出された、同一時刻における複数の前記特徴量の中から、特徴量空間における差が最大となる所定数の前記特徴量を前記クラスタリングの対象として選択する、
    話者ダイアライゼーション装置。
  7. 請求項に記載の話者ダイアライゼーション装置であって、
    前記特徴量選択部は、前記特徴量抽出部によって抽出された、同一時刻における複数の前記特徴量の中から、抽出元の前記信号の音圧が大きい順に所定数の前記特徴量を前記クラスタリングの対象として選択する、
    話者ダイアライゼーション装置。
  8. 情報処理装置が、
    複数の音声信号の入力部の夫々から取得される複数の信号を、夫々、所定時間幅の複数のセグメントに分割するステップと、
    前記セグメントの夫々から特徴量を抽出するステップと、
    前記複数の信号の夫々のセグメントから抽出された前記特徴量を一括してクラスタリングするステップと、
    前記クラスタリングの結果に基づき話者ダイアライゼーションを行うステップと、
    抽出された前記特徴量の中から、前記クラスタリングの対象とする前記特徴量を選択するステップと、
    選択された前記特徴量をクラスタリングするステップと、
    を実行する、話者ダイアライゼーション方法。
  9. 請求項に記載の話者ダイアライゼーション方法であって、
    前記情報処理装置が、
    前記複数の信号の夫々から音声信号を含む区間である音声区間を検出するステップと、
    記複数の信号の夫々の前記音声区間を対象として前記セグメントへの分割を行うステップと、
    前記分割により得られた前記セグメントの夫々から前記特徴量を抽出するステップと、
    をさらに実行する、話者ダイアライゼーション方法。
  10. 請求項に記載の話者ダイアライゼーション方法であって、
    前記情報処理装置が、
    前記複数の信号の夫々から音声信号を含む区間である音声区間を検出するステップと、
    前記複数の信号を、夫々、複数の前記セグメントに分割するステップと、
    前記セグメントが音声区間であるか否かを判定するステップと、
    音声区間であると判定された前記セグメントを対象として前記特徴量を抽出するステップと、
    をさらに実行する、話者ダイアライゼーション方法。
  11. 請求項に記載の話者ダイアライゼーション方法であって、
    前記情報処理装置が、
    抽出された、同一時刻における複数の前記特徴量の中から、特徴量空間における差が最大となる所定数の前記特徴量を前記クラスタリングの対象として選択するステップ、
    をさらに実行する、話者ダイアライゼーション方法。
  12. 請求項に記載の話者ダイアライゼーション方法であって、
    前記情報処理装置が、
    抽出された、同一時刻における複数の前記特徴量の中から、抽出元の前記信号の音圧が大きい順に所定数の前記特徴量を前記クラスタリングの対象として選択するステップ、
    をさらに実行する、話者ダイアライゼーション方法。
JP2020079958A 2020-04-30 2020-04-30 話者ダイアライゼーション装置、及び話者ダイアライゼーション方法 Active JP7471139B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020079958A JP7471139B2 (ja) 2020-04-30 2020-04-30 話者ダイアライゼーション装置、及び話者ダイアライゼーション方法
PCT/JP2021/015202 WO2021220789A1 (ja) 2020-04-30 2021-04-12 話者ダイアライゼーション装置、及び話者ダイアライゼーション方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020079958A JP7471139B2 (ja) 2020-04-30 2020-04-30 話者ダイアライゼーション装置、及び話者ダイアライゼーション方法

Publications (2)

Publication Number Publication Date
JP2021173952A JP2021173952A (ja) 2021-11-01
JP7471139B2 true JP7471139B2 (ja) 2024-04-19

Family

ID=78281765

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020079958A Active JP7471139B2 (ja) 2020-04-30 2020-04-30 話者ダイアライゼーション装置、及び話者ダイアライゼーション方法

Country Status (2)

Country Link
JP (1) JP7471139B2 (ja)
WO (1) WO2021220789A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010054733A (ja) 2008-08-27 2010-03-11 Nippon Telegr & Teleph Corp <Ntt> 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体
JP2014219557A (ja) 2013-05-08 2014-11-20 カシオ計算機株式会社 音声処理装置、音声処理方法及びプログラム
US20180075860A1 (en) 2016-09-14 2018-03-15 Nuance Communications, Inc. Method for Microphone Selection and Multi-Talker Segmentation with Ambient Automated Speech Recognition (ASR)

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010054733A (ja) 2008-08-27 2010-03-11 Nippon Telegr & Teleph Corp <Ntt> 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体
JP2014219557A (ja) 2013-05-08 2014-11-20 カシオ計算機株式会社 音声処理装置、音声処理方法及びプログラム
US20180075860A1 (en) 2016-09-14 2018-03-15 Nuance Communications, Inc. Method for Microphone Selection and Multi-Talker Segmentation with Ambient Automated Speech Recognition (ASR)

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
丁寧 他,"音韻情報と方向情報を用いた発話間距離による話者クラスタリング",日本音響学会2014年秋季研究発表会講演論文集CD-ROM,2014年08月26日,pp.133-136
岩野公司 他,"複数スマートフォンで収録された多人数会話音声における対話グループ検出と話者決定",電子情報通信学会技術研究報告,2014年07月17日,Vol. 114, No. 151,pp.47-52

Also Published As

Publication number Publication date
JP2021173952A (ja) 2021-11-01
WO2021220789A1 (ja) 2021-11-04

Similar Documents

Publication Publication Date Title
US10366693B2 (en) Acoustic signature building for a speaker from multiple sessions
Lukic et al. Speaker identification and clustering using convolutional neural networks
Lim et al. Rare Sound Event Detection Using 1D Convolutional Recurrent Neural Networks.
US10109280B2 (en) Blind diarization of recorded calls with arbitrary number of speakers
CN108831506B (zh) 基于gmm-bic的数字音频篡改点检测方法及系统
CN112397093B (zh) 一种语音检测方法与装置
Colonna et al. Feature evaluation for unsupervised bioacoustic signal segmentation of anuran calls
Jung et al. DNN-Based Audio Scene Classification for DCASE2017: Dual Input Features, Balancing Cost, and Stochastic Data Duplication.
Chachadi et al. Gender recognition from speech signal using 1-D CNN
Prabavathy et al. An enhanced musical instrument classification using deep convolutional neural network
Hegde et al. Isolated word recognition for Kannada language using support vector machine
Rahman et al. Detecting synthetic speech manipulation in real audio recordings
JP7471139B2 (ja) 話者ダイアライゼーション装置、及び話者ダイアライゼーション方法
Mehrotra et al. Improved Frame‐Wise Segmentation of Audio Signals for Smart Hearing Aid Using Particle Swarm Optimization‐Based Clustering
Wang et al. Synthetic voice detection and audio splicing detection using se-res2net-conformer architecture
Hajihashemi et al. Novel time-frequency based scheme for detecting sound events from sound background in audio segments
KR100869643B1 (ko) 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약장치, 방법 및 이를 구현하기 위한 프로그램이 저장된기록매체
Bai et al. CIAIC-BAD system for DCASE2018 challenge task 3
Thomas et al. Language identification using deep neural network for Indian languages
Rahman et al. Blocking black area method for speech segmentation
Mahum et al. EDL-Det: A Robust TTS Synthesis Detector Using VGG19-Based YAMNet and Ensemble Learning Block
CN112309428B (zh) 获得歌声检测模型
Barrington et al. Dynamic texture models of music
Koerich et al. Cross-representation transferability of adversarial perturbations: From spectrograms to audio waveforms
Nguyen et al. Improving mix-and-separate training in audio-visual sound source separation with an object prior

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240409

R150 Certificate of patent or registration of utility model

Ref document number: 7471139

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150