JP5105097B2 - 音声分類装置、音声分類方法及びプログラム - Google Patents
音声分類装置、音声分類方法及びプログラム Download PDFInfo
- Publication number
- JP5105097B2 JP5105097B2 JP2009012746A JP2009012746A JP5105097B2 JP 5105097 B2 JP5105097 B2 JP 5105097B2 JP 2009012746 A JP2009012746 A JP 2009012746A JP 2009012746 A JP2009012746 A JP 2009012746A JP 5105097 B2 JP5105097 B2 JP 5105097B2
- Authority
- JP
- Japan
- Prior art keywords
- clustering
- distance
- clusters
- segments
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Description
前記複数の発話セグメントが時間軸に沿って配置されたときに、二つの発話セグメント間に存在するクラスタの数を計測するクラスタ数計測部と、
計測された前記クラスタの数を用いて、前記二つの発話セグメント間の音響的類似度に基づく距離を算出する距離算出部と、
算出された前記距離を用いて、前記複数の発話セグメントのクラスタリングを実行するクラスタリング部とを、備えることを特徴とする。
(a)前記複数の発話セグメントが時間軸に沿って配置されたときに、二つの発話セグメント間に存在するクラスタの数を計測するステップと、
(b)前記(a)のステップで計測された前記クラスタの数を用いて、前記二つの発話セグメント間の音響的類似度に基づく距離を算出するステップと、
(c)前記(b)のステップで算出された前記距離を用いて、前記複数の発話セグメントのクラスタリングを実行するステップとを、有することを特徴とする。
前記コンピュータに、
(a)前記複数の発話セグメントが時間軸に沿って配置されたときに、二つの発話セグメント間に存在するクラスタの数を計測するステップと、
(b)前記(a)のステップで計測された前記クラスタの数を用いて、前記二つの発話セグメント間の音響的類似度に基づく距離を算出するステップと、
(c)前記(b)のステップで算出された前記距離を用いて、前記複数の発話セグメントのクラスタリングを実行するステップとを、実行させることを特徴とする。
以下、本発明の実施の形態における音声分類装置、音声分類方法及びプログラムについて、図1〜図4を参照しながら説明する。最初に、本実施の形態における音声分類装置の概略構成について図1を用いて説明する。図1は、本発明の実施の形態における音声分類装置の概略構成を示すブロック図である。
れた音声データを特定し、この無音区間で区切られた音声データを一つの発話セグメントとして抽出する。
例1において、クラスタAとクラスタBとの距離をdcovとすると、距離dcovは下記の(数1)〜(数5)から求めることができる。なお、下記の(数2)において、S1及びS2は、クラスタA及びクラスタBに含まれる発話セグメントの標本共分散行列を表している。
例2において、クラスタAとクラスタBとの距離をdMEANとすると、距離dMEANは下記の(数6)及び(数7)から求めることができる。なお、下記の(数7)において、ベクトルX1及びベクトルX2は、クラスタA及びクラスタBに含まれる発話セグメントの平均ベクトルを表している。
との距離を比較する。そして、クラスタリング部4は、着目した発話セグメントとの距離が最も小さい発話セグメントを特定し、それと着目した発話セグメントとでクラスタを構成する。また、着目した発話セグメントが既にクラスタに含まれている場合は、クラスタリング部4は、距離が最も小さい発話セグメントもこのクラスタに含まれるものとする。
を行う(ステップA5)。ステップA5におけるクラスタの形成は、例えば、着目した発話セグメントと距離が最も小さい発話セグメントとでクラスタを構成したり、着目した発話セグメントを含むクラスタに、距離が最も小さい発話セグメントを含ませたりすること等によって行われる。
2 クラスタ数計測部
3 距離算出部
4 クラスタリング部
5 話者分類部
10 音声分類装置
Claims (18)
- 二以上の話者が発話を行っている音声データに含まれる複数の発話セグメントに対してクラスタリングを行い、クラスタリング結果に基づいて、音声分類を行う音声分類装置であって、
前記複数の発話セグメントが時間軸に沿って配置されたときに、二つの発話セグメント間に存在するクラスタの数を計測するクラスタ数計測部と、
計測された前記クラスタの数を用いて、前記二つの発話セグメント間の音響的類似度に基づく距離を算出する距離算出部と、
算出された前記距離を用いて、前記複数の発話セグメントのクラスタリングを実行するクラスタリング部とを、備えることを特徴とする音声分類装置。 - 前記クラスタ数計測部が、前記クラスタリング部によるクラスタリングの実行後、それによって形成されたクラスタを対象として、前記二つの発話セグメントの間に存在するクラスタの数を新たに計測し、
前記距離算出部が、新たに計測された前記クラスタの数を用いて、前記二つの発話セグメントの間の音響的類似度に基づく距離を新たに算出し、
前記クラスタリング部が、新たに算出された前記距離を用いて、再度、前記クラスタリングを実行する、請求項1に記載の音声分類装置。 - 前記クラスタ数計測部が、前記クラスタリング部によるクラスタリングが実行されていない場合に、前記複数の発話セグメントそれぞれを一つのクラスタとみなして、前記二つの発話セグメント間に存在するクラスタの数を計測し、
前記クラスタリング部によるクラスタリングによって、前記複数のセグメントの木構造が完成するまで、前記クラスタ数計測部による計測、前記距離算出部による算出、及び前記クラスタリング部によるクラスタリングが、複数回実行される、請求項2に記載の音声分類装置。 - 前記距離算出部が、前記二つの発話セグメント間に存在するクラスタの数が小さいほど、前記距離が短くなるように、前記距離を補正する、請求項1〜3のいずれかに記載の音声分類装置。
- 前記距離算出部が、前記距離の算出時において、
前記クラスタリング部によるクラスタリングが実行されていない場合は、前記複数の発話セグメントの全数と閾値とを対比し、前記クラスタリング部によるクラスタリングが実行されている場合は、それによって形成されたクラスタの全数と前記閾値とを対比し、
対比の結果、前記複数の発話セグメントの全数または前記クラスタの全数が前記閾値より小さい場合にのみ、前記距離の算出に前記クラスタの数を用いる、請求項1〜4のいずれかに記載の音声分類装置。 - 前記距離算出部が、前記二つの発話セグメントそれぞれの特徴ベクトルを求め、求めたそれぞれの前記特徴ベクトルを用いて、前記二つの発話セグメント間の音響的類似度に基づく距離を算出する、請求項1〜5のいずれかに記載の音声分類装置。
- 二以上の話者が発話を行っている音声データに含まれる複数の発話セグメントに対してクラスタリングを行い、クラスタリング結果に基づいて、音声分類を行うための音声分類方法であって、
(a)前記複数の発話セグメントが時間軸に沿って配置されたときに、二つの発話セグメント間に存在するクラスタの数を計測するステップと、
(b)前記(a)のステップで計測された前記クラスタの数を用いて、前記二つの発話セ
グメント間の音響的類似度に基づく距離を算出するステップと、
(c)前記(b)のステップで算出された前記距離を用いて、前記複数の発話セグメントのクラスタリングを実行するステップとを、有することを特徴とする音声分類方法。 - 前記(c)のステップによるクラスタリングの実行後、それによって形成されたクラスタを対象として、前記(a)のステップを新たに実行し、新たな前記(a)のステップで、前記二つの発話セグメントの間に存在するクラスタの数を新たに計測し、
新たな前記(a)のステップが実行された後、前記(b)のステップを新たに実行し、新たに計測した前記クラスタの数を用いて、前記二つの発話セグメントの間の音響的類似度に基づく距離を新たに算出し、
新たな前記(b)のステップを実行し後、新たに算出した前記距離を用いて、再度、前記(c)のステップにおける前記クラスタリングを実行する、請求項7に記載の音声分類方法。 - 前記(c)のステップによるクラスタリングを実行していない場合に、前記(a)のステップにおいて、前記複数の発話セグメントそれぞれを一つのクラスタとみなして、前記二つの発話セグメント間に存在するクラスタの数を計測し、
前記(c)のステップによるクラスタリングによって、前記複数のセグメントの木構造が完成するまで、前記(a)のステップによる計測、前記(b)のステップによる算出、及び前記(c)のステップによるクラスタリングを、複数回実行する、請求項8に記載の音声分類方法。 - 前記(b)のステップで、前記二つの発話セグメント間に存在するクラスタの数が小さいほど、前記距離が短くなるように、前記距離を補正する、請求項7〜9のいずれかに記載の音声分類方法。
- 前記(b)のステップにおける前記距離の算出時において、
前記(c)のステップによるクラスタリングを実行していない場合は、前記複数の発話セグメントの全数と閾値とを対比し、前記(c)のステップによるクラスタリングを実行している場合は、それによって形成されたクラスタの全数と前記閾値とを対比し、
対比の結果、前記複数の発話セグメントの全数または前記クラスタの全数が前記閾値より小さい場合にのみ、前記距離の算出に前記クラスタの数を用いる、請求項7〜10のいずれかに記載の音声分類方法。 - 前記(b)のステップで、前記二つの発話セグメントそれぞれの特徴ベクトルを求め、求めたそれぞれの前記特徴ベクトルを用いて、前記二つの発話セグメント間の音響的類似度に基づく距離を算出する、請求項7〜11のいずれかに記載の音声分類方法。
- コンピュータに、二以上の話者が発話を行っている音声データに含まれる複数の発話セグメントに対するクラスタリングを行わせ、クラスタリング結果に基づいた音声分類を行わせるためのプログラムであって、
前記コンピュータに、
(a)前記複数の発話セグメントが時間軸に沿って配置されたときに、二つの発話セグメント間に存在するクラスタの数を計測するステップと、
(b)前記(a)のステップで計測された前記クラスタの数を用いて、前記二つの発話セグメント間の音響的類似度に基づく距離を算出するステップと、
(c)前記(b)のステップで算出された前記距離を用いて、前記複数の発話セグメントのクラスタリングを実行するステップとを、実行させることを特徴とするプログラム。 - 前記(c)のステップによるクラスタリングの実行後、それによって形成されたクラス
タを対象として、前記(a)のステップを新たに実行し、新たな前記(a)のステップで、前記二つの発話セグメントの間に存在するクラスタの数を新たに計測し、
新たな前記(a)のステップが実行された後、前記(b)のステップを新たに実行し、新たに計測した前記クラスタの数を用いて、前記二つの発話セグメントの間の音響的類似度に基づく距離を新たに算出し、
新たな前記(b)のステップを実行し後、新たに算出した前記距離を用いて、再度、前記(c)のステップにおける前記クラスタリングを実行する、請求項13に記載のプログラム。 - 前記(c)のステップによるクラスタリングを実行していない場合に、前記(a)のステップにおいて、前記複数の発話セグメントそれぞれを一つのクラスタとみなして、前記二つの発話セグメント間に存在するクラスタの数を計測し、
前記(c)のステップによるクラスタリングによって、前記複数のセグメントの木構造が完成するまで、前記(a)のステップによる計測、前記(b)のステップによる算出、及び前記(c)のステップによるクラスタリングを、複数回実行する、請求項14に記載のプログラム。 - 前記(b)のステップで、前記二つの発話セグメント間に存在するクラスタの数が小さいほど、前記距離が短くなるように、前記距離を補正する、請求項13〜15のいずれかに記載のプログラム。
- 前記(b)のステップにおける前記距離の算出時において、
前記(c)のステップによるクラスタリングを実行していない場合は、前記複数の発話セグメントの全数と閾値とを対比し、前記(c)のステップによるクラスタリングを実行している場合は、それによって形成されたクラスタの全数と前記閾値とを対比し、
対比の結果、前記複数の発話セグメントの全数または前記クラスタの全数が前記閾値より小さい場合にのみ、前記距離の算出に前記クラスタの数を用いる、請求項13〜16のいずれかに記載のプログラム。 - 前記(b)のステップで、前記二つの発話セグメントそれぞれの特徴ベクトルを求め、求めたそれぞれの前記特徴ベクトルを用いて、前記二つの発話セグメント間の音響的類似度に基づく距離を算出する、請求項13〜17のいずれかに記載のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009012746A JP5105097B2 (ja) | 2009-01-23 | 2009-01-23 | 音声分類装置、音声分類方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009012746A JP5105097B2 (ja) | 2009-01-23 | 2009-01-23 | 音声分類装置、音声分類方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010169924A JP2010169924A (ja) | 2010-08-05 |
JP5105097B2 true JP5105097B2 (ja) | 2012-12-19 |
Family
ID=42702142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009012746A Active JP5105097B2 (ja) | 2009-01-23 | 2009-01-23 | 音声分類装置、音声分類方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5105097B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109361995A (zh) * | 2018-09-25 | 2019-02-19 | 深圳创维-Rgb电子有限公司 | 一种电器设备的音量调节方法、装置、电器设备和介质 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5486565B2 (ja) * | 2011-08-05 | 2014-05-07 | 日本電信電話株式会社 | 話者クラスタリング方法、話者クラスタリング装置、プログラム |
CN106504780A (zh) * | 2016-10-09 | 2017-03-15 | 努比亚技术有限公司 | 一种实现音频信息处理的方法及装置 |
CN108881652B (zh) * | 2018-07-11 | 2021-02-26 | 北京大米科技有限公司 | 回音检测方法、存储介质和电子设备 |
JP7259307B2 (ja) * | 2018-12-14 | 2023-04-18 | コニカミノルタ株式会社 | 議事録出力装置および議事録出力装置の制御プログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3081108B2 (ja) * | 1994-08-11 | 2000-08-28 | 株式会社トレンディ | 話者分類処理装置及び方法 |
-
2009
- 2009-01-23 JP JP2009012746A patent/JP5105097B2/ja active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109361995A (zh) * | 2018-09-25 | 2019-02-19 | 深圳创维-Rgb电子有限公司 | 一种电器设备的音量调节方法、装置、电器设备和介质 |
CN109361995B (zh) * | 2018-09-25 | 2021-07-30 | 深圳创维-Rgb电子有限公司 | 一种电器设备的音量调节方法、装置、电器设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2010169924A (ja) | 2010-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9536547B2 (en) | Speaker change detection device and speaker change detection method | |
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
US20130035933A1 (en) | Audio signal processing apparatus and audio signal processing method | |
US9043207B2 (en) | Speaker recognition from telephone calls | |
Ramdinmawii et al. | Gender identification from speech signal by examining the speech production characteristics | |
JP5105097B2 (ja) | 音声分類装置、音声分類方法及びプログラム | |
JP6464005B2 (ja) | 雑音抑圧音声認識装置およびそのプログラム | |
JP5692493B2 (ja) | 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法 | |
EP3979240A1 (en) | Signal extraction system, signal extraction learning method, and signal extraction learning program | |
US11250860B2 (en) | Speaker recognition based on signal segments weighted by quality | |
JP5050698B2 (ja) | 音声処理装置およびプログラム | |
JP5229124B2 (ja) | 話者照合装置、話者照合方法およびプログラム | |
JP2020067566A (ja) | 情報処理方法、情報処理装置、及び、プログラム | |
JP6148150B2 (ja) | 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法 | |
JP2011053569A (ja) | 音響処理装置およびプログラム | |
JP2016177045A (ja) | 音声認識装置および音声認識プログラム | |
JP5936378B2 (ja) | 音声区間検出装置 | |
JPWO2016152132A1 (ja) | 音声処理装置、音声処理システム、音声処理方法、およびプログラム | |
JP2011191542A (ja) | 音声分類装置、音声分類方法、及び音声分類用プログラム | |
Chen et al. | System and keyword dependent fusion for spoken term detection | |
JP2013235050A (ja) | 情報処理装置及び方法、並びにプログラム | |
JP5936377B2 (ja) | 音声区間検出装置 | |
CN112053686A (zh) | 一种音频中断方法、装置以及计算机可读存储介质 | |
Bharathi et al. | GMM and i-vector based speaker verification using speaker-specific-text for short utterances | |
Anguera et al. | Frame purification for cluster comparison in speaker diarization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110830 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120824 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120905 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120918 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5105097 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151012 Year of fee payment: 3 |