JP5052449B2 - 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体 - Google Patents
発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体 Download PDFInfo
- Publication number
- JP5052449B2 JP5052449B2 JP2008195136A JP2008195136A JP5052449B2 JP 5052449 B2 JP5052449 B2 JP 5052449B2 JP 2008195136 A JP2008195136 A JP 2008195136A JP 2008195136 A JP2008195136 A JP 2008195136A JP 5052449 B2 JP5052449 B2 JP 5052449B2
- Authority
- JP
- Japan
- Prior art keywords
- segment
- speech
- feature amount
- speaker
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
変形例1の発話区間話者分類装置121の機能構成例を図1に示す。その動作フローを図2に示す。実施例1と異なる点は、セグメント分類部16に分類対象セグメント選択手段160を備える点である。分類対象セグメント選択手段160を図1中に破線で示す。動作フローも同じである。
変形例1では、最低セグメント長を例えば3秒に設定した場合で説明を行ったが、その場合、例えば3秒以上連続した音声信号が無い場合は、全く分類されなくなってしまう。そこで、音量音声区間分割部13が出力する全ての音声区間セグメントの統計量を求め、その統計量から最低セグメント長を設定する方法が考えられる。その方法を変形例2として説明する。音声区間セグメントの統計量は、一般的な方法で計算できるので動作フローは省略する。
変形例3の発話区間話者分類装置123の機能構成例を図1に示す。その動作フローを図4に示す。変形例1,2と異なる点は、分類手段162が隣接セグメント分類手段162bを備える点である。変形例3の発話区間話者分類装置123は、最小セグメント長未満(ステップS160のN)の短音声区間セグメントを時刻情報が隣接する音声区間セグメントが属するクラスタに分類(ステップS162b)する点が異なる。この考えは、短音声区間セグメントは隣接する時間幅の長い音声区間セグメントに連結する可能性が高いとの前提に立って分類するものである。
変形例4の発話区間話者分類装置124の機能構成例を図1に示す。その動作フローを図5に示す。変形例3と異なる点は、分類手段162が、隣接セグメント分類手段162aに替えて最近距離クラスタ分類手段162cを備える点である。最近距離クラスタ分類手段162cは、最小セグメント長未満(ステップS160のN)の短音声区間セグメントの代表特徴量と各クラスタの代表特徴量との距離を計算して、距離の最も近い最近距離クラスタに短音声区間セグメントを分類する。このようにすることで、変形例3よりも音響的に近いクラスタに短時間音声区間セグメントを分類することが出来る。
変形例5の発話区間話者分類装置125の機能構成例を図1に示す。その動作フローを図6に示す。変形例1乃至4と異なる点は、セグメント分類部16が隣接セグメント所属クラスタ間距離計算手段164と、非隣接セグメント所属クラスタ間最小距離計算手段165とを備える点である。隣接セグメント所属クラスタ間距離計算手段164は、分類対象の最低セグメント長未満の短音声区間セグメントSSnの時刻情報と時刻情報が隣接する音声区間セグメントを含むクラスタの代表特徴量との間の距離である隣接距離ndDを計算する(ステップS164)。
ント代表特徴量の平均ベクトルμadapt→は式(5)、分散ベクトルUadapt→は式(6)、混合重み係数cadaptは式(7)で計算出来る。*は転置である。
めた値よりも、より音響特徴量Ot Sn→に対応した精度の高い値にすることが出来る。その結果、話者分類の精度も向上させることが出来る。
(μS3 →,US3 →)、(μS2 →,US2 →)と変化する様子を例示している。
上記した発話区間話者分類装置は、音声認識装置に応用が可能である。図10に、音声区間話者分類装置120乃至125の何れか1つを用いて音声認識装置500を構成した場合の機能構成例を示す。音声認識装置500は、発話区間話者分類装置と、音声認識部90と、言語モデルパラメータメモリ91と、音響モデルパラメータメモリ92と、制御部95とを備える。音声認識装置500は、この発明の音声区間話者分類装置を用いたところに特徴があり、他の構成は一般的な音声認識装置と同じである。この発明の音声認識装置は、音響モデルの適応化処理方法に特徴がある。
Claims (15)
- 離散値化された音声信号の音声区間検出を行い音声区間セグメントを出力する音量音声区間分割部と、
上記音声区間セグメントの音響特徴量分析を行い音響特徴量を出力する特徴量分析部と、
上記音響特徴量から得られる混合正規分布モデルを上記音声区間セグメントの代表特徴量として算出する代表特徴量抽出部と、
上記音声区間セグメントのうち、予め定められた最低セグメント長以上の時間幅であるとの条件をみたす音声区間セグメントをクラスタに分類する分類対象セグメント選択手段と、
上記音声区間セグメントのうち、予め定められた最低セグメント長未満の時間幅であるとの条件をみたす音声区間セグメント(以下、短音声区間セグメントと記載)の代表特徴量と、該短音声区間セグメントと時間的に隣接する音声区間セグメントを含むクラスタの代表特徴量との間の距離である隣接距離を算出する隣接セグメント所属クラスタ間距離計算手段と、
上記短音声区間セグメントの代表特徴量と、該短音声区間セグメントと時間的に隣接しない音声区間セグメントを含むクラスタの代表特徴量との距離のうち、最小距離である最小非隣接距離を算出する非隣接セグメント所属クラスタ間最小距離計算手段と、
上記最小非隣接距離に1より大きな重み係数を乗算した拡大非隣接距離よりも、上記隣接距離が小さい場合には、代表特徴量が上記短音声区間セグメントの代表特徴量と上記隣接距離にあるクラスタに上記短音声区間セグメントを分類し、上記隣接距離よりも、上記拡大非隣接距離が小さい場合に、代表特徴量が上記短音声区間セグメントの代表特徴量と上記拡大非隣接距離にあるクラスタに上記短音声区間セグメントを分類する最近距離クラスタ分類手段と、を有するセグメント分類部と、
隣接する上記音声区間セグメントが同一クラスタに属する場合に、隣接する上記音声区間セグメントを1個の音声セグメントとして統合するセグメント統合部と、
を具備するものであることを特徴とする発話区間話者分類装置。 - 請求項1に記載した発話区間話者分類装置において、
上記代表特徴量は、上記音響特徴量の平均と分散であることを特徴とするものである発話区間話者分類装置。 - 請求項1又は2に記載した発話区間話者分類装置において、
上記セグメント分類部は、セグメント統計量算出手段を備え、
上記セグメント統計量算出手段が、全ての上記音声区間セグメントの統計量から上記最低セグメント長を算出することを特徴とする発話区間話者分類装置。 - 請求項1乃至3の何れかに記載した発話区間話者分類装置において、
音声モデルと非音声モデルとを記録した音響モデル記録部と、
上記音声モデルと非音声モデルを用いて音声/非音声判定を行う音声/非音声判定部と、
を備え、
上記音量音声区間分割部は、上記音声/非音声判定部の上記音声/非音声判定結果に基づいて上記音声セグメントを更に分割するものであることを特徴とする発話区間話者分類装置。 - 請求項1乃至4の何れかに記載した発話区間話者分類装置と、
上記発話区間話者分類装置が出力するクラスタ毎に話者適応化処理を行う音声認識部と、
を具備する音声認識装置。 - 請求項5に記載した音声認識装置において、
上記音声認識部は、クラスタ内の上記音声区間セグメント毎に話者適応化処理を行うことを特徴とする音声認識装置。 - 音量音声区間分割部が、離散値化された音声信号の音声区間検出を行い音声区間セグメントを出力する音量音声区間分割過程と、
特徴量分析部が、上記音声区間セグメントの音響特徴量分析を行い音響特徴量を出力する特徴量分析過程と、
代表特徴量抽出部が、上記音響特徴量から得られる混合正規分布モデルを上記音声区間セグメントの代表特徴量として算出する代表特徴量抽出過程と、
セグメント分類部が、上記音声区間セグメントのうち、予め定められた最低セグメント長未満の時間幅であるとの条件をみたす音声区間セグメント(以下、短音声区間セグメントと記載)の代表特徴量と、該短音声区間セグメントと時間的に隣接する音声区間セグメントを含むクラスタの代表特徴量との間の距離である隣接距離を算出する隣接セグメント所属クラスタ間距離計算ステップと、
上記短音声区間セグメントの代表特徴量と、該短音声区間セグメントと時間的に隣接しない音声区間セグメントを含むクラスタの代表特徴量との距離のうち、最小距離である最小非隣接距離を算出する非隣接セグメント所属クラスタ間最小距離計算ステップと、
上記最小非隣接距離に1より大きな重み係数を乗算した拡大非隣接距離よりも、上記隣接距離が小さい場合には、代表特徴量が上記短音声区間セグメントの代表特徴量と上記隣接距離にあるクラスタに上記短音声区間セグメントを分類し、上記隣接距離よりも、上記拡大非隣接距離が小さい場合に、代表特徴量が上記短音声区間セグメントの代表特徴量と上記拡大非隣接距離にあるクラスタに上記短音声区間セグメントを分類する最近距離クラスタ分類ステップと、を含むセグメント分類過程と、
セグメント統合部が、隣接する上記音声セグメントが同一クラスタに属する場合に、隣接する上記音声セグメントを1個の音声セグメントとして統合するセグメント統合過程と、
を備えることを特徴とする発話区間話者分類方法。 - 請求項7に記載した発話区間話者分類方法において、
上記代表特徴量は、上記音響特徴量の平均と分散であることを特徴とする発話区間話者分類方法。 - 請求項7又は8に記載した発話区間話者分類方法において、
上記セグメント分類過程は、セグメント統計量算出ステップを含み、
上記セグメント統計量算出ステップが、全ての上記音声区間セグメントの統計量から上記最低セグメント長を算出するステップであることを特徴とする発話区間話者分類方法。 - 請求項7乃至9の何れかに記載した発話区間話者分類方法と、
音声/非音声判定部が、上記音声モデルと非音声モデルを用いて音声/非音声判定を行う音声/非音声判定過程を含み、
上記音量音声区間分割過程は、上記音声/非音声判定過程の上記音声/非音声判定結果に基づいて上記音声セグメントを更に分割する過程であることを特徴とする発話区間話者分類方法。 - 請求項7乃至10の何れかに記載した発話区間話者分類方法と、
音声認識部が、上記発話区間話者分類方法で分類したクラスタ毎に話者適応化処理を行う音声認識過程と、
を含む音声認識方法。 - 請求項11に記載した音声認識方法において、
上記音声認識過程は、クラスタ内の上記音声区間セグメント毎に話者適応化処理を行う過程であることを特徴とする音声認識方法。 - 請求項1乃至4の何れかに記載した発話区間話者分類装置としてコンピュータを機能させるための装置プログラム。
- 請求項5又は6に記載した音声認識装置としてコンピュータを機能させるための装置プログラム。
- 請求項13と14に記載した何れかの装置プログラムを記録したコンピュータで読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008195136A JP5052449B2 (ja) | 2008-07-29 | 2008-07-29 | 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008195136A JP5052449B2 (ja) | 2008-07-29 | 2008-07-29 | 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010032792A JP2010032792A (ja) | 2010-02-12 |
JP5052449B2 true JP5052449B2 (ja) | 2012-10-17 |
Family
ID=41737338
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008195136A Active JP5052449B2 (ja) | 2008-07-29 | 2008-07-29 | 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5052449B2 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5621786B2 (ja) * | 2009-12-24 | 2014-11-12 | 日本電気株式会社 | 音声検出装置、音声検出方法、および音声検出プログラム |
JP2012053218A (ja) * | 2010-08-31 | 2012-03-15 | Nippon Hoso Kyokai <Nhk> | 音響処理装置および音響処理プログラム |
US9595260B2 (en) * | 2010-12-10 | 2017-03-14 | Panasonic Intellectual Property Corporation Of America | Modeling device and method for speaker recognition, and speaker recognition system |
JP5496945B2 (ja) * | 2011-05-19 | 2014-05-21 | 日本電信電話株式会社 | 話者分類装置、話者分類方法、プログラム |
JP6158006B2 (ja) * | 2013-09-17 | 2017-07-05 | 株式会社東芝 | 音声処理装置、方法、及びプログラム |
JP6784255B2 (ja) * | 2015-03-25 | 2020-11-11 | 日本電気株式会社 | 音声処理装置、音声処理システム、音声処理方法、およびプログラム |
US10089061B2 (en) | 2015-08-28 | 2018-10-02 | Kabushiki Kaisha Toshiba | Electronic device and method |
US20170075652A1 (en) | 2015-09-14 | 2017-03-16 | Kabushiki Kaisha Toshiba | Electronic device and method |
JP6556575B2 (ja) | 2015-09-15 | 2019-08-07 | 株式会社東芝 | 音声処理装置、音声処理方法及び音声処理プログラム |
WO2018100391A1 (en) * | 2016-12-02 | 2018-06-07 | Cirrus Logic International Semiconductor Limited | Speaker identification |
CN109192193B (zh) * | 2018-08-14 | 2020-05-05 | 四川虹美智能科技有限公司 | 一种语音识别产品测试方法和测试装置 |
JP7222828B2 (ja) * | 2019-06-24 | 2023-02-15 | 株式会社日立製作所 | 音声認識装置、音声認識方法及び記憶媒体 |
CN113129901A (zh) * | 2020-01-10 | 2021-07-16 | 华为技术有限公司 | 一种语音处理方法、介质及系统 |
KR20210132855A (ko) | 2020-04-28 | 2021-11-05 | 삼성전자주식회사 | 음성 처리 방법 및 장치 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2742179B2 (ja) * | 1992-06-30 | 1998-04-22 | 科学技術振興事業団 | 新規ケトン類、その製造法及び該化合物を有効成分とするシロアリ防除剤 |
JPH06118990A (ja) * | 1992-10-02 | 1994-04-28 | Nippon Telegr & Teleph Corp <Ntt> | ワードスポッティング音声認識装置 |
US5598507A (en) * | 1994-04-12 | 1997-01-28 | Xerox Corporation | Method of speaker clustering for unknown speakers in conversational audio data |
JP3757719B2 (ja) * | 1999-11-19 | 2006-03-22 | 松下電器産業株式会社 | 音響データ分析方法及びその装置 |
JP2005345683A (ja) * | 2004-06-02 | 2005-12-15 | Toshiba Tec Corp | 話者認識装置、プログラム及び話者認識方法 |
JP4220449B2 (ja) * | 2004-09-16 | 2009-02-04 | 株式会社東芝 | インデキシング装置、インデキシング方法およびインデキシングプログラム |
JP4700522B2 (ja) * | 2006-03-02 | 2011-06-15 | 日本放送協会 | 音声認識装置及び音声認識プログラム |
JP2008051907A (ja) * | 2006-08-22 | 2008-03-06 | Toshiba Corp | 発話区間識別装置及びその方法 |
JP5302505B2 (ja) * | 2006-12-04 | 2013-10-02 | 日本電気株式会社 | 対話状況区切り推定方法、対話状況推定方法、対話状況推定システムおよび対話状況推定プログラム |
JP4728972B2 (ja) * | 2007-01-17 | 2011-07-20 | 株式会社東芝 | インデキシング装置、方法及びプログラム |
-
2008
- 2008-07-29 JP JP2008195136A patent/JP5052449B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010032792A (ja) | 2010-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5052449B2 (ja) | 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体 | |
US11636860B2 (en) | Word-level blind diarization of recorded calls with arbitrary number of speakers | |
US10109280B2 (en) | Blind diarization of recorded calls with arbitrary number of speakers | |
JP4746533B2 (ja) | 多音源有音区間判定装置、方法、プログラム及びその記録媒体 | |
Andrei et al. | Detecting Overlapped Speech on Short Timeframes Using Deep Learning. | |
US11837236B2 (en) | Speaker recognition based on signal segments weighted by quality | |
JP5692493B2 (ja) | 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法 | |
JP6553015B2 (ja) | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム | |
KR20160089103A (ko) | 실시간 음원 분류 장치 및 방법 | |
Zhu et al. | Filler word detection and classification: A dataset and benchmark | |
US20090150164A1 (en) | Tri-model audio segmentation | |
JPWO2011062071A1 (ja) | 音響画像区間分類装置および方法 | |
JP5749186B2 (ja) | 音響モデル適応装置と音声認識装置とそれらの方法と、プログラム | |
JP7143955B2 (ja) | 推定装置、推定方法、および、推定プログラム | |
JP5496945B2 (ja) | 話者分類装置、話者分類方法、プログラム | |
JP7107377B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
WO2022270327A1 (ja) | 構音異常検出方法、構音異常検出装置、及びプログラム | |
JP7353839B2 (ja) | 話者識別装置、話者識別方法、及び、プログラム | |
Noé | Emotion Recognition in Football Commentator Speech: Is the action intense or not? | |
JP5235849B2 (ja) | 音声認識装置とその方法と、プログラム | |
WO2021106047A1 (ja) | 検知装置、その方法、およびプログラム | |
Fu et al. | Improvements in Speaker Diarization System. | |
Bharathi et al. | A two-level approach for speaker recognition using speaker-specific-text | |
Fu et al. | An improved speaker diarization system. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110405 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110523 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110810 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120406 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120717 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120724 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5052449 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150803 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |