JP6171544B2 - 音声処理装置、音声処理方法及びプログラム - Google Patents
音声処理装置、音声処理方法及びプログラム Download PDFInfo
- Publication number
- JP6171544B2 JP6171544B2 JP2013098683A JP2013098683A JP6171544B2 JP 6171544 B2 JP6171544 B2 JP 6171544B2 JP 2013098683 A JP2013098683 A JP 2013098683A JP 2013098683 A JP2013098683 A JP 2013098683A JP 6171544 B2 JP6171544 B2 JP 6171544B2
- Authority
- JP
- Japan
- Prior art keywords
- vowel
- combination
- speaker
- clusters
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
Description
音声データに含まれる母音区間の特徴量を取得する取得手段と、
前記取得した特徴量のうち、同一の母音に対応する特徴量を、教師無し分類法で複数のクラスタに分類する分類手段と、
前記分類したクラスタの組合せであって、同一の話者に対応する対応組合せを決定する決定手段と、
を備えることを特徴とする。
実施形態1に係る音声処理装置1は、i)音声をマイクを用いて録音する録音機能、ii)録音した音声データから音声区間の特徴量を抽出する特徴量抽出機能、iii)抽出した特徴量に基づいて音声区間を話者別に区分けする区分機能、iv)区分結果を出力する出力機能、等を備える。
ROM23は、CPU21が実行するプログラムを格納している不揮発性メモリである。
なお、CPU21と、RAM22と、ROM23と、I/O部24と、外部記憶装置25とは内部バス26によってそれぞれ接続され、相互に情報の送信が可能である。
音声データ記憶部210は、マイク10から伝達された信号(音声信号)を音声データとして記録する。又は、入力部50が外部機器から受け取った音声データを記録する。音声データ記憶部210は、記録した処理対象となる音声データを特徴量抽出部220に伝達する。
具体的には、まず特徴量抽出部220から伝達された特徴量テーブルに含まれる特徴量を、母音別(日本語であれば「a」、「i」、「u」、「e」、「o」の五種類)に分割する。そして、分割した特徴量テーブル毎に、クラスタリングを実行して、特徴空間上で特徴量を既知の話者人数のクラスタに分割する。クラスタリングは、予め正解となる教師データを用いない教師無し学習(Unsupervised Learning)によって、特徴量を話者の人数分のクラスタに分類する(教師なし分類:Unsupervised Classification)処理である。
本実施の形態では、話者の人数は予めユーザが操作部60を用いて入力するものとする。入力された話者数は設定情報としてRAM22に記憶される。
作成したVQテーブルは、特徴空間における各話者の母音特徴量の代表ベクトルを含む。各母音区間の特徴量は、VQテーブルに含まれる代表値のうち、距離(例えばマハラノビス距離)が最も近い代表値に量子化される。すなわち、代表ベクトルをクラスタと考えれば、各特徴量は複数のクラスタの何れかに分類される。
クラスタテーブルCTは、母音の種別に応じて時系列順に割り当てられた「母音ID」(図4(B)ではa1〜a3…)と、その母音が現れる音声データ上の区間「母音区間」(図4(B)ではVI1、VIk、VIj…)と、その母音区間の特徴量が属するクラスタ(図4(B)ではA1〜A3)と、が対応づけて記録されている。特徴量分類部230は、「a」〜「o」の全母音についてクラスタリングを実行し、クラスタテーブルCTを作成する。そして、作成したクラスタテーブルCTを組合せ決定部240に伝達する。
また、話者個人の特徴が強く現れる母音の特徴量に絞ってクラスタリングを実行するため、処理対象となる特徴量を低減出来る。さらに、話者個人の特徴が現れない(現れる割合が小さい)環境音や子音の影響でクラスタリングの精度が低下することを防止することができる。
上述したクラスタリング処理の結果、各母音区間の特徴量は話者毎に別々のクラスタに分類される。しかしながら、母音毎にクラスタリングしているので、ある母音のあるクラスタの話者が、他の母音のどのクラスタに対応するか、その対応関係が明らかではない。そこで、本実施の形態では、組合せ決定部240が各話者に対応するクラスタの組合せを決定する。
ps=1/log(ft)…(1)
ps=log(ft)…(2)
次に、すでに決定した対応組合せに含まれるクラスタを含まない候補組合せのうち、最も組合せスコアが小さい組合せを、次の対応組合せとして決定する。このように、組合せ決定部240は話者数分の対応組合せを決定する。決定した各対応組合せは、それぞれ音声データbの話者のいずれか一人について、全母音の特徴量に対応する組合せとなる。そのため、決定した各組合せについて、話者番号を振り分けることができる。組合せ決定部240による決定結果は、例えば図7にしめす決定組合せテーブルDCTのように示すことが出来る。
例えば、図9(A)にしめす母音区間VIkでは、前後4つの母音区間(母音区間VIk−4〜VIk+4)に対して仮話者番号P1が5つ、PI2が2つ、PI3が1つ割り振られている。この場合、最頻値のP1が、母音区間VIkの確定話者番号となる。同様に、母音区間VIk+1については、前後4つの母音区間(母音区間VIk−3〜VIk+5)の最頻値であるP1が確定話者番号となる。
具体的には、各ペア頻度テーブルの各セルに対応するクラスタペアについて、注目部分区間に、両方のクラスタに含まれる特徴量の母音区間が共存する場合に出現頻度のカウントを+1更新する。この処理を、全セルについて実行して、一つのペア頻度テーブルを更新する。なお、上述したように、時間で等分に区切って部分区間を定義した場合には、一方のクラスタに含まれる特徴量の母音区間が現れる数aと、一方のクラスタに含まれる特徴量の母音区間が現れる数bと、を共に数え、カウントしたaとbを用いて、a×b/2の値を注目部分区間におけるクラスタペアの共出現頻度として、現在のセルに加算するようにしてもよい。
そのため、クラスタリング処理を母音毎に実行して精度を高めるとともに、それぞれの話者が複数の母音をどのような特徴量をもって発生するかについて、少ない計算量で特定することができる。
そして、話者情報出力処理は終了する。
なお、複数のペアスコアから組合せスコアを求める構成は、候補組合せが複数のクラスタペアを含んでいる場合に有効である。すなわち、候補組合せが少なくとも3つのクラスタを含んでいる場合に有効である。
以上、本発明の実施形態1について説明したが、本発明の実施形態はこれに限られない。
以下に本願出願の当初の特許請求の範囲に記載された発明を付記する。
音声データに含まれる母音区間の特徴量を取得する取得手段と、
前記取得した特徴量のうち、同一の母音に対応する特徴量を、教師無し分類法で複数のクラスタに分類する分類手段と、
前記分類したクラスタの組合せであって、同一の話者に対応する対応組合せを決定する決定手段と、
を備えることを特徴とする音声処理装置。
前記決定した対応組合せのクラスタに含まれる特徴量の母音区間が前記音声データに現れるタイミングに基づいて、前記音声データの音声区間を話者別に区分けする区分手段と、
前記区分けした結果を示す情報を出力する出力手段と、
を更に備えることを特徴とする付記1に記載の音声処理装置。
前記決定手段は、前記分類したクラスタのそれぞれに含まれる特徴量の母音区間が前記音声データに出現するタイミングに基づいて、前記対応組合せを決定する、
ことを特徴とする付記1又は2に記載の音声処理装置。
前記決定手段は、
前記対応組合せの候補となる複数の組合せのそれぞれに対して、同一の話者に対応する程度を示す組合せスコアを決定し、
前記決定した組合せスコアに応じて前記対応組合せを決定する、
ことを特徴とする付記1乃至3の何れかに記載の音声処理装置。
前記分類手段は、前記話者が用いた言語に含まれる母音のうち少なくとも3つの母音について、前記分類する処理を実行し、
前記決定手段は、
前記分類手段が異なる2つの母音について分類したクラスタから一つずつ抽出したクラスタのペアについて、同一の話者に対応する程度を示すペアスコアを決定し、
前記分類手段が分類する処理を実行した母音毎に一つずつクラスタを抽出して前記候補となる組合せを生成し、
該生成した候補となる組合せに含まれるクラスタのペアについて決定したペアスコアに基づいて、前記組合せスコアを決定する、
ことを特徴とする付記4に記載の音声処理装置。
前記決定手段は、前記クラスタのペアのうち一方のクラスタに含まれる特徴量の母音区間と、他方のクラスタに含まれる特徴量の母音区間と、が前記音声データの部分区間に共に現れる頻度に基づいて、前記ペアスコアを決定する、
ことを特徴とする付記5に記載の音声処理装置。
音声データに含まれる母音区間の特徴量を取得し、
前記取得した特徴量のうち、同一の母音に対応する特徴量を、教師無し分類法で複数のクラスタに分類し、
前記分類したクラスタの組合せであって、同一の話者に対応する対応組合せを決定する、
ことを特徴とする音声処理方法。
コンピュータに、
音声データに含まれる母音区間の特徴量を取得する処理、
前記取得した特徴量のうち、同一の母音に対応する特徴量を、教師無し分類法で複数のクラスタに分類する処理、
前記分類したクラスタの組合せであって、同一の話者に対応する対応組合せを決定する処理、
を実行させるためのプログラム。
Claims (8)
- 音声データに含まれる母音区間の特徴量を取得する取得手段と、
前記取得した特徴量のうち、同一の母音に対応する特徴量を、教師無し分類法で複数のクラスタに分類する分類手段と、
前記分類したクラスタの組合せであって、同一の話者に対応する対応組合せを決定する決定手段と、
を備えることを特徴とする音声処理装置。 - 前記決定した対応組合せのクラスタに含まれる特徴量の母音区間が前記音声データに現れるタイミングに基づいて、前記音声データの音声区間を話者別に区分けする区分手段と、
前記区分けした結果を示す情報を出力する出力手段と、
を更に備えることを特徴とする請求項1に記載の音声処理装置。 - 前記決定手段は、前記分類したクラスタのそれぞれに含まれる特徴量の母音区間が前記音声データに出現するタイミングに基づいて、前記対応組合せを決定する、
ことを特徴とする請求項1又は2に記載の音声処理装置。 - 前記決定手段は、
前記対応組合せの候補となる複数の組合せのそれぞれに対して、同一の話者に対応する程度を示す組合せスコアを決定し、
前記決定した組合せスコアに応じて前記対応組合せを決定する、
ことを特徴とする請求項1乃至3の何れかに記載の音声処理装置。 - 前記分類手段は、前記話者が用いた言語に含まれる母音のうち少なくとも3つの母音について、前記分類する処理を実行し、
前記決定手段は、
前記分類手段が異なる2つの母音について分類したクラスタから一つずつ抽出したクラスタのペアについて、同一の話者に対応する程度を示すペアスコアを決定し、
前記分類手段が分類する処理を実行した母音毎に一つずつクラスタを抽出して前記候補となる組合せを生成し、
該生成した候補となる組合せに含まれるクラスタのペアについて決定したペアスコアに基づいて、前記組合せスコアを決定する、
ことを特徴とする請求項4に記載の音声処理装置。 - 前記決定手段は、前記クラスタのペアのうち一方のクラスタに含まれる特徴量の母音区間と、他方のクラスタに含まれる特徴量の母音区間と、が前記音声データの部分区間に共に現れる頻度に基づいて、前記ペアスコアを決定する、
ことを特徴とする請求項5に記載の音声処理装置。 - 音声データに含まれる母音区間の特徴量を取得し、
前記取得した特徴量のうち、同一の母音に対応する特徴量を、教師無し分類法で複数のクラスタに分類し、
前記分類したクラスタの組合せであって、同一の話者に対応する対応組合せを決定する、
ことを特徴とする音声処理方法。 - コンピュータに、
音声データに含まれる母音区間の特徴量を取得する処理、
前記取得した特徴量のうち、同一の母音に対応する特徴量を、教師無し分類法で複数のクラスタに分類する処理、
前記分類したクラスタの組合せであって、同一の話者に対応する対応組合せを決定する処理、
を実行させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013098683A JP6171544B2 (ja) | 2013-05-08 | 2013-05-08 | 音声処理装置、音声処理方法及びプログラム |
US14/251,201 US10037759B2 (en) | 2013-05-08 | 2014-04-11 | Voice processing device, voice processing method, and non-transitory recording medium that stores program |
CN201410189831.8A CN104143332B (zh) | 2013-05-08 | 2014-05-07 | 声音处理装置以及声音处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013098683A JP6171544B2 (ja) | 2013-05-08 | 2013-05-08 | 音声処理装置、音声処理方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014219557A JP2014219557A (ja) | 2014-11-20 |
JP6171544B2 true JP6171544B2 (ja) | 2017-08-02 |
Family
ID=51852490
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013098683A Active JP6171544B2 (ja) | 2013-05-08 | 2013-05-08 | 音声処理装置、音声処理方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US10037759B2 (ja) |
JP (1) | JP6171544B2 (ja) |
CN (1) | CN104143332B (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9368109B2 (en) * | 2013-05-31 | 2016-06-14 | Nuance Communications, Inc. | Method and apparatus for automatic speaker-based speech clustering |
CN105869641A (zh) * | 2015-01-22 | 2016-08-17 | 佳能株式会社 | 语音识别装置及语音识别方法 |
US10133538B2 (en) * | 2015-03-27 | 2018-11-20 | Sri International | Semi-supervised speaker diarization |
US9368110B1 (en) | 2015-07-07 | 2016-06-14 | Mitsubishi Electric Research Laboratories, Inc. | Method for distinguishing components of an acoustic signal |
JP2017120609A (ja) * | 2015-12-24 | 2017-07-06 | カシオ計算機株式会社 | 感情推定装置、感情推定方法及びプログラム |
CN107633843B (zh) * | 2017-09-08 | 2021-01-19 | 深圳大学 | 识别人国籍的方法及装置 |
CN107610691B (zh) * | 2017-09-08 | 2021-07-06 | 深圳大学 | 英语元音发声纠错方法及装置 |
JP7047386B2 (ja) * | 2018-01-10 | 2022-04-05 | セイコーエプソン株式会社 | 異常を警告する方法および異常警告システム |
JP6640896B2 (ja) | 2018-02-15 | 2020-02-05 | 株式会社東芝 | データ処理装置、データ処理方法およびプログラム |
US11024291B2 (en) | 2018-11-21 | 2021-06-01 | Sri International | Real-time class recognition for an audio stream |
KR102655628B1 (ko) * | 2018-11-22 | 2024-04-09 | 삼성전자주식회사 | 발화의 음성 데이터를 처리하는 방법 및 장치 |
CN109903777B (zh) * | 2019-01-15 | 2020-10-27 | 华南理工大学 | 一种基于元音谱空间衰减率的异常说话人与正常说话人区分方法 |
EP3948848B1 (en) * | 2019-03-29 | 2023-07-19 | Microsoft Technology Licensing, LLC | Speaker diarization with early-stop clustering |
CN113129901A (zh) * | 2020-01-10 | 2021-07-16 | 华为技术有限公司 | 一种语音处理方法、介质及系统 |
JP7471139B2 (ja) | 2020-04-30 | 2024-04-19 | 株式会社日立製作所 | 話者ダイアライゼーション装置、及び話者ダイアライゼーション方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3081108B2 (ja) * | 1994-08-11 | 2000-08-28 | 株式会社トレンディ | 話者分類処理装置及び方法 |
AU2003218320A1 (en) * | 2002-03-21 | 2003-10-08 | U.S. Army Medical Research And Materiel Command | Methods and systems for detecting, measuring, and monitoring stress in speech |
JP3980988B2 (ja) | 2002-10-28 | 2007-09-26 | 日本電信電話株式会社 | 音声発生区間検索方法,音声発生区間検索装置,並びにそのプログラムおよびそのプログラムの記録媒体 |
US7664643B2 (en) * | 2006-08-25 | 2010-02-16 | International Business Machines Corporation | System and method for speech separation and multi-talker speech recognition |
JP4909854B2 (ja) * | 2007-09-27 | 2012-04-04 | 株式会社東芝 | 電子機器および表示処理方法 |
JP5022387B2 (ja) * | 2009-01-27 | 2012-09-12 | 日本電信電話株式会社 | クラスタリング計算装置、クラスタリング計算方法、クラスタリング計算プログラム並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2011053569A (ja) * | 2009-09-03 | 2011-03-17 | Nippon Hoso Kyokai <Nhk> | 音響処理装置およびプログラム |
US9262612B2 (en) * | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
CN102543063B (zh) * | 2011-12-07 | 2013-07-24 | 华南理工大学 | 基于说话人分割与聚类的多说话人语速估计方法 |
CN103035239B (zh) * | 2012-12-17 | 2014-10-08 | 清华大学 | 一种基于局部学习的说话人识别方法 |
-
2013
- 2013-05-08 JP JP2013098683A patent/JP6171544B2/ja active Active
-
2014
- 2014-04-11 US US14/251,201 patent/US10037759B2/en active Active
- 2014-05-07 CN CN201410189831.8A patent/CN104143332B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN104143332B (zh) | 2017-10-20 |
CN104143332A (zh) | 2014-11-12 |
US10037759B2 (en) | 2018-07-31 |
US20140337027A1 (en) | 2014-11-13 |
JP2014219557A (ja) | 2014-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6171544B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
JP6596376B2 (ja) | 話者識別方法及び話者識別装置 | |
US10176811B2 (en) | Neural network-based voiceprint information extraction method and apparatus | |
US8935167B2 (en) | Exemplar-based latent perceptual modeling for automatic speech recognition | |
US8675973B2 (en) | Signal classification apparatus | |
CN108346427A (zh) | 一种语音识别方法、装置、设备及存储介质 | |
US8271282B2 (en) | Voice recognition apparatus, voice recognition method and recording medium | |
JP7342915B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
CN108874895B (zh) | 交互信息推送方法、装置、计算机设备及存储介质 | |
US8738378B2 (en) | Speech recognizer, speech recognition method, and speech recognition program | |
US9251808B2 (en) | Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof | |
CN108520752A (zh) | 一种声纹识别方法和装置 | |
KR20180121831A (ko) | 흥미 판정 장치, 흥미 판정 방법, 및 기억 매체 | |
CN102439660A (zh) | 基于置信度得分的语音标签方法和装置 | |
Shivakumar et al. | Simplified and supervised i-vector modeling for speaker age regression | |
CN115457938A (zh) | 识别唤醒词的方法、装置、存储介质及电子装置 | |
JP2020060757A (ja) | 話者認識装置、話者認識方法、及び、プログラム | |
JP5083951B2 (ja) | 音声処理装置およびプログラム | |
JP6996627B2 (ja) | 情報処理装置、制御方法、及びプログラム | |
JP5997813B2 (ja) | 話者分類装置、話者分類方法および話者分類プログラム | |
CN111462762A (zh) | 一种说话人向量正则化方法、装置、电子设备和存储介质 | |
CN113051426A (zh) | 音频信息分类方法、装置、电子设备及存储介质 | |
CN110419078B (zh) | 用于自动语音识别的系统和方法 | |
US20220335928A1 (en) | Estimation device, estimation method, and estimation program | |
JP7107377B2 (ja) | 音声処理装置、音声処理方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160428 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170512 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170606 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170619 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6171544 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |