JP2012242590A - 話者分類装置、話者分類方法、プログラム - Google Patents
話者分類装置、話者分類方法、プログラム Download PDFInfo
- Publication number
- JP2012242590A JP2012242590A JP2011112324A JP2011112324A JP2012242590A JP 2012242590 A JP2012242590 A JP 2012242590A JP 2011112324 A JP2011112324 A JP 2011112324A JP 2011112324 A JP2011112324 A JP 2011112324A JP 2012242590 A JP2012242590 A JP 2012242590A
- Authority
- JP
- Japan
- Prior art keywords
- sub
- segment
- classification
- cluster
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】再抽出手段は、統合済みの音声区間セグメントを再分割し、再分割された音声区間サブセグメントの音響特徴量からサブセグメント代表特徴を抽出する。仮分類手段は、音声区間サブセグメントをサブクラスタに仮分類する。スコアリング手段は、クラスタ毎の各サブクラスタに属する音響特徴量から第1サブクラスタ代表特徴を抽出し、当該第1サブクラスタ代表特徴と同一のサブクラスタに属する音響特徴量との照合スコア平均を仮分類後スコアとし、サブクラスタ数を1としてクラスタ毎にサブクラスタに属する音響特徴量から第2サブクラスタ代表特徴を抽出し、当該第2サブクラスタ代表特徴と同一のサブクラスタに属する音響特徴量との照合スコアの平均を仮分類前スコアとする。再分類判定手段は、仮分類前後のスコア差分が再分類閾値を超える場合にサブクラスタへの仮分類結果に基づいて再分類判定する。
【選択図】図2
Description
チャネル選択部41は例えば、チャネルごとの音声ディジタル信号Si(t)(i=1〜J)と、チャネルごとのパワー値Pi(n)(i=1〜J)とを用いて、一定の値を越えた当該パワー値が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する。例えば、チャネル番号jのパワー値Pj(n)が最大となる場合、つまり
チャネルごとのパワー値Pi(n)(i=1〜J)を用いて、当該パワー値の正規化パワー値をチャネルごとに計算し、当該正規化パワー値をチャネル選択に用いてもよい。以後、チャネルごとの正規化パワー値をP'i(n)(i=1〜J)と表現するものとし、総チャネル数Jを用いて、正規化パワー値P'i(n)は以下の式にて計算することができる。なお、kは任意のチャネルを表すものとする。
チャネル選択には、尤度差ΔLi(n)を用いることもできる。尤度差ΔLi(n)は以下のように計算される。まず、チャネルごとの音声ディジタル信号Si(t)(i=1〜J)と、モノフォンと、モノフォンから構築した音声モデルと、ポーズモデルとを用いて、チャネルごとにモノフォンの尤度を計算してモノフォン最尤スコアを取得する。次に、チャネルごとに音声モデルとポーズモデルの尤度を計算して音声/ポーズモデル最尤スコアを取得し、チャネルごとにモノフォン最尤スコアと音声/ポーズモデル最尤スコアの差分を尤度差として出力する。モノフォンの尤度については、音声ディジタル信号Si(t)(i=1〜J)からチャネルごと、フレームごとに音声特徴量を計算し、計算された音声特徴量を、ポーズを含む全てのモノフォンと照合することで求めることができる。このようにして求められたモノフォンの尤度のうちから最尤となるものをモノフォン最尤スコアとして用いる。音声モデル、ポーズモデルの尤度については、音声ディジタル信号Si(t)(i=1〜J)からチャネルごと、フレームごとに音声特徴量を計算し、計算された音声特徴量を音声GMM(Gaussian Mixture Model:混合正規分布)、無音(ポーズ)HMM(Hidden Markov Model:隠れマルコフモデル)と照合することで音声モデル、ポーズモデルそれぞれの尤度を求めることができる。なお、音声特徴量を音声GMMや無音HMMとの照合については、特願2009−158783(参考特許文献1)に示されている。このようにして求められた音声モデルの尤度、ポーズモデルの尤度のうちから最尤となるものを音声/ポーズモデル最尤スコアとして用いる。以後、チャネルi、フレームnにおけるモノフォン最尤スコアをLi m(n)、音声/ポーズモデル最尤スコアをLi S/P(n)、尤度差をΔLi(n)と表現するものとする。従って尤度差ΔLi(n)=Li m(n)−Li S/P(n)となる。なお、音声モデルはモノフォン全ての学習データから構築したモデルであり、モノフォンに属する混合分布より分散が広くなり、様々なデータで安定した尤度を出力する。明瞭な発声が入力されたチャネルでは、モノフォンの尤度は大きくなり、従ってモノフォン最尤スコアが大きくなるため尤度差ΔLi(n)は大きくなる。また、曖昧な発声や雑音が重畳した音声ではモノフォンの尤度は小さくなり、従ってモノフォン最尤スコアが小さくなるため尤度差ΔLi(n)は小さくなる。従って尤度差ΔLi(n)の値は、チャネルiが雑音が少なく明瞭であることを示す指標となる。尤度の代わりに各モデルに属する混合分布の出現確率を用いることとしてもよい。
チャネル選択には以下の重みづけされたパワー値、重みづけされた尤度差を用いることとしてもよい。例えば、任意のチャネルの連続選択時間長に応じてチャネルごとに重み係数を計算し、当該重み係数により重みづけされたパワー値、もしくは重みづけされた尤度差が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力することができる。例えばチャネルの連続選択時間長に応じて重みづけを行うことができる。この重みづけは例えば以下のように行われる。予めチャネル変更負荷時間Tcを設定しておく。これは例えば1secなどでよい。さらに、例えばチャネルjが任意の過去の時刻から現在に至るまで一定時間連続して選択されている場合、その連続選択時間をtcjと表現し、チャネルごとに重み係数wiを以下のように決定する。任意の時刻から現在に至るまで連続して選択されているチャネルjについての重み係数wj=1とする。従って、過去から現在まで連続して選択され続けているチャネルについては、1よりも小さな重みづけがなされず、選択されやすい状態になる。次にチャネルj以外の任意のチャネルk(k≠j)の重み係数をwk≠j=tcj/Tcとする。ただし、tcj>Tcとなる場合には、tcj=Tcとし、重み係数wiが1を超えて大きくならないようにする。従って、チャネルjが任意の時刻に設定されてから現在に至るまでの経過時間が短い(tcjが小さい)場合には、wk≠j=tcj/Tcの値が小さくなるため、他のチャネルへの遷移が起こりにくくなる。チャネルjが任意の時刻に設定されてから現在に至るまでの経過時間が十分に長い(tcjが大きい)場合には、wk≠j=tcj/Tcの値が大きくなるため、他のチャネルへの遷移が起こりやすくなる。
(参考非特許文献1)小橋川哲、浅見太一、山口義和、阪内澄宇、小川厚徳、政瀧浩和、高橋敏、河原達也、”衆議院会議録作成における音声認識システム−事前音響処理−”、日本音響学会研究発表会講演論文集、3−5−9、春季2011
Claims (11)
- 音声区間ごとに分割された音声信号(以下、音声区間セグメントという)の音響特徴量から、前記音声区間セグメントを代表させる特徴(以下、セグメント代表特徴という)を抽出し、前記抽出されたセグメント代表特徴を用いて前記音声区間セグメントを予め定めた最大クラスタ数P1(P1は2以上の整数)以下に分類し、同一クラスタに分類され、かつ時間的に連続する音声区間セグメントを統合した音声信号(以下、統合済み音声区間セグメントという)を再分類判定する再分類判定部を備える話者分類装置であって、
前記再分類判定部は、
前記クラスタ毎の統合済み音声区間セグメントを予め定めた規則で再分割し、再分割された音声信号(以下、音声区間サブセグメントという)の音響特徴量から、前記音声区間サブセグメントを代表させる特徴(以下、サブセグメント代表特徴という)を抽出する再抽出手段と、
前記抽出されたサブセグメント代表特徴を用いて、前記クラスタ毎に前記音声区間サブセグメントをP2個(P2は2以上の整数)のサブクラスタに仮分類する仮分類手段と、
前記クラスタ毎の各サブクラスタに属する音声区間サブセグメントの音響特徴量から第1サブクラスタ代表特徴を抽出し、当該抽出した第1サブクラスタ代表特徴と、当該第1サブクラスタ代表特徴と同一のサブクラスタに属する音声区間サブセグメントの音響特徴量の照合スコアの平均を仮分類後スコアとして計算し、前記サブクラスタ数を1として前記クラスタ毎にサブクラスタに属する音声区間サブセグメントの音響特徴量から第2サブクラスタ代表特徴を抽出し、当該抽出した第2サブクラスタ代表特徴と、当該第2サブクラスタ代表特徴と同一のサブクラスタに属する音声区間サブセグメントの音響特徴量の照合スコアの平均を仮分類前スコアとして計算するスコアリング手段と、
前記仮分類後スコアと前記仮分類前スコアの差が再分類閾値を超える場合に、前記クラスタ毎の音声区間サブセグメントの集合を前記P2個のサブクラスタへの仮分類結果に基づいて再分類判定する再分類判定手段と、
を備えることを特徴とする話者分類装置。 - 請求項1に記載の話者分類装置であって、
前記再分類判定手段の再分類判定結果に基づいて、前記音声区間サブセグメントの集合をクラスタに再分類するサブセグメント再分類部と、
同一クラスタに再分類され時間的に連続する音声区間サブセグメントを再統合するサブセグメント再統合部と、
をさらに備えることを特徴とする話者分類装置。 - 請求項2に記載の話者分類装置であって、
前記音声区間セグメントの分類、および前記音声区間サブセグメントの再分類の際に、前記音声区間セグメント、および前記音声区間サブセグメントを雑音モデルと照合して照合スコアを計算し、当該照合スコアが予め定めた雑音閾値を超える場合に、前記雑音閾値を超過した音声区間セグメント、又は前記雑音閾値を超過した音声区間サブセグメントを既知雑音に分類する雑音分類部
をさらに備えることを特徴とする話者分類装置。 - 請求項1から3のいずれかに記載の話者分類装置であって、
入力音声のチャネルを切り替えるチャネル選択部をさらに備え、
前記チャネル選択部のチャネル切替え時刻を前記音声区間セグメントの分割に用いること
を特徴とする話者分類装置。 - 請求項4に記載の話者分類装置であって、
前記チャネル選択部のチャネル切替え時刻と、前記再分類判定手段の再分類判定結果とを比較して前記再分類判定結果を再判定するチャネル選択結果統合部
をさらに備えることを特徴とする話者分類装置。 - 音声区間ごとに分割された音声信号(以下、音声区間セグメントという)の音響特徴量から、前記音声区間セグメントを代表させる特徴(以下、セグメント代表特徴という)を抽出し、前記抽出されたセグメント代表特徴を用いて前記音声区間セグメントを予め定めた最大クラスタ数P1(P1は2以上の整数)以下に分類し、同一クラスタに分類され、かつ時間的に連続する音声区間セグメントを統合した音声信号(以下、統合済み音声区間セグメントという)を再分類判定する再分類判定ステップを有する話者分類方法であって、
前記再分類判定ステップは、
前記クラスタ毎の統合済み音声区間セグメントを予め定めた規則で再分割し、再分割された音声信号(以下、音声区間サブセグメントという)の音響特徴量から、前記音声区間サブセグメントを代表させる特徴(以下、サブセグメント代表特徴という)を抽出する再抽出サブステップと、
前記抽出されたサブセグメント代表特徴を用いて、前記クラスタ毎に前記音声区間サブセグメントをP2個(P2は2以上の整数)のサブクラスタに仮分類する仮分類サブステップと、
前記クラスタ毎の各サブクラスタに属する音声区間サブセグメントの音響特徴量から第1サブクラスタ代表特徴を抽出し、当該抽出した第1サブクラスタ代表特徴と、当該第1サブクラスタ代表特徴と同一のサブクラスタに属する音声区間サブセグメントの音響特徴量の照合スコアの平均を仮分類後スコアとして計算し、前記サブクラスタ数を1として前記クラスタ毎にサブクラスタに属する音声区間サブセグメントの音響特徴量から第2サブクラスタ代表特徴を抽出し、当該抽出した第2サブクラスタ代表特徴と、当該第2サブクラスタ代表特徴と同一のサブクラスタに属する音声区間サブセグメントの音響特徴量の照合スコアの平均を仮分類前スコアとして計算するスコアリングサブステップと、
前記仮分類後スコアと前記仮分類前スコアの差が再分類閾値を超える場合に、前記クラスタ毎の音声区間サブセグメントの集合を前記P2個のサブクラスタへの仮分類結果に基づいて再分類判定する再分類判定サブステップと、
を有することを特徴とする話者分類方法。 - 請求項6に記載の話者分類方法であって、
前記再分類判定サブステップの再分類判定結果に基づいて、前記音声区間サブセグメントの集合をクラスタに再分類するサブセグメント再分類ステップと、
同一クラスタに再分類され時間的に連続する音声区間サブセグメントを再統合するサブセグメント再統合ステップと、
をさらに有することを特徴とする話者分類方法。 - 請求項7に記載の話者分類方法であって、
前記音声区間セグメントの分類、および前記音声区間サブセグメントの再分類の際に、前記音声区間セグメント、および前記音声区間サブセグメントを雑音モデルと照合して照合スコアを計算し、当該照合スコアが予め定めた雑音閾値を超える場合に、前記雑音閾値を超過した音声区間セグメント、又は前記雑音閾値を超過した音声区間サブセグメントを既知雑音に分類する雑音分類ステップ
をさらに有することを特徴とする話者分類方法。 - 請求項6から8のいずれかに記載の話者分類方法であって、
入力音声のチャネルを切り替えるチャネル選択ステップをさらに備え、
前記チャネル選択ステップのチャネル切替え時刻を前記音声区間セグメントの分割に用いること
を特徴とする話者分類方法。 - 請求項9に記載の話者分類方法であって、
前記チャネル選択ステップのチャネル切替え時刻と、前記再分類判定サブステップの再分類判定結果とを比較して前記再分類判定結果を再判定するチャネル選択結果統合ステップ
をさらに有することを特徴とする話者分類方法。 - 請求項6から10の何れかに記載の話者分類方法を実行すべき指令をコンピュータに対してするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011112324A JP5496945B2 (ja) | 2011-05-19 | 2011-05-19 | 話者分類装置、話者分類方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011112324A JP5496945B2 (ja) | 2011-05-19 | 2011-05-19 | 話者分類装置、話者分類方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012242590A true JP2012242590A (ja) | 2012-12-10 |
JP5496945B2 JP5496945B2 (ja) | 2014-05-21 |
Family
ID=47464371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011112324A Active JP5496945B2 (ja) | 2011-05-19 | 2011-05-19 | 話者分類装置、話者分類方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5496945B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015153240A (ja) * | 2014-02-17 | 2015-08-24 | 株式会社東芝 | パターン認識装置、パターン認識方法およびプログラム |
CN111429935A (zh) * | 2020-02-28 | 2020-07-17 | 北京捷通华声科技股份有限公司 | 一种语音话者分离方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010032792A (ja) * | 2008-07-29 | 2010-02-12 | Nippon Telegr & Teleph Corp <Ntt> | 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体 |
JP2010113167A (ja) * | 2008-11-06 | 2010-05-20 | Neikusu:Kk | 有害顧客検知システム、その方法及び有害顧客検知プログラム |
JP2010175614A (ja) * | 2009-01-27 | 2010-08-12 | Nippon Telegr & Teleph Corp <Ntt> | クラスタリング計算装置、クラスタリング計算方法、クラスタリング計算プログラム並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
-
2011
- 2011-05-19 JP JP2011112324A patent/JP5496945B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010032792A (ja) * | 2008-07-29 | 2010-02-12 | Nippon Telegr & Teleph Corp <Ntt> | 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体 |
JP2010113167A (ja) * | 2008-11-06 | 2010-05-20 | Neikusu:Kk | 有害顧客検知システム、その方法及び有害顧客検知プログラム |
JP2010175614A (ja) * | 2009-01-27 | 2010-08-12 | Nippon Telegr & Teleph Corp <Ntt> | クラスタリング計算装置、クラスタリング計算方法、クラスタリング計算プログラム並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015153240A (ja) * | 2014-02-17 | 2015-08-24 | 株式会社東芝 | パターン認識装置、パターン認識方法およびプログラム |
CN111429935A (zh) * | 2020-02-28 | 2020-07-17 | 北京捷通华声科技股份有限公司 | 一种语音话者分离方法和装置 |
CN111429935B (zh) * | 2020-02-28 | 2023-08-29 | 北京捷通华声科技股份有限公司 | 一种语音话者分离方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
JP5496945B2 (ja) | 2014-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3482392B1 (en) | Method and system for automatically diarising a sound recording | |
JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
US7664643B2 (en) | System and method for speech separation and multi-talker speech recognition | |
JP5052449B2 (ja) | 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体 | |
US11837236B2 (en) | Speaker recognition based on signal segments weighted by quality | |
Das et al. | Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model | |
US10748544B2 (en) | Voice processing device, voice processing method, and program | |
KR101616112B1 (ko) | 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법 | |
JP2018081169A (ja) | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム | |
JP6487650B2 (ja) | 音声認識装置及びプログラム | |
JP5496945B2 (ja) | 話者分類装置、話者分類方法、プログラム | |
JP6220733B2 (ja) | 音声分類装置、音声分類方法、プログラム | |
JP2012053218A (ja) | 音響処理装置および音響処理プログラム | |
JP5427140B2 (ja) | 音声認識方法、音声認識装置及び音声認識プログラム | |
JP4922377B2 (ja) | 音声認識装置とその方法と、プログラム | |
JP7279800B2 (ja) | 学習装置、推定装置、それらの方法、およびプログラム | |
JP5369079B2 (ja) | 音響モデル作成方法とその装置とプログラム | |
JP5342621B2 (ja) | 音響モデル生成装置、音響モデル生成方法、プログラム | |
Bharathi et al. | GMM and i-vector based speaker verification using speaker-specific-text for short utterances | |
WO2020049687A1 (ja) | 音声処理装置、音声処理方法、およびプログラム記録媒体 | |
Zeng et al. | Adaptive context recognition based on audio signal | |
US12125474B2 (en) | Learning apparatus, estimation apparatus, methods and programs for the same | |
JP5136621B2 (ja) | 情報検索装置及び方法 | |
JP2021092809A (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
JP5235849B2 (ja) | 音声認識装置とその方法と、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130710 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140123 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140225 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140305 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5496945 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |