JP6594839B2 - 話者数推定装置、話者数推定方法、およびプログラム - Google Patents

話者数推定装置、話者数推定方法、およびプログラム Download PDF

Info

Publication number
JP6594839B2
JP6594839B2 JP2016200546A JP2016200546A JP6594839B2 JP 6594839 B2 JP6594839 B2 JP 6594839B2 JP 2016200546 A JP2016200546 A JP 2016200546A JP 2016200546 A JP2016200546 A JP 2016200546A JP 6594839 B2 JP6594839 B2 JP 6594839B2
Authority
JP
Japan
Prior art keywords
speaker
feature vector
speaker feature
program
speakers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016200546A
Other languages
English (en)
Other versions
JP2018063313A (ja
Inventor
厚志 安藤
太一 浅見
義和 山口
哲 小橋川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016200546A priority Critical patent/JP6594839B2/ja
Publication of JP2018063313A publication Critical patent/JP2018063313A/ja
Application granted granted Critical
Publication of JP6594839B2 publication Critical patent/JP6594839B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、マイクロホンによる収録音に含まれる話者の数を推定する技術に関する。
収録音から「いつ、だれが話したか」を推定する技術は、話者ダイアライゼーション技術と呼ばれている。話者ダイアライゼーション技術は、例えば会議音声に対する会議の自動アノテーションや話者のインデキシング、議事録自動作成などへの応用が期待できる。
話者ダイアライゼーションでは、まず収録音に対して音声区間検出を行い、「いつ」話したかを推定する。次に、音声区間に対して特徴量抽出を行った後、特徴量をクラスタリングすることで話者が同じである音声区間を推定する。特徴量は、例えばメル周波数ケプストラム係数(MFCC: Mel-Frequency Cepstrum Coefficient)が用いられ、複数チャネルで収録した場合は、到来方向推定により求めた音源の到来方向(DOA: Direction of arrival)が用いられる(例えば、非特許文献1参照)。
特徴量をクラスタリングする際には、クラスタ数が既知であることが望ましい。これは、クラスタ数を未知とするクラスタリングアルゴリズム(例えばボトムアップクラスタリングなど)に比べ、クラスタ数を既知とするクラスタリングアルゴリズムの方が雑音に頑健であり、クラスタリング精度が高いとされているためである。話者ダイアライゼーションにおいては、クラスタ数は収録音に含まれる話者数と等価であることから、収録音に含まれる話者数を得ることで、話者ダイアライゼーションの雑音頑健性および精度が向上すると言える。
収録音に含まれる話者数を推定する従来技術として、到来方向推定に基づく手法が提案されている(例えば、非特許文献2参照)。到来方向推定に基づく従来技術では、時間ごとに音声の到来方向を推定し、その到来方向の分布に基づいて話者数を推定する。
X. Anguera, S. Bozonnet, N. Evans, C. Fredouille, G. Friedland, O. Vinyals, "Speaker Diarization: A Review of Recent Research," in IEEE Trans. on Audio, Speech, and Language Processing, vol. 20, no. 2, pp. 356-370, 2012. K. Ishiguro, T. Yamada, S. Araki and T. Nakatani, "A Probabilistic Speaker Clustering for DOA-Based Diarization," in IEEE WASPAA 2009, pp. 241-244, 2009.
従来技術では、到来方向の情報を利用するため、少なくとも2本以上のマイクロホンで収録を行う必要がある。一方で、会議音声の収録にはICレコーダ等の単一のマイクロホンが用いられることが多く、このような場合には従来技術を適用することができない。
この発明の目的は、上述のような点に鑑みて、単一のマイクロホンによる収録音に含まれる話者数を推定することができる話者数推定技術を提供することである。
上記の課題を解決するために、この発明の話者数推定装置は、単一のマイクロホンで収録した収録音から音声区間を抽出する音声区間抽出部と、音声区間ごとに話者特徴ベクトルを抽出する話者特徴ベクトル抽出部と、話者特徴ベクトルに対して主成分分析を行い、寄与率が所定の値より大きい主成分の数を収録音に含まれる話者数として出力する話者数推定部と、を含む。
この発明によれば、単一のマイクロホンによる収録音に含まれる話者数を推定することが可能となる。この結果、話者ダイアライゼーションの精度が向上する。
図1は、この発明と従来技術との相違点を説明するための図である。 図2は、実際の話者数と主成分分析結果との関係を説明するための図である。 図3は、話者数推定装置の機能構成を例示する図である。 図4は、話者数推定方法の処理手続きを例示する図である。
最初に発明の概要を説明する。この発明のポイントは、音声区間ごとに話者特徴ベクトルを抽出する点と、収録音に含まれる話者特徴ベクトルの主成分に着目する点にある。以下、各ポイントについて詳しく説明する。
話者特徴ベクトルはテキスト非依存型の話者認識において広く用いられており、任意の長さの音声から抽出可能な話者性を表現するベクトルである。話者特徴ベクトルは単一のマイクロホンによる収録音からも求めることができる。話者特徴ベクトルの抽出および話者特徴抽出モデルの事前学習方法は下記参考文献1に開示されている。
〔参考文献1〕小川哲司、塩田さやか、“i-vectorを用いた話者認識”、日本音響学会誌、vol. 70(6)、pp. 332-339、2014年6月
話者特徴ベクトルは、理想的には、同一話者であればどの音声区間からも同じものが抽出される(図1A参照)。このことから、収録音全体での話者特徴ベクトル系列の行列に対して、独立な話者特徴ベクトルの数が収録音に含まれる話者数であると考えられる。しかしながら、実際には、同一話者であっても残響や雑音の影響を受けてわずかに異なるものとなり、同じ話者特徴ベクトルが抽出されることはない(図1B参照)。この性質を考慮して、この発明では、話者特徴ベクトル系列に主成分分析を行い、寄与率が一定以上である主成分の数を収録音に含まれる話者数とする。このとき、話者特徴ベクトルは話者内での分散(例えば、残響や雑音の影響による変動)に比べて話者間の変動が大きいと仮定しており、寄与率が一定以下である主成分は残響や雑音の影響による話者特徴ベクトルの変動とみなす。
図2は、2名の話者が含まれる収録音(A)および4名の話者が含まれる収録音(B)それぞれに対して、抽出した話者特徴ベクトル系列を主成分分析したときの寄与率の例である。図2では寄与率が高い主成分を点線で囲んでいるが、寄与率が高い主成分の数と収録音に含まれる話者数とが一致していることがわかる。
以下、この発明の実施の形態について詳細に説明する。この発明の実施形態は、単一のマイクロホンによる収録音を入力とし、その収録音に含まれる話者の数を推定して出力する話者数推定装置および方法である。
実施形態の話者数推定装置は、図3に例示するように、音声区間検出部1、話者特徴ベクトル抽出部2、話者数推定部3、UBMモデル記憶部4、および話者特徴抽出モデル記憶部5を含む。この話者数推定装置が、図4に例示する各ステップの処理を行うことにより実施形態の話者数推定方法が実現される。
話者数推定装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。話者数推定装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。話者数推定装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。話者数推定装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
UBMモデル記憶部4には、話者特徴ベクトルを抽出する際に用いるユニバーサルバックグラウンドモデル(UBM: Universal Background Model、以下UBMモデルと呼ぶ)が記憶されている。UBMモデルは音声のモデルを表すガウス混合モデル(GMM: Gaussian Mixture Model)である。UBMモデルは事前学習により得ているものとする。
話者特徴抽出モデル記憶部5には、話者特徴ベクトルを抽出する際に用いる話者特徴抽出モデルが記憶されている。話者特徴抽出モデルは、上記参考文献1に記載されたパラメータT, Σである。話者特徴抽出モデルは事前学習により得ているものとする。
ステップS1において、音声区間検出部1は、単一のマイクロホンで収録された収録音を入力とし、その収録音に対して音声区間検出を行い、一つ以上の音声区間を得る。音声区間の検出は、例えば、パワーのしきい値に基づく手法を利用することができる。この手法では、例えばフレーム幅25ミリ秒、シフト幅10ミリ秒ごとに音声を分割し、フレーム内のパワーの総和が一定以上である場合は当該フレームを音声とみなし、そうでない場合は非音声とみなす。そして、音声と判定されたフレームが連続する区間をまとめて一つの音声区間とする。また、音声区間の検出は、パワーのしきい値に基づく手法とは異なるアルゴリズムを用いてもよい。例えば、音声・雑音GMMモデルの尤度比に基づく手法などを用いることができる。検出した音声区間の情報は話者特徴ベクトル抽出部2へ送られる。
ステップS2において、話者特徴ベクトル抽出部2は、音声区間検出部1から音声区間の情報を受け取り、音声区間ごとに話者特徴ベクトルを抽出し、話者特徴ベクトル系列を得る。話者特徴ベクトルとしては、例えば、i-vectorを用いることができる。i-vectorの抽出方法は、上記参考文献1に記載されている。話者特徴ベクトル抽出部2は、はじめに、1つの音声区間に対し、音響特徴ベクトル系列を求める。音響特徴ベクトルはメル周波数ケプストラム係数(MFCC)の各次元の値をベクトル表記したものを用いるものとし、MFCC抽出のフレーム幅は例えば25ミリ秒、シフト幅は例えば10ミリ秒とする。次に、話者特徴ベクトル抽出部2は、音響特徴ベクトル系列からi-vectorを抽出する。i-vectorの抽出には、UBMモデル記憶部4に記憶されているUBMモデルおよび話者特徴抽出モデル記憶部5に記憶されている話者特徴抽出モデルを用いる。音声区間1つに対しi-vectorを1つ抽出し、これらを時系列に並べることで話者特徴ベクトル系列を得る。抽出した話者特徴ベクトル系列は話者数推定部3へ送られる。
ステップS3において、話者数推定部3は、話者特徴ベクトル抽出部2から話者特徴ベクトル系列を受け取り、その話者特徴ベクトル系列から話者数の推定を行う。話者数推定部3は、はじめに、話者特徴ベクトル系列に対して主成分分析を適用する。これにより、話者特徴ベクトル系列の主成分と、主成分ごとの寄与率を得る。次に、話者数推定部3は、主成分ごとの寄与率に対して、しきい値よりも大きい主成分の数を話者数として出力する。寄与率のしきい値は人手により設定するものとし、例えば0.08とする。
上記のように構成することにより、実施形態の話者数推定装置によれば、単一のマイクロホンで収録した収録音であっても、話者数を推定することができる。これにより、話者ダイアライゼーションにおいてクラスタ数が既知のアルゴリズムを用いることが可能となり、雑音頑健性および精度が向上する。
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1 音声区間検出部
2 話者特徴ベクトル抽出部
3 話者数推定部
4 UBMモデル記憶部
5 話者特徴抽出モデル記憶部

Claims (3)

  1. 単一のマイクロホンで収録した収録音から音声区間を抽出する音声区間抽出部と、
    上記音声区間ごとに話者特徴ベクトルを抽出する話者特徴ベクトル抽出部と、
    上記話者特徴ベクトルに対して主成分分析を行い、寄与率が所定の値より大きい主成分の数を上記収録音に含まれる話者数として出力する話者数推定部と、
    を含む話者数推定装置。
  2. 単一のマイクロホンで収録した収録音から音声区間を抽出する音声区間抽出ステップと、
    上記音声区間ごとに話者特徴ベクトルを抽出する話者特徴ベクトル抽出ステップと、
    上記話者特徴ベクトルに対して主成分分析を行い、寄与率が所定の値より大きい主成分の数を上記収録音に含まれる話者数として出力する話者数推定ステップと、
    を含む話者数推定方法。
  3. 請求項1に記載の話者数推定装置としてコンピュータを機能させるためのプログラム。
JP2016200546A 2016-10-12 2016-10-12 話者数推定装置、話者数推定方法、およびプログラム Active JP6594839B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016200546A JP6594839B2 (ja) 2016-10-12 2016-10-12 話者数推定装置、話者数推定方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016200546A JP6594839B2 (ja) 2016-10-12 2016-10-12 話者数推定装置、話者数推定方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2018063313A JP2018063313A (ja) 2018-04-19
JP6594839B2 true JP6594839B2 (ja) 2019-10-23

Family

ID=61967766

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016200546A Active JP6594839B2 (ja) 2016-10-12 2016-10-12 話者数推定装置、話者数推定方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6594839B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7287442B2 (ja) * 2018-06-27 2023-06-06 日本電気株式会社 情報処理装置、制御方法、及びプログラム
CN110265060B (zh) * 2019-06-04 2021-05-11 广东工业大学 一种基于密度聚类的说话人数目自动检测方法
KR102396136B1 (ko) * 2020-06-02 2022-05-11 네이버 주식회사 멀티디바이스 기반 화자분할 성능 향상을 위한 방법 및 시스템
KR102482827B1 (ko) * 2020-11-30 2022-12-29 네이버 주식회사 화자 임베딩 기반 음성 활동 검출을 이용한 화자 분할 방법, 시스템, 및 컴퓨터 프로그램
JP7103681B2 (ja) * 2020-12-18 2022-07-20 株式会社ミルプラトー 音声認識プログラム、音声認識方法、音声認識装置および音声認識システム
KR102560019B1 (ko) * 2021-01-15 2023-07-27 네이버 주식회사 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램
CN113077784B (zh) * 2021-03-31 2022-06-14 重庆风云际会智慧科技有限公司 一种角色识别智能语音设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5022387B2 (ja) * 2009-01-27 2012-09-12 日本電信電話株式会社 クラスタリング計算装置、クラスタリング計算方法、クラスタリング計算プログラム並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4960416B2 (ja) * 2009-09-11 2012-06-27 ヤフー株式会社 話者クラスタリング装置および話者クラスタリング方法

Also Published As

Publication number Publication date
JP2018063313A (ja) 2018-04-19

Similar Documents

Publication Publication Date Title
JP6594839B2 (ja) 話者数推定装置、話者数推定方法、およびプログラム
US9626970B2 (en) Speaker identification using spatial information
US9489965B2 (en) Method and apparatus for acoustic signal characterization
JP7218601B2 (ja) 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム
JP2008158035A (ja) 多音源有音区間判定装置、方法、プログラム及びその記録媒体
CN113284507B (zh) 语音增强模型的训练方法和装置及语音增强方法和装置
JP2010054733A (ja) 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体
EP3392883A1 (en) Method for processing an input audio signal and corresponding electronic device, non-transitory computer readable program product and computer readable storage medium
JP6553015B2 (ja) 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
JP2010175431A (ja) 音源方向推定装置とその方法と、プログラム
US9601124B2 (en) Acoustic matching and splicing of sound tracks
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
JP6815956B2 (ja) フィルタ係数算出装置、その方法、及びプログラム
WO2020195924A1 (ja) 信号処理装置および方法、並びにプログラム
US10825469B2 (en) System and method for voice activity detection and generation of characteristics respective thereof
JP2013235050A (ja) 情報処理装置及び方法、並びにプログラム
JP2017097160A (ja) 音声処理装置、音声処理方法、およびプログラム
JP5496945B2 (ja) 話者分類装置、話者分類方法、プログラム
JP2020012928A (ja) 耐雑音音声認識装置及び方法、並びにコンピュータプログラム
US20200388298A1 (en) Target sound enhancement device, noise estimation parameter learning device, target sound enhancement method, noise estimation parameter learning method, and program
JP6059112B2 (ja) 音源分離装置とその方法とプログラム
JP2018191255A (ja) 収音装置、その方法、及びプログラム
JP5651567B2 (ja) 音響モデル適応装置、音響モデル適応方法、およびプログラム
JP2019090930A (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
US11894017B2 (en) Voice/non-voice determination device, voice/non-voice determination model parameter learning device, voice/non-voice determination method, voice/non-voice determination model parameter learning method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190904

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190925

R150 Certificate of patent or registration of utility model

Ref document number: 6594839

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150