JP7143955B2 - 推定装置、推定方法、および、推定プログラム - Google Patents

推定装置、推定方法、および、推定プログラム Download PDF

Info

Publication number
JP7143955B2
JP7143955B2 JP2021541355A JP2021541355A JP7143955B2 JP 7143955 B2 JP7143955 B2 JP 7143955B2 JP 2021541355 A JP2021541355 A JP 2021541355A JP 2021541355 A JP2021541355 A JP 2021541355A JP 7143955 B2 JP7143955 B2 JP 7143955B2
Authority
JP
Japan
Prior art keywords
speaker
estimation
cluster
attribute
speaker attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021541355A
Other languages
English (en)
Other versions
JPWO2021033233A1 (ja
Inventor
直弘 俵
歩相名 神山
哲 小橋川
厚徳 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021033233A1 publication Critical patent/JPWO2021033233A1/ja
Application granted granted Critical
Publication of JP7143955B2 publication Critical patent/JP7143955B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、対象者(話者)の音声に基づいて話者の属性を推定する推定装置、推定方法、および、推定プログラムに関する。
従来、話者の音声から、話者の属性(話者属性)を推定する技術がある。例えば、話者属性として、年齢(子供:CH/大人:AD/老人:EL)及び性別(男性:MA/女性:FE)の組み合わせからなる6クラス(CH-MA,CH-FE,AD-MA,AD-FE,EL-MA,EL-FE)を想定した場合、当該技術により、話者が上記の6クラスのうち、いずれのクラスに属するかを推定することができる。その結果、例えば、話者の属性に合わせたインタフェースを提供したり、コールセンタ等において話者の属性に合わせたオペレータの対応を機械的に支援したりすることができる。なお、非特許文献1には、発話単位の音響特徴量(MFCC(Mel-Frequency Cepstrum Coefficients)等)を入力とし、DNN(Deep Neural Network)を用いて話者のクラスを推定する技術が開示されている。
Pegah Ghahremani, Phani Sankar Nidadavolu, Nanxin Chen, Jesus Villalba, Daniel Povey, Sanjeev Khudanpur, Najim Dehak, "End-to-End Deep Neural Network Age Estimation", pp.277-281, 2018.
ここで、未知の話者に対しても頑健な推定が可能なモデルを構築するためには、正解の話者属性を付与した大量の教師データが必要となる。しかしながら、一般的に入手しやすい教師データ用の音声データセットにはこのような話者属性が付与されていないことが多いため、学習に充分な量の教師データを用意するにはコストがかかる。また、充分な量の教師データが用意できないと、過学習により、未知の話者に対する話者属性の推定精度が低下してしまうという問題がある。
そこで、本発明は、前記した問題を解決し、話者属性が付与された充分な量の教師データがなくとも、話者属性を精度よく推定することを課題とする。
前記した課題を解決するため、話者属性の推定対象の音声信号を含む音声信号群を複数のクラスタにクラスタリングするクラスタリング部と、前記複数のクラスタの中から、前記推定対象の音声信号の属するクラスタを特定するクラスタ特定部と、音声信号の特徴量に基づき前記音声信号の話者属性を推定するための学習済みの話者属性推定モデルを用いて、前記特定したクラスタ内の音声信号の話者属性の推定を行う第1の話者属性推定部と、前記特定したクラスタ内の音声信号の話者属性の推定結果を用いて、当該クラスタ全体の属性を推定し、当該クラスタ全体の話者属性の推定結果を、前記推定対象の音声信号の話者属性の推定結果として出力する第2の話者属性推定部と、を備えることを特徴とする。
本発明によれば、話者属性が付与された充分な量の教師データがなくとも、話者属性を精度よく推定することができる。
図1は、第1の実施形態の推定装置の概要を説明するための図である。 図2は、第1の実施形態の推定装置の構成例を示す図である。 図3は、第1の実施形態の推定装置の処理手順の例を示すフローチャートである。 図4は、第2の実施形態の推定装置の構成例を示す図である。 図5は、第2の実施形態の推定装置の処理手順の例を示すフローチャートである。 図6は、第1の実施形態の推定装置による話者属性の分類の実験結果を示す図である。 図7は、推定プログラムを実行するコンピュータの例を示す図である。
以下、図面を参照しながら、本発明を実施するための形態(実施形態)を第1の実施形態および第2の実施形態に分けて説明する。各実施形態の推定装置は、話者属性の推定対象の音声信号を入力として、その音声信号の話者属性を推定する。本発明は以下に説明する各実施形態に限定されない。
[第1の実施形態]
[概要]
第1の実施形態の推定装置の概要を説明する。推定装置は、従来技術のように話者属性の推定対象の音声信号(対象者の音声信号)のみに基づいて話者属性を推定するのではなく、対象者の音声信号以外の音声信号を含む音声信号の属するクラスタ内の話者属性の推定結果を用いて、対象者の話者属性を推定する。つまり、推定装置は、対象者の音声信号の属するクラスタ内の音声信号(つまり、対象者の音声信号と似ている音声信号)の話者属性の推定結果を用いて、対象者の話者属性を推定することを特徴とする。このことを、図1を参照しながら説明する。
推定装置は、例えば、対象者の音声信号を含む音声信号群をクラスタC,C,Cにクラスタリングする。そして、推定装置は、クラスタC,C,Cそれぞれについて当該クラスタに属する音声信号の話者属性(例えば、h~h)を推定する。ここでの話者属性の推定には、音声信号の特徴量(音声特徴量)と、学習済みの話者属性推定モデル(音声特徴量に基づき当該音声信号の話者属性を推定するためのモデル)とを用いる。
ここで、推定装置は、当該クラスタに属する各音声信号の話者属性の推定結果に基づき、当該クラスタ全体の属性の推定を行う。例えば、推定装置は、対象者の音声信号がクラスタCに属し、当該クラスタC内の音声信号それぞれの話者属性の推定結果がh、hおよびhである場合を考える。この場合、クラスタCにはhの話者属性が最も多いので、推定装置は、クラスタC全体の属性をhと推定し、対象者の音声信号の話者属性もhと推定する。
つまり、「音声特徴量が類似する話者は同じクラスタに分類されやすい」との仮定に基づき、推定装置は、対象者の音声信号の属するクラスタと同じクラスタの音声信号に対して付与される確率の高い話者属性を当該対象者の話者属性として推定する。
このような推定装置によれば、例えば、話者属性が付与された充分な量の教師データがなくとも、話者属性を精度よく推定することができる。
[構成]
次に、図2を用いて推定装置10の構成例を説明する。推定装置10は、例えば、音声データ記憶部111と、話者属性推定モデル112と、クラスタリング部131と、クラスタ特定部132と、音声データ選択部133と、第1の話者属性推定部134と、制御部135と、第2の話者属性推定部136とを備える。
音声データ記憶部111は、様々な話者の音声信号が蓄積される。なお、この音声データ記憶部111に蓄積される音声信号には話者の属性ラベルが付与されている必要はない。
話者属性推定モデル112は、音声信号の特徴量を入力として、当該音声信号の話者属性を推定するためのモデルである。この話者属性推定モデル112は、入力された音声信号の特徴量から当該音声信号の話者属性を推定するよう、教師データによる学習を実施済みであるものとする。この話者属性推定モデル112は、例えば、非特許文献1等の手法により予め学習されたニューラルネットワークにより実現される。
なお、音声データ記憶部111および話者属性推定モデル112は、例えば、推定装置10の記憶部(図示省略)に装備される。この音声データ記憶部111および話者属性推定モデル112は、推定装置10の外部に設置されていてもよい。
クラスタリング部131は、音声信号のクラスタリングを行う。例えば、クラスタリング部131は、対象者の音声信号と、音声データ記憶部111に蓄積されている音声信号とをクラスタリングする。
例えば、クラスタリング部131は、対象者の音声信号と音声データ記憶部111に蓄積された音声信号とから、それぞれの話者表現ベクトルを抽出し、この話者表現ベクトルを、k-means法等でクラスタリングする。話者表現ベクトルの抽出は、例えば、以下の文献1に示す技術を用いる。
文献1:N Dehak, PJ Kenny, R Dehak, P Dumouchel, P Ouellet, “Front-End Factor Analysis for Speaker Verification”, IEEE Transactions on Audio, Speech, and Language Processing 19 (4), 788-798 (2010)
クラスタ特定部132は、クラスタリング部131によるクラスタリングにより得られたクラスタのうち、対象者の音声信号が属するクラスタ(分析対象クラスタ)を特定する。
音声データ選択部133は、クラスタ特定部132で特定した分析対象クラスタに属する音声信号の中から、後述の第1の話者属性推定部134によりまだ話者属性が推定されていない音声信号を1つ選択する。
第1の話者属性推定部134は、音声データ選択部133で選択した音声信号の話者属性を推定する。具体的には、第1の話者属性推定部134は、音声データ選択部133で選択した音声信号(具体的には当該音声信号の音響特徴量)を話者属性推定モデル112に入力することにより、当該音声信号の話者属性を推定する。第1の話者属性推定部134が上記の処理を繰り返すことにより、分析対象クラスタに属する各音声信号の話者属性を推定する。
制御部135は、クラスタ特定部132で特定した分析対象クラスタに属する所定数の音声信号について、第1の話者属性推定部134により話者属性の推定を行わせるように制御する。
例えば、制御部135は、クラスタ特定部132で特定した分析対象クラスタに属する音声信号中に、まだ第1の話者属性推定部134により推定していない音声信号がある場合は、音声データ選択部133に、まだ話者属性が推定されていない音声信号を選択させる。そして、分析対象クラスタに属する音声信号中に、第1の話者属性推定部134により推定していない音声信号がなければ、第2の話者属性推定部136による処理を実行させる。
なお、後述するように、第2の話者属性推定部136は、上記の処理により得られた分析対象クラスタに属する各音声信号に対する話者属性の推定結果について多数決を取ることで、対象者の音声信号の話者属性を推定する。よって、分析対象クラスタ内の音声信号のうち、多数決を取れる程度の数の音声信号について話者属性の推定結果が出ていればよい。したがって、分析対象クラスタに属する音声信号の数が膨大な場合は、制御部135は、その一部について話者属性の推定を実施するようすれば、分析対象クラスタ内の全ての音声信号について話者属性の推定を行うことは必須ではない。
第2の話者属性推定部136は、第1の話者属性推定部134により推定された、分析対象クラスタ内の音声信号の話者属性の推定結果を用いて、当該分析対象クラスタ全体の話者属性を推定する。そして、第2の話者属性推定部136は、当該分析対象クラスタ全体の話者属性の推定結果を、対象者の音声信号の話者属性の推定結果として出力する。
換言すると、第2の話者属性推定部136は、第1の話者属性推定部134による分析対象クラスタの音声信号の話者属性の推定結果を用いて、当該分析対象クラスタ内の音声信号に対して付与されやすい話者属性を、対象者の音声信号に対する話者属性として推定する。
例えば、第2の話者属性推定部136が、対象者の音声信号に対して尤もらしいと思われる話者属性を1つ推定して出力する場合は、分析対象クラスタ内の音声信号に付与され話者属性のうち最も多い話者属性を対象者の音声信号の話者属性として決定する。
あるいは、第2の話者属性推定部136が、対象者の音声信号に対して、話者属性ごとに当該話者属性である確率を出力する場合は、分析対象クラスタ内の音声信号の話者属性に付与された確率を足し合わせた結果、最も確率が高くなる話者属性を対象者の音声信号に対する話者属性として決定する。
[処理手順]
次に図3を用いて、推定装置10の処理手順の例を説明する。まず、推定装置10が対象者の音声信号(推定対象の音声信号)の入力を受け付けると(S1)、クラスタリング部131は、推定対象の音声信号と、音声データ記憶部111の音声信号とをクラスタリングする(S2)。そして、クラスタ特定部132は、推定対象の音声信号の属するクラスタ(分析対象クラスタ)を特定する(S3)。
S3の後、第1の話者属性推定部134は、話者属性推定モデル112を用いて、S3で特定されたクラスタ(分析対象クラスタ)に属する音声信号の話者属性を推定する(S4)。そして、第2の話者属性推定部136は、S3で特定されたクラスタ(分析対象クラスタ)に属する音声信号の話者属性の推定結果に基づき、推定対象の音声信号の話者属性を推定する(S5)。つまり、第2の話者属性推定部136は、分析対象クラスタに属する音声信号それぞれの話者属性の推定結果に基づき、当該分析対象クラスタ内の音声信号に対して付与されやすい話者属性を推定する。そして、第2の話者属性推定部136は、当該分析対象クラスタ内の音声信号に対して付与されやすい属性を、推定対象の音声信号の話者属性として推定する。その後、第2の話者属性推定部136は、当該推定対象の音声信号の話者属性の推定結果を出力する(S6)。
このようにすることで、推定装置10は、話者属性が付与された充分な量の教師データがなくとも、音声信号の話者属性を精度よく推定することができる。
なお、推定装置10の第1の話者属性推定部134および話者属性推定モデル112がニューラルネットワークにより実現される場合、第1の話者属性推定部134は、例えば、以下のようにして処理を行う。
例えば、前後10フレームを結合し得られた21フレーム分の音声特徴量を、上記のニューラルネットワークへの入力とする場合、当該ニューラルネットワークは、1層の畳み込み層と4層の全結合層を経て、話者属性の数(クラス数)と同じ次元のベクトルを出力する。なお、以下の説明においてニューラルネットワークの最下層から第1層、第2層…と呼ぶこととする。
例えば、当該ニューラルネットワークの第1層は、畳み込み層で、中心フレームの前後10フレームを入力とし512次元のベクトルに変換して出力する。また、当該ニューラルネットワークの第2層から第4層では、下層の出力である512次元のベクトルを全結合層により512次元のベクトルに変換して出力する。さらに、当該ニューラルネットワークの第5層では、第4層の出力である512次元ベクトルを全結合層により変換し、クラス数と同じ6次元ベクトルを出力する。
また、当該ニューラルネットワークの第6層では、第5層から21フレームごとに得られる6次元ベクトルに対し、発話単位で平均をとった後に正解クラスラベルとのソフトマックス損失を算出することで、発話単位での6クラス分類を行う。
[第2の実施形態]
[概要]
第2の実施形態の推定装置10aの概要を説明する。第1の実施形態と同じ構成は同じ符号を付して説明を省略する。第2の実施形態の推定装置10aは、複数の音声信号(音声信号の集合)の話者属性を推定する。なお、推定装置10aにより推定された音声信号の集合の話者属性の推定結果は、例えば、他の分析・解析処理に利用したり、教師データとして他のAIのモデル学習に用いたりすることができる。
[構成]
図4を用いて推定装置10aの構成例を説明する。推定装置10aは、例えば、クラスタリング部131aと、クラスタ選択部132aと、音声データ選択部133aと、第3の話者属性推定部134aと、制御部135aと、第4の話者属性推定部136aと、終了判定部137とを備える。
クラスタリング部131aは、推定対象の音声信号の集合を複数のクラスタにクラスタリングする。クラスタリングの方法は、第1の実施形態で述べたクラスタリング部131と同様である。
クラスタ選択部132aは、クラスタリング部131aのクラスタリングにより得られた複数のクラスタの中から、後述の処理によりまだ話者属性を推定していないクラスタ(未処理のクラスタ)を1つ選択する。
音声データ選択部133aは、クラスタ選択部132aで選択したクラスタに属する音声信号の中から、後述の第3の話者属性推定部134aにより話者属性が推定されていない音声信号を1つ選択する。
第3の話者属性推定部134aは、第1の実施形態と同様に、音声データ選択部133aで選択した音声信号の話者属性を推定する。具体的には、第3の話者属性推定部134は、音声データ選択部133aで選択した音声信号(音響特徴量)を話者属性推定モデル112に入力することにより、当該音声信号の話者属性の推定結果を得る。第3の話者属性推定部134aが上記の処理を繰り返すことにより、推定対象の音声信号の集合のクラスタそれぞれの音声信号の話者属性を推定する。
制御部135aは、クラスタ選択部132aで選択したクラスタに属する所定数の音声信号について、第3の話者属性推定部134aにより話者属性の推定を行わせるように制御する。
例えば、制御部135aは、クラスタ選択部132aで選択したクラスタに属する音声信号中に、まだ第3の話者属性推定部134aにより推定していない音声信号がある場合、音声データ選択部133aに音声信号を選択させる。
第4の話者属性推定部136aは、クラスタ選択部132aで選択したクラスタに対する話者属性を推定して出力する。つまり、第4の話者属性推定部136aは、クラスタリング部131aにより得られた複数のクラスタのうち、クラスタ選択部132aにより選択されたクラスタについて、当該クラスタ内の音声信号の話者属性の推定結果を用いて、当該クラスタ全体の話者属性を推定する。第4の話者属性推定部136aは、上記の処理を繰り返すことにより、複数のクラスタそれぞれの話者属性の推定結果を得る。そして、第4の話者属性推定部136aは、上記の複数のクラスタそれぞれの話者属性の推定結果を、推定対象の音声信号の集合の話者属性の推定結果として出力する。
例えば、第4の話者属性推定部136aが、推定対象の音声信号に対して尤もらしいと思われる話者属性を1つ決定して出力する場合は、クラスタ内の音声信号に付与された話者属性のうち最も多い話者属性を当該クラスタの話者属性として決定する。
あるいは、第4の話者属性推定部136aが、推定対象の音声信号に対して、話者属性ごとに当該話者属性である確率を出力する場合は、クラスタ内の音声信号に付与された確率を足し合わせた結果、最も確率が高くなる話者属性を当該クラスタの話者属性として決定する。
終了判定部137は、クラスタリング部131aにより得られたすべてのクラスタについて、第4の話者属性推定部136aによる推定結果が得られたか否かを判定する。ここで、終了判定部137により、まだいずれかのクラスタについて第4の話者属性推定部136aによる推定結果が得られていないと判定された場合、クラスタ選択部132aは未処理のクラスタを選択する。
[処理手順]
次に、図5を用いて、推定装置10aの処理手順の例を説明する。まず、推定装置10aが推定対象の音声信号の集合の入力を受け付けると(S11)、クラスタリング部131aは、入力された推定対象の音声信号の集合をクラスタリングする(S12)。そして、クラスタ選択部132aは、S12のクラスタリングにより得られたクラスタの中から未選択のクラスタを1つ選択する(S13)。そして、第3の話者属性推定部134aは、話者属性推定モデル112を用いて、S13で選択されたクラスタに属する音声信号の話者属性を推定する(S14)。そして、第4の話者属性推定部136aは、S13で選択されたクラスタに属する音声信号の話者属性の推定結果に基づき、当該クラスタの話者属性を推定する(S15)。つまり、第4の話者属性推定部136aは、当該クラスタに属する音声信号それぞれの話者属性の推定結果に基づき、当該クラスタ内の音声信号に対して付与されやすい話者属性を推定する。その後、終了判定部137は、すべてのクラスタに対し、話者属性の推定を終了したか否かを判定し(S16)、すべてのクラスタに対し、当該クラスタの話者属性の推定を終了したと判定した場合(S16でYes)、第4の話者属性推定部136aは、音声信号の集合の話者属性の推定結果を出力する(S17)。一方、終了判定部137が、話者属性の推定を終了していないクラスタがあると判定した場合(S16でNo)、S13の処理へ戻る。
このようにすることで、推定装置10aは、音声信号の集合についても話者属性を精度よく推定することができる。
[実験結果]
次に、本実施形態の推定装置10による音声信号の話者属性の推定の実験結果を説明する。
まず、上記の実験の条件を説明する。ここでは、年齢および性別情報が付与された音声信号として、独自に収集した男女140話者による読み上げ発話音声コーパスを用いた。
発話音声コーパスにおける1発話あたりの平均発話長は約3秒で、1話者あたり平均発話数は504発話である。サンプリング周波数16000Hz、量子化ビット16bitで収録した音声に対し、窓幅20ミリ秒の20次元のMel-Frequency Cepstrum Coefficients(MFCC)を算出した。チャネルの影響を除去するため、短時間ケプストラム平均正規化を行った。また、話者の重複がないように50、48、42話者を抽出し、それぞれ学習、開発、評価セットとした。各年齢性別クラスに含まれる話者数はすべて同じである。また、評価尺度には各クラスに対する平均精度を用いた。
話者クラスタリングに用いるi-vectorを算出するため、128混合のuniversal background modelと400次元のtotal variance 行列、および、話者に対する150次元の線形判別分析を日本語話し言葉コーパスの全講演を用いて学習した。
ここで、複数の異なるモデルを用いたアンサンブルを行うために、学習率0.01のStochastic Gradient Discent(SGD)法により最適化したDNNと、学習率0.1のAdam法により最適化したDNNとの2種類のDNNを構築した。過学習を防ぐため各DNNの学習時のエポック数の上限はそれぞれ100と20とし、開発セットに対する分類精度が最大となったモデルを選択した。
そして、上記のSGD法とAdam法で学習した2つのモデルをスコアレベルで統合したモデル(以下、適宜「fusion」と称す)を用いて、上記の発話音声コーパスの年齢性別クラスの分類を行ったところ分類の正確度(accurancy)は0.59であった。
一方、本実施形態の推定装置のように、例えば、発話音声コーパスの音声信号をクラスタリングした上で、各クラスタ内の音声信号の話者属性を上記のfusionにより推定し、各クラスタ内の音声信号の話者属性のうち最も多い話者属性を当該クラスタの話者属性とする(クラスタ内投票を行う)ことで、上記の発話音声コーパスの年齢性別クラスの分類を行ったところ、発話音声コーパスの分類の正確度(accurancy)は0.72に向上した。
図6に各年齢性別クラス(CH-MA,CH-FE,AD-MA,AD-FE,EL-MA,EL-FE)のconfusion matrixを示す。図6に示すconfusion matrixの縦軸は、年齢性別クラスのGrand truth(正解)を示し、横軸は年齢性別クラスのEstimated labels(分類結果)を示す。図6の符号601は、上記のクラスタ内投票を行わずに、発話音声コーパスの年齢性別クラスの分類を行った結果を示す。図6の符号602は本実施形態の推定装置10にように、上記のクラスタ内投票を行い、発話音声コーパスの年齢性別クラスの分類を行った結果を示す。いずれも、モデルは上記のfusionを用いた。図6に示すように、本実施形態の推定装置10にように、上記のクラスタ内投票を行った方が各年齢性別クラスの分類精度が向上したことが確認できた。
[プログラム]
また、上記の実施形態で述べた推定装置10,10aの機能を実現するプログラムを所望の情報処理装置(コンピュータ)にインストールすることによって実装できる。例えば、パッケージソフトウェアやオンラインソフトウェアとして提供される上記のプログラムを情報処理装置に実行させることにより、情報処理装置を推定装置10,10aとして機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータ、ラック搭載型のサーバコンピュータ等が含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistants)等がその範疇に含まれる。また、推定装置10,10aを、クラウドサーバに実装してもよい。
図7を用いて、上記のプログラム(推定プログラム)を実行するコンピュータの一例を説明する。図7に示すように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011およびRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。ディスクドライブ1100には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1110およびキーボード1120が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1130が接続される。
ここで、図7に示すように、ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。前記した実施形態で説明した音声データ記録部111、話者属性推定モデル112は、例えばハードディスクドライブ1090やメモリ1010に装備される。
そして、CPU1020が、ハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
なお、上記の推定プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、上記のプログラムに係るプログラムモジュール1093やプログラムデータ1094は、LANやWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
10,10a 推定装置
111 音声データ記憶部
112 話者属性推定モデル
131,131a クラスタリング部
132 クラスタ特定部
132a クラスタ選択部
133,133a 音声データ選択部
134 第1の話者属性推定部
134a 第3の話者属性推定部
135,135a 制御部
136 第2の話者属性推定部
136a 第4の話者属性推定部
137 終了判定部

Claims (7)

  1. 話者属性の推定対象の音声信号を含む音声信号群を複数のクラスタにクラスタリングするクラスタリング部と、
    前記複数のクラスタの中から、前記推定対象の音声信号の属するクラスタを特定するクラスタ特定部と、
    音声信号の特徴量に基づき前記音声信号の話者属性を推定するための学習済みの話者属性推定モデルを用いて、前記特定したクラスタ内の音声信号の話者属性の推定を行う第1の話者属性推定部と、
    前記特定したクラスタ内の音声信号の話者属性の推定結果を用いて、当該クラスタ全体の属性を推定し、当該クラスタ全体の話者属性の推定結果を、前記推定対象の音声信号の話者属性の推定結果として出力する第2の話者属性推定部と、
    を備えることを特徴とする推定装置。
  2. 前記第2の話者属性推定部は、
    前記特定したクラスタ内の音声信号の話者属性の推定結果に基づき、当該クラスタに最も多い話者属性を、当該クラスタ全体の話者属性の推定結果とする
    ことを特徴とする請求項1に記載の推定装置。
  3. 前記第1の話者属性推定部は、
    前記音声信号の話者属性の推定を行う際、当該音声信号の話者属性が当該話者属性である確率を前記話者属性ごとに算出し、
    前記第2の話者属性推定部は、
    前記特定したクラスタに属する音声信号の話者属性の確率を足し合わせた結果、最も確率が高い話者属性を、当該クラスタ全体の話者属性の推定結果とする
    ことを特徴とする請求項1に記載の推定装置。
  4. 前記第1の話者属性推定部は、ニューラルネットワークを用いて前記推定対象の音声信号の話者属性の推定を行う
    ことを特徴とする請求項1に記載の推定装置。
  5. 話者属性の推定対象の音声信号の集合を複数のクラスタにクラスタリングするクラスタリング部と、
    音声信号の特徴量に基づき前記音声信号の話者属性を推定するための学習済みの話者属性推定モデルを用いて、前記複数のクラスタそれぞれについて、当該クラスタ内の音声信号の話者属性の推定を行う第3の話者属性推定部と、
    前記複数のクラスタそれぞれについて、当該クラスタ内の音声信号の話者属性の推定結果を用いて、当該クラスタ全体の話者属性を推定し、前記複数のクラスタそれぞれのクラスタ全体の話者属性の推定結果を、前記推定対象の音声信号の集合の話者属性の推定結果として出力する第4の話者属性推定部と、
    を備えることを特徴とする推定装置。
  6. 推定装置により実行される推定方法であって、
    話者属性の推定対象の音声信号を含む音声信号群を複数のクラスタにクラスタリングする工程と、
    前記複数のクラスタの中から、前記推定対象の音声信号の属するクラスタを特定する工程と、
    音声信号の特徴量に基づき前記音声信号の話者属性を推定するための学習済みの話者属性推定モデルを用いて、前記特定したクラスタ内の音声信号の話者属性の推定を行う工程と、
    前記特定したクラスタ内の音声信号の話者属性の推定結果を用いて、当該クラスタ全体の話者属性を推定し、当該クラスタ全体の話者属性の推定結果を、前記推定対象の音声信号の話者属性の推定結果として出力する工程と、
    を含むことを特徴とする推定方法。
  7. 話者属性の推定対象の音声信号を含む音声信号群を複数のクラスタにクラスタリングするステップと、
    前記複数のクラスタの中から、前記推定対象の音声信号の属するクラスタを特定するステップと、
    音声信号の特徴量に基づき前記音声信号の話者属性を推定するための学習済みの話者属性推定モデルを用いて、前記特定したクラスタ内の音声信号の話者属性の推定を行うステップと、
    前記特定したクラスタ内の音声信号の話者属性の推定結果を用いて、当該クラスタ全体の話者属性を推定し、当該クラスタ全体の話者属性の推定結果を、前記推定対象の音声信号の話者属性の推定結果として出力するステップと、
    をコンピュータに実行させることを特徴とする推定プログラム。
JP2021541355A 2019-08-19 2019-08-19 推定装置、推定方法、および、推定プログラム Active JP7143955B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/032271 WO2021033233A1 (ja) 2019-08-19 2019-08-19 推定装置、推定方法、および、推定プログラム

Publications (2)

Publication Number Publication Date
JPWO2021033233A1 JPWO2021033233A1 (ja) 2021-02-25
JP7143955B2 true JP7143955B2 (ja) 2022-09-29

Family

ID=74659885

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021541355A Active JP7143955B2 (ja) 2019-08-19 2019-08-19 推定装置、推定方法、および、推定プログラム

Country Status (3)

Country Link
US (1) US11996086B2 (ja)
JP (1) JP7143955B2 (ja)
WO (1) WO2021033233A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220335928A1 (en) * 2019-08-19 2022-10-20 Nippon Telegraph And Telephone Corporation Estimation device, estimation method, and estimation program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014123286A (ja) 2012-12-21 2014-07-03 Fuji Xerox Co Ltd 文書分類装置及びプログラム
WO2018216511A1 (ja) 2017-05-25 2018-11-29 日本電信電話株式会社 属性識別装置、属性識別方法、プログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4745094B2 (ja) * 2006-03-20 2011-08-10 富士通株式会社 クラスタリングシステム、クラスタリング方法、クラスタリングプログラムおよびクラスタリングシステムを用いた属性推定システム
GB2501067B (en) * 2012-03-30 2014-12-03 Toshiba Kk A text to speech system
GB2517503B (en) * 2013-08-23 2016-12-28 Toshiba Res Europe Ltd A speech processing system and method
GB2524505B (en) * 2014-03-24 2017-11-08 Toshiba Res Europe Ltd Voice conversion
JP2017199254A (ja) * 2016-04-28 2017-11-02 日本電気株式会社 会話分析装置、会話分析方法および会話分析プログラム
CN107978311B (zh) * 2017-11-24 2020-08-25 腾讯科技(深圳)有限公司 一种语音数据处理方法、装置以及语音交互设备
CN109637547B (zh) * 2019-01-29 2020-11-03 北京猎户星空科技有限公司 音频数据标注方法、装置、电子设备及存储介质
JP7143955B2 (ja) * 2019-08-19 2022-09-29 日本電信電話株式会社 推定装置、推定方法、および、推定プログラム
JP7532182B2 (ja) * 2020-10-05 2024-08-13 エヌ・ティ・ティ・コミュニケーションズ株式会社 リモート会議支援制御装置、方法およびプログラム
JP2023180943A (ja) * 2022-06-10 2023-12-21 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014123286A (ja) 2012-12-21 2014-07-03 Fuji Xerox Co Ltd 文書分類装置及びプログラム
WO2018216511A1 (ja) 2017-05-25 2018-11-29 日本電信電話株式会社 属性識別装置、属性識別方法、プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220335928A1 (en) * 2019-08-19 2022-10-20 Nippon Telegraph And Telephone Corporation Estimation device, estimation method, and estimation program
US11996086B2 (en) * 2019-08-19 2024-05-28 Nippon Telegraph And Telephone Corporation Estimation device, estimation method, and estimation program

Also Published As

Publication number Publication date
JPWO2021033233A1 (ja) 2021-02-25
US11996086B2 (en) 2024-05-28
US20220335928A1 (en) 2022-10-20
WO2021033233A1 (ja) 2021-02-25

Similar Documents

Publication Publication Date Title
US10847171B2 (en) Method for microphone selection and multi-talker segmentation with ambient automated speech recognition (ASR)
US10726848B2 (en) Word-level blind diarization of recorded calls with arbitrary number of speakers
US9881617B2 (en) Blind diarization of recorded calls with arbitrary number of speakers
US11264044B2 (en) Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program
US11551708B2 (en) Label generation device, model learning device, emotion recognition apparatus, methods therefor, program, and recording medium
Lozano-Diez et al. An analysis of the influence of deep neural network (DNN) topology in bottleneck feature based language recognition
US6493667B1 (en) Enhanced likelihood computation using regression in a speech recognition system
WO2019017403A1 (ja) マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法
JP6831343B2 (ja) 学習装置、学習方法及び学習プログラム
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
EP1465154B1 (en) Method of speech recognition using variational inference with switching state space models
US11837236B2 (en) Speaker recognition based on signal segments weighted by quality
KR20240053639A (ko) 제한된 스펙트럼 클러스터링을 사용한 화자-턴 기반 온라인 화자 구분
US20240160849A1 (en) Speaker diarization supporting episodical content
CN111508505A (zh) 一种说话人识别方法、装置、设备及存储介质
JP2009086581A (ja) 音声認識の話者モデルを作成する装置およびプログラム
JP7143955B2 (ja) 推定装置、推定方法、および、推定プログラム
WO2021033587A1 (ja) 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム
US20090150164A1 (en) Tri-model audio segmentation
JP7107377B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP5104732B2 (ja) 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム
US12087307B2 (en) Method and apparatus for performing speaker diarization on mixed-bandwidth speech signals
WO2022249450A1 (ja) 学習方法、検出方法、それらの装置、およびプログラム
Gubka et al. Universal approach for sequential audio pattern search
US20140006021A1 (en) Method for adjusting discrete model complexity in an automatic speech recognition system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220816

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220829

R150 Certificate of patent or registration of utility model

Ref document number: 7143955

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150