JP7332024B2 - 認識装置、学習装置、それらの方法、およびプログラム - Google Patents

認識装置、学習装置、それらの方法、およびプログラム Download PDF

Info

Publication number
JP7332024B2
JP7332024B2 JP2022501543A JP2022501543A JP7332024B2 JP 7332024 B2 JP7332024 B2 JP 7332024B2 JP 2022501543 A JP2022501543 A JP 2022501543A JP 2022501543 A JP2022501543 A JP 2022501543A JP 7332024 B2 JP7332024 B2 JP 7332024B2
Authority
JP
Japan
Prior art keywords
listener
learning
paralinguistic information
speech data
classification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022501543A
Other languages
English (en)
Other versions
JPWO2021166207A1 (ja
Inventor
厚志 安藤
佑樹 北岸
歩相名 神山
岳至 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021166207A1 publication Critical patent/JPWO2021166207A1/ja
Application granted granted Critical
Publication of JP7332024B2 publication Critical patent/JP7332024B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Hospice & Palliative Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、発話から非言語・パラ言語情報を認識する技術に関する。
発話からの非言語・パラ言語情報の自動推定が求められている。非言語・パラ言語情報は、音声に含まれる情報のうち、言語情報でない情報である。非言語情報は随意的に変化させられない情報であり、身体的特徴、感情などである。パラ言語情報は、随意的に変化させられる情報であり、意図、態度などである。例えば、発話から話者の感情(平常・喜び・怒り・悲しみ)を自動推定することができれば、職場での簡易メンタルチェックなどに応用できる。また、発話から話者の眠気を自動推定することができれば、車の運転時において危険運転を防止することができる。以降では、ある発話(音声データ)を入力とし、その発話に含まれる非言語・パラ言語情報を有限個のクラス(例えば、平常・喜び・怒り・悲しみ、の4クラス)に分類する技術を非言語・パラ言語情報認識と呼ぶ。
非言語・パラ言語情報認識技術の従来技術として非特許文献1が提案されている。非特許文献1では、認識対象は感情であり、発話から4クラス分類を行う。認識装置は、発話から抽出した短時間ごとの音響特徴(例えば、Mel-Frequency Cepstral Coefficient: MFCCなど)または発話の信号波形そのものを入力とし、非言語・パラ言語情報分類モデルとして深層学習に基づく分類モデルを用いる。深層学習に基づく分類モデルは、時系列モデル層と全結合層の二つにより構成される。時系列モデル層で畳み込みニューラルネットワーク層と自己注意機構層を組み合わせることで、発話中の特定の区間の情報に着目した非言語・パラ言語情報認識を実現させている。例えば、話し終わりで極端に声が大きくなることに着目し、当該発話は怒りクラスにあたると推定することができる。
非言語・パラ言語情報分類モデルの学習には、学習用入力発話データ(学習用の音声データ)と正解ラベルの組を用いる。ただし、非言語・パラ言語情報は主観的な情報であるため、正解ラベルの定義は非常に難しい。例えば、平常・喜び・怒り・悲しみの4クラスの分類では、発話者自身に正解ラベルを付与させることは適当でない。これは、話者ごとに平常・喜び・怒り・悲しみの判断基準が異なるためである。また発話を聴取する第三者が正解ラベルを付与するとしても、第三者が変わるたびに正解ラベルが変化する恐れもある。このことから、多くの先行研究では、複数名の聴取者を用意し、最も多くの聴取者が付与した非言語・パラ言語情報ラベルである最多ラベルを正解ラベルと定義している。
Lorenzo Tarantino, Philip N. Garner , Alexandros Lazaridis, "Self-attention for Speech Emotion Recognition", INTERSPEECH, pp.2578-2582, 2019.
前述の通り、非言語・パラ言語情報ラベルの判定基準は聴取者ごとに偏りが表れることがある。例えば、ある発話を聞いた際に平常クラスと判定しやすい聴取者もいれば、喜びクラスと判定しやすい聴取者もいる。しかし、最多ラベルは多くの聴取者の非言語・パラ言語情報ラベルを統合しているため、最多ラベルの判定基準が発話ごとに異なり、複雑化している可能性がある。このため、従来技術のように最多ラベルを正解ラベルとして非言語・パラ言語情報分類モデルを学習する場合、非言語・パラ言語情報を推定することが困難となる恐れがある。
具体的な例を図1に示す。認識対象のクラスは平常・喜び・怒り・悲しみの4クラスとする。最多ラベルは発話3では喜びとなっており、聴取者A,B,C,Dの判定基準に基づいて最多ラベルが決定している。一方、最多ラベルは発話1では喜び、発話2では悲しみとなっているが、発話1では聴取者A,Bの判定基準、発話2では聴取者C,Dの判定基準に基づいて最多ラベルが決定している。つまり、発話1と発話2とでは最多ラベルの判定基準が異なる。この例では、聴取者A,Bは喜びと判定しやすいという傾向があり、聴取者内ではラベルの判定基準は規則性がある。しかし、最多ラベルは、ラベルがどの聴取者から決定されているかが発話ごとに異なり、ラベルの判定基準が複雑化している。
本発明は、複雑化した正解ラベルの利用を避け、従来より非言語・パラ言語情報を高精度に推定する認識装置、認識する際に利用するモデルを学習する学習装置、それらの方法、およびプログラムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、認識装置は、n番目の分類モデルを用いて認識対象の音声データの音響特徴量からn番目の聴取者が付与する非言語・パラ言語情報ラベルを推定する分類部と、N個の聴取者ごとの非言語・パラ言語情報ラベルの推定結果を統合し、認識対象の音声データに対する認識装置としての非言語・パラ言語情報推定結果を得る統合部とを含み、n番目の分類モデルは、学習用音声データと学習用音声データに対してn番目の聴取者が付与した非言語・パラ言語情報ラベルとを学習データとして学習されたものである。
上記の課題を解決するために、本発明の他の態様によれば、認識装置は、分類モデルを用いて、n番目の聴取者を示す聴取者コードと、認識対象の音声データの音響特徴量とから、n番目の聴取者が付与する非言語・パラ言語情報ラベルを推定する分類部と、N個の聴取者ごとの非言語・パラ言語情報ラベルの推定結果を統合し、認識対象の音声データに対する認識装置としての非言語・パラ言語情報推定結果を得る統合部とを含み、分類モデルは、学習用音声データとn番目の聴取者を示す聴取者コードと学習用音声データに対してn番目の聴取者が付与した非言語・パラ言語情報ラベルとを学習データとして学習されたものである。
上記の課題を解決するために、本発明の他の態様によれば、学習装置は、学習用の音声データの音響特徴系列と、聴取者nが学習用の音声データに対して付与した非言語・パラ言語情報ラベルと、聴取者nを表す情報である聴取者コードとから、聴取者コードを用いたパラ言語情報分類モデルを学習する非言語・パラ言語情報分類モデル学習部を含み、聴取者コードを用いたパラ言語情報分類モデルは、音声データに対応する音響特徴系列と聴取者コードとから、その音声データに対して聴取者コートに対応する聴取者が付与する非言語・パラ言語情報ラベルを推定するモデルである。
本発明によれば、従来より非言語・パラ言語情報を高精度に推定することができるという効果を奏する。
最多ラベルを説明するための図。 第1実施形態に係る学習装置の機能ブロック図。 第1、2実施形態に係る学習装置の処理フローの例を示す図。 第1実施形態に係る認識装置の機能ブロック図。 第1、2実施形態に係る認識装置の処理フローの例を示す図。 第2実施形態に係る学習装置の機能ブロック図。 聴取者コードを用いたパラ言語情報分類モデルの構造を説明するための図。 第2実施形態に係る認識装置の機能ブロック図。 本手法を適用するコンピュータの構成例を示す図。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。
<第1実施形態のポイント>
本実施形態のポイントは、従来手法のように最多ラベルを直接的に推定するような、非言語・パラ言語情報分類モデルを学習するのではなく、聴取者ごとの非言語・パラ言語情報ラベルを推定するように分類モデルを学習したのち、その分類モデルの推定結果を統合して全ての聴取者の推定結果を考慮した非言語・パラ言語情報ラベルを推定する点にある。
上述の通り、同じ聴取者の中では非言語・パラ言語情報ラベルの判定基準は規則性がある。このため、聴取者ごとの非言語・パラ言語情報ラベルを推定することは、最多ラベルを推定することに比べて容易となると考えられる。このことから、聴取者ごとの非言語・パラ言語情報ラベルを推定するように非言語・パラ言語情報分類モデルを聴取者の数だけ学習させ、その聴取者ごとの分類モデルを用いて聴取者ごとの非言語・パラ言語情報ラベルを推定し、推定結果を統合させて認識装置としての非言語・パラ言語情報ラベルを推定する。このような構成により、聴取者ごとの非言語・パラ言語情報ラベルの推定精度が向上するため、直接的に最多ラベルを利用して学習した非言語・パラ言語情報分類モデルを用いて推定するよりも高精度に非言語・パラ言語情報ラベルを推定することが可能となる。
<第1実施形態>
非言語・パラ言語情報認識システムは、学習装置100と認識装置200とを含む。
学習装置100は、学習用入力発話データと、学習用入力発話データに対応する聴取者ごとの非言語・パラ言語情報ラベル(正解ラベル)との組合せを入力とし、聴取者ごとの非言語・パラ言語情報分類モデルを学習し、出力する。以下では、聴取者の人数をNとし、N個の非言語・パラ言語情報分類モデルを学習するものとする。ただし、Nは2以上の整数の何れかとする。なお、学習に先立ち、学習用入力発話データと正解ラベルとの組合せを大量に用意しておくものとする。
認識装置200は、認識処理に先立ち、聴取者ごとの非言語・パラ言語情報分類モデルを受け取る。認識装置200は、認識用入力発話データ(認識対象の音声データ)を入力とし、聴取者ごとの非言語・パラ言語情報分類モデルを用いて、認識装置200としての非言語・パラ言語情報ラベルを推定し、推定結果を出力する。
学習装置および認識装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。学習装置および認識装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。学習装置および認識装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。学習装置および認識装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。学習装置および認識装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも学習装置および認識装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置により構成し、学習装置および認識装置の外部に備える構成としてもよい。
まず、学習装置100について説明する。
<学習装置100>
図2は第一実施形態に係る学習装置100の機能ブロック図を、図3はその処理フローを示す。
学習装置100は、音響特徴量抽出部110とN個の非言語・パラ言語情報分類モデル学習部120-nとを含む。ただし、n=1,2,…,Nとする。
まず、学習用入力発話データと、学習用入力発話データに対応する聴取者ごとの非言語・パラ言語情報ラベルとの組合せを大量に用意する。
次に、学習装置100は、聴取者ごとの非言語・パラ言語情報ラベルを推定するように非言語・パラ言語情報分類モデルを聴取者の数だけ学習する。モデル学習方法は従来技術と同じであるが、従来技術は最多ラベルを正解ラベルとして学習させる一方で、本実施形態では聴取者ごとの非言語・パラ言語情報ラベルを正解ラベルとして学習させる。
以下、各部について説明する。
<音響特徴量抽出部110>
・入力:学習用入力発話データ
・出力:音響特徴系列
音響特徴量抽出部110は、学習用入力発話データから音響特徴系列を抽出する(S110)。音響特徴系列とは、発話データを短時間窓で分割し、短時間窓ごとに音響特徴を求め、その音響特徴のベクトルを時系列順に並べたものを指す。例えば、音響特徴は、対数パワースペクトル、対数メルフィルタバンク、MFCC、基本周波数、対数パワー、Harmonics-to-Noise Ratio(HNR)、音声確率、ゼロ交差数、およびこれらの一次微分または二次微分のいずれか一つ以上を含む。音声確率は、例えば事前学習した音声/非音声のGMMモデルの尤度比により求められる。HNRは例えばケプストラムに基づく手法により求められる(参考文献1)。より多くの音響特徴を利用することで、発話に含まれる様々な特徴を表現でき、感情認識精度が向上する傾向にある。
(参考文献1) Peter Murphy, Olatunji Akande, "Cepstrum-Based Harmonics-to-Noise Ratio Measurement in Voiced Speech", Lecture Notes in Artificial Intelligence, Nonlinear Speech Modeling and Applications, Vol. 3445, Springer-Verlag, 2005.
<非言語・パラ言語情報分類モデル学習部120-n>
・入力:音響特徴系列、聴取者nの非言語・パラ言語情報ラベル(正解ラベル)
・出力:聴取者nの非言語・パラ言語情報分類モデル
非言語・パラ言語情報分類モデル学習部120-nは、学習用入力発話データの音響特徴系列と、学習用入力発話データに対して聴取者nが付与した非言語・パラ言語情報ラベル(正解ラベル)とを学習データとして、聴取者nの非言語・パラ言語情報分類モデルを学習する(S120)。聴取者nの非言語・パラ言語情報分類モデルは、発話データに対応する音響特徴系列から、その発話データに対して聴取者nが付与する非言語・パラ言語情報ラベルを推定するモデルである。聴取者nとは、n番目の聴取者を指す。本モデルの学習では、ある発話の音響特徴系列とその発話に対応する聴取者nの非言語・パラ言語情報ラベルを一組とし、その組を大量に集めたものを利用する。聴取者ごとの非言語・パラ言語情報ラベルを推定するように非言語・パラ言語情報分類モデルを聴取者の数だけ学習させる。モデル学習方法として、従来技術を用いてもよい。ただし、従来技術は最多ラベルを正解ラベルとして学習させる一方で、本発明では聴取者ごとの非言語・パラ言語情報ラベルを正解ラベルとして学習させる。
本実施形態では、従来技術と同様の深層学習に基づく分類モデルを利用してもよい。すなわち、時系列モデル層と全結合層で構成される分類モデルを用いてもよい。モデルパラメータの更新には、音響特徴系列と聴取者nの非言語・パラ言語情報ラベルの組を数発話ずつ用い、それらの損失関数に対して誤差逆伝搬法を適用する、確率的勾配降下法を用いる。
以上の構成により、N個の聴取者nの非言語・パラ言語情報分類モデルを学習し、取得する。なお、本実施形態では、認識装置200がN個の非言語・パラ言語情報分類モデル学習部120-nを含むものとして説明しているが、1つの非言語・パラ言語情報分類モデル学習部を含み、同様の処理を行ってもよく、音響特徴系列および聴取者n(n=1,2,…,N)の非言語・パラ言語情報ラベルを入力とし、聴取者ごとに非言語・パラ言語情報分類モデルを学習すればよい。
次に、認識装置200について説明する。
<認識装置200>
図4は第一実施形態に係る認識装置200の機能ブロック図を、図5はその処理フローを示す。
認識装置200は、音響特徴量抽出部210とN個の非言語・パラ言語情報分類部220-nと推定結果統合部230とを含む。
認識装置200は、認識用入力発話データを、学習装置100で学習した全ての聴取者ごとの非言語・パラ言語情報分類モデルに入力し、聴取者ごとの非言語・パラ言語情報認識結果を得る。
次に、認識装置200は、聴取者ごとの非言語・パラ言語情報認識結果を統合し、認識装置としての非言語・パラ言語情報認識結果を得る。統合方法は例えば非言語・パラ言語情報分類モデルが出力する、非言語・パラ言語情報ラベルの事後確率の平均値の中で最も高い値をとるクラスを非言語・パラ言語情報認識結果とみなす。
以下、各部について説明する。
<音響特徴量抽出部210>
・入力:認識用入力発話データ
・出力:音響特徴系列
音響特徴量抽出部210は、認識用入力発話データから音響特徴系列を抽出する(S110)。音響特徴量抽出部110と同様の抽出方法を用いればよい。
<非言語・パラ言語情報分類部220-n>
・入力:音響特徴系列、聴取者nの非言語・パラ言語情報分類モデル
・出力:聴取者nの非言語・パラ言語情報ラベル推定結果
非言語・パラ言語情報分類部220-nは、聴取者nの非言語・パラ言語情報分類モデルを用いて、認識用入力発話データの音響特徴系列から聴取者nが付与する非言語・パラ言語情報ラベルを推定する(S220)。
例えば、聴取者nの非言語・パラ言語情報ラベル推定結果p(n)は、音響特徴系列を聴取者nの非言語・パラ言語情報分類モデルに順伝播させることで得た非言語・パラ言語情報ラベルtごとの事後確率p(n,t)を含む。p(n)=(p(n,1),p(n,2),…,p(n,T))であり、Tは非言語・パラ言語情報ラベルの種類の総数であり、t=1,2,…,Tである。
<推定結果統合部230>
・入力:N個の聴取者nの非言語・パラ言語情報ラベル推定結果
・出力:認識装置200の非言語・パラ言語情報ラベル推定結果
推定結果統合部230は、N個の聴取者ごとの非言語・パラ言語情報ラベル推定結果を統合し、認識用入力発話データに対する認識装置200の非言語・パラ言語情報ラベル推定結果を得る(S230)。例えば、認識装置200の非言語・パラ言語情報ラベル推定結果は、
(1)事後確率p(n,t)を非言語・パラ言語情報ラベルtごとに平均化し、T個の平均事後確率
Figure 0007332024000001
を求め、T個の平均事後確率pave(t)の中で最大となる平均事後確率に対応する非言語・パラ言語情報ラベルとして求められる、または、
(2)聴取者nごとに事後確率p(n,t)が最大であった非言語・パラ言語情報ラベル
Figure 0007332024000002
を求め、N個のLabelmax(n)の中で最も多い非言語・パラ言語情報ラベルとして求められる。
<効果>
以上の構成により、判定基準を変えずに聴取者ごとに非言語・パラ言語情報ラベルを高精度で推定し、その推定結果を統合することで、従来より認識装置として非言語・パラ言語情報を高精度に推定することができる。
<第2実施形態>
第1実施形態と異なる部分を中心に説明する。
本実施形態では、聴取者ごとの非言語・パラ言語情報分類モデルの学習を個別に実施するのではなく、単一の非言語・パラ言語情報分類モデルで各聴取者の非言語・パラ言語情報ラベルを推定できるようにする。
音声認識や音声合成の分野において、話者に合わせた音声認識・音声合成を行うために、話者コードを深層学習に基づく分類モデルに入力する手法が提案されている(参考文献2参照)。
(参考文献2)柏木陽佑、齋藤大輔、峯松信明、広瀬啓吉、「話者コードに基づく話者正規化学習を利用したニューラルネット音響モデルの適応」、信学技報 114(365), pp. 105-110, 2014.
このアプローチと同様に、聴取者を表す情報である聴取者コードを用意し、聴取者コードを深層学習に基づく分類モデルに入力することで、聴取者1から聴取者Nまでの非言語・パラ言語情報ラベル推定結果を単一の非言語・パラ言語情報分類モデルから取得することが可能となる。
聴取者ごとに別々の分類モデルを用意するのではなく、単一の分類モデルを用意することは、分類モデルの一部を共有することに相当し、聴取者にかかわらず判定される非言語・パラ言語情報ラベル(例えば、図1の発話3)の認識精度が向上することが期待できる。
本実施形態の非言語・パラ言語情報認識システムは、学習装置300と認識装置400とを含む。
学習装置300は、学習用入力発話データと、学習用入力発話データに対応する聴取者ごとの非言語・パラ言語情報ラベル(正解ラベル)との組合せを入力とし、1つの非言語・パラ言語情報分類モデルを学習し、出力する。なお、本実施形態では、学習装置300は、聴取者ごとの非言語・パラ言語情報ラベルに対応する聴取者コードを用意し、学習用入力発話データと、学習用入力発話データに対応する聴取者ごとの非言語・パラ言語情報ラベル(正解ラベル)と聴取者コードとの組合せを非言語・パラ言語情報分類モデルの学習に用いる。
認識装置400は、認識処理に先立ち、1つの非言語・パラ言語情報分類モデルを受け取る。認識装置400は、認識用入力発話データを入力とし、非言語・パラ言語情報分類モデルを用いて、認識装置400としての非言語・パラ言語情報ラベルを推定し、推定結果を出力する。
まず、学習装置300について説明する。
<学習装置300>
図6は第2実施形態に係る学習装置300の機能ブロック図を、図3はその処理フローを示す。
学習装置300は、音響特徴量抽出部110と非言語・パラ言語情報分類モデル学習部320とを含む。
<非言語・パラ言語情報分類モデル学習部320>
・入力:音響特徴系列、聴取者1の非言語・パラ言語情報ラベル、…、聴取者Nの非言語・パラ言語情報ラベル(正解ラベル)
・出力:聴取者コードを用いた非言語・パラ言語情報分類モデル
非言語・パラ言語情報分類モデル学習部320は、学習用入力発話データの音響特徴系列と、学習用入力発話データに対して聴取者1,2,…Nが付与した非言語・パラ言語情報ラベル(正解ラベル)と、聴取者コードとを学習データとして、聴取者コードを用いたパラ言語情報分類モデルを学習する(S320)。聴取者コードを用いたパラ言語情報分類モデルは、発話データに対応する音響特徴系列と聴取者コードとから、その発話データに対して聴取者コードに対応する聴取者が付与する非言語・パラ言語情報ラベルを推定するモデルである。
本モデルの学習では、ある発話の音響特徴系列とその発話に対応する聴取者1, …, 聴取者Nの非言語・パラ言語情報ラベルの組を大量に集めたものを利用する。以下の手順を用いて聴取者コードを用いたパラ言語情報分類モデルを学習する。
(1)非言語・パラ言語情報分類モデル学習部320は、大量に用意した学習用入力発話データに対応する大量の音響特徴系列の中から、ある学習用入力発話データに対応する音響特徴系列をランダムに選び、その音響特徴系列とその発話の聴取者nの非言語・パラ言語情報ラベルを選択する。ここでは、nは1からNまででランダムに選択する。
(2)非言語・パラ言語情報分類モデル学習部320は、聴取者nの聴取者コードを用意する。例えば、聴取者nの聴取者コードは、ベクトル長Nかつn番目のみが1となるベクトル(1-hotベクトル)とする。
(3)非言語・パラ言語情報分類モデル学習部320は、上述の(1)と(2)を繰り返し、音響特徴系列とランダムな聴取者の非言語・パラ言語情報ラベル、聴取者コードの組を数発話用意する。
(4)非言語・パラ言語情報分類モデル学習部320は、上述の(3)の音響特徴系列と聴取者コードと聴取者コードに対応する非言語・パラ言語情報ラベルとの組合せを用いて、聴取者コードに対応する非言語・パラ言語情報ラベルを教師ラベルとし、聴取者コードを用いた非言語・パラ言語情報分類モデルのモデルパラメータ更新を行う。パラメータ更新は、教師ラベルと分類モデル出力との交差エントロピーを損失関数とし、損失関数に対して誤差逆伝搬法を適用する、確率的勾配効果法を用いる。
(5)非言語・パラ言語情報分類モデル学習部320は、上述の(3)と(4)とを繰り返し、十分な回数(例えば10万回)のパラメータ更新を行った場合は学習を完了したものとし、聴取者コードを用いたパラ言語情報分類モデルを出力する。
また本実施形態では、聴取者コードを用いたパラ言語情報分類モデルは図7で示される構造を用いる。すなわち、従来技術のモデル構造とは全結合層を除いて同一である。本実施形態での全結合層は、聴取者コードを用いることができるようになっている。聴取者コードを用いる全結合層の出力yの計算方法は以下の通りである。
y=σ(Wx+b+Bc)
y:聴取者コードを用いる全結合層の出力。
x:聴取者コードを用いる全結合層の入力(前層の出力)。
c:聴取者ベクトル(聴取者コードを全結合層に入力したときの出力)。
σ(・):活性化関数。本実施形態ではシグモイドを用いるが、他の活性化関数でもよい。
W:聴取者コードを用いる全結合層の入力と出力の線形変換パラメータ(学習により獲得)。
b:聴取者コードを用いる全結合層と出力のバイアスパラメータ(学習により獲得)。
B:聴取者コードの線形変換パラメータ(学習により獲得)。
<認識装置400>
図8は第一実施形態に係る認識装置200の機能ブロック図を、図5はその処理フローを示す。
認識装置400は、音響特徴量抽出部210と非言語・パラ言語情報分類部420と推定結果統合部230とを含む。
認識装置400は、認識用入力発話データを、学習装置100で学習した1つの非言語・パラ言語情報分類モデルに入力し、聴取者ごとの非言語・パラ言語情報認識結果を得る。
次に、認識装置400は、聴取者ごとの非言語・パラ言語情報認識結果を統合し、認識装置400としての非言語・パラ言語情報認識結果を得る。
以下、第1実施形態とは異なる非言語・パラ言語情報分類部420について説明する。
<非言語・パラ言語情報分類部420>
・入力:音響特徴系列、聴取者コードを用いた非言語・パラ言語情報分類モデル
・出力:聴取者n(n=1,2,…,N)の非言語・パラ言語情報ラベル推定結果
非言語・パラ言語情報分類部420は、聴取者nの聴取者コードを用意する。
非言語・パラ言語情報分類部420は、音響特徴系列と聴取者コードとから、聴取者コードを用いた非言語・パラ言語情報分類モデルを用いて、認識用入力発話データの音響特徴系列から聴取者n(n=1, …, N)が付与する非言語・パラ言語情報ラベルを推定する(S420)。聴取者nの非言語・パラ言語情報ラベル推定結果は、聴取者コードを用いた非言語・パラ言語情報分類モデルに音響特徴系列と聴取者nの聴取者コードを入力し、順伝播させることで得た非言語・パラ言語情報ラベルごとの事後確率を含む。このとき、聴取者nの聴取者コードは、非言語・パラ言語情報分類モデル学習部320で学習時に用いた聴取者コードと同様であり、例えば、ベクトル長Nかつn番目のみが1となるベクトル(1-hotベクトル)である。
<効果>
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、聴取者にかかわらず判定される非言語・パラ言語情報ラベルの認識精度が向上することが期待できる。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
上述の各種の処理は、図9に示すコンピュータの記憶部2020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. n=1,2,…,Nとし、n番目の分類モデルを用いて認識対象の音声データの音響特徴量からn番目の聴取者が付与する非言語・パラ言語情報ラベルを推定する分類部と、
    N個の聴取者ごとの非言語・パラ言語情報ラベルの推定結果を統合し、前記認識対象の音声データに対する認識装置としての非言語・パラ言語情報推定結果を得る統合部とを含み、
    前記n番目の分類モデルは、学習用音声データと前記学習用音声データに対してn番目の聴取者が付与した非言語・パラ言語情報ラベルとを学習データとして学習されたものである、
    認識装置。
  2. n=1,2,…,Nとし、分類モデルを用いて、n番目の聴取者を示す聴取者コードと、認識対象の音声データの音響特徴量とから、前記n番目の聴取者が付与する非言語・パラ言語情報ラベルを推定する分類部と、
    N個の聴取者ごとの非言語・パラ言語情報ラベルの推定結果を統合し、前記認識対象の音声データに対する認識装置としての非言語・パラ言語情報推定結果を得る統合部とを含み、
    前記分類モデルは、学習用音声データとn番目の聴取者を示す聴取者コードと前記学習用音声データに対してn番目の聴取者が付与した非言語・パラ言語情報ラベルとを学習データとして学習されたものである、
    認識装置。
  3. 学習用の音声データの音響特徴系列と、聴取者nが前記学習用の音声データに対して付与した非言語・パラ言語情報ラベルと、聴取者nを表す情報である聴取者コードとから、聴取者コードを用いたパラ言語情報分類モデルを学習する非言語・パラ言語情報分類モデル学習部を含み、
    前記聴取者コードを用いたパラ言語情報分類モデルは、音声データに対応する音響特徴系列と聴取者コードとから、その音声データに対して聴取者コートに対応する聴取者が付与する非言語・パラ言語情報ラベルを推定するモデルである、
    学習装置。
  4. 認識装置を用いた、認識対象の音声データの非言語・パラ言語情報を認識する認識方法であって、
    n=1,2,…,Nとし、n番目の分類モデルを用いて認識対象の音声データの音響特徴量からn番目の聴取者が付与する非言語・パラ言語情報ラベルを推定する分類ステップと、
    N個の聴取者ごとの非言語・パラ言語情報ラベルの推定結果を統合し、前記認識対象の音声データに対する認識装置としての非言語・パラ言語情報推定結果を得る統合ステップとを含み、
    前記n番目の分類モデルは、学習用音声データと前記学習用音声データに対してn番目の聴取者が付与した非言語・パラ言語情報ラベルとを学習データとして学習されたものである、
    認識方法。
  5. 認識装置を用いた、認識対象の音声データの非言語・パラ言語情報を認識する認識方法であって、
    n=1,2,…,Nとし、分類モデルを用いて、n番目の聴取者を示す聴取者コードと、認識対象の音声データの音響特徴量とから、前記n番目の聴取者が付与する非言語・パラ言語情報ラベルを推定する分類ステップと、
    N個の聴取者ごとの非言語・パラ言語情報ラベルの推定結果を統合し、前記認識対象の音声データに対する認識装置としての非言語・パラ言語情報推定結果を得る統合ステップとを含み、
    前記分類モデルは、学習用音声データとn番目の聴取者を示す聴取者コードと前記学習用音声データに対してn番目の聴取者が付与した非言語・パラ言語情報ラベルとを学習データとして学習されたものである、
    認識方法。
  6. 学習装置を用いた、非言語・パラ言語情報分類モデルの学習方法であって、
    学習用の音声データの音響特徴系列と、聴取者nが前記学習用の音声データに対して付与した非言語・パラ言語情報ラベルと、聴取者nを表す情報である聴取者コードとから、聴取者コードを用いたパラ言語情報分類モデルを学習する非言語・パラ言語情報分類モデル学習ステップを含み、
    前記聴取者コードを用いたパラ言語情報分類モデルは、音声データに対応する音響特徴系列と聴取者コードとから、その音声データに対して聴取者コートに対応する聴取者が付与する非言語・パラ言語情報ラベルを推定するモデルである、
    学習方法。
  7. 請求項1もしくは請求項2の認識装置、または、請求項3の学習装置としてコンピュータを機能させるためのプログラム。
JP2022501543A 2020-02-21 2020-02-21 認識装置、学習装置、それらの方法、およびプログラム Active JP7332024B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/006959 WO2021166207A1 (ja) 2020-02-21 2020-02-21 認識装置、学習装置、それらの方法、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2021166207A1 JPWO2021166207A1 (ja) 2021-08-26
JP7332024B2 true JP7332024B2 (ja) 2023-08-23

Family

ID=77390535

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022501543A Active JP7332024B2 (ja) 2020-02-21 2020-02-21 認識装置、学習装置、それらの方法、およびプログラム

Country Status (3)

Country Link
US (1) US20230069908A1 (ja)
JP (1) JP7332024B2 (ja)
WO (1) WO2021166207A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6992725B2 (ja) * 2018-10-22 2022-01-13 日本電信電話株式会社 パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム
JPWO2023032014A1 (ja) * 2021-08-30 2023-03-09

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005346471A (ja) 2004-06-03 2005-12-15 Canon Inc 情報処理方法、情報処理装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101211796B1 (ko) * 2009-12-16 2012-12-13 포항공과대학교 산학협력단 외국어 학습 장치 및 그 제공 방법
US9519870B2 (en) * 2014-03-13 2016-12-13 Microsoft Technology Licensing, Llc Weighting dictionary entities for language understanding models
US10339470B1 (en) * 2015-12-11 2019-07-02 Amazon Technologies, Inc. Techniques for generating machine learning training data
US11580350B2 (en) * 2016-12-21 2023-02-14 Microsoft Technology Licensing, Llc Systems and methods for an emotionally intelligent chat bot

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005346471A (ja) 2004-06-03 2005-12-15 Canon Inc 情報処理方法、情報処理装置

Also Published As

Publication number Publication date
US20230069908A1 (en) 2023-03-09
WO2021166207A1 (ja) 2021-08-26
JPWO2021166207A1 (ja) 2021-08-26

Similar Documents

Publication Publication Date Title
Lozano-Diez et al. An analysis of the influence of deep neural network (DNN) topology in bottleneck feature based language recognition
JP6933264B2 (ja) ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体
Pawar et al. Convolution neural network based automatic speech emotion recognition using Mel-frequency Cepstrum coefficients
CN104903954A (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
JP6732703B2 (ja) 感情インタラクションモデル学習装置、感情認識装置、感情インタラクションモデル学習方法、感情認識方法、およびプログラム
JP6246636B2 (ja) パターン識別装置、パターン識別方法およびプログラム
JP7332024B2 (ja) 認識装置、学習装置、それらの方法、およびプログラム
Gupta et al. Speech emotion recognition using SVM with thresholding fusion
JP6845489B2 (ja) 音声処理装置、音声処理方法、および音声処理プログラム
Punithavathi et al. [Retracted] Empirical Investigation for Predicting Depression from Different Machine Learning Based Voice Recognition Techniques
JP7420211B2 (ja) 感情認識装置、感情認識モデル学習装置、それらの方法、およびプログラム
JP6992725B2 (ja) パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム
Kumar et al. An Analysis of the Impact of Spectral Contrast Feature in Speech Emotion Recognition.
JP7111017B2 (ja) パラ言語情報推定モデル学習装置、パラ言語情報推定装置、およびプログラム
KR20230120790A (ko) 가변적 언어모델을 이용한 음성인식 헬스케어 서비스
JP6220733B2 (ja) 音声分類装置、音声分類方法、プログラム
Kim et al. Speaker-characterized emotion recognition using online and iterative speaker adaptation
Gupta et al. Gender and age recognition using audio data—artificial neural networks
Zeng et al. Low-resource accent classification in geographically-proximate settings: A forensic and sociophonetics perspective
Schiller et al. Embedded Emotions--A Data Driven Approach to Learn Transferable Feature Representations from Raw Speech Input for Emotion Recognition
JP7176629B2 (ja) 識別モデル学習装置、識別装置、識別モデル学習方法、識別方法、プログラム
Khan et al. Robust Feature Extraction Techniques in Speech Recognition: A Comparative Analysis
Ajitha et al. Emotion Recognition in Speech Using MFCC and Classifiers
Baidwan et al. Comparative analysis of prosodic features and linear predictive coefficients for speaker recognition using machine learning technique
Sham-E-Ansari et al. A neural network based approach for recognition of basic emotions from speech

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220608

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230711

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230724

R150 Certificate of patent or registration of utility model

Ref document number: 7332024

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150