JP7176629B2 - 識別モデル学習装置、識別装置、識別モデル学習方法、識別方法、プログラム - Google Patents

識別モデル学習装置、識別装置、識別モデル学習方法、識別方法、プログラム Download PDF

Info

Publication number
JP7176629B2
JP7176629B2 JP2021525407A JP2021525407A JP7176629B2 JP 7176629 B2 JP7176629 B2 JP 7176629B2 JP 2021525407 A JP2021525407 A JP 2021525407A JP 2021525407 A JP2021525407 A JP 2021525407A JP 7176629 B2 JP7176629 B2 JP 7176629B2
Authority
JP
Japan
Prior art keywords
utterance
layer
output
input
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021525407A
Other languages
English (en)
Other versions
JPWO2020250266A1 (ja
Inventor
孝典 芦原
雄介 篠原
義和 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2020250266A1 publication Critical patent/JPWO2020250266A1/ja
Application granted granted Critical
Publication of JP7176629B2 publication Critical patent/JP7176629B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Description

本発明は、特殊な発話音声(例えば、ささやき声、叫び声、ボーカルフライ)を識別する際に利用するモデルを学習する識別モデル学習装置、特殊な発話音声を識別する識別装置、識別モデル学習方法、識別方法、プログラムに関する。
ささやき発話か通常発話かを分類するモデルに関する文献として非特許文献1がある。非特許文献1では、音声フレームを入力として、その音声フレームに対する事後確率(ささやきか、そうでないかの確率値)を出力するモデルを学習する。非特許文献1において発話単位の分類を実行する場合は、モデルの後段にモジュール(例えば全ての事後確率の平均値を計算するモジュール)を追加して用いる。
また、複数発話モード(Whispered/Soft/Normal/Loud/Shouted)音声の識別を可能にするモデルに関する文献として非特許文献2がある。
"LSTM-based whisper detection", Z. Raeesy, K. Gillespie, C. Ma, T. Drugman, J. Gu, R. Maas, A. Rastrow, B. Hoffmeister, SLT (2018) "Impact of vocal effort variability on automatic speech recognition", P. Zelinka, M. Sigmund, J. Schimmel, Speech Communication (2012).
非特許文献1において、非発話区間は当然、非ささやき音声区間と判別されるため、発話全体としてはささやき声だったとしても、非発話区間の長さに依存して、非ささやき声と判別される誤識別が起こりやすい。
また、ささやき声を識別するモデル学習技術は一般的に学習データ量に依存してその精度が変動し、学習データ量が少なければ少ないほど精度は低下する。そこで通常は、識別対象とするタスクの音声(ここでは特殊発話音声と特殊発話音声に比べて相対的に多い非特殊発話音声)を十分に且つ均等に集め、その音声にラベル付けし教師データとすることで、所望の学習データを収集する。とりわけささやき声や叫び声といった特殊発話音声は、その特殊性から通常の対話等では出現することが稀であり、別途そのような特殊発話音声を収録するなどのアプローチが必要である。なお、非特許文献1では予め満足のいく精度に達成するための特殊発話音声学習データ(ここではささやき音声)を収集している。しかし、そのような学習データ収集は莫大な金銭的・時間的コストを要する。
そこで本発明では、特殊発話音声の識別モデルを改善する識別モデル学習装置を提供することを目的とする。
本発明の識別モデル学習装置は、発話のフレーム単位の特徴量系列と、発話が特殊発話であるか否かの2値のラベルを含む学習データに基づいて、フレーム単位の特徴量系列を入力とし、中間層に出力結果を出力する入力層と、入力層または直前の中間層の出力結果を入力とし、処理結果を出力する1つ以上の中間層と、最後の中間層の出力結果を入力とし、発話単位の処理結果を出力する統合層と、統合層の出力からラベルを出力する出力層を含む識別モデルを学習する識別モデル学習部を含む。
本発明の識別モデル学習装置によれば、特殊発話音声の識別モデルを改善できる。
実施例1の識別モデル学習装置の構成を示すブロック図。 実施例1の識別モデル学習装置の動作を示すフローチャート。 従来の識別モデルの概略図。 実施例1の識別モデルの概略図。 実施例1の識別装置の構成を示すブロック図。 実施例1の識別装置の動作を示すフローチャート。 実施例2の識別モデル学習装置の構成を示すブロック図。 実施例2の識別モデル学習装置の動作を示すフローチャート。 実施例2の識別装置の構成を示すブロック図。 実施例2の識別装置の動作を示すフローチャート。 実施例3の識別モデル学習装置の構成を示すブロック図。 実施例3の識別モデル学習装置の動作を示すフローチャート。 従来技術で学習されたモデルと実施例に記載の方法で学習されたモデルの性能評価実験の結果を示す図。 コンピュータの機能構成例を示す図。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
実施例1では、予め発話単位の音声が入力されることを想定する。その入力発話に対し、フレーム単位で抽出された特徴量の時系列を用いて、各フレーム単位での事後確率を出力するのではなく、直接その発話に対する識別を実現する。具体的には、ニューラルネットワークなどのモデルにおいて、フレームごとに出力される中間層の行列(またはベクトル)を統合するレイヤー(例えばGlobal max-pooling層など)を挿入することで、直接発話単位での最適化・識別を実現する。
上記により、音声フレーム単位で出力・最適化する統計モデルではなく、発話単位で出力・最適化する統計モデルを実現できる。このようなモデル構造にすることで、非発話区間の長さなどに依存しない識別が可能となる。
[識別モデル学習装置]
以下、図1を参照して、実施例1の識別モデル学習装置の構成を説明する。同図に示すように、本実施例の識別モデル学習装置11は、音声信号取得部111と、音声ディジタル信号蓄積部112と、特徴量分析部113と、特徴量蓄積部114と、識別モデル学習部115を含む。以下、図2を参照して各構成要件の動作を説明する。
<音声信号取得部111>
入力:音声信号
出力:音声ディジタル信号
処理:AD変換
音声信号取得部111は、アナログの音声信号を取得し、取得したアナログの音声信号を、ディジタルの音声信号に変換し、音声ディジタル信号を取得する(S111)。
<音声ディジタル信号蓄積部112>
入力:音声ディジタル信号
出力:音声ディジタル信号
処理:音声ディジタル信号の蓄積
音声ディジタル信号蓄積部112は、入力された音声ディジタル信号を蓄積する(S112)。
<特徴量分析部113>
入力:音声ディジタル信号
出力:発話毎の特徴量系列
処理:特徴量分析
特徴量分析部113は、音声ディジタル信号から音響特徴量抽出を行い、発話毎の、フレーム単位の(音響)特徴量系列を取得する(S113)。抽出する特徴量としては、例えば、音声信号の短時間フレーム分析に基づくMFCC(Mel-Frequenct Cepstrum Coefficient)の1~12次元と、その動的特徴量であるΔMFCC、ΔΔMFCCなどの動的パラメータや、パワー、Δパワー、ΔΔパワー等を用いる。また、MFCCに対してはCMN(ケプストラム平均正規化)処理を行っても良い。特徴量は、MFCCやパワーに限定したものでは無く、非特殊発話に比べて相対的に少ない特殊発話の識別に用いられるパラメータ(例えば、自己相関ピーク値や群遅延など)を用いても良い。
<特徴量蓄積部114>
入力:ラベル、特徴量系列
出力:ラベル、特徴量系列
処理:ラベル、特徴量系列の蓄積
特徴量蓄積部114は、発話に対して付与された特殊発話または非特殊発話のラベル(2値)と、特徴量分析部113で分析したフレーム単位の特徴量系列の組を蓄積する(S114)。
<識別モデル学習部115>
入力:発話毎のラベル、特徴量系列の組
出力:識別モデル
処理:識別モデルの学習
識別モデル学習部115は、発話のフレーム単位の特徴量系列と、発話が特殊発話であるか否かの2値のラベルを含む学習データに基づいて、フレーム単位の特徴量系列を入力とし、中間層に出力結果を出力する入力層と、入力層または直前の中間層の出力結果を入力とし、処理結果を出力する1つ以上の中間層と、最後の中間層の出力結果を入力とし、発話単位の処理結果を出力する統合層と、統合層の出力からラベルを出力する出力層を含む識別モデルを学習する(S115)。
識別モデルを学習するに際し、本実施例ではニューラルネットワークなどのモデルを想定する。ニューラルネットワークなどのモデルにおいて、ささやき声のような特殊発話音声の識別タスクを実施する際は、従来はフレーム単位で入出力を行っていた。しかし、本実施例では、各フレームで出力される中間層の行列(またはベクトル)を統合するレイヤー(統合層)を挿入することで、フレーム単位の入力でありながら、発話単位での出力を可能とした(図3、図4参照。図3は従来の識別モデルの概略図、図4は本実施例の識別モデルの概略図)。統合層は例えば、Global max-poolingやGlobal average-poolingで実現可能である。
実施例1の識別モデル学習装置11によれば、上記のモデル構造をとることで、ダイレクトに発話単位の最適化が可能になるため、音声発話区間以外の長さの大小に依存せず頑健なモデルを構築することが可能となる。また、中間層を統合する統合層を挿入し、統合層の出力が特殊・非特殊の発話単位の判定に直接利用されるため、統計的なモデリングに基づく一体的な学習、推定が可能となる。また、フレーム単位で判定した事後確率の平均値等を発話単位の判定に用いるようなヒューリスティクスが存在する従来技術と比較して、ヒューリスティックが介入しない分、より精度が向上する。また、フレーム単位の平均値を用いる場合、非発話区間が特殊発話区間なのか非特殊発話区間なのか不明瞭になるため、上記手法を用いることで非発話区間やポーズ等の影響を受けにくい学習が可能になる。
[識別装置]
以下、図5を参照して上述の識別モデルを用いる識別装置の構成を説明する。同図に示すように本実施例の識別装置12は、識別モデル記憶部121と、識別部122を含む。以下、図6を参照して各構成要件の動作を説明する。
<識別モデル記憶部121>
入力:識別モデル
出力:識別モデル
処理:識別モデルの記憶
識別モデル記憶部121は、上述の識別モデルを記憶する(S121)。すなわち、識別モデル記憶部121は、発話のフレーム単位の特徴量系列を入力とし、中間層に出力結果を出力する入力層と、入力層または直前の中間層の出力結果を入力とし、処理結果を出力する1つ以上の中間層と、最後の中間層の出力結果を入力とし、発話単位の処理結果を出力する統合層と、統合層の出力から発話が特殊発話であるか否かの2値のラベルを出力する出力層を含む識別モデルを記憶する(S121)。
<識別部122>
入力:識別モデル、識別用データ
出力:識別モデル、識別用データ
処理:識別用データの識別
識別部122は、識別モデル記憶部121に記憶済みの識別モデルを用いて任意の発話である識別用データを識別する(S122)。
実施例2では、特殊発話音声の学習データが、識別モデルを学習するのに十分な量ではない状況を想定する。実施例2では、大量にかつ容易に入手可能な非特殊発話音声を全て利用し、不均衡データ条件として学習させる。一般的に、不均衡データ条件下でクラス分類モデルを学習する際、均衡データ条件と同じような学習方法を適用すると、どのような発話音声が入力されてもメジャークラス(学習データ量が多い方のクラス、ここでは非特殊発話)と識別されるモデルが学習されてしまう。そこで、不均衡データ条件下でも正しく学習出来るような学習法(例えば参考非特許文献1)を応用することを考える。
(参考非特許文献1:“A systematic study of the class imbalance problem in convolutional neural networks”, M. Buda, A. Maki, M. A. Mazurowski, Neural Networks (2018))
本実施例では、予め学習データ量をサンプリングする方法を考える。例えば、メジャークラス(ここでは非特殊発話)のデータ量と同一になるように、マイナークラス(ここでは特殊発話)のデータ量をコピーして増やす処理などを実行する学習データサンプリング部を含む。また、不均衡データ条件であっても頑健に学習できるような処理(例えば、マイナークラスの学習コストをメジャークラスより大きくする等)を実行する不均衡データ学習部を含む。
モデルの学習に際し、学習データ量が少ない(特殊発話音声データが十分量入手出来ない)状況でも、非特殊発話音声(通常の発話など)は容易にかつ大量に入手可能であるため、その非特殊発話を不均衡データ条件として学習することで、識別モデルの精度を改善できる。
一般的に、特殊発話音声と非特殊発話音声とを分類するモデルを学習する際は、非特許文献2のようにそれぞれの音声を均等量収集しモデル学習するアプローチが取られる。しかしながらこのアプローチは、[発明が解決しようとする課題]の欄で述べたように、データ収集コストが高い。一方、非特殊発話音声は大量にかつ容易に入手可能なため、この音声データを学習データとして利用することで、特殊発話音声が少量しかない条件下においてもモデルの精度を改善することができる。
[識別モデル学習装置]
以下、図7を参照して、実施例2の識別モデル学習装置の構成を説明する。同図に示すように、本実施例の識別モデル学習装置21は、音声信号取得部111と、音声ディジタル信号蓄積部112と、特徴量分析部113と、特徴量蓄積部114と、学習データサンプリング部215と、不均衡データ学習部216を含む。なお、音声信号取得部111、音声ディジタル信号蓄積部112、特徴量分析部113、特徴量蓄積部114は実施例1と同じ動作をするため、説明を割愛する。以下、図8を参照して学習データサンプリング部215と、不均衡データ学習部216の動作を説明する。
<学習データサンプリング部215>
入力:特徴量系列
出力:サンプリング済み学習データ
処理:特徴量サンプリング
を1以上の整数とし、N<M<Nであるものとする。学習データサンプリング部215は、その発話が特殊発話であることを意味する第1ラベルを付与されたN個の発話、またはその発話が非特殊発話であることを意味する第2ラベルを付与されたN個の発話と、何れかの発話に対応するフレーム単位の特徴量系列の組について、サンプリングを実行してM個の第1ラベルの発話の組とM個の第2ラベルの発話の組を出力する(S215)。
学習データサンプリング部215は、不足するM-N個の非特殊発話をサンプリングにより補う。サンプリング方法としては、例えばアップサンプリングが考えられる。アップサンプリング方法としては、メジャークラスのデータ量と同一になるように、マイナークラス(ここでは特殊発話)のデータ量を単純にコピーして増やす方法などが考えられる。参考非特許文献2に類似の学習方法が記されている。
(参考非特許文献2:“A Review of Class Imbalance Problem”, S. M. A. Elrahman, A. Abraham, Journal of Network and Innovative Computing (2013))
<不均衡データ学習部216>
入力:サンプリング済み学習データ
出力:学習済み識別モデル
処理:識別モデルの学習
不均衡データ学習部216は、発話のフレーム単位の特徴量系列の入力に対して第1ラベルまたは第2ラベルを出力する識別モデルについて、出力された発話の組を用いて第1ラベル発話の学習誤差Lと第2ラベル発話の学習誤差Lに対してN*L+N*Lを最適化し、識別モデルを学習する(S216)。
本実施例では、特殊発話音声と非特殊発話音声の2クラス分類であるため、その分類が可能となるモデルであれば良い。例えば、非特許文献1や非特許文献2のようにGMMやDNNモデルなどを用いてもよい。学習方法としては、例えば、マイナークラス(ここでは特殊発話)の学習誤差をL、メジャークラス(ここでは非特殊発話)の学習誤差をLとし、(L+L)のようにその合算値を学習誤差としてモデルの最適化を実行してもよいし、(N*L+N*L)のようにそのデータ量に応じてマイナークラスの学習誤差を大きくすることで、マイナークラスの学習に重みを付与すればさらに好適である。参考非特許文献2に類似の学習方法が記されている。
例えば、極端な不均衡データをそのまま学習すると、マイナークラスのデータが一度も出現しない、もしくはマイナークラスのデータが限りなく少ない出現回数のままモデルが収束し、学習が終わることになる。そこで学習データサンプリング部215において特徴量サンプリング(例えば上述したアップサンプリング)をすることで、学習データ量が調整され、マイナークラスのデータが一定量学習に出現することが約束される。加えて、不均衡データ学習部216において、例えば上述した、マイナークラスの学習誤差Lに重みをつけて学習する方法で学習することで、効果的に且つ高速に学習することが可能となる。
実施例2の識別モデル学習装置21によれば、特殊発話音声データが十分量入手出来ない状況でも、大量にかつ容易に入手可能な非特殊発話音声データを陽に活かすことで、識別モデルの精度を改善させることができる。
[識別装置]
以下、図9を参照して上述の識別モデルを用いる識別装置の構成を説明する。同図に示すように本実施例の識別装置22は、識別モデル記憶部221と、識別部222を含む。以下、図10を参照して各構成要件の動作を説明する。
<識別モデル記憶部221>
入力:識別モデル
出力:識別モデル
処理:識別モデルの記憶
識別モデル記憶部221は、上述した識別モデル学習装置21で学習した識別モデルを記憶する(S221)。
<識別部222>
入力:識別モデル、識別用データ
出力:識別モデル、識別用データ
処理:識別用データの識別
識別部222は、識別モデル記憶部221に記憶済みの識別モデルを用いて任意の発話である識別用データを識別する(S222)。
実施例1と実施例2は組み合わせることができる。すなわち、実施例1と同様に統合層を用いて発話単位で識別結果を出力する識別モデルの構造を採用し、さらに実施例2と同様に学習データをサンプリングして、不均衡データ学習を行うこととしてもよい。以下、図11を参照して、実施例1と実施例2の組み合わせである実施例3の識別モデル学習装置の構成について説明する。同図に示すように本実施例の識別モデル学習装置31は、音声信号取得部111と、音声ディジタル信号蓄積部112と、特徴量分析部113と、特徴量蓄積部114と、学習データサンプリング部215と、不均衡データ学習部316を含み、不均衡データ学習部316以外の構成は、実施例2と共通する。以下、図12を参照して不均衡データ学習部316の動作を説明する。
<不均衡データ学習部316>
入力:サンプリング済み学習データ
出力:学習済み識別モデル
処理:識別モデルの学習
不均衡データ学習部316は、発話単位で第1ラベルまたは第2ラベルを出力する識別モデルについて、出力された発話の組を用いて第1ラベル発話の学習誤差Lと第2ラベル発話の学習誤差Lに対してN*L+N*Lを最適化し、識別モデルを学習する(S316)。なお、学習する識別モデルは、実施例1と同様に、発話のフレーム単位の特徴量系列を入力とし、中間層に出力結果を出力する入力層と、入力層または直前の中間層の出力結果を入力とし、処理結果を出力する1つ以上の中間層と、最後の中間層の出力結果を入力とし、発話単位の処理結果を出力する統合層と、統合層の出力から発話が特殊発話であるか否かの2値のラベルを出力する出力層を含む識別モデルである。
<性能評価実験>
図13に、従来技術で学習されたモデルと実施例に記載の方法で学習されたモデルの性能評価実験の結果を示す。
この実験では「ささやき音声」と「通常音声」の2クラス識別タスクを実施した。音声収録はコンデンサーマイク録音、スマートフォンマイク録音の2パターンで行われた。話者とマイク間の距離として至近距離=3cm、通常距離=15cm、遠距離=50cmの3パターンの実験条件を用意した。具体的には、至近距離、通常距離、遠距離、それぞれの距離にマイクをそれぞれ設置しておき、並列活動時に音声を収録した。従来技術で学習したモデルの性能評価結果を白いバーで、モデル最適化条件(実施例1の条件)で学習したモデルの性能評価結果をドットハッチングを施したバーで、モデル最適化+不均衡データ条件(実施例3の条件)で学習したモデルの性能評価結果を斜線ハッチングを施したバーで、それぞれ示した。同図に示すように、従来技術に対して、モデル最適化をすることで精度改善が見られ、更に不均衡データとして取り扱うことにより様々な環境下で一定の精度改善が認められる。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
上述の各種の処理は、図14に示すコンピュータの記録部10020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部10010、入力部10030、出力部10040などに動作させることで実施できる。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (9)

  1. 発話のフレーム単位の特徴量系列と、前記発話が特殊発話であるか否かの2値のラベルを含む学習データに基づいて、
    フレーム単位の前記特徴量系列を入力とし、中間層に出力結果を出力する入力層と、
    前記入力層または直前の中間層の出力結果を入力とし、処理結果を出力する1つ以上の中間層と、
    最後の前記中間層の出力結果を入力とし、発話単位の処理結果を出力する統合層と、
    前記統合層の出力から前記ラベルを出力する出力層を含む識別モデルを学習する識別モデル学習部を含む
    識別モデル学習装置。
  2. 発話のフレーム単位の特徴量系列を入力とし、中間層に出力結果を出力する入力層と、
    前記入力層または直前の中間層の出力結果を入力とし、処理結果を出力する1つ以上の中間層と、
    最後の前記中間層の出力結果を入力とし、発話単位の処理結果を出力する統合層と、
    前記統合層の出力から前記発話が特殊発話であるか否かの2値のラベルを出力する出力層を含む識別モデルと、
    前記識別モデルを用いて任意の発話を識別する識別部を含む
    識別装置。
  3. <M<Nであるものとし、その発話が特殊発話であることを意味する第1ラベルを付与されたN個の発話、またはその発話が非特殊発話であることを意味する第2ラベルを付与されたN個の発話と、何れかの前記発話に対応するフレーム単位の特徴量系列の組について、サンプリングを実行してM個の第1ラベルの発話の組とM個の第2ラベルの発話の組を出力する学習データサンプリング部と、
    発話のフレーム単位の特徴量系列に対して前記第1ラベルまたは前記第2ラベルを出力する識別モデルについて、前記出力された発話の組を用いて第1ラベル発話の学習誤差Lと第2ラベル発話の学習誤差Lに対してN*L+N*Lを最適化する不均衡データ学習部を含む
    識別モデル学習装置。
  4. 請求項3に記載の識別モデル学習装置で学習した識別モデルを用いて、任意の発話を識別する識別部を含む
    識別装置。
  5. 識別モデル学習装置が実行する識別モデル学習方法であって、
    発話のフレーム単位の特徴量系列と、前記発話が特殊発話であるか否かの2値のラベルを含む学習データに基づいて、フレーム単位の前記特徴量系列を入力とし、中間層に出力結果を出力する入力層と、前記入力層または直前の中間層の出力結果を入力とし、処理結果を出力する1つ以上の中間層と、最後の前記中間層の出力結果を入力とし、発話単位の処理結果を出力する統合層と、前記統合層の出力から前記ラベルを出力する出力層を含む識別モデルを学習するステップを含む
    識別モデル学習方法。
  6. 識別装置が実行する識別方法であって、
    発話のフレーム単位の特徴量系列を入力とし、中間層に出力結果を出力する入力層と、前記入力層または直前の中間層の出力結果を入力とし、処理結果を出力する1つ以上の中間層と、最後の前記中間層の出力結果を入力とし、発話単位の処理結果を出力する統合層と、前記統合層の出力から前記発話が特殊発話であるか否かの2値のラベルを出力する出力層を含む識別モデルを用いて任意の発話を識別するステップを含む
    識別方法。
  7. 識別モデル学習装置が実行する識別モデル学習方法であって、
    <M<Nであるものとし、その発話が特殊発話であることを意味する第1ラベルを付与されたN個の発話、またはその発話が非特殊発話であることを意味する第2ラベルを付与されたN個の発話と、何れかの前記発話に対応するフレーム単位の特徴量系列の組について、サンプリングを実行してM個の第1ラベルの発話の組とM個の第2ラベルの発話の組を出力するステップと、
    発話のフレーム単位の特徴量系列に対して前記第1ラベルまたは前記第2ラベルを出力する識別モデルについて、前記出力された発話の組を用いて第1ラベル発話の学習誤差Lと第2ラベル発話の学習誤差Lに対してN*L+N*Lを最適化するステップを含む
    識別モデル学習方法。
  8. 識別装置が実行する識別方法であって、
    請求項7に記載の識別モデル学習方法で学習した識別モデルを用いて、任意の発話を識別するステップを含む
    識別方法。
  9. コンピュータを請求項1から4の何れかに記載の装置として機能させるプログラム。
JP2021525407A 2019-06-10 2019-06-10 識別モデル学習装置、識別装置、識別モデル学習方法、識別方法、プログラム Active JP7176629B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/022866 WO2020250266A1 (ja) 2019-06-10 2019-06-10 識別モデル学習装置、識別装置、識別モデル学習方法、識別方法、プログラム

Publications (2)

Publication Number Publication Date
JPWO2020250266A1 JPWO2020250266A1 (ja) 2020-12-17
JP7176629B2 true JP7176629B2 (ja) 2022-11-22

Family

ID=73780880

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021525407A Active JP7176629B2 (ja) 2019-06-10 2019-06-10 識別モデル学習装置、識別装置、識別モデル学習方法、識別方法、プログラム

Country Status (3)

Country Link
US (1) US20220246137A1 (ja)
JP (1) JP7176629B2 (ja)
WO (1) WO2020250266A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007079363A (ja) 2005-09-16 2007-03-29 Advanced Telecommunication Research Institute International パラ言語情報検出装置及びコンピュータプログラム
JP2016186515A (ja) 2015-03-27 2016-10-27 日本電信電話株式会社 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007079363A (ja) 2005-09-16 2007-03-29 Advanced Telecommunication Research Institute International パラ言語情報検出装置及びコンピュータプログラム
JP2016186515A (ja) 2015-03-27 2016-10-27 日本電信電話株式会社 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム

Also Published As

Publication number Publication date
WO2020250266A1 (ja) 2020-12-17
US20220246137A1 (en) 2022-08-04
JPWO2020250266A1 (ja) 2020-12-17

Similar Documents

Publication Publication Date Title
CN104903954A (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
JP2006510933A (ja) センサ・ベース音声認識装置の選択、適応、および組合せ
US20080077404A1 (en) Speech recognition device, speech recognition method, and computer program product
JP2019211749A (ja) 音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラム
WO2018192186A1 (zh) 语音识别方法及装置
JP7268711B2 (ja) 信号処理システム、信号処理装置、信号処理方法、およびプログラム
JP6622681B2 (ja) 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム
Chittaragi et al. Automatic text-independent Kannada dialect identification system
US11837236B2 (en) Speaker recognition based on signal segments weighted by quality
JP6553015B2 (ja) 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
JP7332024B2 (ja) 認識装置、学習装置、それらの方法、およびプログラム
CN114416989A (zh) 一种文本分类模型优化方法和装置
JP7409381B2 (ja) 発話区間検出装置、発話区間検出方法、プログラム
JP6676009B2 (ja) 話者判定装置、話者判定情報生成方法、プログラム
JP4829871B2 (ja) 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体
WO2019107170A1 (ja) 緊急度推定装置、緊急度推定方法、プログラム
JP4571922B2 (ja) 音響モデル作成装置、音響モデル作成方法、そのプログラムおよびその記録媒体
JP7176629B2 (ja) 識別モデル学習装置、識別装置、識別モデル学習方法、識別方法、プログラム
JP7279800B2 (ja) 学習装置、推定装置、それらの方法、およびプログラム
JP6612277B2 (ja) ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体
JP6546070B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
JP7111017B2 (ja) パラ言語情報推定モデル学習装置、パラ言語情報推定装置、およびプログラム
JP5496945B2 (ja) 話者分類装置、話者分類方法、プログラム
JP6728083B2 (ja) 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム
JP7216348B2 (ja) 音声処理装置、音声処理方法、および音声処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211013

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221011

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221024

R150 Certificate of patent or registration of utility model

Ref document number: 7176629

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150