JP7364068B2 - ラベリング誤り検出装置、ラベリング誤り検出方法、およびプログラム - Google Patents

ラベリング誤り検出装置、ラベリング誤り検出方法、およびプログラム Download PDF

Info

Publication number
JP7364068B2
JP7364068B2 JP2022527441A JP2022527441A JP7364068B2 JP 7364068 B2 JP7364068 B2 JP 7364068B2 JP 2022527441 A JP2022527441 A JP 2022527441A JP 2022527441 A JP2022527441 A JP 2022527441A JP 7364068 B2 JP7364068 B2 JP 7364068B2
Authority
JP
Japan
Prior art keywords
phoneme
labeling
time information
error detection
boundary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022527441A
Other languages
English (en)
Other versions
JPWO2021240780A1 (ja
Inventor
裕紀 金川
勇祐 井島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021240780A1 publication Critical patent/JPWO2021240780A1/ja
Application granted granted Critical
Publication of JP7364068B2 publication Critical patent/JP7364068B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音声の自動ラベリング技術に関し、特に時間情報付き音素ラベルの誤り検知技術に関する。
音声合成の音響モデル構築には、音声およびそれに対応する音素ラベルが必要である。近年の統計的パラメトリック音声合成で主流である深層学習(DNN: Deep Neural Network)に基づく音声合成では、モデルの入出力間でフレームレベルの言語特徴量と音響特徴量を対応させるため、音素ラベルに時間情報が正確に与えられている必要がある。音声の各音素に対応する時間情報を音素ラベルに付与する作業を音素ラベリングと呼ぶ。音素ラベリングを人手で行うには、音声と音素ラベルを照らし合わせて何度も聴かなければならないため、膨大な時間とコストを要する。
この音素ラベリングを自動で行う方法として、隠れマルコフモデル(HMM: Hidden Markov Model)を用いる手法がよく用いられる(例えば、特許文献1および非特許文献1,2等参照)。この手法では、音響特徴量の時系列(音響特徴量系列)と音素ラベルの時系列(音素ラベル系列)をHMMに与え、ビタビアルゴリズムなどの探索アルゴリズムを通じて時間情報付き音素ラベルの時系列(時間情報付き音素ラベル系列)を得ることができる。
従来はHMMの状態遷移系列の音響尤度(例えば、非特許文献2の式(1.27)のbj(ot))の計算に、混合ガウス分布(GMM)を用いるのが主流であったが、近年ではGMMより高い弁別性を持つ深層学習(DNN)を用いる方法が主流となっている(例えば、非特許文献3,4等参照)。
いま、DNNとHMMを併用したアプローチ(DNN-HMM)で音素ラベリングを行う自動ラベリング用モデルを考える。ある発話において、音声から抽出した音響特徴量系列、それに対応するHMMの状態ID系列をそれぞれo=[o1,...,oT]、s=[s1,...,sT]とするとき、DNNは次式のLoss(o,s)を最小化するように学習される。
Loss(o,s)=-xent(o,s)
ここで、xent(o,s)はoとsの交差エントロピーであり、t=1,...,Tが離散時間に対応するフレーム番号であり、Tがtの最大値である。フレーム番号tに対応する離散時間を時刻tと表現する。時刻tにおけるHMMの状態IDはj=1,...,Nのいずれかの値を取る。ただし、Nはjの最大値である。音響特徴量系列と音素ラベル系列から時間情報付き音素ラベル系列を予測するには、まずDNNの順伝搬演算により、音響特徴量系列ot (∀t∈[1,T])が与えられた時にHMMの状態IDがjとなる事後確率p(j|ot) (∀t∈[1,T])を得る。これを事前確率p(j)で除算することで音響尤度p(ot|j)(例えば、非特許文献2の式(1.27)のbj(ot))を得る。事前確率p(j)は、学習データ中の状態IDの出現頻度から計算できる。これらをj=1,...,Nの全状態にわたって計算した音響尤度系列p(ot|j) (∀t∈[1,T], ∀j∈[1,N])をHMMに入力し、ビタビアルゴリズムを実行することで時間情報付きラベルを推定できる。
特許第3866171号公報
河井恒, 戸田智基, "波形接続型音声合成のための自動音素セグメンテーションの評価", 信学技報, SP2002-170, pp. 5 - 10, 2003. Steve Young, et al., "The HTK Book (for HTK Version 3.5a)," Cambridge University EngineeringDepartment, 2015 G. Hinton, L. Deng, D. Yu, G. Dahl, A. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T. Sainath, and B. Kingsbury, "Deep neural networks for acoustic modeling in speech recognition," IEEE Signal Processing Magazine, Vol.29 (6), pp. 82 - 97, 2012. David Ayllon, Fernando Villavicencio, Pierre Lanchantin, "A Strategy for Improved Phone-Level Lyrics-to-Audio Alignment for Speech-to-Singing Synthesis", Proc. Interspeech, pp. 2603 - 2607.
しかし、前述の枠組みを含む自動ラベリングによって時間情報付き音素ラベル系列を得た場合、その音素境界が、人手で音素ラベリングした場合とかけ離れたものになることがある。これを防ぐために、自動ラベリング結果の音素境界位置をすべて人手で修正することが好ましいが、この作業を人手行うのは先述の通り、膨大なコストがかかる。仮に修正箇所がなかったとしても、修正箇所の有無を判定するためには、全ラベリング対象の音声を一度は聞かなくてはならならず、多大な時間を要する。
本発明はこのような点に鑑みてなされたものであり、音素ラベリングの誤りを自動で検出することを目的とする。
音声信号の音響特徴量系列および音声信号の音素ラベル系列を用い、音素ラベル系列に順方向の時間情報を対応付ける順方向の音素ラベリングを行って第1時間情報付き音素ラベル系列を得、音響特徴量系列の時間順序を反転させた反転音響特徴量系列および音素ラベル系列の時間順序を反転させた反転音素ラベル系列を用い、反転音素ラベル系列に逆方向の時間情報を対応付ける逆方向の音素ラベリングを行って時間情報付き反転音素ラベル系列を得、第1時間情報付き音素ラベル系列と、時間情報付き反転音素ラベル系列の時間順序を反転させた第2時間情報付き音素ラベル系列との間での音素境界誤差に基づき、音素ラベリングの誤りを検出する。
以上のように、音素ラベリングの誤りを自動で検出できる。
図1は実施形態のラベリング誤り検出装置の機能構成を例示したブロック図である。 図2は実施形態の順方向ラベリング部の機能構成を例示したブロック図である。 図3は実施形態の逆方向ラベリング部の機能構成を例示したブロック図である。 図4は第1実施形態のラベリング誤り検出部の機能構成を例示したブロック図である。 図5は、順方向の音素ラベリングで得られた時間情報付き音素ラベル系列Aと、逆方向の音素ラベリングで得られた時間情報付き反転音素ラベル系列の時間順序を反転させた時間情報付き音素ラベル系列Bとの間での音素境界誤差を例示した図である。 図6はラベリング誤り検出部の処理内容を例示するためのフロー図である。 図7は第2実施形態のラベリング誤り検出部の機能構成を例示したブロック図である。 図8は実施形態のハードウェア構成を例示したブロック図である。
以下、図面を参照して本発明の実施の形態を説明する。
[第1実施形態]
まず、本発明の第1実施形態を説明する。
第1実施形態では、自動で行われた音素ラベリングの結果から、優先的に修正すべき音素ラベリング誤りの大きな音素を自動検出する。具体的には、音声信号の音響特徴量系列および当該音声信号の音素ラベル系列を用い、音素ラベル系列に順方向(通常の時系列)の時間情報を対応付ける順方向の音素ラベリングを行って第1時間情報付き音素ラベル系列を得る順方向のシステムと、音響特徴量系列の時間順序を反転させた反転音響特徴量系列および音素ラベル系列の時間順序を反転させた反転音素ラベル系列を用い、反転音素ラベル系列に逆方向の時間情報を対応付ける逆方向の音素ラベリングを行って時間情報付き反転音素ラベル系列を得る逆方向のシステムとを用意する。順方向のシステムで得られた第1時間情報付き音素ラベル系列と、逆方向のシステムで得られた時間情報付き反転音素ラベルの時間順序を反転させた第2時間情報付き音素ラベル系列との間での音素境界誤差を算出し、当該音素境界誤差に基づいて音素ラベリングの誤りを検出する。
順方向の音素ラベリングは、例えばビタビアルゴリズムによって、音響尤度と音素ラベル系列との強制アラインメントを行い最尤な経路を決定することで行われる。しかし、このような順方向の音素ラベリングは時系列に沿って一方向(順方向)で行われ(例えば、非特許文献2の式(1.27)参照)、とある時刻で音素ラベリングの誤りが大きい場合、その影響が後続の時系列の音素ラベリングに悪影響を与えてしまう。例えば、文末の無音であるべき時刻に先行音素が対応付けられるということがよくある。このことから、無音や長母音などを含む少なくとも一部の音素の音素境界において、順方向の音素ラベリングで得られた時間情報付き音素ラベル系列と正解の音素ラベル系列との音素境界誤差と、順方向の音素ラベリングで得られた時間情報付き音素ラベル系列と逆方向の音素ラベリングに基づいた時間情報付き音素ラベル系列との音素境界誤差との間に、正の相関を持つ。この原理に基づき、本実施形態では、順方向の音素ラベリングに加え、逆方向の音素ラベリングも行い、順方向のシステムで得られた第1時間情報付き音素ラベル系列と、逆方向のシステムで得られた時間情報付き反転音素ラベルの時間順序を反転させた第2時間情報付き音素ラベル系列との間での音素境界誤差を計算し、音素境界誤差に基づいて音素ラベリングの誤りを検出する。例えば、音素境界誤差に基づき、音素ラベル系列から音素ラベリングを誤った音素ラベルを検出する。例えば、音素境界誤差が閾値を超える音素境界に対応する時間情報付き音素ラベルを検出する。
これにより、音素ラベリングの誤りを自動で検出することが可能になる。自動音素ラベリングにより得られる音素ラベルには誤りが含まれるため、これまでは全発話において人手で音素境界を手修正する必要があった。本実施形態では、音素ラベリングの誤りを自動で検出できるため、誤りと検出された部分の音素ラベリングのみを手修正すればよく、ラベリングにかかる時間とコストを削減できる。以下、本実施形態について詳細に説明する。
<詳細>
図1に例示するように、本実施形態のラベリング誤り検出装置1は、順方向ラベリング部11、逆方向ラベリング部12、およびラベリング誤り検出部13を有する。図2に例示するように、順方向ラベリング部11は、順方向ラベリング用モデル110、音響特徴量計算部111、および時間情報計算部112を有する。図3に例示するように、逆方向ラベリング部12は、逆方向ラベリング用モデル120、音響特徴量計算部121、音響特徴量時間反転部122、ラベル反転部123、時間情報計算部124、およびラベル反転部125を有する。図4に例示するように、ラベリング誤り検出部13は、音素境界誤差算出部131、および誤り検出部132を有する。順方向ラベリング用モデル110は予め順方向ラベリング部11に組み込まれていてもよいし、外部から順方向ラベリング部11に入力されて図示していない記憶部に格納されていてもよい。同様に、逆方向ラベリング用モデル120は予め逆方向ラベリング部12に組み込まれていてもよいし、外部から逆方向ラベリング部12に入力されて図示していない記憶部に格納されていてもよい。またラベリング誤り検出装置1は、図示していない制御部の下で各処理を実行する。各処理に用いられる情報は図示していない記憶部に格納され、必要に応じて読み出されて使用される。
まず、図1から図4を用い、ラベリング誤り検出装置1の処理の全体を説明する。ラベリング誤り検出装置1には、ラベリング対象である時系列の音声データ(音声信号)および当該音声データに対応する時間情報無し音素ラベル系列(音素ラベル系列)が入力される。音声データおよび時間情報無し音素ラベル系列は、図示していないデータベースに格納されたものであってもよいし、インターネットなどの通信手段で送信されたものであってもよい。音声データはデジタルデータであり、時間領域の時系列データであってもよいし、時間周波数領域の時系列データであってもよい。時間情報無し音素ラベル系列は、音声データで示される音声を構成する音素列を表す音素ラベル系列(音素を表すラベルの系列)である。音素の例は、子音、母音、半母音、長母音、特殊モーラおよび無音などである。時間情報無し音素ラベル系列を構成する音素ラベルの順序は音声データが表す音声に応じて決められているが、各音素ラベルに対応する時刻(すなわち、音声データの時間情報)は付与されていない。
<順方向ラベリング部11>
図1および図2に例示するように、順方向ラベリング部11の音響特徴量計算部111には音声データが入力される。音響特徴量計算部111は、音声データから音素ラベリング用の音響特徴量を得、当該音響特徴量の時系列を音響特徴量系列として出力する。音響特徴量には、音声の周波数特性を示すメル周波数ケプストラム係数(MFCC:Mel-Frequency Cepstrum Coefficients)やメルフィルタバンクなどが用いられるが、その他スペクトログラムや音声認識用のDNNから得たボトルネック特徴量などを用いてもよい(ステップS111)。
次に、音響特徴量計算部111から出力された音響特徴量系列、前述の時間情報無し音素ラベル系列、および順方向ラベリング用モデル110は時間情報計算部112に入力される。時間情報計算部112は、音響特徴量系列および音素ラベル系列を用い、音素ラベル系列に順方向の時間情報を対応付ける順方向の音素ラベリングを行って時間情報付き音素ラベル系列A(第1時間情報付き音素ラベル系列)を得て出力する。この順方向の音素ラベリングでは、音響特徴量系列および音素ラベル系列に順方向ラベリング用モデル110を適用する。なお順方向の音素ラベリングとは、音声データの時間方向(過去から未来へ向かう方向)に音素ラベリングを行う処理を意味する。すなわち、順方向の音素ラベリングでは、音響特徴量ot (∀t∈[1,T])に対して、各時刻tのスコア(例えば、非特許文献2の式(1.27)のφj(t))が過去の時刻t-1までのスコア(例えば、非特許文献2の式(1.27)のφj(t-1))に依存する漸化式に基づく音素ラベリングを行う。順方向ラベリング用モデル110には、例えばGMM-HMMやDNN-HMMを用いることができる(例えば、特許文献1,非特許文献1~4等参照)。これらの例の場合、時間情報計算部112は、音響特徴量系列および時間情報無し音素ラベル系列に対してビタビアルゴリズムを適用し、強制アラインメントを取ることで時間情報付き音素ラベル系列Aを得る(ステップS112)。
<逆方向ラベリング部12>
図1および図3に例示するように、逆方向ラベリング部12の音響特徴量計算部121には音声データが入力される。音響特徴量計算部121は、音声データから音素ラベリング用の音響特徴量を得、当該音響特徴量の時系列を音響特徴量系列として出力する。音響特徴量計算部121が生成する音響特徴量は、前述の順方向ラベリング部11の音響特徴量計算部111が生成する音響特徴量と同一である(ステップS121)。
音響特徴量計算部121から出力された音響特徴量系列は音響特徴量時間反転部122に入力される。音響特徴量時間反転部122は、入力された音響特徴量系列の時間順序を反転(時間反転)させた反転音響特徴量系列を得て出力する(ステップS122)。
また、前述の時間情報無し音素ラベル系列がラベル反転部123に入力される。ラベル反転部123は、入力された時間情報無し音素ラベル系列の時間順序を反転させた時間情報無し反転音素ラベル系列(反転音素ラベル系列)を得て出力する。例えば、時間情報無し音素ラベル系列として「おはよう」を音素化した「o h a y o o」がラベル反転部123に入力された場合、ラベル反転部123は時間情報無し反転音素ラベル系列として「o o y a h o」を出力する(ステップS123)。
次に、音響特徴量時間反転部122から出力された反転音響特徴量系列、ラベル反転部123から出力された時間情報無し反転音素ラベル系列、および前述の逆方向ラベリング用モデル120が時間情報計算部124に入力される。時間情報計算部124は、反転音響特徴量系列および反転音素ラベル系列を用い、反転音素ラベル系列に逆方向の時間情報を対応付ける逆方向の音素ラベリングを行って時間情報付き反転音素ラベル系列を得て出力する。逆方向の音素ラベリングとは、音声データの時間方向とは逆方向(未来から過去へ向かう方向)に音素ラベリングを行う処理を意味する。この逆方向の音素ラベリングでは、反転音響特徴量系列および反転音素ラベル系列に逆方向ラベリング用モデル120を適用する。ここで逆方向ラベリング用モデル120とは、順方向ラベリング用モデル110の入出力系列を時系列について反転して機械学習されたものである。その機械学習は、学習データとして、時間反転した音響特徴量系列と時間情報付き音素ラベル系列を時間反転したものとを、それぞれ入出力に割り当てて行われる(ステップS124)。
時間情報計算部124から出力された時間情報付き反転音素ラベル系列はラベル反転部125に入力される。ラベル反転部125は、入力された時間情報付き反転音素ラベル系列の時間順序を反転させた時間情報付き音素ラベル系列B(第2時間情報付き音素ラベル系列)を得て出力する。ラベル反転部125では、先述のラベル反転部123とは異なり、時間情報付き反転音素ラベル系列の音素ラベル系列だけではなく、時間情報についても時間順序を反転させる。これにより、順方向ラベリング部11から出力される時間情報付き音素ラベル系列Aの時系列の順序と、逆方向ラベリング部12から出力される時間情報付き音素ラベル系列Bの時系列の順序とが揃うので、これらの音素境界誤差を求めることができるようになる(ステップS125)。
<ラベリング誤り検出部13>
図1および図4に例示するように、ラベリング誤り検出部13の音素境界誤差算出部131には、順方向ラベリング部11から出力された時間情報付き音素ラベル系列Aと、逆方向ラベリング部12から出力された時間情報付き音素ラベル系列Bが入力される。音素境界誤差算出部131は、時間情報付き音素ラベル系列Aと時間情報付き音素ラベル系列Bとの間での各音素境界誤差を計算して出力する。音素境界誤差とは、時間情報付き音素ラベル系列Aの先頭からm番目の音素境界に対応する時間情報τAmと、時間情報付き音素ラベル系列Bの先頭からm番目の音素境界に対応する時間情報τBmとの差分|τAmBm|を意味する。ただし、m=1,…,Mであり、Mは正の整数である。図5に従って音素境界誤差の算出例を示す。図5の横軸は時間であり、Aは時間情報付き音素ラベル系列Aを表し、Bは時間情報付き音素ラベル系列Bを表す。前述のように、時間情報付き音素ラベル系列Aの音素ラベル系列と時間情報付き音素ラベル系列Bの音素ラベル系列とは等しく、図5の例ではいずれも「sil o h a y o o sil」である。なお、「sil」は無音を示す音素である。この例の場合、時間情報付き音素ラベル系列AおよびBの1番目,2番目,3番目の音素境界誤差は、それぞれdsil→o=|τA1B1|,do→h=|τA2B2|,dh→a=|τA3B3|となる(ステップS131)。
音素境界誤差算出部131から出力された音素境界誤差は誤り検出部132に入力される。誤り検出部132は、入力された音素境界誤差に基づいて音素ラベリングの誤りを検出する。例えば誤り検出部132は、音素境界誤差に基づき、時間情報付き音素ラベル系列Aまたは時間情報付き音素ラベル系列Bから音素ラベリングを誤った時間情報付き音素ラベルを検出する。すなわち、誤り検出部132は、音素境界誤差が大きな音素境界を持つ時間情報付き音素ラベルの音素ラベリングが誤りであり、この時間情報付き音素ラベルの再確認が必要であると判定する。この判定には、例えば閾値判定を用いることができる。つまり、誤り検出部132は、音素境界誤差が閾値を超える音素境界に対応する音素ラベルを、音素ラベリングを誤った音素ラベルとして検出することができる。閾値に限定は無いが、例えば、正解ラベルと時間情報付き音素ラベル系列A、および時間情報付き音素ラベル系列Aと時間情報付き音素ラベル系列Bとからそれぞれ求めた音素境界誤差の関係性を観察して閾値が定められる。図6を用いて、この検出処理を例示する。誤り検出部132は、まだ音素境界誤差の判定を行っていないm番目の音素境界を選択する。例えば、誤り検出部132は、直前に音素境界誤差の判定を行ったm-1番目の音素境界の次のm番目の音素境界を選択し、まだ音素境界誤差の判定が行われていない場合にはm=1とする(ステップS1321)。次に誤り検出部132は、m番目の音素境界誤差|τAmBm|が事前に定義された閾値を超えるか否かを判定する(ステップS1322)。ここで、m番目の音素境界誤差|τAmBm|が閾値を超える場合、誤り検出部132は、m番目の音素境界を持つ時間情報付き音素ラベルの音素ラベリングが誤りであり、当該時間情報付き音素ラベルの再確認(人手での再チェック)が必要であると判定する(ステップS1323)。そうでない場合、誤り検出部132は、m番目の音素境界を持つ時間情報付き音素ラベルの音素ラベリングが適切であり、当該時間情報付き音素ラベルの再確認が不要であると判定する(ステップS1324)。前述のように、判定対象の時間情報付き音素ラベルは、時間情報付き音素ラベル系列Aのものであってもよいし、時間情報付き音素ラベル系列Bのものであってもよい。誤り検出部132は、すべての音素境界誤差の判定が終了したか否かを判定する(ステップS1325)。すべての音素境界誤差の判定が終了していない場合にはステップS1321に戻る。すべての音素境界誤差の判定が終了した場合には音素境界誤差算出部131の処理を終了する。誤り検出部132は、再確認が必要と判定した時間情報付き音素ラベルと、再確認が不要と判定した時間情報付き音素ラベルとを区別して出力する(ステップS132)。
<本実施形態の特徴>
自動ラベリングの結果には、音声合成に致命的となるほど著しく大きい音素ラベリング誤りが発生する場合がある。本実施形態では、順方向の音素ラベリングを行って得られた時間情報付き音素ラベル系列Aと、逆方向の音素ラベリングを行って得られた時間情報付き反転音素ラベル系列を反転させた時間情報付き音素ラベル系列Bとの音素境界誤差から、音素ラベリングの誤りを自動検出する。そのため、音素ラベリングに誤りのある時間情報付き音素ラベル(再確認が必要な時間情報付き音素ラベル)のみを人手で再チェックすればよく、音素ラベリングの手間と時間を大幅に削減できる。
[第2実施形態]
第2実施形態は第1実施形態の変形例であり、得られた音素境界誤差の一部のみを音素ラベリングの誤り検出に用いる点で第1実施形態と相違する。以下では第1実施形態との相違点を中心に説明し、既に説明した事項については第1実施形態と同じ参照番号を用いて説明を簡略化する。
第1実施形態では、ラベリング誤り検出部13の音素境界誤差算出部131(図4)で得られた音素境界誤差をそのまま誤り検出部132に入力していた。これに対し、第2実施形態では、音素境界誤差から特定の音素境界の誤差である特定音素境界誤差を抽出し、当該特定音素境界誤差に基づいて音素ラベリングの誤りを検出する。例えば、無音前後の音素境界では、順方向の音素ラベリングで得られた時間情報付き音素ラベル系列と正解の音素ラベル系列との音素境界誤差と、順方向の音素ラベリングで得られた時間情報付き音素ラベル系列と逆方向の音素ラベリングに基づいた時間情報付き音素ラベル系列との音素境界誤差との間に、強い正の相関がみられる。そのため、無音前後の音素境界(特定の音素境界)での音素境界誤差を特定音素境界誤差とすることで、音素ラベリングの誤りを高精度で検出できる。また汎用的な閾値ではなく、特定音素境界誤差に対応する特定の音素境界に特化した閾値が用いられてもよい。すなわち、特定音素境界誤差がその音素境界に特化した閾値を超える当該音素境界に対応する時間情報付き音素ラベルを検出してもよい。これによって音素ラベリングの誤りをより高精度に検出できる。本実施形態では、音素境界誤差に対して音素境界フィルタリングを行い、特定の音素境界の誤差である特定音素境界誤差を抽出する例を示す。
<詳細>
図1に例示するように、本実施形態のラベリング誤り検出装置2は、順方向ラベリング部11、逆方向ラベリング部12、およびラベリング誤り検出部23を有する。図7に例示するように、ラベリング誤り検出部23は、音素境界誤差算出部131、フィルタリング部233、および誤り検出部232を有する。ラベリング誤り検出装置2は、図示していない制御部の下で各処理を実行する。各処理に用いられる情報は図示していない記憶部に格納され、必要に応じて読み出されて使用される。
第2実施形態の順方向ラベリング部11および逆方向ラベリング部12は第1実施形態で説明したものと同じである。以下では、第1実施形態との相違点であるラベリング誤り検出部23の処理のみを説明する。
<ラベリング誤り検出部23>
図1及び図7に例示するように、ラベリング誤り検出部23の音素境界誤差算出部131には、順方向ラベリング部11から出力された時間情報付き音素ラベル系列Aと、逆方向ラベリング部12から出力される時間情報付き音素ラベル系列Bが入力される。音素境界誤差算出部131は、第1実施形態で説明したように音素境界誤差を計算して出力する(ステップS131)。
音素境界誤差算出部131から出力された音素境界誤差、および特定の音素境界を表す情報は、フィルタリング部233に入力される。例えば、無音に関する音素ラベリング誤りに特化して検出したいときには、無音前後の音素境界を含む音素境界を特定の音素境界としてセットする。フィルタリング部233は、音素境界誤差から特定の音素境界に対応する特定音素境界誤差(フィルタリングされた音素境界誤差)を抽出して出力する。例えば、無音に関する音素ラベリング誤りに特化して検出するのであれば、フィルタリング部233は、無音前後を含む音素境界での音素境界誤差を特定音素境界誤差として抽出して出力する(ステップS233)。
フィルタリング部233から出力された特定音素境界誤差は誤り検出部232に入力される。誤り検出部232は、入力された特定音素境界誤差に基づいて音素ラベリングの誤りを検出する。誤り検出部232は、特定音素境界誤差が大きな音素境界を持つ時間情報付き音素ラベルの音素ラベリングが誤りであり、この時間情報付き音素ラベルの再確認が必要であると判定する。この判定にも閾値判定を用いることができる。ただし、第2実施形態では、音素ラベリングの誤り検出対象を特定の音素境界に限定しているため、誤り検出部232は、当該特定の音素境界に特化した判断基準に基づいて音素ラベリングの誤りを検出することができる。例えば、誤り検出部232は、当該特定の音素境界に特化した閾値を用いて閾値判定を行うことができ、特定音素境界誤差が当該特定の音素境界に特化した閾値を超える当該音素境界に対応する時間情報付き音素ラベルを、音素ラベリングを誤った音素ラベルとして検出できる。この特定の音素境界に特化した閾値は、例えば、正解ラベルと時間情報付き音素ラベル系列A、および時間情報付き音素ラベル系列Aと時間情報付き音素ラベル系列Bとからそれぞれ求めた、この特定の音素境界(例えば、無音前後の音素境界を含む音素境界)での音素境界誤差の関係性を観察して定められる。これにより、全音素境界に対して汎用的に設定された閾値を用いる場合よりも高精度な誤り検出が期待できる。誤り検出部232は、音素ラベリングが誤りであり、再確認が必要と判定した時間情報付き音素ラベルと、それ以外の再確認が不要と判定した時間情報付き音素ラベルとを区別して出力する(ステップS232)。
<本実施形態の特徴>
本実施形態でも音素ラベリングの誤りを自動検出できるので、音素ラベリングに誤りのある時間情報付き音素ラベルのみを人手で再チェックすればよく、音素ラベリングの手間と時間を大幅に削減できる。さらに、本実施形態では、フィルタリング部233で音素境界誤差から特定の音素境界に対応する特定音素境界誤差を抽出し、誤り検出部232で当該特定の音素境界に特化した判断基準(例えば、当該特定の音素境界に特化した閾値を超えるか否か)で音素ラベリングの誤りを検出する。そのため、より高精度に音素ラベリングに誤りのある時間情報付き音素ラベルを検出できる。
[ハードウェア構成]
各実施形態におけるラベリング誤り検出装置1,2は、例えば、CPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)やRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される装置である。このコンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。
図8は、各実施形態におけるラベリング誤り検出装置1,2のハードウェア構成を例示したブロック図である。図8に例示するように、この例のラベリング誤り検出装置1,2は、CPU(Central Processing Unit)10a、入力部10b、出力部10c、RAM(Random Access Memory)10d、ROM(Read Only Memory)10e、補助記憶装置10f及びバス10gを有している。この例のCPU10aは、制御部10aa、演算部10ab及びレジスタ10acを有し、レジスタ10acに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部10bは、データが入力される入力端子、キーボード、マウス、タッチパネル等である。また、出力部10cは、データが出力される出力端子、ディスプレイ、所定のプログラムを読み込んだCPU10aによって制御されるLANカード等である。また、RAM10dは、SRAM (Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等であり、所定のプログラムが格納されるプログラム領域10da及び各種データが格納されるデータ領域10dbを有している。また、補助記憶装置10fは、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、所定のプログラムが格納されるプログラム領域10fa及び各種データが格納されるデータ領域10fbを有している。また、バス10gは、CPU10a、入力部10b、出力部10c、RAM10d、ROM10e及び補助記憶装置10fを、情報のやり取りが可能なように接続する。CPU10aは、読み込まれたOS(Operating System)プログラムに従い、補助記憶装置10fのプログラム領域10faに格納されているプログラムをRAM10dのプログラム領域10daに書き込む。同様にCPU10aは、補助記憶装置10fのデータ領域10fbに格納されている各種データを、RAM10dのデータ領域10dbに書き込む。そして、このプログラムやデータが書き込まれたRAM10d上のアドレスがCPU10aのレジスタ10acに格納される。CPU10aの制御部10aaは、レジスタ10acに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM10d上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部10abに順次実行させ、その演算結果をレジスタ10acに格納していく。このような構成により、ラベリング誤り検出装置1,2の機能構成が実現される。
上述のプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。上述のように、このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
各実施形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
[その他の変形例]
なお、本発明は上述の実施形態に限定されるものではない。例えば、第1,2実施形態では、音声データがラベリング誤り検出装置1,2に入力される例を示した。しかし、音声データに代えて当該音声データの音響特徴量系列が検出装置1,2に入力され、時間情報計算部112,124に与えられてもよい。この場合には音響特徴量計算部111,121を省略することができる。また、逆方向ラベリング部12に音響特徴量系列の時間順序を反転させた反転音響特徴量系列が入力され、時間情報計算部124に与えられてもよい。この場合には音響特徴量時間反転部122を省略できる。また、逆方向ラベリング部12に時間情報無し音素ラベル系列に代えて、時間情報無し音素ラベル系列の時間順序を反転させた時間情報無し反転音素ラベル系列が入力され、時間情報計算部124に与えられてもよい。この場合にはラベル反転部123を省略できる。
また、逆方向ラベリング部12が時間情報付き反転音素ラベル系列を反転させることなく出力してもよい。この場合、ラベリング誤り検出部13,23の音素境界誤差算出部131に、逆方向ラベリング部12から出力された時間情報付き反転音素ラベル系列が入力される。音素境界誤差算出部131は、時間情報付き反転音素ラベル系列の時間順序を反転させた時間情報付き音素ラベル系列Bを得、順方向ラベリング部11から出力された時間情報付き音素ラベル系列Aとの音素境界誤差を得る。あるいは、音素境界誤差算出部131が、時間情報付き反転音素ラベル系列の時間を逆方向に参照しながら、実質的に時間情報付き音素ラベル系列Aと時間情報付き音素ラベル系列Bとの音素境界誤差を得てもよい。
また第1,2実施形態では、ラベリング誤り検出部13,23が、再確認が必要と判定した時間情報付き音素ラベルと、再確認が不要と判定した時間情報付き音素ラベルとを区別して出力した。しかし、ラベリング誤り検出部13,23が、再確認が必要と判定した時間情報付き音素ラベルのみを出力してもよいし、再確認が不要と判定した時間情報付き音素ラベルのみを出力してもよい。
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
本発明の産業上の利用分野としては、例えば、音声合成モデルの機械学習に用いられる学習データの音素ラベリングを例示できる。従来の枠組みで音素ラベリングを行った場合、得られた時間情報付き音素ラベル系列の音素境界が人手で音素ラベリングしたものと大きく乖離する場合がある。このような時間情報付き音素ラベルを音声合成モデルの機械学習に用いると音声合成モデルが不適切なものとなる。その結果、音素ラベリングの誤りの大きな音素を含む文章を音声合成しようとしたときに、意図しないタイミングで異なる音素を発話する音声が合成されてしまう。これを防ぐために、自動ラベリング結果の音素境界位置をすべて人手で修正するためには膨大なコストがかかる。本発明を用いることで、音素ラベリングの誤りが大きな音素を自動で検出でき、その結果、音素ラベリングの誤りが大きな音素を効率的に修正できる。その結果、適切な音声合成モデルを学習することが可能になる。
1,2 ラベリング誤り検出装置

Claims (8)

  1. 音声信号の音響特徴量系列および前記音声信号の音素ラベル系列を用い、前記音素ラベル系列に順方向の時間情報を対応付ける順方向の音素ラベリングを行って第1時間情報付き音素ラベル系列を得、
    前記音響特徴量系列の時間順序を反転させた反転音響特徴量系列および前記音素ラベル系列の時間順序を反転させた反転音素ラベル系列を用い、前記反転音素ラベル系列に逆方向の時間情報を対応付ける逆方向の音素ラベリングを行って時間情報付き反転音素ラベル系列を得、
    前記第1時間情報付き音素ラベル系列と、前記時間情報付き反転音素ラベル系列の時間順序を反転させた第2時間情報付き音素ラベル系列との間での音素境界誤差に基づき、音素ラベリングの誤りを検出する、ラベリング誤り検出装置。
  2. 請求項1のラベリング誤り検出装置であって、
    前記音素境界誤差に基づき、前記第1時間情報付き音素ラベル系列または前記第2時間情報付き音素ラベル系列から音素ラベリングを誤った時間情報付き音素ラベルを検出する、ラベリング誤り検出装置。
  3. 請求項2のラベリング誤り検出装置であって、
    前記音素境界誤差が閾値を超える音素境界に対応する前記時間情報付き音素ラベルを検出する、ラベリング誤り検出装置。
  4. 請求項1または2のラベリング誤り検出装置であって、
    前記音素境界誤差から特定の音素境界に対応する特定音素境界誤差を抽出し、前記特定音素境界誤差に基づいて前記音素ラベリングの誤りを検出する、ラベリング誤り検出装置。
  5. 請求項4のラベリング誤り検出装置であって、
    前記特定音素境界誤差が前記特定の音素境界に特化した閾値を超える当該音素境界に対応する時間情報付き音素ラベルを検出する、ラベリング誤り検出装置。
  6. 請求項1から5の何れかのラベリング誤り検出装置であって、
    前記順方向の音素ラベリングは、前記音響特徴量系列および前記音素ラベル系列に順方向ラベリング用モデルを適用する処理であり、
    前記逆方向の音素ラベリングは、前記反転音響特徴量系列および前記反転音素ラベル系列に逆方向ラベリング用モデルを適用する処理である、ラベリング誤り検出装置。
  7. 音声信号の音響特徴量系列および前記音声信号の音素ラベル系列を用い、前記音素ラベル系列に順方向の時間情報を対応付ける順方向の音素ラベリングを行って第1時間情報付き音素ラベル系列を得、
    前記音響特徴量系列の時間順序を反転させた反転音響特徴量系列および前記音素ラベル系列の時間順序を反転させた反転音素ラベル系列を用い、前記反転音素ラベル系列に逆方向の時間情報を対応付ける逆方向の音素ラベリングを行って時間情報付き反転音素ラベル系列を得、
    前記第1時間情報付き音素ラベル系列と、前記時間情報付き反転音素ラベル系列の時間順序を反転させた第2時間情報付き音素ラベル系列との間での音素境界誤差に基づき、音素ラベリングの誤りを検出する、ラベリング誤り検出方法。
  8. 請求項1から6の何れかのラベリング誤り検出装置としてコンピュータを機能させるためのプログラム。
JP2022527441A 2020-05-29 2020-05-29 ラベリング誤り検出装置、ラベリング誤り検出方法、およびプログラム Active JP7364068B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/021342 WO2021240780A1 (ja) 2020-05-29 2020-05-29 ラベリング誤り検出装置、ラベリング誤り検出方法、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2021240780A1 JPWO2021240780A1 (ja) 2021-12-02
JP7364068B2 true JP7364068B2 (ja) 2023-10-18

Family

ID=78723169

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022527441A Active JP7364068B2 (ja) 2020-05-29 2020-05-29 ラベリング誤り検出装置、ラベリング誤り検出方法、およびプログラム

Country Status (2)

Country Link
JP (1) JP7364068B2 (ja)
WO (1) WO2021240780A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004077901A (ja) 2002-08-20 2004-03-11 Nippon Telegr & Teleph Corp <Ntt> 音素決定方法、その装置及びプログラム
JP2018072697A (ja) 2016-11-02 2018-05-10 日本電信電話株式会社 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004077901A (ja) 2002-08-20 2004-03-11 Nippon Telegr & Teleph Corp <Ntt> 音素決定方法、その装置及びプログラム
JP2018072697A (ja) 2016-11-02 2018-05-10 日本電信電話株式会社 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム

Also Published As

Publication number Publication date
JPWO2021240780A1 (ja) 2021-12-02
WO2021240780A1 (ja) 2021-12-02

Similar Documents

Publication Publication Date Title
CN106816148B (zh) 语音识别设备和方法
Saon et al. Large-vocabulary continuous speech recognition systems: A look at some recent advances
OCKPH Fundamental technologies in modern speech recognition
JP5982297B2 (ja) 音声認識装置、音響モデル学習装置、その方法及びプログラム
JP6680933B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
Yu et al. Learning cross-lingual information with multilingual BLSTM for speech synthesis of low-resource languages
Yu et al. Deep neural network-hidden markov model hybrid systems
JP6552999B2 (ja) テキスト補正装置、テキスト補正方法、およびプログラム
Gholamdokht Firooz et al. Spoken language recognition using a new conditional cascade method to combine acoustic and phonetic results
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
Bharali et al. Speech recognition with reference to Assamese language using novel fusion technique
Du et al. Noise-robust voice conversion with domain adversarial training
JP6244297B2 (ja) 音響スコア算出装置、その方法及びプログラム
US8639510B1 (en) Acoustic scoring unit implemented on a single FPGA or ASIC
JP7364068B2 (ja) ラベリング誤り検出装置、ラベリング誤り検出方法、およびプログラム
US12073825B2 (en) Method and apparatus for speech recognition
JP6716513B2 (ja) 音声区間検出装置、その方法、及びプログラム
Minh et al. The system for detecting Vietnamese mispronunciation
JP4537970B2 (ja) 言語モデル作成装置、言語モデル作成方法、そのプログラムおよびその記録媒体
JP7231181B2 (ja) 耐雑音音声認識装置及び方法、並びにコンピュータプログラム
JP5369079B2 (ja) 音響モデル作成方法とその装置とプログラム
JP6699945B2 (ja) 音響モデル学習装置、その方法、及びプログラム
Tao et al. The NLPR Speech Synthesis entry for Blizzard Challenge 2017
JP7259988B2 (ja) 検知装置、その方法、およびプログラム
Campos-Soberanis et al. Improving a conversational speech recognition system using phonetic and neural transcript correction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220809

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230918

R150 Certificate of patent or registration of utility model

Ref document number: 7364068

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150