JP7364068B2

JP7364068B2 - ラベリング誤り検出装置、ラベリング誤り検出方法、およびプログラム

Info

Publication number: JP7364068B2
Application number: JP2022527441A
Authority: JP
Inventors: 裕紀金川; 勇祐井島
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2023-10-18
Anticipated expiration: 2040-05-29
Also published as: JPWO2021240780A1; WO2021240780A1

Description

本発明は、音声の自動ラベリング技術に関し、特に時間情報付き音素ラベルの誤り検知技術に関する。

音声合成の音響モデル構築には、音声およびそれに対応する音素ラベルが必要である。近年の統計的パラメトリック音声合成で主流である深層学習（DNN: Deep Neural Network）に基づく音声合成では、モデルの入出力間でフレームレベルの言語特徴量と音響特徴量を対応させるため、音素ラベルに時間情報が正確に与えられている必要がある。音声の各音素に対応する時間情報を音素ラベルに付与する作業を音素ラベリングと呼ぶ。音素ラベリングを人手で行うには、音声と音素ラベルを照らし合わせて何度も聴かなければならないため、膨大な時間とコストを要する。

この音素ラベリングを自動で行う方法として、隠れマルコフモデル（HMM: Hidden Markov Model）を用いる手法がよく用いられる（例えば、特許文献１および非特許文献１，２等参照）。この手法では、音響特徴量の時系列（音響特徴量系列）と音素ラベルの時系列（音素ラベル系列）をHMMに与え、ビタビアルゴリズムなどの探索アルゴリズムを通じて時間情報付き音素ラベルの時系列（時間情報付き音素ラベル系列）を得ることができる。

従来はHMMの状態遷移系列の音響尤度（例えば、非特許文献２の式(1.27)のb_j(o_t)）の計算に、混合ガウス分布（GMM）を用いるのが主流であったが、近年ではGMMより高い弁別性を持つ深層学習（DNN）を用いる方法が主流となっている（例えば、非特許文献３，４等参照）。

いま、DNNとHMMを併用したアプローチ（DNN-HMM）で音素ラベリングを行う自動ラベリング用モデルを考える。ある発話において、音声から抽出した音響特徴量系列、それに対応するHMMの状態ID系列をそれぞれo=[o₁,...,o_T]、s=[s₁,...,s_T]とするとき、DNNは次式のLoss(o,s)を最小化するように学習される。
Loss(o,s)=-xent(o,s)
ここで、xent(o,s)はoとsの交差エントロピーであり、t=1,...,Tが離散時間に対応するフレーム番号であり、Tがtの最大値である。フレーム番号tに対応する離散時間を時刻tと表現する。時刻tにおけるHMMの状態IDはj=1,...,Nのいずれかの値を取る。ただし、Nはjの最大値である。音響特徴量系列と音素ラベル系列から時間情報付き音素ラベル系列を予測するには、まずDNNの順伝搬演算により、音響特徴量系列o_t(∀t∈[1,T])が与えられた時にHMMの状態IDがjとなる事後確率p(j|o_t) (∀t∈[1,T])を得る。これを事前確率p(j)で除算することで音響尤度p(o_t|j)（例えば、非特許文献２の式(1.27)のb_j(o_t)）を得る。事前確率p(j)は、学習データ中の状態IDの出現頻度から計算できる。これらをj=1,...,Nの全状態にわたって計算した音響尤度系列p(o_t|j) (∀t∈[1,T], ∀j∈[1,N]）をHMMに入力し、ビタビアルゴリズムを実行することで時間情報付きラベルを推定できる。

特許第３８６６１７１号公報

河井恒, 戸田智基, "波形接続型音声合成のための自動音素セグメンテーションの評価", 信学技報, SP2002-170, pp. 5 - 10, 2003. Steve Young, et al., "The HTK Book (for HTK Version 3.5a)," Cambridge University EngineeringDepartment, 2015 G. Hinton, L. Deng, D. Yu, G. Dahl, A. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T. Sainath, and B. Kingsbury, "Deep neural networks for acoustic modeling in speech recognition," IEEE Signal Processing Magazine, Vol.29 (6), pp. 82 - 97, 2012. David Ayllon, Fernando Villavicencio, Pierre Lanchantin, "A Strategy for Improved Phone-Level Lyrics-to-Audio Alignment for Speech-to-Singing Synthesis", Proc. Interspeech, pp. 2603 - 2607.

しかし、前述の枠組みを含む自動ラベリングによって時間情報付き音素ラベル系列を得た場合、その音素境界が、人手で音素ラベリングした場合とかけ離れたものになることがある。これを防ぐために、自動ラベリング結果の音素境界位置をすべて人手で修正することが好ましいが、この作業を人手行うのは先述の通り、膨大なコストがかかる。仮に修正箇所がなかったとしても、修正箇所の有無を判定するためには、全ラベリング対象の音声を一度は聞かなくてはならならず、多大な時間を要する。

本発明はこのような点に鑑みてなされたものであり、音素ラベリングの誤りを自動で検出することを目的とする。

音声信号の音響特徴量系列および音声信号の音素ラベル系列を用い、音素ラベル系列に順方向の時間情報を対応付ける順方向の音素ラベリングを行って第１時間情報付き音素ラベル系列を得、音響特徴量系列の時間順序を反転させた反転音響特徴量系列および音素ラベル系列の時間順序を反転させた反転音素ラベル系列を用い、反転音素ラベル系列に逆方向の時間情報を対応付ける逆方向の音素ラベリングを行って時間情報付き反転音素ラベル系列を得、第１時間情報付き音素ラベル系列と、時間情報付き反転音素ラベル系列の時間順序を反転させた第２時間情報付き音素ラベル系列との間での音素境界誤差に基づき、音素ラベリングの誤りを検出する。

以上のように、音素ラベリングの誤りを自動で検出できる。

図１は実施形態のラベリング誤り検出装置の機能構成を例示したブロック図である。図２は実施形態の順方向ラベリング部の機能構成を例示したブロック図である。図３は実施形態の逆方向ラベリング部の機能構成を例示したブロック図である。図４は第１実施形態のラベリング誤り検出部の機能構成を例示したブロック図である。図５は、順方向の音素ラベリングで得られた時間情報付き音素ラベル系列Ａと、逆方向の音素ラベリングで得られた時間情報付き反転音素ラベル系列の時間順序を反転させた時間情報付き音素ラベル系列Ｂとの間での音素境界誤差を例示した図である。図６はラベリング誤り検出部の処理内容を例示するためのフロー図である。図７は第２実施形態のラベリング誤り検出部の機能構成を例示したブロック図である。図８は実施形態のハードウェア構成を例示したブロック図である。

以下、図面を参照して本発明の実施の形態を説明する。
［第１実施形態］
まず、本発明の第１実施形態を説明する。
第１実施形態では、自動で行われた音素ラベリングの結果から、優先的に修正すべき音素ラベリング誤りの大きな音素を自動検出する。具体的には、音声信号の音響特徴量系列および当該音声信号の音素ラベル系列を用い、音素ラベル系列に順方向（通常の時系列）の時間情報を対応付ける順方向の音素ラベリングを行って第１時間情報付き音素ラベル系列を得る順方向のシステムと、音響特徴量系列の時間順序を反転させた反転音響特徴量系列および音素ラベル系列の時間順序を反転させた反転音素ラベル系列を用い、反転音素ラベル系列に逆方向の時間情報を対応付ける逆方向の音素ラベリングを行って時間情報付き反転音素ラベル系列を得る逆方向のシステムとを用意する。順方向のシステムで得られた第１時間情報付き音素ラベル系列と、逆方向のシステムで得られた時間情報付き反転音素ラベルの時間順序を反転させた第２時間情報付き音素ラベル系列との間での音素境界誤差を算出し、当該音素境界誤差に基づいて音素ラベリングの誤りを検出する。

順方向の音素ラベリングは、例えばビタビアルゴリズムによって、音響尤度と音素ラベル系列との強制アラインメントを行い最尤な経路を決定することで行われる。しかし、このような順方向の音素ラベリングは時系列に沿って一方向（順方向）で行われ（例えば、非特許文献２の式(1.27)参照）、とある時刻で音素ラベリングの誤りが大きい場合、その影響が後続の時系列の音素ラベリングに悪影響を与えてしまう。例えば、文末の無音であるべき時刻に先行音素が対応付けられるということがよくある。このことから、無音や長母音などを含む少なくとも一部の音素の音素境界において、順方向の音素ラベリングで得られた時間情報付き音素ラベル系列と正解の音素ラベル系列との音素境界誤差と、順方向の音素ラベリングで得られた時間情報付き音素ラベル系列と逆方向の音素ラベリングに基づいた時間情報付き音素ラベル系列との音素境界誤差との間に、正の相関を持つ。この原理に基づき、本実施形態では、順方向の音素ラベリングに加え、逆方向の音素ラベリングも行い、順方向のシステムで得られた第１時間情報付き音素ラベル系列と、逆方向のシステムで得られた時間情報付き反転音素ラベルの時間順序を反転させた第２時間情報付き音素ラベル系列との間での音素境界誤差を計算し、音素境界誤差に基づいて音素ラベリングの誤りを検出する。例えば、音素境界誤差に基づき、音素ラベル系列から音素ラベリングを誤った音素ラベルを検出する。例えば、音素境界誤差が閾値を超える音素境界に対応する時間情報付き音素ラベルを検出する。

これにより、音素ラベリングの誤りを自動で検出することが可能になる。自動音素ラベリングにより得られる音素ラベルには誤りが含まれるため、これまでは全発話において人手で音素境界を手修正する必要があった。本実施形態では、音素ラベリングの誤りを自動で検出できるため、誤りと検出された部分の音素ラベリングのみを手修正すればよく、ラベリングにかかる時間とコストを削減できる。以下、本実施形態について詳細に説明する。

＜詳細＞
図１に例示するように、本実施形態のラベリング誤り検出装置１は、順方向ラベリング部１１、逆方向ラベリング部１２、およびラベリング誤り検出部１３を有する。図２に例示するように、順方向ラベリング部１１は、順方向ラベリング用モデル１１０、音響特徴量計算部１１１、および時間情報計算部１１２を有する。図３に例示するように、逆方向ラベリング部１２は、逆方向ラベリング用モデル１２０、音響特徴量計算部１２１、音響特徴量時間反転部１２２、ラベル反転部１２３、時間情報計算部１２４、およびラベル反転部１２５を有する。図４に例示するように、ラベリング誤り検出部１３は、音素境界誤差算出部１３１、および誤り検出部１３２を有する。順方向ラベリング用モデル１１０は予め順方向ラベリング部１１に組み込まれていてもよいし、外部から順方向ラベリング部１１に入力されて図示していない記憶部に格納されていてもよい。同様に、逆方向ラベリング用モデル１２０は予め逆方向ラベリング部１２に組み込まれていてもよいし、外部から逆方向ラベリング部１２に入力されて図示していない記憶部に格納されていてもよい。またラベリング誤り検出装置１は、図示していない制御部の下で各処理を実行する。各処理に用いられる情報は図示していない記憶部に格納され、必要に応じて読み出されて使用される。

まず、図１から図４を用い、ラベリング誤り検出装置１の処理の全体を説明する。ラベリング誤り検出装置１には、ラベリング対象である時系列の音声データ（音声信号）および当該音声データに対応する時間情報無し音素ラベル系列（音素ラベル系列）が入力される。音声データおよび時間情報無し音素ラベル系列は、図示していないデータベースに格納されたものであってもよいし、インターネットなどの通信手段で送信されたものであってもよい。音声データはデジタルデータであり、時間領域の時系列データであってもよいし、時間周波数領域の時系列データであってもよい。時間情報無し音素ラベル系列は、音声データで示される音声を構成する音素列を表す音素ラベル系列（音素を表すラベルの系列）である。音素の例は、子音、母音、半母音、長母音、特殊モーラおよび無音などである。時間情報無し音素ラベル系列を構成する音素ラベルの順序は音声データが表す音声に応じて決められているが、各音素ラベルに対応する時刻（すなわち、音声データの時間情報）は付与されていない。

＜順方向ラベリング部１１＞
図１および図２に例示するように、順方向ラベリング部１１の音響特徴量計算部１１１には音声データが入力される。音響特徴量計算部１１１は、音声データから音素ラベリング用の音響特徴量を得、当該音響特徴量の時系列を音響特徴量系列として出力する。音響特徴量には、音声の周波数特性を示すメル周波数ケプストラム係数（MFCC：Mel-Frequency Cepstrum Coefficients）やメルフィルタバンクなどが用いられるが、その他スペクトログラムや音声認識用のDNNから得たボトルネック特徴量などを用いてもよい（ステップＳ１１１）。

次に、音響特徴量計算部１１１から出力された音響特徴量系列、前述の時間情報無し音素ラベル系列、および順方向ラベリング用モデル１１０は時間情報計算部１１２に入力される。時間情報計算部１１２は、音響特徴量系列および音素ラベル系列を用い、音素ラベル系列に順方向の時間情報を対応付ける順方向の音素ラベリングを行って時間情報付き音素ラベル系列Ａ（第１時間情報付き音素ラベル系列）を得て出力する。この順方向の音素ラベリングでは、音響特徴量系列および音素ラベル系列に順方向ラベリング用モデル１１０を適用する。なお順方向の音素ラベリングとは、音声データの時間方向（過去から未来へ向かう方向）に音素ラベリングを行う処理を意味する。すなわち、順方向の音素ラベリングでは、音響特徴量o_t (∀t∈[1,T])に対して、各時刻tのスコア（例えば、非特許文献２の式(1.27)のφ_j(t)）が過去の時刻t-1までのスコア（例えば、非特許文献２の式(1.27)のφ_j(t-1)）に依存する漸化式に基づく音素ラベリングを行う。順方向ラベリング用モデル１１０には、例えばGMM-HMMやDNN-HMMを用いることができる（例えば、特許文献１，非特許文献１～４等参照）。これらの例の場合、時間情報計算部１１２は、音響特徴量系列および時間情報無し音素ラベル系列に対してビタビアルゴリズムを適用し、強制アラインメントを取ることで時間情報付き音素ラベル系列Ａを得る（ステップＳ１１２）。

＜逆方向ラベリング部１２＞
図１および図３に例示するように、逆方向ラベリング部１２の音響特徴量計算部１２１には音声データが入力される。音響特徴量計算部１２１は、音声データから音素ラベリング用の音響特徴量を得、当該音響特徴量の時系列を音響特徴量系列として出力する。音響特徴量計算部１２１が生成する音響特徴量は、前述の順方向ラベリング部１１の音響特徴量計算部１１１が生成する音響特徴量と同一である（ステップＳ１２１）。

音響特徴量計算部１２１から出力された音響特徴量系列は音響特徴量時間反転部１２２に入力される。音響特徴量時間反転部１２２は、入力された音響特徴量系列の時間順序を反転（時間反転）させた反転音響特徴量系列を得て出力する（ステップＳ１２２）。

また、前述の時間情報無し音素ラベル系列がラベル反転部１２３に入力される。ラベル反転部１２３は、入力された時間情報無し音素ラベル系列の時間順序を反転させた時間情報無し反転音素ラベル系列（反転音素ラベル系列）を得て出力する。例えば、時間情報無し音素ラベル系列として「おはよう」を音素化した「o h a y o o」がラベル反転部１２３に入力された場合、ラベル反転部１２３は時間情報無し反転音素ラベル系列として「o o y a h o」を出力する（ステップＳ１２３）。

次に、音響特徴量時間反転部１２２から出力された反転音響特徴量系列、ラベル反転部１２３から出力された時間情報無し反転音素ラベル系列、および前述の逆方向ラベリング用モデル１２０が時間情報計算部１２４に入力される。時間情報計算部１２４は、反転音響特徴量系列および反転音素ラベル系列を用い、反転音素ラベル系列に逆方向の時間情報を対応付ける逆方向の音素ラベリングを行って時間情報付き反転音素ラベル系列を得て出力する。逆方向の音素ラベリングとは、音声データの時間方向とは逆方向（未来から過去へ向かう方向）に音素ラベリングを行う処理を意味する。この逆方向の音素ラベリングでは、反転音響特徴量系列および反転音素ラベル系列に逆方向ラベリング用モデル１２０を適用する。ここで逆方向ラベリング用モデル１２０とは、順方向ラベリング用モデル１１０の入出力系列を時系列について反転して機械学習されたものである。その機械学習は、学習データとして、時間反転した音響特徴量系列と時間情報付き音素ラベル系列を時間反転したものとを、それぞれ入出力に割り当てて行われる（ステップＳ１２４）。

時間情報計算部１２４から出力された時間情報付き反転音素ラベル系列はラベル反転部１２５に入力される。ラベル反転部１２５は、入力された時間情報付き反転音素ラベル系列の時間順序を反転させた時間情報付き音素ラベル系列Ｂ（第２時間情報付き音素ラベル系列）を得て出力する。ラベル反転部１２５では、先述のラベル反転部１２３とは異なり、時間情報付き反転音素ラベル系列の音素ラベル系列だけではなく、時間情報についても時間順序を反転させる。これにより、順方向ラベリング部１１から出力される時間情報付き音素ラベル系列Ａの時系列の順序と、逆方向ラベリング部１２から出力される時間情報付き音素ラベル系列Ｂの時系列の順序とが揃うので、これらの音素境界誤差を求めることができるようになる（ステップＳ１２５）。

＜ラベリング誤り検出部１３＞
図１および図４に例示するように、ラベリング誤り検出部１３の音素境界誤差算出部１３１には、順方向ラベリング部１１から出力された時間情報付き音素ラベル系列Ａと、逆方向ラベリング部１２から出力された時間情報付き音素ラベル系列Ｂが入力される。音素境界誤差算出部１３１は、時間情報付き音素ラベル系列Ａと時間情報付き音素ラベル系列Ｂとの間での各音素境界誤差を計算して出力する。音素境界誤差とは、時間情報付き音素ラベル系列Ａの先頭からm番目の音素境界に対応する時間情報τ_Amと、時間情報付き音素ラベル系列Ｂの先頭からm番目の音素境界に対応する時間情報τ_Bmとの差分|τ_Am-τ_Bm|を意味する。ただし、m=1,…,Mであり、Mは正の整数である。図５に従って音素境界誤差の算出例を示す。図５の横軸は時間であり、Ａは時間情報付き音素ラベル系列Ａを表し、Ｂは時間情報付き音素ラベル系列Ｂを表す。前述のように、時間情報付き音素ラベル系列Ａの音素ラベル系列と時間情報付き音素ラベル系列Ｂの音素ラベル系列とは等しく、図５の例ではいずれも「sil o h a y o o sil」である。なお、「sil」は無音を示す音素である。この例の場合、時間情報付き音素ラベル系列ＡおよびＢの１番目，２番目，３番目の音素境界誤差は、それぞれd_sil→o=|τ_A1-τ_B1|，d_o→h=|τ_A2-τ_B2|，d_h→a=|τ_A3-τ_B3|となる（ステップＳ１３１）。

音素境界誤差算出部１３１から出力された音素境界誤差は誤り検出部１３２に入力される。誤り検出部１３２は、入力された音素境界誤差に基づいて音素ラベリングの誤りを検出する。例えば誤り検出部１３２は、音素境界誤差に基づき、時間情報付き音素ラベル系列Ａまたは時間情報付き音素ラベル系列Ｂから音素ラベリングを誤った時間情報付き音素ラベルを検出する。すなわち、誤り検出部１３２は、音素境界誤差が大きな音素境界を持つ時間情報付き音素ラベルの音素ラベリングが誤りであり、この時間情報付き音素ラベルの再確認が必要であると判定する。この判定には、例えば閾値判定を用いることができる。つまり、誤り検出部１３２は、音素境界誤差が閾値を超える音素境界に対応する音素ラベルを、音素ラベリングを誤った音素ラベルとして検出することができる。閾値に限定は無いが、例えば、正解ラベルと時間情報付き音素ラベル系列Ａ、および時間情報付き音素ラベル系列Ａと時間情報付き音素ラベル系列Ｂとからそれぞれ求めた音素境界誤差の関係性を観察して閾値が定められる。図６を用いて、この検出処理を例示する。誤り検出部１３２は、まだ音素境界誤差の判定を行っていないm番目の音素境界を選択する。例えば、誤り検出部１３２は、直前に音素境界誤差の判定を行ったm-1番目の音素境界の次のm番目の音素境界を選択し、まだ音素境界誤差の判定が行われていない場合にはm=1とする（ステップＳ１３２１）。次に誤り検出部１３２は、m番目の音素境界誤差|τ_Am-τ_Bm|が事前に定義された閾値を超えるか否かを判定する（ステップＳ１３２２）。ここで、m番目の音素境界誤差|τ_Am-τ_Bm|が閾値を超える場合、誤り検出部１３２は、m番目の音素境界を持つ時間情報付き音素ラベルの音素ラベリングが誤りであり、当該時間情報付き音素ラベルの再確認（人手での再チェック）が必要であると判定する（ステップＳ１３２３）。そうでない場合、誤り検出部１３２は、m番目の音素境界を持つ時間情報付き音素ラベルの音素ラベリングが適切であり、当該時間情報付き音素ラベルの再確認が不要であると判定する（ステップＳ１３２４）。前述のように、判定対象の時間情報付き音素ラベルは、時間情報付き音素ラベル系列Ａのものであってもよいし、時間情報付き音素ラベル系列Ｂのものであってもよい。誤り検出部１３２は、すべての音素境界誤差の判定が終了したか否かを判定する（ステップＳ１３２５）。すべての音素境界誤差の判定が終了していない場合にはステップＳ１３２１に戻る。すべての音素境界誤差の判定が終了した場合には音素境界誤差算出部１３１の処理を終了する。誤り検出部１３２は、再確認が必要と判定した時間情報付き音素ラベルと、再確認が不要と判定した時間情報付き音素ラベルとを区別して出力する（ステップＳ１３２）。

＜本実施形態の特徴＞
自動ラベリングの結果には、音声合成に致命的となるほど著しく大きい音素ラベリング誤りが発生する場合がある。本実施形態では、順方向の音素ラベリングを行って得られた時間情報付き音素ラベル系列Ａと、逆方向の音素ラベリングを行って得られた時間情報付き反転音素ラベル系列を反転させた時間情報付き音素ラベル系列Ｂとの音素境界誤差から、音素ラベリングの誤りを自動検出する。そのため、音素ラベリングに誤りのある時間情報付き音素ラベル（再確認が必要な時間情報付き音素ラベル）のみを人手で再チェックすればよく、音素ラベリングの手間と時間を大幅に削減できる。

［第２実施形態］
第２実施形態は第１実施形態の変形例であり、得られた音素境界誤差の一部のみを音素ラベリングの誤り検出に用いる点で第１実施形態と相違する。以下では第１実施形態との相違点を中心に説明し、既に説明した事項については第１実施形態と同じ参照番号を用いて説明を簡略化する。

第１実施形態では、ラベリング誤り検出部１３の音素境界誤差算出部１３１（図４）で得られた音素境界誤差をそのまま誤り検出部１３２に入力していた。これに対し、第２実施形態では、音素境界誤差から特定の音素境界の誤差である特定音素境界誤差を抽出し、当該特定音素境界誤差に基づいて音素ラベリングの誤りを検出する。例えば、無音前後の音素境界では、順方向の音素ラベリングで得られた時間情報付き音素ラベル系列と正解の音素ラベル系列との音素境界誤差と、順方向の音素ラベリングで得られた時間情報付き音素ラベル系列と逆方向の音素ラベリングに基づいた時間情報付き音素ラベル系列との音素境界誤差との間に、強い正の相関がみられる。そのため、無音前後の音素境界（特定の音素境界）での音素境界誤差を特定音素境界誤差とすることで、音素ラベリングの誤りを高精度で検出できる。また汎用的な閾値ではなく、特定音素境界誤差に対応する特定の音素境界に特化した閾値が用いられてもよい。すなわち、特定音素境界誤差がその音素境界に特化した閾値を超える当該音素境界に対応する時間情報付き音素ラベルを検出してもよい。これによって音素ラベリングの誤りをより高精度に検出できる。本実施形態では、音素境界誤差に対して音素境界フィルタリングを行い、特定の音素境界の誤差である特定音素境界誤差を抽出する例を示す。

＜詳細＞
図１に例示するように、本実施形態のラベリング誤り検出装置２は、順方向ラベリング部１１、逆方向ラベリング部１２、およびラベリング誤り検出部２３を有する。図７に例示するように、ラベリング誤り検出部２３は、音素境界誤差算出部１３１、フィルタリング部２３３、および誤り検出部２３２を有する。ラベリング誤り検出装置２は、図示していない制御部の下で各処理を実行する。各処理に用いられる情報は図示していない記憶部に格納され、必要に応じて読み出されて使用される。

第２実施形態の順方向ラベリング部１１および逆方向ラベリング部１２は第１実施形態で説明したものと同じである。以下では、第１実施形態との相違点であるラベリング誤り検出部２３の処理のみを説明する。

＜ラベリング誤り検出部２３＞
図１及び図７に例示するように、ラベリング誤り検出部２３の音素境界誤差算出部１３１には、順方向ラベリング部１１から出力された時間情報付き音素ラベル系列Ａと、逆方向ラベリング部１２から出力される時間情報付き音素ラベル系列Ｂが入力される。音素境界誤差算出部１３１は、第１実施形態で説明したように音素境界誤差を計算して出力する（ステップＳ１３１）。

音素境界誤差算出部１３１から出力された音素境界誤差、および特定の音素境界を表す情報は、フィルタリング部２３３に入力される。例えば、無音に関する音素ラベリング誤りに特化して検出したいときには、無音前後の音素境界を含む音素境界を特定の音素境界としてセットする。フィルタリング部２３３は、音素境界誤差から特定の音素境界に対応する特定音素境界誤差（フィルタリングされた音素境界誤差）を抽出して出力する。例えば、無音に関する音素ラベリング誤りに特化して検出するのであれば、フィルタリング部２３３は、無音前後を含む音素境界での音素境界誤差を特定音素境界誤差として抽出して出力する（ステップＳ２３３）。

フィルタリング部２３３から出力された特定音素境界誤差は誤り検出部２３２に入力される。誤り検出部２３２は、入力された特定音素境界誤差に基づいて音素ラベリングの誤りを検出する。誤り検出部２３２は、特定音素境界誤差が大きな音素境界を持つ時間情報付き音素ラベルの音素ラベリングが誤りであり、この時間情報付き音素ラベルの再確認が必要であると判定する。この判定にも閾値判定を用いることができる。ただし、第２実施形態では、音素ラベリングの誤り検出対象を特定の音素境界に限定しているため、誤り検出部２３２は、当該特定の音素境界に特化した判断基準に基づいて音素ラベリングの誤りを検出することができる。例えば、誤り検出部２３２は、当該特定の音素境界に特化した閾値を用いて閾値判定を行うことができ、特定音素境界誤差が当該特定の音素境界に特化した閾値を超える当該音素境界に対応する時間情報付き音素ラベルを、音素ラベリングを誤った音素ラベルとして検出できる。この特定の音素境界に特化した閾値は、例えば、正解ラベルと時間情報付き音素ラベル系列Ａ、および時間情報付き音素ラベル系列Ａと時間情報付き音素ラベル系列Ｂとからそれぞれ求めた、この特定の音素境界（例えば、無音前後の音素境界を含む音素境界）での音素境界誤差の関係性を観察して定められる。これにより、全音素境界に対して汎用的に設定された閾値を用いる場合よりも高精度な誤り検出が期待できる。誤り検出部２３２は、音素ラベリングが誤りであり、再確認が必要と判定した時間情報付き音素ラベルと、それ以外の再確認が不要と判定した時間情報付き音素ラベルとを区別して出力する（ステップＳ２３２）。

＜本実施形態の特徴＞
本実施形態でも音素ラベリングの誤りを自動検出できるので、音素ラベリングに誤りのある時間情報付き音素ラベルのみを人手で再チェックすればよく、音素ラベリングの手間と時間を大幅に削減できる。さらに、本実施形態では、フィルタリング部２３３で音素境界誤差から特定の音素境界に対応する特定音素境界誤差を抽出し、誤り検出部２３２で当該特定の音素境界に特化した判断基準（例えば、当該特定の音素境界に特化した閾値を超えるか否か）で音素ラベリングの誤りを検出する。そのため、より高精度に音素ラベリングに誤りのある時間情報付き音素ラベルを検出できる。

［ハードウェア構成］
各実施形態におけるラベリング誤り検出装置１，２は、例えば、ＣＰＵ（central processing unit）等のプロセッサ（ハードウェア・プロセッサ）やＲＡＭ（random-access memory）・ＲＯＭ（read-only memory）等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される装置である。このコンピュータは１個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めＲＯＭ等に記録されていてもよい。また、ＣＰＵのようにプログラムが読み込まれることで機能構成を実現する電子回路（circuitry）ではなく、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、１個の装置を構成する電子回路が複数のＣＰＵを含んでいてもよい。

図８は、各実施形態におけるラベリング誤り検出装置１，２のハードウェア構成を例示したブロック図である。図８に例示するように、この例のラベリング誤り検出装置１，２は、ＣＰＵ（Central Processing Unit）１０ａ、入力部１０ｂ、出力部１０ｃ、ＲＡＭ（Random Access Memory）１０ｄ、ＲＯＭ（Read Only Memory）１０ｅ、補助記憶装置１０ｆ及びバス１０ｇを有している。この例のＣＰＵ１０ａは、制御部１０ａａ、演算部１０ａｂ及びレジスタ１０ａｃを有し、レジスタ１０ａｃに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部１０ｂは、データが入力される入力端子、キーボード、マウス、タッチパネル等である。また、出力部１０ｃは、データが出力される出力端子、ディスプレイ、所定のプログラムを読み込んだＣＰＵ１０ａによって制御されるＬＡＮカード等である。また、ＲＡＭ１０ｄは、ＳＲＡＭ (Static Random Access Memory)、ＤＲＡＭ (Dynamic Random Access Memory)等であり、所定のプログラムが格納されるプログラム領域１０ｄａ及び各種データが格納されるデータ領域１０ｄｂを有している。また、補助記憶装置１０ｆは、例えば、ハードディスク、ＭＯ（Magneto-Optical disc）、半導体メモリ等であり、所定のプログラムが格納されるプログラム領域１０ｆａ及び各種データが格納されるデータ領域１０ｆｂを有している。また、バス１０ｇは、ＣＰＵ１０ａ、入力部１０ｂ、出力部１０ｃ、ＲＡＭ１０ｄ、ＲＯＭ１０ｅ及び補助記憶装置１０ｆを、情報のやり取りが可能なように接続する。ＣＰＵ１０ａは、読み込まれたＯＳ（Operating System）プログラムに従い、補助記憶装置１０ｆのプログラム領域１０ｆａに格納されているプログラムをＲＡＭ１０ｄのプログラム領域１０ｄａに書き込む。同様にＣＰＵ１０ａは、補助記憶装置１０ｆのデータ領域１０ｆｂに格納されている各種データを、ＲＡＭ１０ｄのデータ領域１０ｄｂに書き込む。そして、このプログラムやデータが書き込まれたＲＡＭ１０ｄ上のアドレスがＣＰＵ１０ａのレジスタ１０ａｃに格納される。ＣＰＵ１０ａの制御部１０ａａは、レジスタ１０ａｃに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すＲＡＭ１０ｄ上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部１０ａｂに順次実行させ、その演算結果をレジスタ１０ａｃに格納していく。このような構成により、ラベリング誤り検出装置１，２の機能構成が実現される。

上述のプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は非一時的な（non-transitory）記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。

このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。上述のように、このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

各実施形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

［その他の変形例］
なお、本発明は上述の実施形態に限定されるものではない。例えば、第１，２実施形態では、音声データがラベリング誤り検出装置１，２に入力される例を示した。しかし、音声データに代えて当該音声データの音響特徴量系列が検出装置１，２に入力され、時間情報計算部１１２，１２４に与えられてもよい。この場合には音響特徴量計算部１１１，１２１を省略することができる。また、逆方向ラベリング部１２に音響特徴量系列の時間順序を反転させた反転音響特徴量系列が入力され、時間情報計算部１２４に与えられてもよい。この場合には音響特徴量時間反転部１２２を省略できる。また、逆方向ラベリング部１２に時間情報無し音素ラベル系列に代えて、時間情報無し音素ラベル系列の時間順序を反転させた時間情報無し反転音素ラベル系列が入力され、時間情報計算部１２４に与えられてもよい。この場合にはラベル反転部１２３を省略できる。

また、逆方向ラベリング部１２が時間情報付き反転音素ラベル系列を反転させることなく出力してもよい。この場合、ラベリング誤り検出部１３，２３の音素境界誤差算出部１３１に、逆方向ラベリング部１２から出力された時間情報付き反転音素ラベル系列が入力される。音素境界誤差算出部１３１は、時間情報付き反転音素ラベル系列の時間順序を反転させた時間情報付き音素ラベル系列Ｂを得、順方向ラベリング部１１から出力された時間情報付き音素ラベル系列Ａとの音素境界誤差を得る。あるいは、音素境界誤差算出部１３１が、時間情報付き反転音素ラベル系列の時間を逆方向に参照しながら、実質的に時間情報付き音素ラベル系列Ａと時間情報付き音素ラベル系列Ｂとの音素境界誤差を得てもよい。

また第１，２実施形態では、ラベリング誤り検出部１３，２３が、再確認が必要と判定した時間情報付き音素ラベルと、再確認が不要と判定した時間情報付き音素ラベルとを区別して出力した。しかし、ラベリング誤り検出部１３，２３が、再確認が必要と判定した時間情報付き音素ラベルのみを出力してもよいし、再確認が不要と判定した時間情報付き音素ラベルのみを出力してもよい。

また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

本発明の産業上の利用分野としては、例えば、音声合成モデルの機械学習に用いられる学習データの音素ラベリングを例示できる。従来の枠組みで音素ラベリングを行った場合、得られた時間情報付き音素ラベル系列の音素境界が人手で音素ラベリングしたものと大きく乖離する場合がある。このような時間情報付き音素ラベルを音声合成モデルの機械学習に用いると音声合成モデルが不適切なものとなる。その結果、音素ラベリングの誤りの大きな音素を含む文章を音声合成しようとしたときに、意図しないタイミングで異なる音素を発話する音声が合成されてしまう。これを防ぐために、自動ラベリング結果の音素境界位置をすべて人手で修正するためには膨大なコストがかかる。本発明を用いることで、音素ラベリングの誤りが大きな音素を自動で検出でき、その結果、音素ラベリングの誤りが大きな音素を効率的に修正できる。その結果、適切な音声合成モデルを学習することが可能になる。

１，２ラベリング誤り検出装置

Claims

音声信号の音響特徴量系列および前記音声信号の音素ラベル系列を用い、前記音素ラベル系列に順方向の時間情報を対応付ける順方向の音素ラベリングを行って第１時間情報付き音素ラベル系列を得、
前記音響特徴量系列の時間順序を反転させた反転音響特徴量系列および前記音素ラベル系列の時間順序を反転させた反転音素ラベル系列を用い、前記反転音素ラベル系列に逆方向の時間情報を対応付ける逆方向の音素ラベリングを行って時間情報付き反転音素ラベル系列を得、
前記第１時間情報付き音素ラベル系列と、前記時間情報付き反転音素ラベル系列の時間順序を反転させた第２時間情報付き音素ラベル系列との間での音素境界誤差に基づき、音素ラベリングの誤りを検出する、ラベリング誤り検出装置。
請求項１のラベリング誤り検出装置であって、
前記音素境界誤差に基づき、前記第１時間情報付き音素ラベル系列または前記第２時間情報付き音素ラベル系列から音素ラベリングを誤った時間情報付き音素ラベルを検出する、ラベリング誤り検出装置。
請求項２のラベリング誤り検出装置であって、
前記音素境界誤差が閾値を超える音素境界に対応する前記時間情報付き音素ラベルを検出する、ラベリング誤り検出装置。
請求項１または２のラベリング誤り検出装置であって、
前記音素境界誤差から特定の音素境界に対応する特定音素境界誤差を抽出し、前記特定音素境界誤差に基づいて前記音素ラベリングの誤りを検出する、ラベリング誤り検出装置。
請求項４のラベリング誤り検出装置であって、
前記特定音素境界誤差が前記特定の音素境界に特化した閾値を超える当該音素境界に対応する時間情報付き音素ラベルを検出する、ラベリング誤り検出装置。
請求項１から５の何れかのラベリング誤り検出装置であって、
前記順方向の音素ラベリングは、前記音響特徴量系列および前記音素ラベル系列に順方向ラベリング用モデルを適用する処理であり、
前記逆方向の音素ラベリングは、前記反転音響特徴量系列および前記反転音素ラベル系列に逆方向ラベリング用モデルを適用する処理である、ラベリング誤り検出装置。
音声信号の音響特徴量系列および前記音声信号の音素ラベル系列を用い、前記音素ラベル系列に順方向の時間情報を対応付ける順方向の音素ラベリングを行って第１時間情報付き音素ラベル系列を得、
前記音響特徴量系列の時間順序を反転させた反転音響特徴量系列および前記音素ラベル系列の時間順序を反転させた反転音素ラベル系列を用い、前記反転音素ラベル系列に逆方向の時間情報を対応付ける逆方向の音素ラベリングを行って時間情報付き反転音素ラベル系列を得、
前記第１時間情報付き音素ラベル系列と、前記時間情報付き反転音素ラベル系列の時間順序を反転させた第２時間情報付き音素ラベル系列との間での音素境界誤差に基づき、音素ラベリングの誤りを検出する、ラベリング誤り検出方法。
請求項１から６の何れかのラベリング誤り検出装置としてコンピュータを機能させるためのプログラム。