JP7259988B2

JP7259988B2 - 検知装置、その方法、およびプログラム

Info

Publication number: JP7259988B2
Application number: JP2021560780A
Authority: JP
Inventors: 裕紀金川; 勇祐井島
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2023-04-18
Anticipated expiration: 2039-11-25
Also published as: WO2021106047A1; JPWO2021106047A1; US20220406289A1

Description

本発明は、音声データに対応する音素ラベルに対して時間情報を付与する際に生じるラべリング誤りを検知する検知装置、その方法、およびプログラムに関する。

音声合成の音響モデル構築には、音声データおよびそれに対応する音素ラベル(以下、単に「ラベル」ともいう)が必要である。近年の統計的パラメトリック音声合成で主流である深層学習に基づく音声合成では、モデルの入出力間でフレームレベルの言語特徴量と音響特徴量とを対応させるため、時間情報が正確に与えられている必要がある。音素に対応する時間情報の付与作業を音素ラベリングと呼び、これを人手で行うには音声データとラベルとを照らし合わせて何度も音声データを聴かなければならないため、膨大な時間とコストを要する。

この音素ラベリングを自動で行う方法として、隠れマルコフモデル（HMM）を用いる手法がよく用いられる(特許文献１，非特許文献１参照)。音響特徴量と音素ラベルをHMMに与えることで、探索アルゴリズムを通じて時間情報付きラベルを得ることができる。従来は音響尤度計算に混合ガウス分布(GMM)を用いるのが主流であったが、近年ではGMMより高い弁別性を持つDeep Neural Network（DNN）を用いる方法が主流となっている(非特許文献２，３参照)。

いま、DNNとHMMを併用したアプローチ（DNN-HMM）で自動ラベリングモデルを学習する場合を考える。ある発話において、音声データから抽出した音響特徴量系列をo=[o₁,…,o_T]とし、音響特徴量系列oに対応するHMMの状態ID系列をs=[s₁,…,s_T]とするとき、DNNは一般的に次式の交差エントロピーを最小化するように学習される。
Loss(o,s)=-xent(o,s)
ここで、時刻tにおけるHMMの状態IDであるs_tはj=1,…,Nのいずれかの値を取る。ただし、t=1,2,…,Tであり、NはHMMに含まれる状態の種類の総数を表す。音響特徴量系列と音素ラベルとから時間情報付き音素ラベルを予測するには、まずDNNの順伝搬演算により、音響特徴量o_tが与えられたときにHMMの状態IDがjとなる事後確率p(j|o_t)を得る。これを事前確率p(j)で除算することで音響尤度p(o_t|j)=p(j|o_t)/p(j)を得る。これらをj=1,…,Nの全状態、t=1,2,…,Tの全時刻にわたって計算した事後確率系列をHMMに入力することで、ビタビアルゴリズムにより時間情報付きラベルを推定できる。なお、事前確率p(j)は、学習データ中で出現する状態IDの頻度から計算できる。

特開２００４－０７７９０１号公報

河井恒, 戸田智基, "波形接続型音声合成のための自動音素セグメンテーションの評価", 信学技報, SP2002-170, pp5-10, 2003 G. Hinton, L. Deng, D. Yu, G. Dahl, A. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T. Sainath, and B. Kingsbury, "Deep neural networks for acoustic modeling in speech recognition," IEEE Signal Processing Magazine, Vol.29 (6), pp. 82-97, 2012. David Ayllon, Fernando Villavicencio, Pierre Lanchantin , "A Strategy for Improved Phone-Level Lyrics-to-Audio Alignment for Speech-to-Singing Synthesis", Proc. Interspeech, pp. 2603--2607

しかしながら、前述の枠組みを含む自動ラベリングにより得られる時間情報付きラベルは、音素境界が、人手で付けたものとかけ離れた結果となることがある。このような人手で付けたものとかけ離れた時間情報付きラベルを音声合成で用いる音響モデルの学習に用いた場合、人手で付けたものとかけ離れた時間情報付きラベルに対応する文章を音声合成し、意図しないタイミングに異なる音素を発話する音声が合成されてしまう。これを防ぐために、自動ラベリング結果の音素境界位置を人手で修正することが好ましいが、この作業を人手行うのは前述の通り、膨大な時間とコストがかかる。

本発明は、音素自動ラベリングが誤っているものを自動で検知する検知装置、その方法、およびプログラムを提供することを目的とする。

上記の課題を解決するために、本発明の一態様によれば、検知装置は、音声データからラべリング用音響特徴量を計算するラべリング用音響特徴量計算部と、時間情報が付いていないラベルとラべリング用音響特徴量とを入力とし、時間情報が付いているラベルを出力とするラべリング用音響モデルを用いて、音声データに対応する時間情報が付いていないラベルと、ラべリング用音響特徴量とから、音声データに対応する、時間情報が付いているラベルを取得する時間情報取得部と、時間情報が付いているラベルを入力とし、音響特徴量を出力する音響モデルを用いて、時間情報付きラベルに対応する音響特徴量を予測し、予測値を取得する音響特徴量予測部と、音声データから音響特徴量を計算する音響特徴量計算部と、音響特徴量と予測値との音響的な差異を求める差異計算部と、差異と所定の閾値との大小関係に基づき、ラべリング誤りを検知する検知部とを含む。

本発明によれば、音素自動ラベリングが誤っているものを自動で検知することができるという効果を奏する。

前述の通り、音素自動ラベリングにより得られる音素ラベルには誤りであるラべリング誤りが含まれることがあるため、全発話において人手で音素境界を確認し、ラべリング誤りがあれば手修正するのが一般的である。本発明により、ラべリング誤りと検知されたものだけを手修正すればよいため、音素ラベリングにかかる時間とコストを削減できる。

第一実施形態に係る検知装置の機能ブロック図。第一実施形態に係る検知装置の処理フローの例を示す図。第一実施形態に係る検知部の処理フローの例を示す図。第一実施形態に係る検知部の処理フローの例を示す図。第二実施形態に係る検知装置の機能ブロック図。第二実施形態に係る検知装置の処理フローの例を示す図。第三実施形態に係る検知装置の機能ブロック図。第三実施形態に係る検知装置の処理フローの例を示す図。本手法を適用するコンピュータの構成例を示す図。

以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。

＜第一実施形態のポイント＞
本実施形態の検知装置は、音素自動ラベリングの結果から音声合成用のモデルを構築するにあたって、音声合成にとって致命的なラベリング誤りを自動で検知する。ここでいう音声合成用のモデルとは、時間情報付き音素ラベルを入力とし、音素ラベルに対応する音響特徴量または音声データを出力する音響モデルである。出力された音響特徴量または音声データから音声合成を行うことができる。音声合成用のモデルは、例えば、学習用の音声データから得られる音響特徴量と、対応する学習用の時間情報付き音素ラベルを用いて、学習することができる。学習用の音声データに対して音素自動ラべリングを行って学習用の時間情報付き音素ラベルを取得しようとする場合、前述の通り、ラべリング誤りが生じることがあるが、実施形態の検知装置はこのラべリング誤りを検知する。なお、時間情報は、例えば、(i)ある音素の開始時間と終了時間とからなる情報、(ii)ある音素の開始時間と継続時間とからなる情報、(iii)フレーム毎につけられた音素情報等が考えられる。(iii)の場合には、フレーム番号、フレーム長、シフト長等から音素の開始時間、終了時間、継続長等が分かる。

具体的には、フレームワイズなDNN音声合成を音声合成部に用いる場合、音素境界を明確に付与した音素ラベルを用いて学習された音声合成用の音響モデルに時間情報付きラベルを入力することで音声合成用の音響特徴量を予測する。ここで予測された音響特徴量と、ラベリング対象となっている音声データから計算される音響特徴量間の音響的な差異（スペクトル距離やF0誤差等）を計算する。なお、ラベリング対象となっている音声データは、別の言い方をすると、音声合成用の音響モデルを学習する際に用いる学習用の音声データである。音声合成にとって致命的なラベリング誤りが存在する場合、合成音声と原音声の間の音響的な差異が大きくなる傾向があるため、この知見をもとに致命的なラベリング誤りを検知する。

＜第一実施形態＞
図１は本実施形態に係る検知装置の機能ブロック図を、図２はその処理フローを示す。

検知装置は、自動ラベリング部１１０と、音声合成部１２０と、ラべリング誤り検知部１３０とを含む。

検知装置は、学習用の音声データと、時間情報が付加されていない、学習用の音声データに対応する音素ラベル(以下、「時間情報無しラベル」ともいう)とを入力とし、音素ラベルに時間情報を付加する自動ラべリングを行い、自動ラべリングの結果に含まれるラべリング誤りを検知し、検知結果を出力する。本実施形態では、検知結果として、人手で時間情報を付加する必要がある時間情報付きラベルであることを示す情報、または、人手で時間情報を付加する必要がない時間情報付きラベルであることを示す情報を出力する。人手で時間情報を付加する必要がある時間情報付きラベルは、言い換えると、ラべリング誤りを含む時間情報付きラベルであり、人手で時間情報を付加する必要がない時間情報付きラベルは、言い換えると、ラべリング誤りを含まない時間情報付きラベルである。なお、検知結果は、人手で時間情報を付加する際に適切な単位で出力されることが望ましい。例えば、発話単位、文単位、所定の時間単位で出力される。

本実施形態は、従来の自動ラベリングの構成とは異なり、新たに音声合成部１２０と、ラべリング誤り検知部１３０とを含む。

自動ラベリングの結果には、音声合成に致命的となるものも含まれているため、自動ラベリング部１１０で取得した時間情報付きラベルから音声合成部１２０で音声合成した際に得られる音声合成用音響特徴量を予測し、音声合成の誤差の観点から、ラベリング誤りを含む音声データを検知できる。

検知装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。検知装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。検知装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。検知装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。検知装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも検知装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置により構成し、検知装置の外部に備える構成としてもよい。

以下、各部の処理を説明する。

＜自動ラベリング部１１０＞
自動ラベリング部１１０は、学習用の音声データと時間情報無しラベルとを入力とし、時間情報無しラベルに対して時間情報を付加して（Ｓ１１０）、時間情報付きラベルを出力する。

例えば、自動ラベリング部１１０は、ラべリング用音響特徴量計算部１１１と、時間情報取得部１１２とを含み、以下のように処理を行う。

＜ラべリング用音響特徴量計算部１１１＞
ラべリング用音響特徴量計算部１１１は、学習用の音声データを入力とし、学習用の音声データからラべリング用音響特徴量を計算し（Ｓ１１１）、出力する。例えば、ラべリング用音響特徴量として、音声の周波数特性を示すメル周波数ケプストラム係数（MFCC）やメルフィルタバンクなどが用いられるが、その他スペクトログラムや音声認識用のDNNから得たボトルネック特徴量などを用いてもよい。要は、後述する時間情報取得部１１２において、時間情報が付いていないラベルに時間情報を付加するために用いる音響特徴量であればよい。

＜時間情報取得部１１２＞
時間情報取得部１１２は、時間情報無しラベルとラべリング用音響特徴量とを入力とし、ラべリング用音響モデルを用いて、時間情報無しラベルと、ラべリング用音響特徴量とから、学習用の音声データに対応する、時間情報が付いている音素ラベル（以下「時間情報付きラベル」ともいう）を取得し（Ｓ１１２）、出力する。

なお、ラべリング用音響モデルは、時間情報無しラベルとラべリング用音響特徴量とを入力とし、時間情報付きラベルを出力とする音響モデルであり、例えば、以下のように学習したものである。

音声データからラべリング用音響特徴量（以下、「学習用ラべリング用音響特徴量」ともいう）を計算し、音声データの音素境界を明確に付与した時間情報が付いている音素ラベル（以下、学習用時間情報付きラベルともいう）を用意する。なお、この学習用時間情報付きラベルは、既存のデータベース等を利用してもよいし、人手により用意してもよい。ラべリング用音響モデルは、例えば、学習用ラべリング用音響特徴量と、学習用時間情報付きラベルとを用いて、既存の音響モデル学習方法により、学習される。ラベリング用音響モデルには、例えば、GMM-HMMやDNN-HMMを用いることができ、時間情報取得部１１２では、ビタビアルゴリズム等により強制アラインメントを取ることで時間情報付きラベルを得ることができる。またラベリング用音響モデルにはConnectionist Temporal Classification（CTC）も利用可能である。

＜音声合成部１２０＞
音声合成部１２０は、時間情報付きラベルを入力とし、時間情報付きラベルから音声合成した場合に得られる音声合成用音響特徴量を予測し（Ｓ１２０）、予測値を出力する。

例えば、音声合成部１２０は、音声合成用音響特徴量予測部１２１を含み、以下のように処理を行う。

＜音声合成用音響特徴量予測部１２１＞
音声合成用音響特徴量予測部１２１は、時間情報付きラベルを入力とし、音声合成用音響モデルを用いて、時間情報付きラベルに対応する音声合成用音響特徴量を予測し（Ｓ１２０）、予測値を取得し、出力する。なお、音声合成用音響モデルは、時間情報付きラベルを入力とし、音声合成用音響特徴量を出力とするモデルである。例えば、音声合成用音響モデルは、以下のように学習したものを利用する。

音声データから音声合成用音響特徴量（以下、学習用音声合成用音響特徴量）を計算し、音声データの音素境界を明確に付与した時間情報が付いている音素ラベル（以下、学習用音声合成用時間情報付きラベルともいう）を用意する。なお、この時間情報が付いている音素ラベルは、既存のデータベース等を利用してもよいし、人手により用意してもよい。音声合成用音響モデルは、例えば、学習用音声合成用音響特徴量と、学習用時間情報付きラベルとを用いて、既存の音響モデル学習方法により、学習される。

例えば、音声合成用音響特徴量予測部１２１は、平均的な話者性を持つ音声（平均声）の音声合成用音響特徴量を予測する。音声合成用音響モデルがDNNやHMMの場合、音声合成用音響特徴量にはメルケプストラムや基本周波数（F0）などが用いられるが、有声無声判定フラグや声の擦れ具合の指標となる非周期性指標などが用いられてもよい。

後段の差異計算部１３２にて、平均声と学習用の音声データとの差異を計算し、差異の大きさに基づきラベリング誤りを検知するため、性別依存の平均声を合成できるような音声合成用音響モデルであることが望ましい。

＜ラべリング誤り検知部１３０＞
ラべリング誤り検知部１３０は、学習用の音声データと予測値とを入力とし、音響的な差異からラべリング誤りを検知し（Ｓ１３０）、検知結果を出力する。

例えば、ラべリング誤り検知部１３０は、音声合成用音響特徴量計算部１３１と、差異計算部１３２と、検知部１３３とを含む。差異計算部１３２は、F0誤差計算部１３２Ａとスペクトル距離計算部１３２Ｂとを含み、以下のように処理を行う。

＜音声合成用音響特徴量計算部１３１＞
音声合成用音響特徴量計算部１３１は、学習用の音声データを入力とし、学習用の音声データから音声合成用音響特徴量を計算し（Ｓ１３１）、出力する。音声合成用音響特徴量としては、音声合成用音響特徴量予測部１２１で予測したものと同様の音響特徴量を用いればよい。

＜差異計算部１３２＞
差異計算部１３２は、音声合成用音響特徴量と予測値とを入力とし、音響的な差異を求め（Ｓ１３２）、出力する。例えば、音響的な差異として、Ｆ０誤差とスペクトル距離との少なくとも何れかを利用する。例えば、差異計算部１３２は、F0誤差計算部１３２Ａと、スペクトル距離計算部１３２Ｂとを含み、以下の処理を行う。

（F0誤差計算部１３２Ａ）
F0誤差計算部１３２Ａは、音声合成用音響特徴量と予測値とを入力とし、音声合成用音響特徴量および予測値からそれぞれF0を計算するか、または、音声合成用音響特徴量および予測値に含まれるF0を取得する。F0誤差計算部１３２Ａは、音声合成用音響特徴量のF0に対する予測値のF0の誤差（以下、F0誤差ともいう）を計算し（Ｓ１３２Ａ）、出力する。この誤差は、音声合成用音響特徴量のF0と予測値のF0との差分に相当する。例えば、F0誤差はフレーム単位で求めておく。

（スペクトル距離計算部１３２Ｂ）
スペクトル距離計算部１３２Ｂは、音声合成用音響特徴量と予測値とを入力とし、音声合成用音響特徴量および予測値からスペクトル距離を計算し（Ｓ１３２Ｂ）、出力する。スペクトル距離は、音声合成用音響特徴量と予測値との差分に相当する。例えば、スペクトル距離はフレーム単位で求めておく。

＜検知部１３３＞
検知部１３３は、音響的な差異を入力とし、差異と所定の閾値との大小関係に基づき、ラべリング誤りを検知し（Ｓ１３３）、検知結果を検出装置の出力値として出力する。時間情報付きラベルの時間情報が間違っていると、学習用の音声データの音声合成用音響特徴量とは異なる音素に対応する音声を合成しようとするため、ラベリング誤りが存在している近辺のフレームで音響的な差異(例えばF0誤差やスペクトル距離)が大きくなることが分かっている。この事象を利用し、本実施形態はラベリング誤りを検知する。

図３は音響的な差異としてF0誤差を利用した場合の検知部１３３のフローチャートの例を示し、図４は音響的な差異としてスペクトル距離を利用した場合の検知部１３３のフローチャートの例を示す。このような構成により、ラベリング誤りに起因する韻律面の判定を行う。

音響的な差異としてF0誤差を利用した場合、検知部１３３は、フレーム単位のF0誤差を入力とし、まず、フレーム単位のF0誤差が閾値x以上のフレームがあるかを判定する(図３のＳ１３３Ａ－１)。フレームがない場合、ラベリング誤りが存在していないと判定し、対応する音声データを人手で時間情報を付加する必要がない時間情報付きラベルとする(Ｓ１３３Ａ－４)。

フレームがあった場合、さらに、閾値x以上のフレームのフレーム数がy以上であるかを判定する（Ｓ１３３Ａ－２）。フレーム数がy未満の場合、ラベリング誤りが起きていてもその影響は小さいとみなし、対応する音声データを人手で時間情報を付加する必要がない時間情報付きラベルとする(Ｓ１３３Ａ－４)。フレーム数がy以上の場合、人手で時間情報を付加する必要がある時間情報付きラベルとする(Ｓ１３３Ａ－３)。

音響的な差異としてスペクトル距離を利用した場合、検知部１３３は、フレーム単位のスペクトル距離を入力とし、まず、フレーム単位のスペクトル距離が閾値a以上のフレームがあるかを判定する(図４のＳ１３３Ｂ－１)。フレームがない場合、ラベリング誤りが存在していないと判定し、対応する音声データを人手で時間情報を付加する必要がない時間情報付きラベルとする(Ｓ１３３Ｂ－４)。

フレームがあった場合、さらに、閾値a以上のフレームのフレーム数がb以上であるかを判定する（Ｓ１３３Ｂ－２）。フレーム数がb未満の場合、ラベリング誤りが起きていてもその影響は小さいとみなし、対応する音声データを人手で時間情報を付加する必要がない時間情報付きラベルとする(Ｓ１３３Ｂ－４)。フレーム数がb以上の場合、人手で時間情報を付加する必要がある時間情報付きラベルとする(Ｓ１３３Ｂ－３)。

検知部１３３は、音響的な差異としてF0誤差とスペクトル距離との何れか一方を利用してもよいし、両方を利用してor条件もしくはand条件を取り、最終的に人手で時間情報を付加する必要がある時間情報付きラベルを検知することができる。

また、図３について、F0誤差の平均、分散を算出し、平均+α×標準偏差以上のものとして閾値xを定めることで、統計的に明らかに誤差が大きいフレームを検知できる。図４についても同様にスペクトル距離の平均、分散を算出し、閾値yを定めることができる。

また、閾値y,bは、音素の境界を誤ることで、音声合成に致命的な影響を与えるとわかっているときのフレーム数を定める。

＜効果＞
このような構成により、音素自動ラベリングが誤っているものを自動で検知することができる。

＜変形例＞
本実施形態では、音声合成用の音響モデルを学習する際に用いる時間情報付きラベルのラべリング誤りを検知するものとして記載しているが、他の用途のラべリング誤りを検知してもよい。例えば、音声認識用の音響モデルを学習する際に用いる時間情報付きラベルのラべリング誤りも同様に検知することができる。

＜第二実施形態＞
第一実施形態と異なる部分を中心に説明する。

図５は本実施形態に係る検知装置の機能ブロック図を、図６はその処理フローを示す。

ラべリング誤り検知部１３０の構成が第一実施形態とは異なる。

ラべリング誤り検知部１３０は、音声合成用音響特徴量計算部１３１と、差異計算部１３２と、検知部１３３とを含み、さらに、正規化部２３４を含む。

第一実施形態では、ラベリング誤り検知部１３０において、ラベリングの対象となる話者によって、音声合成部１２０から得られる平均声と似ている話者とそうでない話者がいるため、閾値a, xを話者ごとに定めなければならないという課題がある。本構成では、事前に話者ごとに、音声合成用の音響特徴量を正規化しておくことで、話者ごとに閾値a, xを定める必要がなくなる。

自動ラベリング部１１０と音声合成部１２０の処理については、第一実施形態と同じであるため、ラベリング誤り検知部１３０についてのみ言及する。

＜正規化部２３４＞
ラベリング誤り検知部１３０の正規化部２３４は、予測値と音声合成用音響特徴量とを入力とし、予測値を正規化し、音声合成用音響特徴量を正規化し（Ｓ２３４）、正規化した予測値と音声合成用音響特徴量とを出力する。

例えば、正規化部２３４は、話者ごとに入力の平均・分散を求めて、ケプストラム平均分散正規化法により正規化する。例えば、検知装置に入力される音声データの処理単位を同一話者が発した音声データ毎とし、正規化すればよい。

さらに、差異計算部１３２では、正規化した音声合成用音響特徴量と正規化した予測値との音響的な差異を求める。例えば、正規化した予測値と音声合成用音響特徴量をそれぞれF0誤差計算部１３２Ａ、スペクトル距離計算部１３２Ｂに入力することで、話者間で平均・分散が正規化されているため、判定のための閾値a,xを話者ごとに求めなくてもよくなる。

＜第三実施形態＞
第一実施形態と異なる部分を中心に説明する。

図７は本実施形態に係る検知装置の機能ブロック図を、図８はその処理フローを示す。

ラべリング誤り検知部１３０は、音声合成用音響特徴量計算部１３１と、差異計算部１３２と、検知部１３３とを含み、さらに、移動平均算出部３３５を含む。

このような構成により、ラベリング誤り検知部１３０において、より検知精度を上げることができる。第一実施形態では、F0誤差では閾値xを超える箇所が閾値yフレーム以上、スペクトル距離では閾値aを超える箇所がbフレーム以上という基準で判定をしていた。しかし実際にはラベリング誤りが大きくても、F0誤差やスペクトル距離が各フレームで非定常に大きく振れ、連続して閾値x, aを超えないことがある。このケースでは、ラベリング誤りを検知できない。本実施形態では、非定常に振れるF0誤差やスペクトル距離の軌跡を滑らかにすることで、閾値を用いた検知にかかりやすくする。

＜移動平均算出部３３５＞
ラベリング誤り検知部１３０の移動平均算出部３３５は、差異計算部１３２の出力値である差異を入力とし、移動平均を算出し（Ｓ３３５）、出力する。差異は、例えば、F0誤差とスペクトル距離との少なくとも何れかであり、移動平均は、軌跡が滑らかな平均化F0誤差、平均化スペクトル距離に相当する。

検知部１３３は、音響的な差異の移動平均を入力とし、差異の移動平均と所定の閾値との大小関係に基づき、ラべリング誤りを検知し（Ｓ１３３）、検知結果を検出装置の出力値として出力する。

第一実施形態とは異なり、滑らかに平均化したF0誤差とスペクトル距離との少なくとも何れかを使うことで、閾値を連続して超える箇所が多くなり、ラベリング誤りを検知しやすくなる。

＜変形例＞
本実施形態は、第二実施形態と組み合わせることもでき、検知のための特徴量である、スペクトル距離やF0誤差の連続性を向上させつつ、話者ごとに閾値を設けなくてよい検知装置を構築可能である。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
上述の各種の処理は、図９に示すコンピュータの記録部２０２０に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部２０１０、入力部２０３０、出力部２０４０などに動作させることで実施できる。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

音声データからラべリング用音響特徴量を計算するラべリング用音響特徴量計算部と、
時間情報が付いていないラベルとラべリング用音響特徴量とを入力とし、時間情報が付いているラベルを出力とするラべリング用音響モデルを用いて、前記音声データに対応する時間情報が付いていないラベルと、前記ラべリング用音響特徴量とから、前記音声データに対応する、時間情報が付いているラベルを取得する時間情報取得部と、
時間情報が付いているラベルを入力とし、音響特徴量を出力する音響モデルを用いて、前記時間情報付きラベルに対応する音響特徴量を予測し、予測値を取得する音響特徴量予測部と、
前記音声データから音響特徴量を計算する音響特徴量計算部と、
前記音響特徴量と前記予測値との音響的な差異を求める差異計算部と、
前記差異と所定の閾値との大小関係に基づき、ラべリング誤りを検知する検知部とを含む、
検知装置。
請求項１の検知装置であって、
前記差異は、基本周波数の差とスペクトル距離との少なくとも何れかからなる、
検知装置。
請求項１または請求項２の検知装置であって、
前記予測値を正規化し、前記音響特徴量を正規化する正規化部を含み、
前記差異計算部は、正規化した前記音響特徴量と正規化した前記予測値との音響的な差異を求める、
検知装置。
請求項１から請求項３の何れかの検知装置であって、
前記差異の移動平均を算出する移動平均算出部を含み、
前記検知部は、前記差異の移動平均と所定の閾値との大小関係に基づき、ラべリング誤りを検知する、
検知装置。
音声データからラべリング用音響特徴量を計算するラべリング用音響特徴量計算ステップと、
時間情報が付いていないラベルとラべリング用音響特徴量とを入力とし、時間情報が付いているラベルを出力とするラべリング用音響モデルを用いて、前記音声データに対応する時間情報が付いていないラベルと、前記ラべリング用音響特徴量とから、前記音声データに対応する、時間情報が付いているラベルを取得する時間情報取得ステップと、
時間情報が付いているラベルを入力とし、音響特徴量を出力する音響モデルを用いて、前記時間情報付きラベルに対応する音響特徴量を予測し、予測値を取得する音響特徴量予測ステップと、
前記音声データから音響特徴量を計算する音響特徴量計算ステップと、
前記音響特徴量と前記予測値との音響的な差異を求める差異計算ステップと、
前記差異と所定の閾値との大小関係に基づき、ラべリング誤りを検知する検知ステップとを含む、
検知方法。
請求項５の検知方法であって、
前記予測値を正規化し、前記音響特徴量を正規化する正規化ステップを含み、
前記差異計算ステップは、正規化した前記音響特徴量と正規化した前記予測値との音響的な差異を求める、
検知方法。
請求項５または請求項６の検知方法であって、
前記差異の移動平均を算出する移動平均算出ステップを含み、
前記検知ステップは、前記差異の移動平均と所定の閾値との大小関係に基づき、ラべリング誤りを検知する、
検知方法。
請求項１から請求項４の何れかの検知装置としてコンピュータを機能させるためのプログラム。