JP7259988B2 - 検知装置、その方法、およびプログラム - Google Patents

検知装置、その方法、およびプログラム Download PDF

Info

Publication number
JP7259988B2
JP7259988B2 JP2021560780A JP2021560780A JP7259988B2 JP 7259988 B2 JP7259988 B2 JP 7259988B2 JP 2021560780 A JP2021560780 A JP 2021560780A JP 2021560780 A JP2021560780 A JP 2021560780A JP 7259988 B2 JP7259988 B2 JP 7259988B2
Authority
JP
Japan
Prior art keywords
time information
labeling
acoustic
acoustic feature
feature quantity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021560780A
Other languages
English (en)
Other versions
JPWO2021106047A1 (ja
Inventor
裕紀 金川
勇祐 井島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021106047A1 publication Critical patent/JPWO2021106047A1/ja
Application granted granted Critical
Publication of JP7259988B2 publication Critical patent/JP7259988B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音声データに対応する音素ラベルに対して時間情報を付与する際に生じるラべリング誤りを検知する検知装置、その方法、およびプログラムに関する。
音声合成の音響モデル構築には、音声データおよびそれに対応する音素ラベル(以下、単に「ラベル」ともいう)が必要である。近年の統計的パラメトリック音声合成で主流である深層学習に基づく音声合成では、モデルの入出力間でフレームレベルの言語特徴量と音響特徴量とを対応させるため、時間情報が正確に与えられている必要がある。音素に対応する時間情報の付与作業を音素ラベリングと呼び、これを人手で行うには音声データとラベルとを照らし合わせて何度も音声データを聴かなければならないため、膨大な時間とコストを要する。
この音素ラベリングを自動で行う方法として、隠れマルコフモデル(HMM)を用いる手法がよく用いられる(特許文献1,非特許文献1参照)。音響特徴量と音素ラベルをHMMに与えることで、探索アルゴリズムを通じて時間情報付きラベルを得ることができる。従来は音響尤度計算に混合ガウス分布(GMM)を用いるのが主流であったが、近年ではGMMより高い弁別性を持つDeep Neural Network(DNN)を用いる方法が主流となっている(非特許文献2,3参照)。
いま、DNNとHMMを併用したアプローチ(DNN-HMM)で自動ラベリングモデルを学習する場合を考える。ある発話において、音声データから抽出した音響特徴量系列をo=[o1,…,oT]とし、音響特徴量系列oに対応するHMMの状態ID系列をs=[s1,…,sT]とするとき、DNNは一般的に次式の交差エントロピーを最小化するように学習される。
Loss(o,s)=-xent(o,s)
ここで、時刻tにおけるHMMの状態IDであるstはj=1,…,Nのいずれかの値を取る。ただし、t=1,2,…,Tであり、NはHMMに含まれる状態の種類の総数を表す。音響特徴量系列と音素ラベルとから時間情報付き音素ラベルを予測するには、まずDNNの順伝搬演算により、音響特徴量otが与えられたときにHMMの状態IDがjとなる事後確率p(j|ot)を得る。これを事前確率p(j)で除算することで音響尤度p(ot|j)=p(j|ot)/p(j)を得る。これらをj=1,…,Nの全状態、t=1,2,…,Tの全時刻にわたって計算した事後確率系列をHMMに入力することで、ビタビアルゴリズムにより時間情報付きラベルを推定できる。なお、事前確率p(j)は、学習データ中で出現する状態IDの頻度から計算できる。
特開2004-077901号公報
河井恒, 戸田智基, "波形接続型音声合成のための自動音素セグメンテーションの評価", 信学技報, SP2002-170, pp5-10, 2003 G. Hinton, L. Deng, D. Yu, G. Dahl, A. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T. Sainath, and B. Kingsbury, "Deep neural networks for acoustic modeling in speech recognition," IEEE Signal Processing Magazine, Vol.29 (6), pp. 82-97, 2012. David Ayllon, Fernando Villavicencio, Pierre Lanchantin , "A Strategy for Improved Phone-Level Lyrics-to-Audio Alignment for Speech-to-Singing Synthesis", Proc. Interspeech, pp. 2603--2607
しかしながら、前述の枠組みを含む自動ラベリングにより得られる時間情報付きラベルは、音素境界が、人手で付けたものとかけ離れた結果となることがある。このような人手で付けたものとかけ離れた時間情報付きラベルを音声合成で用いる音響モデルの学習に用いた場合、人手で付けたものとかけ離れた時間情報付きラベルに対応する文章を音声合成し、意図しないタイミングに異なる音素を発話する音声が合成されてしまう。これを防ぐために、自動ラベリング結果の音素境界位置を人手で修正することが好ましいが、この作業を人手行うのは前述の通り、膨大な時間とコストがかかる。
本発明は、音素自動ラベリングが誤っているものを自動で検知する検知装置、その方法、およびプログラムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、検知装置は、音声データからラべリング用音響特徴量を計算するラべリング用音響特徴量計算部と、時間情報が付いていないラベルとラべリング用音響特徴量とを入力とし、時間情報が付いているラベルを出力とするラべリング用音響モデルを用いて、音声データに対応する時間情報が付いていないラベルと、ラべリング用音響特徴量とから、音声データに対応する、時間情報が付いているラベルを取得する時間情報取得部と、時間情報が付いているラベルを入力とし、音響特徴量を出力する音響モデルを用いて、時間情報付きラベルに対応する音響特徴量を予測し、予測値を取得する音響特徴量予測部と、音声データから音響特徴量を計算する音響特徴量計算部と、音響特徴量と予測値との音響的な差異を求める差異計算部と、差異と所定の閾値との大小関係に基づき、ラべリング誤りを検知する検知部とを含む。
本発明によれば、音素自動ラベリングが誤っているものを自動で検知することができるという効果を奏する。
前述の通り、音素自動ラベリングにより得られる音素ラベルには誤りであるラべリング誤りが含まれることがあるため、全発話において人手で音素境界を確認し、ラべリング誤りがあれば手修正するのが一般的である。本発明により、ラべリング誤りと検知されたものだけを手修正すればよいため、音素ラベリングにかかる時間とコストを削減できる。
第一実施形態に係る検知装置の機能ブロック図。 第一実施形態に係る検知装置の処理フローの例を示す図。 第一実施形態に係る検知部の処理フローの例を示す図。 第一実施形態に係る検知部の処理フローの例を示す図。 第二実施形態に係る検知装置の機能ブロック図。 第二実施形態に係る検知装置の処理フローの例を示す図。 第三実施形態に係る検知装置の機能ブロック図。 第三実施形態に係る検知装置の処理フローの例を示す図。 本手法を適用するコンピュータの構成例を示す図。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。
<第一実施形態のポイント>
本実施形態の検知装置は、音素自動ラベリングの結果から音声合成用のモデルを構築するにあたって、音声合成にとって致命的なラベリング誤りを自動で検知する。ここでいう音声合成用のモデルとは、時間情報付き音素ラベルを入力とし、音素ラベルに対応する音響特徴量または音声データを出力する音響モデルである。出力された音響特徴量または音声データから音声合成を行うことができる。音声合成用のモデルは、例えば、学習用の音声データから得られる音響特徴量と、対応する学習用の時間情報付き音素ラベルを用いて、学習することができる。学習用の音声データに対して音素自動ラべリングを行って学習用の時間情報付き音素ラベルを取得しようとする場合、前述の通り、ラべリング誤りが生じることがあるが、実施形態の検知装置はこのラべリング誤りを検知する。なお、時間情報は、例えば、(i)ある音素の開始時間と終了時間とからなる情報、(ii)ある音素の開始時間と継続時間とからなる情報、(iii)フレーム毎につけられた音素情報等が考えられる。(iii)の場合には、フレーム番号、フレーム長、シフト長等から音素の開始時間、終了時間、継続長等が分かる。
具体的には、フレームワイズなDNN音声合成を音声合成部に用いる場合、音素境界を明確に付与した音素ラベルを用いて学習された音声合成用の音響モデルに時間情報付きラベルを入力することで音声合成用の音響特徴量を予測する。ここで予測された音響特徴量と、ラベリング対象となっている音声データから計算される音響特徴量間の音響的な差異(スペクトル距離やF0誤差等)を計算する。なお、ラベリング対象となっている音声データは、別の言い方をすると、音声合成用の音響モデルを学習する際に用いる学習用の音声データである。音声合成にとって致命的なラベリング誤りが存在する場合、合成音声と原音声の間の音響的な差異が大きくなる傾向があるため、この知見をもとに致命的なラベリング誤りを検知する。
<第一実施形態>
図1は本実施形態に係る検知装置の機能ブロック図を、図2はその処理フローを示す。
検知装置は、自動ラベリング部110と、音声合成部120と、ラべリング誤り検知部130とを含む。
検知装置は、学習用の音声データと、時間情報が付加されていない、学習用の音声データに対応する音素ラベル(以下、「時間情報無しラベル」ともいう)とを入力とし、音素ラベルに時間情報を付加する自動ラべリングを行い、自動ラべリングの結果に含まれるラべリング誤りを検知し、検知結果を出力する。本実施形態では、検知結果として、人手で時間情報を付加する必要がある時間情報付きラベルであることを示す情報、または、人手で時間情報を付加する必要がない時間情報付きラベルであることを示す情報を出力する。人手で時間情報を付加する必要がある時間情報付きラベルは、言い換えると、ラべリング誤りを含む時間情報付きラベルであり、人手で時間情報を付加する必要がない時間情報付きラベルは、言い換えると、ラべリング誤りを含まない時間情報付きラベルである。なお、検知結果は、人手で時間情報を付加する際に適切な単位で出力されることが望ましい。例えば、発話単位、文単位、所定の時間単位で出力される。
本実施形態は、従来の自動ラベリングの構成とは異なり、新たに音声合成部120と、ラべリング誤り検知部130とを含む。
自動ラベリングの結果には、音声合成に致命的となるものも含まれているため、自動ラベリング部110で取得した時間情報付きラベルから音声合成部120で音声合成した際に得られる音声合成用音響特徴量を予測し、音声合成の誤差の観点から、ラベリング誤りを含む音声データを検知できる。
検知装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。検知装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。検知装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。検知装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。検知装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも検知装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置により構成し、検知装置の外部に備える構成としてもよい。
以下、各部の処理を説明する。
<自動ラベリング部110>
自動ラベリング部110は、学習用の音声データと時間情報無しラベルとを入力とし、時間情報無しラベルに対して時間情報を付加して(S110)、時間情報付きラベルを出力する。
例えば、自動ラベリング部110は、ラべリング用音響特徴量計算部111と、時間情報取得部112とを含み、以下のように処理を行う。
<ラべリング用音響特徴量計算部111>
ラべリング用音響特徴量計算部111は、学習用の音声データを入力とし、学習用の音声データからラべリング用音響特徴量を計算し(S111)、出力する。例えば、ラべリング用音響特徴量として、音声の周波数特性を示すメル周波数ケプストラム係数(MFCC)やメルフィルタバンクなどが用いられるが、その他スペクトログラムや音声認識用のDNNから得たボトルネック特徴量などを用いてもよい。要は、後述する時間情報取得部112において、時間情報が付いていないラベルに時間情報を付加するために用いる音響特徴量であればよい。
<時間情報取得部112>
時間情報取得部112は、時間情報無しラベルとラべリング用音響特徴量とを入力とし、ラべリング用音響モデルを用いて、時間情報無しラベルと、ラべリング用音響特徴量とから、学習用の音声データに対応する、時間情報が付いている音素ラベル(以下「時間情報付きラベル」ともいう)を取得し(S112)、出力する。
なお、ラべリング用音響モデルは、時間情報無しラベルとラべリング用音響特徴量とを入力とし、時間情報付きラベルを出力とする音響モデルであり、例えば、以下のように学習したものである。
音声データからラべリング用音響特徴量(以下、「学習用ラべリング用音響特徴量」ともいう)を計算し、音声データの音素境界を明確に付与した時間情報が付いている音素ラベル(以下、学習用時間情報付きラベルともいう)を用意する。なお、この学習用時間情報付きラベルは、既存のデータベース等を利用してもよいし、人手により用意してもよい。ラべリング用音響モデルは、例えば、学習用ラべリング用音響特徴量と、学習用時間情報付きラベルとを用いて、既存の音響モデル学習方法により、学習される。ラベリング用音響モデルには、例えば、GMM-HMMやDNN-HMMを用いることができ、時間情報取得部112では、ビタビアルゴリズム等により強制アラインメントを取ることで時間情報付きラベルを得ることができる。またラベリング用音響モデルにはConnectionist Temporal Classification(CTC)も利用可能である。
<音声合成部120>
音声合成部120は、時間情報付きラベルを入力とし、時間情報付きラベルから音声合成した場合に得られる音声合成用音響特徴量を予測し(S120)、予測値を出力する。
例えば、音声合成部120は、音声合成用音響特徴量予測部121を含み、以下のように処理を行う。
<音声合成用音響特徴量予測部121>
音声合成用音響特徴量予測部121は、時間情報付きラベルを入力とし、音声合成用音響モデルを用いて、時間情報付きラベルに対応する音声合成用音響特徴量を予測し(S120)、予測値を取得し、出力する。なお、音声合成用音響モデルは、時間情報付きラベルを入力とし、音声合成用音響特徴量を出力とするモデルである。例えば、音声合成用音響モデルは、以下のように学習したものを利用する。
音声データから音声合成用音響特徴量(以下、学習用音声合成用音響特徴量)を計算し、音声データの音素境界を明確に付与した時間情報が付いている音素ラベル(以下、学習用音声合成用時間情報付きラベルともいう)を用意する。なお、この時間情報が付いている音素ラベルは、既存のデータベース等を利用してもよいし、人手により用意してもよい。音声合成用音響モデルは、例えば、学習用音声合成用音響特徴量と、学習用時間情報付きラベルとを用いて、既存の音響モデル学習方法により、学習される。
例えば、音声合成用音響特徴量予測部121は、平均的な話者性を持つ音声(平均声)の音声合成用音響特徴量を予測する。音声合成用音響モデルがDNNやHMMの場合、音声合成用音響特徴量にはメルケプストラムや基本周波数(F0)などが用いられるが、有声無声判定フラグや声の擦れ具合の指標となる非周期性指標などが用いられてもよい。
後段の差異計算部132にて、平均声と学習用の音声データとの差異を計算し、差異の大きさに基づきラベリング誤りを検知するため、性別依存の平均声を合成できるような音声合成用音響モデルであることが望ましい。
<ラべリング誤り検知部130>
ラべリング誤り検知部130は、学習用の音声データと予測値とを入力とし、音響的な差異からラべリング誤りを検知し(S130)、検知結果を出力する。
例えば、ラべリング誤り検知部130は、音声合成用音響特徴量計算部131と、差異計算部132と、検知部133とを含む。差異計算部132は、F0誤差計算部132Aとスペクトル距離計算部132Bとを含み、以下のように処理を行う。
<音声合成用音響特徴量計算部131>
音声合成用音響特徴量計算部131は、学習用の音声データを入力とし、学習用の音声データから音声合成用音響特徴量を計算し(S131)、出力する。音声合成用音響特徴量としては、音声合成用音響特徴量予測部121で予測したものと同様の音響特徴量を用いればよい。
<差異計算部132>
差異計算部132は、音声合成用音響特徴量と予測値とを入力とし、音響的な差異を求め(S132)、出力する。例えば、音響的な差異として、F0誤差とスペクトル距離との少なくとも何れかを利用する。例えば、差異計算部132は、F0誤差計算部132Aと、スペクトル距離計算部132Bとを含み、以下の処理を行う。
(F0誤差計算部132A)
F0誤差計算部132Aは、音声合成用音響特徴量と予測値とを入力とし、音声合成用音響特徴量および予測値からそれぞれF0を計算するか、または、音声合成用音響特徴量および予測値に含まれるF0を取得する。F0誤差計算部132Aは、音声合成用音響特徴量のF0に対する予測値のF0の誤差(以下、F0誤差ともいう)を計算し(S132A)、出力する。この誤差は、音声合成用音響特徴量のF0と予測値のF0との差分に相当する。例えば、F0誤差はフレーム単位で求めておく。
(スペクトル距離計算部132B)
スペクトル距離計算部132Bは、音声合成用音響特徴量と予測値とを入力とし、音声合成用音響特徴量および予測値からスペクトル距離を計算し(S132B)、出力する。スペクトル距離は、音声合成用音響特徴量と予測値との差分に相当する。例えば、スペクトル距離はフレーム単位で求めておく。
<検知部133>
検知部133は、音響的な差異を入力とし、差異と所定の閾値との大小関係に基づき、ラべリング誤りを検知し(S133)、検知結果を検出装置の出力値として出力する。時間情報付きラベルの時間情報が間違っていると、学習用の音声データの音声合成用音響特徴量とは異なる音素に対応する音声を合成しようとするため、ラベリング誤りが存在している近辺のフレームで音響的な差異(例えばF0誤差やスペクトル距離)が大きくなることが分かっている。この事象を利用し、本実施形態はラベリング誤りを検知する。
図3は音響的な差異としてF0誤差を利用した場合の検知部133のフローチャートの例を示し、図4は音響的な差異としてスペクトル距離を利用した場合の検知部133のフローチャートの例を示す。このような構成により、ラベリング誤りに起因する韻律面の判定を行う。
音響的な差異としてF0誤差を利用した場合、検知部133は、フレーム単位のF0誤差を入力とし、まず、フレーム単位のF0誤差が閾値x以上のフレームがあるかを判定する(図3のS133A-1)。フレームがない場合、ラベリング誤りが存在していないと判定し、対応する音声データを人手で時間情報を付加する必要がない時間情報付きラベルとする(S133A-4)。
フレームがあった場合、さらに、閾値x以上のフレームのフレーム数がy以上であるかを判定する(S133A-2)。フレーム数がy未満の場合、ラベリング誤りが起きていてもその影響は小さいとみなし、対応する音声データを人手で時間情報を付加する必要がない時間情報付きラベルとする(S133A-4)。フレーム数がy以上の場合、人手で時間情報を付加する必要がある時間情報付きラベルとする(S133A-3)。
音響的な差異としてスペクトル距離を利用した場合、検知部133は、フレーム単位のスペクトル距離を入力とし、まず、フレーム単位のスペクトル距離が閾値a以上のフレームがあるかを判定する(図4のS133B-1)。フレームがない場合、ラベリング誤りが存在していないと判定し、対応する音声データを人手で時間情報を付加する必要がない時間情報付きラベルとする(S133B-4)。
フレームがあった場合、さらに、閾値a以上のフレームのフレーム数がb以上であるかを判定する(S133B-2)。フレーム数がb未満の場合、ラベリング誤りが起きていてもその影響は小さいとみなし、対応する音声データを人手で時間情報を付加する必要がない時間情報付きラベルとする(S133B-4)。フレーム数がb以上の場合、人手で時間情報を付加する必要がある時間情報付きラベルとする(S133B-3)。
検知部133は、音響的な差異としてF0誤差とスペクトル距離との何れか一方を利用してもよいし、両方を利用してor条件もしくはand条件を取り、最終的に人手で時間情報を付加する必要がある時間情報付きラベルを検知することができる。
また、図3について、F0誤差の平均、分散を算出し、平均+α×標準偏差以上のものとして閾値xを定めることで、統計的に明らかに誤差が大きいフレームを検知できる。図4についても同様にスペクトル距離の平均、分散を算出し、閾値yを定めることができる。
また、閾値y,bは、音素の境界を誤ることで、音声合成に致命的な影響を与えるとわかっているときのフレーム数を定める。
<効果>
このような構成により、音素自動ラベリングが誤っているものを自動で検知することができる。
<変形例>
本実施形態では、音声合成用の音響モデルを学習する際に用いる時間情報付きラベルのラべリング誤りを検知するものとして記載しているが、他の用途のラべリング誤りを検知してもよい。例えば、音声認識用の音響モデルを学習する際に用いる時間情報付きラベルのラべリング誤りも同様に検知することができる。
<第二実施形態>
第一実施形態と異なる部分を中心に説明する。
図5は本実施形態に係る検知装置の機能ブロック図を、図6はその処理フローを示す。
ラべリング誤り検知部130の構成が第一実施形態とは異なる。
ラべリング誤り検知部130は、音声合成用音響特徴量計算部131と、差異計算部132と、検知部133とを含み、さらに、正規化部234を含む。
第一実施形態では、ラベリング誤り検知部130において、ラベリングの対象となる話者によって、音声合成部120から得られる平均声と似ている話者とそうでない話者がいるため、閾値a, xを話者ごとに定めなければならないという課題がある。本構成では、事前に話者ごとに、音声合成用の音響特徴量を正規化しておくことで、話者ごとに閾値a, xを定める必要がなくなる。
自動ラベリング部110と音声合成部120の処理については、第一実施形態と同じであるため、ラベリング誤り検知部130についてのみ言及する。
<正規化部234>
ラベリング誤り検知部130の正規化部234は、予測値と音声合成用音響特徴量とを入力とし、予測値を正規化し、音声合成用音響特徴量を正規化し(S234)、正規化した予測値と音声合成用音響特徴量とを出力する。
例えば、正規化部234は、話者ごとに入力の平均・分散を求めて、ケプストラム平均分散正規化法により正規化する。例えば、検知装置に入力される音声データの処理単位を同一話者が発した音声データ毎とし、正規化すればよい。
さらに、差異計算部132では、正規化した音声合成用音響特徴量と正規化した予測値との音響的な差異を求める。例えば、正規化した予測値と音声合成用音響特徴量をそれぞれF0誤差計算部132A、スペクトル距離計算部132Bに入力することで、話者間で平均・分散が正規化されているため、判定のための閾値a,xを話者ごとに求めなくてもよくなる。
<第三実施形態>
第一実施形態と異なる部分を中心に説明する。
図7は本実施形態に係る検知装置の機能ブロック図を、図8はその処理フローを示す。
ラべリング誤り検知部130の構成が第一実施形態とは異なる。
ラべリング誤り検知部130は、音声合成用音響特徴量計算部131と、差異計算部132と、検知部133とを含み、さらに、移動平均算出部335を含む。
このような構成により、ラベリング誤り検知部130において、より検知精度を上げることができる。第一実施形態では、F0誤差では閾値xを超える箇所が閾値yフレーム以上、スペクトル距離では閾値aを超える箇所がbフレーム以上という基準で判定をしていた。しかし実際にはラベリング誤りが大きくても、F0誤差やスペクトル距離が各フレームで非定常に大きく振れ、連続して閾値x, aを超えないことがある。このケースでは、ラベリング誤りを検知できない。本実施形態では、非定常に振れるF0誤差やスペクトル距離の軌跡を滑らかにすることで、閾値を用いた検知にかかりやすくする。
自動ラベリング部110と音声合成部120の処理については、第一実施形態と同じであるため、ラベリング誤り検知部130についてのみ言及する。
<移動平均算出部335>
ラベリング誤り検知部130の移動平均算出部335は、差異計算部132の出力値である差異を入力とし、移動平均を算出し(S335)、出力する。差異は、例えば、F0誤差とスペクトル距離との少なくとも何れかであり、移動平均は、軌跡が滑らかな平均化F0誤差、平均化スペクトル距離に相当する。
検知部133は、音響的な差異の移動平均を入力とし、差異の移動平均と所定の閾値との大小関係に基づき、ラべリング誤りを検知し(S133)、検知結果を検出装置の出力値として出力する。
第一実施形態とは異なり、滑らかに平均化したF0誤差とスペクトル距離との少なくとも何れかを使うことで、閾値を連続して超える箇所が多くなり、ラベリング誤りを検知しやすくなる。
<変形例>
本実施形態は、第二実施形態と組み合わせることもでき、検知のための特徴量である、スペクトル距離やF0誤差の連続性を向上させつつ、話者ごとに閾値を設けなくてよい検知装置を構築可能である。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
上述の各種の処理は、図9に示すコンピュータの記録部2020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1. 音声データからラべリング用音響特徴量を計算するラべリング用音響特徴量計算部と、
    時間情報が付いていないラベルとラべリング用音響特徴量とを入力とし、時間情報が付いているラベルを出力とするラべリング用音響モデルを用いて、前記音声データに対応する時間情報が付いていないラベルと、前記ラべリング用音響特徴量とから、前記音声データに対応する、時間情報が付いているラベルを取得する時間情報取得部と、
    時間情報が付いているラベルを入力とし、音響特徴量を出力する音響モデルを用いて、前記時間情報付きラベルに対応する音響特徴量を予測し、予測値を取得する音響特徴量予測部と、
    前記音声データから音響特徴量を計算する音響特徴量計算部と、
    前記音響特徴量と前記予測値との音響的な差異を求める差異計算部と、
    前記差異と所定の閾値との大小関係に基づき、ラべリング誤りを検知する検知部とを含む、
    検知装置。
  2. 請求項1の検知装置であって、
    前記差異は、基本周波数の差とスペクトル距離との少なくとも何れかからなる、
    検知装置。
  3. 請求項1または請求項2の検知装置であって、
    前記予測値を正規化し、前記音響特徴量を正規化する正規化部を含み、
    前記差異計算部は、正規化した前記音響特徴量と正規化した前記予測値との音響的な差異を求める、
    検知装置。
  4. 請求項1から請求項3の何れかの検知装置であって、
    前記差異の移動平均を算出する移動平均算出部を含み、
    前記検知部は、前記差異の移動平均と所定の閾値との大小関係に基づき、ラべリング誤りを検知する、
    検知装置。
  5. 音声データからラべリング用音響特徴量を計算するラべリング用音響特徴量計算ステップと、
    時間情報が付いていないラベルとラべリング用音響特徴量とを入力とし、時間情報が付いているラベルを出力とするラべリング用音響モデルを用いて、前記音声データに対応する時間情報が付いていないラベルと、前記ラべリング用音響特徴量とから、前記音声データに対応する、時間情報が付いているラベルを取得する時間情報取得ステップと、
    時間情報が付いているラベルを入力とし、音響特徴量を出力する音響モデルを用いて、前記時間情報付きラベルに対応する音響特徴量を予測し、予測値を取得する音響特徴量予測ステップと、
    前記音声データから音響特徴量を計算する音響特徴量計算ステップと、
    前記音響特徴量と前記予測値との音響的な差異を求める差異計算ステップと、
    前記差異と所定の閾値との大小関係に基づき、ラべリング誤りを検知する検知ステップとを含む、
    検知方法。
  6. 請求項5の検知方法であって、
    前記予測値を正規化し、前記音響特徴量を正規化する正規化ステップを含み、
    前記差異計算ステップは、正規化した前記音響特徴量と正規化した前記予測値との音響的な差異を求める、
    検知方法。
  7. 請求項5または請求項6の検知方法であって、
    前記差異の移動平均を算出する移動平均算出ステップを含み、
    前記検知ステップは、前記差異の移動平均と所定の閾値との大小関係に基づき、ラべリング誤りを検知する、
    検知方法。
  8. 請求項1から請求項4の何れかの検知装置としてコンピュータを機能させるためのプログラム。
JP2021560780A 2019-11-25 2019-11-25 検知装置、その方法、およびプログラム Active JP7259988B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/046016 WO2021106047A1 (ja) 2019-11-25 2019-11-25 検知装置、その方法、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2021106047A1 JPWO2021106047A1 (ja) 2021-06-03
JP7259988B2 true JP7259988B2 (ja) 2023-04-18

Family

ID=76130093

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021560780A Active JP7259988B2 (ja) 2019-11-25 2019-11-25 検知装置、その方法、およびプログラム

Country Status (3)

Country Link
US (1) US20220406289A1 (ja)
JP (1) JP7259988B2 (ja)
WO (1) WO2021106047A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005070604A (ja) 2003-08-27 2005-03-17 Kenwood Corp 音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005070604A (ja) 2003-08-27 2005-03-17 Kenwood Corp 音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラム

Also Published As

Publication number Publication date
WO2021106047A1 (ja) 2021-06-03
JPWO2021106047A1 (ja) 2021-06-03
US20220406289A1 (en) 2022-12-22

Similar Documents

Publication Publication Date Title
US11664020B2 (en) Speech recognition method and apparatus
US7693713B2 (en) Speech models generated using competitive training, asymmetric training, and data boosting
US9697827B1 (en) Error reduction in speech processing
US8990086B2 (en) Recognition confidence measuring by lexical distance between candidates
US20110218805A1 (en) Spoken term detection apparatus, method, program, and storage medium
JP2010170137A (ja) 音声理解装置
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
WO2018192186A1 (zh) 语音识别方法及装置
EP1385147A2 (en) Method of speech recognition using time-dependent interpolation and hidden dynamic value classes
US11250860B2 (en) Speaker recognition based on signal segments weighted by quality
JP4796460B2 (ja) 音声認識装置及び音声認識プログラム
US8639510B1 (en) Acoustic scoring unit implemented on a single FPGA or ASIC
JP4705557B2 (ja) 音響モデル生成装置、方法、プログラム及びその記録媒体
JP7259988B2 (ja) 検知装置、その方法、およびプログラム
JP6716513B2 (ja) 音声区間検出装置、その方法、及びプログラム
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
BR112015017106B1 (pt) Método implementado por computador para detectar palavras-chave predeterminadas
JP2010054588A (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP2012032538A (ja) 音声認識方法、音声認識装置及び音声認識プログラム
Siniscalchi et al. An attribute detection based approach to automatic speech processing
JP5308102B2 (ja) 誤り数別識別スコア・事後確率計算方法と、その方法を用いた誤り数重み付き識別学習装置とその方法と、その装置を用いた音声認識装置と、プログラムと記録媒体
JP5369079B2 (ja) 音響モデル作成方法とその装置とプログラム
JP7216348B2 (ja) 音声処理装置、音声処理方法、および音声処理プログラム
JP4801107B2 (ja) 音声認識装置、方法、プログラム及びその記録媒体
JP4801108B2 (ja) 音声認識装置、方法、プログラム及びその記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230307

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230320

R150 Certificate of patent or registration of utility model

Ref document number: 7259988

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150