JP2011095680A - Acoustic model adaptation device, acoustic model adaptation method and program for acoustic model adaptation - Google Patents
Acoustic model adaptation device, acoustic model adaptation method and program for acoustic model adaptation Download PDFInfo
- Publication number
- JP2011095680A JP2011095680A JP2009252247A JP2009252247A JP2011095680A JP 2011095680 A JP2011095680 A JP 2011095680A JP 2009252247 A JP2009252247 A JP 2009252247A JP 2009252247 A JP2009252247 A JP 2009252247A JP 2011095680 A JP2011095680 A JP 2011095680A
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- label
- unit
- acoustic model
- model adaptation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、音響モデル適応装置、音響モデル適応方法および音響モデル適応用プログラムに関し、特に、限られた時間で効率よく高精度な音声認識結果を得るための音響モデル適応装置、音響モデル適応方法および音響モデル適応用プログラムに関する。 The present invention relates to an acoustic model adaptation device, an acoustic model adaptation method, and an acoustic model adaptation program, and in particular, an acoustic model adaptation device, an acoustic model adaptation method, and an acoustic model adaptation method for obtaining a highly accurate speech recognition result efficiently in a limited time. The present invention relates to an acoustic model adaptation program.
一般に、音声認識では、音素の特徴を表現するための音響モデルと、音素の並び方の制約を表すための言語モデルとが使用される。そして、音響モデルを話者や環境に適応させる『音響モデルの適応』が行われることがある。 Generally, in speech recognition, an acoustic model for expressing phoneme features and a language model for expressing restrictions on how phonemes are arranged are used. Then, “acoustic model adaptation” may be performed to adapt the acoustic model to the speaker and the environment.
音響モデル適応装置の一例が、特許文献1に記載されている。特許文献1に記載されているシステムは、ユーザに複数の音声認識結果の候補を提示し、ユーザに候補から正解を選択させる。その結果、誤った音声認識結果をユーザが効率よく修正できる。すなわち、特許文献1に記載されているシステムは、効率よく修正された認識結果を用いて音響モデルを教師ありで適応を行うことが可能なシステムである。
An example of an acoustic model adaptation apparatus is described in
図8は、特許文献1に開示されている音声認識システムの構成を示すブロック図である。図8を参照して、認識誤り単語を訂正するための構成および動作を説明する。図8に示す音声認識システム400は、音声入力手段403、音声認識手段405、辞書を記憶するデータ記憶手段412、単語訂正手段409および認識結果表示手段407を備えている。
FIG. 8 is a block diagram showing a configuration of a voice recognition system disclosed in
音声認識手段405は、連続音判定手段413と音声認識実行手段411とを含む。
The voice recognition unit 405 includes a continuous
単語訂正手段409において、競合単語表示指令手段415は、競合候補の中から最も競合確率の高い単語の競合確率に近い競合確率を持つ1以上の競合単語を選び、選んだ競合単語を、対応する最も競合確率の高い単語に隣接させて認識結果表示手段407の画面上に表示する。競合単語選択手段417は、ユーザによるマニュアル操作に応じて、画面上に表示された1以上の競合単語から適切な訂正単語を選択する。単語置き換え指令手段419は、競合単語選択手段417によって選択された訂正単語を、認識された最も競合確率の高い単語と置き換えることを、音声認識手段405に指令する。
In the word correction unit 409, the competitive word
特許文献1に記載されている音響モデル適応装置では、効率よくユーザが認識誤り単語を訂正でき、その結果、音響モデル適応装置は、効率よく音響モデルの適応を行うことができる。
In the acoustic model adaptation device described in
しかし、特許文献1に記載されている音響モデル適応装置には、限られた時間で最大限の音響モデル適応効果が得られない可能性がある。その理由は、音響モデルを適応するにあたってのターゲット(発話者や発話環境など)に対して、ユーザがどの程度訂正すればよいかが考慮されていないためである。換言すれば、どのような教師を与えればよいかが考慮されていないためである。
However, the acoustic model adaptation apparatus described in
そこで、本発明、限られた時間で効率よく高精度な音響モデル適応を行うことができる音響モデル適応装置を提供することを目的とする。 Therefore, an object of the present invention is to provide an acoustic model adaptation apparatus that can perform highly accurate acoustic model adaptation efficiently in a limited time.
本発明による音響モデル適応装置は、音声信号を分割する分割部と、分割部によって分割された音声信号を音響的な違いに応じてクラスタリングするクラスタリング部と、クラスタリング部が作成したクラスタに含まれる音声信号について音響的な信頼度を計算する信頼度計算部と、クラスタリング部が作成したクラスタに含まれる音声信号を認識することによって推定ラベルを得るラベル推定部と、クラスタリング部が作成したクラスタから、信頼度計算部が計算した信頼度にもとづいて選択したクラスタである第1のクラスタに含まれる音声信号とラベル推定部が得た推定ラベルとをユーザに提示する提示部と、提示部によって提示された音声信号に対する教師ラベルを得る教師ラベル取得部と、所定の条件が成立すると、提示部に、第1のクラスタに含まれる音声信号と推定ラベルとをユーザに提示する第1の状態から、第1のクラスタとは異なる第2のクラスタに含まれる音声信号と推定ラベルとをユーザに提示する第2の状態に遷移することを指示する遷移指示部と、教師ラベル取得部が取得した教師ラベルを用いて音響モデルをクラスタ内の音声信号に適応させる音響モデル適応部とを備えたことを特徴とする。 An acoustic model adaptation apparatus according to the present invention includes a dividing unit that divides a speech signal, a clustering unit that clusters the speech signals divided by the dividing unit according to an acoustic difference, and a speech included in a cluster created by the clustering unit. A reliability calculation unit that calculates the acoustic reliability of the signal, a label estimation unit that obtains an estimated label by recognizing a speech signal included in the cluster created by the clustering unit, and a cluster created by the clustering unit A presentation unit for presenting the user with the speech signal included in the first cluster, which is a cluster selected based on the reliability calculated by the degree calculation unit, and the estimated label obtained by the label estimation unit, and presented by the presentation unit A teacher label acquisition unit that obtains a teacher label for an audio signal, and when a predetermined condition is satisfied, From the first state in which the speech signal and the estimated label included in the cluster are presented to the user, the second signal that presents the speech signal and the estimated label included in the second cluster different from the first cluster to the user. A transition instructing unit for instructing transition to a state, and an acoustic model adaptation unit for adapting an acoustic model to an audio signal in a cluster using the teacher label acquired by the teacher label acquisition unit.
本発明による音響モデル適応方法は、音声信号を分割し、分割された音声信号を音響的な違いに応じてクラスタリングし、クラスタリングによって作成されたクラスタに含まれる音声信号について音響的な信頼度を計算し、クラスタリングによって作成されたクラスタに含まれる音声信号を認識することによって推定ラベルを得て、クラスタリングによって作成されたクラスタから、信頼度にもとづいて選択したクラスタである第1のクラスタに含まれる音声信号と、推定ラベルとをユーザに提示し、ユーザに提示された音声信号に対する教師ラベルを得て、所定の条件が成立すると、第1のクラスタに含まれる音声信号と推定ラベルとをユーザに提示する第1の状態から、第1のクラスタとは異なる第2のクラスタに含まれる音声信号と推定ラベルとをユーザに提示する第2の状態に遷移させ、得られた教師ラベルを用いて音響モデルをクラスタ内の音声信号に適応させることを特徴とする。 The acoustic model adaptation method according to the present invention divides an audio signal, clusters the divided audio signals according to acoustic differences, and calculates an acoustic reliability of the audio signals included in the cluster created by clustering. Then, an estimated label is obtained by recognizing a speech signal included in the cluster created by clustering, and the speech included in the first cluster that is a cluster selected based on the reliability from the cluster created by clustering. The signal and the estimated label are presented to the user, the teacher label for the speech signal presented to the user is obtained, and when a predetermined condition is satisfied, the speech signal and the estimated label included in the first cluster are presented to the user From the first state, the audio signal included in the second cluster different from the first cluster is estimated. Characterized in that to adapt the acoustic model to the speech signals in the cluster using to transition to a second state which presents a label to the user, the training labels obtained.
本発明による音響モデル適応プログラムは、コンピュータに、音声信号を分割する分割処理と、分割処理で分割された音声信号を音響的な違いに応じてクラスタリングするクラスタリング処理と、クラスタリング処理で作成されたクラスタに含まれる音声信号について音響的な信頼度を計算する信頼度計算処理と、クラスタリング処理で作成されたクラスタに含まれる音声信号を認識することによって推定ラベルを得るラベル推定処理と、クラスタリング処理で作成されたクラスタから、信頼度計算処理で計算された信頼度にもとづいて選択したクラスタである第1のクラスタに含まれる音声信号とラベル推定部が得た推定ラベルとをユーザに提示する提示処理と、提示処理で提示された音声信号に対する教師ラベルを得る教師ラベル取得処理と、所定の条件が成立すると、第1のクラスタに含まれる音声信号と推定ラベルとをユーザに提示する第1の状態から、第1のクラスタとは異なる第2のクラスタに含まれる音声信号と推定ラベルとをユーザに提示する第2の状態に遷移することを指示する遷移指示処理と、教師ラベル取得処理で取得された教師ラベルを用いて音響モデルをクラスタ内の音声信号に適応させる音響モデル適応処理とを実行させることを特徴とする。 An acoustic model adaptation program according to the present invention includes: a dividing process for dividing an audio signal into a computer; a clustering process for clustering audio signals divided by the dividing process according to an acoustic difference; and a cluster created by the clustering process. A reliability calculation process that calculates the acoustic reliability of the audio signal included in the voice signal, a label estimation process that obtains an estimated label by recognizing the audio signal included in the cluster created by the clustering process, and a clustering process A presenting process for presenting a speech signal included in the first cluster, which is a cluster selected based on the reliability calculated in the reliability calculation process, and the estimated label obtained by the label estimation unit to the user Teacher label acquisition process for obtaining a teacher label for the audio signal presented in the presentation process And when the predetermined condition is satisfied, from the first state in which the audio signal and the estimated label included in the first cluster are presented to the user, the audio signal included in the second cluster different from the first cluster; An acoustic model for adapting an acoustic model to a speech signal in a cluster using a transition instruction process for instructing a transition to a second state in which the estimated label is presented to the user and a teacher label acquired in the teacher label acquisition process And an adaptive process.
本発明によれば、ユーザが1つのクラスタに偏って多数の教師データを付与する可能性が低減するので、比較的少ない教師データを付与するだけで、より多くの音響モデルの適応処理を行うことが可能になる。その結果、限られた時間で効率よく高精度な音響モデル適応を行うことができる音響モデル適応装置を実現することができる。 According to the present invention, since the possibility that a user will give a large number of teacher data biased to one cluster is reduced, it is possible to perform adaptive processing of a larger number of acoustic models simply by providing relatively less teacher data. Is possible. As a result, it is possible to realize an acoustic model adaptation apparatus that can efficiently and accurately perform acoustic model adaptation in a limited time.
以下、図面を参照して本発明の実施形態を説明する。図1は、本実施形態の音響モデル適応装置の構成例を示すブロック図である。図1に示す音響モデル適応装置は、入力音声ストリームを音声データに分割する分割部1と、分割された音声データを発話者や発話環境などの音響的な違いに応じてクラスタリングする音声データクラスタリング部2とを備えている。音声データクラスタリング部2は、作成したクラスタ1011〜101nをクラスタ記憶部101に格納する。
Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram illustrating a configuration example of the acoustic model adaptation apparatus of the present embodiment. The acoustic model adaptation apparatus shown in FIG. 1 includes a dividing
また、音響モデル適応装置は、音響モデル記憶部102に格納されている音響モデルを用いてクラスタ1011〜101nに含まれる音声データについて音響的な信頼度を計算する信頼度計算部3と、音響モデル記憶部102に格納されている音響モデルを用いてクラスタ101−1〜nに含まれる音声データを認識することによって推定ラベルを得るラベル推定部4と、ラベル推定部4が得た推定ラベルを一時記憶する推定ラベル記憶部103とを備えている。
In addition, the acoustic model adaptation apparatus includes a reliability calculation unit 3 that calculates an acoustic reliability of the audio data included in the
また、音響モデル適応装置は、信頼度が高いクラスタ(第1のクラスタとする。)の音声データと推定ラベルとをユーザに提示する音声データ推定ラベル提示部5と、提示された音声データに対するユーザからの教師ラベルを得て教師ラベル記憶部104に格納する教師ラベル取得部6と、音声データ推定ラベル提示部5の処理対象を第1のクラスタとは異なる第2のクラスタに遷移させる遷移部7と、少なくともユーザからの教師ラベルを用いて音響モデルをクラスタ内の音声データに適応させて、適応モデル1051〜105nを得る音響モデル適応部8とを備えている。
The acoustic model adaptation apparatus also includes a speech data estimated
次に、本実施形態の音響モデル適応装置の動作を説明する。図2は、本実施形態の音響モデル適応装置における処理手順を示すフローチャートである。 Next, the operation of the acoustic model adaptation apparatus of this embodiment will be described. FIG. 2 is a flowchart showing a processing procedure in the acoustic model adaptation apparatus of the present embodiment.
入力音声ストリームをx(t)とする。ただし、tは時間のインデックスであり、一例として0〜Tとする。分割部1は、入力音声ストリームx(t)をm個の音声データx1(t1),x2(t2),・・・,xm(tm)に分割する(ステップS1)。ただし、t1,t2,・・・,tmは時間のインデックスであり、範囲はtの範囲0〜Tに含まれる。なお、分割の単位として、発話単位や決められた時間単位などの単位が考えられる。
Let the input audio stream be x (t). However, t is an index of time, and is 0 to T as an example. The dividing
音声データクラスタリング部2は、分割部1で分割された音声データを、発話者や発話環境など音響的な違いに応じてn個のクラスタ1011〜101nにクラスタリングする(ステップS2)。音声データクラスタリング部2は、例えば、音響的な特徴の近さを基準として自動的にクラスタリングを行う。具体的には、ある音声データの特徴(周波数スペクトラムやケプストラムなど)と他の音声データの特徴とが類似している場合に、それらの音声データを同じクラスタにクラスタリングする。また、音声データと発話者との対応が既知の場合には、その対応情報にもとづいてクラスタリングを行ってもよい。
Audio
信頼度計算部3は、各々のクラスタ1011〜101n毎に、クラスタに含まれる音声データについて音響的な信頼度を計算することによって各々のクラスタ1011〜101nの信頼度を算出する(ステップS3)。信頼度として、例えば、事後確率の平均値やSN比の平均値を使用する。
The reliability calculation unit 3 calculates the reliability of each of the
一例として、クラスタ1011に音声データx1(t1),x2(t2)が含まれている場合に、音声データx1(t1),x2(t2)の事後確率の平均値(信頼度)を以下のように計算できる。
As an example, the audio data x1 (t1) to the
事後確率の平均値=ave_{x1,x2}<ave_{t1}<P(k1|x1(t1))>,ave_{t2}<P(k2|x2(t2))>>・・・式(1) Average value of posterior probabilities = ave_ {x1, x2} <ave_ {t1} <P (k1 | x1 (t1))>, ave_ {t2} <P (k2 | x2 (t2)) >> Formula ( 1)
式(1)において、ave_{a}<b>はaに関するbの平均を計算する演算子であり、P(k1|x1(t1))は音声データx1(t1)が与えられたときの音響モデル中の確率分布k1に対する事後確率である。ただし、確率分布k1は時刻t1において事後確率が最も高い分布である。なお、事後確率やSN比以外の指標を信頼度として用いてもよい。 In Expression (1), ave_ {a} <b> is an operator for calculating the average of b with respect to a, and P (k1 | x1 (t1)) is an acoustic when audio data x1 (t1) is given. This is the posterior probability for the probability distribution k1 in the model. However, the probability distribution k1 is a distribution with the highest posterior probability at time t1. An index other than the posterior probability and the SN ratio may be used as the reliability.
ラベル推定部4は、各々のクラスタ1011〜101n毎に、クラスタに含まれる音声データを認識することによって推定ラベルを得る(ステップS4)。推定ラベルとして、例えば、音素ラベル(a,i,u,e,o,k,s,t,n,・・・)、音節ラベル(あ,い,う,え,お,か,さ,た,な,・・・)、または、音声か雑音かの違いを示すラベルなどを使用する。
The
音声データ推定ラベル提示部5は、信頼度が高い第1のクラスタに含まれる音声データと、第1のクラスタにおける推定ラベルとをユーザに提示する(ステップS5)。具体的には、音声データにもとづく音声をユーザに提示するとともに、ユーザに見せるために推定ラベルを表示装置(図示せず)に表示することが好ましい。
The voice data estimated
ユーザが、提示された音声データに対する教師ラベルを入力装置(図示せず)を介して入力すると、教師ラベル取得部6は、入力された教師ラベルを取得する。その結果、教師ラベル取得部6は、ユーザに提示した音声データに対してユーザから正しい教師ラベルを得る(ステップS6)。教師ラベルは、ラベル推定部4が扱った推定レベルと同じ種類のラベルであることが望ましいが、同じ種類のラベルに変換可能なものであってもよい。例えば、音節ラベルは音素ラベルに変換可能であるから、ラベル推定部4が推定ラベルとして音素ラベルを作成した場合でも、教師ラベルは音節ラベルであってもよい。
When the user inputs a teacher label for the presented voice data via an input device (not shown), the teacher label acquisition unit 6 acquires the input teacher label. As a result, the teacher label acquisition unit 6 obtains a correct teacher label from the user for the audio data presented to the user (step S6). The teacher label is desirably the same type of label as the estimation level handled by the
遷移部7は、所定の条件が成立すると、音声データ推定ラベル提示部5の処理対象を、相対的に信頼度が高い第1のクラスタとは異なる第2のクラスタに遷移させる(ステップS7)。すなわち、処理対象を第2のクラスタに変える指示を出力する。なお、第2のクラスタは、第1のクラスタの次に信頼度が高いクラスタである。
When the predetermined condition is satisfied, the
<信頼度が高いクラスタから遷移する場合>
信頼度が高いクラスタである場合は、推定ラベルが正しく推定されている可能性が高い。従って、少量の教師ラベルを与えたときに、推定ラベルとの一致度が高ければ、残りの音声データについては推定ラベルで代用可能である。
<Transition from a cluster with high reliability>
If the cluster is highly reliable, it is highly likely that the estimated label is correctly estimated. Therefore, when a small amount of teacher label is given and the degree of coincidence with the estimated label is high, the remaining speech data can be substituted with the estimated label.
以上のことから、閾値以上のラベルの一致度が確認できれば、このクラスタから他のクラスタに遷移可能であるといえる。従って、ステップS7の処理で、遷移部7は、ユーザに推定ラベルを提示する度に、その推定ラベルと教師ラベル取得部6が得た教師ラベルとの一致度(類似度)を計算し、一致度があらかじめ決められている閾値以上である場合には、未提示の推定ラベルがあるときでも、音声データ推定ラベル提示部5の処理対象を第2のクラスタに遷移させる。
From the above, it can be said that it is possible to transition from this cluster to another cluster if the degree of coincidence of labels equal to or greater than the threshold can be confirmed. Accordingly, in the process of step S7, each time the
<信頼度が低いクラスタから遷移する場合>
信頼度が低いクラスタである場合には、信頼度が高いクラスタに比べて、推定ラベルの推定誤りが多い。しかし、教師ラベルの音素(ラベル)網羅度が高ければ、全ての音声データに対して教師ラベルを与えなくても、音響モデルは適応可能である。
<Transition from a cluster with low reliability>
In the case of a cluster with low reliability, there are more estimation errors in the estimation label than in a cluster with high reliability. However, if the phoneme (label) coverage of the teacher label is high, the acoustic model can be applied without giving a teacher label to all speech data.
以上のことから、閾値以上の教師ラベルの音素(ラベル)網羅度が確認できれば、このクラスタから他のクラスタに遷移可能であるといえる。従って、ステップS7の処理で、遷移部7は、教師ラベル取得部6が得た教師ラベルの音素網羅度があらかじめ決められている閾値以上である場合には、未提示の推定ラベルがあるときでも、音声データ推定ラベル提示部5の処理対象を第2のクラスタに遷移させる。
From the above, it can be said that transition from this cluster to another cluster can be made if the phoneme (label) coverage of the teacher label equal to or greater than the threshold can be confirmed. Therefore, in the process of step S7, the
<ユーザが適応不要と判断したクラスタから遷移する場合>
ユーザが認識する必要がないと判断した(発話者の)クラスタについては、そのクラスタから他のクラスタに、教師ラベルを付与せずにユーザからの指示により遷移可能である。従って、ステップS7の処理で、遷移部7は、ユーザが、音声データ推定ラベル提示部5がそのときに扱っているクラスタについて教師ラベルの入力は不要である旨を入力装置を介して入力した場合には、未提示の推定ラベルがあるときでも、音声データ推定ラベル提示部5の処理対象を第2のクラスタに遷移させる。なお、ユーザは、例えば、音声データにもとづく音声と推定ラベルとが合致しているときに、認識する必要がないと判断する。
<When transitioning from a cluster that the user has determined to be unnecessary>
A cluster determined by the user that does not need to be recognized (speaker's) can be transitioned from the cluster to another cluster according to an instruction from the user without assigning a teacher label. Therefore, in the process of step S7, the
音声データ推定ラベル提示部5は、遷移部7から、処理対象を第2のクラスタに遷移させる指示を入力した場合には、第2のクラスタを処理対象として、ステップS5の処理を実行する。以後、音声データ推定ラベル提示部5、教師ラベル取得部6および遷移部7は、ステップS5〜S7の処理を繰り返し、全てのクラスタ1011〜101nについてステップS5,S6の処理が実行されると、遷移部7は、次のクラスタに遷移する必要はないと判断する。
When the voice data estimation
なお、上記の例では、クラスタ1011〜101nのうち相対的に信頼度が高いクラスタ(例えば、最も信頼度が高いクラスタ)を第1のクラスタとし、優先度が、取り扱ったクラスタの次に高いクラスタを順次対象にしてステップS5,S6の処理が実行されるようにしたが、クラスタ1011〜101nのうち相対的に信頼度が低いクラスタ(例えば、最も信頼度が低いクラスタ)を第1のクラスタとし、優先度が、取り扱ったクラスタの次に低いクラスタを対象にして順次ステップS5,S6の処理が実行されるようにしてもよい。
In the above example, the cluster having the relatively high reliability (for example, the cluster having the highest reliability) among the
音響モデル適応部8は、教師ラベル取得部6によって取得された教師ラベル104を用いて、クラスタ1011〜101nの各々に含まれる音声データに、音響モデル102を適応させることによって、適応モデル1051〜105nを得る(ステップS8)。適応モデル1051〜105nは、適応モデル記憶部105に記憶される。
The acoustic
なお、音声データと教師ラベルとを用いて音響モデルを適応させるアルゴリズムとして、MLLR(Maximum Likelihood Linear Regression)法、木構造適応法などを用いればよい。また、本実施形態では、全てのクラスタ1011〜101nの教師ラベルを取得した後に音響モデル適応を行うようにしたが、あるクラスタの教師ラベルが取得され次第、音響モデル適応を行うようにしてもよい。
As an algorithm for adapting an acoustic model using speech data and a teacher label, an MLLR (Maximum Likelihood Linear Regression) method, a tree structure adaptation method, or the like may be used. In this embodiment, the acoustic model adaptation is performed after acquiring the teacher labels of all the
本実施形態では、分割した音声データを音響的な違いに応じてクラスタリングし、あるクラスタに対して必要な教師ラベルが取得されたと判断された時点で処理対象のクラスタを変えるので、限られた時間で効率よく高精度な音声認識結果を得るための音響モデル適応が可能になる。 In this embodiment, the divided speech data is clustered according to the acoustic difference, and the processing target cluster is changed when it is determined that a necessary teacher label is acquired for a certain cluster. Therefore, it is possible to adapt the acoustic model to obtain a highly accurate speech recognition result efficiently.
上記の実施形態の音響モデル適応装置を、音声認識システムに適用することができる。図3は、上記の実施形態の音響モデル適応装置を含む音声認識システムの構成例を示すブロック図である。図3に示すように、音声認識システム200は、上記の実施形態の音響モデル適応装置10と、音声認識装置20とを含む。音声認識装置20は、例えば、入力された音声データの特徴を検出し、音響モデル適応装置10における適応モデル1051〜105nから、音声データの特徴に合った適応モデルを選択し、選択した適応モデルを用いて音声認識処理を実行する。
The acoustic model adaptation apparatus of the above embodiment can be applied to a speech recognition system. FIG. 3 is a block diagram illustrating a configuration example of a speech recognition system including the acoustic model adaptation device according to the above-described embodiment. As shown in FIG. 3, the
また、上記の実施形態の音響モデル適応装置を、音声検出システムに適用することができる。図4は、上記の実施形態の音響モデル適応装置を含む音声検出システムの構成例を示すブロック図である。図4に示すように、音声検出システム300は、上記の実施形態の音響モデル適応装置10と、音声検出装置30とを含む。音声検出装置30は、例えば、入力された音声データの特徴を検出し、音響モデル適応装置10における適応モデル1051〜105nから、音声データの特徴に合った適応モデルを選択し、選択した適応モデルを用いて、音声データから特定の音声部分を抽出したり話者認識を行う音声検出処理を実行する。
Moreover, the acoustic model adaptation apparatus of said embodiment is applicable to an audio | voice detection system. FIG. 4 is a block diagram illustrating a configuration example of a voice detection system including the acoustic model adaptation apparatus according to the above embodiment. As shown in FIG. 4, the
図5は、本発明による音響モデル適応装置の主要部を示すブロック図である。図5に示すように、音響モデル適応装置は、音声信号を分割する分割部11(図1に示す分割部1に相当)と、分割部11によって分割された音声信号を音響的な違いに応じてクラスタリングするクラスタリング部12(図1に示す音声データクラスタリング部2に相当)と、クラスタリング部12が作成したクラスタに含まれる音声信号について音響的な信頼度を計算する信頼度計算部13(図1に示す信頼度計算部3に相当)と、クラスタリング部12が作成したクラスタに含まれる音声信号を認識することによって推定ラベルを得るラベル推定部14(図1に示すラベル推定部4に相当)と、クラスタリング部12が作成したクラスタから、信頼度計算部13が計算した信頼度にもとづいて選択したクラスタである第1のクラスタに含まれる音声信号と、ラベル推定部14が得た推定ラベルとをユーザに提示する提示部15(図1に示す音声データ推定ラベル提示部5に相当)と、提示部15によって提示された音声信号に対する教師ラベルを得る教師ラベル取得部16(図1に示す教師ラベル取得部6に相当)と、所定の条件が成立すると、提示部15に、第1のクラスタに含まれる音声信号と推定ラベルとをユーザに提示する第1の状態から、第1のクラスタとは異なる第2のクラスタに含まれる音声信号と推定ラベルとをユーザに提示する第2の状態に遷移することを指示する遷移指示部17(図1に示す遷移部7に相当)と、教師ラベル取得部16が取得した教師ラベルを用いて音響モデルをクラスタ内の音声信号に適応させる音響モデル適応部18(図1に示す音響モデル適応部8に相当)とを備えている。
FIG. 5 is a block diagram showing a main part of the acoustic model adaptation apparatus according to the present invention. As shown in FIG. 5, the acoustic model adaptation apparatus responds to an acoustic difference between a dividing unit 11 (corresponding to the
なお、音響モデル適応装置を、ソフトウェアで実現することもできる。すなわち、音響モデル適応装置がCPUを内蔵し、CPUが、プログラムに従って、図5に示された分割部11、クラスタリング部12、信頼度計算部13、ラベル推定部14、提示部15、教師ラベル取得部16、遷移指示部17および音響モデル適応部18の機能を実現するように構成されていてもよい。
The acoustic model adaptation device can also be realized by software. That is, the acoustic model adaptation apparatus has a built-in CPU, and the CPU follows the program according to the division unit 11,
また、図6に示すように、遷移指示部17は、提示部15によって提示された推定ラベルと教師ラベル取得部16が取得した教師ラベルとの一致度を計算する一致度計算部17Aと、一致度計算部17Aが計算した一致度が所定値以上である場合に、所定の条件が成立したとして、第2の状態に遷移することを指示する指示部17Bとを含むように構成されていてもよい。そのように構成されている場合には、全ての推定ラベルを提示する前に、クラスタについての処理を終了させることができ、音響モデル適応に要する時間を短縮することができる。
Further, as illustrated in FIG. 6, the
また、図7に示すように、遷移指示部17は、教師ラベル取得部16が取得した教師ラベルの音素網羅度を計算する音素網羅度計算部17Cと、音素網羅度計算部17Cが計算した音素網羅度が所定値以上である場合に、所定の条件が成立したとして、第2の状態に遷移することを指示する指示部17Dとを含むように構成されていてもよい。そのように構成されている場合には、全ての推定ラベルを提示する前に、クラスタについての処理を終了させることができ、音響モデル適応に要する時間を短縮することができる。
As shown in FIG. 7, the
また、遷移指示部17は、ユーザから入力された指示に応じて、第2の状態に遷移することを指示するように構成されていてもよい。そのように構成されている場合には、ユーザの意思に応じて第1の状態から第2の状態に遷移することができ、音響モデル適応に要する時間をさらに短縮することができる。
Moreover, the transition instruction |
また、遷移指示部17は、第1のクラスタの次に信頼度が高いクラスタを第2のクラスタとするように構成されていてもよい。そのように構成されている場合には、提示部15および遷移指示部17の処理が簡便になる。
Moreover, the transition instruction |
また、遷移指示部17は、第1のクラスタの次に信頼度が低いクラスタを第2のクラスタとするように構成されていてもよい。そのように構成されている場合には、提示部15および遷移指示部17の処理が簡便になる。
Moreover, the transition instruction |
本発明を、音声認識システムや音声検出システムなどに搭載可能な音響モデル適応装置に適用できる。 The present invention can be applied to an acoustic model adaptation apparatus that can be mounted on a speech recognition system, a speech detection system, or the like.
1 分割部
2 音声データクラスタリング部
3 信頼度計算部
4 ラベル推定部
5 音声データ推定ラベル提示部
6 教師ラベル取得部
7 遷移部
8 音響モデル適応部
10 音響モデル適応装置
11 分割部
12 クラスタリング部
13 信頼度計算部
14 ラベル推定部
15 提示部
16 教師ラベル取得部
17 遷移指示部
17A 一致度計算部
17B 指示部
17C 音素網羅度計算部
17D 指示部
18 音響モデル適応部
20 音声認識装置
30 音声検出装置
101 クラスタ記憶部
1011〜101n クラスタ
102 音響モデル記憶部
103 推定ラベル記憶部
104 教師ラベル記憶部
105 適応モデル記憶部
1051〜105n 適応モデル
200 音声認識システム
300 音声検出システム
DESCRIPTION OF
Claims (10)
前記分割部によって分割された音声信号を音響的な違いに応じてクラスタリングするクラスタリング部と、
前記クラスタリング部が作成したクラスタに含まれる音声信号について音響的な信頼度を計算する信頼度計算部と、
前記クラスタリング部が作成したクラスタに含まれる音声信号を認識することによって推定ラベルを得るラベル推定部と、
前記クラスタリング部が作成したクラスタから、前記信頼度計算部が計算した信頼度にもとづいて選択したクラスタである第1のクラスタに含まれる音声信号と、前記ラベル推定部が得た推定ラベルとをユーザに提示する提示部と、
前記提示部によって提示された音声信号に対する教師ラベルを得る教師ラベル取得部と、
所定の条件が成立すると、前記提示部に、第1のクラスタに含まれる音声信号と推定ラベルとをユーザに提示する第1の状態から、第1のクラスタとは異なる第2のクラスタに含まれる音声信号と推定ラベルとをユーザに提示する第2の状態に遷移することを指示する遷移指示部と、
前記教師ラベル取得部が取得した教師ラベルを用いて音響モデルをクラスタ内の音声信号に適応させる音響モデル適応部と
を備えた音響モデル適応装置。 A dividing unit for dividing the audio signal;
A clustering unit that clusters the audio signals divided by the dividing unit according to an acoustic difference;
A reliability calculation unit for calculating an acoustic reliability for the audio signal included in the cluster created by the clustering unit;
A label estimation unit that obtains an estimated label by recognizing a speech signal included in the cluster created by the clustering unit;
The speech signal included in the first cluster, which is a cluster selected based on the reliability calculated by the reliability calculation unit from the clusters created by the clustering unit, and the estimated label obtained by the label estimation unit A presentation unit to present to,
A teacher label obtaining unit for obtaining a teacher label for the audio signal presented by the presenting unit;
When a predetermined condition is satisfied, the presentation unit includes the second state different from the first cluster from the first state in which the audio signal and the estimated label included in the first cluster are presented to the user. A transition instruction unit for instructing transition to the second state in which the audio signal and the estimated label are presented to the user;
An acoustic model adaptation device comprising: an acoustic model adaptation unit adapted to adapt an acoustic model to a speech signal in a cluster using the teacher label acquired by the teacher label acquisition unit.
提示部によって提示された推定ラベルと教師ラベル取得部が取得した教師ラベルとの一致度を計算する一致度計算部と、
前記一致度計算部が計算した一致度が所定値以上である場合に、所定の条件が成立したとして、第2の状態に遷移することを指示する指示部とを含む
請求項1記載の音響モデル適応装置。 The transition instruction section
A degree-of-match calculator that calculates the degree of match between the estimated label presented by the presenter and the teacher label acquired by the teacher label acquisition unit;
The acoustic model according to claim 1, further comprising: an instruction unit that instructs to transition to the second state when a predetermined condition is satisfied when the degree of coincidence calculated by the coincidence degree calculation unit is equal to or greater than a predetermined value. Adaptive device.
教師ラベル取得部が取得した教師ラベルの音素網羅度を計算する音素網羅度計算部と、
前記音素網羅度計算部が計算した音素網羅度が所定値以上である場合に、所定の条件が成立したとして、第2の状態に遷移することを指示する指示部とを含む
請求項1または請求項2記載の音響モデル適応装置。 The transition instruction section
A phoneme coverage calculation unit that calculates the phoneme coverage of the teacher label acquired by the teacher label acquisition unit;
An instructing unit for instructing transition to a second state when a predetermined condition is satisfied when the phoneme coverage calculated by the phoneme coverage calculation unit is equal to or greater than a predetermined value. Item 3. The acoustic model adaptation device according to Item 2.
請求項1から請求項3のうちのいずれか1項に記載の音響モデル適応装置。 The acoustic model adaptation device according to any one of claims 1 to 3, wherein the transition instruction unit instructs the transition to the second state in accordance with an instruction input from a user.
請求項1から請求項4のうちのいずれか1項に記載の音響モデル適応装置。 The acoustic model adaptation device according to any one of claims 1 to 4, wherein the transition instruction unit sets a cluster having the second highest reliability after the first cluster as the second cluster.
請求項1から請求項4のうちのいずれか1項に記載の音響モデル適応装置。 The acoustic model adaptation device according to any one of claims 1 to 4, wherein the transition instruction unit sets a cluster having the second lowest reliability after the first cluster as a second cluster.
分割された音声信号を音響的な違いに応じてクラスタリングし、
クラスタリングによって作成されたクラスタに含まれる音声信号について音響的な信頼度を計算し、
クラスタリングによって作成されたクラスタに含まれる音声信号を認識することによって推定ラベルを得て、
クラスタリングによって作成されたクラスタから、前記信頼度にもとづいて選択したクラスタである第1のクラスタに含まれる音声信号と、前記推定ラベルとをユーザに提示し、
ユーザに提示された音声信号に対する教師ラベルを得て、
所定の条件が成立すると、第1のクラスタに含まれる音声信号と推定ラベルとをユーザに提示する第1の状態から、第1のクラスタとは異なる第2のクラスタに含まれる音声信号と推定ラベルとをユーザに提示する第2の状態に遷移させ、
得られた前記教師ラベルを用いて音響モデルをクラスタ内の音声信号に適応させる
音響モデル適応方法。 Split the audio signal,
Cluster the divided audio signals according to acoustic differences,
Calculate the acoustic reliability of the audio signal included in the cluster created by clustering,
Obtain an estimated label by recognizing the speech signal contained in the cluster created by clustering,
Presenting the speech signal included in the first cluster, which is a cluster selected based on the reliability, from the cluster created by clustering, and the estimated label to the user,
Obtain a teacher label for the audio signal presented to the user,
When the predetermined condition is satisfied, the voice signal and the estimated label included in the second cluster different from the first cluster are changed from the first state in which the voice signal and the estimated label included in the first cluster are presented to the user. To the second state to present to the user,
An acoustic model adaptation method for adapting an acoustic model to a speech signal in a cluster using the obtained teacher label.
音声信号を分割する分割処理と、
前記分割処理で分割された音声信号を音響的な違いに応じてクラスタリングするクラスタリング処理と、
前記クラスタリング処理で作成されたクラスタに含まれる音声信号について音響的な信頼度を計算する信頼度計算処理と、
前記クラスタリング処理で作成されたクラスタに含まれる音声信号を認識することによって推定ラベルを得るラベル推定処理と、
前記クラスタリング処理で作成されたクラスタから、前記信頼度計算処理で計算された信頼度にもとづいて選択したクラスタである第1のクラスタに含まれる音声信号と、前記ラベル推定部が得た推定ラベルとをユーザに提示する提示処理と、
前記提示処理で提示された音声信号に対する教師ラベルを得る教師ラベル取得処理と、
所定の条件が成立すると、第1のクラスタに含まれる音声信号と推定ラベルとをユーザに提示する第1の状態から、第1のクラスタとは異なる第2のクラスタに含まれる音声信号と推定ラベルとをユーザに提示する第2の状態に遷移することを指示する遷移指示処理と、
前記教師ラベル取得処理で取得された教師ラベルを用いて音響モデルをクラスタ内の音声信号に適応させる音響モデル適応処理と
を実行させるための音響モデル適応プログラム。 On the computer,
A division process for dividing the audio signal;
A clustering process for clustering the audio signals divided by the division process according to an acoustic difference;
A reliability calculation process for calculating an acoustic reliability for an audio signal included in the cluster created by the clustering process;
A label estimation process for obtaining an estimated label by recognizing a speech signal included in the cluster created by the clustering process;
A speech signal included in a first cluster that is a cluster selected based on the reliability calculated in the reliability calculation process from the clusters created in the clustering process, and an estimated label obtained by the label estimation unit; Presenting process to present to the user,
A teacher label acquisition process for obtaining a teacher label for the audio signal presented in the presentation process;
When the predetermined condition is satisfied, the voice signal and the estimated label included in the second cluster different from the first cluster are changed from the first state in which the voice signal and the estimated label included in the first cluster are presented to the user. And a transition instruction process for instructing the transition to the second state presented to the user,
An acoustic model adaptation program for executing an acoustic model adaptation process for adapting an acoustic model to an audio signal in a cluster using the teacher label acquired in the teacher label acquisition process.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009252247A JP2011095680A (en) | 2009-11-02 | 2009-11-02 | Acoustic model adaptation device, acoustic model adaptation method and program for acoustic model adaptation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009252247A JP2011095680A (en) | 2009-11-02 | 2009-11-02 | Acoustic model adaptation device, acoustic model adaptation method and program for acoustic model adaptation |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011095680A true JP2011095680A (en) | 2011-05-12 |
Family
ID=44112607
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009252247A Pending JP2011095680A (en) | 2009-11-02 | 2009-11-02 | Acoustic model adaptation device, acoustic model adaptation method and program for acoustic model adaptation |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011095680A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018155481A1 (en) * | 2017-02-27 | 2018-08-30 | ヤマハ株式会社 | Information processing method and information processing device |
US11087779B2 (en) | 2017-02-27 | 2021-08-10 | Yamaha Corporation | Apparatus that identifies a scene type and method for identifying a scene type |
-
2009
- 2009-11-02 JP JP2009252247A patent/JP2011095680A/en active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018155481A1 (en) * | 2017-02-27 | 2018-08-30 | ヤマハ株式会社 | Information processing method and information processing device |
JP2018141854A (en) * | 2017-02-27 | 2018-09-13 | ヤマハ株式会社 | Information processing method and information processing unit |
US10789972B2 (en) | 2017-02-27 | 2020-09-29 | Yamaha Corporation | Apparatus for generating relations between feature amounts of audio and scene types and method therefor |
US11011187B2 (en) | 2017-02-27 | 2021-05-18 | Yamaha Corporation | Apparatus for generating relations between feature amounts of audio and scene types and method therefor |
US11087779B2 (en) | 2017-02-27 | 2021-08-10 | Yamaha Corporation | Apparatus that identifies a scene type and method for identifying a scene type |
US11756571B2 (en) | 2017-02-27 | 2023-09-12 | Yamaha Corporation | Apparatus that identifies a scene type and method for identifying a scene type |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10283111B1 (en) | Disambiguation in speech recognition | |
US9153231B1 (en) | Adaptive neural network speech recognition models | |
US9484021B1 (en) | Disambiguation in speech recognition | |
KR102550932B1 (en) | Method and apparatus for personalizing speech recognition model | |
US10210862B1 (en) | Lattice decoding and result confirmation using recurrent neural networks | |
EP3477638A2 (en) | Dialog system with self-learning natural language understanding | |
EP3114679B1 (en) | Predicting pronunciation in speech recognition | |
US9514747B1 (en) | Reducing speech recognition latency | |
JP6203288B2 (en) | Speech recognition system and method | |
EP2387031B1 (en) | Methods and systems for grammar fitness evaluation as speech recognition error predictor | |
KR20160066441A (en) | Voice recognizing method and voice recognizing appratus | |
JP2016126330A (en) | Speech recognition device and speech recognition method | |
JP2014063088A (en) | Voice recognition device, voice recognition system, voice recognition method and voice recognition program | |
WO2012001458A1 (en) | Voice-tag method and apparatus based on confidence score | |
US11620981B2 (en) | Speech recognition error correction apparatus | |
KR20160059265A (en) | Method And Apparatus for Learning Acoustic Model Considering Reliability Score | |
JP2006189730A (en) | Speech interactive method and speech interactive device | |
EP2985760B1 (en) | Methods and apparatus for interpreting received speech data using speech recognition | |
CN107610720B (en) | Pronunciation deviation detection method and device, storage medium and equipment | |
JP2011095680A (en) | Acoustic model adaptation device, acoustic model adaptation method and program for acoustic model adaptation | |
JP6027754B2 (en) | Adaptation device, speech recognition device, and program thereof | |
JP2008241970A (en) | Speaker adaptation device, speaker adaptation method and speaker adaptation program | |
KR20120046627A (en) | Speaker adaptation method and apparatus | |
JP6546070B2 (en) | Acoustic model learning device, speech recognition device, acoustic model learning method, speech recognition method, and program | |
WO2022140166A1 (en) | Systems and methods for speech validation |