JP2002169586A - Composite model generating device for voice and image, environment adapting device for composite model of voice and image, and voice recognizing device - Google Patents

Composite model generating device for voice and image, environment adapting device for composite model of voice and image, and voice recognizing device

Info

Publication number
JP2002169586A
JP2002169586A JP2000385184A JP2000385184A JP2002169586A JP 2002169586 A JP2002169586 A JP 2002169586A JP 2000385184 A JP2000385184 A JP 2000385184A JP 2000385184 A JP2000385184 A JP 2000385184A JP 2002169586 A JP2002169586 A JP 2002169586A
Authority
JP
Japan
Prior art keywords
image
voice
hmm
speech
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000385184A
Other languages
Japanese (ja)
Inventor
Kenichi Kumagai
建一 熊谷
Satoru Nakamura
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI GENGO TSUSHIN KENKYU
ATR Spoken Language Translation Research Laboratories
Original Assignee
ATR ONSEI GENGO TSUSHIN KENKYU
ATR Spoken Language Translation Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI GENGO TSUSHIN KENKYU, ATR Spoken Language Translation Research Laboratories filed Critical ATR ONSEI GENGO TSUSHIN KENKYU
Priority to JP2000385184A priority Critical patent/JP2002169586A/en
Publication of JP2002169586A publication Critical patent/JP2002169586A/en
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a composite model generating device for voice and image for voice recognizing device which can performs voice recognition at a high voice recognition rate and the voice recognizing device. SOLUTION: In the composite model generating device 100 for voice and image, an HMM composition part 16 computes the products of the output probabilities of the voice and image in all combinations of states of a voice HMM and an image HMM and generates and composites a composite HMM having a composited Gaussian mixture distribution including the products of the output probabilities in the respective states. Then, an HMM learning part 17 performs connected learning maximizing the output likelihood by using a labeled AV signal in a learning AV data memory 31 according to the generated and composite HMM to generate a composite HMM of the learnt voice and image. A voice recognition part 200 of the voice recognizing device 200 performs voice recognition by using the composite HMM of the learnt voice and image according to the feature quantity of a feature-extracted spoken voice signal and the feature quantity of an image signal.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、発話音声信号と、
発話時の唇の画像信号とに基づいて音声認識するときに
用いる音声及び画像の合成モデル生成装置、音声及び画
像の合成モデルのための環境適応化装置、並びに、上記
合成モデル生成装置及び/又は環境適応化装置を用いた
音声認識装置に関する。
The present invention relates to an uttered voice signal,
A speech and image synthesis model generation device used for speech recognition based on the lip image signal at the time of speech, an environment adaptation device for a speech and image synthesis model, and the synthesis model generation device and / or The present invention relates to a speech recognition device using an environment adaptation device.

【0002】[0002]

【従来の技術】実環境により適した音声認識システムと
して、音声と唇周辺の動画像を用いたバイモーダル音声
認識システムが近年研究されている。電車内や公共の場
などの大きな声で話しづらい状況や、周辺環境が騒がし
いというような、音声の信号対雑音電力比(以下、SN
Rという。)が低い状況において、唇周辺の動画像を用
いることで、音声のみを用いる場合より高い認識性能が
得られることなどが、唇周辺の動画像を音声認識に用い
る利点としてあげられる。また、近年バイモーダル音声
認識のモデル化には、隠れマルコフモデル(以下、HM
Mという。)が用いられ、その効果が報告されている
(例えば、従来技術文献1「中村哲ほか,“HMMを用
いた音声と唇画像の統合による音声認識と唇画像生
成”,情報処理学会,音声言語情報処理,Vol.15
−17,1997年2月8日」参照。)。
2. Description of the Related Art As a speech recognition system more suitable for a real environment, a bimodal speech recognition system using speech and a moving image around the lips has been studied in recent years. The signal-to-noise ratio (hereinafter referred to as SN) of a voice such as a situation where it is difficult to speak with a loud voice such as in a train or a public place, or the surrounding environment is noisy.
Called R. The advantage of using a moving image around the lips for voice recognition is that using a moving image around the lips in a situation where the ratio is lower than that in the case of using the moving image around the lips gives a higher recognition performance than using only the voice. In recent years, modeling of bimodal speech recognition includes a hidden Markov model (hereinafter referred to as HM).
It is called M. ) And its effects have been reported (for example, Prior Art Document 1 "Tetsu Nakamura et al.," Speech recognition and lip image generation by integrating speech and lip images using HMM "), Information Processing Society of Japan, Spoken Language Information Processing, Vol.
-17, February 8, 1997 ". ).

【0003】従来のHMMに基づいた音声と画像のバイ
モーダル音声認識において、画像データと音声データを
特徴ベクトルの段階で統合し、出力確率に重み係数付け
を行う初期統合法と、音声と画像を別々の過程で処理
し、その結果の尤度に重み係数付けを行う結果統合法が
ある。具体的には、初期統合法では、音声データ及び画
像データのパラメータを独立のパラメータストリームと
し、それぞれのHMMの出力確率の積を各状態で計算し
て、その状態の出力確率として計算する。このとき、各
ストリームの出力確率のべき乗の重み係数を与える。一
方、結果統合法では、上記の初期統合法とは反対に、音
声データと画像データに対して別々にすべての単語に対
する尤度を計算しておき、最後に、同一の単語に対する
音声データの対数尤度と、画像データの対数尤度とを重
み係数付けして加算し、その単語の対数尤度として計算
する。これら2つの方法を比較例としての従来例の方法
とする。
In the conventional bimodal speech recognition of speech and image based on HMM, an initial integration method of integrating image data and speech data at a feature vector stage and assigning a weighting factor to an output probability, There is a result integration method in which processing is performed in separate processes and a weighting factor is assigned to the likelihood of the result. Specifically, in the initial integration method, the parameters of the audio data and the image data are set as independent parameter streams, and the product of the output probabilities of the respective HMMs is calculated in each state, and is calculated as the output probability of that state. At this time, a weight coefficient of the power of the output probability of each stream is given. On the other hand, in the result integration method, contrary to the above-mentioned initial integration method, the likelihood for all words is separately calculated for the voice data and the image data, and finally, the logarithm of the voice data for the same word is calculated. The likelihood and the log likelihood of the image data are weighted and added, and the result is calculated as the log likelihood of the word. These two methods are referred to as conventional methods as comparative examples.

【0004】[0004]

【発明が解決しようとする課題】しかしながら、初期統
合法の場合は、HMMの状態遷移確率を共有しており、
結果統合法は音声と画像を別々の過程で処理しているの
で、両者とも発話速度と唇の動きの関係について考慮し
ておらず、また、同じ音韻をもつ音声を発声するときで
も、発声と唇の動きが必ずしも一致しない場合があるた
め、音声認識率がいまだ低いという問題点があった。
However, in the case of the initial integration method, the state transition probability of the HMM is shared,
Since the result integration method processes speech and images in separate processes, they do not consider the relationship between speech speed and lip movement, and even when speech with the same phoneme is spoken, Since the movements of the lips may not always match, there is a problem that the speech recognition rate is still low.

【0005】また、音声のHMMと、画像のHMMとを
統合するときに、周辺の環境に応じてどちらの情報を重
視するかを決定することが重要な問題となるが、この問
題の解決法はいまだ示されていない。
[0005] Further, when integrating the voice HMM and the image HMM, it is important to determine which information should be prioritized according to the surrounding environment. Yes not shown yet.

【0006】本発明の目的は以上の問題点を解決し、従
来例に比較して高い音声認識率で音声認識することがで
きる音声認識装置のための音声及び画像の合成モデル生
成装置、並びに、上記音声及び画像の合成モデル生成装
置を用いた音声認識装置を提供することにある。
SUMMARY OF THE INVENTION An object of the present invention is to solve the above problems and to provide a speech and image synthesis model generation apparatus for a speech recognition apparatus capable of recognizing speech at a higher speech recognition rate than a conventional example, and It is another object of the present invention to provide a speech recognition apparatus using the speech and image synthesis model generation apparatus.

【0007】また、本発明のもう1つの目的は、音声の
HMMと、画像のHMMとを統合するときに、周辺の環
境に応じて適応化でき、従来例に比較して高い音声認識
率で音声認識可能な音声及び画像の合成モデルを生成で
きる環境適応化装置、並びに、環境適応化装置を用いた
音声認識装置を提供することにある。
Another object of the present invention is to integrate a speech HMM and an image HMM according to the surrounding environment, and achieve a higher speech recognition rate than the conventional example. An object of the present invention is to provide an environment adaptation device capable of generating a speech and image synthesis model capable of speech recognition, and a speech recognition device using the environment adaptation device.

【0008】[0008]

【課題を解決するための手段】本発明に係る音声及び画
像の合成モデル生成装置は、発話音声信号と、発話時の
話者の唇の画像信号とを含むAV信号を格納する第1の
記憶手段と、上記AV信号のうちの発話音声信号に基づ
いて、出力尤度が最大となるように、音声HMMを生成
する第1の生成手段と、上記AV信号のうちの画像信号
に基づいて、出力尤度が最大となるように、画像HMM
を生成する第2の生成手段と、上記第1の生成手段によ
り生成された音声HMMを格納する第2の記憶手段と、
上記第2の生成手段により生成された画像HMMを格納
する第3の記憶手段と、上記第2の記憶手段に格納され
た音声HMMと、上記第3の記憶手段に格納された画像
HMMとを、これら2つのHMMの各状態のすべての組
み合わせにおいて音声と画像の出力確率の積を計算し
て、各状態で出力確率の積を含む合成された合成HMM
を生成することにより合成する合成手段と、上記生成さ
れた合成HMMに基づいて、上記第1の記憶手段に格納
されたラベル付きAV信号を用いて、出力尤度が最大と
なるように連結学習することにより、学習された音声及
び画像の合成HMMを生成する学習手段とを備えたこと
を特徴とする。
According to the present invention, there is provided an apparatus for generating a synthesized model of voice and image, which stores an AV signal including an uttered voice signal and an image signal of a lip of a speaker at the time of utterance. Means, first generating means for generating an audio HMM based on an uttered voice signal of the AV signal so that the output likelihood is maximized, and based on an image signal of the AV signal, In order to maximize the output likelihood, the image HMM
A second generation unit for generating a voice HMM generated by the first generation unit; and a second storage unit for storing the speech HMM generated by the first generation unit.
A third storage unit for storing the image HMM generated by the second generation unit, a voice HMM stored in the second storage unit, and an image HMM stored in the third storage unit. , The product of the output probabilities of speech and image in all combinations of each state of these two HMMs, and the synthesized HMM containing the product of the output probabilities in each state
And a combination learning unit that generates the maximum likelihood by using the labeled AV signal stored in the first storage unit based on the generated composite HMM. And a learning means for generating a synthesized HMM of the learned voice and image.

【0009】また、本発明に係る音声認識装置は、発話
音声信号と、発話時の話者の唇の画像信号とを含む、入
力されるAV信号に基づいて、上記発話音声信号の特徴
量と、上記画像信号の特徴量とを抽出する抽出手段と、
上記抽出された上記発話音声信号の特徴量及び上記画像
信号の特徴量に基づいて、上記音声及び画像の合成モデ
ル生成装置により生成された、学習された音声及び画像
の合成HMMを用いて、音声認識して音声認識結果を出
力する音声認識手段とを備えたことを特徴とする。
Further, the speech recognition apparatus according to the present invention, based on an input AV signal including an uttered voice signal and an image signal of a lip of a speaker at the time of utterance, obtains a characteristic amount of the uttered voice signal and Extracting means for extracting a feature amount of the image signal;
Based on the extracted feature amount of the uttered speech signal and the feature amount of the image signal, the speech and the synthesized speech and image synthesized HMM generated by the synthesized model of the speech and image are used to generate a speech. Voice recognition means for recognizing and outputting a voice recognition result.

【0010】さらに、本発明に係る音声及び画像の合成
モデルのための環境適応化装置は、発話音声信号と、発
話時の話者の唇の画像信号とを含むAV信号を音素ラベ
ル付きで格納する環境適応化用信号データを記憶する第
4の記憶手段と、上記記憶された環境適応化用信号デー
タを、所定のHMMを用いて音声認識したときの尤度を
演算する第2の音声認識手段と、上記音声及び画像の合
成モデル生成装置により生成された、学習された音声及
び画像の合成HMMにおける各音素の重み係数を、所定
のクラスタリングの基準を用いて複数のクラスにクラス
タリングし、各クラスに属する各音素の重み係数を、上
記演算された尤度に基づいて、誤認識が少なくなるよう
に再学習することにより上記合成HMMを環境適応化す
る環境適応化手段とを備えたことを特徴とする。
[0010] Furthermore, the environment adaptation apparatus for a speech and image synthesis model according to the present invention stores an AV signal including an uttered speech signal and an image signal of a speaker's lip at the time of utterance with a phoneme label. Fourth storage means for storing the environment adaptation signal data to be processed, and second speech recognition for calculating the likelihood when the stored environment adaptation signal data is subjected to speech recognition using a predetermined HMM. Means, and the weighting factors of each phoneme in the synthesized speech and image synthesized HMM generated by the audio and image synthesis model generation device are clustered into a plurality of classes using a predetermined clustering criterion. An environment adapting means for adapting the synthesized HMM to the environment by re-learning the weighting factors of the phonemes belonging to the class based on the calculated likelihood so as to reduce misrecognition; Characterized by comprising a.

【0011】またさらに、上記音声及び画像の合成モデ
ルのための環境適応化装置において、好ましくは、各ク
ラスの環境適応化用信号データの数が所定のしきい値未
満となるように上記環境適応化手段の再学習を繰り返す
ことを特徴とする。
Still further, in the above-mentioned environment adaptation apparatus for a speech and image synthesis model, preferably, the environment adaptation apparatus is arranged such that the number of environment adaptation signal data of each class is less than a predetermined threshold value. It is characterized in that re-learning of the conversion means is repeated.

【0012】さらに、本発明の別の音声認識装置は、発
話音声信号と、発話時の話者の唇の画像信号とを含む、
入力されるAV信号に基づいて、上記発話音声信号の特
徴量と、上記画像信号の特徴量とを抽出する抽出手段
と、上記抽出された上記発話音声信号の特徴量及び上記
画像信号の特徴量に基づいて、上記音声及び画像の合成
モデルのための環境適応化装置により環境適応化され
た、音声及び画像の合成HMMを用いて、音声認識して
音声認識結果を出力する第3の音声認識手段とを備えた
ことを特徴とする。
Further, another speech recognition apparatus of the present invention includes an utterance speech signal and an image signal of a lip of a speaker at the time of utterance.
Extracting means for extracting the feature amount of the speech sound signal and the feature amount of the image signal based on the input AV signal, the feature amount of the extracted speech sound signal and the feature amount of the image signal Using the synthesized HMM for speech and image, which is environment-adapted by the environment adaptation apparatus for speech and image synthesis model based on the above, to perform speech recognition and output a speech recognition result Means.

【0013】[0013]

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。
Embodiments of the present invention will be described below with reference to the drawings.

【0014】<第1の実施形態>図1は、本発明に係る
第1の実施形態である、音声及び画像の合成モデル生成
装置100及び音声認識装置200の構成を示すブロッ
ク図である。この実施形態に係る音声及び画像の合成モ
デル生成装置100は、音声HMMメモリ32a内の音
声HMMと、画像HMMメモリ32b内の画像HMMと
を合成するHMM合成部16と、その合成されたHMM
に基づいて、データメモリ31内の音素ラベル付き学習
用AV(Audio and Visual)データを用いて連結学習す
ることにより学習された合成HMMを生成するHMM学
習部17とを備えたことを特徴としている。また、音声
認識装置200は、HMM学習部17により学習された
合成HMMを用いて音声認識する音声認識部26を備え
たことを特徴としている。
<First Embodiment> FIG. 1 is a block diagram showing a configuration of a speech and image synthesis model generation apparatus 100 and a speech recognition apparatus 200 according to a first embodiment of the present invention. The speech and image synthesis model generation device 100 according to this embodiment includes an HMM synthesis unit 16 that synthesizes an audio HMM in the audio HMM memory 32a and an image HMM in the image HMM memory 32b,
And an HMM learning unit 17 that generates a combined HMM learned by performing connection learning using learning AV (Audio and Visual) data with phoneme labels in the data memory 31 based on . Further, the speech recognition device 200 includes a speech recognition unit 26 that performs speech recognition using the synthesized HMM learned by the HMM learning unit 17.

【0015】本発明者らは、上述の従来例の問題点を解
決するために、発話速度と唇の動きの関係を記述できる
HMM合成を用いた統合方法を用いて、音声HMMと画
像HMMとを合成した後、音素ラベル付き学習用AVデ
ータを用いて学習することにより、音声及び画像の合成
モデルを生成することを提案する。
In order to solve the above-mentioned problems of the conventional example, the present inventors use an integrated method using HMM synthesis that can describe the relationship between the utterance speed and the lip movement. It is proposed to generate a synthesis model of voice and image by learning by using learning AV data with phoneme labels after synthesizing.

【0016】図1の音声及び画像の合成モデル生成装置
100において、音素ラベル付き学習用AVデータメモ
リ31は、特定の話者が所定の複数の単語を発話したと
きの音声の波形データと、その発話時に当該話者の頭部
を固定して、その唇周辺の画像を記録した画像データ
(以下、画像データという。)とを予め格納する。次い
で、データ分離部11は、学習用AVデータメモリ31
内の音声データと画像データとの混合データを、音声デ
ータと画像データとに分離して同期化部12に出力す
る。このとき、画像データのフレーム周期は33.3m
secであり、音声データのフレーム周期は8msec
であるので、互いに同期するようにフレームシフト処理
を施し、同期処理後の音声データを前処理部13aに出
力するとともに、同期処理後の画像データを前処理部1
3bに出力する。
In the speech and image synthesis model generating apparatus 100 shown in FIG. 1, the learning AV data memory 31 with phoneme labels stores speech waveform data when a specific speaker speaks a plurality of predetermined words, At the time of speech, the head of the speaker is fixed, and image data (hereinafter, referred to as image data) in which an image around the lips is recorded is stored in advance. Next, the data separation unit 11 outputs the learning AV data memory 31
The mixed data of the audio data and the image data is separated into audio data and image data and output to the synchronization unit 12. At this time, the frame period of the image data is 33.3 m.
sec, and the frame period of the audio data is 8 msec.
Therefore, a frame shift process is performed so as to synchronize with each other, the audio data after the synchronization process is output to the preprocessing unit 13a, and the image data after the synchronization process is output to the preprocessing unit 1a.
3b.

【0017】前処理部13aは、サンプリング周波数4
4.1kHzでサンプリングリンされた最高周波数2
2.05kHzの音声データを、最高周波数12kHz
の音声データにダウンサンプリング処理して特徴抽出部
14aに出力する。次いで、特徴抽出部14aは、入力
される音声データに対して例えばLPC分析を行うこと
により、16次のメルケプストラム係数と、16次のΔ
メルケプストラム係数と、Δパワーとを含む特徴ベクト
ルを抽出して音声HMM生成部15aに出力する。
The pre-processing unit 13a has a sampling frequency of 4
Maximum frequency 2 sampled at 4.1 kHz 2
2.05kHz audio data, maximum frequency 12kHz
Is downsampled and output to the feature extracting unit 14a. Next, the feature extracting unit 14a performs, for example, an LPC analysis on the input audio data, thereby obtaining a 16th-order mel-cepstral coefficient and a 16th-order Δ
The feature vector including the mel cepstrum coefficient and the Δ power is extracted and output to the speech HMM generation unit 15a.

【0018】一方、前処理部13bは、入力される画像
データに基づいて、各フレーム毎のRGBのJPEG画
像信号(例えば160×120画素)を、256階調の
濃淡画像信号(グレースケール信号)に変換した後、ヒ
ストグラムの平坦化処理の後、基準フレームとの輝度の
差分を最小化するために、唇位置での正規化を行う。次
いで、特徴抽出部14bでは、前処理後のデータに対し
て、例えば256×256画素の領域で2次元FFTの
処理を行う。ここで、空間周波数領域におけるパワース
ペクトルを計算し、フレーム間の差分を計算することに
より動的な特徴を計算する。具体的には、例えば、35
次の平滑化対数パワースペクトル及び35次の平滑化対
数Δパワースペクトルのパラメータを含む特徴ベクトル
を抽出して画像HMM生成部15bに出力する。
On the other hand, the preprocessing unit 13b converts an RGB JPEG image signal (for example, 160 × 120 pixels) for each frame into a 256-level gray-scale image signal (gray scale signal) based on the input image data. Then, after the histogram is flattened, normalization at the lip position is performed in order to minimize the difference in luminance from the reference frame. Next, the feature extraction unit 14b performs a two-dimensional FFT process on the data after the pre-processing, for example, in an area of 256 × 256 pixels. Here, a dynamic spectrum is calculated by calculating a power spectrum in a spatial frequency domain and calculating a difference between frames. Specifically, for example, 35
A feature vector including parameters of the next smoothed logarithmic power spectrum and the 35th smoothed logarithmic Δ power spectrum is extracted and output to the image HMM generation unit 15b.

【0019】音声HMM生成部15aは、入力される特
徴ベクトル及び、学習用AVデータメモリ31内の音素
ラベルとに基づいて、公知のEM(Expectation-maximi
zation)アルゴリズムを用いて、出力尤度が最大となる
ように、ラベル付きの連結学習を行うことにより、3状
態のガウス混合分布を有する音声HMMを生成して音声
HMMメモリ32aに出力して格納する。一方、画像H
MM生成部15bは、入力される特徴ベクトル及び、学
習用AVデータメモリ31内の音素ラベルとに基づい
て、EMアルゴリズムを用いて、出力尤度が最大となる
ように、ラベル付きの連結学習を行うことにより、2状
態のガウス混合分布を有する画像HMMを生成して画像
HMMメモリ32bに出力して格納する。
The speech HMM generation unit 15a uses a known EM (Expectation-maximi) based on the input feature vector and the phoneme label in the learning AV data memory 31.
zation), a connected HMM having a three-state Gaussian mixture distribution is generated by performing connected learning with a label such that the output likelihood is maximized, and is output to and stored in the voice HMM memory 32a. I do. On the other hand, the image H
The MM generation unit 15b performs the labeled connection learning using the EM algorithm based on the input feature vector and the phoneme label in the learning AV data memory 31 so that the output likelihood is maximized. As a result, an image HMM having a two-state Gaussian mixture distribution is generated, output to the image HMM memory 32b, and stored.

【0020】図2(a)は図1の音声HMMメモリ32
a内の音声HMMの一例を示す状態遷移図であり、図2
(b)は図1の画像HMMメモリ32b内の画像HMM
の一例を示す状態遷移図である。図2(a)に示す音声
HMMは音声データの状態遷移方向で3状態を有し、各
状態で自己に帰還する遷移と次の状態に進行する遷移と
を有する。また、図2(b)に示す画像HMMは画像デ
ータの状態遷移方向で2状態を有し、各状態で自己に帰
還する遷移と次の状態に進行する遷移とを有する。
FIG. 2A shows the voice HMM memory 32 shown in FIG.
FIG. 2 is a state transition diagram showing an example of a voice HMM in FIG.
(B) is an image HMM in the image HMM memory 32b of FIG.
FIG. 6 is a state transition diagram showing an example of. The audio HMM shown in FIG. 2A has three states in the state transition direction of the audio data, and each state has a transition that returns to itself and a transition that proceeds to the next state. Further, the image HMM shown in FIG. 2B has two states in the state transition direction of the image data, and in each state, there is a transition that returns to itself and a transition that proceeds to the next state.

【0021】HMM合成部16は、音声HMMメモリ3
2a内の音声HMMと、画像HMMメモリ32b内の画
像HMMとを、本発明に係る合成統合法を用いて、これ
ら2つのHMMの各状態のすべての組み合わせにおいて
音声と画像の出力確率の積を計算して、各状態で出力確
率の積を含む合成統合されたガウス混合分布を有する合
成HMMを生成することにより合成し、合成された合成
HMMを合成HMMメモリ33に出力して格納する。こ
のとき、合成したHMMの各状態の出力確率は、次式に
示すように音声と画像の出力確率の積として合成統合さ
れる。
The HMM synthesizing unit 16 includes the voice HMM memory 3
The voice HMM in 2a and the image HMM in the image HMM memory 32b are combined using the synthesis integration method according to the present invention to calculate the product of the output probabilities of the voice and the image in all combinations of these two HMM states. Calculated and combined by generating a combined HMM having a combined Gaussian mixture distribution including the product of the output probabilities in each state, and the combined HMM is output to the combined HMM memory 33 and stored. At this time, the output probabilities of the respective states of the synthesized HMM are synthesized and integrated as a product of the output probabilities of voice and image as shown in the following equation.

【0022】[0022]

【数1】bij(Ot)=bi (a)(Ot (a)λ a×b
j (v)(Ot (v)λ v
## EQU1 ## b ij (O t ) = b i (a) (O t (a) ) λ a × b
j (v) (O t (v) ) λ v

【0023】ここで、bi (a)(Ot (a))は、時刻tで、
音声HMMの状態iにおいて、特徴ベクトルOt (a)を出
力する確率bj (v)(Ot (v))は、画像HMMの状態jで
特徴ベクトルOt (v)を出力する確率であり、λa、λv
はそれぞれ、音声データのストリームの重み係数、画像
データのストリームの重み係数である。また、合成HM
Mにおいて、状態Sijから状態Sk λへの遷移確率a
ij,k λは、音声HMMの状態Siから状態Skへの遷移確
率aik (a)と、画像HMMの状態Sjから状態Sλへの遷
移確率aj λ (v)を用いて、次式で表される。
Where b i (a) (O t (a) ) is the time t,
The probability b j (v) (O t (v) ) of outputting the feature vector Ot (a) in the state i of the voice HMM is the probability of outputting the feature vector Ot (v) in the state j of the image HMM. Yes, λa, λv
Is a weight coefficient of the audio data stream and a weight coefficient of the image data stream, respectively. Also, synthetic HM
M, the transition probability a from the state S ij to the state S k λ
ij, k λ is calculated using a transition probability a ik (a) from the state S i of the voice HMM to the state S k and a transition probability a j λ (v) of the image HMM from the state S j to the state S λ . Is represented by the following equation.

【0024】[0024]

【数2】aij,k λ=aik (a)×aj λ (v) ## EQU2 ## a ij, k λ = a ik (a) × a j λ (v)

【0025】図3は、図1の合成HMMメモリ33内の
合成HMMの一例を示す状態遷移図である。図3に示す
ように、合成HMMは、音声データの状態遷移方向で3
状態で、画像データの状態遷移方向で2状態である、各
状態でガウス混合分布を有する合計6状態のHMMとな
る。ここで、合成したHMMは、音声HMMと、画像H
MMと、時間方向の3次元トレリスを構成することにな
るが、合成時のHMMパラメータは、音声と画像で独立
に学習を行っているため、音声と画像の同期性が考慮さ
れていない。そこで、本実施形態では、HMM学習部1
7により、合成HMMを初期モデルとして、音声と画像
の特徴ベクトルを合成した音声画像同期混合ベクトルを
用い、EMアルゴリズムを用いて、出力尤度が最大とな
るように、かつ学習用AVデータメモリ31に格納され
た音素ラベルを用いて連結学習を行い、学習後の学習さ
れた合成HMMを、学習された合成HMMメモリ34に
出力して格納する。このHMM学習部17による合成H
MMの学習により、音声と画像との間で同期性を表現で
きる。
FIG. 3 is a state transition diagram showing an example of the combined HMM in the combined HMM memory 33 of FIG. As shown in FIG. 3, the combined HMM has three states in the state transition direction of the audio data.
There are two states in the state transition direction of the image data, that is, a total of six states having a Gaussian mixture distribution in each state. Here, the synthesized HMM is a voice HMM and an image H
A MM and a three-dimensional trellis in the time direction are formed. However, since the HMM parameters at the time of synthesis are independently learned for voice and image, synchronization between voice and image is not considered. Therefore, in the present embodiment, the HMM learning unit 1
7, using the synthesized HMM as an initial model, using an audio-video synchronous mixed vector obtained by synthesizing a feature vector of audio and an image, using an EM algorithm so that the output likelihood is maximized, and a learning AV data memory 31. The connected learning is performed using the phoneme labels stored in the learning HMM, and the learned synthesized HMM after the learning is output to the learned synthesized HMM memory 34 and stored. The synthesized H by the HMM learning unit 17
By learning the MM, synchronism can be expressed between the voice and the image.

【0026】図4は、図1の音声及び画像の合成モデル
生成装置100における合成統合の3次元の探索空間を
示す図である。図4に示すように、音声認識の際に、合
成統合による探索空間は、音声HMMと画像HMMの状
態と時刻フレーム方向の3次元トレリスを探索すること
になり、音声と画像の状態を非同期に探索可能となる。
FIG. 4 is a diagram showing a three-dimensional search space for synthesis integration in the speech and image synthesis model generating apparatus 100 of FIG. As shown in FIG. 4, at the time of speech recognition, the search space based on the synthesis integration searches the state of the voice HMM and the image HMM and the three-dimensional trellis in the time frame direction, and asynchronously changes the state of the voice and the image. It becomes searchable.

【0027】図1において、音声認識装置200は、入
力AVデータメモリ41と、データ分離部21と、同期
化部22と、前処理部23a,23bと、特徴抽出部2
4a,24bと、特徴合成部25と、音声認識部26と
を備えて構成される。ここで、データ分離部21から特
徴抽出部24a,24bまでの処理は、音声及び画像の
合成モデル生成装置100内のデータ分離部11から特
徴抽出部14a,14bまでの処理と同様であり、詳細
な説明を省略する。
In FIG. 1, a speech recognition apparatus 200 includes an input AV data memory 41, a data separation section 21, a synchronization section 22, pre-processing sections 23a and 23b, and a feature extraction section 2.
4a and 24b, a feature synthesizing unit 25, and a voice recognition unit 26. Here, the processing from the data separation unit 21 to the feature extraction units 24a and 24b is the same as the processing from the data separation unit 11 to the feature extraction units 14a and 14b in the audio and image synthesis model generation device 100, and is described in detail. Detailed description is omitted.

【0028】音声認識装置200において、入力AVデ
ータメモリ41は、音声認識すべき発話音声文の発話音
声信号の波形データと、その発話時に当該話者の唇周辺
の画像を記録した画像データとを含むAVデータを予め
格納し、データ分離部21は、データ分離部11と同様
に、入力AVデータメモリ41から入力されるAVデー
タから発話音声信号の音声データと、画像データとに分
離して同期化部22に出力する。特徴合成部25は、特
徴抽出部24aにより抽出された音声の特徴ベクトル
と、特徴抽出部24bにより抽出された画像の特徴ベク
トルとのデータを合成して(各データを同一のフレーム
で1つの特徴ベクトルとして合成して)、音声認識部2
6に出力する。音声認識部26は、特徴合成部25から
入力された特徴ベクトルを、学習された合成HMMメモ
リ34内の学習された合成HMMに入力することによ
り、当該HMMでの尤度(具体的には、対数尤度であ
る。)を計算して、最尤の音素を決定する。さらに、音
声認識部26は、決定された最尤の音素に基づいて、単
語HMM42に格納された音素ベースの単語HMMを用
いて単語に対する尤度を計算して最尤の単語の文字列を
決定し、これによって、音声認識処理を実行し、音声認
識結果の文字列を出力する。
In the voice recognition device 200, the input AV data memory 41 stores the waveform data of the utterance voice signal of the utterance voice sentence to be voice-recognized and the image data in which the image around the lips of the speaker at the time of the utterance is recorded. In the same manner as the data separation unit 11, the data separation unit 21 separates the AV data input from the input AV data memory 41 into the audio data of the uttered voice signal and the image data and synchronizes them. Output to the conversion unit 22. The feature synthesizing unit 25 synthesizes data of the feature vector of the voice extracted by the feature extracting unit 24a and the feature vector of the image extracted by the feature extracting unit 24b (each data is converted into one feature in the same frame). Synthesized as a vector), speech recognition unit 2
6 is output. The speech recognition unit 26 inputs the feature vector input from the feature synthesizing unit 25 to the learned synthesized HMM in the learned synthesized HMM memory 34, so that the likelihood in the HMM (specifically, Is calculated, and the maximum likelihood phoneme is determined. Further, based on the determined maximum likelihood phoneme, the speech recognition unit 26 calculates the likelihood for the word using the phoneme-based word HMM stored in the word HMM 42 and determines the character string of the maximum likelihood word. Thereby, the voice recognition processing is executed, and the character string of the voice recognition result is output.

【0029】以上のように構成された音声及び画像の合
成モデル生成装置100では、HMM合成部16により
合成された合成HMMに対して、HMM学習部17によ
り音素ラベルを用いて連結学習することにより、音声と
画像の同期性を確立することができ、音声と画像の同期
性を有する学習された合成HMMを生成できる。これを
用いて音声認識部26により音声認識処理を行うことに
より、従来例に係る初期統合法や結果統合法に比較して
高い音声認識率で音声認識することができる。
In the speech and image synthesis model generating apparatus 100 configured as described above, the HMM learning unit 17 performs connection learning on the synthesized HMM synthesized by the HMM synthesis unit 16 using phoneme labels. , It is possible to establish synchronism between voice and image, and to generate a learned synthesized HMM having synchronism between voice and image. By performing the speech recognition processing by the speech recognition unit 26 using this, the speech recognition can be performed at a higher speech recognition rate than the initial integration method and the result integration method according to the related art.

【0030】[0030]

【実施例】<第1の実施形態の実施例>本発明者らは、
第1の実施形態の音声及び画像の合成モデル生成装置1
00及び音声認識装置200を用いて評価実験を以下の
ように行い、以下の結果を得た。表1に実験条件を示
す。
EXAMPLES <Examples of First Embodiment> The present inventors
Synthetic model generation device 1 for voice and image according to first embodiment
An evaluation experiment was performed as follows using the voice recognition apparatus 200 and the speech recognition apparatus 200, and the following results were obtained. Table 1 shows the experimental conditions.

【0031】[0031]

【表1】 実験条件 ――――――――――――――――――――――――――――――――――― 音声 標本化周波数:12kHz 分析窓関数:ハミング窓 フレーム長:32msec フレームシフト:8msec パラメータ:MFCC16次元、ΔMFCC16次元 ――――――――――――――――――――――――――――――――――― 画像 フレームシフト:33msec 前処理1:RGB信号から256階調の濃淡画像信号への変換 前処理2:ヒストグラム平坦化処理 前処理3:唇位置の正規化処理 パラメータ:平滑化対数パワースペクトル35次元、及び 平滑化対数Δパワースペクトル35次元 ――――――――――――――――――――――――――――――――――― HMMの状態数 結果統合法、合成統合:音声3、画像2 初期統合法:3 ――――――――――――――――――――――――――――――――――― 確率密度関数 ガウス分布:2混合 HMM 音素環境独立55音素モデル ――――――――――――――――――――――――――――――――――― 学習データ 音声及び画像同期データ 女性話者1名、4740単語 ――――――――――――――――――――――――――――――――――― テストデータ 200単語(3セット)(オープン条件) ―――――――――――――――――――――――――――――――――――[Table 1] Experimental conditions ――――――――――――――――――――――――――――――――― Voice Sampling frequency: 12 kHz Analysis window function : Hamming window Frame length: 32 msec Frame shift: 8 msec Parameter: MFCC 16 dimension, ΔMFCC 16 dimension ―――――――――――――――――――――――――――――――― ――― Image Frame shift: 33 msec Preprocessing 1: Conversion from RGB signals to 256-level grayscale image signal Preprocessing 2: Histogram flattening Preprocessing 3: Lip position normalization Processing Parameter: Smoothed log power spectrum 35 dimensions and smoothed logarithmic Δ power spectrum 35 dimensions ――――――――――――――――――――――――――――――――― HMM status Numerical result integration method, synthesis integration: voice 3, Image 2 Initial integration method: 3 ――――――――――――――――――――――――――――――――― Probability density function Gaussian distribution: 2 mixture HMM Phoneme environment independent 55 phoneme model ――――――――――――――――――――――――――――――――――― Learning data Voice and image synchronization data Female One speaker, 4740 words ――――――――――――――――――――――――――――――――――― Test data 200 words (3 sets) (Open condition) ―――――――――――――――――――――――――――――――――――

【0032】本実験では、音響実験室で、特定話者(女
性話者1人)が特許出願人が所有する発声リストの52
40単語を発話しているデータベースを用いた。音声と
画像のフレームシフトは1:4であるため、画像は、4
フレーム同じフレームを埋め込み、音声と画像のフレー
ムシフトを調整を行う。また、収録した画像データは発
話単語により、照明条件の違いや顔の傾きなどが見られ
る。そこで前処理として、ヒストグラム平坦化、基準フ
レームとの輝度の差分を最小化するように唇位置の正規
化を行った。音声HMMの作成には、音響実験室で収録
したクリーンな音声データからメルケプストラム係数を
求め、それを特徴ベクトルとしてモデル作成を行った。
また、画像HMMは、前処理後の画像に2次元FFTを
行い、対数パワースペクトルを計算し、そして、その周
波数領域を6×6の領域分割を行い、直流成分を除いた
領域の平滑化対数パワースペクトルを特徴ベクトルとし
てモデル作成を行った。本実験では、音声及び画像の合
成HMMを、各ストリームの重み係数を1:1と等しい
重み係数で学習を行っている。
In this experiment, in a sound laboratory, a specific speaker (one female speaker) was placed on the utterance list 52 owned by the patent applicant.
A database speaking 40 words was used. Since the frame shift between sound and image is 1: 4, the image is 4
Embed the same frame and adjust the audio and image frame shift. The recorded image data shows differences in lighting conditions, face inclination, and the like depending on the utterance word. Therefore, as pre-processing, histogram flattening and lip position normalization were performed so as to minimize the difference in luminance from the reference frame. To create a speech HMM, a mel-cepstrum coefficient was obtained from clean speech data recorded in an acoustic laboratory, and a model was created using the coefficient as a feature vector.
Further, the image HMM performs a two-dimensional FFT on the preprocessed image, calculates a logarithmic power spectrum, performs a 6 × 6 region division on the frequency region, and smoothes the logarithm of the region excluding the DC component. A model was created using the power spectrum as a feature vector. In this experiment, the combined HMM of audio and image is trained with the weighting factor of each stream being equal to 1: 1.

【0033】図5乃至図7はそれぞれ、従来例である初
期統合法及び結果統合法、並びに、第1の実施形態に係
る合成統合法を用いた音声認識装置の実験結果であっ
て、SNRが10dB、20dbのとき、及び雑音のな
いクリーンな音声のときの音声ストリームの重み係数λ
aに対する単語認識率を示すグラフである。ここで、音
声データのストリームの重み係数λaと画像データのス
トリームの重み係数λvは次式を満足するように変化さ
せている。
FIGS. 5 to 7 show experimental results of the speech recognition apparatus using the initial integration method and the result integration method, which are conventional examples, and the synthesis integration method according to the first embodiment, respectively. Weight factor λ of the audio stream at 10 dB, 20 dB, and for clean audio without noise
6 is a graph showing a word recognition rate for a. Here, the weight coefficient λa of the audio data stream and the weight coefficient λv of the image data stream are changed so as to satisfy the following equation.

【0034】[0034]

【数3】λa+λv=1Λa + λv = 1

【0035】すなわち、図5は、SNRが10dBのと
きに、横軸が音声ストリームの重み係数λaのときの単
語認識率を示すグラフであり、図6は、SNRが20d
Bのときに、横軸が音声ストリームの重み係数λaのと
きの単語認識率を示すグラフであり、図7は、雑音のな
いクリーンな音声のときの、横軸が音声ストリームの重
み係数λaのときの単語認識率を示すグラフである。図
5乃至図7において、以下の場合のデータを示してい
る。 (a)第1の実施形態に係る合成統合法(学習有り)、 (b)比較例の合成統合法(学習無し)、 (c)従来例の結果統合法、 (d)従来例の初期統合法、 (e)音声データのみのとき、 (f)画像データのみのとき。 図5から明らかなように、SNRが10dBのときに、
音声ストリームの重み係数λaを変化しても、本発明の
第1の実施形態に係る合成統合法の音声認識率は、他の
統合法のそれより高い。また、図6から明らかなよう
に、SNRが20dBのときに、音声ストリームの重み
係数λaを変化しても、本発明の第1の実施形態に係る
合成統合法の音声認識率は、他の統合法のそれより高
い。さらに、図7から明らかなように、雑音のないクリ
ーンな音声のときに、音声ストリームの重み係数λaを
変化しても、本発明の第1の実施形態に係る合成統合法
の音声認識率は、他の統合法のそれより高い。従って、
SNRを10dBから無限大まで変化させても、本発明
の第1の実施形態に係る合成統合法は、他の統合法よ
り、認識率が高いことが分かる。本手法の合成統合法
は、異なったモダリティの統合に効果的であるといえ
る。
That is, FIG. 5 is a graph showing the word recognition rate when the SNR is 10 dB and the horizontal axis is the weight coefficient λa of the audio stream. FIG. 6 is a graph showing the SNR when the SNR is 20 dB.
FIG. 7 is a graph showing the word recognition rate when the horizontal axis is the weight factor λa of the audio stream at B, and FIG. 7 shows the horizontal axis of the weight coefficient λa of the audio stream when the voice is clean without noise. 6 is a graph showing a word recognition rate at the time. 5 to 7 show data in the following cases. (A) The synthesis integration method according to the first embodiment (with learning), (b) The synthesis integration method of the comparative example (without learning), (c) the result integration method of the conventional example, (d) the initial integration of the conventional example (E) When only audio data, (f) When only image data. As is clear from FIG. 5, when the SNR is 10 dB,
Even if the weight coefficient λa of the audio stream is changed, the speech recognition rate of the synthesis integration method according to the first embodiment of the present invention is higher than that of the other integration methods. As is clear from FIG. 6, when the SNR is 20 dB, even if the weight coefficient λa of the audio stream is changed, the speech recognition rate of the synthesis and integration method according to the first embodiment of the present invention is different from that of the first embodiment. Higher than that of the integration method. Further, as is clear from FIG. 7, even when the weight coefficient λa of the audio stream is changed in the case of clean audio without noise, the speech recognition rate of the synthesis integration method according to the first embodiment of the present invention is , Higher than that of other integration laws. Therefore,
It can be seen that even when the SNR is changed from 10 dB to infinity, the synthesis integration method according to the first embodiment of the present invention has a higher recognition rate than other integration methods. It can be said that the synthetic integration method of this method is effective in integrating different modalities.

【0036】<第2の実施形態>図8は、本発明に係る
第2の実施形態である環境適応化装置300の構成を示
すブロック図である。第2の実施形態に係る環境適応化
装置300においては、図1の学習用AVデータメモリ
31と同様の形式で、発話音声信号と、発話時の話者の
唇の画像信号とを含む複数の単語のAV信号データが音
素ラベル付きで環境適応化用AV単語データメモリ51
に格納され、図1の入力AVデータメモリ41内のAV
信号データに代えて、この環境適応化用AV信号に基づ
いて、図1の音声認識装置200を用いて音声認識す
る。環境適応化処理部50は、図9のフローチャートに
示されたストリームの重み係数の環境適応化処理を実行
し、具体的には、図1のHMM学習部17により生成さ
れた、学習された音声及び画像の合成HMMにおける各
音素の重み係数を、例えば図10に示す二分木の木構造
のクラスタリング木などの所定のクラスタリングの基準
を用いて複数のクラスにクラスタリングし、各クラスに
属する各音素の重み係数を、音声認識装置200内の音
声認識部26で演算される対数尤度に基づいて、誤認識
が少なくなるように(具体的には、数6で示す誤分類測
度dxが小さくなるように)再学習することにより合成
HMMを環境適応化することを特徴としている。ここ
で、好ましくは、各クラスの環境適応化用信号データの
数が所定のしきい値未満となるように環境適応化処理の
再学習を繰り返す。そして、再学習された合成HMMを
用いて、図1の音声認識装置200は音声認識処理を行
う。
<Second Embodiment> FIG. 8 is a block diagram showing a configuration of an environment adapting apparatus 300 according to a second embodiment of the present invention. In the environment adapting apparatus 300 according to the second embodiment, in the same format as the learning AV data memory 31 of FIG. 1, a plurality of utterance voice signals and an image signal of the speaker's lips at the time of utterance are included. AV word data memory for environment adaptation with word AV signal data having phoneme labels
In the input AV data memory 41 of FIG.
Voice recognition is performed using the voice recognition device 200 of FIG. 1 based on the environment adaptation AV signal instead of the signal data. The environment adaptation processing unit 50 executes the environment adaptation processing of the stream weight coefficients shown in the flowchart of FIG. 9, and specifically, learns the learned speech generated by the HMM learning unit 17 of FIG. 1. And a weighting factor of each phoneme in the image-synthesizing HMM is clustered into a plurality of classes using a predetermined clustering criterion such as a binary tree tree clustering tree shown in FIG. Based on the log likelihood calculated by the speech recognition unit 26 in the speech recognition apparatus 200, the weighting coefficient is set so that misrecognition is reduced (specifically, the misclassification measure d x shown in Expression 6 is reduced). As described above, the synthetic HMM is adapted to the environment by re-learning. Here, preferably, the re-learning of the environment adaptation process is repeated so that the number of environment adaptation signal data of each class becomes less than a predetermined threshold value. Then, the speech recognition device 200 in FIG. 1 performs a speech recognition process using the re-learned synthesized HMM.

【0037】まず、本実施形態に係る再学習法である環
境適応化法について以下に説明する。
First, an environment adaptation method which is a relearning method according to the present embodiment will be described below.

【0038】従来技術の項で述べたように、音声のHM
Mと、画像のHMMとを統合するときに、周辺の環境に
応じてどちらの情報を重視するかを決定することが重要
な問題となる。この問題は、具体的には、第1の実施形
態に係る合成統合法により、統合を行ったHMMの認識
率がピークとなる音声と画像のストリーム重みを、ユー
ザが発話した適応データから、環境に応じて適応化する
方法が考えられる。しかしながら、音声のSNRを推定
するのは難しいので、ストリーム重みを推定するために
は、他の基準が必要となる。通常、音声と画像の尤度の
ダイナミックレンジが大きく違うために、尤度最大化基
準(ML基準)による学習では、良い性能が得られない
ことが知られている。従って、本実施形態では、最小分
類誤り基準(MCE基準)による学習を用いて、具体的
には、公知のGPD(Generalized Probabilistic Desc
ent method;一般化された確率的降下法)アルゴリズム
(例えば、従来技術文献2「Gerasimos Potamianos et
al.,”Discriminative training of HMM stream expone
nts for Audio-Visual speech recognition”,Proceedi
ng of ICASSP-98,Vol.6,pp.3733-3736,May 1998」、及
び従来技術文献3「Chiyomi Miyajima et al.,”Audio-
Visual speech recognition using MCE-basedHMMs and
model-dependent stream weights”,Proceeding of ICS
LP2000,Vol.2,pp.1023-1026,2000」など参照。)を用い
て、合成HMMを再学習することにより環境適応化す
る。GPDアルゴリズムを用いる理由は以下の通りであ
る。音声と画像のストリームの重み係数は、音素毎に違
い、従って、適応データ数に応じて、ストリームの重み
係数のクラスタリングの単位は音素クラスごとに分割し
たほうが良いと考えられる。MCE基準の方法の1つで
ある直接探索法に対して、GPDアルゴリズムは、多変
数にも適用可能で、応用性が高いアルゴリズムである。
As described in the related art section, the HM
When integrating M and the HMM of an image, it is important to determine which information is to be prioritized according to the surrounding environment. Specifically, the problem is that, by the synthesis integration method according to the first embodiment, the stream weight of the audio and the image at which the recognition rate of the integrated HMM reaches a peak is determined from the adaptation data spoken by the user. A method of adapting according to the situation can be considered. However, it is difficult to estimate the SNR of speech, so other criteria are needed to estimate the stream weight. Normally, it is known that good performance cannot be obtained by learning based on the maximum likelihood criterion (ML criterion) because the dynamic range of the likelihood between voice and image greatly differs. Therefore, in the present embodiment, using the learning based on the minimum classification error criterion (MCE criterion), specifically, a known GPD (Generalized Probabilistic Desc
ent method; generalized stochastic descent method) algorithm (for example, see Prior Art Document 2 “Gerasimos Potamianos et
al., ”Discriminative training of HMM stream expone
nts for Audio-Visual speech recognition ”, Proceedi
ng of ICASSP-98, Vol. 6, pp. 3733-3736, May 1998 ", and prior art document 3" Chiyomi Miyajima et al., "Audio-
Visual speech recognition using MCE-basedHMMs and
model-dependent stream weights ”, Proceeding of ICS
LP2000, Vol.2, pp.1023-1026,2000 ". ) To adapt the environment by re-learning the composite HMM. The reason for using the GPD algorithm is as follows. The weighting factors of the audio and image streams are different for each phoneme. Therefore, it is considered that the clustering unit of the stream weighting factors should be divided for each phoneme class according to the number of adaptive data. In contrast to the direct search method, which is one of the methods based on the MCE, the GPD algorithm is an algorithm that can be applied to multiple variables and has high applicability.

【0039】次いで、ストリームの重み係数の環境適応
について説明する。
Next, the adaptation of the stream weight coefficient to the environment will be described.

【0040】GPDアルゴリズムによるストリームの重
み係数推定法では、正しい分類と誤った分類との距離の
情報を表す誤分類測程度を含む、滑らかな損失関数を最
小化するように、HMMのストリームの重み係数を推定
する。ここでは、GPDアルゴリズムに基づく音素毎の
ストリームの重み係数を推定する処理について以下に説
明する。
In the stream weighting coefficient estimation method using the GPD algorithm, the weight of an HMM stream is minimized so as to minimize a smooth loss function including a misclassification measure indicating information on a distance between a correct classification and an incorrect classification. Estimate the coefficient. Here, the process of estimating the weight coefficient of the stream for each phoneme based on the GPD algorithm will be described below.

【0041】まず、ある単語の発話音声データxの特徴
ベクトル系列Oを
First, a feature vector sequence O of uttered voice data x of a certain word is

【数4】 O=[ox(1),…,ox(t),…,ox(Tx)] とする。ここで、tは時刻フレーム、ox(t)はS個
のストリーム(モダリティ)をもったベクトルである。
次に、HMMの状態のある集合Cに対するストリームの
重み係数セットを
[Number 4] O = [o x (1) , ..., o x (t), ..., o x (T x)] and. Here, t is the time frame, o x (t) is a vector with the S streams (modalities).
Next, a set of stream weighting factors for a set C with HMM states is

【数5】λc=[λc1,…,λcs,…,λcS] とし、全体のストリームの重み係数セットをΛ c = [λ c1 ,..., Λ cs ,..., Λ cS ], and the weight coefficient set of the entire stream is

【数6】Λ=[λ1,…,λc,…,λC] とする。ただし、Cは、音素毎のストリームの重み係数
のクラス数である。そのとき、ある単語の発話音声デー
タxを、それに対応する単語HMM(図1の単語HMM
メモリ42に格納されている)を用いて、例えば、ビタ
ビアルゴリズムで音声認識した時の、HMMの状態系列
6 = [λ 1 ,..., Λ c ,..., Λ C ]. Here, C is the number of classes of the weight coefficient of the stream for each phoneme. At this time, the utterance voice data x of a certain word is converted to the corresponding word HMM (the word HMM in FIG. 1).
For example, the state sequence of the HMM at the time of voice recognition by the Viterbi algorithm is

【数7】Qx={qx(t);t=1,…,Tx} とすると、そのときの対数尤度Lx Rは、次式で表され
る。
Assuming that Q x = {q x (t); t = 1,..., T x }, the log likelihood L x R at that time is represented by the following equation.

【0042】[0042]

【数8】 (Equation 8)

【数9】 (Equation 9)

【0043】このように、ストリームの重み係数のセッ
トΛの関数として表すことができる。ただし、数9にお
いて、bjs[ox,s(t)]は、状態jにおいて、スト
リームsの特徴ベクトルox,s(t)を観測する確率qx
(t)が、もしqx(t)=jであるとき、δj qx(t)
1であり、もしqx(t)≠jであるとき、δj qx(t)
0である。同様に、単語の発話音声データxに対して、
誤った単語HMMの中で、n番目の候補により認識した
場合の対数尤度Lx Fnは、次式で表される。
Thus, it can be expressed as a function of the set of stream weighting factors Λ. In Equation 9, b js [ox , s (t)] is the probability q x of observing the feature vector ox , s (t) of the stream s in the state j.
If (t) is q x (t) = j, δ j qx (t) =
1 and if q x (t) ≠ j, δ j qx (t) =
0. Similarly, for the utterance voice data x of the word,
The log likelihood L x Fn when the word HMM is erroneously recognized by the nth candidate is represented by the following equation.

【0044】[0044]

【数10】 (Equation 10)

【0045】次に、誤分類測度dxを次式のように定義
する。
Next, the misclassification measure d x is defined as follows.

【0046】[0046]

【数11】 [Equation 11]

【0047】この誤分類測度dxは、小さいほど分類誤
り、つまり誤認識が少なくなることを表現する。しか
し、上記数9及び数10は、最尤の状態系列での尤度を
計算するため、滑らかでない関数になる場合がある。そ
こで、誤分類測度dxを用いて次式のようにシグモイド
関数の形に変換し、滑らかな損失関数を定義する。
[0047] The misclassification measure d x expresses that about classification error small, i.e. erroneous recognition is reduced. However, Equations 9 and 10 above may calculate non-smooth functions in order to calculate the likelihood in the maximum likelihood state sequence. Then, using the misclassification measure d x , the form is converted into a sigmoid function as in the following equation, and a smooth loss function is defined.

【0048】[0048]

【数12】 (Equation 12)

【0049】また、勾配の方向を安定させるために、全
体の適応データに対して次式の損失関数をおく。
In order to stabilize the direction of the gradient, a loss function of the following equation is set for the entire adaptive data.

【0050】[0050]

【数13】 (Equation 13)

【0051】ただし、Xは適応データの総数である。全
体のストリームの重み係数Λは、GPDアルゴリズムを
用いて次式により更新される。
Where X is the total number of adaptive data. The weight coefficient の of the entire stream is updated by the following equation using the GPD algorithm.

【0052】[0052]

【数14】Λk+1=Λk−εkk∇L(Λ)|Λ = Λ k,k
=1,2,…のとき
14 k + 1 = Λ k −ε k E k ∇L (Λ) | Λ = Λ k , k
= 1, 2, ...

【0053】ここで、Ekは単位行列である。Here, E k is a unit matrix.

【0054】[0054]

【数15】 (Equation 15)

【数16】 (Equation 16)

【0055】上記の式を満たすと、このアルゴリズムは
収束することが証明されている(例えば、従来技術文献
4「W.Chou et al.”A minimum error rate pattern re
cognition approach to speech recognition”,Journal
of Pattern Recognition and artificial intelligenc
e, Column VIII, pp.5-31, 1994」など参照。)。
It has been proved that this algorithm converges if the above equation is satisfied (for example, see W. Chou et al., A minimum error rate pattern re
cognition approach to speech recognition ”, Journal
of Pattern Recognition and artificial intelligenc
e, Column VIII, pp. 5-31, 1994 ". ).

【0056】さらに、ストリームの重み係数の更新式に
ついて説明する。ここでは、実際に、上記数14を計算
するための、式の展開を述べる。ただし、簡潔に記述す
るために(Λ)を省略する。まず、GPDアルゴリズム
の処理において、各々のストリームの重み係数のクラス
cに
Further, a description will be given of a formula for updating the weight coefficient of the stream. Here, a description will be given of the expansion of the equation for actually calculating the above equation (14). However, (Λ) is omitted for simplicity. First, in the process of the GPD algorithm, the weight coefficient class c of each stream is

【数17】 の制限を加えるために、[Equation 17] To add

【数18】 を満たす変換(Equation 18) A transformation that satisfies

【数19】λhcs=logλcs を行う。そして、上記数14によりストリームの重み係
数を更新するために、上記数12及び数13から、次式
を計算する。
Λ h cs = log λ cs is performed. Then, in order to update the weight coefficient of the stream by the above equation (14), the following equation is calculated from the above equations (12) and (13).

【0057】[0057]

【数20】 (Equation 20)

【0058】ここで、Here,

【数21】 (Equation 21)

【数22】 である。(Equation 22) It is.

【0059】ここで、B=R又はFnであり、Cはスト
リームの重み係数の値をクラスタリングしたときのHM
Mの状態の集合である。上記数12、上記数20乃至数
22を計算し、上記数14によりストリームの重み係数
を更新する。最後に、各ステップの更新後に上記数18
により変換する。
Here, B = R or Fn, and C is the HM when the values of the weighting factors of the stream are clustered.
A set of M states. Equations (12) and (20) to (22) are calculated, and the weight coefficient of the stream is updated by the equation (14). Finally, after updating each step,
Is converted by

【0060】さらに、木構造を用いたストリームの重み
係数のクラスタリングの単位の細分化について説明す
る。本実施形態では、音素HMMのストリームの重み係
数を基本単位とし、適応データ数に応じ、ストリームの
重み係数のクラスタリングの単位をトップダウンに分割
していく方法を検討する。
Further, the subdivision of the unit of clustering of the weighting factor of the stream using the tree structure will be described. In the present embodiment, a method is considered in which the weighting factor of the stream of the phoneme HMM is used as a basic unit, and the clustering unit of the weighting factor of the stream is divided top-down according to the number of adaptive data.

【0061】まず、HMMのクラスタリングを行う基準
となる木構造を作る。木構造を作成する手順として、複
数の質問を用意し、それらの質問に対してHMMのクラ
スタリングを行う。今回の実験で用いた質問(各ノード
に割り当てられる)の一例は、以下の3項目である。 (1)HMMが母音か子音のどちらであるか? (2)有声音か無声音のどちらであるか? (3)調音位置が唇周辺であるかどうか? 以上のようにクラスタリングを行うことで、音声の先見
知識をストリームの重み係数推定に組み込むことができ
る。
First, a tree structure as a reference for performing HMM clustering is created. As a procedure for creating a tree structure, a plurality of questions are prepared, and HMM clustering is performed on those questions. Examples of the questions (assigned to each node) used in this experiment are the following three items. (1) Is the HMM a vowel or a consonant? (2) Is it voiced or unvoiced? (3) Whether the articulation position is around the lips? By performing the clustering as described above, the foresight knowledge of the voice can be incorporated in the weight coefficient estimation of the stream.

【0062】そして、予め用意された複数の質問から、
1つの質問を選択し、HMMをクラスタリングする。質
問には、予備実験で最も認識性能の良かった”有声音か
無声音であるか”の質問を選択した。このときの、HM
Mをクラスタリングするときの基準となる二分木構造の
クラスタリング木の一例を図10に示す。これ例では、
ルートノード101において、有声音であるか否かが判
断され、YESのときはクラスタノード102に進んで
クラスタリングされる一方、NOのときはクラスタノー
ド103に進んでクラスタリングされる。そして、より
下の階層に向かってクラスタリングの処理が繰り返され
る。また、環境適応化時に、損失関数(数12)を最小
化する質問を選択する方法が考えられるが、損失関数は
認識性能に必ずしも一致せず、適応化時の計算量の増加
を招いてしまう。従って、このように、予め作成した木
構造を用いて環境適応化時に、音素毎のストリームの重
み係数のクラスタリング単位を分割していくことにし
た。
Then, from a plurality of questions prepared in advance,
Select one question and cluster the HMM. As the question, the question "whether voiced or unvoiced" with the best recognition performance in the preliminary experiment was selected. HM at this time
FIG. 10 shows an example of a clustering tree having a binary tree structure as a reference when M is clustered. In this example,
At the root node 101, it is determined whether or not it is a voiced sound. If YES, the process proceeds to the cluster node 102 to perform clustering, whereas if NO, the process proceeds to the cluster node 103 to perform clustering. Then, the clustering process is repeated toward lower layers. In addition, a method of selecting a question that minimizes the loss function (Equation 12) at the time of environmental adaptation can be considered. However, the loss function does not always match the recognition performance, and the amount of calculation at the time of adaptation is increased. . Therefore, the clustering unit of the weighting factor of the stream for each phoneme is divided at the time of environment adaptation using the tree structure created in advance.

【0063】次いで、図8の環境適応化装置300の構
成及び動作について以下に説明する。図8において、環
境適応化用AV単語データメモリ51は、図1の学習用
AVデータメモリ31と同様の形式で、発話音声信号
と、発話時の話者の唇の画像信号とを含む複数の単語の
AV信号データが音素ラベル付きで環境適応化用AV単
語データメモリ51に格納される。図1の音声認識装置
200は、図1の入力AVデータメモリ41内のAV信
号データに代えて、この環境適応化用AV信号に基づい
て音声認識して対数尤度を演算して環境適応化処理部5
0に出力する。そして、環境適応化処理部50は、図9
のストリームの重み係数の環境適応化処理を実行する。
具体的には、図1のHMM学習部17により生成され
た、学習された音声及び画像の合成HMMにおける各音
素の重み係数を、例えば図10に示す二分木の木構造の
クラスタリング木などの所定のクラスタリングの基準を
用いて複数のクラスにクラスタリングし、各クラスに属
する各音素の重み係数を、音声認識装置200内の音声
認識部26で演算される対数尤度に基づいて、誤認識が
少なくなるように(具体的には、数6で示す誤分類測度
xが小さくなるように)再学習することにより合成H
MMを環境適応化する。ここで、各クラスの環境適応化
用信号データの数が所定のしきい値未満となるように環
境適応化処理の再学習を繰り返す。そして、再学習され
た合成HMMを用いて、図1の音声認識装置200は音
声認識処理を行う。
Next, the configuration and operation of the environment adapting apparatus 300 shown in FIG. 8 will be described below. In FIG. 8, the environment-adaptive AV word data memory 51 has a format similar to that of the learning AV data memory 31 of FIG. 1, and includes a plurality of utterance voice signals and an image signal of the lips of the speaker at the time of utterance. The word AV signal data is stored in the environment adaptation AV word data memory 51 with a phoneme label. The speech recognition apparatus 200 shown in FIG. 1 performs speech recognition based on the AV signal for environment adaptation instead of the AV signal data in the input AV data memory 41 shown in FIG. Processing unit 5
Output to 0. Then, the environment adaptation processing unit 50 executes the processing shown in FIG.
Of the stream weight coefficient of the stream.
Specifically, the weighting factor of each phoneme in the synthesized HMM of the learned speech and image generated by the HMM learning unit 17 in FIG. 1 is determined by a predetermined value such as a clustering tree having a binary tree structure shown in FIG. Is clustered into a plurality of classes using the clustering criterion, and the weighting factor of each phoneme belonging to each class is reduced based on the log likelihood calculated by the voice recognition unit 26 in the voice recognition device 200. (Specifically, so that the misclassification measure d x shown in Expression 6 is reduced) so that the combined H
Environmental adaptation of MM. Here, the re-learning of the environment adaptation process is repeated so that the number of environment adaptation signal data of each class becomes less than a predetermined threshold value. Then, the speech recognition device 200 in FIG. 1 performs a speech recognition process using the re-learned synthesized HMM.

【0064】図9は、図8の環境適応化処理部50によ
って実行されるストリームの重み係数の環境適応化処理
を示すフローチャートである。
FIG. 9 is a flowchart showing the process of adapting the environment of the stream weighting coefficients performed by the environment adaptation processing unit 50 of FIG.

【0065】図9において、まず、ステップS1におい
て、音素毎の初期のストリームの重み係数を、すべての
HMMについて同一に設定する(初期化処理)。すなわ
ち、すべてのHMMについて、クラスタリング木のルー
トノードにおける各音素のストリームの重み係数を1つ
のクラスとし、例えば、0.5に初期化する。次いで、
ステップS2において、クラスタリング木において次の
下の階層にある各々のノードについて、同じクラスタに
属するHMMのストリームの重み係数を1つのクラスに
クラスタリングし、ステップS3において、各音素のス
トリームの重み係数の初期値を上の階層で推定された値
とする。そして、ステップS4において、各クラスの適
応データ数<しきい値(例えば、20)であるか否かを
判断する。ここで、YESであるときは、クラスタリン
グが十分に行われたと判断し、ステップS5において、
ストリームの重み係数を上記推定された定数の推定値と
してステップS7に進む。一方、ステップS4でNOで
あるときは、クラスタリングが十分に行われていないと
判断し、ステップS6において、ストリームの重み係数
を変数更新対象の推定値とし、ステップS7に進む。ス
テップS7において、すべてのクラスについてステップ
S4の処理をしたか否かが判断され、NOであるとき
は、ステップS4に戻りステップS4の処理を実行す
る。一方、ステップS7でYESであるときは、ステッ
プS8で更新対象となるストリームの重み係数があるか
否かが判断され、YESであるときは、ステップS9に
おいて、GPDアルゴリズムを用いて(上述の更新式を
用いて)所定のn回の更新を繰り返し、ストリームの重
み係数を更新することにより、合成HMMメモリ34に
格納された合成HMMを環境適応化した後、ステップS
2に戻る。一方、ステップS8でNOであるときは、当
該環境適応化処理を終了する。
In FIG. 9, first, in step S1, the initial stream weighting factor for each phoneme is set to be the same for all HMMs (initialization processing). That is, for all HMMs, the weighting factor of each phoneme stream at the root node of the clustering tree is set to one class, and is initialized to, for example, 0.5. Then
In step S2, for each node in the next lower hierarchy in the clustering tree, the weighting factors of the HMM streams belonging to the same cluster are clustered into one class, and in step S3, the initial weighting factor of the weighting factor of each phoneme stream is clustered. Let the value be the value estimated in the upper layer. Then, in step S4, it is determined whether or not the number of adaptive data of each class <the threshold value (for example, 20). Here, if YES, it is determined that clustering has been sufficiently performed, and in step S5,
The process proceeds to step S7, using the weight coefficient of the stream as the estimated value of the estimated constant. On the other hand, if NO is determined in the step S4, it is determined that the clustering is not sufficiently performed, and in step S6, the weight coefficient of the stream is set as the estimated value of the variable update target, and the process proceeds to step S7. In step S7, it is determined whether or not the process of step S4 has been performed for all the classes. If NO, the process returns to step S4 and executes the process of step S4. On the other hand, if YES is determined in the step S7, it is determined whether or not there is a weight coefficient of the stream to be updated in a step S8. If YES, in a step S9, the GPD algorithm is used (as described above). After the update of the stream by a predetermined number of times (using the formula) and updating of the weighting factor of the stream, the combined HMM stored in the combined HMM memory 34 is environment-adapted.
Return to 2. On the other hand, if NO in step S8, the environment adaptation process ends.

【0066】この手法を用いる理由として、ルートノー
ドから、順に、ストリームを推定し、それを初期値とし
て用いることで、安定した解に推定されるということ
と、適応データ数に応じて、精度の良いHMMの適応化
が行われるということがあげられる。ただし、計算時間
は木の深さが大きくなるにつれて増加し、膨大な量とな
ってしまう。本実施形態では、分割の有効性を確認する
ことを第1の目的にし、木の深さは最大2とし、GPD
アルゴリズムによる処理の繰り返し回数nは、最大8回
に設定した。
The reason for using this method is that a stream is estimated in order from the root node and is used as an initial value, so that a stable solution is estimated. A good HMM adaptation is performed. However, the calculation time increases as the depth of the tree increases, and becomes enormous. In the present embodiment, the first purpose is to confirm the effectiveness of the division, the tree depth is set to a maximum of 2, and the GPD
The number of repetitions n of the processing by the algorithm was set to a maximum of eight.

【0067】以上の実施形態においては、クラスタリン
グの基準としてクラスタリング木を用いたが、本発明は
これに限らず、例えば所定の基準式など別の基準を用い
てもよい。
In the above embodiment, a clustering tree is used as a reference for clustering. However, the present invention is not limited to this, and another reference such as a predetermined reference formula may be used.

【0068】[0068]

【実施例】<第2の実施形態の実施例>本発明者らは、
第2の実施形態に係る環境適応化装置に対する評価実験
として、200単語×2セットの認識実験を行った。評
価として、2セットの単語認識率の平均を用いた。表2
に実験条件を示す。この実験では、音響実験室で、特定
話者(女性話者1人)が本願出願人が所有する発声リス
トの5240単語を発話している音声データのデータベ
ースを用いた。
Example <Example of Second Embodiment> The present inventors
As an evaluation experiment for the environment adaptation apparatus according to the second embodiment, a recognition experiment of 200 words × 2 sets was performed. As an evaluation, an average of two sets of word recognition rates was used. Table 2
Shows the experimental conditions. In this experiment, a database of audio data in which a specific speaker (one female speaker) uttered 5,240 words in an utterance list owned by the present applicant was used in an acoustic laboratory.

【0069】[0069]

【表2】 実験条件 ――――――――――――――――――――――――――――――――――― 音声 標本化周波数:12kHz 分析窓関数:ハミング窓 フレーム長:32msec フレームシフト:8msec パラメータ:MFCC16次元、ΔMFCC16次元 ――――――――――――――――――――――――――――――――――― 画像 フレームシフト:33msec 前処理1:RGB信号から256階調の濃淡画像信号への変換 前処理2:ヒストグラム平坦化処理 前処理3:唇位置の正規化処理 パラメータ:平滑化対数パワースペクトル35次元、及び 平滑化対数Δパワースペクトル35次元 ――――――――――――――――――――――――――――――――――― HMMの状態数 音声3、画像2 ――――――――――――――――――――――――――――――――――― 確率密度関数 ガウス分布:2混合 HMM 音素環境独立55音素モデル ――――――――――――――――――――――――――――――――――― 学習データ 音声及び画像同期データ 女性話者1名、4740単語 ――――――――――――――――――――――――――――――――――― テストデータ 200単語(2セット)(オープン条件) ――――――――――――――――――――――――――――――――――― 適応データ 学習データとテストデータ以外の単語データ ――――――――――――――――――――――――――――――――――― 適応化時の認識辞書 テストセットの語彙を含む500単語辞書 ―――――――――――――――――――――――――――――――――――[Table 2] Experimental conditions ――――――――――――――――――――――――――――――――― Voice Sampling frequency: 12 kHz Analysis window function : Hamming window Frame length: 32 msec Frame shift: 8 msec Parameter: MFCC 16 dimension, ΔMFCC 16 dimension ―――――――――――――――――――――――――――――――― ――― Image Frame shift: 33 msec Preprocessing 1: Conversion from RGB signals to 256-level grayscale image signal Preprocessing 2: Histogram flattening Preprocessing 3: Lip position normalization Processing Parameter: Smoothed log power spectrum 35 dimensions and smoothed logarithmic Δ power spectrum 35 dimensions ――――――――――――――――――――――――――――――――― HMM status Number 3 Audio, Image 2 ―――――――― ―――――――――――――――――――――――――― Probability density function Gaussian distribution: 2 mixture HMM Phoneme environment independent 55 phoneme model ――――――――― ―――――――――――――――――――――――――― Learning data Voice and image synchronization data One female speaker, 4740 words ――――――――― ―――――――――――――――――――――――――― Test data 200 words (2 sets) (open condition) ―――――――――――― ――――――――――――――――――――――― Adaptive data Word data other than training data and test data ―――――――――――――――― ――――――――――――――――――― Recognition dictionary at the time of adaptation 500 words dictionary containing vocabulary of test set ―――――――――――――――― ―――――― ------------

【0070】音声と比べて画像のフレームシフトは長い
ため、画像は、同じフレームを埋め込み、音声と画像の
フレームシフトを調整を行う。また、収録した画像デー
タは発話単語により、照明条件の違いや顔の傾きなどが
見られる。そこで、前処理として、ヒストグラム平坦
化、基準フレームとの輝度の差分を最小化するように唇
位置の正規化を行った。
Since the frame shift of the image is longer than that of the sound, the same frame is embedded in the image, and the frame shift of the sound and the image is adjusted. The recorded image data shows differences in lighting conditions, face inclination, and the like depending on the utterance word. Therefore, as preprocessing, histogram flattening and lip position normalization were performed so as to minimize the difference in luminance from the reference frame.

【0071】音声HMMの作成には、音響実験室で収録
したクリーンな音声データからMFCCを求め、それを
特徴ベクトルとしてモデル作成を行った。また、画像H
MMは、前処理後の画像に2次元FFTを行い、対数パ
ワースペクトルを求める。そして、その周波数領域を6
×6の領域分割を行い、直流成分を除いた領域の平滑化
対数パワースペクトルを特徴ベクトルとしてモデル作成
を行った。本実験では、音声及び画像の合成HMMは、
各ストリームの重み係数を1:1と等しい重み係数で学
習を行っている。
To create the audio HMM, an MFCC was obtained from clean audio data recorded in an acoustic laboratory, and a model was created using the MFCC as a feature vector. Also, the image H
The MM performs a two-dimensional FFT on the preprocessed image to obtain a logarithmic power spectrum. Then, the frequency range is set to 6
A × 6 area division was performed, and a model was created using the smoothed logarithmic power spectrum of the area excluding the DC component as a feature vector. In this experiment, the synthesized HMM of voice and image is
Learning is performed with a weight coefficient of each stream being equal to 1: 1.

【0072】また、比較として音声のみ、画像のみ及び
音声と画像を初期統合した場合の認識実験も行った。音
声のみの実験は3状態のHMM、画像のみの実験は2状
態のHMM、そして初期統合法は3状態のHMMを用い
た。HMMの形状は、いずれも左から右方向へのlef
t−to−right型である。
As a comparison, a recognition experiment was performed in which only voice, only image, and voice and image were initially integrated. The experiment using only speech used a 3-state HMM, the experiment using only images used a 2-state HMM, and the initial integration method used a 3-state HMM. The shape of each HMM is ref from left to right.
It is a t-to-right type.

【0073】環境適応化時の実験条件として、適応デー
タは、学習データとテストデータ以外の単語発話データ
を用いた。従って、適応データは、テストデータと発話
内容は異なっている。また、適応データ数を、15、2
5、50、75及び100単語とした場合についてスト
リームの重み係数推定を行った。ただし、適応データ数
が15単語の場合は、発話内容により推定されるストリ
ームの重み係数が大きく異なる。そのため、適応データ
数が15単語の場合は、適応データ3セットについての
認識率の平均とする。適応化時の辞書は、適応データの
単語とテストデータの単語を含む500単語の辞書を用
いた。
As the experiment conditions at the time of environmental adaptation, word utterance data other than learning data and test data was used as adaptation data. Therefore, the adaptation data differs from the test data in the utterance content. In addition, the number of adaptive data is set to 15, 2,
Stream weighting factors were estimated for 5, 50, 75 and 100 words. However, when the number of adaptive data is 15 words, the weighting factors of the streams estimated based on the utterance contents are significantly different. Therefore, when the number of adaptive data is 15 words, the average of the recognition rates for three sets of adaptive data is used. As a dictionary at the time of adaptation, a dictionary of 500 words including words of adaptation data and words of test data was used.

【0074】誤分類測定度の数11において、誤りの候
補数をN=1とし、GPDアルゴリズムの数12におい
て、α=0.1とした。また、上記数14において、す
べてのストリームの重み係数がクラスタリングされてい
るときεk=200/kとし、ストリームの重み係数の
クラスタリングの単位を分割した後はεk=100/k
とし、すべてのストリームの重み係数をクラスタリング
したときよりも、緩やかに収束させている。
In Equation 11 of the misclassification measurement degree, the number of error candidates is N = 1, and in Equation 12 of the GPD algorithm, α is 0.1. In Equation 14, when the weighting factors of all the streams are clustered, ε k = 200 / k, and after dividing the unit of the clustering of the weighting factors of the stream, ε k = 100 / k.
And converges more slowly than when the weighting factors of all the streams are clustered.

【0075】次いで、環境適応化の実験結果について以
下に説明する。
Next, the results of experiments for environmental adaptation will be described below.

【0076】まず、合成統合法と他の統合方法の認識率
を比較する。図11、図12及び図13に、音声のスト
リームの重み係数と画像のストリームの重み係数を上記
数17を満たすように、音声のストリームの重み係数を
変化させたときの初期統合法と合成統合法の認識結果を
示す。また、音声のみと画像のみの認識率もあわせて示
す。ここで、図11は、SNRが10dBになるように
音声に白色ガウス雑音を加えた場合の認識結果であり、
図12は、同様にSNRが20dBのときの認識結果で
ある。そして、図13は、収録データにノイズを加えて
いない場合の認識結果である。さらに、図11乃至図1
3の各図に、50単語の適応データからGPDアルゴリ
ズムで推定されたストリームの重み係数の値を示す。た
だし、推定したストリームの重み係数は、再学習を行っ
た合成統合法の場合である。
First, the recognition rates of the synthesis integration method and other integration methods are compared. FIGS. 11, 12 and 13 show the initial integration method and the synthesis integration when the weight factor of the audio stream is changed so that the weight coefficient of the audio stream and the weight coefficient of the image stream satisfy Equation 17 above. The recognition result of the law is shown. In addition, the recognition rates of only voice and only image are also shown. Here, FIG. 11 is a recognition result when white Gaussian noise is added to the voice so that the SNR becomes 10 dB.
FIG. 12 shows a recognition result when the SNR is 20 dB. FIG. 13 shows a recognition result when no noise is added to the recorded data. 11 to FIG.
3 shows the value of the weight coefficient of the stream estimated by the GPD algorithm from the adaptive data of 50 words. However, the weight coefficients of the estimated streams are for the synthesis integration method in which relearning has been performed.

【0077】図11乃至図13から、バイモーダル音声
認識システムは、あるストリームの重み係数の値で認識
率のピークをもつ傾向があり、このピークを推定するこ
とで単一モーダルの認識システムより高い認識性能が得
られることが分かる。そして、GPDアルゴリズムによ
って、認識率のピークに近いストリームの重み係数の値
が推定できることが分かる。また、合成した音声及び画
像の合成HMMを再学習する合成統合法(再学習有り)
は、初期統合法と再学習しない合成統合法(再学習無
し)よりも高い認識性能が得られることが分かる。これ
は、初期統合法は、音声と画像が同期していると仮定
し、再学習しない合成統合法は、同期性を学習していな
いが、再学習する合成統合法は、音声と画像の同期関係
を学習しているためであると考えられる。また、予備実
験で音声と画像HMMを合成せずに、単にHMMの状態
数を増やし形状を変えて、音声及び画像データで学習し
た場合は、パラメータ推定がうまくいかず、合成HMM
をもとに学習したものより、高い性能は得られなかっ
た。このことから、音声と画像HMMを合成すること
で、良い初期モデルを与えることができると考えられ
る。さらに、学習できない場合も、合成モデルを初期モ
デルとしてそのまま使うことができる。
From FIGS. 11 to 13, it can be seen that the bimodal speech recognition system tends to have a peak in the recognition rate at the value of the weight coefficient of a certain stream, and by estimating this peak, the bimodal speech recognition system is higher than the single-modal speech recognition system. It can be seen that recognition performance can be obtained. Then, it can be seen that the value of the weight coefficient of the stream close to the peak of the recognition rate can be estimated by the GPD algorithm. Also, a synthesis integration method for re-learning a synthesized HMM of synthesized voice and image (with re-learning)
It can be seen that the recognition performance obtained is higher than the initial integration method and the synthesis integration method without re-learning (no re-learning). This is because the initial integration method assumes that the audio and the image are synchronized, and the synthesis integration method that does not re-learn does not learn the synchronization, but the synthesis integration method that re-learns does not synchronize the audio and the image. This is probably because they are learning the relationship. Also, in the preliminary experiment, if the learning is performed with the voice and image data by simply increasing the number of states of the HMM and changing the shape without synthesizing the voice and the image HMM, the parameter estimation is not successful, and the synthesized HMM
Higher performance was not obtained than those learned based on. From this, it is considered that a good initial model can be given by synthesizing the voice and the image HMM. Further, even when learning is not possible, the composite model can be used as an initial model as it is.

【0078】次に、ストリームの重み係数を分割せず
に、音声と画像のストリームの重み係数値をGPDアル
ゴリズムで推定した場合の実験結果を考察する。表3
に、音声がクリーンな場合及び音声のSNRが20d
B、10dBとなるように白色ガウス雑音を加えた場合
に、音声と画像のストリームの重み係数を分割せずに環
境適応したときの認識率を示す。また、適応データは無
作為に選択している。
Next, an experimental result in the case where the weight coefficient values of the audio and video streams are estimated by the GPD algorithm without dividing the weight coefficients of the streams will be considered. Table 3
When the sound is clean and the SNR of the sound is 20d
B shows the recognition rate when the environment adaptation is performed without dividing the weight coefficients of the audio and video streams when white Gaussian noise is added so as to be 10 dB. The adaptation data is selected at random.

【0079】[0079]

【表3】 音声及び画像ストリームの重み係数を環境適応した場合の単語認識率結果 ――――――――――――――――――――――――――――――――――― 適応データ数 雑音のないクリーン SNR=20dB SNR=10dB (音素数) ――――――――――――――――――――――――――――――――――― 15単語(108)96.86% 77.15% 56.35% 25単語(193)97.28% 89.36% 69.06% 50単語(366)97.28% 87.38% 68.57% 75単語(521)97.03% 83.42% 65.60% 100単語(697)97.03% 87.38% 68.81% ―――――――――――――――――――――――――――――――――――[Table 3] Word recognition rate results when weighting factors of audio and video streams are adapted to the environment ――――――――――――――――――――――――――――― ―――――― Number of adaptation data Clean with no noise SNR = 20dB SNR = 10dB (phonemes) ――――――――――――――――――――――――――― ―――――――― 15 words (108) 96.86% 77.15% 56.35% 25 words (193) 97.28% 89.36% 69.06% 50 words (366) 97.28 % 87.38% 68.57% 75 words (521) 97.03% 83.42% 65.60% 100 words (697) 97.03% 87.38% 68.81% ――――――― ――――――――――――――――――――――――――――

【0080】表3から明らかなように、適応データ数が
15単語であるとき、低い認識率になる。これは、少数
の適応データ数から、音声と画像のストリームの重み係
数を推定するとき、その値がテストセットに対して、最
適なストリームの重み係数値から外れてしまうためであ
る。そこで、適応データの内容により、どのぐらい認識
率が変わるのかを調べるために、適応データが15単語
の場合と50単語の場合について、3回の認識実験を行
い、認識率の分散を調べた。適応データ数が15単語の
場合において、認識率の標準偏差は、10.18となり
適応データの発話内容で認識率がばらついていた。それ
に対して、50単語の標準偏差は、0.57となり、適
応データの違いで認識率のばらつきはほとんどなかっ
た。ただし、標準偏差は、音声が雑音のないクリーンな
とき、SNR=20dBのとき及び10dBのときの平
均値である。従って、少数の適応データから、音声と画
像のストリームの重み係数を推定する場合は、適応デー
タの発話内容を注意して選ばなければならないことがわ
かる。また、表3から、適応データ数が多いほど、適切
なストリームの重み係数が推定されることがわかる。最
後に、ストリームの重み係数を2分割をした場合の実験
結果を考察する。
As is clear from Table 3, when the number of adaptive data is 15 words, the recognition rate is low. This is because when estimating the weight coefficients of the audio and video streams from the small number of adaptive data, the values deviate from the optimal stream weight coefficient values for the test set. Therefore, in order to examine how much the recognition rate changes depending on the content of the adaptation data, three recognition experiments were performed for the case where the adaptation data was 15 words and 50 words, and the variance of the recognition rate was examined. When the number of adaptive data is 15 words, the standard deviation of the recognition rate is 10.18, and the recognition rate varies depending on the utterance contents of the adaptive data. On the other hand, the standard deviation of 50 words was 0.57, and there was almost no variation in the recognition rate due to the difference in the adaptation data. Here, the standard deviation is an average value when the voice is clean without noise, when SNR = 20 dB, and when 10 dB. Therefore, when estimating the weighting factors of the audio and video streams from a small number of adaptive data, it is understood that the utterance content of the adaptive data must be carefully selected. Also, from Table 3, it can be seen that the larger the number of adaptive data, the more the appropriate stream weighting factor is estimated. Finally, consider the experimental results when the stream weighting factor is divided into two.

【0081】表4に、適応データ数を変化させて、スト
リームの重み係数のクラスタリングの単位を2分割し、
音声と画像のストリームの重み係数を推定した場合の認
識率を示す。なお、適応データは、表3と同様のものを
選んでいる。実験では、更新する適応データ数のしきい
値は制限していない。従って、すべてのストリームの重
み係数のクラスが更新されている。
Table 4 shows that the unit of clustering of stream weighting factors is divided into two by changing the number of adaptive data.
The recognition rate when the weight coefficient of the audio and image streams is estimated is shown. Note that the same adaptive data as those in Table 3 are selected. In the experiment, the threshold of the number of adaptive data to be updated is not limited. Accordingly, the weight coefficient classes of all the streams have been updated.

【0082】[0082]

【表4】 音声及び画像ストリームの重み係数を2分割した場合の単語認識率結果 ――――――――――――――――――――――――――――――――――― 適応データ数 雑音のないクリーン SNR=20dB SNR=10dB ――――――――――――――――――――――――――――――――――― 15単語(58,50) 97.03% 77.39% 61.96% 25単語(104,89)97.52% 89.36% 68.57% 50単語(197,169) 97.28% 87.87% 66.34% 75単語(266,255) 97.03% 83.91% 65.85% 100単語(365,332) 97.28% 87.38% 68.57% ――――――――――――――――――――――――――――――――――― (注)適応データ数の( , )は(有声音の音素数、無声音の音素数)を表す 。[Table 4] Word recognition rate results when the weighting factors of audio and video streams are divided into two parts ――――――――――――――――――――――――――――― ―――――― Number of adaptation data Clean with no noise SNR = 20dB SNR = 10dB ――――――――――――――――――――――――――――― ―――― 15 words (58,50) 97.03% 77.39% 61.96% 25 words (104,89) 97.52% 89.36% 68.57% 50 words (197,169) 97.28 % 87.87% 66.34% 75 words (266,255) 97.03% 83.91% 65.85% 100 words (365,332) 97.28% 87.38% 68.57% ――――――― ―――――――――――――――――――――――――――― (Note) The number of adaptive data (,) is (the number of phonemes of voiced sound, unvoiced sound) It represents the number of phonemes).

【0083】表3と表4を比べると、適応データが50
単語以上になると、少し認識率が高くなっている場合が
あるが、それほど差は見られない。適応データ数が15
単語であるとき、ストリームの重み係数を分割しない場
合より、認識率が高い。これは、ストリームの重み係数
のクラスタリングの単位を分割することで、一方のスト
リームの重み係数のクラスがテストセットに対して最適
な値に近い値が推定されたことと、単にGPDアルゴリ
ズムの処理の繰り返し回数が増えたことがあげられる。
When Table 3 and Table 4 are compared, the adaptive data is 50
Above words, the recognition rate may be slightly higher, but there is not much difference. 15 adaptive data
When the word is a word, the recognition rate is higher than when the weight coefficient of the stream is not divided. This is because, by dividing the unit of the clustering of the weighting factor of the stream, the value of the class of the weighting factor of one stream is estimated to be a value close to the optimal value for the test set. This is because the number of repetitions has increased.

【0084】以上説明したように、本実施形態によれ
ば、音声と画像情報をHMMを用いて合成統合を行い、
さらに、合成統合されたHMMのストリームの重み係数
を環境適応した。その結果、音声と画像の同期性を確立
することができるとともに、音声認識時の誤認識を少な
くすることができる再学習された合成HMMを生成でき
る。また、従来例及び第1の実施形態に比較して良い音
声認識性能が得られる。
As described above, according to the present embodiment, voice and image information are synthesized and integrated using the HMM,
Further, the weight coefficient of the stream of the synthesized and integrated HMM was adapted to the environment. As a result, it is possible to generate a re-learned composite HMM that can establish synchronism between speech and images and reduce erroneous recognition during speech recognition. Further, better speech recognition performance can be obtained as compared with the conventional example and the first embodiment.

【0085】以上の第1と第2の実施形態において、各
演算又は処理部11−17,21−26,50はCPU
などのディジタル計算機で構成され、ハードウエア回路
で構成してもよいし、ソフトウエアのプログラムで構成
してもよい。また、各メモリ31−34,41,42,
51は例えばハードディスクメモリなどの記憶装置で構
成される。
In the first and second embodiments described above, each operation or processing unit 11-17, 21-26, 50
And the like, and may be constituted by a hardware circuit or may be constituted by a software program. Each of the memories 31-34, 41, 42,
Reference numeral 51 denotes a storage device such as a hard disk memory.

【0086】[0086]

【発明の効果】以上詳述したように本発明に係る音声及
び画像の合成モデル生成装置によれば、音声HMMと、
画像HMMとを、これら2つのHMMの各状態のすべて
の組み合わせにおいて音声と画像の出力確率の積を計算
して、各状態で出力確率の積を含む合成された合成HM
Mを生成することにより合成した後、上記生成された合
成HMMに基づいて、上記第1の記憶手段に格納された
ラベル付きAV信号を用いて、出力尤度が最大となるよ
うに連結学習することにより、学習された音声及び画像
の合成HMMを生成する。従って、音声と画像の同期性
を確立することができ、音声と画像の同期性を有する学
習された合成HMMを生成できる。
As described above in detail, according to the speech and image synthesis model generating apparatus of the present invention, the speech HMM,
The image HMM is calculated by calculating the product of the output probabilities of the voice and the image in all combinations of the states of these two HMMs, and generating a synthesized HM including the product of the output probabilities in each state.
After generating and synthesizing M, based on the generated synthesized HMM, connection learning is performed using the labeled AV signal stored in the first storage means so as to maximize the output likelihood. Thus, a synthesized HMM of the learned voice and image is generated. Therefore, it is possible to establish synchronism between the voice and the image, and to generate a learned synthesized HMM having the synchronism between the voice and the image.

【0087】また、本発明に係る音声認識装置によれ
ば、抽出された発話音声信号の特徴量及び画像信号の特
徴量に基づいて、上記学習された音声及び画像の合成H
MMを用いて、音声認識することにより、従来例に係る
初期統合法や結果統合法に比較して高い音声認識率で音
声認識することができる。
According to the speech recognition apparatus of the present invention, the synthesized speech and image synthesis H based on the extracted speech speech signal feature and image signal feature are extracted.
By performing voice recognition using the MM, voice recognition can be performed with a higher voice recognition rate than the initial integration method and the result integration method according to the related art.

【0088】さらに、本発明に係る音声及び画像の合成
モデルのための環境適応化装置によれば、環境適応化用
信号データを、所定のHMMを用いて音声認識したとき
の尤度を演算し、学習された合成HMMにおける各音素
の重み係数を、所定のクラスタリングの基準を用いて複
数のクラスにクラスタリングし、各クラスに属する各音
素の重み係数を、上記演算された尤度に基づいて、誤認
識が少なくなるように再学習することにより上記合成H
MMを環境適応化する。ここで、好ましくは、各クラス
の環境適応化用信号データの数が所定のしきい値未満と
なるように上記環境適応化手段の再学習を繰り返す。従
って、音声と画像の同期性を確立することができるとと
もに、音声認識時の誤認識を少なくすることができる再
学習された合成HMMを生成できる。
Further, according to the environment adapting apparatus for a combined voice and image model according to the present invention, the likelihood when speech recognition is performed on the environment adapting signal data using a predetermined HMM is calculated. The weighted coefficients of each phoneme in the learned synthesized HMM are clustered into a plurality of classes using a predetermined clustering criterion, and the weighted coefficients of each phoneme belonging to each class are calculated based on the calculated likelihood. By performing re-learning so as to reduce erroneous recognition, the combined H
Environmental adaptation of MM. Here, preferably, re-learning of the environment adapting means is repeated so that the number of environment adaptation signal data of each class becomes less than a predetermined threshold value. Therefore, it is possible to generate a re-learned composite HMM that can establish synchronization between voice and image and reduce erroneous recognition during voice recognition.

【0089】またさらに、本発明に係る別の音声認識装
置によれば、上記環境適応化装置による環境適応化され
た、音声及び画像の合成HMMを用いて、音声認識する
ので、従来例に係る初期統合法や結果統合法、並びに上
述の合成統合法に比較して高い音声認識率で音声認識す
ることができる。
Further, according to another speech recognition apparatus according to the present invention, speech recognition is performed using the synthesized HMM of speech and image which has been environment-adapted by the environment adaptation apparatus. The speech recognition can be performed at a higher speech recognition rate than the initial integration method, the result integration method, and the above-described synthesis integration method.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明に係る第1の実施形態である、音声及
び画像の合成モデル生成装置100及び音声認識装置2
00の構成を示すブロック図である。
FIG. 1 shows a speech and image synthesis model generation apparatus 100 and a speech recognition apparatus 2 according to a first embodiment of the present invention.
FIG. 2 is a block diagram showing a configuration of a 00.

【図2】 (a)は図1の音声HMMメモリ32a内の
音声HMMの一例を示す状態遷移図であり、(b)は図
1の画像HMMメモリ32b内の画像HMMの一例を示
す状態遷移図である。
2A is a state transition diagram illustrating an example of a voice HMM in a voice HMM memory 32a in FIG. 1, and FIG. 2B is a state transition diagram illustrating an example of an image HMM in a image HMM memory 32b in FIG. FIG.

【図3】 図1の合成HMMメモリ33内の合成HMM
の一例を示す状態遷移図である。
FIG. 3 is a combined HMM in a combined HMM memory 33 of FIG. 1;
FIG. 6 is a state transition diagram showing an example of.

【図4】 図1の音声及び画像の合成モデル生成装置1
00における合成統合の3次元の探索空間を示す図であ
る。
4 is a synthesized model generation device 1 for audio and images in FIG.
It is a figure which shows the three-dimensional search space of the synthesis integration in 00.

【図5】 従来例及び第1の実施形態に係る音声認識装
置の実験結果を示すグラフである。
FIG. 5 is a graph showing experimental results of the speech recognition apparatus according to the conventional example and the first embodiment.

【図6】 従来例及び第1の実施形態に係る音声認識装
置の実験結果を示すグラフである。
FIG. 6 is a graph showing experimental results of the speech recognition apparatus according to the conventional example and the first embodiment.

【図7】 従来例及び第1の実施形態に係る音声認識装
置の実験結果を示すグラフである。
FIG. 7 is a graph showing experimental results of the speech recognition apparatus according to the conventional example and the first embodiment.

【図8】 本発明に係る第2の実施形態である環境適応
化装置300の構成を示すブロック図である。
FIG. 8 is a block diagram illustrating a configuration of an environment adaptation apparatus 300 according to a second embodiment of the present invention.

【図9】 図8の環境適応化処理部50によって実行さ
れるストリームの重み係数の環境適応化処理を示すフロ
ーチャートである。
9 is a flowchart showing a stream weighting coefficient environment adaptation process executed by the environment adaptation processing unit 50 of FIG. 8;

【図10】 図9の環境適応化処理においてHMMをク
ラスタリングするときの基準となる二分木の木構造を示
す図である。
10 is a diagram illustrating a tree structure of a binary tree that is a reference when clustering the HMMs in the environment adaptation processing of FIG. 9;

【図11】 従来例及び第1と第2の実施形態に係る音
声認識装置の実験結果を示すグラフである。
FIG. 11 is a graph showing experimental results of the conventional example and the speech recognition devices according to the first and second embodiments.

【図12】 従来例及び第1と第2の実施形態に係る音
声認識装置の実験結果を示すグラフである。
FIG. 12 is a graph showing experimental results of the conventional example and the speech recognition devices according to the first and second embodiments.

【図13】 従来例及び第1と第2の実施形態に係る音
声認識装置の実験結果を示すグラフである。
FIG. 13 is a graph showing experimental results of the conventional example and the speech recognition devices according to the first and second embodiments.

【符号の説明】[Explanation of symbols]

11…データ分離部、 12…同期化部、 13a,13b…前処理部、 14a,14b…特徴抽出部、 15a…音声HMM生成部、 15b…画像HMM生成部、 16…HMM合成部、 17…HMM学習部、 21…データ分離部、 22…同期化部、 23a,23b…前処理部、 24a,24b…特徴抽出部、 25…特徴合成部、 26…音声認識部、 31…音素ラベル付き学習用AVデータメモリ、 32a…音声HMMメモリ、 32b…画像HMMメモリ、 33…合成HMMメモリ、 34…学習された合成HMMメモリ、 41…入力AVデータメモリ、 42…単語HMMメモリ、 50…環境適応化処理部、 51…環境適応化用AV単語データメモリ、 100…音声及び画像の合成モデル生成装置、 200…音声認識装置。 11: Data separation unit, 12: Synchronization unit, 13a, 13b: Preprocessing unit, 14a, 14b: Feature extraction unit, 15a: Voice HMM generation unit, 15b: Image HMM generation unit, 16: HMM synthesis unit, 17 ... HMM learning unit, 21: data separation unit, 22: synchronization unit, 23a, 23b: preprocessing unit, 24a, 24b: feature extraction unit, 25: feature synthesis unit, 26: speech recognition unit, 31: learning with phoneme label AV data memory for use, 32a: voice HMM memory, 32b: image HMM memory, 33: synthesized HMM memory, 34: learned HMM memory, 41: input AV data memory, 42: word HMM memory, 50: environment adaptation Processing unit, 51: AV word data memory for environment adaptation, 100: Synthetic model generation device for voice and image, 200: Voice recognition device.

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/24 G10L 3/00 521C 571Q (72)発明者 中村 哲 京都府相楽郡精華町光台二丁目2番地2 株式会社エイ・ティ・アール音声言語通信 研究所内 Fターム(参考) 5D015 GG01 GG03 HH23 LL07 5L096 BA16 BA18 JA11 JA16 KA04──────────────────────────────────────────────────続 き Continued on the front page (51) Int.Cl. 7 Identification symbol FI Theme coat ゛ (Reference) G10L 15/24 G10L 3/00 521C 571Q (72) Inventor Satoshi Nakamura 2-chome Kodai, Seika-cho, Soraku-gun, Kyoto Prefecture 2nd 2 AT R Co., Ltd. Spoken Language Communication Research Laboratory F-term (reference) 5D015 GG01 GG03 HH23 LL07 5L096 BA16 BA18 JA11 JA16 KA04

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】 発話音声信号と、発話時の話者の唇の画
像信号とを含むAV信号を格納する第1の記憶手段と、 上記AV信号のうちの発話音声信号に基づいて、出力尤
度が最大となるように、音声隠れマルコフモデルを生成
する第1の生成手段と、 上記AV信号のうちの画像信号に基づいて、出力尤度が
最大となるように、画像隠れマルコフモデルを生成する
第2の生成手段と、 上記第1の生成手段により生成された音声隠れマルコフ
モデルを格納する第2の記憶手段と、 上記第2の生成手段により生成された画像隠れマルコフ
モデルを格納する第3の記憶手段と、 上記第2の記憶手段に格納された音声隠れマルコフモデ
ルと、上記第3の記憶手段に格納された画像隠れマルコ
フモデルとを、これら2つの隠れマルコフモデルの各状
態のすべての組み合わせにおいて音声と画像の出力確率
の積を計算して、各状態で出力確率の積を含む合成され
た合成隠れマルコフモデルを生成することにより合成す
る合成手段と、 上記生成された合成隠れマルコフモデルに基づいて、上
記第1の記憶手段に格納されたラベル付きAV信号を用
いて、出力尤度が最大となるように連結学習することに
より、学習された音声及び画像の合成隠れマルコフモデ
ルを生成する学習手段とを備えたことを特徴とする音声
及び画像の合成モデル生成装置。
A first storage unit for storing an AV signal including an uttered voice signal and an image signal of a lip of a speaker at the time of utterance; and an output likelihood based on the uttered voice signal of the AV signal. First generating means for generating a hidden Hidden Markov Model so as to maximize the degree, and generating an image Hidden Markov Model based on an image signal of the AV signal so as to maximize the output likelihood. A second generation unit that stores the speech hidden Markov model generated by the first generation unit; and a second storage unit that stores the image hidden Markov model generated by the second generation unit. 3, a hidden Hidden Markov Model stored in the second storage means, and an image Hidden Markov Model stored in the third storage means, for each state of the two hidden Markov models. Synthesizing means for calculating the product of the output probabilities of the voice and the image in each combination and generating a synthesized hidden Markov model that includes the product of the output probabilities in each state; Based on the Markov model, by using the labeled AV signal stored in the first storage means and performing joint learning so that the output likelihood is maximized, a synthesized hidden Markov model of the learned speech and image is obtained. And a learning unit for generating a composite model of voice and image.
【請求項2】 発話音声信号と、発話時の話者の唇の画
像信号とを含む、入力されるAV信号に基づいて、上記
発話音声信号の特徴量と、上記画像信号の特徴量とを抽
出する抽出手段と、 上記抽出された上記発話音声信号の特徴量及び上記画像
信号の特徴量に基づいて、請求項1記載の音声及び画像
の合成モデル生成装置により生成された、学習された音
声及び画像の合成隠れマルコフモデルを用いて、音声認
識して音声認識結果を出力する第1の音声認識手段とを
備えたことを特徴とする音声認識装置。
2. The method according to claim 1, further comprising: determining a feature amount of the speech sound signal and a feature amount of the image signal based on an input AV signal including the speech sound signal and an image signal of a speaker's lip at the time of speech. 2. A learned voice generated by the voice and image synthesis model generating apparatus according to claim 1, based on extraction means for extracting, and the extracted voice voice signal feature amount and the image signal feature amount. And a first speech recognition means for performing speech recognition using a synthesized Hidden Markov Model of an image and outputting a speech recognition result.
【請求項3】 発話音声信号と、発話時の話者の唇の画
像信号とを含むAV信号を音素ラベル付きで格納する環
境適応化用信号データを記憶する第4の記憶手段と、 上記記憶された環境適応化用信号データを、所定の隠れ
マルコフモデルを用いて音声認識したときの尤度を演算
する第2の音声認識手段と、 請求項1記載の音声及び画像の合成モデル生成装置によ
り生成された、学習された音声及び画像の合成隠れマル
コフモデルにおける各音素の重み係数を、所定のクラス
タリングの基準を用いて複数のクラスにクラスタリング
し、各クラスに属する各音素の重み係数を、上記演算さ
れた尤度に基づいて、誤認識が少なくなるように再学習
することにより上記合成隠れマルコフモデルを環境適応
化する環境適応化手段とを備えたことを特徴とする音声
及び画像の合成モデルのための環境適応化装置。
3. Fourth storage means for storing environment adaptation signal data for storing an audio-video signal including an uttered voice signal and an image signal of a lip of a speaker at the time of utterance with a phoneme label, and the storage means. A second speech recognition unit for calculating a likelihood when speech recognition is performed on the obtained environment adaptation signal data using a predetermined hidden Markov model; and a speech and image synthesis model generating apparatus according to claim 1. The generated weighted coefficients of the phonemes in the synthesized speech and image synthesized Hidden Markov Model are clustered into a plurality of classes using a predetermined clustering criterion, and the weighted coefficients of the phonemes belonging to each class are calculated as described above. Based on the calculated likelihood, re-learning so as to reduce misrecognition by environmental adaptation means for adapting the composite hidden Markov model to the environment. That environmental adaptation device for the synthesis model of speech and image.
【請求項4】 各クラスの環境適応化用信号データの数
が所定のしきい値未満となるように上記環境適応化手段
の再学習を繰り返すことを特徴とする請求項3記載の音
声及び画像の合成モデルのための環境適応化装置。
4. The voice and image according to claim 3, wherein re-learning of said environment adapting means is repeated so that the number of environment adaptation signal data of each class becomes less than a predetermined threshold value. Environment Adaptation System for Composite Model
【請求項5】 発話音声信号と、発話時の話者の唇の画
像信号とを含む、入力されるAV信号に基づいて、上記
発話音声信号の特徴量と、上記画像信号の特徴量とを抽
出する抽出手段と、 上記抽出された上記発話音声信号の特徴量及び上記画像
信号の特徴量に基づいて、請求項3又は4記載の音声及
び画像の合成モデルのための環境適応化装置により環境
適応化された、音声及び画像の合成隠れマルコフモデル
を用いて、音声認識して音声認識結果を出力する第3の
音声認識手段とを備えたことを特徴とする音声認識装
置。
5. A feature amount of the speech sound signal and a feature amount of the image signal based on an input AV signal including a speech sound signal and an image signal of a lip of a speaker at the time of speech. An extracting means for extracting, and an environment adapting device for a speech and image synthesis model according to claim 3 or 4, based on the extracted feature amount of the speech voice signal and the feature amount of the image signal. A speech recognition apparatus comprising: a third speech recognition unit that performs speech recognition using an adapted synthesized Markov model of speech and an image and outputs a speech recognition result.
JP2000385184A 2000-09-19 2000-12-19 Composite model generating device for voice and image, environment adapting device for composite model of voice and image, and voice recognizing device Pending JP2002169586A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000385184A JP2002169586A (en) 2000-09-19 2000-12-19 Composite model generating device for voice and image, environment adapting device for composite model of voice and image, and voice recognizing device

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2000-283514 2000-09-19
JP2000283514 2000-09-19
JP2000385184A JP2002169586A (en) 2000-09-19 2000-12-19 Composite model generating device for voice and image, environment adapting device for composite model of voice and image, and voice recognizing device

Publications (1)

Publication Number Publication Date
JP2002169586A true JP2002169586A (en) 2002-06-14

Family

ID=26600220

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000385184A Pending JP2002169586A (en) 2000-09-19 2000-12-19 Composite model generating device for voice and image, environment adapting device for composite model of voice and image, and voice recognizing device

Country Status (1)

Country Link
JP (1) JP2002169586A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005241717A (en) * 2004-02-24 2005-09-08 Kawai Musical Instr Mfg Co Ltd Model preparing apparatus in musical sound judgement apparatus for natural musical instrument, and model preparing program
WO2006080161A1 (en) * 2005-01-28 2006-08-03 Kyocera Corporation Speech content recognizing device and speech content recognizing method
JP2008525869A (en) * 2004-12-06 2008-07-17 本田技研工業株式会社 Classifier combination based on objective evaluation for multimodal identification
JP2008191467A (en) * 2007-02-06 2008-08-21 Nippon Hoso Kyokai <Nhk> Mixed-model initial value calculation device and mixed-model initial value calculation program
CN111583916A (en) * 2020-05-19 2020-08-25 科大讯飞股份有限公司 Voice recognition method, device, equipment and storage medium

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005241717A (en) * 2004-02-24 2005-09-08 Kawai Musical Instr Mfg Co Ltd Model preparing apparatus in musical sound judgement apparatus for natural musical instrument, and model preparing program
JP4530199B2 (en) * 2004-02-24 2010-08-25 株式会社河合楽器製作所 Model creation device and model creation program for natural instrument musical sound judgment device
JP2008525869A (en) * 2004-12-06 2008-07-17 本田技研工業株式会社 Classifier combination based on objective evaluation for multimodal identification
JP4719224B2 (en) * 2004-12-06 2011-07-06 本田技研工業株式会社 Classifier combination based on objective evaluation for multimodal identification
WO2006080161A1 (en) * 2005-01-28 2006-08-03 Kyocera Corporation Speech content recognizing device and speech content recognizing method
US7979276B2 (en) 2005-01-28 2011-07-12 Kyocera Corporation Speech recognition apparatus and speech recognition method
JP2008191467A (en) * 2007-02-06 2008-08-21 Nippon Hoso Kyokai <Nhk> Mixed-model initial value calculation device and mixed-model initial value calculation program
CN111583916A (en) * 2020-05-19 2020-08-25 科大讯飞股份有限公司 Voice recognition method, device, equipment and storage medium

Similar Documents

Publication Publication Date Title
US7636662B2 (en) System and method for audio-visual content synthesis
KR100815115B1 (en) An Acoustic Model Adaptation Method Based on Pronunciation Variability Analysis for Foreign Speech Recognition and apparatus thereof
JP5398909B2 (en) Text-to-speech synthesis method and system
Rogozan et al. Adaptive fusion of acoustic and visual sources for automatic speech recognition
EP3304544A1 (en) Speech recognition system and method using an adaptive incremental learning approach
JP2007047818A (en) Method and apparatus for speech recognition using optimized partial mixture tying of probability
JP2002014692A (en) Device and method for generating acoustic model
Vadwala et al. Survey paper on different speech recognition algorithm: challenges and techniques
Lee et al. Audio-to-visual conversion using hidden markov models
Henter et al. Gaussian process dynamical models for nonparametric speech representation and synthesis
KR100832556B1 (en) Speech Recognition Methods for the Robust Distant-talking Speech Recognition System
JP3919475B2 (en) Speaker feature extraction apparatus, speaker feature extraction method, speech recognition apparatus, and program recording medium
Ons et al. A self learning vocal interface for speech-impaired users
JP2002169586A (en) Composite model generating device for voice and image, environment adapting device for composite model of voice and image, and voice recognizing device
Abraham et al. An automated technique to generate phone-to-articulatory label mapping
JP3589044B2 (en) Speaker adaptation device
Ivanko Audio-visual Russian speech recognition
Shibata et al. Unsupervised acoustic-to-articulatory inversion neural network learning based on deterministic policy gradient
Abdelaziz Improving acoustic modeling using audio-visual speech
Jadczyk Audio-visual speech processing system for Polish applicable to human-computer interaction
Lee et al. Viseme recognition experiment using context dependent Hidden Markov Models
Ra et al. Visual-to-speech conversion based on maximum likelihood estimation
Foucher et al. A dempster-shafer based fusion approach for audio-visual speech recognition with application to large vocabulary french speech
JP2002091480A (en) Acoustic model generator and voice recognition device
Kshirsagar et al. Comparative study of phoneme recognition techniques