JP5465166B2 - Utterance content recognition device and utterance content recognition method - Google Patents
Utterance content recognition device and utterance content recognition method Download PDFInfo
- Publication number
- JP5465166B2 JP5465166B2 JP2010287127A JP2010287127A JP5465166B2 JP 5465166 B2 JP5465166 B2 JP 5465166B2 JP 2010287127 A JP2010287127 A JP 2010287127A JP 2010287127 A JP2010287127 A JP 2010287127A JP 5465166 B2 JP5465166 B2 JP 5465166B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- mouth
- voice
- unit
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Image Analysis (AREA)
Description
本発明は発声内容認識装置および発生内容認識方法に関する。 The present invention relates to a utterance content recognition apparatus and a generated content recognition method .
音声を文字列に置き換えるための音声認識技術が知られている。この音声認識技術では、まず収音器で発声者の発する音声を収音する。次に、収音した音声の特徴パターンを抽出する。そして、抽出した特徴パターンに対応する文字列パターンを認識結果として出力することにより、音声を文字列に置き換えている。 A speech recognition technique for replacing speech with a character string is known. In this voice recognition technology, first, a voice emitted by a speaker is picked up by a sound pickup device. Next, a feature pattern of the collected voice is extracted. Then, by outputting a character string pattern corresponding to the extracted feature pattern as a recognition result, the voice is replaced with a character string.
なお、特許文献1には、このような音声認識技術を、発声者の唇形状の特徴パターンに基づいてパターン認識を行う口元認識技術と併用することに関する記載がある。
Note that
しかしながら、上記従来の音声認識技術では、発声者が収音器の近くにいないと、発声者の発する音声の特徴パターン抽出が上手くできず、音声認識の精度が下がってしまうという問題があった。 However, the conventional speech recognition technology has a problem that if the speaker is not near the sound collector, the feature pattern extraction of the speech uttered by the speaker cannot be performed well, and the accuracy of speech recognition is lowered.
本発明は上記課題を解決するためになされたもので、その目的の一つは、発声者が収音器の近くにおらず低精度の音声認識が行われることを抑制できる発声内容認識装置および発生内容認識方法を提供することにある。
The present invention has been made in order to solve the above-mentioned problems, and one of its purposes is an utterance content recognition device capable of suppressing low-accuracy speech recognition when the speaker is not near the sound collector and It is to provide a method for recognizing occurrences .
上記課題を解決するための本発明に係る発声内容認識装置は、収音する収音手段と、前記収音手段に対し音声を発する発声者の画像を撮影する撮影手段と、前記収音される音声に基づく音声認識を行う音声認識手段と、前記撮影される画像に前記発声者の少なくとも一部を示す発声者画像が含まれていない場合に、前記音声認識手段が音声認識を行うことを制限する音声認識実施制限手段と、を含むことを特徴とする。 An utterance content recognition apparatus according to the present invention for solving the above-described problems is a sound collection unit that collects sound, a photographing unit that captures an image of a speaker who emits sound to the sound collection unit, and the sound collection unit. Restricting speech recognition by speech recognition means for performing speech recognition based on speech, and when the captured image does not include a speaker image indicating at least part of the speaker Voice recognition execution limiting means.
撮影される画像に発声者画像が含まれていない場合には、含まれている場合に比べ、発声者が近くにいない可能性が高いと考えられる。本発明によれば、取得される画像に発声者画像が含まれていない場合に音声認識の開始を制限するようにしたので、発声者が収音器の近くにおらず低精度の音声認識が行われることを抑制できる。 If the captured image does not include the speaker image, it is more likely that the speaker is not nearby than when the image is included. According to the present invention, since the start of speech recognition is limited when the acquired image does not include a speaker image, low-accuracy speech recognition is not performed because the speaker is not near the sound collector. It can be suppressed.
また、上記発声内容認識装置において、前記発声者画像は前記発声者の口元を示す口元画像である、こととしてもよい。 Further, in the utterance content recognition device, the speaker image may be a mouth image indicating the mouth of the speaker.
発声者が口元を当該発声内容認識装置に向けていない場合には、向けている場合に比べ、発声者の発する音声が当該発声内容認識装置に届きにくい可能性が高いと考えられる。本発明によれば、取得される画像に発声者の口元を示す口元画像が含まれていない場合に音声認識を行うことを制限するようにしたので、発声者の発する音声が当該パターン認識装置に届きにくく低精度の音声認識が行われることを抑制できる。 When the speaker does not point his / her mouth toward the utterance content recognition device, it is considered that the voice uttered by the utterer is more likely not to reach the utterance content recognition device. According to the present invention, since the speech recognition is restricted when the acquired image does not include the mouth image indicating the mouth of the speaker, the sound emitted by the speaker is transmitted to the pattern recognition device. It is possible to suppress low-accuracy voice recognition that is difficult to reach.
また、上記発声内容認識装置において、前記撮影手段は、前記画像を順次撮影し、前記音声認識実施制限手段は、前記撮影される画像に前記口元画像が含まれている場合であっても、順次取得された該口元画像により示される口元が動いていない場合に、前記音声認識手段が音声認識を行うことを制限する、こととしてもよい。 Further, in the utterance content recognition device, the photographing means sequentially photographs the images, and the voice recognition execution restriction means sequentially even when the mouth image is included in the photographed image. The voice recognition means may be restricted from performing voice recognition when the mouth indicated by the acquired mouth image is not moving.
発声者の口元が動いていない場合には、発声者が声を出していない可能性が高いと考えられる。本発明によれば、発声者の口元が動いていない場合には音声認識を行うことを制限するようにしたので、発声者が声を出しておらず低精度の音声認識が行われることを抑制できる。 If the speaker's mouth is not moving, it is likely that the speaker is not speaking. According to the present invention, since voice recognition is restricted when the speaker's mouth is not moving, it is possible to suppress the voice recognition from being performed by the speaker without speaking. it can.
また、上記発声内容認識装置において、前記撮影される画像に含まれる前記口元画像により示される口元に向けて、前記音声取得手段の指向性を合わせる音声指向性制御手段、をさらに含むこととしてもよい。 The utterance content recognition apparatus may further include voice directivity control means for adjusting the directivity of the voice acquisition means toward the mouth indicated by the mouth image included in the photographed image. .
本発明によれば、取得される口元画像により示される発声者の口元に向けて音声取得手段の指向性を合わせることにより、より高い精度で音声認識が行われるようにすることができる。 According to the present invention, voice recognition can be performed with higher accuracy by matching the directivity of the voice acquisition means toward the mouth of the speaker indicated by the acquired mouth image.
また、上記発声内容認識装置において、前記撮影される画像に含まれる前記口元画像により示される発声者の口元の形状又は該形状の推移に基づいて口元認識を行う口元認識手段と、前記収音される音声に基づく前記音声認識手段の認識結果と、該音声の発声者が該音声を発する際の前記撮影される画像に含まれる口元画像により示される口元の形状又は該形状の推移と、に基づいて、前記口元認識手段による口元認識の学習を行う口元認識学習手段と、をさらに含むこととしてもよい。 Further, in the utterance content recognition device, lip recognition means for performing lip recognition based on the shape of the utterer's lip indicated by the lip image included in the photographed image or a transition of the shape, and the collected sound Based on the recognition result of the voice recognition means based on the voice and the shape of the mouth or the transition of the shape indicated by the mouth image included in the photographed image when the voice speaker emits the voice. And mouth recognition learning means for learning mouth recognition by the mouth recognition means.
本発明によれば、音声が発される場合の口元の形状又は該形状の推移を取得することができる。さらに、該音声は音声認識手段によって認識される。このため、音声認識の認識結果と、口元の形状又は該形状の推移と、を対応付けることができるので、口元認識の学習を行うことができる。 According to the present invention, it is possible to acquire the shape of the mouth or the transition of the shape when sound is emitted. Further, the voice is recognized by voice recognition means. For this reason, since the recognition result of speech recognition can be associated with the shape of the mouth or the transition of the shape, learning of mouth recognition can be performed.
また、上記発声内容認識装置において、前記収音手段により収音される音声の収音状態の良さを示す収音状態評価値を取得する収音状態評価値取得手段、をさらに含み、前記口元認識学習手段による学習は、前記収音状態評価値により示される収音状態が所定閾値以上である場合の前記音声認識手段の認識結果に基づいて行われる、こととしてもよい。 The utterance content recognition device further includes a sound collection state evaluation value acquisition unit that acquires a sound collection state evaluation value indicating a good sound collection state of the sound collected by the sound collection unit, and the mouth recognition Learning by the learning means may be performed based on a recognition result of the voice recognition means when the sound pickup state indicated by the sound pickup state evaluation value is equal to or greater than a predetermined threshold.
本発明によれば、発声者の発する音声を良好な収音状態で収音できている場合にのみ、口元認識学習手段による学習を行うことができる。すなわち、音声認識が良好な状態で実施されている場合にのみ、口元認識学習を行うので、精度の悪い音声認識の認識結果により口元認識学習が行われる可能性を減少させることができる。 According to the present invention, learning by the mouth recognition learning means can be performed only when the sound produced by the speaker can be collected in a good sound collection state. That is, since the mouth recognition learning is performed only when the speech recognition is performed in a good state, it is possible to reduce the possibility that the mouth recognition learning is performed based on the recognition result of the voice recognition with low accuracy.
また、本発明に係る音声認識装置は、収音する収音手段と、前記収音手段に対し音声を発する発声者の口元を示す口元画像を撮影する撮影手段と、前記収音手段により収音される音声の収音状態の良さを示す収音状態評価値を取得する収音状態評価値取得手段と、前記収音される音声に基づく音声認識を行う音声認識手段と、前記撮影される画像に含まれる前記口元画像により示される発声者の口元の形状又は該形状の推移に基づいて口元認識を行う口元認識手段と、前記収音状態評価値により示される収音状態に応じて、前記音声認識手段又は前記口元認識手段のいずれにより認識を行うか決定する決定手段と、を含むことを特徴とする。 In addition, the speech recognition apparatus according to the present invention includes a sound collection unit that collects sound, a photographing unit that captures a mouth image indicating a mouth of a speaker who emits sound to the sound collection unit, and a sound collection unit that collects sound. A sound collection state evaluation value acquisition means for acquiring a sound collection state evaluation value indicating the goodness of the sound collection state of the sound to be collected, a voice recognition means for performing voice recognition based on the collected sound, and the captured image Mouth recognition means for performing mouth recognition based on the shape of the mouth of the speaker indicated by the mouth image included in the mouth image or transition of the shape, and the sound according to the sound pickup state indicated by the sound pickup state evaluation value Determining means for determining whether recognition is performed by the recognition means or the mouth recognition means.
本発明によれば、収音状態に応じて音声認識と口元認識を切り替えることができるので、収音状態が悪いときに低精度の音声認識が行われることを抑制できる。 According to the present invention, since voice recognition and mouth recognition can be switched according to the sound pickup state, it is possible to suppress low-accuracy voice recognition when the sound pickup state is bad.
本発明の実施の形態について、図面を参照しながら説明する。 Embodiments of the present invention will be described with reference to the drawings.
本発明に係る発声内容認識装置10は、例えば携帯電話などのコンピュータであり、図1に示すように、CPU12、記憶部14、入力部15、出力部19を含んで構成される。
An utterance
入力部15は、発声内容認識装置10の外部の情報をCPU12に対して入力するための機能部であり、本実施の形態では収音器16と撮影機18とを含んで構成される。収音器16は、例えば指向性マイクロホンなど、音声を収音することのできる装置である。収音器16は収音する方向についての指向性を有しており、CPU12はこの指向性を制御することができるように構成される。具体的には、CPU12が収音器16の姿勢を制御することにより、その指向性を制御することができるように構成される。そして収音器16は、収音した音声を電気信号に変えて、CPU12に出力する。
The input unit 15 is a functional unit for inputting information external to the utterance
撮影機18は、例えばカメラやビデオカメラなど、画像を順次撮影することができる装置である。撮影機18は、CPU12の制御により撮影方向を変更できるように構成される。具体的には、CPU12が撮影機18の姿勢を制御することにより、その撮影方向を制御できるように構成される。そして撮影機18は、撮影した画像をビットマップとしてCPU12に対して出力する。
The photographing
CPU12は、記憶部14に記憶されるプログラムを実行するための処理ユニットであり、発声内容認識装置10の各部を制御する。
The
また、CPU12は、音声認識及び口元認識のための処理を行う。音声認識では、まず収音器16で発声者の発する音声を収音する。次に、収音した音声の特徴パターンを抽出する。より具体的には、CPU12は記憶部14に記憶される特徴パターンと同じものが含まれるか否かを判断する。そしてこの判断の結果、同じものが含まれると判断される特徴パターンが抽出される特徴パターンとなる。そして、抽出した特徴パターンに対応する文字列パターンを認識結果として出力することにより、音声を文字列に置き換えている。
Further, the
口元認識では、まず撮影機18で発声者の口元画像を撮影する。次に、撮影した口元画像により示される口元の形状又は該形状の推移の特徴パターンを抽出する。より具体的には、CPU12は記憶部14に記憶される特徴パターンと同じものが含まれるか否かを判断する。そしてこの判断の結果、同じものが含まれると判断される特徴パターンが抽出される特徴パターンとなる。そして、抽出した特徴パターンに対応する文字列パターンを認識結果として出力することにより、口の形状又はその動きを文字列に置き換えている。
In the mouth recognition, first, the
記憶部14は、本実施の形態を実施するためのプログラムを記憶している。また、CPU12のワークメモリとしても動作する。
The memory |
また記憶部14は、音声認識のために、音声の特徴パターンと文字列パターンとを対応付けて記憶している。さらに記憶部14は、口元認識のために、口元の形状又は該形状の推移の特徴パターンと文字列パターンとを対応付けて記憶している。なお、これらについては、特徴パターンを入力として文字列パターンを出力とするニューラルネットなどの学習システムを使用することも可能である。ここでは、記憶部14において、特徴パターンと文字列パターンとを対応付けて記憶するものとする。
The
出力部19は、CPU12から入力されるデータを、CPU12から入力される指示情報に従って、出力手段により出力する。この出力手段には、例えばディスプレイなどの表示装置、スピーカなどの音声出力装置を用いることができる。
The
本実施の形態では、以上説明したような発声内容認識装置10において、音声認識を行う際の精度の向上を図ることができるようにしている。具体的には、発声者が収音器16の近くにおらず低精度の音声認識が行われることを抑制している。また、発声者の発する音声が当該パターン認識装置に届きにくく低精度の音声認識が行われることを抑制している。さらに、発声者が声を出しておらず低精度の音声認識が行われることを抑制している。他に、発声者の口元に向けて音声取得手段の指向性を合わせることにより、より高い精度で音声認識が行われるようにしている。また、音声認識の認識結果と、該音声を発する口元の形状又は該形状の推移と、に基づいて口元認識の学習を行う。また、精度の悪い音声認識の認識結果により口元認識学習が行われる可能性を減少させることができるようにしている。さらに、収音状態に応じて音声認識と口元認識を切り替えることで、収音状態が悪いときに低精度の音声認識が行われることを抑制している。
In the present embodiment, the utterance
図2は、以上のような機能を実現するための発声内容認識装置10の機能ブロック図である。同図に示すように、発声内容認識装置10のCPU12は、機能的には、画像取得部120、口元探索部124、口元認識部126、口元認識学習部128、音声取得部130、信号レベル計測部134、音声認識部136、指向性制御部140、認識・学習判定部142、統合処理部144、を含んで構成されている。また、口元探索部124と、口元認識部126と、口元認識学習部128とは、口元認識機能部122を構成し、信号レベル計測部134と、音声認識部136とは、音声認識機能部132を構成している。以下、各部の処理について詳細に説明する。
FIG. 2 is a functional block diagram of the utterance
まず、画像取得部120は、撮影機18で撮影された画像を順次取得する。発声者が収音器16に対して発声している場合には、この画像に発声者の口元形状を示す口元画像が含まれる。また、撮影機18が、口元画像が含まれる画像を順次撮影する場合には、一連の画像には発声者の口元形状の推移を示す口元画像が含まれる。そして画像取得部120は、取得した画像を口元探索部124に対して順次出力する。
First, the
また、画像取得部120は、撮影機18が撮影している方向を示す方向情報も取得する。方向情報は、例えば発声内容認識装置10の筐体に対する相対的方向を示す情報である。そして画像取得部120は、取得した方向情報を、取得した画像と対応付けて口元探索部124に対して順次出力する。
The
口元探索部124は、画像取得部120から順次入力された画像に、上記口元画像が含まれるか否かを探索する。具体的には、画像から口元の特徴を示す特徴パターンを抽出する。そして、口元の特徴を示す特徴パターンを抽出できた場合に、該特徴パターンを抽出できた旨を示す口元検出情報を認識・学習判定部142に対して出力する。一方、口元の特徴を示す特徴パターンを抽出できなかった場合には、該特徴パターンを抽出できなかった旨を示す口元不検出情報を認識・学習判定部142に対して出力する。また、探索できた口元画像により示される口元の画像内における位置と、該口元画像を含む画像に対応付けて画像取得部120から入力された方向情報と、を指向性制御部140に対して出力する。
The
さらに口元探索部124は、画像から口元の特徴を示す特徴パターンを抽出する処理を一連の画像のそれぞれについて行い、抽出した特徴パターンの変化に基づいて、口元が動いているか否かを判断する処理を所定時間ごとに行う。そして口元が動いていると判断する場合に、口元探索部124は、口元が動いている旨を示す口元動情報を信号レベル計測部134及び認識・学習判定部142に対して出力する。一方、口元が動いていないと判断する場合に、口元探索部124は、口元が動いていない旨を示す口元不動情報を信号レベル計測部134及び認識・学習判定部142に対して出力する。
Further, the
また、口元探索部124は、画像取得部120から順次入力された画像を口元認識部126に対してそのまま出力する。
The
次に、指向性制御部140は、口元探索部124から入力される、探索できた口元画像により示される口元の画像内における位置と、該口元画像を含む画像に対応付けて画像取得部120から入力された方向情報と、に基づいて、収音器16の指向性を制御する。より具体的には、撮影された画像の撮影方向と、該画像の中の特に口元の位置と、によって示される方向に収音器16の指向性が向くよう、収音器16の指向性を制御する。このようにすることにより、後述する発声者の音声の収音状態がよくなるようにしている。
Next, the
次に、音声取得部130は、収音器16で収音された音声を順次取得する。該音声には、発声者が発した音声及びその他の雑音を含んでいる。そして音声取得部130は、取得した音声を信号レベル計測部134及び音声認識部136に対して順次出力する。
Next, the
信号レベル計測部134は、音声取得部130から順次入力された音声について、順次その収音状態の良さを示す収音状態評価値を取得する。収音状態評価値として具体的には、例えば音声信号対雑音信号比(SNR,Signal to Noise Ratio)を用いることができる。収音状態評価値としてこのSNRを用いると、収音状態評価値は入力された音声に含まれる発声者が発した音声と、その他の雑音と、の比となる。そして信号レベル計測部134は、取得した収音状態評価値を認識・学習判定部142に対して出力する。また、信号レベル計測部134は、音声取得部130から順次入力された音声を音声認識部136に対してそのまま出力する。
The signal
なお、発声者が発した音声と、その他の雑音と、を区別するために、信号レベル計測部134では口元探索部124から入力される口元動情報若しくは口元不動情報を利用する。信号レベル計測部134は、入力される口元動情報により口元が動いていることが示される場合に、音声取得部130から入力される音声は発声者が発した音声を含む音声であると判断する。この場合には、信号レベル計測部134は入力された音声から記憶部14に記憶される特徴パターンを抽出し、発声者が発した音声である音声信号と、その他の雑音である雑音信号と、に分離する。そして分離された各信号の強度に基づいてSNRを算出する。一方、信号レベル計測部134は、入力される口元不動情報により口元が動いていないことが示される場合に、音声取得部130から入力される音声は発声者が発した音声を含まない音声であると判断する。この場合には、音声信号がないので、SNRは0となる。
In addition, in order to distinguish the voice uttered by the speaker from other noises, the signal
また、雑音信号の強度が大きく変化しないと期待される場合には、口元動情報により口元が動いていることが示される場合に音声取得部130から入力される音声の信号強度から、入力される口元不動情報により口元が動いていないことが示される場合に音声取得部130から入力される音声の信号強度を減算して得られる信号強度を、発声者が発した音声である音声信号の強度としてSNRを算出してもよい。
In addition, when it is expected that the intensity of the noise signal does not change greatly, it is input from the signal intensity of the voice input from the
認識・学習判定部142は、口元探索部124から入力される口元検出情報又は口元不検出情報と、口元動情報又は口元不動情報と、信号レベル計測部134から入力される収音状態評価値と、に基づいて音声認識機能部132及び口元認識機能部122の制御を行う。
The recognition /
具体的には、認識・学習判定部142は、口元探索部124から入力される口元検出情報又は口元不検出情報によって、撮影機18で撮影された画像に発声者の口元を示す口元画像が含まれているか否かを判断する。また、認識・学習判定部142は、口元探索部124から入力される口元動情報又は口元不動情報によって、撮影機18で撮影された画像に含まれる口元画像によって示される口元が動いているか否かを判断する。さらに、認識・学習判定部142は、収音器16での発声者音声の収音状態が良いか悪いかを、信号レベル計測部134から入力される収音状態評価値を閾値と比較した場合の大小によって判断する。そして、収音状態評価値が該閾値より低い場合には収音状態が悪い場合(収音状態レベル0)として分類する。一方、収音状態評価値が該閾値より高い場合には、信号レベル計測部134から入力される収音状態評価値を別の閾値と比較する。そして、収音状態評価値が該別の閾値より低い場合には収音状態が良い場合(収音状態レベル1)として分類する。また、収音状態評価値が該別の閾値より高い場合には収音状態が非常に良い状態(収音状態レベル2)として分類する。
Specifically, the recognition /
そして認識・学習判定部142は、上記各判断の判断結果に基づいて、音声認識機能部132及び口元認識機能部122の制御を行う。
The recognition /
すなわち、画像に口元画像が含まれておらず、かつ発声者音声の収音状態が悪い場合には、音声認識部136が音声認識を行うことを制限し、音声認識を行わないようにする。逆に、画像に口元画像が含まれていなくても、発声者音声の収音状態が良い場合(収音状態レベル1又は2)には、音声認識部136において音声認識を行うよう、音声認識機能部132を制御する。
That is, when the mouth image is not included in the image and the voice collection state of the speaker's voice is poor, the
また、画像に口元画像が含まれていても、その口元画像によって示される口元が動いていないと判断する場合には、音声認識部136が音声認識を行うことを制限し、音声認識を行わないようにする。一方、その口元画像によって示される口元が動いていると判断する場合には、収音器16での発声者音声の収音状態によって、異なる処理を行う。
Further, even if the mouth image is included in the image, if it is determined that the mouth indicated by the mouth image is not moving, the
すなわち、収音器16での発声者音声の収音状態が非常に良い場合(収音状態レベル2)には、認識・学習判定部142は、音声認識部136において音声認識を行うよう、音声認識機能部132を制御するとともに、口元認識機能部122に対し口元認識部126の口元認識学習を行うよう指示する。この口元認識学習については、後に詳述する。
That is, when the sound collection state of the speaker's voice by the
また、収音器16での発声者音声の収音状態が良い場合(収音状態レベル1)には、認識・学習判定部142は、口元認識部126による口元認識と音声認識部136による音声認識と、をともに行うよう、口元認識機能部122及び音声認識機能部132をそれぞれ制御する。また、口元認識部126による口元認識と音声認識部136による音声認識とに基づいて認識結果を出力するよう、統合処理部144に対して指示を行う。そして後述するように、統合処理部144が口元認識結果と音声認識結果に基づいて認識結果を作成し、作成した認識結果を出力部19に対して出力する。
When the sound collection state of the speaker's voice by the
さらに、収音器16での発声者音声の収音状態が悪い場合(収音状態レベル0)には、認識・学習判定部142は、音声認識部136が音声認識を行うことを制限し、音声認識を行わないようにするとともに、口元認識を行うようにする。すなわち、発声者音声の収音状態に応じて、音声認識又は口元認識のいずれにより認識を行うかを決定し、発声者音声の収音状態が悪い場合には音声認識を口元認識に切り替えるようにしている。
Furthermore, when the sound collection state of the speaker voice by the
音声認識部136は、信号レベル計測部134から順次入力される音声に基づいて音声認識を行う。なお音声認識部136は、音声認識を行うことを制限されている場合には音声認識を行わない。
The
音声認識を行う場合、音声認識部136は、まず順次入力される音声から、記憶部14に記憶される特徴パターンを抽出する。そして、抽出した特徴パターンに対応付けて記憶部14に記憶される文字列パターンを音声認識結果として統合処理部144及び口元認識学習部128に対して出力する。
When performing speech recognition, the
なお、特徴パターン抽出処理は信号レベル計測部134で行い、音声認識部136は信号レベル計測部134が抽出した特徴パターンを受け取ることとしてもよい。また、音声認識部136は、例えば収音状態が悪いことにより音声認識を行うことを制限されている場合には、発声者が再度発声するよう促すために、出力部19に対して再度の発声を促すための表示又は音声出力を行うよう指示することとしてもよい。つまり出力部19は、音声認識部136によるこの指示に応じて、発声者に対し再度発声するよう指示する指示情報を通知する。
The feature pattern extraction process may be performed by the signal
口元認識部126は、口元探索部124から順次入力される画像に基づいて口元認識を行う。なお口元認識部126も、口元認識を行うことを制限されている場合には口元認識を行わない。
The
口元認識を行う場合、口元認識部126は、まず順次入力される画像から、記憶部14に記憶される口元の形状又は該形状の推移の特徴パターンを抽出する。そして、抽出した特徴パターンに対応付けて記憶部14に記憶される文字列パターンを口元認識結果として統合処理部144に対して出力する。なお、特徴パターン抽出処理は口元探索部124で行い、口元認識部126は口元探索部124が抽出した特徴パターンを受け取ることとしてもよい。なお口元認識部126は、抽出特徴パターンに基づいて文字列パターンを出力することができたとき、良好な認識結果が得られたと判断する。
When performing mouth recognition, the
口元認識学習部128は、認識・学習判定部142から口元認識機能部122に対し口元認識部126の口元認識学習を行うよう指示があった場合に、口元認識部126の口元認識学習を行う。
The mouth
具体的には、口元認識学習部128は、発声者のある時点又は期間での口元について、口元認識部126において抽出した形状又は該形状の推移の特徴パターンと、その時点又は期間において発声者が発した音声の音声認識結果である文字列パターンと、を取得する。そして取得した特徴パターンと文字列パターンとを対応付けて記憶部14に記憶する。このようにして記憶部14に記憶される口元の形状又は該形状の推移の特徴パターンと、文字列パターンと、を更新することにより、口元認識部126の口元認識学習を行う。
Specifically, the mouth
言い換えれば、口元認識学習部128は、収音される音声に基づく音声認識結果と、該音声の発声者が該音声を発する際に撮影された画像に含まれる口元画像により示される口元の形状又は該形状の推移と、に基づいて、口元認識の学習を行っている。
In other words, the mouth
なお口元認識学習部128は、一定期間にわたり認識・学習判定部142からの上記指示がないことを検出した場合、記憶部14に過去に記憶した口元の形状又は該形状の推移の特徴パターンと文字列パターンとに基づいて繰り返し学習(反復学習)を行うこととしてもよい。
When the mouth
統合処理部144は、認識・学習判定部142により口元認識部126による口元認識結果と音声認識部136による音声認識結果とに基づいて認識結果を出力するよう指示された場合には、口元認識部126による口元認識と音声認識部136による音声認識とに基づいて認識結果を生成し、生成した認識結果を出力部19に対して出力する。一方、認識・学習判定部142により口元認識部126による口元認識と音声認識部136による音声認識とに基づいて認識結果を出力するよう指示されていない場合には、音声認識部136による音声認識結果を認識結果として出力部19に対して出力する。
When the recognition /
なお、口元認識部126による口元認識と音声認識部136による音声認識とに基づいて認識結果を生成する処理は、口元認識結果と音声認識結果のいずれかを認識結果として取得する処理であってもよいし、口元認識結果と音声認識結果の両方に基づく認識結果を生成する処理であってもよい。
Note that the process of generating the recognition result based on the mouth recognition by the
以上説明した発声内容認識装置10における発生内容認識精度向上処理を、該処理のフロー図を参照しながらより詳細に説明する。
The generation content recognition accuracy improving process in the utterance
まず、画像取得部120は撮影機18で撮影された画像を順次取得するための画像取得処理を行う(S100)。次に、口元探索部124は画像取得部120において取得された画像において発声者の口元画像を探索する(S102)。より具体的には、画像から発声者の口元の形状の特徴パターンを抽出する。口元探索部124は、一連の画像についてこの特徴パターン抽出処理を行う(S102)。
First, the
そして、口元探索部124は画像に発声者の口元画像が含まれているか否かを判断する(S104)。この判断で含まれていないと判断される場合、発声内容認識装置10はS106の処理に進む。一方含まれていると判断される場合、発声内容認識装置10はS116の処理に進む。
Then, the
S106では、音声取得部130が収音器16で収音される音声を順次取得するための音声取得処理を行う(S106)。そして、信号レベル計測部134は音声取得部130が順次取得する音声のSNRを順次測定する。そして閾値1を記憶部14から読み出し、測定されたSNRが閾値1を超えているか否かに応じて、発声内容認識装置10は異なる処理を行う(S108)。
In S106, the
測定されたSNRが閾値1を超えていない場合、音声認識機能部132は発声者に対し聞き返すための処理を行う(S110)。一方、測定されたSNRが閾値1を超えている場合には、音声認識機能部132は収音器16により順次収音される発声者の音声に基づく音声認識を行い、統合処理部144は、音声認識機能部132から出力される音声認識結果を認識結果として取得し、出力する(S114)。
If the measured SNR does not exceed the
S116では、口元探索部124は一連の画像について抽出した特徴パターンに基づいて得られる口元画像により、口元が動いているか否かを判断する(S116)。口元が動いていないと判断される場合、発声内容認識装置10は音声認識処理も口元認識処理も行わず、処理を終了する(S140)。一方、口元が動いていると判断される場合、発声内容認識装置10は以下の処理を行う。
In S116, the
すなわち発声内容認識装置10は、まず収音器16の指向性を発声者の口元に合わせるための指向性制御処理を行う(S118)。そして発声内容認識装置10は、音声取得部130が収音器16で収音される音声を順次取得するための音声取得処理を行う(S120)。そして発声内容認識装置10は、信号レベル計測部134において音声取得部130が順次取得する音声のSNRを順次測定する。そして発声内容認識装置10は閾値1と閾値2(閾値2>閾値1)を記憶部14から読み出し、測定されたSNRが閾値1を超えていない場合、閾値1を超えているが閾値2を超えていない場合、閾値2を超えている場合、のそれぞれにおいて異なる処理を行う(S122,S127)。
That is, the utterance
まず測定されたSNRが閾値1を超えていない場合、口元認識機能部122による、撮影機18により順次撮影される画像に含まれる口元画像に基づく口元認識処理を行う(S123)。そして口元認識部126は、良好な認識結果を得ることができたか否かを判断し(S124)、良好な認識結果が得られたと判断される場合には、発声内容認識装置10は、統合処理部144において、口元認識機能部122から出力される音声認識結果を認識結果として取得し、出力する(S125)。一方良好な認識結果を得ることができなかったと判断される場合には、音声認識部136は発声者に対し聞き返すための処理を行う(S126)。
First, when the measured SNR does not exceed the
次に、測定されたSNRが閾値1を超えているが閾値2を超えていない場合、発声内容認識装置10は、音声認識機能部132による、収音器16により順次収音される発声者の音声に基づく音声認識処理(S128)と、口元認識機能部122による、撮影機18により順次撮影される画像に含まれる口元画像に基づく口元認識処理(S130)と、を行う。そして発声内容認識装置10は、統合処理部144において、音声認識処理の認識結果と、口元認識処理の認識結果と、に基づいて認識結果を生成取得し、出力する(S132)。
Next, when the measured SNR exceeds the
測定されたSNRが閾値2を超えている場合には、発声内容認識装置10は、音声認識機能部132による、収音器16により順次収音される発声者の音声に基づく音声認識処理を行う(S134)。そして発声内容認識装置10は、統合処理部144において、音声認識機能部132から出力される音声認識結果を認識結果として取得し、出力する(S136)。さらに発声内容認識装置10は、この出力結果と、撮影機18により順次撮影される画像に含まれる口元画像の特徴パターンと、に基づいて口元認識の学習処理を行う(S138)。
When the measured SNR exceeds the
そして、以上のようにして実行される発生内容認識精度向上処理を終了するか否かを判断し、終了する場合には終了し、終了しない場合には再度S100の処理から処理を繰り返す(S140)。 Then, it is determined whether or not the generated content recognition accuracy improving process executed as described above is to be ended. If it is to be ended, the process is ended. If not, the process is repeated from S100 again (S140). .
以上のようにして、発声内容認識装置10は、撮影機18で撮影された画像に発声者の少なくとも一部が含まれるか否かを判定しているので、口元画像発声者が収音器16の近くにおらず低精度の音声認識が行われることを抑制することができる。また、撮影機18で撮影された画像に口元画像が含まれるか否かを判定しているので、発声者の発する音声が当該パターン認識装置に届きにくく低精度の音声認識が行われることを抑制することができる。さらに、撮影機18で撮影された画像に含まれる口元画像が動いているか否かを判定しているので、発声者が声を出しておらず低精度の音声認識が行われることを抑制している。他に、収音器16の指向性を制御して発声者の口元に向けて音声取得手段の指向性を合わせることにより、よりよい収音状態で発声者の発する音声を取得できる。また、音声認識の認識結果と、該音声を発する口元の形状又は該形状の推移と、に基づいて口元認識の学習を行うので、口元認識の精度を上げることができ、さらに統合処理部144は口元認識結果と音声認識結果の両方に基づいて認識結果を生成しているので、パターン認識の認識結果の精度を上げることができる。また、収音器16での発声者音声の収音状態が非常に良い場合に口元認識学習を行い、他の収音状態では口元認識学習を行わないようにしているので、精度の悪い音声認識の認識結果により口元認識学習が行われる可能性を減少させることができる。また、収音器16での発声者音声の収音状態に応じて音声認識と口元認識を切り替えることができるので、収音状態が悪いときに低精度の音声認識が行われることを抑制できる。
As described above, since the utterance
なお、本発明は上記実施の形態に限定されるものではない。例えば、発声内容認識装置10は収音器16を複数備えることとしてもよい。この場合には、信号レベル計測部134は撮影機18の撮影した画像に含まれる口元画像により示される口元の位置に対して指向性を有する収音器16において音声信号と雑音信号を収音し、その他の方向に対して指向性を有する収音器16において収音される音声は全て雑音信号であると判断することとしてもよい。
The present invention is not limited to the above embodiment. For example, the utterance
また、撮影機18の撮影した画像に含まれる口元画像により示される口元の位置に対して、撮影機18自身の撮影方向を合わせるよう、撮影機18の撮影方向を制御することとしてもよい。具体的には、CPU10が撮影機18の撮影した画像に含まれる口元画像により示される口元の位置に応じて撮影機18の撮影方向を制御することとしてもよい。
In addition, the shooting direction of the
さらに、記憶部14は複数人についてそれぞれの音声の特徴パターン若しくは口元の形状又は該形状の推移の特徴パターンを記憶することとしてもよい。この場合、収音器16において収音される音声から抽出された音声の特徴パターンと、撮影機18において撮影される画像から抽出された口元の形状又は該形状の推移パターンと、が同一人物のものでない場合には、信号レベル計測部134は、取得された音声を雑音として取り扱うこととしてもよい。また、指向性制御部140は、該口元画像により示される口元の位置に対して指向性を合わせる処理を中止することとしてもよい。また、認識・学習判定部142は、音声認識処理、口元認識処理、口元認識学習処理、を行わないこととしてもよい。
Furthermore, the memory |
また、記憶部14が複数人についてそれぞれの音声の特徴パターン若しくは口元の形状又は該形状の推移の特徴パターンを記憶する場合において、さらに各人を示す個人情報と対応付けてRFID(無線ICタグ)情報を記憶することとしてもよい。この場合、発声内容認識装置10がRFID読取手段を備えることとすれば、該RFID読取手段によりRFIDを検出することで発声内容認識装置10を使用しているのが記憶されるRFIDを持っている人であるかそうでないかを判断することができる。そして、RFIDを持っていない人が発声内容認識装置10を使用していると判断する場合には、上記各処理を行わないこととしてもよい。また、発声内容認識装置10を使用しているのが記憶されるRFIDを持っている人であると判断される場合には、音声認識処理及び口元認識処理において該RFIDに対応付けて記憶される個人情報で示される人についての特徴パターンを使用することとしてもよい。
Further, when the
10 発声内容認識装置、12 CPU、14 記憶部、15 入力部、16 収音器、18 撮影機、19 出力部、120 画像取得部、122 口元認識機能部、124
口元探索部、126 口元認識部、128 口元認識学習部、130 音声取得部、132 音声認識機能部、134 信号レベル計測部、136 音声認識部、140 指向性制御部、142 認識・学習判定部、144 統合処理部
DESCRIPTION OF
Mouth search unit, 126 Mouth recognition unit, 128 Mouth recognition learning unit, 130 Speech acquisition unit, 132 Speech recognition function unit, 134 Signal level measurement unit, 136 Speech recognition unit, 140 Directivity control unit, 142 Recognition / learning determination unit, 144 Integrated processing unit
Claims (4)
画像を撮影する撮影手段と、
前記収音される音声に基づく音声認識を行う音声認識手段と、
前記撮影される画像に前記収音手段に対し音声を発する発声者の口元が含まれていない場合に、前記音声認識手段が音声認識を行うことを制限する音声認識実施制限手段と、
前記撮影される画像に含まれる前記発声者の口元の形状又は該形状の推移に基づいて口元認識を行う口元認識手段と、
前記音声認識手段の認識結果と、前記撮影される画像に含まれる前記発声者の口元の形状又は該形状の推移と、に基づいて、前記口元認識手段による口元認識の学習を行う口元認識学習手段と、
前記収音手段により収音される音声から抽出される特徴パターンに基づいて、前記発声者が発した音声を含む音声を、該発声者が発した音声である音声信号とその他の雑音信号とに分離し、該分離された音声信号および雑音信号に基づく収音状態の良さを示す収音状態評価値を取得する収音状態評価値取得手段と、を含み、
前記口元認識学習手段による学習は、前記収音状態評価値により示される収音状態が所定閾値以上である場合の前記音声認識手段の認識結果に基づいて行われる、
ことを特徴とする発声内容認識装置。 And the sound collection means,
A photographing means for photographing the images,
Voice recognition means for performing voice recognition based on the collected voice;
A voice recognition implementation restriction unit that restricts the voice recognition unit from performing voice recognition when the photographed image does not include the mouth of a speaker who emits voice to the sound collection unit ;
Mouth recognition means for performing mouth recognition based on the shape of the mouth of the speaker included in the captured image or the transition of the shape;
Mouth recognition learning means for learning mouth recognition by the mouth recognition means based on the recognition result of the voice recognition means and the shape of the mouth of the speaker or the transition of the shape included in the photographed image When,
Based on a feature pattern extracted from the sound collected by the sound collecting means, the sound including the sound uttered by the speaker is converted into a voice signal that is the voice uttered by the speaker and other noise signals. A sound collection state evaluation value acquisition means for separating and acquiring a sound collection state evaluation value indicating a good sound collection state based on the separated audio signal and noise signal,
Learning by the mouth recognition learning unit is performed based on a recognition result of the voice recognition unit when a sound collection state indicated by the sound collection state evaluation value is a predetermined threshold or more.
The utterance content recognition apparatus characterized by this.
前記撮影手段は、前記画像を順次撮影し、
前記音声認識実施制限手段は、前記撮影される画像に口元が含まれている場合であっても、順次取得された該画像により示される口元が動いていない場合に、前記音声認識手段が音声認識を行うことを制限する、
ことを特徴とする発声内容認識装置。 The utterance content recognition device according to claim 1 ,
The photographing means sequentially photographs the images,
The voice recognition execution restriction unit is configured to perform voice recognition when the mouth indicated by the sequentially acquired images does not move even when the mouth is included in the captured image. Restricting to do,
The utterance content recognition apparatus characterized by this.
前記撮影される画像に含まれる口元に向けて、前記収音手段の指向性を合わせる音声指向性制御手段、
をさらに含むことを特徴とする発声内容認識装置。 In the utterance content recognition device according to claim 1 or 2 ,
Toward the mouth source that is part of an image to be the image capturing, voice directional control means to adjust the directivity of the sound pickup means,
A speech content recognition apparatus, further comprising:
撮影される画像に音声を発する発声者の口元が含まれていない場合に、前記音声認識を行うことを制限するステップBと、A step B for restricting the voice recognition when a voiced speaker's mouth is not included in the captured image;
前記撮影される画像に含まれる前記発声者の口元の形状又は該形状の推移に基づいて口元認識を行うステップCと、Step C for performing mouth recognition based on the shape of the mouth of the speaker included in the photographed image or transition of the shape;
前記音声認識の認識結果と、前記撮影される画像に含まれる前記発声者の口元の形状又は該形状の推移と、に基づいて、前記口元認識の学習を行うステップDと、Step D of learning the mouth recognition based on the recognition result of the voice recognition and the shape of the mouth of the speaker included in the photographed image or the transition of the shape;
前記収音される音声から抽出される特徴パターンに基づいて、前記発声者が発した音声を含む音声を、該発声者が発した音声である音声信号とその他の雑音信号とに分離し、該分離された音声信号および雑音信号に基づく収音状態の良さを示す収音状態評価値を取得するステップEと、を含み、Based on a feature pattern extracted from the collected voice, the voice including the voice uttered by the speaker is separated into a voice signal that is the voice uttered by the speaker and other noise signals; Obtaining a sound pickup state evaluation value indicating the good sound pickup state based on the separated voice signal and noise signal, and
前記ステップDによる学習は、前記収音状態評価値により示される収音状態が所定閾値以上である場合の前記音声認識の認識結果に基づいて行われる、The learning by the step D is performed based on the recognition result of the voice recognition when the sound pickup state indicated by the sound pickup state evaluation value is a predetermined threshold value or more.
ことを特徴とする発声内容認識方法。A speech content recognition method characterized by the above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010287127A JP5465166B2 (en) | 2010-12-24 | 2010-12-24 | Utterance content recognition device and utterance content recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010287127A JP5465166B2 (en) | 2010-12-24 | 2010-12-24 | Utterance content recognition device and utterance content recognition method |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005020813A Division JP4847022B2 (en) | 2005-01-28 | 2005-01-28 | Utterance content recognition device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011070224A JP2011070224A (en) | 2011-04-07 |
JP5465166B2 true JP5465166B2 (en) | 2014-04-09 |
Family
ID=44015488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010287127A Expired - Fee Related JP5465166B2 (en) | 2010-12-24 | 2010-12-24 | Utterance content recognition device and utterance content recognition method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5465166B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014186713A (en) * | 2013-02-21 | 2014-10-02 | Panasonic Corp | Conversation system and conversation processing method thereof |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03129400A (en) * | 1989-10-13 | 1991-06-03 | Seiko Epson Corp | Speech recognition device |
JP4675514B2 (en) * | 2001-07-16 | 2011-04-27 | シャープ株式会社 | Audio processing apparatus, audio processing method, and computer-readable recording medium storing a program for performing the method |
JP3891023B2 (en) * | 2002-04-01 | 2007-03-07 | 日本電気株式会社 | Interpreter system and program |
JP2004240154A (en) * | 2003-02-06 | 2004-08-26 | Hitachi Ltd | Information recognition device |
JP2004246095A (en) * | 2003-02-14 | 2004-09-02 | Nec Saitama Ltd | Mobile telephone unit and remote control method |
-
2010
- 2010-12-24 JP JP2010287127A patent/JP5465166B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011070224A (en) | 2011-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4847022B2 (en) | Utterance content recognition device | |
JP4204541B2 (en) | Interactive robot, interactive robot speech recognition method, and interactive robot speech recognition program | |
JP6230726B2 (en) | Speech recognition apparatus and speech recognition method | |
JP4729927B2 (en) | Voice detection device, automatic imaging device, and voice detection method | |
US9330673B2 (en) | Method and apparatus for performing microphone beamforming | |
JP4715738B2 (en) | Utterance detection device and utterance detection method | |
WO2019044157A1 (en) | Sound pickup device, sound pickup method, and program | |
CN105989836B (en) | Voice acquisition method and device and terminal equipment | |
JP2006251266A (en) | Audio-visual coordinated recognition method and device | |
CN111048113A (en) | Sound direction positioning processing method, device and system, computer equipment and storage medium | |
JP4825552B2 (en) | Speech recognition device, frequency spectrum acquisition device, and speech recognition method | |
JP2007257088A (en) | Robot device and its communication method | |
CN107533415B (en) | Voiceprint detection method and device | |
JP5465166B2 (en) | Utterance content recognition device and utterance content recognition method | |
JP6607092B2 (en) | Guide robot control system, program, and guide robot | |
JP2001067098A (en) | Person detecting method and device equipped with person detecting function | |
CN110653812B (en) | Interaction method of robot, robot and device with storage function | |
JP6916130B2 (en) | Speaker estimation method and speaker estimation device | |
JP2020086034A (en) | Information processor, information processor and program | |
KR101353936B1 (en) | Speech recognition apparatus and method for speech recognition | |
JP4781248B2 (en) | IMAGING DEVICE, IMAGING DEVICE CONTROL METHOD, PROGRAM, AND RECORDING MEDIUM | |
CN110033790B (en) | Voice recognition device, robot, voice recognition method, and recording medium | |
EP4178220A1 (en) | Voice-input device | |
CN112948792A (en) | Unlocking method and device | |
JP2024046308A (en) | Imaging device, control method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130312 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130510 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131224 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140121 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5465166 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |