JP5849761B2 - Speech recognition system, speech recognition method, and speech recognition program - Google Patents
Speech recognition system, speech recognition method, and speech recognition program Download PDFInfo
- Publication number
- JP5849761B2 JP5849761B2 JP2012036555A JP2012036555A JP5849761B2 JP 5849761 B2 JP5849761 B2 JP 5849761B2 JP 2012036555 A JP2012036555 A JP 2012036555A JP 2012036555 A JP2012036555 A JP 2012036555A JP 5849761 B2 JP5849761 B2 JP 5849761B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- voice
- mouth movement
- recognition
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Collating Specific Patterns (AREA)
- Studio Devices (AREA)
Description
本発明は、画像認識技術を利用した音声認識システムに関する。 The present invention relates to a voice recognition system using image recognition technology.
音声認識は、有望な技術であり、スマートデバイスなどでも活用され始めている。音声認識技術を用いることにより、例えば、メモの作成、検索またはシステムの操作など、今まで手動の操作で行われ手間がかかっていた作業をより簡単に行うことが可能である。 Speech recognition is a promising technology and is beginning to be used in smart devices. By using the voice recognition technology, it is possible to more easily perform operations that have been performed manually until now, such as creating notes, searching, or operating the system.
音声認識の認識精度向上のために、雑音処理を施したり、音声辞書を整備したりするなどの様々な対策が行われているが、認識精度が100%に達することは難しい。しかし、音声認識を利用する顧客は、ほぼ100%の認識精度を期待しており、現状ではそのニーズに応えることができていない。そのため、認識精度向上のための技術やソリューションを開発するために、今なお研究が行われている。 Various measures have been taken to improve the recognition accuracy of speech recognition, such as performing noise processing and preparing a speech dictionary, but it is difficult to achieve 100% recognition accuracy. However, customers who use speech recognition expect almost 100% recognition accuracy and are not able to meet the needs at present. Therefore, research is still being conducted to develop technologies and solutions for improving recognition accuracy.
音声認識を実施するための一般的な構成は、音声を収集するマイクロフォン(以下、マイクという)および得られたデータを解析しテキスト化を行う認識エンジン部分に大別される。そして、音声を認識する精度は、収集された音声データの質や、認識エンジン部分で利用する音声辞書に大きく依存する。ここで音声収集に注目すると、例えば、マイクにより認識対象者の周囲の雑音や認識対象者以外の話し声が収集されることにより、音声データの質が下がり、認識精度が下がってしまうという課題がある。 A general configuration for performing speech recognition is roughly divided into a microphone (hereinafter referred to as a microphone) that collects speech and a recognition engine portion that analyzes the obtained data and converts it into text. The accuracy of recognizing speech greatly depends on the quality of the collected speech data and the speech dictionary used in the recognition engine. When attention is focused on voice collection here, for example, there is a problem that noise around the recognition target person or speech other than the recognition target person is collected by a microphone, thereby lowering the quality of the voice data and lowering the recognition accuracy. .
そのような課題を解決するための技術として、例えば特許文献1には、認識対象者が発する音声を強調して入力し集音能力を高めるために、指向性マイクを活用し、撮像画像における被写体の占める範囲に基づいて、音声入力部の指向性を制御する技術が記載されている。また、特許文献1には、口が開いていると認識された顔の人物が声を発している可能性が高いと判断し、その人物の顔が占める範囲から入力される音声を強調する指向性で音声を入力する技術が記載されている。
As a technique for solving such a problem, for example, in
しかし、話をする際の口の動かし方には、個人によって特徴があるので、特許文献1に記載された技術を用いたとしても、認識対象者である話者の確実な特定ができない場合がある。そのため、話者に対する音声収集がうまくいかず、周囲の雑音等を収集してしまい音声データの質が下がり、音声認識の精度が下がってしまう場合がある。
However, since the method of moving the mouth when speaking is characterized by individuals, even if the technique described in
そこで、本発明は、音声認識の精度を向上させることができる音声認識システムを提供することを目的とする。 Accordingly, an object of the present invention is to provide a speech recognition system that can improve the accuracy of speech recognition.
本発明による音声認識システムは、音声認識の対象となる利用者を撮影した画像をカメラから取得し、前記画像を用いて前記利用者を特定する顔認識手段と、予め記憶された個人毎の口の動きの特徴量を記憶した口の動きデータベースを有し、前記画像から利用者の口の状態を検出し、前記口の動きデータベースに記憶された前記利用者に対応する口の動きの特徴量と前記画像から得られた前記利用者の口の動きの特徴量とを比較し、前記利用者が話しているかどうかを判定する口の動き判定手段と、前記利用者が話していると判定された場合、前記利用者の音声を取得するための音声入力手段に前記利用者の位置を通知する指向方向決定手段と、前記音声を取得し音声認識を行う音声認識手段とを備えたことを特徴とする。 The speech recognition system according to the present invention obtains an image of a user who is a target of speech recognition from a camera, uses the image to identify the user, and a pre-stored personal mouth. A mouth movement database storing the movement feature amount of the mouth, detecting the mouth state of the user from the image, and storing the mouth movement feature amount corresponding to the user stored in the mouth movement database And a mouth movement determination means for determining whether or not the user is speaking, and determining that the user is speaking A direction-of-direction determining means for notifying a voice input means for acquiring the voice of the user, and a voice recognition means for acquiring the voice and performing voice recognition. And
本発明による音声認識方法は、音声認識の対象となる利用者を撮影した画像をカメラから取得し、前記画像を用いて前記利用者を特定し、予め記憶された個人毎の口の動きの特徴量を記憶した口の動きデータベースを有し、前記画像から利用者の口の状態を検出し、前記口の動きデータベースに記憶された前記利用者に対応する口の動きの特徴量と前記画像から得られた前記利用者の口の動きの特徴量とを比較し、前記利用者が話しているかどうかを判定し、前記利用者が話していると判定された場合、前記利用者の音声を取得するための音声入力手段に前記利用者の位置を通知し、前記音声を取得し音声認識を行うことを特徴とする。 According to the speech recognition method of the present invention, an image obtained by capturing a user who is a target of speech recognition is acquired from a camera, the user is identified using the image, and mouth movement characteristics for each individual stored in advance are stored. A mouth movement database storing the amount, detecting a mouth state of the user from the image, and determining the mouth movement feature amount corresponding to the user stored in the mouth movement database and the image Compare the obtained feature value of the mouth movement of the user, determine whether the user is speaking, and if it is determined that the user is speaking, obtain the voice of the user The position of the user is notified to a voice input means for acquiring the voice, and voice recognition is performed.
本発明による音声認識プログラムは、コンピュータに、音声認識の対象となる利用者を撮影した画像をカメラから取得し、前記画像を用いて前記利用者を特定する顔認識処理と、予め記憶された個人毎の口の動きの特徴量を記憶した口の動きデータベースを有し、前記画像から利用者の口の状態を検出し、前記口の動きデータベースに記憶された前記利用者に対応する口の動きの特徴量と前記画像から得られた前記利用者の口の動きの特徴量とを比較し、前記利用者が話しているかどうかを判定する口の動き判定処理と、前記利用者が話していると判定された場合、前記利用者の音声を取得するための音声入力手段に前記利用者の位置を通知する指向方向決定処理と、前記音声を取得し音声認識を行う音声認識処理とを実行させることを特徴とする。 The speech recognition program according to the present invention obtains, from a camera, an image obtained by capturing a user who is a target of speech recognition from a camera, a face recognition process for identifying the user using the image, and a personally stored person. A mouth movement database that stores a feature value of each mouth movement, detects a mouth state of the user from the image, and moves the mouth corresponding to the user stored in the mouth movement database; The mouth movement determination process for comparing whether the user is speaking by comparing the feature amount of the user and the feature amount of the user's mouth movement obtained from the image, and the user speaking If it is determined, a direction determination process for notifying the user's position to voice input means for acquiring the user's voice and a voice recognition process for acquiring the voice and performing voice recognition are executed. That features To.
本発明によれば、音声認識の精度を向上させることができる。 According to the present invention, the accuracy of voice recognition can be improved.
図1は、本発明による音声認識システムの実施形態の構成を示すブロック図である。図1に示すように、本実施形態の音声認識システムは、顔認識機能(顔認識部)30、口の動き判定機能(口の動き判定部)40、音声データ入力有無判定機能(音声データ入力有無判定部)50、指向方向決定機能(指向方向決定部)60、音声認識機能(音声認識部)70、および文終了判定機能(文終了判定部)80を備える。また、文終了判定機能80以外の上記各機能は、ネットワーク20を介して利用者が使用する機器10に接続され、データの送受信を行う。また、機器10は、カメラ11および指向性マイクを含む。
FIG. 1 is a block diagram showing a configuration of an embodiment of a speech recognition system according to the present invention. As shown in FIG. 1, the speech recognition system of the present embodiment includes a face recognition function (face recognition unit) 30, a mouth movement determination function (mouth movement determination unit) 40, a voice data input presence / absence determination function (voice data input). Presence / absence determination unit) 50, directivity direction determination function (directivity direction determination unit) 60, speech recognition function (speech recognition unit) 70, and sentence end determination function (sentence end determination unit) 80 are provided. Each of the above functions other than the sentence
顔認識機能30は、特徴量抽出手段31、DB(Data Base:データベース)照合手段32および顔DB(Data Base:データベース)33を含む。顔認識機能30は、カメラ11から得られる画像を入力する。特徴量抽出手段31は、入力した画像の特徴量を抽出する。DB照合手段32は、特徴量と顔DB33に予め記憶された顔の特徴量との照合を行い、利用者の人物特定を行う。
The
口の動き判定機能40は、口の状態検出手段41、特定ユーザのDB(Data Base:データベース)設定手段42、個別の口の動きDB(Data Base:データベース)43、および発話中の口の動き判定手段44を含む。口の状態検出手段41は、カメラ11から得られた画像から、口の状態を検出する。発話時の口の動き判定手段44は、特定ユーザのDB設定手段42により設定された個別の口の動きDB43のデータと、カメラ11から得られた画像とを比較する。
Mouth
音声データ入力有無判定機能50は、音声データ取得手段51および音声データ有無判定手段52を含む。音声データ取得手段51は、機器10から音声データを取得する。音声データ有無判定手段52は、音声データの有無を判定する。音声データ有無判定手段52は、例えば、取得された音声データの音量が所定の値を超えていれば音声データが入っていると判定する。
The voice data input presence /
指向方向決定機能60は、検索結果取得手段61、対象人物の画像位置判定手段62および方向決定手段63を含む。検索結果取得手段61は、顔認識機能30および口の動き判定機能40が出力した結果を取得する。対象人物の画像位置判定手段62は、取得された結果に基づいて、認識対象となる人物の位置を判定する。方向決定手段63は、人物の位置から方向を決定する。
The orientation
音声認識機能70は、特定ユーザ辞書設定手段71、音声認識(テキスト化)手段72、個別ユーザ辞書DB(Data Base:データベース)73および認識結果DB(Data Base:データベース)74を含む。特定ユーザ辞書設定手段71は、個別ユーザ辞書DB73のうち認識対象となる人物専用のDBを使用する設定を行う。音声認識(テキスト化)手段72は、設定された辞書DBを利用して、マイク12から得られた音声データを音声認識(テキスト化)する。
The
文終了判定機能80は、テキスト取得手段81および文終了判定手段82を含む。テキスト取得手段81は、音声認識機能70から送信されたテキスト情報を取得する。文終了判定手段82は、得られたテキスト情報を解析し、文が完結しているかどうかを判定する。
The sentence
なお、本実施形態の音声認識システムにおける顔認識機能30、口の動き判定機能40、音声データ入力有無判定機能50、指向方向決定機能60、音声認識機能70、および文終了判定機能80は、プログラムに基づいて処理を実行するCPUで実現可能である。また、上記各機能に含まれるDB(Data Base:データベース)は、HDD(Hard Disk Drive)等の記憶装置に記憶される。
Note that the
以下、本実施形態の音声認識システムの動作を説明する。図2は、本発明による音声認識システムの実施形態の動作を示すシーケンス図である。図3は、本発明による音声認識システムの実施形態の動作を示すフローチャートである。 Hereinafter, the operation of the voice recognition system of this embodiment will be described. FIG. 2 is a sequence diagram showing the operation of the embodiment of the speech recognition system according to the present invention. FIG. 3 is a flowchart showing the operation of the embodiment of the speech recognition system according to the present invention.
利用者により機器10の電源がONにされると(ステップS100)、機器10が有するカメラ11は、利用者を撮影し、顔認識機能30および口の動き判定機能40に画像を送信する(ステップS1)。顔認識機能30は、カメラ11から得られた画像を入力して顔認識を行う(ステップS101、ステップS2)。具体的には、DB照合手段32は、特徴量抽出手段31が抽出した画像の特徴量と顔DB33に予め記憶された顔の特徴量との照合を行い、利用者の人物特定を行う。顔認識において人物が特定できなかった場合(ステップS102のNO)、再度、顔認識を行う(ステップS101)。
When the power of the
顔認識機能30は、顔認識において人物が特定できた場合(ステップS102のYES)、認識結果を口の動き判定機能40および音声認識機能70へ送信し(ステップS3)、顔認識を一時停止する。
If the person can be identified in the face recognition (YES in step S102), the
口の動き判定機能40には、カメラ11から得られた画像が定期的に送信される(ステップS5)。口の状態検出手段41は、カメラ11から得られた画像から口の状態を検出する。特定ユーザDB設定42は、個別の口の動きデータベース43を用いて、顔認識機能30が認識した人物に対応する口の動き特徴量を設定する(ステップS103、ステップS4)。発話時の口の動き判定手段44は、その画像の特徴量と、個別の口の動きデータベース43に記憶された特徴量との比較を行い、利用者が話しているかどうかを判定する(ステップS104、ステップS6)。利用者が話していないと判定された場合、顔認識機能30を稼動させ、再度顔認識を行う(ステップS101)。
An image obtained from the
図4は、特定人物に対する口の動き判定機能40の動作を示す説明図である。図4に示すように、個別の口の動きデータベース43は、個人毎の個別のDBを含む。図4に示す例では、個別の口の動きデータベース43は、Aさん専用のデータベース43aとBさん専用のデータベース43bとを含む。発話中の口の動き判定手段44は、ステップS101においてカメラ11から得られた画像がAさんであると認識された場合、画像の特徴量とAさん専用のデータベース43aに記憶された特徴量とを比較してAさんが話しているかどうか判定する。
FIG. 4 is an explanatory diagram showing the operation of the mouth
口の動き判定機能40により、個人毎の口の動きの特徴量データを予め記憶しておき、そのデータを用いて利用者が話しているかどうか判定するので、送られた画像のみを基に話しているかどうかを判定するよりも、より精度良く判定することができる。
Mouth
口の動き判定機能40は、ステップS104において利用者が話していると判定した場合、顔認識機能30から得た顔認識結果と、口の動きの判定結果とを指向方向決定機能60へ送信する(ステップS7)。指向方向決定機能60は、送信された結果に基づいて、利用者までの距離がどれくらいか、どの方向にマイク12の指向性を向ければよいかを判定する(ステップS105)。具体的には、検索結果取得手段61が、顔認識機能30および口の動き判定機能40の結果を取得する。取得された結果に基づいて、対象人物の画像位置判定手段62は、認識対象となる人物の位置および距離を判定する。また、方向決定手段63は、位置から方向を決定する。判定された指向方向は、機器10へと通知される(ステップS8)。機器10は、マイク12がその方向へと指向性を高めるように自動で制御する(ステップS106)。
If it is determined in step S104 that the user is speaking, the mouth
また、ステップS104で、利用者が話していると判定された場合、音声認識機能70は、音声認識の対象となる人物の音声認識対象辞書を設定する(ステップS107)。具体的には、本実施例において顔認識機能30が特定した利用者はAさんだったので、特定ユーザ辞書設定手段71は、個別ユーザ辞書DB73のうちAさん専用の辞書を使用する設定を行う。
If it is determined in step S104 that the user is speaking, the
機器10は、マイク12から収集された音声データを、音声データ入力有無判定機能50へ送信する(ステップS9)。音声データ取得手段51は、機器10から音声データを取得する。音声データ有無判定手段52は、音声データの有無を判定する(ステップS108、ステップS10)。音声データ有無判定手段52は、例えば、取得された音声データの音量が所定の値を超えていれば音声データが入っていると判定する。ステップS108において、音声データが入っていないと判定された場合は、顔認識機能30を稼動させ、再びステップS101の顔認識を実施する。
The
ステップS108において音声データが入っていると判定された場合、音声データ入力有無判定機能50は、音声認識を行う音声認識機能70へ音声データを送信する(ステップS11)。音声認識機能70は、送信された音声データに対して音声認識を実行する(ステップS109、ステップS12)。
When it is determined in step S108 that voice data is included, the voice data input presence /
音声データ入力有無判定機能50により、音声データが入っていないと判定された場合は、音声認識を行わないため、音声認識機能70が無駄な処理を行う可能性を低減できる。
When the voice data input presence /
図5は、特定人物に対する音声認識機能70の動作を示す説明図である。個別ユーザ辞書DB73は、個人毎の声の質やよく言う言葉などの音声に関する特徴を記憶している。個別ユーザ辞書DB73は、図5に示す例においては、Aさん専用辞書DB73aとBさん専用辞書DB73bとを含む。ステップS107において、特定ユーザ辞書設定手段71によりAさん専用の辞書を使用する設定が行われている。そのため、音声認識(テキスト化)手段72は、Aさん専用辞書73aを利用して、マイク12から得られた音声データの音声認識(テキスト化)を行う(ステップS109、ステップS12)。
FIG. 5 is an explanatory diagram showing the operation of the
音声認識機能70は、予め記憶した個人毎の声の質やよく言う言葉などの音声に関する特徴を用いて音声認識を行うので、個人を特定せずに音声認識する場合と比べて、より精度良く音声認識を行うことができる。
Since the
音声認識機能70は、音声認識(テキスト化)されたデータ(テキスト情報)を、認識結果DB74へ蓄積し、文終了判定機能80へ送信する(ステップS13)。テキスト取得手段81は、音声認識機能70から送信されたテキスト情報を取得する。そして、文終了判定手段82は、得られたテキスト情報を解析し、文が完結しているかどうかを判定する(ステップS14)。
The
図6は、文終了判定機能80の動作を示す説明図である。図6に示すように、文終了判定機能80は、音声認識機能70から得たテキスト情報を解析し文の終わりを判別する。例えば、「です」や「しましょう」など文末に使用されることが多い語句を得たら、その語句が文末であると判断する。
FIG. 6 is an explanatory diagram showing the operation of the sentence
文終了判定機能80の判定において、文が完結していると判定された場合(ステップS110のYES)、Aさんの話が一旦終了すると判断し、次に話す人を特定するために顔認識機能30を再稼動させ顔認識を再度行う(ステップS101、ステップS15)。文終了判定機能80の判定において、文が完結していないと判定された場合(ステップS1101のNO)、ステップS106の処理に戻る。また、音声を認識した後、一定時間音声入力が無い場合にもその人物の発話が終了したと判断を行い、次に話す人を特定するために顔認識機能30を再稼動させ顔認識を再度行ってもよい(ステップS101、ステップS15)。
In the determination of the sentence
文終了判定機能80は、文の終わりを判断することができるので、話者が話し終わったかどうかの判断ができる。そして、話者が話終わったと判断した場合、再度、顔認識を行い別の人が話し始めたらその人に指向を向けるので、例えば会議等で複数人が話し出した場合でも、より精度良く話者に指向を向けることができる。
Since the sentence
本発明によれば、予め記憶した個人毎の口の動きの特徴量データを用いて話をしているかどうかを判定し、話をしている可能性が高い人物への指向性を高め、音声データを収集することができるので音声認識の精度を向上させることができる。また、予め記憶した個人毎の専用辞書を利用して音声認識を行うので、音声認識の精度を向上させることができる。また、話者の話の終わりを判断し、話者が話終わったと判断した場合、再度、顔認識を行い指向性の制御を行うので、音声認識の精度を向上させることができる。 According to the present invention, it is determined whether or not speaking is performed using the mouth movement feature amount data stored for each individual in advance, and the directivity to a person who is highly likely to be speaking is improved. Since data can be collected, the accuracy of speech recognition can be improved. Further, since voice recognition is performed using a dedicated dictionary for each individual stored in advance, the accuracy of voice recognition can be improved. Further, when the end of the speaker's story is determined and it is determined that the speaker has ended, the face recognition is performed again and the directivity is controlled, so that the accuracy of speech recognition can be improved.
図7は、本発明による音声認識システムの主要部を示すブロック図である。図7に示すように音声認識システムは、主要な構成要素として、音声認識の対象となる利用者を撮影した画像をカメラから取得し、画像を用いて利用者を特定する顔認識手段1と、予め記憶された個人毎の口の動きの特徴量を記憶した口の動きデータベースを有し、画像から利用者の口の状態を検出し、口の動きデータベースに記憶された利用者に対応する口の動きの特徴量と画像から得られた利用者の口の動きの特徴量とを比較し、利用者が話しているかどうかを判定する口の動き判定手段2と、利用者が話していると判定された場合、利用者の音声を取得するための音声入力手段に利用者の位置を通知する指向方向決定手段3と、音声を取得し音声認識を行う音声認識手段4とを備える。
FIG. 7 is a block diagram showing the main part of the speech recognition system according to the present invention. As shown in FIG. 7, the speech recognition system includes, as main components, a
また、上記の各実施形態では、以下の(1)〜(4)に示すような音声認識システムも開示されている。 In each of the above embodiments, a speech recognition system as shown in the following (1) to (4) is also disclosed.
(1)音声認識の対象となる利用者(例えば、利用者X)を撮影した画像をカメラ(例えば、カメラ11)から取得し、画像を用いて利用者を特定する顔認識手段(例えば、顔認識機能30)と、予め記憶された個人毎の口の動きの特徴量を記憶した口の動きデータベース(例えば、個別の口の動きDB43)を有し、画像から利用者の口の状態を検出し、口の動きデータベースに記憶された利用者に対応する口の動きの特徴量と画像から得られた利用者の口の動きの特徴量とを比較し、利用者が話しているかどうかを判定する口の動き判定手段(例えば、口の動き判定機能40)と、利用者が話していると判定された場合、利用者の音声を取得するための音声入力手段(例えば、マイク12)に利用者の位置を通知し、利用者への指向性を高めさせる指向方向決定手段(例えば、指向方向決定機能60)と、音声を取得し音声認識を行う音声認識手段(例えば、音声認識機能70)とを備えた音声認識システム。 (1) Face recognition means (for example, face) that acquires an image obtained by capturing a user (for example, user X) as a voice recognition target from a camera (for example, camera 11) and identifies the user using the image. Recognition function 30) and a mouth movement database (for example, individual mouth movement DB 43) that stores pre-stored feature values of mouth movements for each individual, and detects a user's mouth state from an image. Then, the feature value of the mouth movement corresponding to the user stored in the mouth movement database is compared with the feature value of the user's mouth movement obtained from the image to determine whether or not the user is speaking. It is used for mouth movement determination means (for example, mouth movement determination function 40) and voice input means (for example, microphone 12) for acquiring the user's voice when it is determined that the user is speaking. The user ’s location and directing the user Speech recognition system comprising Mesa causing directivity direction setting unit (e.g., pointing direction determining function 60) and speech recognition means for performing speech recognition to get the sound (e.g., voice recognition function 70) and.
(2)音声認識システムは、音声認識手段が、個人毎の音声に関する特徴を予め記憶した個別ユーザ辞書データベースを有し、個別ユーザ辞書データベースに記憶された利用者に対応する音声に関する特徴に基づいて、音声入力手段から取得した利用者の音声認識を行うように構成されていてもよい。 (2) In the speech recognition system, the speech recognition means has an individual user dictionary database in which features relating to speech for each individual are stored in advance, and based on features relating to speech corresponding to users stored in the individual user dictionary database. The voice recognition of the user acquired from the voice input means may be performed.
(3)音声認識システムは、音声認識手段が認識して得たテキスト情報を取得し、テキスト情報を解析し文が完結しているかどうか判定し、文が完結していると判定した場合、顔認識手段に顔認識をさせる文終了判定手段(例えば、文終了判定機能80)を備えるように構成されていてもよい。 (3) The speech recognition system acquires text information obtained by recognition by the speech recognition means, analyzes the text information, determines whether the sentence is complete, and determines that the sentence is complete, A sentence end determination unit (for example, a sentence end determination function 80) that causes the recognition unit to recognize a face may be provided.
(4)音声認識システムは、音声入力手段から音声データが取得されたかどうかを判定する音声入力有無判定手段(例えば、音声データ入力有無判定機能50)を備え、音声データが取得されていない場合、音声認識手段は音声認識を行わず、顔認識手段は画像を用いて利用者を特定するように構成されていてもよい。 (4) The voice recognition system includes voice input presence / absence determination means (for example, voice data input presence / absence determination function 50) for determining whether voice data is acquired from the voice input means, and when voice data is not acquired, The voice recognition unit may be configured not to perform voice recognition, and the face recognition unit may be configured to identify a user using an image.
本発明は、スマートフォンを用いた音声認識、テレビ会議における音声認識、または打合せもしくは講演会での音声認識などに適用可能である。 The present invention is applicable to speech recognition using a smartphone, speech recognition in a video conference, speech recognition in a meeting or lecture, and the like.
10 機器
20 ネットワーク
30 顔認識機能
40 口の動き判定機能
50 音声データ入力有無判定機能
60 指向方向決定機能
70 音声認識機能
80 文終了判定機能
DESCRIPTION OF
Claims (6)
予め記憶された個人毎の口の動きの特徴量を記憶した口の動きデータベースを有し、前記画像から利用者の口の状態を検出し、前記口の動きデータベースに記憶された前記利用者に対応する口の動きの特徴量と前記画像から得られた前記利用者の口の動きの特徴量とを比較し、前記利用者が話しているかどうかを判定する口の動き判定手段と、
前記利用者が話していると判定された場合、前記利用者の音声を取得するための音声入力手段に前記利用者の位置を通知する指向方向決定手段と、
前記音声を取得し音声認識を行う音声認識手段とを備えた
ことを特徴とする音声認識システム。 Face recognition means for acquiring an image of a user who is a target of speech recognition from a camera and identifying the user using the image;
It has a mouth movement database that stores pre-stored mouth movement feature values for each individual, detects a user's mouth state from the image, and stores the mouth movement database in the user stored in the mouth movement database. Mouth movement determination means for comparing the corresponding mouth movement feature quantity with the user mouth movement feature quantity obtained from the image and judging whether the user is speaking;
When it is determined that the user is speaking, a direction-of-direction determining unit that notifies the user's position to a voice input unit for acquiring the user's voice;
A speech recognition system comprising speech recognition means for acquiring the speech and performing speech recognition.
個人毎の音声に関する特徴を予め記憶した個別ユーザ辞書データベースを有し、前記個別ユーザ辞書データベースに記憶された利用者に対応する音声に関する特徴に基づいて、音声入力手段から取得した前記利用者の音声認識を行う
請求項1記載の音声認識システム。 Voice recognition means
The user's voice acquired from the voice input unit based on the voice-related characteristics stored in the individual user dictionary database, having an individual user dictionary database storing the voice-related characteristics for each individual in advance The speech recognition system according to claim 1, wherein recognition is performed.
請求項1または請求項2記載の音声認識システム。 Acquires text information obtained by the speech recognition means, analyzes the text information to determine whether the sentence is complete, and if it is determined that the sentence is complete, causes the face recognition means to recognize the face The speech recognition system according to claim 1, further comprising sentence end determination means.
音声データが取得されていない場合、音声認識手段は音声認識を行わず、顔認識手段は画像を用いて利用者を特定する
請求項1から請求項3のうちのいずれか1項に記載の音声認識システム。 Comprising voice input presence / absence determining means for determining whether voice data is acquired from the voice input means;
The voice according to any one of claims 1 to 3, wherein when voice data is not acquired, the voice recognition means does not perform voice recognition, and the face recognition means specifies a user using an image. Recognition system.
予め記憶された個人毎の口の動きの特徴量を記憶した口の動きデータベースを有し、前記画像から利用者の口の状態を検出し、前記口の動きデータベースに記憶された前記利用者に対応する口の動きの特徴量と前記画像から得られた前記利用者の口の動きの特徴量とを比較し、前記利用者が話しているかどうかを判定し、
前記利用者が話していると判定された場合、前記利用者の音声を取得するための音声入力手段に前記利用者の位置を通知し、
前記音声を取得し音声認識を行う
ことを特徴とする音声認識方法。 Obtain an image of the user who is the target of speech recognition from the camera, identify the user using the image,
It has a mouth movement database that stores pre-stored mouth movement feature values for each individual, detects a user's mouth state from the image, and stores the mouth movement database in the user stored in the mouth movement database. Compare the corresponding mouth movement feature quantity with the user mouth movement feature quantity obtained from the image, determine whether the user is speaking,
When it is determined that the user is speaking, the position of the user is notified to the voice input means for acquiring the voice of the user,
A voice recognition method characterized by acquiring the voice and performing voice recognition.
音声認識の対象となる利用者を撮影した画像をカメラから取得し、前記画像を用いて前記利用者を特定する顔認識処理と、
予め記憶された個人毎の口の動きの特徴量を記憶した口の動きデータベースを有し、前記画像から利用者の口の状態を検出し、前記口の動きデータベースに記憶された前記利用者に対応する口の動きの特徴量と前記画像から得られた前記利用者の口の動きの特徴量とを比較し、前記利用者が話しているかどうかを判定する口の動き判定処理と、
前記利用者が話していると判定された場合、前記利用者の音声を取得するための音声入力手段に前記利用者の位置を通知する指向方向決定処理と、
前記音声を取得し音声認識を行う音声認識処理と
を実行させるための音声認識プログラム。 On the computer,
A face recognition process for acquiring an image of a user who is a target of speech recognition from a camera and identifying the user using the image;
It has a mouth movement database that stores pre-stored mouth movement feature values for each individual, detects a user's mouth state from the image, and stores the mouth movement database in the user stored in the mouth movement database. Mouth movement determination processing for comparing the corresponding mouth movement feature amount with the user mouth movement feature amount obtained from the image, and determining whether the user is speaking;
When it is determined that the user is speaking, a direction determination process for notifying the user's position to voice input means for acquiring the user's voice;
A voice recognition program for executing voice recognition processing for acquiring voice and performing voice recognition.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012036555A JP5849761B2 (en) | 2012-02-22 | 2012-02-22 | Speech recognition system, speech recognition method, and speech recognition program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012036555A JP5849761B2 (en) | 2012-02-22 | 2012-02-22 | Speech recognition system, speech recognition method, and speech recognition program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013172411A JP2013172411A (en) | 2013-09-02 |
JP5849761B2 true JP5849761B2 (en) | 2016-02-03 |
Family
ID=49266062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012036555A Expired - Fee Related JP5849761B2 (en) | 2012-02-22 | 2012-02-22 | Speech recognition system, speech recognition method, and speech recognition program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5849761B2 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2015151130A1 (en) * | 2014-03-31 | 2017-04-13 | パナソニックIpマネジメント株式会社 | Audio processing method, audio processing system, and storage medium |
JP2016033757A (en) | 2014-07-31 | 2016-03-10 | セイコーエプソン株式会社 | Display device, method for controlling display device, and program |
KR101668554B1 (en) * | 2015-02-06 | 2016-10-24 | 손현성 | Method for learning foreign language pronunciation |
JP6775387B2 (en) * | 2016-11-11 | 2020-10-28 | 日本電信電話株式会社 | Estimating method and estimation system |
US10636421B2 (en) | 2017-12-27 | 2020-04-28 | Soundhound, Inc. | Parse prefix-detection in a human-machine interface |
CN110223690A (en) * | 2019-06-10 | 2019-09-10 | 深圳永顺智信息科技有限公司 | The man-machine interaction method and device merged based on image with voice |
BR112022001300A2 (en) * | 2019-08-02 | 2022-03-22 | Nec Corp | Speech processing device, speech processing method, and recording media |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3702978B2 (en) * | 1996-12-26 | 2005-10-05 | ソニー株式会社 | Recognition device, recognition method, learning device, and learning method |
JP4599244B2 (en) * | 2005-07-13 | 2010-12-15 | キヤノン株式会社 | Apparatus and method for creating subtitles from moving image data, program, and storage medium |
JP2010154259A (en) * | 2008-12-25 | 2010-07-08 | Victor Co Of Japan Ltd | Image and sound processing apparatus |
JP2010192956A (en) * | 2009-02-16 | 2010-09-02 | Nikon Corp | Imaging apparatus, and speaking person recognition method |
-
2012
- 2012-02-22 JP JP2012036555A patent/JP5849761B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013172411A (en) | 2013-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7384877B2 (en) | Speaker matching using collocation information | |
JP5849761B2 (en) | Speech recognition system, speech recognition method, and speech recognition program | |
EP3614377B1 (en) | Object recognition method, computer device and computer readable storage medium | |
US10643614B2 (en) | Promoting voice actions to hotwords | |
US10270736B2 (en) | Account adding method, terminal, server, and computer storage medium | |
JP5430382B2 (en) | Input device and method | |
WO2016110068A1 (en) | Voice switching method and apparatus for voice recognition device | |
WO2018047421A1 (en) | Speech processing device, information processing device, speech processing method, and information processing method | |
JP2018169494A (en) | Utterance intention estimation device and utterance intention estimation method | |
US10916249B2 (en) | Method of processing a speech signal for speaker recognition and electronic apparatus implementing same | |
JP2014081441A (en) | Command determination device, determination method thereof, and command determination program | |
TW202018577A (en) | Human recognition method based on data fusion | |
US11942095B2 (en) | Speaker verification using co-location information | |
JP2008052178A (en) | Voice recognition device and voice recognition method | |
JP7032284B2 (en) | A device, program and method for estimating the activation timing based on the image of the user's face. | |
JP2018087838A (en) | Voice recognition device | |
WO2019202804A1 (en) | Speech processing device and speech processing method | |
CN115909505A (en) | Control method and device of sign language recognition equipment, storage medium and electronic equipment | |
JP2018055155A (en) | Voice interactive device and voice interactive method | |
KR20130113580A (en) | Facial expression and voice recognizing method for mobile application software | |
WO2013001702A1 (en) | Information processing device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150107 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151016 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151117 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5849761 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |