JP5797009B2 - Voice recognition apparatus, robot, and voice recognition method - Google Patents
Voice recognition apparatus, robot, and voice recognition method Download PDFInfo
- Publication number
- JP5797009B2 JP5797009B2 JP2011112595A JP2011112595A JP5797009B2 JP 5797009 B2 JP5797009 B2 JP 5797009B2 JP 2011112595 A JP2011112595 A JP 2011112595A JP 2011112595 A JP2011112595 A JP 2011112595A JP 5797009 B2 JP5797009 B2 JP 5797009B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- voice
- detected
- utterance section
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Manipulator (AREA)
Description
本発明は、音声認識装置、ロボット、及び音声認識方法に関するものである。 The present invention relates to a voice recognition device, a robot, and a voice recognition method.
ユーザーの発話に応じて特定の動作コマンドを実行する音声認識機能を備えるロボットにおいて、人の音声以外の雑音(ノイズ)に対する誤反応による音声の誤認識を低減しつつ、音声認識の成功率を高めることが求められている。 In a robot with a voice recognition function that executes a specific motion command according to the user's utterance, while reducing the false recognition of voice due to a false reaction to noise other than human voice, increase the success rate of voice recognition It is demanded.
ここで、特許文献1には、ユーザーが発した音声データをマイクで検出すると共に、ユーザーの顔を撮像した画像からユーザーの口が動いているかどうかを判定し、口が動いていると判定している間の音声データに含まれる音声コマンドのみを動作コマンドとして発行し、ロボット装置を制御する技術が開示されている。
また、特許文献2には、マイクロホンアレイから入力される音声に基づき、話者が発する会話の最初に利用する特定の単語もしくは文の音声とその方向とを認識し、検出された音声の方向にカメラを向け、該カメラから入力された画像から人物の顔を検出し、対話処理を行う技術が開示されている。さらに特許文献2には、及び検出した話者方向に指向性を限定して、話者の音声と方向を認識し、顔検出処理を行い、検出された顔方向に移動し、音声認識の精度をより向上させる技術が開示されている。
Here, in Patent Document 1, voice data emitted by the user is detected by a microphone, and whether or not the user's mouth is moving is determined from an image obtained by capturing the user's face, and it is determined that the mouth is moving. A technique for controlling a robot apparatus by issuing only voice commands included in voice data during operation as operation commands is disclosed.
Further, Patent Document 2 recognizes the voice of a specific word or sentence used at the beginning of a conversation made by a speaker and its direction based on the voice input from the microphone array, and detects the direction of the detected voice. A technology is disclosed in which a camera is pointed, a human face is detected from an image input from the camera, and interactive processing is performed. Further, Patent Document 2 restricts directivity to the detected speaker direction, recognizes the voice and direction of the speaker, performs face detection processing, moves to the detected face direction, and performs speech recognition accuracy. A technique for further improving the above is disclosed.
しかしながら、特許文献1に開示されている技術は、口の動作があるときの音声コマンドのみを認識することとしているため、画像認識の遅れにより、発話開始時の音声認識の成功率が大きく低下する可能性がある。また、特許文献1に開示されている技術は、音声コマンドの採否を画像により選択するのみであることから、音声認識の成功率向上にはなんら寄与しない。
また、特許文献2に開示されている技術のように、指向性を変えるのみでは、その指向性の方向の雑音による過応答を防ぐことができない。また、屋内においては、部屋の反響音の成分が非常に大きく、指向性を変えることでの目的音と雑音の音量比がほとんど改善せず、効果が現れない可能性が高い。
However, since the technique disclosed in Patent Document 1 recognizes only a voice command when there is a mouth movement, the success rate of voice recognition at the start of speech greatly decreases due to a delay in image recognition. there is a possibility. Further, the technique disclosed in Patent Document 1 only selects whether to accept a voice command from an image, and thus does not contribute to improving the success rate of voice recognition.
Further, as in the technique disclosed in Patent Document 2, merely changing the directivity cannot prevent overresponse due to noise in the direction of the directivity. In addition, indoors, the component of the reverberation sound in the room is very large, and the volume ratio of the target sound and noise by changing the directivity is hardly improved, and there is a high possibility that the effect will not appear.
なお、一般的に、画像による発話判定は、雑音の影響は少ないがタイミングに正確さを欠き(例えば、発話開始の口の動きが小さいことに由来する)、音声による発話判定は、タイミングは正確であるが雑音に弱いとされる。 Note that, generally speaking, utterance determination by image is less affected by noise but lacks accuracy in timing (for example, because the mouth movement at the start of utterance is small), and speech utterance determination is accurate by timing. However, it is said to be vulnerable to noise.
本発明は、このような事情に鑑みてなされたものであって、過応答を低減しつつ、音声認識の認識率を高めることができる音声認識装置、ロボット、及び音声認識方法を提供することを目的とする。 The present invention has been made in view of such circumstances, and provides a speech recognition device, a robot, and a speech recognition method capable of increasing the recognition rate of speech recognition while reducing overresponse. Objective.
上記課題を解決するために、本発明の音声認識装置、ロボット、及び音声認識方法は以下の手段を採用する。 In order to solve the above-described problems, the speech recognition apparatus, robot, and speech recognition method of the present invention employ the following means.
すなわち、本発明に係る音声認識装置は、被写体を撮像すると共に被写体を示す画像情報を取得する撮像手段と、前記撮像手段による撮像が行われているときに発生している音を示す音情報を取得する音取得手段と、前記音取得手段によって取得された前記音情報に基づいて、人の音声を認識する音声認識手段と、前記撮像手段によって取得された前記画像情報に基づいて、人が発話している期間を示す発話区間を検出する発話区間検出手段と、前記発話区間検出手段によって検出された前記発話区間において、前記発話区間が検出されない場合に比べて、前記音声認識手段による音声認識の感度を上げる感度変更手段と、を備え、前記音声認識手段は、予め定められた閾値以上の状態量を、人の音声であると認識し、前記感度変更手段は、前記発話区間検出手段によって検出された前記発話区間において、前記発話区間が検出されない場合に比べて、前記閾値を下げることによって、前記音声認識手段による音声認識の感度を上げる。 That is, the speech recognition apparatus according to the present invention captures a subject and obtains image information indicating the subject, and sound information indicating a sound generated when the imaging unit performs imaging. A person speaks based on sound acquisition means to be acquired, voice recognition means for recognizing a person's voice based on the sound information acquired by the sound acquisition means, and the image information acquired by the imaging means. The speech recognition means by the speech recognition means in comparison with the case in which the speech section detected by the speech section detection means for detecting the speech section indicating the period during which the speech is detected is not detected in the speech section detected by the speech section detection means. includes a sensitivity changing unit for raising the sensitivity, the said voice recognition means, the state quantity of more than a predetermined threshold value, recognizes that it is the voice of a human, said sensitivity changing means, In detected by serial voice activity detection means and the speech period, as compared with the case where the speech segment is not detected, by lowering the threshold value, increasing the sensitivity of the speech recognition by the speech recognition means.
本発明によれば、撮像手段によって、被写体が撮像されると共に被写体を示す画像情報が取得され、音取得手段によって、撮像手段による撮像が行われているときに発生している音を示す音情報が取得される。 According to the present invention, the image information indicating the subject is acquired by the imaging unit and the image information indicating the subject is acquired, and the sound information indicating the sound generated when the imaging unit is capturing the image by the sound acquisition unit. Is acquired.
また、音声認識手段によって、音情報に基づいて人の音声が認識される。しかし、音声認識手段による音声の認識において、音声以外の雑音を音声と誤認識する場合があった。誤認識は、過応答となり、音声認識率が低下することとなる。
このような誤認識は、音声認識の感度を下げることによって防ぐことが考えられるが、音声認識の感度が下げられると、本来、人の音声として認識すべき音が認識されない可能性が生じる。
Further, the voice recognition means recognizes the human voice based on the sound information. However, in speech recognition by the speech recognition means, noise other than speech may be misrecognized as speech. Misrecognition results in overresponse, and the speech recognition rate decreases.
Such misrecognition can be prevented by lowering the sensitivity of voice recognition. However, if the sensitivity of voice recognition is lowered, there is a possibility that a sound that should be recognized as a human voice is not recognized.
そこで、発話区間検出手段によって、撮像手段で取得された画像情報に基づいて、人が発話している期間を示す発話区間が検出される。すなわち、画像情報に基づいて、人の顔が認識され、該認識された人の顔の器官の動きから、雑音の影響を受けない発話区間が検出される。
そして、感度変更手段によって、発話区間検出手段で検出された発話区間において、発話区間が検出されない場合に比べて、音声認識手段による音声認識の感度が上げられる。
Therefore, the utterance section indicating the period during which the person is speaking is detected by the utterance section detection means based on the image information acquired by the imaging means. That is, based on image information, a human face is recognized, and an utterance section that is not affected by noise is detected from the movement of the recognized human face organ.
Then, the sensitivity of the voice recognition means by the voice recognition means is increased by the sensitivity change means, compared to the case where the speech section is not detected in the speech section detected by the speech section detection means.
従って、画像情報に基づいて検出された雑音の影響を受けない発話区間に対応して、音声認識の感度が上げられることとなるので、本発明は、過応答を低減しつつ、音声認識の認識率を高めることができる。
さらに、予め定められた閾値以上の状態量が、人の音声であると認識され、画像情報に基づいて検出した発話区間において、該閾値を下げることによって、音声認識の感度が上げられるので、簡易に音声認識の感度を変更することができる。
また、本発明の音声認識装置は、前記発話区間における前記閾値の大きさ、前記発話区間が検出されていない区間における前記閾値の大きさが周辺の環境に応じて異ならせてもよい。
また、本発明の音声認識装置は、前記発話区間検出手段によって検出された前記発話区間において前記閾値を下げ、前記音取得手段によって取得された前記音情報により示される音に基づいて、前記状態量を算出し、前記閾値以上の前記状態量が生じた区間を発話区間として検出してもよい。
また、本発明の音声認識装置は、前記音情報により示される音に基づいた発話区間の検出は、前記閾値の変更よりも後に行われ、前記音情報に基づいた音声認識は、前記音情報により示される音に基づいた発話区間の検出よりも後に行われてもよい。
Accordingly, since the sensitivity of speech recognition is increased corresponding to the utterance period that is not affected by noise detected based on the image information, the present invention reduces the over-response while recognizing speech recognition. The rate can be increased.
Furthermore, since the state quantity equal to or greater than a predetermined threshold is recognized as human speech and the speech recognition sensitivity is increased by lowering the threshold in the utterance section detected based on the image information, The sensitivity of voice recognition can be changed.
In the speech recognition apparatus of the present invention, the magnitude of the threshold value in the utterance section and the magnitude of the threshold value in the section where the utterance section is not detected may be made different according to the surrounding environment.
Further, the speech recognition device of the present invention lowers the threshold value in the utterance section detected by the utterance section detection unit, and based on the sound indicated by the sound information acquired by the sound acquisition unit, the state quantity And a section in which the state quantity equal to or greater than the threshold value is generated may be detected as a speech section.
In the speech recognition device of the present invention, the detection of the utterance section based on the sound indicated by the sound information is performed after the change of the threshold, and the speech recognition based on the sound information is performed by the sound information. It may be performed after the detection of the utterance section based on the sound shown.
また、本発明の音声認識装置は、前記感度変更手段が、前記発話区間検出手段によって検出された前記発話区間と共に、該発話区間に連続した前及び後の少なくとも一方の所定時間において、前記音声認識手段による音声認識の感度を上げてもよい。 Further, in the speech recognition apparatus according to the present invention, the sensitivity changing means may recognize the speech recognition at a predetermined time before and after the utterance interval together with the utterance interval detected by the utterance interval detection means. The sensitivity of voice recognition by means may be increased.
人による発話の開始時(語頭)や発話の終了時(語尾)には、例えば口が大きく開けられなかったりするため、発話の語頭や語尾が発話区間として検出されない可能性がある。 At the start of a human utterance (beginning of a word) or at the end of an utterance (end of a word), for example, since the mouth cannot be opened widely, the beginning or ending of the utterance may not be detected as the utterance section.
本発明によれば、発話区間と共に、該発話区間に連続した前及び後の少なくとも一方の所定時間において、すなわち、前及び後に太められた発話区間において、音声認識手段による音声認識の感度が上げられる。なお、所定時間は、発話区間検出手段で検出されない可能性のある語頭や語尾に対応する時間であり、実験等により求められる値であり、予め設定されている。 According to the present invention, the sensitivity of speech recognition by the speech recognition means is increased at the predetermined time before and after the utterance section together with the utterance section, that is, in the utterance section thickened before and after. . The predetermined time is a time corresponding to the beginning or ending of the utterance that may not be detected by the utterance section detecting means, and is a value obtained by experiments or the like, and is set in advance.
従って、発話の語頭や語尾においても、より確実に音声認識の感度が上げられることができる。 Therefore, the sensitivity of voice recognition can be increased more reliably even at the beginning or end of an utterance.
本発明によれば、予め定められた閾値以上の音量が、人の音声であると認識され、画像情報に基づいて検出した発話区間において、該閾値を下げることによって、音声認識の感度が上げられるので、簡易に音声認識の感度を変更することができる。 According to the present invention, a sound volume that is equal to or higher than a predetermined threshold is recognized as a human voice, and the sensitivity of voice recognition is increased by lowering the threshold in an utterance section detected based on image information. Therefore, the sensitivity of voice recognition can be easily changed.
また、本発明の音声認識装置は、前記発話区間検出手段が、人の顔に含まれる口の動きに基づいて、該人が発話している発話区間を検出してもよい。 In the speech recognition apparatus of the present invention, the utterance section detecting means may detect a utterance section in which the person is speaking based on the movement of the mouth included in the person's face.
本発明によれば、人の口の動きに基づいて発話区間を検出するので、画像情報に基づいて発話区間を簡易に検出できる。
また、本発明の音声認識装置は、前記発話区間検出手段が、歯を検出した場合に口が動いていると判断してもよい。
According to the present invention, since the utterance section is detected based on the movement of the person's mouth, the utterance section can be easily detected based on the image information.
The speech recognition apparatus of the present invention may determine that the mouth is moving when the utterance section detecting means detects a tooth.
また、本発明の音声認識装置は、前記発話区間検出手段が、人の顔に含まれる目の向きに基づいて、該人が発話している発話区間を検出してもよい。 In the speech recognition apparatus of the present invention, the utterance section detecting means may detect the utterance section that the person is speaking based on the direction of eyes included in the face of the person.
本発明によれば、人の目の向き、すなわち視線に基づいて発話区間を検出するので、音声認識装置を備えた機器に対して話しかけている人の発話区間を簡易に検出できる。
また、本発明の音声認識装置は、発話区間検出手段が、頭部の向きや位置の変化に基づいて、該人が発話している発話区間を検出してもよい。
According to the present invention, since an utterance section is detected based on the direction of a person's eyes, that is, a line of sight, the utterance section of a person who is speaking to a device equipped with a speech recognition device can be easily detected.
Further, in the speech recognition apparatus of the present invention, the utterance section detecting means may detect the utterance section in which the person is speaking based on the change in the head direction and position.
一方、本発明に係るロボットは、上記記載の音声認識装置を備える。 On the other hand, a robot according to the present invention includes the above-described voice recognition device.
さらに、本発明に係る音声認識方法は、被写体を撮像すると共に被写体を示す画像情報を撮像手段によって取得し、該撮像手段による撮像が行われているときに発生している音を示す音情報を音取得手段によって取得する第1工程と、前記撮像手段によって取得された前記画像情報に基づいて、人が発話している発話区間を検出する第2工程と、前記第2工程によって検出された前記発話区間において、前記発話区間が検出されない場合に比べて、前記音情報に基づいた人の音声認識の感度を上げる第3工程と、を含み、前記第1工程は、予め定められた閾値以上の状態量を、人の音声であると認識し、前記第3工程は、前記第2工程によって検出された前記発話区間において、前記発話区間が検出されない場合に比べて、前記閾値を下げることによって、音声認識の感度を上げる。 Furthermore, the speech recognition method according to the present invention captures a subject, acquires image information indicating the subject by the imaging unit, and obtains sound information indicating a sound generated when the imaging unit performs imaging. A first step that is acquired by a sound acquisition unit; a second step that detects a speech section in which a person is speaking based on the image information acquired by the imaging unit; and the second step that is detected by the second step. in speech periods, as compared with the case where the speech segment is not detected, seen including a third step, the increasing the sensitivity of the speech recognition of a person based on the sound information, the first step, the threshold than the predetermined Is recognized as a human voice, and the third step lowers the threshold in the utterance interval detected in the second step as compared to the case where the utterance interval is not detected. And by increasing the sensitivity of the speech recognition.
本発明によれば、過応答を低減しつつ、音声認識の認識率を高めることができる、という優れた効果を有する。 According to the present invention, there is an excellent effect that the recognition rate of voice recognition can be increased while reducing overresponse.
以下に、本発明に係る音声認識装置、ロボット、及び音声認識方法の一実施形態について、図面を参照して説明する。 Hereinafter, an embodiment of a voice recognition device, a robot, and a voice recognition method according to the present invention will be described with reference to the drawings.
図1は、本実施形態に係るロボット10の正面図である。
図1に示すように、ロボット10には、頭部12と、頭部12を下方から支持する胸部14と、胸部14の右側に設けられた右腕部16a、胸部14の左側に設けられた左腕部16bと、胸部14の下方に接続された腰部18と、腰部18の下方に接続されたスカート部20と、スカート部20の下方に接続された脚部22とが設けられている。
FIG. 1 is a front view of the
As shown in FIG. 1, the
そして、頭部12の前面の中央近傍には、図1に示すように、前方を撮像するためのカメラ30、及びマイクロフォン32(以下、単に「マイク32」という。)が設けられている。
カメラ30は、被写体を撮像すると共に被写体を示す画像情報を取得し、マイク32は、カメラ30による撮像が行われているときに発生している音を示す音情報を取得する。
In the vicinity of the center of the front surface of the
The
そして、本実施形態に係るロボット10は、カメラ30によって取得された画像情報に基づいて、人の顔を認識すると共に、マイク32によって取得された音情報に基づいて、人の音声を認識する音声認識処理を行う。
すなわち、ロボット10は、ロボット10に対しコミュニケーションを取ろうとしている人の顔を認識すると共に、該人の音声を認識し、これらの認識結果に応じた動作を行う。
The
That is, the
ここで、従来の音声認識について図2を参照して説明する。
ロボット10は、予め定められた閾値(以下、「音声閾値」という。)を超えた音量(パワー)の音情報を人が発話した音声として認識する。
Here, conventional speech recognition will be described with reference to FIG.
The
しかし、図2(A)に示すように、音声閾値以上の雑音(人の音声とは異なる音)が生じた場合、ロボット10は、該雑音も人の音声として誤認識することとなる。また、図2(B)に示すように、人の音声に音声閾値以上の雑音が重なり合っている場合も、ロボット10は、該雑音も人の音声として誤認識するばかりか、人の音声を正しく認識できないこととなる。このような、誤認識は、過応答となり、音声認識の認識率の低下を招く。
However, as shown in FIG. 2A, when noise (sound different from human voice) exceeding the voice threshold occurs, the
図2(A),(B)に示すような雑音の誤認識は、音声認識の感度を下げること、すなわち音声閾値の値を大きくすることによって防ぐことが考えられる。しかし、音声認識の感度が下げられると、本来、人の音声として認識すべき音が認識されない可能性が生じる。 It is conceivable to prevent erroneous recognition of noise as shown in FIGS. 2A and 2B by lowering the sensitivity of speech recognition, that is, by increasing the value of the speech threshold. However, if the sensitivity of voice recognition is lowered, there is a possibility that a sound that should be recognized as a human voice is not recognized.
そこで、本実施形態に係るロボット10は、カメラ30によって取得した画像情報に基づいて認識した人の顔の器官の動きから、人が発話している期間を示す発話区間を検出し、検出した発話区間において、発話区間が検出されない場合に比べて、音声認識の感度を上げる(音声閾値を下げる)処理を行う。この発話区間は、画像情報から求められるため、雑音の影響を受けない。
Therefore, the
図3は、音声認識処理を行う音声認識装置40の機能を示す機能ブロック図である。
なお、本実施形態に係るロボット10は、CPU(Central Processing Unit)によってプログラムを実行することにより、音声認識装置40が備える各構成要素による処理を実現する。この場合、該プログラムは、ROM(Read Only Memory)やその他の記憶媒体に予めインストールされる形態や、コンピュータ読み取り可能なCD−ROM等の可搬型の記憶媒体に記憶された状態で提供される形態、有線又は無線による通信手段を介して配信される形態等を適用することができる。
FIG. 3 is a functional block diagram illustrating functions of the
Note that the
音声認識装置40は、画像情報に基づいて人の発話区間の検出を行う発話区間検出部42A、音情報に基づいて人の発話区間の検出を行う発話区間検出部42B、発話区間における人の音声を認識する音声認識部44を備える。
The
発話区間検出部42Aは、顔器官検出部50、動き量算出部52、閾値処理部54、及び音声閾値変更部56を備える。
The utterance section detection unit 42 </ b> A includes a face
顔器官検出部50は、カメラ30で取得された画像情報に基づいて、人の顔を認識し、所定の顔器官を検出する。顔器官の検出方法は、従来既知のものを用いればよい。
なお、本実施形態に係る顔器官検出部50は、顔器官として人の口を検出する。
The facial
Note that the facial
動き量算出部52は、顔器官検出部50で検出された顔器官の動きを算出する。
本実施形態では、顔器官として人の口を検出するため、口の動きとして口の開き加減、より具体的には上唇と下唇との開き量を算出する。
The movement
In this embodiment, in order to detect a human mouth as a facial organ, the opening degree of the mouth is calculated as the movement of the mouth, more specifically, the opening amount of the upper lip and the lower lip is calculated.
閾値処理部54は、動き量算出部52で算出された値が予め定められた閾値(以下、「画像閾値」という。)以上か否かを判定し、画像閾値以上となった期間(時間)を、人が発話している期間を示す発話区間として検出する。
The
音声閾値変更部56は、閾値処理部54で検出された発話区間において、該発話区間が検出されない場合に比べて、音声閾値を下げることによって、音声認識の感度を上げる。下げられた音声閾値の大きさ及び区間を示す音声閾値変更情報は、音声閾値変更部56から発話区間検出部42Bへ出力される。
The voice
発話区間検出部42Bは、音量算出部60及び閾値処理部62を備える。
The utterance
音量算出部60は、マイク32で取得された音情報により示される波形の振幅から音量を算出する。
The
閾値処理部62は、音量算出部60で算出された音量が音声閾値以上か否かを判定し、該音声閾値以上の音量を発話区間として検出する。なお、本実施形態に係る閾値処理部62は、音声閾値変更部56から入力された音声閾値変更情報により示される区間及び下げられた音声閾値の値を用いて、発話区間を検出し、該発話区間を発話区間情報として音声認識部44へ出力する。
The
発話区間検出部42Bへ入力される音情報は、ディレイ処理部70Aを介して所定の時間遅れを持って入力される。
上述のように、閾値処理部62は、音声閾値変更部56から出力された閾値変更情報を用いて発話区間を検出するため、発話区間検出部42Aが備える音声閾値変更部56による閾値変更情報の出力が終了した後に、閾値処理部62による処理を開始させるためである。
The sound information input to the utterance
As described above, since the threshold
音声認識部44は、特徴量抽出部80及びマッチング処理部82を備えている。
The
特徴量抽出部80は、マイク32で取得された音情報を、例えばフーリエ変換等することによって、音の特徴(特徴量)を抽出する。
The feature
マッチング処理部82は、音の特徴量に応じた発話内容を示した認識辞書情報に基づいて、閾値処理部62から出力された発話区間情報により示される発話区間における音の特徴量から、人の発話内容を特定し(マッチング処理)、音声認識結果として出力する。なお、認識辞書情報は、不図示の記憶手段に予め記憶されている。
そして、ロボット10は、例えば音声認識結果が「おはよう」との発話を示している場合は、「おはよう」と音声を出力する等の、音声認識結果に基づいた動作を行う。
Based on the recognition dictionary information indicating the utterance content corresponding to the sound feature amount, the matching
Then, for example, when the voice recognition result indicates an utterance “good morning”, the
また、音声認識部44へ入力される音情報は、ディレイ処理部70Bを介して所定の時間遅れを持って入力される。
上述のように、マッチング処理部82は、閾値処理部62から出力された発話区間情報を用いて音声認識を行うため、閾値処理部62による発話区間情報の出力が終了した後に、マッチング処理部82による処理を開始させるためである。このため、ディレイ処理部70Bによる時間遅れは、ディレイ処理部70Aによる時間遅れよりもさらに遅くなければならない。
The sound information input to the
As described above, since the
図4(A),(B)は、発話区間検出部42A,42Bで行われる処理の内容を具体的に示した模式図である。
FIGS. 4A and 4B are schematic diagrams specifically showing the contents of the processing performed by the utterance
図4(A)に示されるように、動き量算出部52は、口の動き量を、例えば60分の1(1/60)秒や30分の1(1/30)秒毎に算出する。閾値処理部54は、動き量が画像閾値以上か否かを判定し、動き量が画像閾値以上となった期間を発話区間として検出する。この閾値判定によって、小さな口の動きは、発話区間として検出されないこととなる。
As shown in FIG. 4A, the movement
なお、本実施形態に係る閾値処理部54は、検出した発話区間を、該発話区間に連続した前及び後の所定時間に広げる、太め処理を行う。
人による発話の開始時(語頭)や発話の終了時(語尾)には、口が大きく開けられなかったりするため、発話の語頭や語尾が発話区間として検出されない可能性がある。
そこで、発話区間を前及び後に広げることによって、発話の語頭及語尾も発話区間に含まれるようにする。なお、発話区間を広めるための上記所定時間は、閾値処理部54によって検出されない可能性のある語頭や語尾に対応する時間であり、実験等により求められる値であり、予め設定されている。
Note that the
Since the mouth cannot be opened widely at the start of the utterance (start of word) or at the end of the utterance (end of word) by a person, there is a possibility that the beginning or ending of the utterance is not detected as the utterance section.
Therefore, by expanding the utterance interval before and after, the beginning and ending of the utterance are included in the utterance interval. The predetermined time for expanding the utterance section is a time corresponding to the beginning or ending of the word that may not be detected by the
そして、音声閾値変更部56によって、太め処理が行われた発話区間において、音声閾値が下げられ、音声閾値変更情報として閾値処理部62へ出力される。
Then, the voice threshold value is reduced by the voice
一方、図4(B)に示されるように、音量算出部60は、時間遅れを持って入力された音情報により示される音に基づいて、例えば所定時間間隔毎における振幅の最大値の平均値を音量として算出する。
音量算出部60によって算出された音量は、閾値処理部62へ出力され、閾値処理部62は、音量変更情報により示される音声閾値を用いて、閾値判定を行い、音声閾値以上の音量が生じた区間を発話区間として検出する。
On the other hand, as shown in FIG. 4 (B), the
The volume calculated by the
図5(A),(B)は、本実施形態に係る音声認識装置40による音声認識の結果を示した模式図である。なお、図5(A),(B)の左図は、従来の音声認識の結果(図2参照)であり、図5(A),(B)の右図は、本実施形態に係る音声認識の結果である。
図5(A)の右図に示されるように、音声閾値を下げることで、雑音を誤認識することが防がれる。そして、画像情報に基づいて検出された発話区間において音声閾値が下げられることにより、音声認識の感度が上げるため、音声認識装置40は、雑音に対して過応答することなく、人の音声は正しく認識されることとなる。
また、図5(B)の右図に示されるように、雑音と人の音声が重なり合っていても、雑音を誤認識することがなくなるため、人の音声は正しく認識されることとなる。
5A and 5B are schematic views showing the results of speech recognition by the
As shown in the right diagram of FIG. 5A, it is possible to prevent erroneous recognition of noise by lowering the voice threshold. Then, since the voice threshold is lowered in the utterance section detected based on the image information, the voice recognition sensitivity is increased. Therefore, the
Further, as shown in the right diagram of FIG. 5B, since noise is not erroneously recognized even if noise and human voice overlap, human voice is recognized correctly.
また、ロボット10周辺の環境によって、画像情報に基づいて検出された発話区間における音声閾値(以下、「区間内音声閾値」という。)の大きさや、発話区間が検出されていない区間における音声閾値(以下、「区間外音声閾値」という。)の大きさを異ならせてもよい。例えば、雑音の音量が大きい環境(例えばアミューズメント施設内等)では、区間外音声閾値は、より高く設定される。また、人がロボット10に対して話しかける声が小さくなりやすい環境(例えば資料館内等)では、区間内音声閾値は、より小さく設定される。
このように、ロボット10周辺の環境に応じて、区間内音声閾値と区間外音声閾値との比率を変更することによって、雑音に対して過応答する比率を下げ、音声認識率の向上を図ることが望ましい。
Further, depending on the environment around the
As described above, by changing the ratio between the intra-speech voice threshold and the non-speech voice threshold according to the environment around the
また、言語に応じて、区間内音声閾値及び区間外音声閾値の大きさや比率を変更してもよい。 Moreover, you may change the magnitude | size and ratio of the voice threshold within a zone, and the voice threshold outside a zone according to a language.
以上説明したように、本実施形態に係る音声認識装置40は、被写体を撮像すると共に被写体を示す画像情報をカメラ30によって取得し、該カメラ30による撮像が行われているときに発生している音を示す音情報をマイク32によって取得する。そして、音声認識装置40は、カメラ30によって取得された画像情報に基づいて、人が発話している発話区間を検出し、検出した発話区間において、発話区間が検出されない場合に比べて、音情報に基づいた人の音声認識の感度を上げる。
従って、本実施形態に係る音声認識装置40は、画像情報に基づいて検出された雑音の影響を受けない発話区間に対応して、音声認識の感度が上げられることとなるので、過応答を低減しつつ、音声認識の認識率を高めることができる。
As described above, the
Therefore, the
また、本実施形態に係る音声認識装置40は、画像情報に基づいて検出した発話区間と共に、該発話区間に連続した前及び後において音声認識の感度を上げるので、発話の語頭や語尾においても、より確実に音声認識の感度が上げるこができる。
In addition, the
また、本実施形態に係る音声認識装置40は、予め定められた音声閾値以上の音量を、人の音声であると認識し、画像情報に基づいて検出した発話区間において、音声閾値を下げることによって、音声認識の感度を上げるので、簡易に音声認識の感度を変更することができる。
In addition, the
また、本実施形態に係る音声認識装置40は、人の口の動きに基づいて発話区間を検出するので、画像情報に基づいて発話区間を簡易に検出できる。
Moreover, since the
以上、本発明を、上記実施形態を用いて説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されない。発明の要旨を逸脱しない範囲で上記実施形態に多様な変更または改良を加えることができ、該変更または改良を加えた形態も本発明の技術的範囲に含まれる。 As mentioned above, although this invention was demonstrated using the said embodiment, the technical scope of this invention is not limited to the range as described in the said embodiment. Various changes or improvements can be added to the above-described embodiment without departing from the gist of the invention, and embodiments to which the changes or improvements are added are also included in the technical scope of the present invention.
例えば、上記実施形態では、音声認識装置40が、人の顔に含まれる口の動きに基づいて、該人が発話している発話区間を検出する形態について説明したが、本発明は、これに限定されるものではなく、人の顔に含まれる目の向き、すなわち視線に基づいて、該人が発話している発話区間を検出する形態としてもよい。
この形態の場合、音声認識装置40は、視線がロボット10の向きを向いている人物を特定し、特定した人の視線がロボット10の向きを向いている場合に、音声閾値を下げる。
For example, in the above-described embodiment, the
In the case of this form, the
また、音声認識装置40は、口の動きと視線の向きとを組み合わせてもよく、視線がロボット10の方向を向き、かつ口の動きが画像閾値以上の場合に、音声閾値を下げてもよい。これにより、カメラ30による撮像範囲に複数人存在する場合でも、ロボット10に対して話しかけている人の音声のみを認識することができる。
The
さらに、人の口の動きや視線以外にも、例えば人の顔や頭部の向きや位置の変化を検出し、人の顔がロボット10の方向を向いている場合を、人が発話している発話区間として検出する形態としてもよい。
Further, in addition to the movement of the person's mouth and line of sight, for example, a change in the direction or position of the person's face or head is detected, and the person speaks when the person's face is facing the
また、上記実施形態では、発話区間検出部42Aは、口の動きとして口の開き加減を算出する形態について説明したが、本発明は、これに限定されるものではなく、例えば、口の動き(口の開き加減)を周波数分析して、所定の周波数以上の場合に、口が動いていると判断してもよいし、歯を検出した場合(上唇と下唇との間に白色を検出した場合)に口が動いていると判断してもよい。
Further, in the above-described embodiment, the speech
また、上記実施形態では、発話区間検出部42Aは、画像情報に基づいて検出した発話区間を前後に太める太め処理を行う形態について説明したが、本発明は、これに限定されるものではなく、該発話区間の前及び後の何れか一方のみを太める形態としてもよい。
In the above embodiment, the utterance
また、上記実施形態では、音声認識装置40をロボット10に適用する形態について説明したが、本発明は、これに限定されるものではなく、パーソナルコンピュータやICレコーダ等他の機器に適用する形態としてもよい。
Moreover, although the said embodiment demonstrated the form which applies the
10 ロボット
30 カメラ
32 マイク
40 音声認識装置
42A 発話区間検出部
44 音声認識部
56 音声閾値変更部
DESCRIPTION OF
Claims (11)
前記撮像手段による撮像が行われているときに発生している音を示す音情報を取得する音取得手段と、
前記音取得手段によって取得された前記音情報に基づいて、人の音声を認識する音声認識手段と、
前記撮像手段によって取得された前記画像情報に基づいて、人が発話している期間を示す発話区間を検出する発話区間検出手段と、
前記発話区間検出手段によって検出された前記発話区間において、前記発話区間が検出されない場合に比べて、前記音声認識手段による音声認識の感度を上げる感度変更手段と、
を備え、
前記音声認識手段は、予め定められた閾値以上の状態量を、人の音声であると認識し、
前記感度変更手段は、前記発話区間検出手段によって検出された前記発話区間において、前記発話区間が検出されない場合に比べて、前記閾値を下げることによって、前記音声認識手段による音声認識の感度を上げる音声認識装置。 Imaging means for imaging the subject and acquiring image information indicating the subject;
Sound acquisition means for acquiring sound information indicating sound that is occurring when imaging by the imaging means is being performed;
Voice recognition means for recognizing a person's voice based on the sound information acquired by the sound acquisition means;
Based on the image information acquired by the imaging means, an utterance section detecting means for detecting an utterance section indicating a period during which a person is speaking;
In the utterance section detected by the utterance section detection means, compared with a case where the utterance section is not detected, a sensitivity changing means for increasing the sensitivity of speech recognition by the speech recognition means;
Equipped with a,
The voice recognition means recognizes a state quantity equal to or greater than a predetermined threshold as human voice,
The sensitivity changing means lowers the threshold value in the utterance section detected by the utterance section detection means, compared with the case where the utterance section is not detected, thereby increasing the sensitivity of voice recognition by the voice recognition means. Recognition device.
前記音取得手段によって取得された前記音情報により示される音に基づいて、前記状態量を算出し、 Based on the sound indicated by the sound information acquired by the sound acquisition means, the state quantity is calculated,
前記閾値以上の前記状態量が生じた区間を発話区間として検出する請求項1又は請求項2記載の音声認識装置。 The voice recognition device according to claim 1, wherein a section in which the state quantity equal to or greater than the threshold is generated is detected as an utterance section.
前記音情報に基づいた音声認識は、前記音情報により示される音に基づいた発話区間の検出よりも後に行われる請求項1から請求項3の何れか1項記載の音声認識装置。The speech recognition apparatus according to any one of claims 1 to 3, wherein speech recognition based on the sound information is performed after detection of an utterance section based on a sound indicated by the sound information.
前記撮像手段によって取得された前記画像情報に基づいて、人が発話している発話区間を検出する第2工程と、
前記第2工程によって検出された前記発話区間において、前記発話区間が検出されない場合に比べて、前記音情報に基づいた人の音声認識の感度を上げる第3工程と、
を含み、
前記第1工程は、予め定められた閾値以上の状態量を、人の音声であると認識し、
前記第3工程は、前記第2工程によって検出された前記発話区間において、前記発話区間が検出されない場合に比べて、前記閾値を下げることによって、音声認識の感度を上げる音声認識方法。 A first step of capturing an image of a subject, acquiring image information indicating the subject by the imaging unit, and acquiring sound information indicating a sound generated when the imaging unit is capturing by the sound acquisition unit;
A second step of detecting an utterance section in which a person is speaking based on the image information acquired by the imaging means;
A third step of increasing the sensitivity of human speech recognition based on the sound information in the utterance interval detected by the second step, compared to a case where the utterance interval is not detected;
Only including,
The first step recognizes a state quantity equal to or greater than a predetermined threshold as human voice,
In the speech recognition method , the third step increases the sensitivity of speech recognition by lowering the threshold value in the utterance interval detected in the second step as compared to a case where the utterance interval is not detected .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011112595A JP5797009B2 (en) | 2011-05-19 | 2011-05-19 | Voice recognition apparatus, robot, and voice recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011112595A JP5797009B2 (en) | 2011-05-19 | 2011-05-19 | Voice recognition apparatus, robot, and voice recognition method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012242609A JP2012242609A (en) | 2012-12-10 |
JP5797009B2 true JP5797009B2 (en) | 2015-10-21 |
Family
ID=47464386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011112595A Active JP5797009B2 (en) | 2011-05-19 | 2011-05-19 | Voice recognition apparatus, robot, and voice recognition method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5797009B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10910001B2 (en) | 2017-12-25 | 2021-02-02 | Casio Computer Co., Ltd. | Voice recognition device, robot, voice recognition method, and storage medium |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9240182B2 (en) * | 2013-09-17 | 2016-01-19 | Qualcomm Incorporated | Method and apparatus for adjusting detection threshold for activating voice assistant function |
JP6350903B2 (en) | 2014-05-20 | 2018-07-04 | パナソニックIpマネジメント株式会社 | Operation assistance device and operation assistance method |
JP6230726B2 (en) * | 2014-12-18 | 2017-11-15 | 三菱電機株式会社 | Speech recognition apparatus and speech recognition method |
US20200090663A1 (en) * | 2017-11-07 | 2020-03-19 | Sony Corporation | Information processing apparatus and electronic device |
EP4130941A1 (en) | 2018-05-04 | 2023-02-08 | Google LLC | Hot-word free adaptation of automated assistant function(s) |
JP7471279B2 (en) * | 2018-05-04 | 2024-04-19 | グーグル エルエルシー | Adapting an automated assistant based on detected mouth movements and/or gaze |
EP4307093A3 (en) | 2018-05-04 | 2024-03-13 | Google LLC | Invoking automated assistant function(s) based on detected gesture and gaze |
US12020704B2 (en) | 2022-01-19 | 2024-06-25 | Google Llc | Dynamic adaptation of parameter set used in hot word free adaptation of automated assistant |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002358089A (en) * | 2001-06-01 | 2002-12-13 | Denso Corp | Method and device for speech processing |
JP4713111B2 (en) * | 2003-09-19 | 2011-06-29 | 株式会社エヌ・ティ・ティ・ドコモ | Speaking section detecting device, speech recognition processing device, transmission system, signal level control device, speaking section detecting method |
JP4992218B2 (en) * | 2005-09-29 | 2012-08-08 | ソニー株式会社 | Information processing apparatus and method, and program |
US7860718B2 (en) * | 2005-12-08 | 2010-12-28 | Electronics And Telecommunications Research Institute | Apparatus and method for speech segment detection and system for speech recognition |
JP2009059257A (en) * | 2007-09-03 | 2009-03-19 | Sony Corp | Information processing apparatus and information processing method, and computer program |
JP2009222969A (en) * | 2008-03-17 | 2009-10-01 | Toyota Motor Corp | Speech recognition robot and control method for speech recognition robot |
JP5375423B2 (en) * | 2009-08-10 | 2013-12-25 | 日本電気株式会社 | Speech recognition system, speech recognition method, and speech recognition program |
-
2011
- 2011-05-19 JP JP2011112595A patent/JP5797009B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10910001B2 (en) | 2017-12-25 | 2021-02-02 | Casio Computer Co., Ltd. | Voice recognition device, robot, voice recognition method, and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP2012242609A (en) | 2012-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5797009B2 (en) | Voice recognition apparatus, robot, and voice recognition method | |
CN109410957B (en) | Front human-computer interaction voice recognition method and system based on computer vision assistance | |
US8762144B2 (en) | Method and apparatus for voice activity detection | |
Wang et al. | Secure your voice: An oral airflow-based continuous liveness detection for voice assistants | |
US9354687B2 (en) | Methods and apparatus for unsupervised wakeup with time-correlated acoustic events | |
TWI442384B (en) | Microphone-array-based speech recognition system and method | |
US20170256270A1 (en) | Voice Recognition Accuracy in High Noise Conditions | |
JP2022529783A (en) | Input identification for speech recognition engine | |
US11651780B2 (en) | Direction based end-pointing for speech recognition | |
US9335966B2 (en) | Methods and apparatus for unsupervised wakeup | |
CN109272991B (en) | Voice interaction method, device, equipment and computer-readable storage medium | |
CN109558788B (en) | Silence voice input identification method, computing device and computer readable medium | |
WO2020140840A1 (en) | Method and apparatus for awakening wearable device | |
CN108665907B (en) | Voice recognition device, voice recognition method, recording medium, and robot | |
CN111326152A (en) | Voice control method and device | |
JP6827536B2 (en) | Voice recognition device and voice recognition method | |
CN110689887B (en) | Audio verification method and device, storage medium and electronic equipment | |
JP7515121B2 (en) | Speech activity detection device, speech activity detection method, and speech activity detection program | |
KR20210066774A (en) | Method and Apparatus for Distinguishing User based on Multimodal | |
US20150039314A1 (en) | Speech recognition method and apparatus based on sound mapping | |
EP3195314B1 (en) | Methods and apparatus for unsupervised wakeup | |
CN109300475A (en) | Microphone array sound pick-up method and device | |
JP2019132997A (en) | Voice processing device, method and program | |
JP7511374B2 (en) | Speech activity detection device, voice recognition device, speech activity detection system, speech activity detection method, and speech activity detection program | |
JPH02184915A (en) | Speech recognition device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140513 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141205 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141224 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150223 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150721 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150818 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5797009 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |