JP2021021852A - Voice recognition device, electronic apparatus, control method and control program - Google Patents
Voice recognition device, electronic apparatus, control method and control program Download PDFInfo
- Publication number
- JP2021021852A JP2021021852A JP2019138676A JP2019138676A JP2021021852A JP 2021021852 A JP2021021852 A JP 2021021852A JP 2019138676 A JP2019138676 A JP 2019138676A JP 2019138676 A JP2019138676 A JP 2019138676A JP 2021021852 A JP2021021852 A JP 2021021852A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- unit
- detection
- human image
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000001514 detection method Methods 0.000 claims abstract description 526
- 238000003384 imaging method Methods 0.000 claims abstract description 111
- 230000006870 function Effects 0.000 claims description 10
- 230000002452 interceptive effect Effects 0.000 abstract description 37
- 230000033001 locomotion Effects 0.000 description 47
- 210000003128 head Anatomy 0.000 description 39
- 230000008569 process Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 16
- 230000004044 response Effects 0.000 description 13
- 210000004709 eyebrow Anatomy 0.000 description 11
- 241000282412 Homo Species 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007257 malfunction Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Abstract
Description
本発明は、音声認識装置等に関する。 The present invention relates to a voice recognition device and the like.
近年、センサーやマイク等で発話を集音し、集音した音を人が発話した音声として認識する音声認識装置が種々開発されている。 In recent years, various voice recognition devices have been developed that collect utterances with a sensor, a microphone, or the like and recognize the collected sounds as voices uttered by a person.
このような音声認識装置に係る技術として、人の発話以外で誤動作することを防ぐための技術が開示されている。例えば、特許文献1には、3つマイクを備え、これらのマイクで集音した音から特定方向の音声データを抽出し、抽出した音声データに基づいて人の音声データであると推定する集音装置が開示されている。 As a technique related to such a voice recognition device, a technique for preventing malfunctions other than human speech is disclosed. For example, Patent Document 1 includes three microphones, extracts voice data in a specific direction from the sounds collected by these microphones, and presumes that the sound is human voice data based on the extracted voice data. The device is disclosed.
しかしながら、上述した集音装置では、人の音声と例えばテレビ番組の音等の環境音とが同じ音質、同じ音量である場合には、どちらの音が人の音声なのか判別できない虞がある。 However, in the above-mentioned sound collecting device, when the human voice and the environmental sound such as the sound of a TV program have the same sound quality and the same volume, it may not be possible to determine which sound is the human voice.
本発明の一態様は、上述の問題点に鑑みたものであり、集音した音のうち人が発話した音声の認識精度を向上する音声認識装置等を実現することを目的とする。 One aspect of the present invention is in view of the above-mentioned problems, and an object of the present invention is to realize a voice recognition device or the like that improves the recognition accuracy of a voice spoken by a person among the collected sounds.
上記の課題を解決するために、本発明の一態様に係る音声認識装置は、複数のマイクから取得した複数の検出音より音源の音の発生方向を特定する検出音方向特定部と、撮像部が前記音源の音の発生方向を撮像して取得した撮像データ又は/及び人感センサー部が前記音源の音の発生方向をセンシングして取得したセンサー信号に基づいて、人像を検出する人像検出部と、前記人像検出部から取得した情報を基に、前記人像が確認できる場合に前記複数の検出音の取得を有効と判断する又は前記人像が確認できない場合に前記複数の検出音の取得を無効と判断する検出音取得有効/無効判断部と、を備えることを特徴とする。 In order to solve the above problems, the voice recognition device according to one aspect of the present invention includes a detection sound direction specifying unit that specifies a sound generation direction of a sound source from a plurality of detected sounds acquired from a plurality of microphones, and an imaging unit. Is an imaging data acquired by imaging the sound generation direction of the sound source and / or a human image detection unit that detects a human image based on a sensor signal acquired by the human sensor unit sensing the sound generation direction of the sound source. Based on the information acquired from the human image detection unit, it is determined that the acquisition of the plurality of detected sounds is valid when the human image can be confirmed, or the acquisition of the plurality of detected sounds is invalid when the human image cannot be confirmed. It is characterized by including a detection sound acquisition valid / invalid determination unit for determining that.
上記の課題を解決するために、本発明の一態様に係る電子機器は、複数のマイクから取得した複数の検出音より音源の音の発生方向を特定する検出音方向特定部と、前記音源の音の発生方向を撮像して取得した撮像データ又は/及び前記音源の音の発生方向をセンシングして取得したセンサー信号に基づいて、人像を検出する人像検出部と、人像検出部から取得した情報を基に、前記人像が確認できる場合に前記複数の検出音の取得を有効とする又は前記人像が確認できない場合に前記複数の検出音の取得を無効と判断する検出音取得有効/無効判断部と、を有する音声認識装置と、前記撮像部を前記検出音の発生方向に駆動する駆動部と、を備えることを特徴とする。 In order to solve the above problems, the electronic device according to one aspect of the present invention includes a detection sound direction specifying unit that specifies a sound generation direction of a sound source from a plurality of detected sounds acquired from a plurality of microphones, and a detection sound direction specifying unit of the sound source. A human image detection unit that detects a human image and information acquired from the human image detection unit based on the imaging data acquired by imaging the sound generation direction and / and the sensor signal acquired by sensing the sound generation direction of the sound source. Based on the above, the detection sound acquisition valid / invalid determination unit that enables the acquisition of the plurality of detected sounds when the human image can be confirmed or determines that the acquisition of the plurality of detected sounds is invalid when the human image cannot be confirmed. It is characterized by including a voice recognition device having the above, and a drive unit that drives the image pickup unit in the direction in which the detection sound is generated.
上記の課題を解決するために、本発明の一態様に係る音声認識装置の制御方法は、複数のマイクから取得した複数の検出音より音源の音の発生方向を特定する検出音方向特定ステップと、前記音源の音の発生方向を撮像して取得した撮像データ又は/及び前記音源の音の発生方向をセンシングして取得したセンサー信号に基づいて、人像を検出する人像検出ステップと、人像検出ステップから取得した情報を基に、前記人像が確認できる場合に前記複数の検出音の取得を有効と判断する又は前記人像が確認できない場合に前記複数の検出音の取得を無効と判断する検出音取得有効/無効判断ステップと、を含む、ことを特徴とする。 In order to solve the above problems, the control method of the voice recognition device according to one aspect of the present invention includes a detection sound direction specifying step for specifying a sound generation direction of a sound source from a plurality of detected sounds acquired from a plurality of microphones. , A human image detection step for detecting a human image and a human image detection step based on the imaging data acquired by imaging the sound generation direction of the sound source and / and the sensor signal acquired by sensing the sound generation direction of the sound source. Based on the information acquired from, it is determined that the acquisition of the plurality of detected sounds is valid when the human image can be confirmed, or the acquisition of the plurality of detected sounds is determined to be invalid when the human image cannot be confirmed. It is characterized by including an valid / invalid judgment step.
本発明の一態様によれば、集音した音のうち人が発話した音声の認識精度を向上することができる。 According to one aspect of the present invention, it is possible to improve the recognition accuracy of the voice uttered by a person among the collected sounds.
[実施形態1]
本開示の実施形態1は、図1〜図4を用いて説明する。図1は、本実施形態に係る対話ロボットRの要部構成を示すブロック図である。なお、以下の説明において、制御部は音声認識装置として機能するため重複する同音声認識装置の説明は省略する。
[Embodiment 1]
Embodiment 1 of the present disclosure will be described with reference to FIGS. 1 to 4. FIG. 1 is a block diagram showing a main configuration of the dialogue robot R according to the present embodiment. In the following description, since the control unit functions as a voice recognition device, the duplicate description of the voice recognition device will be omitted.
対話ロボットRは、ユーザとしての人の発話とそれ以外の音(例えばテレビ番組の音等)を認識して、人の発話を有効とし、それ以外の音を無効とする電子機器である。 The dialogue robot R is an electronic device that recognizes a person's utterance as a user and other sounds (for example, the sound of a television program), enables the person's utterance, and invalidates the other sounds.
図1に示すように、対話ロボットRは、マイク20と、スピーカ30と、音声認識装置として機能する制御部10と、駆動部40と、撮像部50と、人感センサー部60と、記憶部70とを備える。
As shown in FIG. 1, the dialogue robot R includes a
マイク20は、音を検出する入力装置である。マイクの種類は問わないが、後述する検出音方向特定部12において、検出音の方向を特定できる程度の検出精度および指向性を有している。マイク20は、後述する検出制御部18により音検出の開始および停止が制御される。対話ロボットRは、マイク20を複数個備えている。また、対話ロボットRは、複数個のマイク20,20,20を、それぞれ異なる方向に向けて配置することが望ましい。これにより、後述する検出音方向特定部12による検出音(音源)の方向特定の精度を向上させることができる。
The
スピーカ30は、後述する出力制御部19の制御に従って、応答内容であるメッセージを音声出力するものである。対話ロボットRはスピーカ30を複数備えてもよい。ここで、「応答」とは、音声、動作、光、およびこれらの組み合わせで示される、対話ロボットRの発話に対する反応を意味する。
The
制御部10は、対話ロボットRを統括的に制御するCPU(Central Processing Unit)である。制御部10は、機能ブロックとして、検出音取得部11と、検出制御部18と、出力制御部19を含む。なお、制御部は音声認識装置として機能する。
The
検出音取得部11は、マイク20からの検出音を取得するものである。検出音取得部11は、複数のマイク20からそれぞれの検出音を区別して取得する。また、検出音取得部11は、各マイク20の検出音を任意の長さで区切って、複数回にわたり取得する。検出音取得部11は、検出音方向特定部12、人像検出部13および検出音取得有効/無効判断部14を含む。
The detection
検出音方向特定部12は、マイク20が集音する検出音がどの方向から到来したものかを特定するものである。すなわち、検出音方向特定部12は、検出音の位相差、音量差から音源の方向を推定し、検出音(音声等)の到来(発生)方向を特定する。検出音方向特定部12は、複数のマイク20,20,20から取得した複数の検出音から音源の音の発生方向を総合的に特定する。制御部10は、検出音方向特定部12が特定した検出音の到来(発生)方向を示す到来方向情報に基づき、後述する駆動部40を駆動する。
The detection sound
人像検出部13は、検出音方向特定部12で特定した検出音の到来(発生)方向を、後述する撮像部50で撮像して取得した撮像データ又は/及び後述する人感センサー部60でセンシングして取得したセンサー信号に基づいて、人像が存在するか否かを検出する。
The human
検出音取得有効/無効判断部14は、人像検出部13から取得する情報に基づいて、検出音が人の発話由来である場合を検出音の取得を有効とする判断し、又は検出音が人の発話由来でない場合を検出音の所得を無効とする判断を行う。
Based on the information acquired from the human
撮像部50は、検出音方向特定部12で特定した検出音の発生方向を撮像し、取得した撮像データを人像検出部13に送信する。例えば、撮像部50は、CCD又はCMOS等の撮像素子とA/D変換等の回路を含む。
The
人感センサー部60は、検出音方向特定部12で特定した検出音の発生方向をセンシングし、取得したセンシング信号を人像検出部13に送信する。例えば、人感センサー部60は、人の顔等の温度を感知できる温度センサーを含む。また、人感センサー部としては、温度センサーの他に、赤外線センサーや赤外線センサーと超音波センサーを組み合わせたものであってもよい。
The
駆動部40は、撮像部50又は/及び人感センサー部60を検出音方向特定部12で特定した音源の音(検出音)の発生方向に向けるように駆動する。駆動部40には、後述する対話ロボットRを移動する移動部41を含む。
The
記憶部70は、制御部10が実行する処理に必要なデータを格納するメモリである。記憶部70は少なくとも、応答文テーブル等を含む。応答文テーブルは、所定の文またはキーワードに、応答内容が対応付けて登録されたデータテーブルである。例えば、応答内容としては、文またはキーワードに対する回答となるメッセージの文字列を登録しておくこととする。
The
出力制御部19は、認識したワードに対する応答がある場合、予め登録された応答メッセージをスピーカ30に出力させる。
When there is a response to the recognized word, the
検出制御部18は、マイク20の音の検出を開始させ、マイク20の音の検出を停止させる。
The
次に、対話ロボットRの具体的な構造および動作について、図2および図3を用いて説明する。図2は、対話ロボットRを示す図である。図3は、対話ロボットRの動作例を示す図である。 Next, the specific structure and operation of the interactive robot R will be described with reference to FIGS. 2 and 3. FIG. 2 is a diagram showing a dialogue robot R. FIG. 3 is a diagram showing an operation example of the interactive robot R.
図2に示すように、例えば、対話式ロボットRは、頭部R20、胴体部R30、両腕部R40、両足部R50を備えた人型構造である。対話ロボットRの頭部R20の前頭部R20bにはその両眼部R21,R21の上方向にそれぞれ1つずつマイク20が配置される。さらに、後頭部R20cには1つのマイク20が配置されている。対話ロボットRは、ロボット本体R10の後方に配置したテレビ装置Tからのテレビ番組の音(検出音)の取得を無効としたあと、ロボット本体R10の前方から発話された人の音声(検出音)の取得を有効とする場合について説明する。
As shown in FIG. 2, for example, the interactive robot R has a humanoid structure including a head portion R20, a body portion R30, both arm portions R40, and both foot portions R50. A
図3(a)に示すように、対話ロボットRの各マイク20がテレビ番組の音(図中に示す一点鎖線)を検出すると、制御部10の検出音取得部11は、テレビ番組の検出音を取得する。検出音方向特定部12は、テレビ番組の検出音から検出音の到来方向(頭部後方、図中に示す矢印方向)を特定する。本例においては、この検出音の到来方向は後頭部R20cのマイク20で取得した音の音量差や位相差から特定する(図3(b))。
As shown in FIG. 3A, when each
制御部10は、検出音方向特定部12からの検出音の到来方向情報に基づいて、ロボット本体R10の胴体部R30内の駆動部40(例えば、駆動モーター)を動作し、頭頂部R20aの撮像部50或いは頭部眉間の人感センサー部60を検出音の到来方向に向ける。すなわち、制御部10は、駆動部40を駆動して連動する頭部R20を180度回転することにより、頭頂部R20aの撮像部50或いは頭部眉間の人感センサー部60を検出音の到来方向に向けている(図3(c))。撮像部50は検出音の到来方向に位置するテレビ装置Tのテレビ画面(検出対象)を撮像する。撮像部50は撮像して取得した撮像データを人像検出部13に送信する。或いは、人感センサー部60は検出音の到来方向に位置するテレビ装置Tのテレビ画面(検出対象)をセンシングする。人感センサー部60はセンシングして取得したセンサー信号を人像検出部13に送信する。
The
なお、上記説明では、撮像部50または人感センサー部60の何れか一方を動作して撮像データ或いはセンサー信号を取得したが、撮像部50及び人感センサー部60の両方を動作して撮像データ及びセンサー信号を取得して人像検出部13に送信するようにしてもよい。なお、図3(c)に示すように頭部R20の正面にはテレビ装置Tに対向しているが、撮像部50の撮像したのち或いは人感センサー部60のセンシングしたのちは駆動部40により頭部R20を角度180°回転して、元の位置に戻る(図3(d))。
In the above description, either the
人像検出部13は、撮像部50からの画像データ或いは人感センサー部60からのセンシング信号を取得すると、画像データ或いはセンシング信号に基づいて画像データ或いはセンシング信号に人像が存在するか否かを検出する。この例において、人像検出部13は、テレビ装置Tのテレビ画像を含む画像データから、人像未検出であると出力する。或いは、人像検出部13では、このセンシング信号から人像未検出であると出力する。人像検出部13は、人像未検出の情報を音声取得有効/無効判断部14に送信する。なお、画像データから人像を検出する場合には、人物を認識するプログラム(いわゆる人物認識エンジン)を使用して人像を検出する。
When the human
音声取得有効/無効判断部14は、人像検出部13からの人像未検出の情報に基づいて、検出音の到来方向における検出音(テレビ画面の音)の取得を無効と判断する(図3(d))。図3(d)中の点線で示す領域は音声無効化領域である。
The voice acquisition valid /
ここで、図3(e)に示すように、対話ロボットRの各マイク20が前方から人Pの発話の音(図中に示す一点鎖線)を検出すると、制御部10の検出音取得部11は、人の発話由来の検出音を取得する。検出音方向特定部12は、検出音の到来方向(頭部前方)を特定する。
Here, as shown in FIG. 3 (e), when each
制御部10は、検出音方向特定部12からの検出音の到来方向情報に基づいて、撮像部50或いは人感センサー部60を検出音の到来方向に向ける。撮像部50は検出音の到来方向に位置する人P(検出対象)を撮像し、撮像データを人像検出部13に送信する。或いは、人感センサー部60は検出音の到来方向に位置する人(検出対象)をセンシングし、センサー信号を人像検出部13に送信する。
The
人像検出部13は、画像データから人像の存在を検出し、人検出情報を検出音取得有効/無効判断部14に送信する。或いは、人像検出部13は、センシング信号から人像の存在を検出し、人検出情報を検出音取得有効/無効判断部14に送信する。
The human
検出音取得有効/無効判断部14は、人検出情報に基づいて、検出音の到来方向の検出音(人の音声)の取得を有効であると判断する。検出音取得部11は音声データの取得を継続する。
The detection sound acquisition valid /
対話ロボットRの処理の流れについて、図4を用いて説明する。図4は、対話ロボットRの処理の流れの一例を示すフローチャートである。 The processing flow of the interactive robot R will be described with reference to FIG. FIG. 4 is a flowchart showing an example of the processing flow of the interactive robot R.
複数のマイク20,20,20が音を検出するまで待機状態となる(S1)。音が到来する(S2、図3(a))と、複数のマイク20,20,20が音を検出し、検出音取得部11が検出音をそれぞれ区別して取得し、検出音方向特定部12が、検出音から検出音の到来方向を特定し、検出音の到来方向情報を取得できる場合(S3、YES、図3(b))、検出音方向特定部12からの検出音の到来方向情報に基づいて、駆動部40を動作し、頭部R20の頭頂部R20aの撮像部50或いは頭部眉間の人感センサー部60を検出音の到来方向に向ける(図3(c))。撮像部50は検出音の到来方向を撮像する。或いは、人感センサー部60は検出音の到来方向をセンシングする(S4)。画像データ或いはセンシング信号は人像検出部13に送信される。
The
人像検出部13は、画像データ或いはセンシング信号に基づいて、人像の存在を検出できる場合(S5、YES)、検出音取得有効/無効判断部14は、人像検出部13からの人像検出の情報に基づいて、検出音の到来方向における検出音(人の音声)の取得を有効とする判断を行い、制御部10(検出音取得部11)は人由来の検出音である音声データを取得(S6、図3(e))し、音到来の処理に戻る(S2)。
When the human
また、人像検出部13は、画像データ或いはセンシング信号に基づいて、人像の存在を検出できない場合(S5、NO)、検出音取得有効/無効判断部14は、人像検出部13からの人像未検出の情報に基づいて、検出音の到来方向における検出音の取得を無効とする判断を行い、制御部10(検出音取得部11)は音声データを取得せず(S7、図3(d))、音到来の処理に戻る(S2)。
If the human
なお、検出音方向特定部12が、検出音から音の到来方向を特定し、検出音の到来方向情報を取得できない場合(S3、NO)、音到来の処理に戻る(S2)。
If the detected sound
以上の処理によれば、対話ロボットRは、明らかに人の発話でないエリアからの集音を無効化して、音声認識し易い環境を作ることができる。すなわち、対話ロボットRは、検出音方向特定部12が検出音から音の到来方向を特定し、検出音の到来方向情報に基づいて、駆動部40を動作し、頭部R20の頭頂部R20aの撮像部50或いは頭部眉間の人感センサー部60を検出音の到来方向に的確に向けることが可能となる。撮像部50は検出音の到来方向を撮像して画像データを人像検出部13に送信する。或いは、人感センサー部60は検出音の到来方向をセンシングして、センシング信号を人像検出部13に送信する。人像検出部13は、画像データ或いはセンシング信号に基づいて、人像の存在を検出し、その人像検出の情報を検出音取得有効/無効判断部14に送信する。検出音取得有効/無効判断部14は、人像検出の情報に基づいて、検出音の到来方向における検出音(人の音声)の取得を有効とする判断を正確に行うことにより、制御部10(検出音取得部11)は人由来の検出音である音声データのみを確実に取得することが可能となる。或いは、人像検出部13は、画像データ或いはセンシング信号に基づいて、人像の存在を検出できない場合、その人像未検出の情報を検出音取得有効/無効判断部14に送信する。検出音取得有効/無効判断部14は、人像検出部13からの人像未検出の情報に基づいて、検出音の到来方向における検出音の取得を無効とする判断を正確に行うことにより、制御部10(検出音取得部11)は人以外の検出音を取得することがなくなるものである。
According to the above processing, the dialogue robot R can create an environment in which voice recognition is easy by disabling sound collection from an area that is clearly not spoken by a person. That is, in the dialogue robot R, the detection sound
このような処理を行うことにより各マイク20から集音した検出音が人の発話した音声であるか或いは人以外の音であるかを確実に特定した上で、人の音声の取得を有効にできる一方、明らかに人の発話以外の音の取得を無効にできるので、音声認識の障害となり得る外部ノイズを抑制し、人が発話した音声の認識精度を向上することができる。
By performing such processing, it is possible to effectively identify whether the detected sound collected from each
[実施形態2]
本開示の実施形態2について、図5〜6を用いて説明する。なお、説明の便宜上、実施形態2のブロック図、対話ロボットの構造は、実施形態1のブロック図、対話ロボットの構造と同じであるため重複する説明を省略する。実施形態1で説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
[Embodiment 2]
次に、対話ロボットの具体的な動作について、図5を用いて説明する。図5は、対話ロボットの動作例を示す図である。対話ロボットRの頭部R20にはその両眼部R21,R21の上方向にそれぞれ1つずつマイク20が配置される(図2参照)。さらに、後頭部R20cには1つのマイク20が配置されている。図5では一例として、対話ロボットRでは、ロボット本体R10の後方に配置したテレビ装置Tのテレビ番組の音の取得とロボット本体R10の側方に配置したラジオ装置Qのラジオ番組の音の取得を無効とした後、ロボット本体R10の前方から発話された人の音声の取得を有効とする場合について説明する。
Next, the specific operation of the interactive robot will be described with reference to FIG. FIG. 5 is a diagram showing an operation example of the interactive robot. A
図5(a)に示すように、対話ロボットRの各マイク20がテレビ装置Tのテレビ番組の音(図中に示す一点鎖線)およびラジオ装置Qのラジオ番組の音(図中に示す一点鎖線)を検出すると、制御部10の検出音取得部11は、テレビ番組の検出音およびラジオ番組の検出音を取得する。検出音方向特定部12は、各検出音から各検出音の到来方向(頭部後方および頭部側方、図中に示す矢印方向)をそれぞれ特定する。各検出音の到来方向は、各マイク20で取得した音の音量差や位相差から特定する(図5(b))。
As shown in FIG. 5A, each
制御部10は、検出音方向特定部12からの各検出音の到来方向の情報に基づいて、胴体部R30内の駆動部40を動作し、頭頂部R20aの撮像部50および頭部眉間の人感センサー部60を各検出音の到来方向に向ける。
The
すなわち、制御部10は、駆動部40を駆動して連動する頭部R20を角度180°回転することにより、頭頂部R20aの撮像部50および頭部眉間の人感センサー部60を検出音の到来方向に向ける(図5(c))。
That is, the
撮像部50は検出音の到来方向に位置するテレビ装置Tのテレビ画面(検出対象)を撮像する。撮像部50は撮像して取得した撮像データを人像検出部13に送信する。かつ、人感センサー部60は検出音の到来方向に位置するテレビ装置Tのテレビ画面(検出対象)をセンシングする。人感センサー部60はセンシングして取得したセンサー信号を人像検出部13に送信する。
The
さらに、制御部10は、駆動部40を駆動して連動する頭部R20をさらに角度90°回転することにより、頭頂部R20aの撮像部50および頭部眉間の人感センサー部60を検出音の到来方向に向ける。撮像部50は検出音の到来方向に位置するラジオ装置Q(検出対象)を撮像する。撮像部50は撮像して取得した撮像データを人像検出部13に送信する。かつ、人感センサー部60は検出音の到来方向に位置するラジオ装置Q(検出対象)をセンシングする。人感センサー部60はセンシングして取得したセンサー信号を人像検出部13に送信する。
Further, the
なお、上記説明では、撮像部50および人感センサー部60を動作して撮像データおよびセンサー信号の両方を取得したが、撮像部50の撮像データ或いは人感センサー部60のセンサー信号の何れかを取得して人像検出部13に送信するようにしてもよい。
In the above description, both the imaging data and the sensor signal are acquired by operating the
なお、図5(c)に示すように頭部の正面はテレビ装置Tに対向しているが、撮像部50の撮像したのち或いは人感センサー部60のセンシングしたのちは駆動部40により頭部を回転して、元の位置に戻る(図5(d))。
As shown in FIG. 5C, the front surface of the head faces the television device T, but after the
人像検出部13は、撮像部50からの各画像データおよび人感センサー部60からの各センシング信号を取得すると、画像データおよびセンシング信号に基づいて各画像データおよび各センシング信号に人像が存在するか否かを検出する。この例において、人像検出部13は、テレビ画像を含む画像データおよびラジオ装置Qを含む画像データから、いずれも人像未検出であると出力する。かつ、人像検出部13では、テレビ画像を含むセンシング信号およびラジオ装置Qを含むセンシング信号から人像未検出であると出力する。人像検出部13は、人像未検出の情報を検出音取得有効/無効判断部14に送信する。
When the human
検出取得有効/無効判断部14は、人像検出部13からの人像未検出の情報に基づいて、両検出音(テレビ画面の音およびラジオ番組の音)の取得を無効とする判断を行う。制御部10の検出音取得部11は、両検出音の取得を中止する。図5(c)中の点線で示す領域は音声無効化領域である。
The detection acquisition valid /
ここで、図5(d)に示すように、対話ロボットRの各マイク20が前方から人の発話の音(図中に示す一点鎖線)を検出すると、制御部10の検出音取得部11は、人の発話由来の検出音を取得する。検出音方向特定部12は、検出音の到来方向(頭部前方)を特定する。
Here, as shown in FIG. 5D, when each
制御部10は、検出音方向特定部12からの検出音の到来方向の情報に基づいて、撮像部50および人感センサー部60を検出音の到来方向に向ける。撮像部50は検出音の到来方向に位置する人Pを撮像し、撮像データを人像検出部に送信する。かつ、人感センサー部60は検出音の到来方向に位置する人Pをセンシングし、センサー信号を人像検出部13に送信する。
The
人像検出部13は、画像データから人像の存在を検出し、人検出の情報を検出音取得有効/無効判断部14に送信する。かつ、人像検出部13は、センシング信号から人像の存在を検出し、人検出の情報を検出音取得有効/無効判断部14に送信する。
The human
検出音取得有効/無効判断部14は、人検出の情報に基づいて、検出音の到来方向の検出音(人の音声)の取得を有効とする判断を行う。制御部10の検出音取得部11は検出音の取得を継続する。
The detection sound acquisition enable / disable
対話ロボットの処理の流れについて、図6を用いて説明する。図6は、対話ロボットの処理の流れの一例を示すフローチャートである。 The processing flow of the interactive robot will be described with reference to FIG. FIG. 6 is a flowchart showing an example of the processing flow of the interactive robot.
複数のマイク20,20,20が音を検出するまで待機状態となる(S11)。音が到来する(S12)と、複数のマイク20,20,20が音を検出し、検出音取得部11が検出音をそれぞれ区別して取得し、検出音方向特定部12が、検出音から音源の音の到来方向を特定し、検出音の到来方向情報を取得する場合(S13、YES)、かつ、検出音の数が1つである場合(S14、YES)、検出音方向特定部12からの検出音の到来方向情報に基づいて、駆動部40を動作し、頭部R20の頭頂部R20aの撮像部50および頭部眉間の人感センサー部60を音の到来方向に向ける。撮像部50は検出音の到来方向を撮像する。かつ、人感センサー部60は音の到来方向をセンシングする(S15)。画像データおよびセンシング信号は人像検出部13に送信される。
It goes into a standby state until a plurality of
人像検出部13は、画像データおよびセンシング信号から人像の存在を検出する場合(S16、YES)、検出音取得有効/無効判断部14は、人像検出の情報に基づいて、検出音の到来方向の検出音(人の音声)の取得を有効とする判断を行い、制御部10(検出音取得部11)は人由来の検出音とする音声データを取得(S17)し、音到来の処理に戻る(S12)。
When the human
ここで、検出音が1つでない場合(S14、NO)、検出音方向特定部12からの各検出音の到来方向情報に基づいて、駆動部40を動作し、頭部R20の頭頂部R20aの撮像部50および頭部眉間の人感センサー部60を検出音の到来方向にそれぞれ向ける。撮像部50は一方の検出音の到来方向のテレビ装置Tのテレビ画像(検出対象)および他方の検出音の到来方向のラジオ装置Q(検出対象)をそれぞれ撮像する。かつ、人感センサー部60は一方の検出音の到来方向のテレビ装置Tのテレビ画像(検出対象)および他方の検出音の到来方向のラジオ装置Q(検出対象)をセンシングする。これらテレビ画像を含む画像データ、ラジオ装置Qを含む画像データ、テレビ画像を含むセンシング信号及びラジオ装置Qを含むセンシング信号は、人像検出部13に送信される(S21)。
Here, when there is not one detected sound (S14, NO), the driving
人像検出部13は、第1の音到来方向の画像データおよびセンシング信号から人像の存在を検出する場合(S22、YES)、かつ、第2の音到来方向の画像データおよびセンシング信号から人像の存在を検出する場合(S23、YES)、検出音取得有効/無効判断部14は、人像検出部13からの人像検出の情報に基づいて、第1および第2検出音の到来方向の両検出音の取得を無効とする判断を行い、制御部10(検出音取得部11)は音声データを取得せず(S24)、再度音声を取得するために音到来の処理に戻る(S12)。
When the human
または、人像検出部13は、第1の検出音到来方向のテレビ画像を含む画像データおよび第1の検出音到来方向のテレビ画像を含むセンシング信号から人像の存在を検出できない場合(S22、NO)、第2の検出音到来方向のラジオ装置Qを含む画像データおよびラジオ装置Qを含むセンシング信号から人像の存在を検出できない場合(S25、NO)、検出音取得有効/無効判断部14は、人像未検出の情報に基づいて、第1および第2検出音の到来方向軸L,Lで囲まれた領域における両検出音(テレビ画像の音、ラジオ装置の音)の取得を無効とする判断を行い(S27、図5(c))、制御部10の検出音取得部11は音声データを取得せず(S17、図5(d))、再度音声を取得するために音到来の処理に戻る(S12)。例えば、第1および第2検出音の到来方向軸L,Lで囲まれた領域とは、第1検出音(第1の音源)の方向を基準0°±10°で検知し、第2検出音(第2の音源)の方向を100°±10°で検知できた場合に、両検知した範囲の最大値と最小値から得られる。この場合、到来方向軸L,Lで囲まれた領域は、−10°〜110°となる。
Alternatively, when the human
第2の検出音到来方向の画像データおよびセンシング信号から人像の存在を検出する場合(S25、YES)、検出音取得有効/無効判断部14は、人像検出の情報に基づいて、第2の検出音到来方向における検出音の取得を有効とする判断を行い、制御部10(検出音取得部11)は音声データを取得する(S17)。
When detecting the presence of a human image from the image data in the arrival direction of the second detection sound and the sensing signal (S25, YES), the detection sound acquisition valid /
人像検出部13は、画像データおよびセンシング信号から人像の存在を検出できない場合(S16、NO)、人像検出部13は、第2の検出音到来方向における画像データおよびセンシング信号から人像の存在を検出できない場合(S23、NO)の場合、検出音取得有効/無効判断部14は、人像検出部13からの人像未検出の情報に基づいて、検出音の到来方向の検出音の取得を無効とする判断を行い、制御部10(検出音取得部11)は音声データを取得せず(S26)、音到来の処理に戻る(S12)。
When the human
以上の処理によれば、対話ロボットRは、複数の音源からの検出音でかつ、明らかに人ではない検出音の取得を、複数の音源からの検出音の到来軸で形成されるエリアは無効とすることができる。 According to the above processing, the dialogue robot R acquires the detected sound from a plurality of sound sources and is clearly not a human, and the area formed by the arrival axis of the detected sound from the plurality of sound sources is invalid. Can be.
すなわち、対話ロボットRは、複数の検出音を検出し、検出音方向特定部12が各検出音の到来方向を特定して、検出音方向特定部12からの各検出音の到来方向情報に基づいて、駆動部40を動作し、頭部R20の頭頂部R20aの撮像部50および頭部眉間の人感センサー部60を検出音の到来方向にそれぞれ向けることができる。撮像部50は一方の検出音の到来方向のテレビ装置Tのテレビ画像(検出対象)および他方の検出音の到来方向のラジオ装置Q(検出対象)をそれぞれ撮像することができる。かつ、人感センサー部60は一方の検出音の到来方向のテレビ装置Tのテレビ画像(検出対象)および他方の検出音の到来方向のラジオ装置Q(検出対象)をセンシングすることができる。これらテレビ画像を含む画像データ、ラジオ装置Qを含む画像データ、テレビ画像を含むセンシング信号及びラジオ装置Qを含むセンシング信号は、人像検出部13に送信される。人像検出部13は、第1および第2の検出音到来方向のテレビ画像を含む2つの画像データおよび2つのセンシング信号から人像の存在を検出できない場合に、検出音取得有効/無効判断部14は、人像未検出の情報に基づいて、第1および第2検出音の到来方向軸L,Lで囲まれた領域における両検出音(テレビ画像の音、ラジオ装置の音)の取得を無効と判断し、その後、無効化したエリア以外から検出した人の音声を有効に取得することができるので、人が発話した音声の認識精度を向上することができる。
That is, the dialogue robot R detects a plurality of detected sounds, the detected sound
また、対話ロボットRは、複数の人の発話による複数の検出音が検出した場合には、検出音方向特定部12が各検出音の到来方向を特定して、検出音方向特定部12からの各検出音の到来方向情報に基づいて、駆動部40を動作し、頭部R20の頭頂部R20aの撮像部および頭部眉間の人感センサー部60を検出音の到来方向にそれぞれ向けることができる。撮像部50は2つ検出音の到来方向をそれぞれ撮像することができる。かつ、人感センサー部60は2つの検出音の到来方向をセンシングすることができる。これら画像データ、センシング信号は、人像検出部13に送信される。人像検出部13は、第1の音到来方向の画像データおよびセンシング信号から人像の存在を検出する場合、かつ、第2の音到来方向の画像データおよびセンシング信号から人像の存在を検出する場合、検出音取得有効/無効判断部14は、人像検出部13からの人像検出の情報に基づいて、第1および第2検出音の到来方向の両検出音の取得を無効とする判断を行い、制御部10(検出音取得部11)は複数の人の音声データを取得しないこととなる。
Further, in the dialogue robot R, when a plurality of detected sounds due to speech by a plurality of people are detected, the detected sound
[実施形態3]
本開示の実施形態3について、図7〜9を用いて説明する。なお、説明の便宜上、実施形態1で説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。図7は、本実施形態に係る対話ロボットRの要部構成を示すブロック図である。この対話ロボットのブロック図では音源検出部と駆動制御部の機能を追加した一方、人感センサー部を除く。
[Embodiment 3]
検出音取得部11は、マイク20からの検出音を取得するものである。検出音取得部11は、複数のマイク20からそれぞれの検出音を区別して取得する。また、検出音取得部11は、各マイク20の検出音を任意の長さで区切って、複数回にわたり取得する。検出音取得部11は、検出音方向特定部12、人像検出部13、検出音取得有効/無効判断部14、音源検出部15および駆動制御部16を含む。
The detection
人像検出部13は、検出音方向特定部12で特定した検出音の到来方向を、後述する撮像部50で撮像して取得した撮像データに基づいて、人像が存在するか否かを検出する。
The human
検出音取得有効/無効判断部14は、人像検出部13から取得した情報に基づいて、検出音が人の発話である場合を検出音の取得を有効とする判断を行い、又は検出音が人の発話でない場合を検出音の所得を無効とする判断を行う。
Based on the information acquired from the human
撮像部50は、検出音方向特定部12で特定した検出音の到来方向を撮像し、取得した撮像データを人像検出部13および後述する音源検出部15に送信する。
The
音源検出部15は、人像検出部13からの人像の情報と撮像部50からの撮像データとに基づいて、音源の存在を検出する。音源とは人の発話以外のテレビ装置Tのテレビ画像の音やラジオ装置Qの音等、その他機器の音等である。
The sound
駆動制御部16は、音源検出部15からの情報に基づいて、ロボット本体R10の向きを変えるため駆動部40を動作制御する。
The
駆動部40は、撮像部50を検出音方向特定部12で特定した検出音の到来方向に向けるように駆動する。 また、駆動部40は駆動制御部16からの制御情報に基づいて指定された駆動を行う。駆動部40には、対話ロボットRを移動する移動部41を含む。
The
次に、対話ロボットRの具体的な動作について、図8を用いて説明する。図8は、対話ロボットRの動作例を示す図である。テレビ装置Tと人Pとが同じ方向に居る場合である。 Next, the specific operation of the dialogue robot R will be described with reference to FIG. FIG. 8 is a diagram showing an operation example of the interactive robot R. This is a case where the television device T and the person P are in the same direction.
対話ロボットRは、ロボット本体R10の前方からのテレビ装置Tのテレビ番組の音(検出音)を検知し、撮像部50がテレビ装置Tの方向を撮像する。この撮像データには、テレビ装置Tのテレビ画面と人像が写り込んでおり、検出音がテレビ番組の音であるのか或いは人の音声であるのか判定することができない。
The dialogue robot R detects the sound (detection sound) of the TV program of the TV device T from the front of the robot main body R10, and the
そこで、対話ロボットRは、新たに設けた音源検出部15からの音源検出の情報に基づいてロボット本体R10の向きを変更し、スピーカ30より発声して、人Pに移動を促した後に、新たに発話された人の音声(検出音)の取得を有効とする場合について説明する。
Therefore, the dialogue robot R changes the direction of the robot main body R10 based on the sound source detection information from the newly provided sound
図8(a)に示すように、対話ロボットRの各マイク20がテレビ番組の音(図中に示す一点鎖線)を検出すると、制御部10の検出音取得部11は、テレビ番組の検出音を取得する。検出音方向特定部12は、テレビ番組の検出音から検出音の到来方向(頭部後方、図中に示す矢印方向)を特定する。この検出音の到来方向は、マイク20で取得した音の音量差や位相差から特定する。
As shown in FIG. 8A, when each
制御部10は、検出音方向特定部12からの検出音の到来方向情報に基づいて、頭頂部R20aの撮像部50を検出音の到来方向に向ける。撮像部50は検出音の到来方向に位置するテレビ装置T(検出対象)とテレビ装置Tの後方の人P(検出対象)を撮像する(図8(b))。撮像部50は撮像して取得した撮像データを人像検出部13および音源検出部15に送信する。この撮像データにはテレビ装置Tと人像が含まれる。
The
人像検出部13は、撮像部50からの画像データを取得すると、画像データに基づいて画像データに人像が存在するか否かを検出する。この例において、人像検出部13は、テレビ装置Tと人像を含む画像データから、人像を検出する。人像検出部13は、人像検出の情報を音声取得有効/無効判断部14および音源検出部15に送信する。
When the human
音源検出部15は、人像検出部13からの人像検出の情報と撮像部50からの画像データに基づいて、音源が存在するか否かを検出する。
The sound
音源検出部15は、記憶部70に記憶されている音源を示す音源画像データを読み出し、この音源画像データと撮像部50からの画像データとを画像マッチングする。画像マッチングの結果、音源画像データと画像データとが一致する場合、音源が検出される。音源画像データと画像データとが一致しない場合には、音源は検出されない。音源検出部15は、音源検出の情報を駆動制御部16へ送信する。具体的には、音源検出部15は、音源画像データと、テレビ装置Tと人像を含む撮像部50からの画像データとを画像マッチングした結果、音源画像データと画像データとが一致するため、テレビ装置T(音源)が検出される。音源検出部15は、検出した音源検出の情報を駆動制御部16へ送信する。
The sound
駆動制御部16は、音源検出部15からの音源検出の情報に基づいて、駆動部40(移動部41)を動作して足部R50(図2参照)を動かしロボット本体R10の向きを指定方向の左90度へ変更する(図8(c))。制御部10の出力制御部19は、スピーカ30より人Pに移動を促す発話を行う。対話ロボットRからの移動指示にしたがって移動した人Pは、正面のロボット本体R10に発話を行う。検出音方向特定部12は、検出音から音源の音の到来方向(頭部前方、図中に示す矢印方向)を特定し、検出音の到来方向情報に基づいて、頭頂部R20aの撮像部50を検出音の到来方向に向ける。撮像部50は検出音の到来方向に位置する人P(検出対象)を撮像する。撮像部50は撮像して取得した人像を含む撮像データを人像検出部13に送信する。なお、図8(c)では、移動部41(例えば駆動モーター)を動作して足部R50を動かしロボット本体R10の向きを指定方向に変更したが、駆動部40を駆動して頭部のみを指定方向に変更するようにしてもよい。
The
人像検出部13は、検出音方向特定部12の検出音の到来方向情報と撮像部50の撮像データに基づいて、人像を検出すると、音声取得有効/無効判断部14に人像検出の情報を送信する。
When the human
音声取得有効/無効判断部14は、人像検出部13からの人像検出の情報に基づいて、人の発話による検出音の到来方向における人の音声の取得を有効と判断する。検出音取得部11は音声データの取得を継続する(図8(d))。
The voice acquisition valid /
ここでは音源としてのテレビ装置Tに関する処理について詳説する。 Here, the processing related to the television device T as a sound source will be described in detail.
検出音方向特定部12は、テレビ装置Tから検出音の到来方向を特定し、検出音の到来方向情報に基づいて、必要に応じて駆動部40を駆動して、頭頂部R20aの撮像部50を検出音の到来方向に向ける。撮像部50は検出音の到来方向に位置するテレビ装置(検出対象)を撮像する(図8(b))。撮像部50は撮像して取得したテレビ装置Tを含む撮像データを人像検出部13に送信する。
The detection sound
人像検出部13は、検出音方向特定部12の検出音の到来方向情報と撮像部50の撮像データに基づいて、人像を検出できず、この人像未検出の情報を音声取得有効/無効判断部14に送信する。
The human
音声取得有効/無効判断部14は、人像検出部13からの人像未検出の情報に基づいて、テレビ装置Tによる検出音の到来方向における検出音の取得を無効と判断する。制御部10の検出音取得部11は、検出音の取得を中止する。図中の点線で示す領域は音声無効化領域である(図8(d))。
The voice acquisition valid /
対話ロボットの処理の流れについて、図9を用いて説明する。図9は、対話ロボットの処理の流れの一例を示すフローチャートである。 The processing flow of the interactive robot will be described with reference to FIG. FIG. 9 is a flowchart showing an example of the processing flow of the interactive robot.
複数のマイク20,20,20が音を検出するまで待機状態となる(S31)。音が到来する(S32)と、複数のマイク20,20,20が音を検出し、検出音取得部11が検出音をそれぞれ区別して取得し、検出音方向特定部12が、検出音から検出音の到来方向を特定し、検出音の到来方向情報を取得する場合(S33、YES)、検出音方向特定部12からの検出音の到来方向情報に基づいて、駆動部を動作し、頭部R20の頭頂部R20aの撮像部50を検出音の到来方向に向ける。撮像部50は検出音の到来方向を撮像する(S34)。画像データは人像検出部13及び音源検出部15に送信される。
It goes into a standby state until a plurality of
人像検出部13は、画像データに基づいて、人像の存在を検出できる場合(S35、YES)、音源検出部15は、人像検出部13からの人像検出の情報と撮像部50からの画像データに基づいて、記憶部70に記憶されている音源を示す音源画像データを読み出し、この音源画像データと撮像部50の画像データとを画像マッチングし、画像マッチングの結果、音源画像データと画像データとが一致する場合(S36、YES)、駆動制御部16は、音源検出部15からの音源検出の情報に基づいて、駆動部40を動作して、足部R50を動かしロボット本体R10の向きを指定方向の左90度へ変更する制御を行う(S37)。
When the human
制御部10の出力制御部19は、スピーカ30より人Pに移動を促す発話を行うように制御する。人Pはロボット本体R10の正面に移動して発話を行う。検出音方向特定部12は、人発話の検出音から検出音の到来方向を特定し、検出音の到来方向情報に基づいて、駆動部40を駆動して、頭頂部R20aの撮像部50を検出音の到来方向に向ける。撮像部50は検出音の到来方向に位置する人(検出対象)を撮像する。撮像部50は撮像して取得した人像を含む撮像データを人像検出部13に送信する。
The
人像検出部13は、検出音方向特定部12の検出音の到来方向情報と撮像部50の撮像データに基づいて、人像を検出すると、人が移動したこととなる(S38、YES)。音到来の処理(S32)に戻り、S33、S34、S35、YESの処理を行い、音源検出部15は、人像検出部13からの人像検出の情報と撮像部50からの画像データに基づいて、記憶部70に記憶されている音源を示す音源画像データを読み出し、この音源画像データと撮像部50の画像データとを画像マッチングし、画像マッチングの結果、音源画像データと画像データとが一致しない場合(S36、NO)、音声取得有効/無効判断部14は、人像検出部13からの人像検出の情報に基づいて、検出音の到来方向における人の音声の取得を有効と判断する。検出音取得部11は、人の発話の音声データの取得を継続する。
When the human
上記S35の処理において、 人像検出部13は、画像データに基づいて、人像の存在を検出できない場合(S35、NO)、音声取得有効/無効判断部14は、人像検出部13からの人像未検出の情報に基づいて、検出音の到来方向における検出音の取得を無効と判断する(S40)。
In the process of S35, when the human
上記S38の処理において、人の移動を確認できない場合(S38、NO)、S38の処理に戻る。 If the movement of a person cannot be confirmed in the process of S38 (S38, NO), the process returns to the process of S38.
以上の処理によれば、対話ロボットは、人(話者)と他の音源とが同じ撮像方向にいたとしても、スピーカにより人に別方向へ移動するように促し、人と他の音源とが別方向に位置してから人の音声取得を行うことにより、明らかに人の発話でない検出音の取得を無効とし、音声認識の障害となり得る外部ノイズを抑制し、音声認識の精度を高めることが可能となる。 According to the above processing, even if the person (speaker) and the other sound source are in the same imaging direction, the dialogue robot prompts the person to move in a different direction by the speaker, and the person and the other sound source communicate with each other. By acquiring human voice after being located in a different direction, it is possible to invalidate the acquisition of detected sounds that are clearly not spoken by humans, suppress external noise that can interfere with voice recognition, and improve the accuracy of voice recognition. It will be possible.
すなわち、対話ロボットRは、検出音を検出し、検出音方向特定部12が検出音の到来方向を特定して、検出音方向特定部12からの検出音の到来方向情報に基づいて、頭頂部R20aの撮像部50を検出音の到来方向に向けることができる。撮像部50はテレビ装置Tのテレビ画像(検出対象)および人P(検出対象)を同時に撮像することができる。テレビ画像と人像を含む画像データを含む画像データは、人像検出部13に送信される。人像検出部13は、人像の存在を検出する場合に、人像検出の情報を音声取得有効/無効判断部14および音源検出部15に送信する。音源検出部15は、人像検出部13からの人像検出の情報と撮像部50からの画像データに基づいて、音源の存在を検出すると、音源検出の情報を駆動制御部16へ送信し、駆動制御部16は、音源検出部15からの音源検出の情報に基づいて、駆動部40の足部R50を動かしロボット本体R10の向きを指定方向へ変更する制御を行うことができる。対話ロボットRは、スピーカ30より人Pに移動を促す発話を行い、移動指示にしたがって移動した人Pが新たに発話した音声を有効に取得する一方で。テレビ装置Tによる検出音の到来方向における検出音の取得を無効とすることが可能となる。
That is, the dialogue robot R detects the detected sound, the detected sound
[実施形態4]
本開示の実施形態4について、図10〜12を用いて説明する。なお、説明の便宜上、実施形態4、対話ロボットの構造は、実施形態1の対話ロボットの構造と同じであるため重複する説明を省略する。実施形態1で説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。図10は、本実施形態に係る対話ロボットRの要部構成を示すブロック図である。実施形態4の対話ロボットのブロック図と上述した実施形態1の対話ロボットのブロック図の違いは、駆動制御部の機能を追加した一方、人感センサー部を除く点が異なるものである。
[Embodiment 4]
検出音取得部11は、マイク20からの検出音を取得するものである。検出音取得部11は、複数のマイク20からそれぞれの検出音を区別して取得する。また、検出音取得部11は、各マイク20の検出音を任意の長さで区切って、複数回にわたり取得する。検出音取得部11は、検出音方向特定部12、人像検出部13、検出音取得有効/無効判断部14、および駆動制御部16を含む。
The detection
人像検出部13は、検出音方向特定部12で特定した検出音の到来方向を、後述する撮像部50で撮像して取得した撮像データに基づいて、人像が存在するか否かを検出する。人像検出部13は、検出した情報を検出音取得有効/無効判断部14および検出音方向特定部12に送信する。
The human
検出音取得有効/無効判断部14は、人像検出部13から取得した情報に基づいて、検出音が人の発話である場合を検出音の取得を有効とする判断を行い、又は検出音が人の発話でない場合を検出音の所得を無効とする判断を行う。
Based on the information acquired from the human
撮像部50は、検出音方向特定部12で特定した検出音の到来方向を撮像し、取得した撮像データを人像検出部13に送信する。
The
駆動制御部16は、検出音方向特定部12からの情報に基づいて、駆動部40を動作制御する。
The
駆動部40は、撮像部50を検出音方向特定部12で特定した検出音の到来方向に向けるように駆動する。 また、駆動部40は駆動制御部16からの制御情報に基づいて指定された駆動を行う。駆動部40には、対話ロボットRを移動する移動部41を含む。指定された駆動とは、例えば移動部41が駆動されることにより、側方に所定距離移動する(図11(c))。
The
次に、対話ロボットRの具体的な動作について、図11を用いて説明する。図11は、対話ロボットRの動作例を示す図である。対話ロボットRの正面には、ラジオ装置Qがあり、同対話ロボットRの背面にはテレビ装置Tがある場合である。対話ロボットRは、ロボット本体R10の前方からのラジオ装置Qの音(検出音)およびロボット本体R10の後方からのテレビ番組の音(検出音)を検知し、撮像部50が検出音の方向をそれぞれ撮像する。この各撮像データには、ラジオ装置Q、テレビ画面が写り込んでいるのみで、人は存在しない。そこで、対話ロボットRは、検出音の無効化範囲を狭域化するためにロボット本体R10を移動して、無効化範囲の両検出音の取得を無効とし後に、新たに発話された人Pの音声(検出音)の取得を有効とする場合について説明する。
Next, the specific operation of the dialogue robot R will be described with reference to FIG. FIG. 11 is a diagram showing an operation example of the interactive robot R. There is a radio device Q in front of the dialogue robot R, and a television device T in the back of the dialogue robot R. The dialogue robot R detects the sound of the radio device Q (detection sound) from the front of the robot body R10 and the sound of the TV program (detection sound) from the rear of the robot body R10, and the
図11(a)に示すように、対話ロボットRの各マイク20がロボット本体R10の正面のラジオ番組の音(図中に示す一点鎖線)およびロボット本体R10の後方のテレビ番組の音(図中に示す一点鎖線)をそれぞれ検出すると、制御部10の検出音取得部11は、ラジオ番組の検出音およびテレビ番組の検出音を取得する。検出音方向特定部12は、各検出音から各検出音の到来方向(頭部前方および頭部後方、図中に示す2つの矢印方向)を特定する。各検出音の到来方向は、マイク20で取得した音の音量差や位相差から特定する(図11(b))。
As shown in FIG. 11A, each
制御部10は、検出音方向特定部12からの各検出音の到来方向の情報に基づいて、胴体部R30内の駆動部40を動作し、頭頂部R20aの撮像部50を各検出音の到来方向に向ける。
The
すなわち、制御部10は、駆動部40を駆動して連動する頭部R20を動作することにより、頭頂部R20aの撮像部50を検出音の到来方向(頭部前方および頭部後方、図中に示す矢印方向)にそれぞれ向ける。撮像部50は検出音の到来方向に位置するラジオ装置Q(検出対象)およびテレビ装置Tのテレビ画面(検出対象)をそれぞれ撮像する。撮像部50は撮像して取得した撮像データを人像検出部13に送信する。
That is, the
人像検出部13は、検出音方向特定部12からの各検出音の到来方向の情報と撮像部50からの各画像データに基づいて各画像データに人像が存在するか否かを検出する。この例において、人像検出部13は、ラジオ装置Qを含む画像データおよびテレビ装置Tのテレビ画像を含む画像データから、いずれも人像未検出であると出力する。人像検出部13は、人像未検出の情報を検出音取得有効/無効判断部14に送信する。
The human
検出取得有効/無効判断部14は、人像検出部13からの人像未検出の情報に基づいて、両検出音(テレビ装置の音およびラジオ装置の音)の取得を無効とする判断を行う。
The detection acquisition valid /
ここで、駆動制御部16は、それぞれの検出音の到来方向が作る角度が特定の角度、例えば150°以上であるか否かを判断する。この例において、ロボット本体R10の正面にはラジオ装置Qが配置されており、ラジオ装置Qの検出音の到来方向を角度0°(基準)とし、ロボット本体R10の後方にはテレビ装置Tが配置されており、テレビ装置Tの検出音の到来方向の角度を180°としている。すなわち、ラジオ装置Qとテレビ装置Tとの検出音の到来方向が作る角度αが例えば、150°以上となる場合、駆動制御部16からの制御情報に基づいてロボット本体R10を移動する。ロボット本体R10は、制御情報に基づいて移動部41が駆動されることにより、足部R50を動かし側方に所定距離移動する(図11(c))。
Here, the
この例において、ロボット本体R10が移動したことにより、ラジオ装置Qとテレビ装置Tとの2つの検出音の到来方向軸L,Lが作る角度αが150°以下となり、検出音取得有効/無効判断部14は、人像検出部13からの人未検出の情報に基づいて、それぞれ検出音の到来方向の各検出音の取得を無効とする判断を行う(図11(d))。図中の各点線L,Lにおける範囲αは検出音を無効化した範囲を示す。
In this example, due to the movement of the robot body R10, the angles α formed by the arrival direction axes L and L of the two detection sounds of the radio device Q and the television device T become 150 ° or less, and the detection sound acquisition valid / invalid judgment is made. Based on the information from the human
なお、本例において、2つの検出音の到来方向軸L,Lが作る角度を150°以下の場合に検出音取得有効/無効判断部14は、人像検出部13からの人未検出の情報に基づいて、それぞれ検出音の到来方向の各検出音の取得を無効とする判断を行ったが、この角度は任意に変更することができ、例えば角度120°としてもよい。このように角度を狭めることで、無効エリアを狭める一方で、有効エリアを広く設定することができる。
In this example, when the angle formed by the arrival direction axes L and L of the two detection sounds is 150 ° or less, the detection sound acquisition valid /
図11(e)に示すように、対話ロボットRの各マイク20が前方から人Pの発話の音(図中に示す一点鎖線)を検出すると、制御部10の検出音取得部11は、人の発話由来の検出音を取得する。検出音方向特定部12は、検出音の到来方向(頭部前方)を特定する。
As shown in FIG. 11 (e), when each
制御部10は、検出音方向特定部12からの検出音の到来方向の情報に基づいて、撮像部50を検出音の到来方向に向ける。撮像部50は検出音の到来方向に位置する人を撮像し、撮像データを人像検出部13に送信する。
The
人像検出部13は、画像データから人像の存在を検出し、人検出の情報を検出音取得有効/無効判断部14に送信する。
The human
検出音取得有効/無効判断部14は、人検出の情報に基づいて、検出音の到来方向の検出音(人の音声)の取得を有効とする判断を行う。制御部10の検出音取得部11は検出音の取得を継続する。
The detection sound acquisition enable / disable
対話ロボットの処理の流れについて、図12を用いて説明する。図12は、対話ロボットの処理の流れの一例を示すフローチャートである。 The processing flow of the interactive robot will be described with reference to FIG. FIG. 12 is a flowchart showing an example of the processing flow of the interactive robot.
図12に示す処理フローにおいては、それぞれの検出音の方向に人が存在するか否かにより以下の処理を実施することができる。
(1)第1および第2の検出音の到来方向の両方で人が検知された場合、第1及び第2の音声到来方向の検出音に関する音声認識を不可とする。
(2)検出音の到来方向の1方向のみで人が検知された場合、人がいないと判定された到来方向からの音声取得を無効とする。
(3)2つの検出音の到来方向それぞれで、人が検知されなかった場合、各々の検出音の到来方向軸で作成される角度を確認する。
(4)各々の検出音の到来方向軸で作成される角度が150°以上の場合、駆動部の足部の歩行動作により、ロボット本体(音声認識装置)を移動する。
(5)各々の検出音の到来方向軸で作成される角度が150°以下の場合、各々の到来方向軸で囲まれた領域で音声取得を無効とする。
In the processing flow shown in FIG. 12, the following processing can be performed depending on whether or not a person is present in the direction of each detected sound.
(1) When a person is detected in both the arrival directions of the first and second detected sounds, voice recognition regarding the detected sounds in the first and second voice arrival directions is disabled.
(2) When a person is detected in only one direction of the arrival direction of the detected sound, the voice acquisition from the arrival direction determined that there is no person is invalidated.
(3) When a person is not detected in each of the two detection sound arrival directions, the angle created by the arrival direction axis of each detection sound is confirmed.
(4) When the angle created by the arrival direction axis of each detected sound is 150 ° or more, the robot body (speech recognition device) is moved by the walking motion of the foot of the driving unit.
(5) When the angle created by the arrival direction axis of each detected sound is 150 ° or less, voice acquisition is invalidated in the area surrounded by each arrival direction axis.
以下、図12に示すフローチャートについて詳説する。 Hereinafter, the flowchart shown in FIG. 12 will be described in detail.
複数のマイク20が音を検出するまで待機状態となる(S11)。音が到来する(S12)と、複数のマイク20が音を検出し、検出音取得部11が検出音をそれぞれ区別して取得し、検出音方向特定部12が、検出音から音源の音の到来方向を特定し、検出音の到来方向情報を取得する場合(S13、YES)、かつ、検出音の数が1つである場合(S14、YES)、検出音方向特定部12からの検出音の到来方向情報に基づいて、駆動部40を動作し、頭部R20の頭頂部R20aの撮像部50を音の到来方向に向ける。撮像部50は検出音の到来方向を撮像する。(S15)。画像データは人像検出部13に送信される。
It goes into a standby state until the plurality of
人像検出部13は、画像データから人像の存在を検出する場合(S16、YES)、検出音取得有効/無効判断部14は、人像検出の情報に基づいて、検出音の発生方向の検出音(人の音声)の取得を有効とする判断を行い、制御部10(検出音取得部11)は人由来の検出音とする音声データを取得(S17)し、音到来の処理に戻る(S12)。
When the human
ここで、検出音が1つでない場合(S14、NO)、検出音方向特定部12からの各検出音の到来方向情報に基づいて、駆動部40を動作し、頭部R20の頭頂部R20aの撮像部50を検出音の到来方向にそれぞれ向ける。撮像部50は一方の検出音の到来方向のラジオ装置Q(検出対象)および他方の検出音の到来方向のテレビ装置T(検出対象)をそれぞれ撮像する。これらラジオ装置Qを含む画像データ、テレビ装置Tを含む画像データは、人像検出部13に送信される(S21)。
Here, when there is not one detected sound (S14, NO), the driving
人像検出部13は、第1の音到来方向の画像データから人像の存在を検出する場合(S22、YES)、かつ、第2の音到来方向の画像データから人像の存在を検出する場合(S23、YES)、検出音取得有効/無効判断部14は、人像検出部13からの人像検出の情報に基づいて、第1および第2検出音の到来方向の両検出音の取得を無効とする判断を行い、制御部10(検出音取得部11)は音声データを取得せず(S24)、再度音声を取得するために音到来の処理に戻る(S12)。
The human
また、S22の処理において、人像検出部13は、第1の検出音到来方向のラジオ装置Qを含む画像データから人像の存在を検出できない場合(S22、NO)、第2の検出音到来方向のテレビ装置Tを含む画像データから人像の存在を検出できない場合(S25、NO)である。
Further, in the processing of S22, when the human
駆動制御部16は、それぞれの検出音の到来方向が作る角度が特定の角度、例えば150°以上であると判断する場合(S25’、YES)、駆動制御部16は、ロボット本体R10の移動部41を制御する制御情報を生成し、移動部41に送信する。ロボット本体R10は、制御情報に基づいて移動部41の足部R50が駆動されることにより、側方に所定距離移動する(S28)。
When the
S25’の処理において、それぞれの検出音の到来方向が作る角度が特定の角度、例えば150°以上でないと判断する場合(S25’、NO)、検出音取得有効/無効判断部14は、人像未検出の情報に基づいて、第1および第2検出音の到来方向における両検出音の取得を無効とする判断を行い、制御部10の検出音取得部11は音声データを取得せず(S27)、再度音声を取得するために音到来の処理に戻る(S12)。
In the process of S25', when it is determined that the angle created by the arrival direction of each detected sound is not a specific angle, for example, 150 ° or more (S25', NO), the detection sound acquisition valid /
第2の検出音到来方向の画像データから人像の存在を検出する場合(S25、YES)、検出音取得有効/無効判断部14は、人像検出の情報に基づいて、第1の検出音到来方向における検出音の取得を無効とする判断を行い、制御部10(検出音取得部11)は音声データを取得せず(S26)、音到来の処理に戻る(S12)。
When the presence of a human image is detected from the image data in the second detection sound arrival direction (S25, YES), the detection sound acquisition valid /
人像検出部13は、画像データから人像の存在を検出できない場合(S16、NO)、人像検出部13は、第2の検出音到来方向における画像データから人像の存在を検出できない場合(S23、NO)の場合、検出音取得有効/無効判断部14は、人像検出部13からの人像未検出の情報に基づいて、検出音の到来方向の検出音の取得を無効とする判断を行い、制御部10(検出音取得部11)は音声データを取得せず(S26)、音到来の処理に戻る(S12)。
When the human
以上の処理によれば、対話ロボットRは、複数の音源からの検出音でかつ、明らかに人ではない検出音の取得を、複数の音源からの検出音の到来方向軸で形成されるエリアが広域化している場合には、ロボット本体R10が検出音の到来方向軸で形成されるエリアを狭域化するような方向に移動動作し、再度エリアを形成し、そのエリアの音声取得を無効とし、その後、無効化したエリア以外から検出した人の音声を有効に取得することができるので、人が発話した音声の認識精度を向上することができる。 According to the above processing, in the dialogue robot R, the area formed by the arrival direction axis of the detected sounds from the plurality of sound sources is the acquisition of the detected sounds from the plurality of sound sources and clearly not human. When the area is widened, the robot body R10 moves in a direction that narrows the area formed by the arrival direction axis of the detection sound, forms the area again, and invalidates the voice acquisition of that area. After that, since the voice of the person detected from the area other than the invalidated area can be effectively acquired, the recognition accuracy of the voice spoken by the person can be improved.
なお、対話ロボットRは、音声の到来方向に合わせて撮像部50や人感センサー部60を駆動する移動部41を含む駆動部40を搭載していればよく、必ずしも図2に示す人型構造を備える必要はない。例えば、対話ロボットの他の構造としては、円柱構造、三角柱構造、立方体構造、直方体構造および球体構造等であってもよい。
The dialogue robot R may be equipped with a
上述した例では、ノイズ源をテレビ装置Tやラジオ装置Qとしているが、ノイズ源は音が到来すれば、ラジカセ、CDプレーヤー、エアコン、固定電話機などの固定(設置)される機器等、音源等であっても構わないものである。 In the above example, the noise source is the TV device T or the radio device Q, but when the sound arrives, the noise source is a radio cassette player, a CD player, an air conditioner, a fixed (installed) device such as a fixed telephone, a sound source, etc. It doesn't matter.
〔変形例〕
上記各実施形態では、制御部10は対話ロボットRにおいて、記憶部70、マイク20、撮像部50、人感センサー部60、およびスピーカ30と一体に構成されていたが、制御部10と記憶部70、マイク20、撮像部50、人感センサー部60、およびスピーカ30はそれぞれ別個の装置であり、例えば、少なくともマイク20、撮像部50、人感センサー部60、駆動部は同一装置に設けて、制御部10と記憶部70は外部のサーバ等に設けて、同装置と同サーバとを有線または無線通信で接続されてもよい。
[Modification example]
In each of the above embodiments, the
例えば、対話ロボットRは、マイク20およびスピーカ30と、を含んでいても良い。また、対話ロボットRと別のサーバが制御部10および記憶部70を含んでいてもよい。この場合、対話ロボットRはマイク20の検出音をサーバに送信し、サーバからマイク20の音の検出の停止および開始、ならびにスピーカ30の出力に係る指示制御を受けてもよい。
For example, the dialogue robot R may include a
また、本開示は対話ロボットR以外に適用してもよい。例えば、本開示に係る各種構成を、スマートフォン、家電製品、およびパーソナルコンピュータ等において実現してもよい。 Further, the present disclosure may be applied to other than the dialogue robot R. For example, various configurations according to the present disclosure may be realized in smartphones, home appliances, personal computers, and the like.
また、対話ロボットRは、応答を音声出力以外の方法で示してもよい。例えば、応答文テーブルに、応答として対話ロボットRの所定の動作(ジェスチャ等)を指定する情報を予め登録しておいてもよい。そして、制御部は対話ロボットRのモータ等を制御することで、該動作、すなわち応答をユーザに示してもよい。或いは、対話ロボットRに液晶パネル等の表示装置を搭載し、その表示装置に応答する文を表示するようにしてもよい。 Further, the dialogue robot R may indicate the response by a method other than voice output. For example, information that specifies a predetermined operation (gesture or the like) of the dialogue robot R as a response may be registered in advance in the response statement table. Then, the control unit may show the operation, that is, the response to the user by controlling the motor or the like of the interactive robot R. Alternatively, the dialogue robot R may be equipped with a display device such as a liquid crystal panel to display a sentence in response to the display device.
[ソフトウェアによる実現例]
制御部10の制御ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
[Example of realization by software]
The control block of the
後者の場合、制御部10は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。
In the latter case, the
そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。 Then, the object of the present invention is achieved by the computer (or CPU) reading the program from the recording medium and executing the program. As the recording medium, a "non-temporary tangible medium", for example, a tape, a disk, a card, a semiconductor memory, a programmable logic circuit, or the like can be used.
また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。 Further, the program may be supplied to the computer via an arbitrary transmission medium (communication network, broadcast wave, etc.) capable of transmitting the program.
なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。 It should be noted that one aspect of the present invention can also be realized in the form of a data signal embedded in a carrier wave, in which the above program is embodied by electronic transmission.
[まとめ]
本発明の態様1に係る音声認識装置(制御部10)は、複数のマイク(マイク20,20,20)から取得した複数の検出音より音源の音の発生方向を特定する検出音方向特定部(検出音方向特定部12)と、音源の音の発生方向を撮像して取得した撮像データ又は/及び音源の音の発生方向をセンシングして取得したセンサー信号に基づいて、人像を検出する人像検出部(人像検出部13)と、人像検出部から取得した情報を基に、人像が確認できる場合に検出音の取得を有効とする又は人像が確認できない場合に検出音の取得を無効と判断する検出音取得有効/無効判断部(検出音取得有効/無効判断部14)とを備える。
[Summary]
The voice recognition device (control unit 10) according to the first aspect of the present invention is a detected sound direction specifying unit that specifies a sound generation direction of a sound source from a plurality of detected sounds acquired from a plurality of microphones (
前記の構成によれば、音声認識装置は、検出音方向特定部が検出音から音源の音の発生方向を特定し、検出音の発生方向情報に基づいて、音源の音の発生方向を撮像し、又は/及び音源の音の発生方向をセンシングすることができる。人像検出部は、撮像して取得した撮像データ、又は/及びセンシングして取得したセンシング信号に基づいて、人像検出部は人像を検出し、さらに、検出音取得有効/無効判断部は、人像検出部から取得した情報を基に、検出音の取得を有効又は無効と判断するので、到来方向の検出音うち、人由来以外の検出音を取得しない一方で、人由来の検出音を取得することができるため、検出音の到来方向における音が人の発話した音声として高い精度で認識することができる。 According to the above configuration, in the voice recognition device, the detection sound direction specifying unit identifies the sound generation direction of the sound source from the detected sound, and images the sound generation direction of the sound source based on the sound generation direction information of the detected sound. Or / and the sound generation direction of the sound source can be sensed. The human image detection unit detects the human image based on the imaged data acquired by imaging and / and the sensing signal acquired by sensing, and the detection sound acquisition valid / invalid determination unit detects the human image. Based on the information acquired from the department, it is judged that the acquisition of the detected sound is valid or invalid. Therefore, among the detected sounds in the direction of arrival, the detected sounds other than those derived from humans are not acquired, while the detected sounds derived from humans are acquired. Therefore, the sound in the direction of arrival of the detected sound can be recognized with high accuracy as the voice spoken by a person.
本発明の態様2に係る音声認識装置は、前記態様1において、人像検出部からの人像の情報と撮像データとに基づいて、音源の存在を検出する音源検出部(音源検出部15)と、を備えるようにしてもよい。 In the first aspect, the voice recognition device according to the second aspect of the present invention includes a sound source detection unit (sound source detection unit 15) that detects the presence of a sound source based on human image information from the human image detection unit and imaging data. May be provided.
音源検出部は、人像検出部からの人像の情報と撮像データとに基づいて、音源の存在を検出するので、検出音の到来方向に人と人以外の音源を確実に判別して、人由来以外の検出音を取得しない一方で、人由来の検出音を取得することができるため、音声認識の精度を向上することができ、人以外の音に対し誤って応答するという誤動作を防止できる。 Since the sound source detection unit detects the existence of the sound source based on the information of the human image from the human image detection unit and the imaging data, it reliably discriminates between a person and a non-human sound source in the direction of arrival of the detected sound, and is derived from a person. Since it is possible to acquire the detected sound derived from a human while not acquiring the detected sound other than the above, the accuracy of voice recognition can be improved, and the malfunction of erroneously responding to the sound other than the human can be prevented.
本発明の態様3に係る音声認識装置は、前記態様2において、音源検出部からの情報に基づいて、駆動部(駆動部40)を制御する駆動制御部(駆動制御部16)と、を備えるようにしてもよい。 The voice recognition device according to the third aspect of the present invention includes a drive control unit (drive control unit 16) that controls the drive unit (drive unit 40) based on the information from the sound source detection unit in the second aspect. You may do so.
前記の構成によれば、音源と人とが同じ方向に居る場合においても、音源検出部からの音源検出の情報に基づいて、駆動部を指定方向へ変更駆動する制御を行うことができる。 According to the above configuration, even when the sound source and the person are in the same direction, it is possible to control the drive unit to be changed and driven in the designated direction based on the sound source detection information from the sound source detection unit.
本発明の態様4に係る音声認識装置は、前記態様1において、音源の音の発生方向に、駆動部(移動部41)を制御する駆動制御部(駆動制御部16)と、を備えるようにしてもよい。 In the first aspect, the voice recognition device according to the fourth aspect of the present invention includes a drive control unit (drive control unit 16) that controls the drive unit (moving unit 41) in the sound generation direction of the sound source. You may.
前記の構成によれば、音源の音の発生方向に、駆動部を移動する制御を行うことができる。 According to the above configuration, it is possible to control the movement of the drive unit in the sound generation direction of the sound source.
本発明の態様5に係る電子機器(対話ロボットR)は、複数のマイクから取得した複数の検出音より音源の音の発生方向を特定する検出音方向特定部と、音源の音の発生方向を撮像して取得した撮像データ又は/及び音源の音の発生方向をセンシングして取得したセンサー信号に基づいて、人像を検出する人像検出部と、人像検出部から取得した情報を基に、人像が確認できる場合に検出音の取得を有効と判断する又は人像が確認できない場合に検出音の取得を無効と判断する検出音取得有効/無効判断部と、を有する音声認識装置(制御部10)と、撮像部を前記音源の音の発生方向に駆動する駆動部(駆動部40)と、を備える。 The electronic device (dialogue robot R) according to the fifth aspect of the present invention has a detection sound direction specifying unit that specifies a sound generation direction of a sound source from a plurality of detected sounds acquired from a plurality of microphones, and a sound generation direction of the sound source. Based on the imaged data acquired by imaging and / and the sensor signal acquired by sensing the sound generation direction of the sound source, the human image is generated based on the human image detection unit that detects the human image and the information acquired from the human image detection unit. A voice recognition device (control unit 10) having a detection sound acquisition valid / invalid judgment unit that determines that the acquisition of the detected sound is valid when it can be confirmed or that the acquisition of the detected sound is invalid when the human image cannot be confirmed. A drive unit (drive unit 40) that drives the image pickup unit in the sound generation direction of the sound source is provided.
前記の構成によれば、駆動部を動作し、撮像部を音源の音(検出音)の到来方向に的確に向けることが可能となり、前記態様1に記載の音声認識装置と同様の効果を奏する。 According to the above configuration, the drive unit can be operated to accurately direct the image pickup unit in the direction of arrival of the sound (detection sound) of the sound source, and the same effect as that of the voice recognition device according to the first aspect can be obtained. ..
本発明の態様6に係る音声認識装置の制御方法は、複数のマイクから取得した複数の検出音より音源の音の発生方向を特定する検出音方向特定ステップ(S3)と、音源の音の発生方向を撮像して取得した撮像データ又は/及び音源の音の発生方向をセンシングして取得したセンサー信号に基づいて、人像を検出する人像検出ステップ(S5)と、人像検出ステップから取得した情報を基に、人像が確認できる場合に人由来の検出音の取得を有効と判断する又は人像が確認できない場合に人由来以外の検出音の取得を無効と判断する検出音取得有効/無効判断ステップ(S6,S7)と、を含む。前記の処理によれば、前記態様1に記載の音声認識装置と同様の効果を奏する。 The control method of the voice recognition device according to the sixth aspect of the present invention includes a detection sound direction specifying step (S3) for specifying a sound generation direction of a sound source from a plurality of detected sounds acquired from a plurality of microphones, and a sound generation of the sound source. Based on the imaged data acquired by imaging the direction and / or the sensor signal acquired by sensing the sound generation direction of the sound source, the human image detection step (S5) for detecting the human image and the information acquired from the human image detection step are obtained. Based on this, the detection sound acquisition valid / invalid judgment step (which determines that the acquisition of the human-derived detection sound is valid when the human image can be confirmed, or determines that the acquisition of the non-human-derived detection sound is invalid when the human image cannot be confirmed. S6, S7) and. According to the above processing, the same effect as that of the voice recognition device according to the first aspect is obtained.
本発明の各態様に係る音声認識装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記音声認識装置が備える各部(ソフトウェア要素)として動作させることにより上記音声認識装置をコンピュータにて実現させる音声認識装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。 The voice recognition device according to each aspect of the present invention may be realized by a computer. In this case, the voice recognition device is made into a computer by operating the computer as each part (software element) included in the voice recognition device. The control program of the voice recognition device and the computer-readable recording medium on which the control program is recorded are also included in the scope of the present invention.
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。 The present invention is not limited to the above-described embodiments, and various modifications can be made within the scope of the claims, and the embodiments obtained by appropriately combining the technical means disclosed in the different embodiments. Is also included in the technical scope of the present invention. Furthermore, new technical features can be formed by combining the technical means disclosed in each embodiment.
R 対話ロボット(電子機器)
R10 ロボット本体
R20 頭部
R20a 頭頂部
R20b 前頭部
R20c 後頭部
R21 眼部
R30 胴体部
R40 腕部
R50 足部
10 制御部(音声認識装置)
11 検出音取得部
12 検出音方向特定部
13 人像検出部
14 検出音取得有効/無効判断部
15 音源検出部
16 駆動制御部
18 検出制御部
19 出力制御部
20 マイク
30 スピーカ
40 駆動部
41 移動部
50 撮像部
60 人感センサー部
70 記憶部
P 人
Q ラジオ装置
T テレビ装置
R Dialogue robot (electronic device)
R10 Robot body R20 Head R20a Head R20b Frontal R20c Back of the head R21 Eyes R30 Body R40
11 Detection
Claims (7)
前記音源の音の発生方向を撮像して取得した撮像データ又は/及び前記音源の音の発生方向をセンシングして取得したセンサー信号に基づいて、人像を検出する人像検出部と、
前記人像検出部から取得した情報を基に、前記人像が確認できる場合に前記複数の検出音の取得を有効と判断する又は前記人像が確認できない場合に前記複数の検出音の取得を無効と判断する検出音取得有効/無効判断部と、を備える、音声認識装置。 A detection sound direction identification unit that specifies the sound generation direction of the sound source from multiple detection sounds acquired from multiple microphones,
A human image detection unit that detects a human image based on the imaging data acquired by imaging the sound generation direction of the sound source and / or the sensor signal acquired by sensing the sound generation direction of the sound source.
Based on the information acquired from the human image detection unit, it is determined that the acquisition of the plurality of detected sounds is valid when the human image can be confirmed, or the acquisition of the plurality of detected sounds is invalid when the human image cannot be confirmed. A voice recognition device including a detection sound acquisition valid / invalid judgment unit.
請求項1に記載の音声認識装置。 A sound source detection unit that detects the presence of the sound source based on the information acquired from the human image detection unit and the imaging data is provided.
The voice recognition device according to claim 1.
請求項1に記載の音声認識装置。 A drive control unit that controls the drive unit is provided in the sound generation direction of the sound source.
The voice recognition device according to claim 1.
撮像部と、
駆動部と、
センサーと、
制御部を有し、
制御部は複数のマイクから取得した複数の検出音より音源の音の発生方向を特定し、
前記音源の音の発生方向を撮像して取得した撮像データ又は/及び前記音源の音の発生方向をセンシングして取得したセンサーからの信号に基づいて、人像を検出し、
前記人像検出部から取得した情報を基に、前記人像が確認できる場合に前記複数の検出音の取得を有効と判断する又は前記人像が確認できない場合に前記複数の検出音の取得を無効と判断する検出音取得有効/無効を判断する、
電子機器。 With multiple microphones
Imaging unit and
With the drive unit
With the sensor
Has a control unit
The control unit identifies the sound generation direction of the sound source from multiple detected sounds acquired from multiple microphones.
A human image is detected based on the imaging data acquired by imaging the sound generation direction of the sound source and / or the signal from the sensor acquired by sensing the sound generation direction of the sound source.
Based on the information acquired from the human image detection unit, it is determined that the acquisition of the plurality of detected sounds is valid when the human image can be confirmed, or the acquisition of the plurality of detected sounds is invalid when the human image cannot be confirmed. To determine whether the detection sound acquisition is valid / invalid,
Electronics.
前記音源の音の発生方向を撮像して取得した撮像データ又は/及び前記音源の音の発生方向をセンシングして取得したセンサー信号に基づいて、人像を検出する人像検出ステップと、
人像検出ステップから取得した情報を基に、前記人像が確認できる場合に前記複数の検出音の取得を有効と判断する又は前記人像が確認できない場合に前記複数の検出音の取得を無効と判断する検出音取得有効/無効判断ステップと、
を含む、音声認識装置の制御方法。 A detection sound direction identification step that identifies the sound generation direction of the sound source from multiple detection sounds acquired from multiple microphones,
A human image detection step for detecting a human image based on the imaging data acquired by imaging the sound generation direction of the sound source and / or the sensor signal acquired by sensing the sound generation direction of the sound source.
Based on the information acquired from the human image detection step, it is determined that the acquisition of the plurality of detected sounds is valid when the human image can be confirmed, or it is determined that the acquisition of the plurality of detected sounds is invalid when the human image cannot be confirmed. Detection sound acquisition valid / invalid judgment step and
A method of controlling a voice recognition device, including.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019138676A JP2021021852A (en) | 2019-07-29 | 2019-07-29 | Voice recognition device, electronic apparatus, control method and control program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019138676A JP2021021852A (en) | 2019-07-29 | 2019-07-29 | Voice recognition device, electronic apparatus, control method and control program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021021852A true JP2021021852A (en) | 2021-02-18 |
Family
ID=74573253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019138676A Pending JP2021021852A (en) | 2019-07-29 | 2019-07-29 | Voice recognition device, electronic apparatus, control method and control program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021021852A (en) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004230480A (en) * | 2003-01-28 | 2004-08-19 | Sony Corp | Robot device and robot control method, recording medium, and program |
JP2004283927A (en) * | 2003-03-20 | 2004-10-14 | Sony Corp | Robot control device, and method, recording medium and program |
JP2004357915A (en) * | 2003-06-04 | 2004-12-24 | Matsushita Electric Ind Co Ltd | Sensing toy |
JP2005250397A (en) * | 2004-03-08 | 2005-09-15 | Nec Corp | Robot |
JP2017211608A (en) * | 2016-05-27 | 2017-11-30 | トヨタ自動車株式会社 | Voice interactive device and voice interactive method |
WO2018043235A1 (en) * | 2016-08-29 | 2018-03-08 | Groove X株式会社 | Autonomous behavior type robot recognizing direction of sound source |
WO2019142418A1 (en) * | 2018-01-22 | 2019-07-25 | ソニー株式会社 | Information processing device and information processing method |
-
2019
- 2019-07-29 JP JP2019138676A patent/JP2021021852A/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004230480A (en) * | 2003-01-28 | 2004-08-19 | Sony Corp | Robot device and robot control method, recording medium, and program |
JP2004283927A (en) * | 2003-03-20 | 2004-10-14 | Sony Corp | Robot control device, and method, recording medium and program |
JP2004357915A (en) * | 2003-06-04 | 2004-12-24 | Matsushita Electric Ind Co Ltd | Sensing toy |
JP2005250397A (en) * | 2004-03-08 | 2005-09-15 | Nec Corp | Robot |
JP2017211608A (en) * | 2016-05-27 | 2017-11-30 | トヨタ自動車株式会社 | Voice interactive device and voice interactive method |
WO2018043235A1 (en) * | 2016-08-29 | 2018-03-08 | Groove X株式会社 | Autonomous behavior type robot recognizing direction of sound source |
WO2019142418A1 (en) * | 2018-01-22 | 2019-07-25 | ソニー株式会社 | Information processing device and information processing method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6243683B1 (en) | Video control of speech recognition | |
JP6504808B2 (en) | Imaging device, setting method of voice command function, computer program, and storage medium | |
KR102481454B1 (en) | Hands free device with directional interface | |
US9084038B2 (en) | Method of controlling audio recording and electronic device | |
JP5456832B2 (en) | Apparatus and method for determining relevance of an input utterance | |
US11152001B2 (en) | Vision-based presence-aware voice-enabled device | |
US11699442B2 (en) | Methods and systems for speech detection | |
JP2012040655A (en) | Method for controlling robot, program, and robot | |
CN107920263A (en) | Volume adjusting method and device | |
CN106898360B (en) | Audio signal processing method and device and electronic equipment | |
JP2007221300A (en) | Robot and control method of robot | |
US20240096132A1 (en) | Multi-modal far field user interfaces and vision-assisted audio processing | |
US20180217985A1 (en) | Control method of translation device, translation device, and non-transitory computer-readable recording medium storing a program | |
US11216655B2 (en) | Electronic device and controlling method thereof | |
WO2021213490A1 (en) | Identity verification method and apparatus and electronic device | |
KR102115222B1 (en) | Electronic device for controlling sound and method for operating thereof | |
JP3838159B2 (en) | Speech recognition dialogue apparatus and program | |
JP2021021852A (en) | Voice recognition device, electronic apparatus, control method and control program | |
JP2018075657A (en) | Generating program, generation device, control program, control method, robot device and telephone call system | |
JP6845121B2 (en) | Robots and robot control methods | |
JP2022060288A (en) | Control device, robot, control method, and program | |
KR20200058354A (en) | Electronic device for controlling sound and method for operating thereof | |
US10796711B2 (en) | System and method for dynamic optical microphone | |
KR102632388B1 (en) | Electronice device and control method thereof | |
TWI792207B (en) | Method for filtering operation noise of lens and recording system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220323 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230307 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230314 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230912 |