JP2020185630A - Control device, robot, control method and control program - Google Patents
Control device, robot, control method and control program Download PDFInfo
- Publication number
- JP2020185630A JP2020185630A JP2019090756A JP2019090756A JP2020185630A JP 2020185630 A JP2020185630 A JP 2020185630A JP 2019090756 A JP2019090756 A JP 2019090756A JP 2019090756 A JP2019090756 A JP 2019090756A JP 2020185630 A JP2020185630 A JP 2020185630A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- robot
- unit
- control device
- sound source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J13/00—Controls for manipulators
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J13/00—Controls for manipulators
- B25J13/08—Controls for manipulators by means of sensing devices, e.g. viewing or touching devices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
Abstract
Description
本開示は、制御装置、ロボット、制御方法及び制御プログラムに関する。 The present disclosure relates to control devices, robots, control methods and control programs.
従来より、ユーザの音声指示に基づいて動作するロボットが知られている。一例として、ユーザが発話した際に、マイクを適切な位置に移動させることで、ユーザの音声を適切な音圧で検出するロボットが挙げられる。 Conventionally, robots that operate based on a user's voice instruction have been known. One example is a robot that detects the user's voice at an appropriate sound pressure by moving the microphone to an appropriate position when the user speaks.
しかしながら、このようなロボットであっても、例えば、ユーザの音声以外の音(ロボット自身が発する音や周囲の音)が大きい場合には、ユーザの音声を検出できないことがある。 However, even with such a robot, for example, when a sound other than the user's voice (a sound emitted by the robot itself or an ambient sound) is loud, the user's voice may not be detected.
本開示は、ユーザの音声指示に基づいて動作するロボットにおいて、音声検出率を向上させることを目的とする。 An object of the present disclosure is to improve the voice detection rate in a robot that operates based on a user's voice instruction.
本開示の一態様による制御装置は、例えば、以下のような構成を有する。即ち、
取得した画像データに基づいて、ユーザの口唇動作を検出する口唇動作検出部と、
取得した音データから、音声データを検出する音声検出部と、
前記口唇動作検出部が前記ユーザの口唇動作を検出した場合であって、前記音声検出部が音声データを検出しなかった場合に、音源が発する音を低減させるよう指示する指示部とを有する。
The control device according to one aspect of the present disclosure has, for example, the following configuration. That is,
A lip motion detection unit that detects the user's lip motion based on the acquired image data,
A voice detector that detects voice data from the acquired sound data,
It has an instruction unit for instructing to reduce the sound emitted by the sound source when the lip motion detection unit detects the user's lip motion and the voice detection unit does not detect the voice data.
以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。 Hereinafter, each embodiment will be described with reference to the accompanying drawings. In the present specification and the drawings, components having substantially the same functional configuration are designated by the same reference numerals, so that duplicate description will be omitted.
[第1の実施形態]
<ロボットの外観構成>
はじめに、本実施形態に係る制御装置の制御対象であるロボットの外観構成について説明する。図1は、ロボットの外観構成の一例を示す図である。
[First Embodiment]
<Appearance configuration of robot>
First, the appearance configuration of the robot to be controlled by the control device according to the present embodiment will be described. FIG. 1 is a diagram showing an example of the appearance configuration of the robot.
ロボット10は、ユーザの音声指示に基づいて動作する。図1に示すように、ロボット10は、カメラ110と、マイクロフォン120と、スピーカ130、131と、可動部140、150(複数の関節、エンドエフェクタ)と、可動部160(移動機構)とを有する。また、ロボット10は、制御装置100を内蔵する。ただし、制御装置100は、ロボット10に内蔵させずに、別のコンピュータで実現してもよい。その場合、別のコンピュータは、通信によりロボット10との間で情報の送受信を行う。
The
カメラ110は撮像装置(撮像部)の一例であり、ロボット10の周囲を撮影し、画像データを生成する。なお、図1の例では、カメラ110が2つの撮像素子を有する場合について示しているが、撮像素子は2つに限定されない。また、図1の例は、カメラ110がロボット10に搭載される場合について示しているが、カメラ110は、ロボット10とは別体に配されていてもよい。
The
マイクロフォン120は集音装置(集音部)の一例であり、空気などを伝播してくる音を検出し、音データを生成する。マイクロフォン120が検出する音には、ロボット10の周囲の環境音のほか、ロボット10自身が発する音、ロボット10のユーザが発する音声等が含まれる。なお、図1の例では、1つのマイクロフォン120のみを示したが、ロボット10は、複数のマイクロフォンを有していてもよい。
The
スピーカ130、131は音声出力装置の一例であり、制御装置100において生成された音声信号に基づく合成音声等を出力する。
The
可動部140、150は、ロボット10が行う各種作業(例えば、ユーザとコミュニケーションをとりながら、物体を把持し、把持した状態で移動することで、当該物体を目的の場所まで運ぶ作業等)において、把持動作等を実行する。可動部140、150に含まれる複数の関節及びエンドエフェクタは、それぞれ、アクチュエータを備える。
The
可動部160は、ロボット10が行う各種作業において、移動動作等を実行する。可動部160に含まれる移動機構は、車輪、モータ、ギア、ベルト、アクチュエータ等を備える。
The
制御装置100は、カメラ110やマイクロフォン120の動作、スピーカ130、131の出力、可動部140、150のアクチュエータ等の動作、可動部160のモータ、アクチュエータ等の動作を制御する制御部102を有する。制御部102は、ユーザとコミュニケーションをとりながら、ロボット10に把持動作や移動動作等を実行させる。
The
また、制御装置100は、制御部102に対して音源制御命令を出力する停止部101を有する。停止部101は、ロボット10により各種作業が行われている最中に、スピーカ130、131や可動部140〜160が発する音(ロボット10自身が発する音)が原因でユーザの音声を検出できない場合に、制御部102に音源制御命令を出力する。なお、停止部101では、ロボット10により各種作業が行われているか否かを、作業中フラグに基づいて判定する。
Further, the
これにより、制御部102では、例えば、音源であるスピーカ130、131の出力や可動部140〜160のアクチュエータ、モータ等の動作を制御し、ユーザの音声が検出しやすい状態を作り出す。この結果、ユーザの音声指示に基づいて動作するロボット10において、音声検出率を向上させることができる。
As a result, the
<制御装置のハードウェア構成>
次に、ロボット10に内蔵される制御装置100のハードウェア構成について説明する。図2は、制御装置のハードウェア構成の一例を示す第1の図である。
<Hardware configuration of control device>
Next, the hardware configuration of the
図2に示すように、制御装置100は、プロセッサ201と、主記憶装置202と、補助記憶装置203と、デバイスインタフェース204と、通信装置205とを備え、これらの各構成要素がバス210を介して接続されたコンピュータとして実現される。
As shown in FIG. 2, the
なお、図2の例では、制御装置100は、各構成要素を1個ずつ備えているが、同じ構成要素を複数個ずつ備えていてもよい。また、図2の例では、1台の制御装置が示されているが、複数台の制御装置を配し、ソフトウェア(例えば、後述する制御プログラム)が当該複数台の制御装置にインストールされて、各制御装置がソフトウェアの異なる一部の処理を実行するように構成してもよい。この場合、複数の制御装置それぞれがネットワークインタフェース等を介して、相互に通信してもよい。
In the example of FIG. 2, the
プロセッサ201は、演算装置を含む電子回路(処理回路、Processing circuit、Processing circuitry)である。プロセッサ201は、制御装置100内の各構成要素などから入力されたデータやプログラムに基づいて演算処理を行い、演算結果や制御信号を各構成要素などに出力する。具体的には、プロセッサ201は、OS(Operating System)やアプリケーションなどを実行することにより、制御装置100内の各構成要素を制御する。なお、プロセッサ201は、上記のような処理を行うことができれば特定の処理回路に限られるものではない。ここで、処理回路とは、1チップ上に配置された1又は複数の電子回路を指してもよいし、2つ以上のチップあるいはデバイス上に配置された1又は複数の電子回路を指してもよい。複数の電子回路を用いる場合、各電子回路は有線または無線により通信してもよい。
The
主記憶装置202は、プロセッサ201が実行する命令およびデータなどの電子情報を記憶する記憶装置である。主記憶装置202に記憶された電子情報はプロセッサ201により直接読み出される。補助記憶装置203は、主記憶装置202以外の記憶装置である。なお、これらの記憶装置は、電子情報を記憶可能な任意の電子部品を意味するものとし、メモリでもストレージでもよい。また、メモリには、揮発性メモリと、不揮発性メモリがあるが、いずれであってもよい。制御装置100内において電子情報を保存するためのメモリは、主記憶装置202または補助記憶装置203により実現されてもよい。
The
デバイスインタフェース204は、ロボット10が有するカメラ110、マイクロフォン120、スピーカ130、131、可動部140〜160と接続するUSB(Universal Serial Bus)などのインタフェースである。
The
通信装置205は、ロボット10の外部の各種機器と通信を行う通信デバイスである。ロボット10は、通信装置205を介して、ロボット10の外部の各種機器に命令を送信し、外部の各種機器を制御する。
The
<制御装置の機能構成>
次に、ロボット10に内蔵される制御装置100の機能構成について説明する。上述したとおり、制御装置100には制御プログラムがインストールされており、プロセッサ201が、当該プログラムを実行することで、制御装置100は、停止部101及び制御部102として機能する。なお、制御装置100が実現するこれらの構成のうち、ここでは、主に停止部101の機能について説明する。
<Functional configuration of control device>
Next, the functional configuration of the
図3は、制御装置の機能構成の一例を示す第1の図である。図3に示すように、停止部101は、音取得部301、音声検出部302、画像取得部303、顔検出部304、口唇動作検出部305、判定部306を有する。停止部101は、ロボット10が各種作業中であることを示す作業中フラグを制御部102から受信している間、各部が機能する。
FIG. 3 is a first diagram showing an example of the functional configuration of the control device. As shown in FIG. 3, the
音取得部301は、マイクロフォン120により生成された音データを取得し、音声検出部302に出力する。
The
音声検出部302は、音取得部301により出力された音データを受け取り、受け取った音データに音声データが含まれるか否かを判定する。また、音声検出部302は、受け取った音データに音声データが含まれると判定した場合、音声データを検出し、検出した音声データを判定部306に出力する。
The
画像取得部303は、カメラ110により出力された画像データを取得し、顔検出部304に出力する。
The
顔検出部304は、画像取得部303により出力された画像データを受け取り、カメラ110の方向を向いたユーザの顔を検出し、検出した顔の画像(顔画像データ)を切り出す。また、顔検出部304は、切り出した顔画像データを口唇動作検出部305に出力する。
The
口唇動作検出部305は、顔画像データに含まれる口唇領域から、ユーザの口唇動作を検出する。また、口唇動作検出部305は、口唇動作の検出結果を判定部306に出力する。
The lip
判定部306は指示部の一例である。音声検出部302により音声データが検出されたか否か、及び、口唇動作検出部305より口唇動作の検出結果が出力されたか否かを判定する。また、判定部306は、口唇動作検出部305より口唇動作の検出結果が出力されたにも関わらず、音声検出部302により音声データが検出されていない場合に、制御部102に対して、音源制御命令を出力することで、音源が発する音を低減させるよう指示する。
The
なお、判定部306は、口唇動作検出部305より口唇動作の検出結果が出力され、音声検出部302により音声データが検出された場合には、制御部102に対して、検出された音声データを出力する。
The
制御部102は、判定部306により出力された音源制御命令を受け取ると、スピーカ130、131や可動部140〜160等に動作停止信号を出力する。そして、音源であるスピーカ130、131の出力や可動部140〜160のアクチュエータ、モータ等の動作を制御する。これにより、制御部102は、音声データの検出を妨げる音源が発する音を低減させ、音声データを検出しやすい状態を作り出すことができる。
When the
一方、制御部102は、判定部306により出力された音声データを受け取ると、受け取った音声データに基づいて、ユーザの音声指示を認識する。また、制御部102は、認識した音声指示に基づいて、カメラ110、マイクロフォン120、スピーカ130、131、可動部140〜160等に動作信号を出力する。そして、カメラ110やマイクロフォン120の動作、スピーカ130、131の出力、可動部140〜160のアクチュエータ、モータ等の動作を制御する。これにより、制御部102は、ユーザの音声指示に基づいて、カメラ110やマイクロフォン120の動作、スピーカ130、131の出力、可動部140〜160等の動作を制御することができる。
On the other hand, when the
<動作制御処理の流れ>
次に、制御装置100による動作制御処理の流れについて説明する。図4は、制御装置による動作制御処理の流れを示す第1のフローチャートである。
<Flow of operation control processing>
Next, the flow of the operation control process by the
ステップS401において、停止部101は、ロボット10が作業中であるか否かを判定する。制御部102から作業中フラグを受信していない場合、停止部101は、ロボット10が作業中でないと判定し(ステップS401においてNoと判定し)、動作制御処理を終了する。
In step S401, the
一方、制御部102から作業中フラグを受信している場合、停止部101は、ロボット10が作業中であると判定し(ステップS401においてYesと判定し)、ステップS402に進む。
On the other hand, when the working flag is received from the
ステップS402において、画像取得部303は、カメラ110から画像データを取得する。
In step S402, the
ステップS403において、顔検出部304は、取得された画像データから、カメラ110の方向を向いたユーザの顔を検出したか否かを判定する。ステップS403において、ユーザの顔を検出しなかった場合には(ステップS403においてNoの場合には)、ステップS401に戻る。
In step S403, the
一方、ステップS403において、ユーザの顔を検出した場合には(ステップS403においてYesの場合)、顔検出部304は、顔画像データを切り出し、ステップS404に進む。
On the other hand, when the user's face is detected in step S403 (Yes in step S403), the
ステップS404において、口唇動作検出部305は、切り出された顔画像データに基づいて口唇動作を検出したか否かを判定する。ステップS404において、口唇動作を検出しなかった場合には(ステップS404においてNoの場合には)、ステップS401に戻る。
In step S404, the lip
一方、ステップS404において、口唇動作を検出した場合には(ステップS404においてYesの場合には)、ステップS405に進む。 On the other hand, if the lip movement is detected in step S404 (if Yes in step S404), the process proceeds to step S405.
なお、ステップS403において、ユーザの顔を複数検出した場合には、口唇動作検出部305は、ステップS404の処理を、検出された顔の数に応じた回数だけ繰り返し実行する。また、ステップS404において、口唇動作を1つでも検出した場合には、ステップS405に進む。
When a plurality of user faces are detected in step S403, the lip
ステップS405において、音取得部301は、マイクロフォン120から音データを取得する。
In step S405, the
ステップS406において、音声検出部302は、取得された音データに音声データが含まれるか否かを判定する。ステップS406において、取得された音データに音声データが含まれると判定された場合、音声検出部302は、音声データを検出する(ステップS406においてYes)。また、判定部306は、検出された音声データを制御部102に出力した後、ステップS401に戻る。
In step S406, the
この場合、制御部102では、検出された音声データに基づいて、ユーザの音声指示を認識し、認識した音声指示に基づく動作信号を、カメラ110、マイクロフォン120、スピーカ130、131、可動部140〜160等に出力する。そして、カメラ110やマイクロフォン120の動作、スピーカ130、131の出力、可動部140〜160等の動作を制御する。これにより、制御部102は、カメラ110やマイクロフォン120の動作、スピーカ130、131の出力、可動部140〜160のアクチュエータ、モータ等の動作を、ユーザの音声指示に基づいて制御することができる。
In this case, the
一方、ステップS406において、取得された音データに音声データが含まれないと判定された場合、音声検出部302は、音声データを検出しないため(ステップS406においてNo)、ステップS407に進む。
On the other hand, if it is determined in step S406 that the acquired sound data does not include the voice data, the
ステップS407において、判定部306は、音源制御命令を制御部102に出力する。また、制御部102は、動作停止信号を、スピーカ130、131や可動部140〜160等に出力する。そして、音源であるスピーカ130、131の出力や可動部140〜160等の動作を制御する。具体的には、制御部102は、ユーザの音声指示に対する反応以外の合成音声をスピーカ130、131から出力するのを停止させる、あるいは、スピーカ130、131から音楽を出力するのを停止させる、あるいは、可動部140〜160等の動作を停止させる。
In step S407, the
なお、図4の例では、ステップS402からステップS406までの処理を、順に実行する場合について示したが、ステップS402からステップS404までの処理と、ステップS405からステップS406までの処理とは、並行して実行されてもよい。 In the example of FIG. 4, the case where the processes from step S402 to step S406 are executed in order is shown, but the processes from step S402 to step S404 and the processes from step S405 to step S406 are performed in parallel. May be executed.
その場合、判定部306がステップS407の処理を実行する前に同期処理を行い、口唇動作を検出した場合であって、かつ、音声データを検出しなかった場合にのみ、判定部306がステップS407の処理を実行するように構成する。
In that case, the
また、図4の例では、ステップS406において、音声データを検出した場合、ステップS401に戻るものとして説明した。しかしながら、音声データを検出した場合であっても、制御部102が、当該音声データから音声指示を認識できない、または、その確信度が低い(例えば、所定の閾値以下)と判定した場合には、音声データが検出されなかった場合と同様な制御を行ってもよい。この場合、判定部406は、ステップS407に進み、音源制御命令を出力するように構成してもよい。
Further, in the example of FIG. 4, when the voice data is detected in step S406, it is described as returning to step S401. However, even when the voice data is detected, if the
このように構成することで、制御部102は、
・音データからの音声データの検出状況、または
・検出した音声データの認識状況(例えば、音声認識のスコア(尤度情報))、
に基づいて、動作停止信号を出力することが可能となる。
With this configuration, the
-Detection status of voice data from sound data, or recognition status of detected voice data (for example, voice recognition score (probability information)),
It becomes possible to output an operation stop signal based on.
また、図4の例では、ステップS407において判定部306が音源制御命令を出力した際、制御部102が、スピーカ130、131や可動部140〜160等に動作停止信号を出力するものとして説明した。しかしながら、制御部102は、スピーカ130、131に音量を下げるための信号を出力したり、可動部140〜160等に可動部140〜160等の動作速度を落とすための減速信号を出力してもよい。これにより、制御部102は、スピーカ130、131の音量を下げたり、可動部140〜160等の動作を減速させることができる。
Further, in the example of FIG. 4, when the
また、図4の例では省略したが、顔画像データに基づいて口唇動作を検出しなかった場合であっても、音声検出部302が音声データを検出した場合には、判定部306は、検出された音声データを制御部102に出力するように構成してもよい。
Further, although omitted in the example of FIG. 4, even when the lip movement is not detected based on the face image data, when the
<まとめ>
以上の説明から明らかなように、第1の実施形態に係る制御装置100は、
・取得した画像データに基づいて、ユーザの口唇動作を検出する。
・取得した音データから音声データを検出する。
・ユーザの口唇動作を検出した場合であって、音声データを検出しなかった場合、動作停止信号(または音量を下げるための信号、減速信号)を出力する。あるいは、
・ユーザの口唇動作を検出し、かつ、音声データを検出した場合であって、音声データを認識した際の尤度情報が所定の閾値以下であった場合、動作停止信号(または音量を下げるための信号、減速信号)を出力する。
・そして、スピーカの出力や可動部等の動作を制御する(またはスピーカの出力を停止させる、音量を下げる、可動部等の動作を停止させる、減速させる)ことで、音源であるスピーカや可動部が発する音を低減させる。
<Summary>
As is clear from the above description, the
-Detects the user's lip movement based on the acquired image data.
-Detects voice data from the acquired sound data.
-When the user's lip movement is detected and no voice data is detected, an operation stop signal (or a signal for lowering the volume, a deceleration signal) is output. Or
-When the user's lip movement is detected and the voice data is detected, and the likelihood information when the voice data is recognized is equal to or less than a predetermined threshold value, the movement stop signal (or to lower the volume) Signal, deceleration signal) is output.
-And by controlling the output of the speaker and the operation of the moving parts (or stopping the output of the speaker, lowering the volume, stopping the operation of the moving parts, decelerating), the speaker and moving parts that are sound sources Reduces the sound emitted by.
これにより、第1の実施形態に係る制御装置100では、音声データを検出しやすい状態を作り出すことができる。この結果、第1の実施形態に係る制御装置100によれば、ユーザの音声指示に基づいて動作するロボットにおいて、音声検出率を向上させることができる。
As a result, the
[第2の実施形態]
上記第1の実施形態では、制御装置100が、動作制御処理として、音声データを検出しやすい状態を作り出す処理を実行したが、第2の実施形態では、更に、制御装置100が、当該状態のもとで音声指示の発話を促す処理を実行する。以下、第2の実施形態について、上記第1の実施形態との相違点を中心に説明する。
[Second Embodiment]
In the first embodiment, the
<制御装置の機能構成>
はじめに、第2の実施形態に係る制御装置100の機能構成について説明する。図5は、制御装置の機能構成の一例を示す第2の図である。図3に示した機能構成との相違点は、判定部500の機能及び制御部510の機能が、図3の判定部306の機能及び制御部102の機能とは異なる点である。
<Functional configuration of control device>
First, the functional configuration of the
判定部500は指示部の一例であり、音声検出部302により音声データが検出されたか否か、及び、口唇動作検出部305より口唇動作の検出結果が出力されたか否かを判定する。また、判定部500は、口唇動作検出部305より口唇動作の検出結果が出力されたにも関わらず、音声検出部302により音声データが検出されていない場合に、制御部510に対して、音源制御命令と再発声指示とを出力する。これにより、判定部500は、音源が発する音を低減させるよう指示するとともに、音声指示の発話を促すよう指示する。
The
なお、判定部500は、図3の判定部306同様、口唇動作検出部305より口唇動作の検出結果が出力され、音声検出部302により音声データが検出された場合には、制御部510に対して、音声データを出力する。
Similar to the
制御部510は、判定部500により出力された音源制御命令を受け取ると、スピーカ130、131や可動部140〜160等に動作停止信号を出力する。そして、音源であるスピーカ130、131や可動部140〜160のアクチュエータ、モータ等の動作を停止させる。これにより、制御部510は、音声データの検出を妨げる音源が発する音を低減させ、音声データを検出しやすい状態を作り出すことができる。
When the
また、制御部510は、判定部500により出力された再発声指示を受け取ると、音声指示の発話を促す音声出力信号を生成し、生成した音声出力信号に基づく合成音声を、スピーカ130、131を介して出力する。音声指示の発話を促す音声出力信号とは、例えば、「もう一度話してください」といった合成音声を出力するための音声出力信号である。これにより、制御部510は、音声データを検出しやすい状態のもとで、ユーザに音声指示の発話を促すことができる。
Further, when the
<動作制御処理の流れ>
次に、第2の実施形態に係る制御装置100による動作制御処理の流れについて説明する。図6は、制御装置による動作制御処理の流れを示す第2のフローチャートである。図4に示すフローチャートとの相違点は、ステップS601である。
<Flow of operation control processing>
Next, the flow of the operation control process by the
ステップS601において、制御部510は、音声指示の発話を促す音声出力信号を生成し、生成した音声出力信号に基づく合成音声を、スピーカ130、131を介して出力する。
In step S601, the
<まとめ>
以上の説明から明らかなように、第2の実施形態に係る制御装置100は、上記第1の実施形態に係る制御装置100の構成に加えて、更に、音声指示の発話を促す構成を有する。
<Summary>
As is clear from the above description, the
これにより、第2の実施形態に係る制御装置100では、音声データを検出しやすい状態のもとで、ユーザの音声指示を受け取ることができる。この結果、第2の実施形態に係る制御装置100によれば、ユーザの音声指示に基づいて動作するロボットにおいて、音声検出率を向上させることができる。
As a result, the
[第3の実施形態]
上記第1の実施形態では、制御装置100が、動作制御処理として、音声データを検出しやすい状態を作り出す処理を実行したが、第3の実施形態では、更に、制御装置100が、当該状態のもとでユーザの音声指示の有無を判定する。以下、第3の実施形態について、上記第1の実施形態との相違点を中心に説明する。
[Third Embodiment]
In the first embodiment, the
<制御装置の機能構成>
はじめに、第3の実施形態に係る制御装置100の機能構成について説明する。図7は、制御装置の機能構成の一例を示す第3の図である。図3に示した機能構成との相違点は、判定部700の機能及び制御部710の機能が、図3の判定部306の機能及び制御部102の機能とは異なる点である。
<Functional configuration of control device>
First, the functional configuration of the
判定部700は指示部の一例であり、音声検出部302により音声データが検出されたか否か、及び、口唇動作検出部305より口唇動作の検出結果が出力されたか否かを判定する。また、判定部700は、口唇動作検出部305より口唇動作の検出結果が出力されたにも関わらず、音声検出部302により音声データが検出されていない場合に、制御部710に対して、音源制御命令を出力する。これにより、判定部700は、音源が発する音を低減させるよう指示する。
The
更に、判定部700は、音源制御命令を出力した後の所定時間の間に、音声検出部302により音声データが検出されなかった場合に、制御部710に動作再開指示を出力することで、音源制御命令を出力する前の動作を再開するよう指示する。また、判定部700は、音源制御命令を出力した後の所定時間の間に、音声検出部302により音声データが検出された場合に、制御部710に音声データを出力する。
Further, the
なお、判定部700は、図3の判定部306同様、口唇動作検出部305より口唇動作の検出結果が出力され、音声検出部302により音声データが検出された場合、制御部710に対して、音声データを出力する。
Similar to the
制御部710は、判定部700により出力された音源制御命令を受け取ると、スピーカ130、131や可動部140〜160等に動作停止信号を出力する。そして、音源であるスピーカ130、131の出力や可動部140〜160のアクチュエータ、モータ等の動作を停止させる。これにより、制御部710は、音声データの検出を妨げる音源が発する音を低減させ、音声データを検出しやすい状態を作り出すことができる。
When the
また、制御部710は、スピーカ130、131や可動部140〜160等に動作停止信号を出力した後の所定時間の間に検出された音声データを受け取ると、受け取った音声データに基づいて、ユーザの音声指示を認識する。また、制御部710は、認識した音声指示に応じた動作信号を出力することで、カメラ110やマイクロフォン120の動作、スピーカ130、131の出力、可動部140〜160のアクチュエータ、モータ等の動作を制御する。これにより、制御部710は、音源制御命令を受け取る前の状態の如何によらず、受け取った後のユーザの音声指示に基づいて、カメラ110やマイクロフォン120の動作、スピーカ130、131の出力、可動部140〜160等の動作を制御することができる。
Further, when the
また、制御部710は、判定部700により出力された動作再開指示を受け取ると、音源制御命令を受け取る前のスピーカ130、131の出力、可動部140〜160等の動作を再開するよう、動作信号を出力する。これにより、制御部710は、音源制御命令を受け取る前のスピーカ130、131の出力、可動部140〜160等の動作を再開させることができる。
Further, when the
<動作制御処理の流れ>
次に、第3の実施形態に係る制御装置100による動作制御処理の流れについて説明する。図8は、制御装置による動作制御処理の流れを示す第3のフローチャートである。図4に示すフローチャートとの相違点は、ステップS801〜S804である。
<Flow of operation control processing>
Next, the flow of the operation control process by the
ステップS801において、音声検出部302は、音声データを検出したか否かを判定する。ステップS801において、音声データを検出したと判定した場合には(ステップS801においてYesの場合には)、ステップS802に進む。
In step S801, the
ステップS802において、判定部700は、音声検出部302により検出された音声データを制御部710に出力する。制御部710は、判定部700により出力された音声データに基づいて、ユーザの音声指示を認識し、認識した音声指示に応じた動作信号を、カメラ110、マイクロフォン120、スピーカ130、131、可動部140〜160等に出力する。そして、カメラ110やマイクロフォン120の動作、スピーカ130、131の出力、可動部140〜160等の動作を制御する。
In step S802, the
一方、ステップS801において、音声データを検出していない場合には(ステップS801においてNoの場合には)、ステップS803に進む。 On the other hand, if the voice data is not detected in step S801 (if No in step S801), the process proceeds to step S803.
ステップS803において、判定部700は、ステップS407において、制御部710がスピーカ130、131の出力、可動部140〜160等の動作を停止させてから、所定時間が経過したか否かを判定する。ステップS803において、所定時間が経過していないと判定した場合には(ステップS803においてNoの場合には)、ステップS801に戻る。
In step S803, the
一方、ステップS803において、所定時間が経過したと判定した場合には(ステップS803においてYesの場合には)、ステップS804に進む。 On the other hand, if it is determined in step S803 that the predetermined time has elapsed (yes in step S803), the process proceeds to step S804.
ステップS804において、判定部700は、制御部710に動作再開指示を出力する。また、制御部710は、音源制御命令を受け取る前のスピーカ130、131の出力、可動部140〜160等の動作を再開するよう、動作信号を出力する。これにより、制御部710は、音源制御命令を受け取る前のスピーカ130、131の出力、可動部140〜160等の動作を再開させることができる。
In step S804, the
<まとめ>
以上の説明から明らかなように、第3の実施形態に係る制御装置100は、上記第1の実施形態に係る制御装置100の構成に加えて、更に、
・音声データを検出しやすい状態のもとで音声指示を受け取った場合に、当該音声指示に基づいて、カメラやマイクロフォンの動作、スピーカの出力、可動部等の動作を制御する。
・音声データを検出しやすい状態にもとで音声指示を受け取らなかった場合に、音声データを検出しやすい状態を作り出す前のスピーカの出力、可動部等の動作を再開させる。
<Summary>
As is clear from the above description, the
-When a voice instruction is received in a state where voice data is easy to detect, the operation of the camera or microphone, the output of the speaker, the operation of moving parts, etc. are controlled based on the voice instruction.
-When the voice instruction is not received in the state where the voice data is easy to detect, the operation of the speaker output, the moving part, etc. before creating the state where the voice data is easy to detect is restarted.
このように、音声データを検出しやすい状態のもとで、ユーザの音声指示の有無を判定することで、第3の実施形態に係る制御装置100では、ユーザが音声指示を行ったか否かを正しく判定することができる。この結果、第3の実施形態に係る制御装置100によれば、ユーザの意図に反してロボットが動作するといった事態を回避することができる。
In this way, by determining the presence or absence of the user's voice instruction in a state where the voice data can be easily detected, the
[第4の実施形態]
上記第1乃至第3の実施形態では、カメラ110をロボット10に配するものとして説明した。しかしながら、カメラ110はロボット10以外に配してもよい。あるいは、カメラ110をロボット10に配したうえで、更に、カメラ110以外のカメラを、ロボット10以外に配してもよい。以下、第4の実施形態について、上記第1の実施形態との相違点を中心に説明する。
[Fourth Embodiment]
In the first to third embodiments described above, the
<ロボットの作業環境>
はじめに、第4の実施形態に係るロボット10の作業環境について説明する。図9は、ロボットの作業環境の一例を示す第1の図である。図9に示すように、ロボット10が各種作業を行う居室900には、カメラ900_1、900_2が取り付けられており、ロボット10のユーザ(不図示)を撮影する。また、カメラ900_1、900_2により撮影された画像データは、ロボット10に送信される。
<Robot work environment>
First, the working environment of the
これにより、第4の実施形態に係るロボット10では、ロボット10とは別体のカメラ900_1、900_2により撮影された画像データに基づいて、ロボット10のユーザの顔を検出するとともに、口唇動作を検出することができる。
As a result, in the
この結果、例えば、第4の実施形態に係るロボット10の場合、ロボット10に配されたカメラ110が、ロボット10のユーザの方向を向いていない場合であっても、当該ユーザの顔を検出するとともに、口唇動作を検出することができる。
As a result, for example, in the case of the
なお、第4の実施形態に係るロボット10の場合、制御装置100の顔検出部304では、画像データを受け取った際、カメラ900_1またはカメラ900_2の方向を向いたユーザの顔ではなく、カメラ110の方向を向いたユーザの顔を検出する。このように、ロボット10とは別体のカメラ900_1、900_2を活用することで、ロボット10のユーザの口唇動作を検出する可能性を高めることができる(ユーザの口唇動作の検出漏れを防ぐことができる)。
In the case of the
なお、図9の例では、ロボット10とは別体のカメラとして2台のカメラを活用する場合について示したが、活用する別体のカメラは2台に限定されない。また、顔検出部304は、ロボット10に配されたカメラ110により撮影された画像データと、ロボット10とは別体のカメラ900_1、900_2等により撮影された画像データのそれぞれにおいて顔を検出するように構成してもよい。
In the example of FIG. 9, the case where two cameras are used as a camera separate from the
また、口唇動作検出部305は、それぞれの画像データにおいて検出された顔画像データのうち、口唇領域が写っている顔画像データを選択して、ユーザの口唇動作を検出するように構成してもよい。そして、いずれの顔画像データにおいても、ユーザの口唇動作を検出しなかった場合に、ユーザの口唇動作を検出しなかった旨の検出結果を判定部306に対して出力するように構成してもよい。
Further, the lip
<制御装置のハードウェア構成>
次に、第4の実施形態に係るロボット10に内蔵される制御装置100のハードウェア構成について説明する。図10は、ロボットの制御装置のハードウェア構成の一例を示す第2の図である。図2に示したハードウェア構成との相違点は、通信装置205が、ロボット10とは別体のカメラ900_1〜900_nと通信を行う点である。
<Hardware configuration of control device>
Next, the hardware configuration of the
通信装置205がカメラ900_1〜900_nと通信を行うことで、制御装置100では、カメラ900_1〜900_nにより撮影され、送信された画像データを取得することができる。
When the
<まとめ>
以上の説明から明らかなように、第4の実施形態に係るロボット10は、ロボット10が各種作業を行う居室に取り付けられたカメラ(ロボット10とは別体のカメラ)が撮影した画像データを取得する。また、第4の実施形態に係るロボット10は、当該カメラにより撮影された画像データ(及び、ロボット10に搭載されたカメラにより撮影された画像データ)に基づいて、ユーザの口唇動作を検出する。
<Summary>
As is clear from the above description, the
これにより、第4の実施形態に係るロボット10によれば、上記第1の実施形態において説明した効果に加えて、更に、ユーザの口唇動作を検出する可能性を高めることができる。
As a result, according to the
[第5の実施形態]
上記第1乃至第4の実施形態では、制御部102、510、710が、音源制御命令に基づいて、ロボット10のスピーカ130、131の出力、可動部140〜160等の動作を制御するものとして説明した。
[Fifth Embodiment]
In the first to fourth embodiments, the
しかしながら、音源制御命令に基づいて制御部102、510、710が音を低減させる音源は、ロボット10のスピーカ130、131、可動部140〜160等に限定されない。例えば、ロボット10以外の外部音源が発する音を低減させるように構成してもよい。以下、第5の実施形態について、上記第1乃至第4の実施形態との相違点を中心に説明する。
However, the sound source for which the
<ロボットの作業環境>
はじめに、第5の実施形態に係るロボット10の作業環境について説明する。図11は、ロボットの作業環境の一例を示す第2の図である。図11に示すように、ロボット10が各種作業を行う居室1100には、複数の外部音源が配されている。
<Robot work environment>
First, the working environment of the
具体的には、居室1100には、オーディオ機器のスピーカ、テレビのスピーカ、エアコン、扇風機、空気清浄器、水道設備等の外部音源が配されている。
Specifically, external sound sources such as audio equipment speakers, television speakers, air conditioners, electric fans, air purifiers, and water supply facilities are arranged in the
このうち、オーディオ機器、テレビ、エアコンには、通信装置が配されており、ロボット10と有線または無線を介して通信可能に接続される。
Of these, communication devices are arranged in audio equipment, televisions, and air conditioners, and are connected to the
このため、第5の実施形態に係るロボット10の制御装置100では、オーディオ機器、テレビ、エアコンの各機器の動作を、当該通信装置を介して制御することができる。具体的には、第5の実施形態に係るロボット10の制御装置100は、オーディオ機器、テレビ、エアコンの各機器に、各機器の動作を停止させるための信号を送信する。これにより、第5の実施形態に係るロボット10の制御装置100は、各機器の動作を停止させ、当該各機器が発する音を低減させる。
Therefore, in the
あるいは、第5の実施形態に係るロボット10の制御装置100は、オーディオ機器またはテレビに、例えば、音量を下げるための信号を送信する。これにより、第5の実施形態に係るロボット10の制御装置100は、オーディオ機器またはテレビが発する音を低減させる。
Alternatively, the
また、第5の実施形態に係るロボット10の制御装置100は、エアコンに、例えば、風量を下げるための信号(あるいは、設定温度を変更するための信号)等を出力する。これにより、第5の実施形態に係るロボット10の制御装置100は、エアコンの風量を下げさせ(エアコンの設定温度を変更させ)、エアコンが発する音を低減させる。
Further, the
この結果、第5の実施形態に係るロボット10の制御装置100によれば、音声データを検出しやすい状態を作り出すことができる。
As a result, according to the
また、第5の実施形態に係るロボット10の制御装置100では、扇風機、空気清浄器、水道設備の各機器を操作するために、可動部140の動作を制御する。具体的には、第5の実施形態に係るロボット10の制御装置100は、例えば、扇風機の動作を停止させるためのスイッチ(あるいは、風量を下げるためのスイッチ)を操作するよう、可動部140の動作を制御する。これにより、第5の実施形態に係るロボット10の制御装置100は、扇風機の動作を停止させ、扇風機が発する音を低減させる。
Further, the
また、第5の実施形態に係るロボット10の制御装置100は、例えば、空気清浄器の動作を停止させるためのスイッチを操作するよう、可動部140の動作を制御する。これにより、第5の実施形態に係るロボット10の制御装置100は、空気清浄器の動作を停止させ、空気清浄器が発する音を低減させる。
Further, the
また、第5の実施形態に係るロボット10の制御装置100は、例えば、水道の蛇口をひねり、水を止める(あるいは、水量を下げる)よう、可動部140の動作を制御する。これにより、第5の実施形態に係るロボット10の制御装置100は、水を止めさせ(あるいは水量を下げさせ)、水道の蛇口から水が流れ出ることで発する音を低減させる。
Further, the
なお、可動部140の動作を制御することによる外部音源の操作は、公知の方法により実現される。
The operation of the external sound source by controlling the operation of the
なお、図11の例では、居室1100内の異なる位置にも外部音源が配されているが、ロボット10は、それぞれの外部音源を制御し、それぞれの外部音源が発する音を低減させてもよい。あるいは、ロボット10は、いずれか一方の外部音源を制御し、いずれか一方の外部音源が発する音を低減させてもよい。
In the example of FIG. 11, external sound sources are arranged at different positions in the
なお、いずれか一方の外部音源を制御するにあたっては、ロボット10に近い方の外部音源を制御するように構成してもよい。
In controlling one of the external sound sources, the external sound source closer to the
また、ロボット10が制御する外部音源を、ロボット10から距離d以内に配された外部音源に限定してもよい。なお、距離dは、ロボット10のユーザとロボット10のマイクロフォン120との間の距離に応じて変更するように構成してもよい。例えば、距離dは、ロボット10のユーザとロボット10のマイクロフォン120との間の距離に、予め定められた係数をかけ合わせることで算出するように構成してもよい。
Further, the external sound source controlled by the
<まとめ>
以上の説明から明らかように、第5の実施形態に係るロボット10は、ロボット10以外の外部音源が発する音を低減させる。これにより、第1の実施形態に係る制御装置100では、音声データを検出しやすい状態を作り出すことができる。この結果、第5の実施形態に係る制御装置100によれば、ユーザの音声指示に基づいて動作するロボットにおいて、音声検出率を向上させることができる。
<Summary>
As is clear from the above description, the
[第6の実施形態]
上記第5の実施形態では、ロボット10以外の外部音源が発する音を直接的に低減させる場合について説明した。これに対して、第6の実施形態では、ロボット10以外の外部音源が、リモートコントローラを介して操作可能な場合においては、リモートコントローラを操作することで、ロボット10以外の外部音源が発する音を低減させる。以下、第6の実施形態について、上記第5の実施形態との相違点を中心に説明する。
[Sixth Embodiment]
In the fifth embodiment, the case where the sound emitted by an external sound source other than the
<ロボットの作業環境>
はじめに、第6の実施形態に係るロボット10の作業環境について説明する。図12は、ロボットの作業環境の一例を示す第3の図である。図11に示す作業環境との違いは、居室1200の場合、外部音源遠隔操作器が配されている点である。
<Robot work environment>
First, the working environment of the
なお、図12において、リモコン1は、オーディオ機器を遠隔操作するための操作器であり、リモコン2は、テレビを遠隔操作するための操作器である。また、リモコン3は、エアコンを遠隔操作するための操作器であり、リモコン4は、扇風機を遠隔操作するための操作器である。 In FIG. 12, the remote controller 1 is an operator for remotely controlling an audio device, and the remote controller 2 is an operator for remotely controlling a television. Further, the remote controller 3 is an operator for remotely controlling the air conditioner, and the remote controller 4 is an operator for remotely controlling the electric fan.
第6の実施形態に係るロボット10の制御装置100では、オーディオ機器、テレビ、エアコン、扇風機の各機器を、リモコン1〜リモコン4等を介して操作する。
In the
具体的には、第6の実施形態に係るロボット10の制御装置100は、オーディオ機器、テレビ、エアコン、扇風機の各機器のリモコン1〜リモコン4等を操作するよう、可動部150の動作を制御する。
Specifically, the
例えば、第6の実施形態に係るロボット10の制御装置100は、リモコン1に対して、オーディオ機器を停止させる、あるいは、音量を下げるための操作を行うよう、可動部150の動作を制御する。
For example, the
また、例えば、第6の実施形態に係るロボット10の制御装置100は、リモコン2に対して、テレビを消す、あるいは、テレビの音量を下げるための操作を行うよう、可動部150の動作を制御する。
Further, for example, the
また、例えば、第6の実施形態に係るロボット10の制御装置100は、リモコン3に対して、エアコンを停止させる、風量を下げる、あるいは、設定温度を変更するための操作を行うよう、可動部150の動作を制御する。
Further, for example, the
また、例えば、第6の実施形態に係るロボット10の制御装置100は、リモコン4に対して、扇風機を停止させる、あるいは、風量を下げるための操作を行うよう、可動部150の動作を制御する。
Further, for example, the
<まとめ>
以上の説明から明らかなように、第6の実施形態に係るロボット10は、外部音源遠隔操作器を操作することで、ロボット10以外の外部音源が発する音を低減させる。これにより、第6の実施形態に係る制御装置100では、音声データを検出しやすい状態を作り出すことができる。この結果、第6の実施形態に係る制御装置100によれば、ユーザの音声指示に基づいて制御するロボットにおいて、音声検出率を向上させることができる。
<Summary>
As is clear from the above description, the
[第7の実施形態]
上記第1乃至第6の実施形態では、ロボット10が音源(外部音源を含む)が発する音を低減させる場合について説明した。しかしながら、ロボット10の作業環境には、ロボット10が(直接的か間接的かに関わらず)、音を低減させることができない外部音源が配されている場合もある。
[7th Embodiment]
In the first to sixth embodiments, the case where the
第7の実施形態では、このような外部音源が発する音を低減させるために、外部音源に対する操作をユーザに依頼する。以下、第7の実施形態について、上記第1の実施形態との相違点を中心に説明する。 In the seventh embodiment, in order to reduce the sound emitted by such an external sound source, the user is requested to operate the external sound source. Hereinafter, the seventh embodiment will be described focusing on the differences from the first embodiment.
<制御装置の機能構成>
はじめに、第7の実施形態に係る制御装置100の機能構成について説明する。図13は、制御装置の機能構成の一例を示す図である。図3に示した機能構成との相違点は、判定部1300の機能及び制御部1310の機能が、図3の判定部306の機能及び制御部102の機能とは異なる点である。
<Functional configuration of control device>
First, the functional configuration of the
判定部1300は指示部の一例であり、音声検出部302により音声データが検出されたか否か、及び、口唇動作検出部305より口唇動作の検出結果が出力されたか否かを判定する。また、判定部1300は、口唇動作検出部305より口唇動作の検出結果が出力されたにも関わらず、音声検出部302より音声データが検出されていない場合に、制御部1310に対して、音声出力命令を出力する。これにより、判定部1300は、外部音源の操作をユーザに依頼するよう指示する。
The
なお、判定部1300は、図3の判定部306同様、口唇動作検出部305より口唇動作の検出結果が出力され、音声検出部302により音声データが検出された場合、制御部1310に対して、音声データを出力する。
Similar to the
制御部1310は、判定部1300により出力された音声出力命令を受け取ると、ロボット10のユーザに、外部音源の操作を依頼するための音声出力信号を生成する。また、制御部1310は、生成した音声出力信号に基づく合成音声を、スピーカ130、131を介して、ユーザに出力する。
Upon receiving the voice output command output by the
なお、外部音源の操作を依頼するための音声出力信号とは、例えば、
・「テレビを消してください」
・「音楽を一時停止してください」、
・「聞き取れないので水を止めてください」、
等が挙げられる。
The audio output signal for requesting the operation of the external sound source is, for example,
・ "Please turn off the TV"
・ "Pause music",
・ "I can't hear you, so please stop the water."
And so on.
これにより、制御部1310は、音声データを検出しやすい状態を作り出すことができる。
As a result, the
<動作制御処理の流れ>
次に、第7の実施形態に係る制御装置100による動作制御処理の流れについて説明する。図14は、制御装置による動作制御処理の流れを示す第4のフローチャートである。図4に示すフローチャートとの相違点は、ステップS1401である。
<Flow of operation control processing>
Next, the flow of the operation control process by the
ステップS1401において、判定部1300は音声出力命令を出力する。また、制御部1310は音声出力命令を受け取ると、ユーザに、外部音源の操作を依頼するための音声出力信号を生成し、生成した音声出力信号に基づく合成音声を、スピーカ130、131を介して出力する。これにより、制御部1310は、外部音源が発する音を低減させ、音声データを検出しやすい状態を作り出すことができる。
In step S1401, the
<まとめ>
以上の説明から明らかなように、第7の実施形態に係る制御装置100は、ユーザに対して、外部音源の操作を依頼することで、外部音源が発する音を低減させる。これにより、第7の実施形態に係る制御装置100では、音声データを検出しやすい状態を作り出すことができる。この結果、第7の実施形態に係る制御装置100によれば、ユーザの音声指示に基づいて動作するロボットにおいて、音声検出率を向上させることができる。
<Summary>
As is clear from the above description, the
[その他の実施形態]
上記各実施形態では、判定部306、500、700、1300が音源制御命令を出力するタイミングについて言及しなかったが、音源制御命令を出力するタイミングとしては、様々なケースが考えられる。
[Other Embodiments]
In each of the above embodiments, the timing at which the
例えば、口唇動作検出部305により口唇動作の始端が検出されたが、音声検出部302により音声データの始端が検出されていない場合においては、口唇動作の終端が検出される前に、音源制御命令を出力してもよい。
For example, when the start end of the lip movement is detected by the lip
また、口唇動作検出部305により口唇動作の始端が検出され、音声検出部302により音声データの始端が検出されたが、口唇動作の始端の検出位置と、音声データの始端の検出位置とのずれ量が所定の閾値以上であったとする。この場合、判定部では、ずれ量が所定の閾値以上となったタイミングで音源制御命令を出力してもよい。つまり、判定部306は、口唇動作の始端の検出位置と、音声データの始端の検出位置とのずれ量に基づいて、音源制御命令を出力してもよい。
Further, the lip
また、口唇動作検出部305により口唇動作の終端が検出され、音声検出部302により音声データの終端が検出されたが、口唇動作の終端の検出位置と、音声データの終端の検出位置とのずれ量が所定の閾値以上であったとする。この場合、判定部では、ずれ量が所定の閾値以上となったタイミングで音源制御命令を出力してもよい。つまり、判定部306は、口唇動作の終端の検出位置と、音声データの終端の検出位置とのずれ量に基づいて、音源制御命令を出力してもよい。
Further, the lip
また、上記各実施形態において、ロボット10は、可動部140〜160を有するものとして説明したが、ロボット10は、可動部140〜160以外の可動部を有していてもよい。可動部140〜160以外の可動部には、例えば、吸引部やファン等が含まれる。
Further, in each of the above embodiments, the
また、上記各実施形態では、複数の音源(外部音源を含む)がある場合に、制御部が音を低減させる順序について特に言及しなかったが、例えば、予め定められた優先順位に従って、音を低減させるようにしてもよい。あるいは、同時に、全ての音を低減させるようにしてもよい。 Further, in each of the above embodiments, when there are a plurality of sound sources (including an external sound source), the order in which the control unit reduces the sound is not particularly mentioned, but for example, the sounds are produced according to a predetermined priority. It may be reduced. Alternatively, at the same time, all sounds may be reduced.
また、上記各実施形態で説明した機能は、他の任意の実施形態で説明した機能と組み合わせて実現されてもよい。 In addition, the functions described in each of the above embodiments may be realized in combination with the functions described in any other embodiment.
また、上記各実施形態において、制御装置100の機能は、プロセッサ201が、制御プログラムを実行することで実現されるものとして説明した。しかしながら、制御装置100の機能は、アナログ回路、デジタル回路又はアナログ・デジタル混合回路で構成された回路により実現されてもよい。また、制御装置100の機能を実現する制御回路を備えていてもよい。各回路の実装は、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等によるものであってもよい。
Further, in each of the above embodiments, the function of the
また、上記各実施形態において、制御プログラムを実行するにあたっては、制御プログラムをフレキシブルディスクやCD−ROM等の記憶媒体に収納し、コンピュータに読み込ませて実行させるものであってもよい。記憶媒体は、磁気ディスクや光ディスク等の着脱可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記憶媒体であってもよい。また、ソフトウェアによる処理は、FPGA等の回路に実装され、ハードウェアが実行するものであってもよい。ジョブの実行は、例えば、GPU(Graphics Processing Unit)等のアクセラレータを使用して行ってもよい。 Further, in each of the above embodiments, when the control program is executed, the control program may be stored in a storage medium such as a flexible disk or a CD-ROM, read by a computer, and executed. The storage medium is not limited to a removable one such as a magnetic disk or an optical disk, and may be a fixed storage medium such as a hard disk device or a memory. Further, the processing by software may be implemented in a circuit such as FPGA and executed by hardware. The job may be executed by using an accelerator such as a GPU (Graphics Processing Unit), for example.
なお、上記実施形態に挙げた構成等に、その他の要素との組み合わせ等、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。 The present invention is not limited to the configurations shown here, such as combinations with other elements in the configurations and the like described in the above embodiments. These points can be changed without departing from the spirit of the present invention, and can be appropriately determined according to the application form thereof.
10 :ロボット
100 :制御装置
101 :停止部
102 :制御部
110 :カメラ
120 :マイクロフォン
130、131 :スピーカ
140、150 :可動部
160 :可動部
301 :音取得部
302 :音声検出部
303 :画像取得部
304 :顔検出部
305 :口唇動作検出部
306 :判定部
500 :判定部
510 :制御部
700 :判定部
710 :制御部
900 :居室
900_1、900_2 :カメラ
1100、1200 :居室
1300 :判定部
1310 :制御部
10: Robot 100: Control device 101: Stop unit 102: Control unit 110: Camera 120:
Claims (16)
取得した画像データに基づいて、ユーザの口唇動作を検出する口唇動作検出部と、
取得した音データから、音声データを検出する音声検出部と、
前記口唇動作検出部が前記ユーザの口唇動作を検出した場合であって、前記音声検出部が音声データを検出しなかった場合に、音源が発する音を低減させるよう指示する指示部と
を有する制御装置。 It ’s a robot control device,
A lip motion detection unit that detects the user's lip motion based on the acquired image data,
A voice detector that detects voice data from the acquired sound data,
A control having an instruction unit for instructing to reduce the sound emitted by the sound source when the lip movement detection unit detects the user's lip movement and the voice detection unit does not detect voice data. apparatus.
取得した画像データに基づいて、ユーザの口唇動作を検出する口唇動作検出部と、
取得した音データから、音声データを検出する音声検出部と、
前記口唇動作検出部が検出した口唇動作の検出位置と前記音声検出部が検出した音声データの検出位置との間のずれ量に基づいて、音源が発する音を低減させるよう指示する指示部と
を有する制御装置。 It ’s a robot control device,
A lip motion detection unit that detects the user's lip motion based on the acquired image data,
A voice detector that detects voice data from the acquired sound data,
An instruction unit that instructs to reduce the sound emitted by the sound source based on the amount of deviation between the detection position of the lip movement detected by the lip movement detection unit and the detection position of the voice data detected by the voice detection unit. Control device to have.
取得した画像データに基づいて、ユーザの口唇動作を検出する口唇動作検出部と、
取得した音データから、音声データを検出する音声検出部と、
前記口唇動作検出部が前記ユーザの口唇動作を検出し、かつ、前記音声検出部が音声データを検出した場合、前記音声データを認識した際の尤度情報に基づいて、音源が発する音を低減させるよう指示する指示部と
を有する制御装置。 It ’s a robot control device,
A lip motion detection unit that detects the user's lip motion based on the acquired image data,
A voice detector that detects voice data from the acquired sound data,
When the lip motion detection unit detects the user's lip motion and the voice detection unit detects voice data, the sound emitted by the sound source is reduced based on the likelihood information when the voice data is recognized. A control device having an instruction unit for instructing the operation.
音データを取得する集音部と、
請求項1乃至13のいずれか1項に記載の制御装置と
を有するロボット。 An imaging unit that acquires image data and
A sound collector that acquires sound data and
A robot having the control device according to any one of claims 1 to 13.
取得した画像データに基づいて、ユーザの口唇動作を検出する口唇動作検出工程と、
取得した音データから、音声データを検出する音声検出工程と、
前記口唇動作検出工程において前記ユーザの口唇動作が検出された場合であって、前記音声検出工程において音声データが検出されなかった場合に、音源が発する音を低減させるよう指示する指示工程と
を有する制御方法。 It ’s a robot control method.
A lip motion detection process that detects the user's lip motion based on the acquired image data,
A voice detection process that detects voice data from the acquired sound data,
It has an instruction step of instructing to reduce the sound emitted by the sound source when the lip motion of the user is detected in the lip motion detection step and the voice data is not detected in the voice detection step. Control method.
取得した画像データに基づいて、ユーザの口唇動作を検出する口唇動作検出工程と、
取得した音データから、音声データを検出する音声検出工程と、
前記口唇動作検出工程において前記ユーザの口唇動作が検出された場合であって、前記音声検出工程において音声データが検出されなかった場合に、音源が発する音を低減させるよう指示する指示工程と
を実行させるための制御プログラム。 On the computer
A lip motion detection process that detects the user's lip motion based on the acquired image data,
A voice detection process that detects voice data from the acquired sound data,
When the user's lip movement is detected in the lip movement detection step and no voice data is detected in the voice detection step, an instruction step of instructing to reduce the sound emitted by the sound source is executed. Control program to make it.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019090756A JP2020185630A (en) | 2019-05-13 | 2019-05-13 | Control device, robot, control method and control program |
PCT/JP2020/018975 WO2020230784A1 (en) | 2019-05-13 | 2020-05-12 | Control device, robot, control method, and control program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019090756A JP2020185630A (en) | 2019-05-13 | 2019-05-13 | Control device, robot, control method and control program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020185630A true JP2020185630A (en) | 2020-11-19 |
Family
ID=73220765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019090756A Pending JP2020185630A (en) | 2019-05-13 | 2019-05-13 | Control device, robot, control method and control program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2020185630A (en) |
WO (1) | WO2020230784A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113674746A (en) * | 2021-08-18 | 2021-11-19 | 北京百度网讯科技有限公司 | Man-machine interaction method, device, equipment and storage medium |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4468777B2 (en) * | 2004-09-29 | 2010-05-26 | 本田技研工業株式会社 | Control device for legged walking robot |
JP2008126329A (en) * | 2006-11-17 | 2008-06-05 | Toyota Motor Corp | Voice recognition robot and its control method |
JP2009222969A (en) * | 2008-03-17 | 2009-10-01 | Toyota Motor Corp | Speech recognition robot and control method for speech recognition robot |
JP6466844B2 (en) * | 2013-08-29 | 2019-02-06 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | Device control method and device control system |
JP6562790B2 (en) * | 2015-09-11 | 2019-08-21 | 株式会社Nttドコモ | Dialogue device and dialogue program |
JP2018185362A (en) * | 2017-04-24 | 2018-11-22 | 富士ソフト株式会社 | Robot and control method of the same |
JP2019032387A (en) * | 2017-08-07 | 2019-02-28 | 株式会社Nttドコモ | Controller, program and control method |
-
2019
- 2019-05-13 JP JP2019090756A patent/JP2020185630A/en active Pending
-
2020
- 2020-05-12 WO PCT/JP2020/018975 patent/WO2020230784A1/en active Application Filing
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113674746A (en) * | 2021-08-18 | 2021-11-19 | 北京百度网讯科技有限公司 | Man-machine interaction method, device, equipment and storage medium |
Also Published As
Publication number | Publication date |
---|---|
WO2020230784A1 (en) | 2020-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10848889B2 (en) | Intelligent audio rendering for video recording | |
US11072077B2 (en) | Robot system and operation method thereof | |
EP3301948A1 (en) | System and method for localization and acoustic voice interface | |
WO2019235229A1 (en) | Information processing device and method, and program | |
JP2022539794A (en) | Multimodal user interface | |
CN111629301B (en) | Method and device for controlling multiple loudspeakers to play audio and electronic equipment | |
JP6531776B2 (en) | Speech dialogue system and speech dialogue method | |
JP2003000614A5 (en) | ||
WO2020230784A1 (en) | Control device, robot, control method, and control program | |
JP5206151B2 (en) | Voice input robot, remote conference support system, and remote conference support method | |
US20210354300A1 (en) | Controller, controlled apparatus, control method, and recording medium | |
JP2009166184A (en) | Guide robot | |
JPWO2008001492A1 (en) | Robot, robot control method, and robot control program | |
US10551730B2 (en) | Image capturing apparatus and method of controlling the same | |
KR102115222B1 (en) | Electronic device for controlling sound and method for operating thereof | |
JP7335979B2 (en) | A method for controlling a device using voice recognition, and a device that implements the same | |
JP4655572B2 (en) | Signal processing method, signal processing apparatus, and robot | |
JP7339124B2 (en) | Control device, system and control method | |
WO2016117421A1 (en) | Voice-input device, information processing device, method of controlling voice-input device, and control program | |
JP4468777B2 (en) | Control device for legged walking robot | |
JP2005241971A (en) | Projector system, microphone unit, projector controller, and projector | |
KR102168812B1 (en) | Electronic device for controlling sound and method for operating thereof | |
CN111061370B (en) | Man-machine interaction device and method for intelligent equipment | |
JP2019072787A (en) | Control device, robot, control method and control program | |
JPWO2019239738A1 (en) | Information processing device, information processing method |