JP2008254103A - Presenter action reproducing robot, and controlling method and controlling program of presenter action reproducing robot - Google Patents
Presenter action reproducing robot, and controlling method and controlling program of presenter action reproducing robot Download PDFInfo
- Publication number
- JP2008254103A JP2008254103A JP2007097617A JP2007097617A JP2008254103A JP 2008254103 A JP2008254103 A JP 2008254103A JP 2007097617 A JP2007097617 A JP 2007097617A JP 2007097617 A JP2007097617 A JP 2007097617A JP 2008254103 A JP2008254103 A JP 2008254103A
- Authority
- JP
- Japan
- Prior art keywords
- motion
- robot
- explainer
- presenter
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Manipulator (AREA)
Abstract
Description
この発明は、例えば、資料の説明などを行うプレゼンターの動作を再現するプレゼンター動作再現ロボット、プレゼンター動作再現ロボットの制御方法及び制御プログラムに関するものである。 The present invention relates to, for example, a presenter motion reproduction robot that reproduces the motion of a presenter that explains a document and the like, a control method for a presenter motion reproduction robot, and a control program.
以下の特許文献1には、検査技術者の頭部の動作を検知する動き解析装置を実装し、その動き解析装置の検知結果を参照して、ロボットの頭部が検査技術者の頭部と同じ動作を行うように、ロボットの頭部を制御する技術が開示されている。
ただし、このロボットは、動き解析装置が検査技術者の頭部の動作を検知するようにしているが、検査技術者の音声を解析することはない。
このため、ロボットの動作は、検査技術者の頭部の動作のみに依存し、検査技術者の音声との対応関係は存在しない。
In
In this robot, the motion analysis device detects the movement of the head of the inspection engineer, but does not analyze the voice of the inspection engineer.
For this reason, the movement of the robot depends only on the movement of the head of the inspection engineer, and there is no correspondence with the voice of the inspection engineer.
従来のロボットは以上のように構成されているので、検査技術者の頭部と同じ動作を行うように頭部が制御されるが、検査技術者の音声と無関係に頭部が制御される。このため、ユーザがロボットの動作を見ても、その動作の意図を容易に把握することができないことがあるなどの課題があった。 Since the conventional robot is configured as described above, the head is controlled so as to perform the same operation as the head of the inspection engineer, but the head is controlled regardless of the voice of the inspection engineer. For this reason, even if the user looks at the operation of the robot, there is a problem that the intention of the operation may not be easily grasped.
この発明は上記のような課題を解決するためになされたもので、資料説明者の意図を正確にユーザに伝えることが可能な身振りを行うことができるプレゼンター動作再現ロボット、プレゼンター動作再現ロボットの制御方法及び制御プログラムを得ることを目的とする。 The present invention has been made in order to solve the above-described problems. A presenter motion reproduction robot capable of performing gestures that can accurately convey the intention of a material explainer to a user, and control of the presenter motion reproduction robot The object is to obtain a method and a control program.
請求項1記載の発明に係るプレゼンター動作再現ロボットは、資料説明者の動作を解析する動作解析手段と、資料説明者の音声を認識する音声認識手段と、資料説明者の動作及び音声に対応するロボット動作を記憶しているロボット動作記憶手段と、ロボット動作記憶手段に記憶されているロボット動作の中から、動作解析手段により解析された資料説明者の動作に対応し、かつ、音声認識手段により認識された資料説明者の音声に対応するロボット動作を検索するロボット動作検索手段と、ロボット動作検索手段により検索されたロボット動作にしたがって身体を制御する身体制御手段とを備えるようにしたものである。 The presenter motion reproduction robot according to the first aspect of the present invention corresponds to the motion analysis means for analyzing the motion of the document explainer, the speech recognition means for recognizing the speech of the document explainer, and the motion and the speech of the document explainer. Corresponding to the motion of the material explainer analyzed by the motion analysis means out of the robot motion storage means storing the robot motion and the robot motion stored in the robot motion storage means, and by the voice recognition means A robot motion search means for searching for a robot motion corresponding to the voice of the recognized document explainer and a body control means for controlling the body according to the robot motion searched by the robot motion search means are provided. .
請求項1記載の発明によれば、資料説明者の意図を正確にユーザに伝えることが可能な身振りを行うことができる効果が得られる。 According to the first aspect of the invention, there is an effect that it is possible to perform gestures that can accurately convey the intention of the material explainer to the user.
請求項2記載の発明に係るプレゼンター動作再現ロボットは、資料説明者の音声に対応するロボット動作として、特定のキーワードに対応するロボット動作を記憶しているロボット動作記憶手段と、資料説明者の音声の中から特定のキーワードを検出する音声認識手段と、ロボット動作記憶手段に記憶されているロボット動作の中から、資料説明者の動作に対応し、かつ、音声認識手段により検出された特定のキーワードに対応するロボット動作を検索するロボット動作検索手段とを備えるようにしたものである。 According to a second aspect of the present invention, there is provided a presenter motion reproduction robot that includes a robot motion storage means for storing a robot motion corresponding to a specific keyword as a robot motion corresponding to a voice of a document explainer, and a voice of the document explainer. A voice recognition means for detecting a specific keyword from the robot, and a specific keyword corresponding to the action of the material explainer and detected by the voice recognition means from the robot actions stored in the robot action storage means And a robot motion search means for searching for a robot motion corresponding to.
請求項2記載の発明によれば、プレゼンター動作再現ロボットの動作を特定のキーワードと対応付けることができるようになり、さらに、資料説明者の意図を正確にユーザに伝えることが可能な身振りを行うことができる効果が得られる。 According to the second aspect of the present invention, it becomes possible to associate the motion of the presenter motion reproduction robot with a specific keyword, and to perform gestures that can accurately convey the intention of the material explainer to the user. The effect that can be obtained.
請求項3記載の発明に係るプレゼンター動作再現ロボットは、音声認識手段により特定のキーワードが検出されない場合、ロボット動作検索手段がロボット動作記憶手段に記憶されているロボット動作の中から、資料説明者の動作に対応するロボット動作を検索するようにしたものである。 In the presenter motion reproduction robot according to the third aspect of the present invention, when a specific keyword is not detected by the voice recognition means, the robot motion search means is selected from the robot motions stored in the robot motion storage means by the document explainer. The robot motion corresponding to the motion is searched.
請求項3記載の発明によれば、特定のキーワードが検出されない場合でも、資料説明者の動作を再現することができる効果が得られる。 According to the third aspect of the present invention, even if a specific keyword is not detected, an effect of reproducing the operation of the material explainer can be obtained.
請求項4記載の発明に係るプレゼンター動作再現ロボットの制御方法は、動作解析手段が資料説明者の動作を解析する動作解析ステップと、音声認識手段が資料説明者の音声を認識する音声認識ステップと、ロボット動作検索手段が資料説明者の動作及び音声に対応するロボット動作を記憶しているロボット動作記憶手段から、動作解析手段により解析された資料説明者の動作に対応し、かつ、音声認識手段により認識された資料説明者の音声に対応するロボット動作を検索するロボット動作検索ステップと、身体制御手段がロボット動作検索手段により検索されたロボット動作にしたがって身体を制御する身体制御ステップとを備えようにしたものである。 According to a fourth aspect of the present invention, there is provided a control method for a presenter motion reproduction robot, wherein the motion analysis means analyzes the motion of the document explainer, and the speech recognition means recognizes the speech of the document explainer. The robot motion search means corresponds to the motion of the material explainer analyzed by the motion analysis means from the robot motion storage means in which the robot motion corresponding to the motion and voice of the material explainer is stored, and the voice recognition means A robot motion search step for searching for a robot motion corresponding to the voice of the document explainer recognized by the robot, and a body control step for the body control means to control the body according to the robot motion searched by the robot motion search means. It is a thing.
請求項4記載の発明によれば、資料説明者の意図を正確にユーザに伝えることが可能な身振りを行うことができる効果が得られる。 According to the fourth aspect of the present invention, there is an effect that it is possible to perform gestures that can accurately convey the intention of the material explainer to the user.
請求項5記載の発明に係るプレゼンター動作再現ロボットの制御プログラムは、資料説明者の動作を解析する動作解析処理手順と、資料説明者の音声を認識する音声認識処理手順と、資料説明者の動作及び音声に対応するロボット動作を記憶しているロボット動作記憶手段から、動作解析処理手順により解析された資料説明者の動作に対応し、かつ、音声認識処理手順により認識された資料説明者の音声に対応するロボット動作を検索するロボット動作検索処理手順と、ロボット動作検索処理手順により検索されたロボット動作にしたがって身体を制御する身体制御処理手順とを備えようにしたものである。 A control program for a presenter motion reproduction robot according to a fifth aspect of the present invention is a motion analysis processing procedure for analyzing a motion of a material explainer, a speech recognition processing procedure for recognizing a speech of the material explainer, and a motion of the material explainer And from the robot motion storage means storing the robot motion corresponding to the voice, the voice of the material explainer corresponding to the motion of the material explainer analyzed by the motion analysis processing procedure and recognized by the voice recognition processing procedure. Are provided with a robot motion search processing procedure for searching for a robot motion corresponding to the above and a body control processing procedure for controlling the body according to the robot motion searched by the robot motion search processing procedure.
請求項5記載の発明によれば、資料説明者の意図を正確にユーザに伝えることが可能な身振りを行うことができる効果が得られる。 According to the fifth aspect of the present invention, there is an effect that it is possible to perform gestures that can accurately convey the intention of the material explainer to the user.
この発明によれば、ロボット動作記憶手段に記憶されているロボット動作の中から、動作解析手段により解析された資料説明者の動作に対応し、かつ、音声認識手段により認識された資料説明者の音声に対応するロボット動作を検索するロボット動作検索手段を設け、身体制御手段がロボット動作検索手段により検索されたロボット動作にしたがって身体を制御するように構成したので、資料説明者の意図を正確にユーザに伝えることが可能な身振りを行うことができる効果がある。 According to the present invention, among the robot motions stored in the robot motion storage means, the material explainer's motion corresponding to the motion of the material explainer analyzed by the motion analysis means and recognized by the voice recognition means. The robot motion search means for searching for the robot motion corresponding to the voice is provided, and the body control means is configured to control the body according to the robot motion searched by the robot motion search means. There is an effect that gestures that can be conveyed to the user can be performed.
実施の形態1.
図1はこの発明の実施の形態1によるプレゼンター動作再現ロボットを示す構成図であり、図1において、カメラ1は資料説明者であるプレゼンターを撮影し、プレゼンターの映像を映像格納部2に格納する。
映像格納部2はカメラ1から出力されたプレゼンターの映像を格納するメモリである。
動作解析部3は例えばCPU等を実装している半導体集積回路基板などから構成されており、映像格納部2に格納されている映像の変化を捉えて、プレゼンターの動作を解析する処理を実施する。
なお、カメラ1、映像格納部2及び動作解析部3から動作解析手段が構成されている。
FIG. 1 is a block diagram showing a presenter motion reproduction robot according to
The
The
The
キーワード格納部4はプレゼンターの音声の中から検出する対象のキーワードを格納しているメモリである。
マイク5はプレゼンターの音声を集音して、その音声信号を音声格納部6に出力する。
音声格納部6はマイク5から出力された音声信号を格納するメモリである。
The
The microphone 5 collects the presenter's voice and outputs the voice signal to the voice storage unit 6.
The audio storage unit 6 is a memory that stores an audio signal output from the microphone 5.
音声認識処理部7は例えばCPU等を実装している半導体集積回路基板などから構成されており、音声格納部6に格納されている音声信号を解析して、プレゼンターの音声を識別する処理を実施する。
キーワード検出部8は例えばCPU等を実装している半導体集積回路基板などから構成されており、音声認識処理部7により識別された音声の中から、キーワード格納部4に格納されているキーワードを検出する処理を実施する。
なお、キーワード格納部4、マイク5、音声格納部6、音声認識処理部7及びキーワード検出部8から音声認識手段が構成されている。
The voice
The
The
動作パターン記憶部9はプレゼンターの動作及び特定のキーワードに対応する動作パターン(ロボット動作)を記憶しているメモリである。なお、動作パターン記憶部9はロボット動作記憶手段を構成している。
動作パターン検索部10は例えばCPU等を実装している半導体集積回路基板などから構成されており、動作パターン記憶部9に記憶されている動作パターンの中から、動作解析部3により解析されたプレゼンターの動作に対応し、かつ、キーワード検出部8により検出されたキーワードに対応する動作パターンを検索する処理を実施する。なお、動作パターン検索部10はロボット動作検索手段を構成している。
動作パターン格納部11は動作パターン検索部10により検索された動作パターンを格納するメモリである。
The motion
The operation
The operation
身体制御部12は例えばCPU等を実装している半導体集積回路基板などから構成されており、タイミング発生部14から出力されるタイミング信号に同期して、動作パターン格納部11に格納されている動作パターンにしたがって身体を制御する処理を実施する。なお、身体制御部12は身体制御手段を構成している。
音声再生部13は例えばオーディオ装置などから構成されており、タイミング発生部14から出力されるタイミング信号に同期して、音声格納部6に格納されている音声信号にしたがってプレゼンターの音声を再生する処理を実施する。
タイミング発生部14は外部からロボットの動作開始要求を受けると、身体制御部12と音声再生部13の同期を確立するために、タイミング信号(例えば、所定周波数のパルス信号や、開始トリガ信号など)を身体制御部12及び音声再生部13に出力する。
The
The
When the timing generation unit 14 receives a robot operation start request from the outside, the timing generation unit 14 establishes a synchronization between the
図2はこの発明の実施の形態1によるプレゼンター動作再現ロボットの動作解析部3を示す構成図であり、図2において、変化部位検出部21は映像格納部2に格納されている映像の変化を捉えて、動いているプレゼンターの部位を検出する処理を実施する。
変化部位解析部22は変化部位検出部21により検出された部位の動き(例えば、動いている方向)を解析する処理を実施する。
FIG. 2 is a block diagram showing the
The change
図3はこの発明の実施の形態1によるプレゼンター動作再現ロボットの音声認識処理部7を示す構成図であり、図3において、特徴抽出部31は音声格納部6に格納されている音声信号に対して、例えば、LPC分析を実行することにより、その音声信号の対数パワー、16次ケプストラム係数、Δ対数パワー及びΔ16次ケプストラム係数を含む34次元の特徴パラメータを抽出する。
HMMメモリ32は隠れマルコフモデル(隠れマルコフモデルは、複数の状態と、各状態間の遷移を示す弧とから構成されており、各弧には状態間の遷移確率と入力コード(特徴パラメータ)に対する出力確率が格納されている)を記憶しているメモリである。
音素照合部33はHMMメモリ32に格納されている隠れマルコフモデルを用いて音素照合処理を実施することにより、特徴抽出部31により抽出された特徴パラメータから音素データを生成する。
FIG. 3 is a block diagram showing the speech
The HMM
The
言語モデル格納部34は統計的言語モデルを格納しているメモリである。
音声認識部35は言語モデル格納部34に格納されている統計的言語モデルを参照して、例えば、“One Pass DPアルゴリズム”を実行する。即ち、音素照合部33により生成された音素データについて左から右方向に、後戻りなしに処理して、より高い生起確率の単語を音声認識結果(プレゼンターの音声)に決定する音声認識処理を実施する。
The language
The
図4はこの発明の実施の形態1によるプレゼンター動作再現ロボットを示す正面図である。また、図5はこの発明の実施の形態1によるプレゼンター動作再現ロボットを示す側面図である。
図4及び図5では、上肢(左上腕部41L、右上腕部41R、左下腕部42L、右下腕部42R)や首(首関節部46N)のアクチュエータを動かして、プレゼンターの動作を再現するプレゼンター動作再現ロボットの例を示している。
図4及び図5において、プレゼンター動作再現ロボットの左上腕部41Lは一端が可動自在に左肩関節部43Lに取り付けられており、左下腕部42Lは一端が可動自在に左肘関節部44Lに取り付けられている。
左肩関節部43Lは身体制御部12の指示の下、例えば、左上腕部41Lを矢印A方向に回転させるアクチュエータや、左上腕部41Lを矢印B方向にスイングさせるアクチュエータなどからなる機械要素である。
左肘関節部44Lは身体制御部12の指示の下、例えば、左下腕部42Lを矢印C方向に回転させるアクチュエータなどからなる機械要素である。
FIG. 4 is a front view showing the presenter motion reproduction robot according to
4 and 5, the motion of the presenter is reproduced by moving the actuators of the upper limbs (left
4 and 5, one end of the left
Under the instruction of the
The left elbow
プレゼンター動作再現ロボットの右上腕部41Rは一端が可動自在に右肩関節部43Rに取り付けられており、右下腕部42Rは一端が可動自在に右肘関節部44Rに取り付けられている。
右肩関節部43Rは身体制御部12の指示の下、例えば、右上腕部41Rを矢印A方向に回転させるアクチュエータや、右上腕部41Rを矢印B方向にスイングさせるアクチュエータなどからなる機械要素である。
右肘関節部44Rは身体制御部12の指示の下、例えば、右下腕部42Rを矢印C方向に回転させるアクチュエータなどからなる機械要素である。
One end of the upper
The right shoulder
The right elbow
移動ローラ45L,45Rは身体制御部12の指示の下、プレゼンター動作再現ロボットを移動させる移動機構である。
首関節部46Nは身体制御部12の指示の下、プレゼンター動作再現ロボットの首を上下に向けたり、左右に回転させたりするアクチュエータなどからなる機械要素である。
The moving
The neck
図1の例では、プレゼンター動作再現ロボットの構成要素であるカメラ1、動作解析部3、マイク5、音声認識処理部7、キーワード検出部8、動作パターン検索部10、身体制御部12、音声再生部13及びタイミング発生部14がそれぞれ専用のハードウェアで構成されていることを想定しているが、プレゼンター動作再現ロボットがコンピュータで構成されている場合、カメラ1、動作解析部3、マイク5、音声認識処理部7、キーワード検出部8、動作パターン検索部10、身体制御部12、音声再生部13及びタイミング発生部14の処理内容を記述しているプログラムをコンピュータのメモリに格納し、コンピュータのCPUが当該メモリに格納されているプログラムを実行するようにしてもよい。
図6はこの発明の実施の形態1によるプレゼンター動作再現ロボットの処理内容を示すフローチャートである。
In the example of FIG. 1, the
FIG. 6 is a flowchart showing the processing contents of the presenter motion reproduction robot according to
次に動作について説明する。
カメラ1は、資料説明者であるプレゼンターを例えば一定時間毎(例えば、5秒毎)に撮影し、プレゼンターの映像を映像格納部2に格納する(ステップST1)。
ここでは、カメラ1により撮影された映像が間欠映像であれば、撮影時刻Tの最新の映像をPT、カメラ1により前回撮影された撮影時刻T−1の映像をPT-1、カメラ1によりN回前に撮影された撮影時刻T−Nの映像をPT-Nで表記する。
また、カメラ1により撮影された映像が連続映像であれば、最新フレームの映像をPT、1フレーム前の映像をPT-1、Nフレーム前の映像をPT-Nで表記する。
Next, the operation will be described.
The
Here, if the video shot by the
If the video taken by the
動作解析部3は、カメラ1がプレゼンターの映像を映像格納部2に格納すると、映像格納部2に格納されている映像PT,PT-1,PT-2,・・・,PT-Nの変化を捉えて、プレゼンターの動作を解析する(ステップST2)。
以下、動作解析部3による動作の解析処理を具体的に説明する。
ただし、説明の簡単化のため、図7に示すように、映像PT,PT-1,PT-2を比較する例を説明する。
When the
Hereinafter, the operation analysis processing by the
However, for simplification of description, an example in which the images P T , P T-1 and P T-2 are compared as shown in FIG. 7 will be described.
動作解析部3の変化部位検出部21は、映像格納部2に格納されている映像PT,PT-1,PT-2の変化を捉えて、動いているプレゼンターの部位を検出する。
即ち、変化部位検出部21は、図8に示すように、映像PTと映像PT-1の差分映像ST(映像PTのうち、映像PT-1と相違している部分のみを示す映像)を求めるとともに、映像PT-1と映像PT-2の差分映像ST-1(映像PT-1のうち、映像PT-2と相違している部分のみを示す映像)を求め、それらの差分映像ST,ST-1の輪郭を抽出して、その輪郭の特徴を解析する。
変化部位検出部21は、例えば、動きの検出対象部位がプレゼンターの“首”と“手”である場合、輪郭の特徴量と予め設定されているプレゼンターの“首”の特徴量(または、“手”の特徴量)を比較し、双方の特徴量の差分が所定の閾値より小さければ、動いているプレゼンターの部位が“首”(または、“手”)であると判別する。
The change
That is, the change
For example, when the motion detection target parts are the presenter's “neck” and “hand”, the change
ここでは、変化部位検出部21が差分映像の輪郭を抽出する処理や特徴量を抽出する処理などを実施して、動いているプレゼンターの部位を検出するものについて示したが、これに限るものではなく、例えば、公知の顔認識アルゴリズム等を使用して、差分映像が顔画像であるか否かを判別することにより、動いているプレゼンターの部位が“首”であるか否かを判別するようにしてもよい。
公知の顔認識アルゴリズムは、例えば、「電子情報通信学会論文誌D−II vol.J88−D−II No.8 pp.1339−1348 2005」などに開示されている。
Here, although the change
Known face recognition algorithms are disclosed in, for example, “The Institute of Electronics, Information and Communication Engineers Journal D-II vol. J88-D-II No. 8 pp. 1339-1348 2005”.
変化部位解析部22は、変化部位検出部21が動いているプレゼンターの部位を検出すると、差分映像ST,ST-1を比較して、その部位の動きを解析する。
即ち、変化部位解析部22は、変化部位検出部21により検出された部位が動いている方向を解析する。
動いているプレゼンターの部位が“首”であれば、首の上又は下方向の移動、あるいは、右又は左方向の回転を検出する。
また、動いているプレゼンターの部位が“手”であれば、手の右又は左方向の移動を検出する。
When the change
That is, the change
If the moving presenter part is the “neck”, the movement of the upper or lower direction of the neck or the rotation of the right or left direction is detected.
If the moving presenter's part is “hand”, movement of the hand in the right or left direction is detected.
マイク5は、カメラ1による撮影と並行して、プレゼンターの音声を集音し、その音声信号を音声格納部6に格納する(ステップST3)。
音声認識処理部7は、マイク5が音声信号を音声格納部6に格納すると、その音声信号を解析して、プレゼンターの音声を識別する(ステップST4)。
以下、音声認識処理部7による音声の識別処理を具体的に説明する。
The microphone 5 collects the presenter's voice in parallel with the shooting by the
When the microphone 5 stores the voice signal in the voice storage unit 6, the voice
Hereinafter, the voice identification processing by the voice
音声認識処理部7の特徴抽出部31は、音声格納部6に格納されている音声信号に対して、例えば、LPC分析を実行することにより、その音声信号の対数パワー、16次ケプストラム係数、Δ対数パワー及びΔ16次ケプストラム係数を含む34次元の特徴パラメータを抽出する。
音素照合部33は、特徴抽出部31が特徴パラメータを抽出すると、HMMメモリ32に格納されている隠れマルコフモデルを用いて音素照合処理を実施することにより、特徴抽出部31により抽出された特徴パラメータから音素データを生成する。
The
When the
音声認識部35は、音素照合部33が音素データを生成すると、言語モデル格納部34に格納されている統計的言語モデルを参照して、例えば、“One Pass DPアルゴリズム”を実行する。
即ち、音声認識部35は、その音素データについて左から右方向に、後戻りなしに処理して、より高い生起確率の単語(例えば、名詞、動詞)を音声認識結果(プレゼンターの音声)に決定する音声認識処理を実施する。
When the
That is, the
キーワード検出部8は、音声認識処理部7がプレゼンターの音声を識別すると、そのプレゼンターの音声の中から、キーワード格納部4に格納されているキーワードを検出する(ステップST5)。
例えば、キーワードとして、「どうでしょう」、「新商品」、「おめでとうございます」などがキーワード格納部4に格納されている場合、プレゼンターの音声を構成している単語(または、単語の組み合わせ)と、「どうでしょう」などのキーワードとを比較して、そのキーワードと一致する単語(または、単語の組み合わせ)を検出する。
When the speech
For example, when keywords such as “how about”, “new product”, “congratulations” are stored in the
動作パターン検索部10は、動作解析部3がプレゼンターの動作を解析し、かつ、キーワード検出部8がキーワードを検出すると、動作パターン記憶部9に記憶されている動作パターンの中から、動作解析部3により解析されたプレゼンターの動作に対応し、かつ、キーワード検出部8により検出されたキーワードに対応する動作パターンを検索し(ステップST6)、その動作パターンを動作パターン格納部11に格納する。
ここで、動作パターン記憶部9には、図9に示すように、例えば、ロボットの右手、左手、首など、ロボットのパーツ毎の動作パターンが記憶されている。
When the
Here, as shown in FIG. 9, the motion
例えば、動作解析部3の解析結果が「プレゼンターの右手が右から左に動いている」旨を示し、キーワード検出部8がキーワード「新商品」を検出している場合、動作パターン検索部10が右手用の動作パターン(図9(a)を参照)の中から、「ロボットの右手を右から左に移動してから、右手を商品に向ける」動作パターンを検索する。
また、動作解析部3の解析結果が「プレゼンターの左手が左から右に動いている」旨を示し、キーワード検出部8がキーワード「どうでしょう」を検出している場合、動作パターン検索部10が左手用の動作パターン(図9(b)を参照)の中から、「ロボットの左手を客に向けてから、左手を左から右に移動する」動作パターンを検索する。
For example, when the analysis result of the
When the analysis result of the
ただし、キーワード検出部8によりキーワードが検出されない場合、動作パターン記憶部9に記憶されている動作パターンの中から、動作解析部3により解析されたプレゼンターの動作に対応する動作パターンを検索する。
例えば、動作解析部3の解析結果が「プレゼンターの右手が右から左に動いている」旨を示しているが、キーワード検出部8がキーワードを検出しない場合、動作パターン検索部10が右手用の動作パターン(図9(a)を参照)の中から、「ロボットの右手を右から左に移動する」動作パターンを検索する。
また、動作解析部3の解析結果が「プレゼンターの左手が左から右に動いている」旨を示しているが、キーワード検出部8がキーワードを検出しない場合、動作パターン検索部10が左手用の動作パターン(図9(b)を参照)の中から、「ロボットの左手を左から右に移動する」動作パターンを検索する。
However, if no keyword is detected by the
For example, if the analysis result of the
Further, the analysis result of the
ここでは、動作解析部3の解析結果が「プレゼンターの右手」又は「プレゼンターの左手」の動きを示しているので、動作パターン検索部10が「プレゼンターの右手」又は「プレゼンターの左手」の動作パターンを検索するものについて示したが、例えば、動作解析部3の解析結果が「プレゼンターの右手」、「プレゼンターの左手」、「プレゼンターの首」など、複数の部位の動きを同時に示している場合には、動作パターン検索部10が「プレゼンターの右手」、「プレゼンターの左手」、「プレゼンターの首」などの動作パターンを同時に検索するようにする。
Here, since the analysis result of the
タイミング発生部14は、動作パターン検索部10により動作パターンが動作パターン格納部11に格納されたのち、外部からロボットの動作開始要求を受けると、身体制御部12によるロボット制御と音声再生部13による音声再生を同期させるため、タイミング信号(例えば、所定周波数のパルス信号や、開始トリガ信号など)を身体制御部12及び音声再生部13に出力する。
When the motion
身体制御部12は、タイミング発生部14からタイミング信号を受けると、そのタイミング信号に同期して、動作パターン格納部11に格納されている動作パターンにしたがって身体を制御する。
即ち、身体制御部12は、ロボットが動作パターンの通りに動作する制御信号をロボットのアクチュエータに出力する(ステップST7)。
例えば、動作パターンが「ロボットの右手を右から左に移動する」であれば、右肩関節部43R及び右肘関節部44Rに係るアクチュエータに制御信号を出力することにより、ロボットの右手を右から左に移動させるようにする。
When
That is, the
For example, if the movement pattern is “move the robot's right hand from right to left”, the control signal is output to the actuators related to the right shoulder
音声再生部13は、タイミング発生部14からタイミング信号を受けると、そのタイミング信号に同期して、音声格納部6に格納されている音声信号にしたがってプレゼンターの音声を再生する。
When receiving the timing signal from the timing generation unit 14, the
以上で明らかなように、この実施の形態1によれば、動作パターン記憶部9に記憶されているロボットの動作パターンの中から、動作解析部3により解析されたプレゼンターの動作に対応し、かつ、キーワード検出部8により検出されたキーワードに対応する動作パターンを検索する動作パターン検索部10を設け、身体制御部12が動作パターン検索部10により検索された動作パターンにしたがって身体を制御するように構成したので、プレゼンターの意図を正確にユーザに伝えることが可能な身振りを行うことができる効果を奏する。
即ち、動作パターン検索部10が動作解析部3により解析されたプレゼンターの動作だけでなく、キーワード検出部8により検出されたキーワードに対応する動作パターンを検索するようにしているので、ロボットの動作を特定のキーワードと対応付けることができるようになり、その結果、プレゼンターの意図を正確にユーザに伝えることが可能なジェスチャを実現することができる効果を奏する。
As apparent from the above, according to the first embodiment, the motion corresponding to the presenter analyzed by the
That is, since the motion
また、この実施の形態1によれば、キーワード検出部8により特定のキーワードが検出されない場合、動作パターン記憶部9に記憶されているロボットの動作パターンの中から、動作解析部3により解析されたプレゼンターの動作に対応する動作パターンを検索するように構成したので、キーワード検出部8により特定のキーワードが検出されない場合でも、プレゼンターの動作を再現することができる効果を奏する。
Further, according to the first embodiment, when a specific keyword is not detected by the
なお、この実施の形態1では、動作解析部3が一定時間毎にプレゼンターの動作を解析し、音声認識処理部7が一定時間毎にプレゼンターの音声を認識して、キーワード検出部8がキーワードを検出することを想定しているが、これに限るものではなく、例えば、外部から処理開始要求信号を受ける毎に、動作解析部3がプレゼンターの動作を解析するとともに、音声認識処理部7がプレゼンターの音声を認識して、キーワード検出部8がキーワードを検出するようにしてもよい。
また、例えば、プレゼンターが1文を発話する毎に、動作解析部3がプレゼンターの動作を解析するとともに、音声認識処理部7がプレゼンターの音声を認識して、キーワード検出部8がキーワードを検出するようにしてもよい。
In the first embodiment, the
For example, every time the presenter utters a sentence, the
実施の形態2.
上記実施の形態1では、動作パターン検索部10が動作パターンを動作パターン格納部11に格納したのち、タイミング発生部14が外部からロボットの動作開始要求を受けると、タイミング信号を身体制御部12及び音声再生部13に出力するものについて示したが(この場合のロボット制御は、通常、プレゼンターが動作を終えてから、プレゼンターの動作と非同期に行われる)、動作パターン検索部10が動作パターンを動作パターン格納部11に格納すると、直ちに、タイミング発生部14がタイミング信号を身体制御部12及び音声再生部13に出力するようにしてもよい。
この場合、プレゼンターが動作しているとき、プレゼンターの動作に追従するようなリアルタイムなロボット制御を実施することができる。
In the first embodiment, when the motion
In this case, when the presenter is operating, real-time robot control that follows the operation of the presenter can be performed.
実施の形態3.
上記実施の形態1では、カメラ1がプレゼンターの映像を映像格納部2に格納し、マイク5が音声信号を音声格納部6に格納するものについて示したが、例えば、ビデオカメラによりプレゼンターが撮影された録画データを映像格納部2及び音声格納部6に格納するようにしてもよい。
この場合、動作解析部3は、映像格納部2に格納されている録画データからプレゼンターの映像を取得し、音声認識処理部7は、音声格納部6に格納されている録画データからプレゼンターの音声を取得する。
In the first embodiment, the
In this case, the
1 カメラ(動作解析手段)
2 映像格納部(動作解析手段)
3 動作解析部(動作解析手段)
4 キーワード格納部(音声認識手段)
5 マイク(音声認識手段)
6 音声格納部(音声認識手段)
7 音声認識処理部(音声認識手段)
8 キーワード検出部(音声認識手段)
9 動作パターン記憶部(ロボット動作記憶手段)
10 動作パターン検索部(ロボット動作検索手段)
11 動作パターン格納部
12 身体制御部(身体制御手段)
13 音声再生部
14 タイミング発生部
21 変化部位検出部
22 変化部位解析部
31 特徴抽出部
32 HMMメモリ
33 音素照合部
34 言語モデル格納部
35 音声認識部
41L 左上腕部
41R 右上腕部
42L 左下腕部
42R 右下腕部
43L 左肩関節部
43R 右肩関節部
44L 左肘関節部
44R 右肘関節部
45L,45R 移動ローラ
46N 首関節部
1 Camera (motion analysis means)
2 Video storage (motion analysis means)
3. Motion analysis unit (motion analysis means)
4 Keyword storage (voice recognition means)
5 Microphone (voice recognition means)
6 Voice storage (voice recognition means)
7 Voice recognition processing part (voice recognition means)
8 Keyword detector (voice recognition means)
9 Operation pattern storage (robot operation storage means)
10 Motion pattern search unit (robot motion search means)
11 motion
DESCRIPTION OF
Claims (5)
上記資料説明者の音声を認識する音声認識手段と、
上記資料説明者の動作及び音声に対応するロボット動作を記憶しているロボット動作記憶手段と、
上記ロボット動作記憶手段に記憶されているロボット動作の中から、上記動作解析手段により解析された資料説明者の動作に対応し、かつ、上記音声認識手段により認識された資料説明者の音声に対応するロボット動作を検索するロボット動作検索手段と、
上記ロボット動作検索手段により検索されたロボット動作にしたがって身体を制御する身体制御手段と
を備えたプレゼンター動作再現ロボット。 A motion analysis means for analyzing the behavior of the document explainer;
A voice recognition means for recognizing the voice of the material explainer;
Robot operation storage means for storing the robot operation corresponding to the operation and voice of the material explainer;
The robot motion stored in the robot motion storage means corresponds to the motion of the material explainer analyzed by the motion analysis means, and corresponds to the voice of the material explainer recognized by the voice recognition means. Robot motion search means for searching for robot motion to perform,
A presenter motion reproduction robot comprising: body control means for controlling the body according to the robot motion searched by the robot motion search means.
上記資料説明者の音声の中から特定のキーワードを検出する上記音声認識手段と、
上記ロボット動作記憶手段に記憶されているロボット動作の中から、上記資料説明者の動作に対応し、かつ、上記音声認識手段により検出された特定のキーワードに対応するロボット動作を検索する上記ロボット動作検索手段とを備えたことを特徴とする請求項1記載のプレゼンター動作再現ロボット。 The robot operation storage means for storing the robot operation corresponding to the specific keyword as the robot operation corresponding to the voice of the document explainer;
The voice recognition means for detecting a specific keyword from the voice of the document explainer;
The robot operation for searching for a robot operation corresponding to the operation of the material explainer and corresponding to the specific keyword detected by the voice recognition unit from among the robot operations stored in the robot operation storage unit The presenter motion reproducing robot according to claim 1, further comprising a search unit.
音声認識手段が上記資料説明者の音声を認識する音声認識ステップと、
ロボット動作検索手段が上記資料説明者の動作及び音声に対応するロボット動作を記憶しているロボット動作記憶手段から、上記動作解析手段により解析された資料説明者の動作に対応し、かつ、上記音声認識手段により認識された資料説明者の音声に対応するロボット動作を検索するロボット動作検索ステップと、
身体制御手段が上記ロボット動作検索手段により検索されたロボット動作にしたがって身体を制御する身体制御ステップと
を備えたプレゼンター動作再現ロボットの制御方法。 A motion analysis step in which the motion analysis means analyzes the motion of the document explainer;
A voice recognition step in which the voice recognition means recognizes the voice of the material explainer;
The robot motion search means corresponds to the motion of the material explainer analyzed by the motion analysis means from the robot motion storage means in which the robot motion corresponding to the motion and voice of the material explainer is stored, and the voice A robot motion search step for searching for a robot motion corresponding to the voice of the material explainer recognized by the recognition means;
A control method for a presenter motion reproduction robot, comprising: a body control step in which the body control means controls the body according to the robot motion searched by the robot motion search means.
上記資料説明者の音声を認識する音声認識処理手順と、
上記資料説明者の動作及び音声に対応するロボット動作を記憶しているロボット動作記憶手段から、上記動作解析処理手順により解析された資料説明者の動作に対応し、かつ、上記音声認識処理手順により認識された資料説明者の音声に対応するロボット動作を検索するロボット動作検索処理手順と、
上記ロボット動作検索処理手順により検索されたロボット動作にしたがって身体を制御する身体制御処理手順と
をコンピュータに実行させるためのプレゼンター動作再現ロボットの制御プログラム。 Action analysis processing procedure to analyze the document explainer's action,
A voice recognition processing procedure for recognizing the voice of the document explainer,
Corresponding to the motion of the material explainer analyzed by the motion analysis processing procedure from the robot motion storage means storing the motion of the material explainer and the robot motion corresponding to the speech, and by the speech recognition processing procedure A robot motion search processing procedure for searching for a robot motion corresponding to the voice of the recognized document explainer;
A control program for a presenter motion reproduction robot for causing a computer to execute a body control processing procedure for controlling a body according to the robot motion searched by the robot motion search processing procedure.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007097617A JP2008254103A (en) | 2007-04-03 | 2007-04-03 | Presenter action reproducing robot, and controlling method and controlling program of presenter action reproducing robot |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007097617A JP2008254103A (en) | 2007-04-03 | 2007-04-03 | Presenter action reproducing robot, and controlling method and controlling program of presenter action reproducing robot |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008254103A true JP2008254103A (en) | 2008-10-23 |
Family
ID=39978211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007097617A Pending JP2008254103A (en) | 2007-04-03 | 2007-04-03 | Presenter action reproducing robot, and controlling method and controlling program of presenter action reproducing robot |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008254103A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012008553A1 (en) * | 2010-07-15 | 2012-01-19 | 日本電気株式会社 | Robot system |
US8508571B2 (en) | 2010-07-15 | 2013-08-13 | Konica Minolta Business Technologies, Inc. | Teleconference system |
WO2021140704A1 (en) * | 2020-01-06 | 2021-07-15 | 株式会社インタラクティブソリューションズ | Presentation support system |
JP2022017533A (en) * | 2020-01-06 | 2022-01-25 | 株式会社インタラクティブソリューションズ | system |
JP7482562B2 (en) | 2021-11-09 | 2024-05-14 | 株式会社インタラクティブソリューションズ | Presentation Support System |
-
2007
- 2007-04-03 JP JP2007097617A patent/JP2008254103A/en active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012008553A1 (en) * | 2010-07-15 | 2012-01-19 | 日本電気株式会社 | Robot system |
US8508571B2 (en) | 2010-07-15 | 2013-08-13 | Konica Minolta Business Technologies, Inc. | Teleconference system |
WO2021140704A1 (en) * | 2020-01-06 | 2021-07-15 | 株式会社インタラクティブソリューションズ | Presentation support system |
JP2021110988A (en) * | 2020-01-06 | 2021-08-02 | 株式会社インタラクティブソリューションズ | Presentation support system |
JP2021111328A (en) * | 2020-01-06 | 2021-08-02 | 株式会社インタラクティブソリューションズ | Presentation support system |
JP2022017533A (en) * | 2020-01-06 | 2022-01-25 | 株式会社インタラクティブソリューションズ | system |
US11443736B2 (en) | 2020-01-06 | 2022-09-13 | Interactive Solutions Corp. | Presentation support system for displaying keywords for a voice presentation |
JP7237378B2 (en) | 2020-01-06 | 2023-03-13 | 株式会社インタラクティブソリューションズ | system |
JP7482562B2 (en) | 2021-11-09 | 2024-05-14 | 株式会社インタラクティブソリューションズ | Presentation Support System |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5323770B2 (en) | User instruction acquisition device, user instruction acquisition program, and television receiver | |
EP2877254B1 (en) | Method and apparatus for controlling augmented reality | |
JP4795919B2 (en) | Voice interval detection method | |
US20190172448A1 (en) | Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method | |
KR100948600B1 (en) | System and method for integrating gesture and voice | |
JP5601045B2 (en) | Gesture recognition device, gesture recognition method and program | |
KR101749100B1 (en) | System and method for integrating gesture and sound for controlling device | |
KR102133728B1 (en) | Device, method and readable media for multimodal recognizing emotion based on artificial intelligence | |
JP2011123529A (en) | Information processing apparatus, information processing method, and program | |
JP2004206704A (en) | Dialog management method and device between user and agent | |
JP2006500858A (en) | Enhanced commercial detection via synthesized video and audio signatures | |
Minotto et al. | Multimodal multi-channel on-line speaker diarization using sensor fusion through SVM | |
JP2008254103A (en) | Presenter action reproducing robot, and controlling method and controlling program of presenter action reproducing robot | |
WO2017219450A1 (en) | Information processing method and device, and mobile terminal | |
JP2010128015A (en) | Device and program for determining erroneous recognition in speech recognition | |
Ponce-López et al. | Multi-modal social signal analysis for predicting agreement in conversation settings | |
JP2007199552A (en) | Device and method for speech recognition | |
Kim et al. | Look who's talking: Active speaker detection in the wild | |
JP2008168375A (en) | Body language robot, its controlling method and controlling program | |
Birmingham et al. | Group-level focus of visual attention for improved next speaker prediction | |
Roy et al. | Learning audio-visual associations using mutual information | |
JP7032284B2 (en) | A device, program and method for estimating the activation timing based on the image of the user's face. | |
US20210166685A1 (en) | Speech processing apparatus and speech processing method | |
Rybach et al. | Appearance-based features for automatic continuous sign language recognition | |
Ouellet et al. | Multimodal biometric identification system for mobile robots combining human metrology to face recognition and speaker identification |