JPH1173297A - Recognition method using timely relation of multi-modal expression with voice and gesture - Google Patents

Recognition method using timely relation of multi-modal expression with voice and gesture

Info

Publication number
JPH1173297A
JPH1173297A JP23461197A JP23461197A JPH1173297A JP H1173297 A JPH1173297 A JP H1173297A JP 23461197 A JP23461197 A JP 23461197A JP 23461197 A JP23461197 A JP 23461197A JP H1173297 A JPH1173297 A JP H1173297A
Authority
JP
Japan
Prior art keywords
gesture
voice
time
word
recognition method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP23461197A
Other languages
Japanese (ja)
Inventor
Shigeki Nagaya
茂喜 長屋
Kiyoshi Furukawa
清 古川
Ryuichi Oka
隆一 岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GIJUTSU KENKYU KUMIAI SHINJOHO
GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO
NIPPON TEKKO RENMEI
Hitachi Ltd
Original Assignee
GIJUTSU KENKYU KUMIAI SHINJOHO
GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO
NIPPON TEKKO RENMEI
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GIJUTSU KENKYU KUMIAI SHINJOHO, GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO, NIPPON TEKKO RENMEI, Hitachi Ltd filed Critical GIJUTSU KENKYU KUMIAI SHINJOHO
Priority to JP23461197A priority Critical patent/JPH1173297A/en
Publication of JPH1173297A publication Critical patent/JPH1173297A/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Abstract

PROBLEM TO BE SOLVED: To make a voice indicating the meaning of gesture correspond to gesture performed with the voice. SOLUTION: Stop positions T1-T3 of an operation are detected based on a moving image. Also, a voice is word-recognized, and utterance start and end positions T11 and T12 of the word are detected. Stop positions T1 T2 which are the closest to the utterance start and end positions T11 and T12 are defined as gesture start and end positions, and a voice and the gesture are made correspond to each other by the start and end positions T1, T2, T11, and T12.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、人間のジェスチャ
ーを撮影し、その撮影画像に基づきジェスチャーの内容
を識別するジェスチャー認識方法に関し、特に音声とジ
ェスチャによるマルチモーダル表現の時間的関係を用い
た認識方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a gesture recognition method for photographing a human gesture and identifying the content of the gesture based on the photographed image, and more particularly to a recognition method using a temporal relationship between a voice and a multimodal expression by the gesture. About the method.

【0002】[0002]

【従来の技術】人間同士のコミュニケーションのよう
に、音声やジェスチャ等のモーダルを利用可能とするた
めには個々のモーダルに対して音声認識装置やジェスチ
ャ認識装置の認識率を高めるだけでは不十分である。た
とえば、ジェスチャに関する分類(Ekman,P.Friesen,W.
V.,"The reportoire of nonverbval behaivior-categor
ies, origins, usage, and coding", Semiotical, pp.4
9-98(1969).)にも指摘されているように、音声で「こっ
ち」とか「このくらい」とか言いながらジェスチャで位
置や程度を表すことがしばしばある。このようにモーダ
ルの組み合わせにより初めて解釈可能なケースは数多く
存在する。
2. Description of the Related Art It is not enough to increase the recognition rate of a speech recognition device or a gesture recognition device for each modal in order to make modals such as voices and gestures available, such as communication between humans. is there. For example, the classification of gestures (Ekman, P. Friesen, W.
V., "The reportoire of nonverbval behaivior-categor
ies, origins, usage, and coding ", Semiotical, pp.4
As pointed out in 9-98 (1969).), Gestures often indicate the position or degree of a gesture while saying "this way" or "this much". Thus, there are many cases that can be interpreted for the first time by a combination of modals.

【0003】こうしたモーダルの組み合わせ表現を認識
装置により自動認識するためには音声とジェスチャとの
間の対応する部分を見つけなければならない。
In order to automatically recognize such a modal combination expression by a recognition device, it is necessary to find a corresponding part between a voice and a gesture.

【0004】[0004]

【発明が解決しようとする課題】音声を認識する音声認
識装置およびジェスチャを撮影画像に基づき認識するジ
ェスチャ認識装置は提案されているものの上述した音声
およびジェスチャの組み合わせを認識対象とした装置、
方法は提案されておらず、このようなマルチモーダル表
現を認識しようとした場合、上述の例でいえば、音声の
「こっち」を認識して文字列等に変換できるものの「こ
っち」に対応するジェスチャーが動画像の中でどこから
始まりどこで終了するかは、人間が目視で確認しないと
判定できないという解決すべき問題がある。
A speech recognition apparatus for recognizing a voice and a gesture recognition apparatus for recognizing a gesture based on a photographed image have been proposed.
No method has been proposed, and when trying to recognize such a multi-modal expression, in the above example, it is possible to recognize the voice "here" and convert it to a character string etc. There is a problem to be solved in which it cannot be determined where a gesture starts and ends in a moving image without visual confirmation by a human.

【0005】そこで、本発明の目的は、上述の点に鑑み
て、ジェスチャに関連する音声データおよびジェスチャ
の動作を撮影した動画像データが与えられたときに、音
声とジェスチャ部分の対応付けを自動的に行うことがで
きる認識方法を提供することにある。
[0005] In view of the above, it is an object of the present invention to automatically associate a voice with a gesture part when audio data relating to the gesture and moving image data obtained by photographing the operation of the gesture are given. It is an object of the present invention to provide a recognition method which can be performed in an efficient manner.

【0006】[0006]

【課題を解決するための手段】このような目的を達成す
るために、請求項1の発明は、ジェスチャ内容を示す音
声を伴うジェスチャを認識する認識方法において、前記
音声に対して単語認識を施し、前記単語認識において、
単語の発声開始時点および発声終了時点をそれぞれ検出
し、ジェスチャを撮影した動画像に基づき該ジェスチャ
の動作が停止する停止時点を検出し、当該検出した停止
時点の中で、前記発声開始時点および発声終了時点にそ
れぞれ最も近い停止時点を検出することによりジェスチ
ャと対応の音声とを関連付けることを特徴とする。
In order to achieve the above object, a first aspect of the present invention is a recognition method for recognizing a gesture accompanied by a voice indicating the content of a gesture. , In the word recognition,
The utterance start time and the utterance end time of the word are detected, respectively, and the stop time at which the operation of the gesture is stopped is detected based on the moving image of the gesture, and the utterance start time and the utterance are detected among the detected stop times. The gesture is associated with the corresponding voice by detecting a stop point closest to the end point.

【0007】請求項2の発明は、請求項1に記載の認識
方法において、前記動画像を構成する連続のフレーム画
像の中の隣接する2つのフレーム画像の差分値を取得
し、当該差分値の時系列変化の中の極小位置を前記停止
時点とすることを特徴とする。
According to a second aspect of the present invention, in the recognition method according to the first aspect, a difference value between two adjacent frame images in a continuous frame image constituting the moving image is obtained, and the difference value of the difference value is obtained. The minimum position in the time series change is set as the stop point.

【0008】請求項3の発明は請求項1に記載の認識方
法において、前記音声は連続音声であって、連続音声中
の単語をRIFCDPにより単語認識することを特徴と
する。
According to a third aspect of the present invention, in the recognition method according to the first aspect, the voice is a continuous voice, and words in the continuous voice are recognized by RIFCDP.

【0009】[0009]

【発明の実施の形態】以下、図面を参照して本発明の実
施形態を詳細に説明する。
Embodiments of the present invention will be described below in detail with reference to the drawings.

【0010】ジェスチャの分類例として代表的なものに
Ekmanの分類がある(表1参照)。
A typical gesture classification is Ekman's classification (see Table 1).

【0011】[0011]

【表1】 [Table 1]

【0012】表1中の例示子は、音声内容を明示的に補
うカテゴリであり、いわゆる、モーダルの組み合わせ表
現にあたる。中でも、指示・バトン・空間・象形等のジ
ェスチャでは、「こっち」とか「このくらい」などの対
応する音声表現が、ジェスチャとともに同時に出現する
タイプである。本願発明者はこの同時性に着目し、モー
ダル間(音声−動画像間)で対応部分を検索する方法を
発明した。
The exemplifiers in Table 1 are categories that explicitly supplement audio content, and correspond to so-called modal combination expressions. In particular, in the case of gestures such as instruction, baton, space, and elephant, corresponding voice expressions such as "this" and "this much" are types that appear simultaneously with the gesture. The inventor of the present application has paid attention to this simultaneity, and has invented a method of searching for a corresponding portion between modals (between voice and moving image).

【0013】上記表1の分類とは別の分類として、時間
空間(Phase)に分ける考え方(McNeil,D:Psychol
inguistics,Harper & Row (1987), 表2参照)がある。
[0013] As a classification different from the classification in Table 1, the concept of dividing into time space (Phase) (McNeil, D: Psychol)
inguistics, Harper & Row (1987), see Table 2).

【0014】[0014]

【表2】 [Table 2]

【0015】認知心理学の分野の成果として、これらフ
ェーズが、共起する言語発話の基本周波数のパワーや音
韻等とのタイミングに関係があることが既に報告されて
いる。
As a result of the field of cognitive psychology, it has already been reported that these phases are related to the power of fundamental frequencies of co-occurring language utterances and the timing of phonemes and the like.

【0016】本願発明では、表2に現れるジェスチャの
特徴の中で、ジェスチャの開始および終了時点ではジェ
スチャの動作が停止することを発見した。かかる知見に
基づき、音声部分の開始点および終了点に最も近いジェ
スチャ画像の動作停止部分をジェスチャの開始点および
終了点と見なし、音声および動画像のジェスチャーのそ
れぞれの開始点、終了点を対応付けることに特徴があ
る。
In the present invention, among the features of the gestures shown in Table 2, it has been found that the gesture stops at the start and end of the gesture. Based on such knowledge, the operation stop part of the gesture image closest to the start point and the end point of the audio part is regarded as the start point and the end point of the gesture, and the start point and the end point of the gesture of the audio and the moving image are associated with each other. There is a feature.

【0017】「例示子」カテゴリの大半は、比較的単純
な直線動作の集合体である。そこで、(1)手の位置の
時間的変化が単純な加速と減速であり、(2)手の動き
の変化は画像の時間的な変化とほぼ比例すると仮定す
る。これより動画像の時間的な変化パターンから上述の
McNeil分類それぞれのフェーズに自動的に文節化
する(Nagaya,Seki,Oka,"A Proposal of Gesture Traje
ctry Feature for Gesture Spotthing Recognition",Te
chnical Report of IEICE,Vol.PRU95(142),pp45-50.(19
95) 参照)。
The majority of the "exemplator" category is a collection of relatively simple linear motions. Therefore, it is assumed that (1) the temporal change of the hand position is simple acceleration and deceleration, and (2) the change of the hand motion is substantially proportional to the temporal change of the image. From this, the phrase is automatically segmented into the phases of the above-mentioned McNeil classification from the temporal change pattern of the moving image (Nagaya, Seki, Oka, "A Proposal of Gesture Traje
ctry Feature for Gesture Spotthing Recognition ", Te
chnical Report of IEICE, Vol.PRU95 (142), pp45-50. (19
95)).

【0018】図1にフレーム間差分値の時系列とその移
動平均および極小時刻(符号T1,T2、T3)におけ
るフレーム画像の例を模式的に示す。
FIG. 1 schematically shows an example of a time series of inter-frame difference values, a moving average thereof, and a frame image at a minimum time (codes T1, T2, T3).

【0019】実際の音声認識の場面で、基本周波数のパ
ワーや音韻ピーク等の特徴を検出することは可能である
が安定して検出することは一般的に難しい。そこで、本
実施の形態ではRIFCDP(Itoh,Kiyama,Kojima,Sei
ki,Oka:Reference Interval-Free Continuous Dynamic
Programming(RIFCDP) for spotting speech waves byar
itary parts of a reference pattern,IEICE Tech.Repo
rt,Vol.SP95-34(1995) 参照)と呼ばれる手法が連続的
な発話から認識と同時に時間区間とこれらフェーズとの
関係を調べた。その結果、両者のタイミングについて次
のような関係を確認した(図2参照)。
In an actual speech recognition scene, it is possible to detect features such as the power of the fundamental frequency and the phoneme peak, but it is generally difficult to detect it stably. Therefore, in this embodiment, RIFCDP (Itoh, Kiyama, Kojima, Sei
ki, Oka: Reference Interval-Free Continuous Dynamic
Programming (RIFCDP) for spotting speech waves byar
itary parts of a reference pattern, IEICE Tech.Repo
A method called rt, Vol. SP95-34 (1995)) examined the relationship between time intervals and these phases at the same time as recognition from continuous speech. As a result, the following relationship was confirmed between the two timings (see FIG. 2).

【0020】(ルール1)キーとなる発声表現が終了し
た直後、あるいは同時にジェスチャーストロークが停止
する。
(Rule 1) The gesture stroke stops immediately after or at the same time as the utterance expression as a key ends.

【0021】(ルール2)ジェスチャーの開始点につい
ては、キーとなる音声表現を含む最も短いストローク区
間となる。
(Rule 2) The starting point of the gesture is the shortest stroke section including the key voice expression.

【0022】音声・ジェスチャの時間的関係を検証する
ためにこれらの音声・ジェスチャ組み合わせ表現につい
て実際に収集されたデータを用いて実験を行った。用い
たのはRWCが作成したマルチモーダルデータベースで
ある。これは、10代後半から50代前半までの男女に
マルチモーダルな表現を行わせて、その音声、動画像を
データベースとしたものである。人数は22人、表現数
は25種類、各被験者ごとに4回の実験データが収めら
れている。
In order to verify the temporal relationship between voices and gestures, experiments were conducted using data actually collected for these voice / gesture combination expressions. What was used was a multimodal database created by RWC. This is a technique in which men and women in their late teens and early fifties express multimodal expressions, and their voices and moving images are used as a database. The number of participants is 22, the number of expressions is 25, and the experimental data of four times is stored for each subject.

【0023】実験では人手による判別結果(目視による
ジェスチャー画像と音声データの対応づけ)とほぼ一致
した(93.4%)。一致しないケースは被験者の振る
舞いが明らかに不自然であるような場合に限られた。
In the experiment, the result almost coincided with the result of manual discrimination (association of a gesture image and audio data by visual observation) (93.4%). Disagreement cases were limited to those where the subject's behavior was clearly unnatural.

【0024】次にキーとなる音声単語が切り出されたと
き、正しくジェスチャ・ストローク区間を決定できるか
どうかを実験した。実験データは直前にムービーファイ
ルに取り込んだ組み合わせ表現を用いた。音声単語の切
り出しにはRIFCDPの手法を用い、実時間入力した
音声と一致するムービー(動画像)の時間区間(開始点
および終点)をジェスチャ・ストローク区間検索のキー
とした。10人の被験者に対して96%の精度を得た。
Next, an experiment was conducted to determine whether or not a gesture stroke section can be correctly determined when a key voice word is cut out. The experimental data used was the combination expression that was just imported into the movie file. The RIFCDP method was used to cut out speech words, and the time section (start point and end point) of a movie (moving image) that matches the voice input in real time was used as a key for a gesture / stroke section search. 96% accuracy was obtained for 10 subjects.

【0025】以上、述べた認識方法についてよりわかり
やすく説明する。図3は認識装置のシステム構成を示
す。図1において、1はパーソナルコンピュータ等の情
報処理装置である。パーソナルコンピュータ1が図4の
処理プログラムを実行することによりマルチモーダルの
個々のマルチモーダル(音声とジェスチャ)の対応づけ
を行う。
The above-described recognition method will be described more clearly. FIG. 3 shows the system configuration of the recognition device. In FIG. 1, reference numeral 1 denotes an information processing device such as a personal computer. The personal computer 1 executes the processing program of FIG. 4 to associate each multimodal multimodal (voice and gesture).

【0026】2はマイクロホンであり、被験者が発声し
た音声を入力し、パーソナルコンピュータ1に音声信号
を出力する。3はビデオカメラであり、被験者のジェス
チャを撮影し、フレーム単位の動画像データ(いわゆる
ムービー)を電気信号の形態でパーソナルコンピュータ
1に出力する。
Reference numeral 2 denotes a microphone which inputs a voice uttered by the subject and outputs a voice signal to the personal computer 1. Reference numeral 3 denotes a video camera which captures a gesture of a subject and outputs moving image data (a so-called movie) in frame units to the personal computer 1 in the form of electric signals.

【0027】パーソナルコンピュータ1では図4の処理
プログラムに基づき以下の処理を実行する。マイクロホ
ン2から出力された音声データおよびビデオカメラ3か
ら出力されたフレーム画像を装置内に記憶する(ステッ
プ10)。図1は「いいえ」と被験者が発声しながらこ
の[いいえ]に対応するジェスチャを行った場合の、特
定時点のフレーム画像を示しており、図2には音声波形
(符号200)を示している。
The personal computer 1 executes the following processing based on the processing program shown in FIG. The audio data output from the microphone 2 and the frame image output from the video camera 3 are stored in the device (step 10). FIG. 1 shows a frame image at a specific time point when a subject performs a gesture corresponding to this [No] while saying "No", and FIG. 2 shows an audio waveform (reference numeral 200). .

【0028】所定時間分の音声データおよびフレーム画
像を取得すると、パーソナルコンピュータ1は音声デー
タについてRIFCDPの手法により単語の音声認識を
行う(ステップS20)。より具体的には、音声データ
から特徴を抽出し、予め標準パターンとして用意されて
いる複数組の特徴とを連続DPと呼ばれるマッチング手
法を使用して比較し、音声データの特徴に最も類似して
いる標準パターンの特徴を検出することにより音声認識
を行う。このマッチングの処理において、連続音声中の
認識対象の単語(この場合「いいえ」)の単語区間、す
なわち、開始位置(開始時刻、図2のT11)および終
了位置(終了時刻T12)も検出される(ステップ3
0)。
After acquiring the voice data and the frame image for a predetermined time, the personal computer 1 recognizes the words of the voice data by the RIFCDP method (step S20). More specifically, features are extracted from voice data, and a plurality of sets of features prepared as a standard pattern are compared in advance using a matching method called continuous DP. Speech recognition is performed by detecting the features of the standard pattern. In this matching process, the word section of the word to be recognized in the continuous voice (in this case, “No”), that is, the start position (start time, T11 in FIG. 2) and the end position (end time T12) are also detected. (Step 3
0).

【0029】次にパーソナルコンピュータ1は動画像
(連続する複数のフレーム画像)に基づき被験者の動作
の停止位置(時刻)を検出する。このために隣接する2
つのフレーム画像について同一画素位置の画像データの
差を計算する(ステップS40)。静止部分については
2つの画像データの差分値は極めて0(ゼロ)に近い値
となる。
Next, the personal computer 1 detects the stop position (time) of the subject's operation based on the moving image (a plurality of continuous frame images). Because of this, two adjacent
The difference between the image data at the same pixel position for one frame image is calculated (step S40). For a still portion, the difference value between the two image data is extremely close to 0 (zero).

【0030】各画素の差分値を合計する。この合計した
ものが上述のフレーム間差分値である。また、ある時点
から一定時間分のフレーム間差分値の平均をとり、その
平均値を上記時点の移動平均値とし、各時点での移動平
均値を時系列的にプロットすると図1および図2の符号
100の曲線が得られる。ジェスチャの停止位置では被
験者の手や頭の動き(ストローク)が静止するので、フ
レーム間差分値はゼロに近い値となる。このような性質
を利用して、移動平均値の時間的変化の中で極小となる
位置(時刻)をジェスチャーの停止位置と判定する(上
述のルール1、ステップS50))。フレーム間差分
値、移動平均の計算や極小点の検出は周知であり、詳細
な説明は要しないであろう。
The difference value of each pixel is summed. The sum is the above-described inter-frame difference value. 1 and FIG. 2 are obtained by taking the average of the inter-frame difference values for a certain time from a certain time point, and taking the average value as the moving average value at the above time point, and plotting the moving average value at each time point in time series. A curve denoted by reference numeral 100 is obtained. Since the movement (stroke) of the subject's hand or head stops at the gesture stop position, the inter-frame difference value is close to zero. By utilizing such a property, a position (time) at which the moving average value changes with time is determined as a gesture stop position (rule 1, step S50 described above). The calculation of the inter-frame difference value, the moving average, and the detection of the minimum point are well known and need not be described in detail.

【0031】このジェスチャ停止位置の検出結果として
図2の時刻T1、T2、T3が得られる。なお、こフレ
ーム画像からはジェスチャの動作の停止位置しか検出で
きず、その停止位置がジェスチャの開始時点なのか終了
時点なのかは判別できないことに留意されたい。そこ
で、本実施形態では、単語の音声認識において、認識結
果とともに得られた単語の発声開始時刻(図2の時刻T
11)とストローク停止時刻T1、T2、T3とをそれ
ぞれ比較し、単語の発声開始時刻T11に対して間隔が
最も短いストローク時刻を検出する。図2の例では時刻
T1が最短の時刻として検出され、ここで時刻T1がジ
ェスチャの開始時点と決定される(上述のルール2)。
Times T1, T2 and T3 in FIG. 2 are obtained as a result of detecting the gesture stop position. Note that only the stop position of the gesture operation can be detected from this frame image, and it cannot be determined whether the stop position is the start point or the end point of the gesture. Therefore, in the present embodiment, in the speech recognition of the word, the utterance start time of the word (the time T in FIG.
11) and stroke stop times T1, T2, and T3, respectively, to detect a stroke time having the shortest interval with respect to the word utterance start time T11. In the example of FIG. 2, the time T1 is detected as the shortest time, and the time T1 is determined as the start time of the gesture here (rule 2 described above).

【0032】同様にして単語の発声終了時刻T12に最
短のストローク停止時刻を検出すると時刻T2(図2参
照)が得られ、ジェスチャの終了時刻と決定される(ス
テップS60)。このようにして音声の中のある単語が
認識されると、その単語の音声区間(開始時刻T11お
よび終了時刻12)とそのジェスチャ区間(開始時刻T
1および終了時刻T2)とが対応づけられ、これら時刻
データが装置内に記憶される。必要に応じて、これら時
刻データとともに音声の認識結果も記憶される。
Similarly, when the shortest stroke stop time is detected at the utterance end time T12 of the word, the time T2 (see FIG. 2) is obtained, and the end time of the gesture is determined (step S60). When a certain word in the voice is recognized in this way, the voice section (start time T11 and end time 12) of the word and the gesture section (start time T)
1 and the end time T2), and these time data are stored in the apparatus. If necessary, a speech recognition result is stored together with the time data.

【0033】上述の実施形態の他に次の形態を実施でき
る。
The following embodiment can be carried out in addition to the above embodiment.

【0034】1)音声の発声開始時刻と発声終了時刻の
検出の方法としては上述のRIFCDPの他に音声信号
の電圧レベルがしきい値以下からしきい値以上となる時
点およびその逆の時点を検出する方法が知られている。
この方法は、被験者が発声した音声が1つの単語のみの
場合に使用可能である。RIFCDPの手法は、複数の
単語(句を含む)が連続する連続音声でもその中の各単
語の区間を検出することができるので、複数のジェスチ
ャを連続して行う場合、音声も連続するので、RIFC
DPを使用すると各ジェスチャとその意味を示す音声と
を対応づけることができる。これにより複数種のジェス
チャを被験者が行った場合でもあるジェスチャと他のジ
ェスチャの区切れでは動作停止が生じるので、本発明に
よれば、複数の連続するジェスチャをも認識することが
できる。
1) As a method of detecting the utterance start time and the utterance end time of the voice, in addition to the above-mentioned RIFCDP, the time when the voltage level of the voice signal is changed from the threshold value to the threshold value or more and vice versa. Methods for detecting are known.
This method can be used when the subject utters only one word. The RIFCDP method can detect a section of each word in a continuous speech in which a plurality of words (including phrases) are continuous. Therefore, when performing a plurality of gestures continuously, the speech is also continuous. RIFC
By using the DP, each gesture can be associated with a voice indicating its meaning. As a result, when a gesture is performed by a subject even when a plurality of types of gestures are performed, an operation stop occurs at a boundary between the gesture and another gesture. Therefore, according to the present invention, a plurality of continuous gestures can be recognized.

【0035】[0035]

【発明の効果】以上、説明したように、請求項1の発明
によれば、音声の単語発声時点および単語発声終了時点
に基づき、ジェスチャの開始時点および終了時点を検出
することができ、また、これら開始および終了時点によ
りジェスチャの意味を示す音声区間とジェスチャとを自
動的に互いに対応付けることが可能となる。
As described above, according to the first aspect of the present invention, the start time and the end time of the gesture can be detected based on the word utterance time and the word utterance end time of the voice. It is possible to automatically associate a gesture with a voice section indicating the meaning of the gesture based on the start and end points.

【0036】請求項2の発明によればフレーム画像の差
分値を使用することでジェスチャの動作停止時点を検出
することができる。また、差分値の時間的な変化の極小
部分を検出することで、複数種のジェスチャを一連で行
ってもそのジェスチャの区切れを確実に検出することが
できる。
According to the second aspect of the present invention, it is possible to detect the point at which the operation of the gesture is stopped by using the difference value between the frame images. In addition, by detecting the minimum portion of the temporal change in the difference value, even if a plurality of types of gestures are performed in series, it is possible to reliably detect a break in the gesture.

【0037】請求項3の発明によれば、RIFCDPに
よる単語認識は連続音声中での各単語の発声区間を検出
することができるので、複数種の一連のジェスチャを認
識する場合にも対応することができる。
According to the third aspect of the present invention, since the word recognition by RIFCDP can detect the utterance section of each word in the continuous voice, it can cope with a case where a plurality of types of gestures are recognized. Can be.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明実施形態の特定時点のフレーム画像と画
像特徴の関係を示す図である。
FIG. 1 is a diagram illustrating a relationship between a frame image at a specific point in time and image characteristics according to an embodiment of the present invention.

【図2】本発明実施形態の画像特徴と音声との間の対応
関係を示す図である。
FIG. 2 is a diagram showing a correspondence relationship between image features and audio according to the embodiment of the present invention.

【図3】本発明実施形態のシステム構成を示すブロック
図である。
FIG. 3 is a block diagram showing a system configuration according to the embodiment of the present invention.

【図4】本発明実施形態の処理手順を示すフローチャー
トである。
FIG. 4 is a flowchart showing a processing procedure according to the embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1 パーソナルコンピュータ 2 マイクロホン 3 ビデオカメラ 1 personal computer 2 microphone 3 video camera

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 FI G10L 3/00 571 G06F 15/62 380 (72)発明者 長屋 茂喜 東京都国分寺市東恋ケ窪一丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 古川 清 東京都千代田区大手町1−9−4 経団連 会館 社団法人日本鉄鋼連盟内 (72)発明者 岡 隆一 茨城県つくば市竹園1丁目6番1号 つく ば三井ビル 技術研究組合新情報処理開発 機構 つくば研究センタ内──────────────────────────────────────────────────の Continuation of the front page (51) Int.Cl. 6 Identification code FI G10L 3/00 571 G06F 15/62 380 (72) Inventor Shigeki Nagaya 1-280 Higashi-Koigakubo, Kokubunji-shi, Tokyo Hitachi, Ltd. In-house (72) Inventor Kiyoshi Furukawa 1-9-4 Otemachi, Chiyoda-ku, Tokyo Keidanren Kaikan Within the Iron and Steel Federation of Japan (72) Inventor Ryuichi Oka 1-6-1-1, Takezono, Tsukuba-shi, Ibaraki Tsukuba Mitsui Building Technology Research Association New Information Processing Development Organization Tsukuba Research Center

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 ジェスチャ内容を示す音声を伴うジェス
チャを認識する認識方法において、 前記音声に対して単語認識を施し、 前記単語認識において、単語の発声開始時点および発声
終了時点をそれぞれ検出し、 ジェスチャを撮影した動画像に基づき該ジェスチャの動
作が停止する停止時点を検出し、 当該検出した停止時点の中で、前記発声開始時点および
発声終了時点にそれぞれ最も近い停止時点を検出するこ
とによりジェスチャと対応の音声とを関連付けることを
特徴とする認識方法。
1. A recognition method for recognizing a gesture accompanied by a voice indicating the contents of a gesture, performing word recognition on the voice, and detecting a start time and a finish time of utterance of the word in the word recognition, respectively. Detecting a stop point at which the operation of the gesture stops based on the moving image taken of the gesture, and detecting a stop point closest to the utterance start point and the utterance end point, respectively, among the detected stop points, thereby defining the gesture as A recognition method characterized by associating a corresponding voice.
【請求項2】 請求項1に記載の認識方法において、前
記動画像を構成する連続のフレーム画像の中の隣接する
2つのフレーム画像の差分値を取得し、当該差分値の時
系列変化の中の極小位置を前記停止時点とすることを特
徴とする認識方法。
2. The recognition method according to claim 1, wherein a difference value between two adjacent frame images in a continuous frame image forming the moving image is obtained, and a difference value of the difference value in a time series is obtained. Wherein the minimum position is set as the stop time.
【請求項3】 請求項1に記載の認識方法において、前
記音声は連続音声であって、連続音声中の単語をRIF
CDPにより単語認識することを特徴とする認識方法。
3. The recognition method according to claim 1, wherein the speech is continuous speech, and words in the continuous speech are converted to RIF.
A recognition method characterized by word recognition by CDP.
JP23461197A 1997-08-29 1997-08-29 Recognition method using timely relation of multi-modal expression with voice and gesture Pending JPH1173297A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23461197A JPH1173297A (en) 1997-08-29 1997-08-29 Recognition method using timely relation of multi-modal expression with voice and gesture

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23461197A JPH1173297A (en) 1997-08-29 1997-08-29 Recognition method using timely relation of multi-modal expression with voice and gesture

Publications (1)

Publication Number Publication Date
JPH1173297A true JPH1173297A (en) 1999-03-16

Family

ID=16973764

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23461197A Pending JPH1173297A (en) 1997-08-29 1997-08-29 Recognition method using timely relation of multi-modal expression with voice and gesture

Country Status (1)

Country Link
JP (1) JPH1173297A (en)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002182685A (en) * 2000-12-12 2002-06-26 Sony Corp Recognizer and recognition system, learning system and learning method as well as recording medium
JP2007114885A (en) * 2005-10-18 2007-05-10 National Institute Of Information & Communication Technology Classification method and device by similarity of image
JP2007142957A (en) * 2005-11-21 2007-06-07 National Institute Of Information & Communication Technology Remote interaction method and apparatus
JPWO2005069171A1 (en) * 2004-01-14 2008-09-04 日本電気株式会社 Document association apparatus and document association method
KR100948600B1 (en) * 2006-12-04 2010-03-24 한국전자통신연구원 System and method for integrating gesture and voice
JP2011164694A (en) * 2010-02-04 2011-08-25 Nec Corp Device and method for support of standard operation execution
JP2016512364A (en) * 2013-03-15 2016-04-25 クアルコム,インコーポレイテッド System and method for switching processing modes using gestures
WO2018061743A1 (en) * 2016-09-28 2018-04-05 コニカミノルタ株式会社 Wearable terminal
JP2018163400A (en) * 2017-03-24 2018-10-18 日本電信電話株式会社 Model learning apparatus, speech word estimation apparatus, model learning method, speech word estimation method and program
WO2018235191A1 (en) * 2017-06-21 2018-12-27 三菱電機株式会社 Gesture operation device and gesture operation method
JP2019128939A (en) * 2018-01-22 2019-08-01 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド Gesture based voice wakeup method, apparatus, arrangement and computer readable medium
JP2020135424A (en) * 2019-02-20 2020-08-31 Kddi株式会社 Information processor, information processing method, and program
US20210224346A1 (en) 2018-04-20 2021-07-22 Facebook, Inc. Engaging Users by Personalized Composing-Content Recommendation
US11676220B2 (en) 2018-04-20 2023-06-13 Meta Platforms, Inc. Processing multimodal user input for assistant systems
US11715042B1 (en) 2018-04-20 2023-08-01 Meta Platforms Technologies, Llc Interpretability of deep reinforcement learning models in assistant systems
US11886473B2 (en) 2018-04-20 2024-01-30 Meta Platforms, Inc. Intent identification for agent matching by assistant systems

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08234789A (en) * 1995-02-27 1996-09-13 Sharp Corp Integrated recognition interactive device
JPH09102045A (en) * 1995-10-03 1997-04-15 Hitachi Ltd Moving picture processing system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08234789A (en) * 1995-02-27 1996-09-13 Sharp Corp Integrated recognition interactive device
JPH09102045A (en) * 1995-10-03 1997-04-15 Hitachi Ltd Moving picture processing system

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002182685A (en) * 2000-12-12 2002-06-26 Sony Corp Recognizer and recognition system, learning system and learning method as well as recording medium
JP4600828B2 (en) * 2004-01-14 2010-12-22 日本電気株式会社 Document association apparatus and document association method
JPWO2005069171A1 (en) * 2004-01-14 2008-09-04 日本電気株式会社 Document association apparatus and document association method
JP2007114885A (en) * 2005-10-18 2007-05-10 National Institute Of Information & Communication Technology Classification method and device by similarity of image
JP2007142957A (en) * 2005-11-21 2007-06-07 National Institute Of Information & Communication Technology Remote interaction method and apparatus
KR100948600B1 (en) * 2006-12-04 2010-03-24 한국전자통신연구원 System and method for integrating gesture and voice
JP2010511958A (en) * 2006-12-04 2010-04-15 韓國電子通信研究院 Gesture / voice integrated recognition system and method
JP2011164694A (en) * 2010-02-04 2011-08-25 Nec Corp Device and method for support of standard operation execution
JP2016512364A (en) * 2013-03-15 2016-04-25 クアルコム,インコーポレイテッド System and method for switching processing modes using gestures
WO2018061743A1 (en) * 2016-09-28 2018-04-05 コニカミノルタ株式会社 Wearable terminal
JP2018163400A (en) * 2017-03-24 2018-10-18 日本電信電話株式会社 Model learning apparatus, speech word estimation apparatus, model learning method, speech word estimation method and program
WO2018235191A1 (en) * 2017-06-21 2018-12-27 三菱電機株式会社 Gesture operation device and gesture operation method
JPWO2018235191A1 (en) * 2017-06-21 2019-11-07 三菱電機株式会社 Gesture operating device and gesture operating method
JP2019128939A (en) * 2018-01-22 2019-08-01 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド Gesture based voice wakeup method, apparatus, arrangement and computer readable medium
JP2021522561A (en) * 2018-04-20 2021-08-30 フェイスブック・テクノロジーズ・リミテッド・ライアビリティ・カンパニーFacebook Technologies, Llc Personalized gesture recognition for user interaction with auxiliary systems
US11715042B1 (en) 2018-04-20 2023-08-01 Meta Platforms Technologies, Llc Interpretability of deep reinforcement learning models in assistant systems
US11908179B2 (en) 2018-04-20 2024-02-20 Meta Platforms, Inc. Suggestions for fallback social contacts for assistant systems
US11676220B2 (en) 2018-04-20 2023-06-13 Meta Platforms, Inc. Processing multimodal user input for assistant systems
US20230186618A1 (en) 2018-04-20 2023-06-15 Meta Platforms, Inc. Generating Multi-Perspective Responses by Assistant Systems
US11688159B2 (en) 2018-04-20 2023-06-27 Meta Platforms, Inc. Engaging users by personalized composing-content recommendation
US11694429B2 (en) 2018-04-20 2023-07-04 Meta Platforms Technologies, Llc Auto-completion for gesture-input in assistant systems
US11704900B2 (en) 2018-04-20 2023-07-18 Meta Platforms, Inc. Predictive injection of conversation fillers for assistant systems
US11704899B2 (en) 2018-04-20 2023-07-18 Meta Platforms, Inc. Resolving entities from multiple data sources for assistant systems
US20210224346A1 (en) 2018-04-20 2021-07-22 Facebook, Inc. Engaging Users by Personalized Composing-Content Recommendation
US11715289B2 (en) 2018-04-20 2023-08-01 Meta Platforms, Inc. Generating multi-perspective responses by assistant systems
US11721093B2 (en) 2018-04-20 2023-08-08 Meta Platforms, Inc. Content summarization for assistant systems
US11727677B2 (en) 2018-04-20 2023-08-15 Meta Platforms Technologies, Llc Personalized gesture recognition for user interaction with assistant systems
US11869231B2 (en) 2018-04-20 2024-01-09 Meta Platforms Technologies, Llc Auto-completion for gesture-input in assistant systems
US11887359B2 (en) 2018-04-20 2024-01-30 Meta Platforms, Inc. Content suggestions for content digests for assistant systems
US11886473B2 (en) 2018-04-20 2024-01-30 Meta Platforms, Inc. Intent identification for agent matching by assistant systems
US11908181B2 (en) 2018-04-20 2024-02-20 Meta Platforms, Inc. Generating multi-perspective responses by assistant systems
JP2020135424A (en) * 2019-02-20 2020-08-31 Kddi株式会社 Information processor, information processing method, and program

Similar Documents

Publication Publication Date Title
US10074363B2 (en) Method and apparatus for keyword speech recognition
JPH1173297A (en) Recognition method using timely relation of multi-modal expression with voice and gesture
US7373301B2 (en) Method for detecting emotions from speech using speaker identification
Sahoo et al. Emotion recognition from audio-visual data using rule based decision level fusion
CN112102850B (en) Emotion recognition processing method and device, medium and electronic equipment
CN112289323A (en) Voice data processing method and device, computer equipment and storage medium
CN111145782A (en) Overlapped speech recognition method, device, computer equipment and storage medium
CN112507311A (en) High-security identity verification method based on multi-mode feature fusion
Meyer et al. Improving convolutional recurrent neural networks for speech emotion recognition
Ballard et al. A multimodal learning interface for word acquisition
JPH0632012B2 (en) Voice recognizer
CN112466287B (en) Voice segmentation method, device and computer readable storage medium
CN113593565B (en) Intelligent home device management and control method and system
CN113744742B (en) Role identification method, device and system under dialogue scene
JPH0340177A (en) Voice recognizing device
Neti et al. Joint processing of audio and visual information for multimedia indexing and human-computer interaction.
EP0177854A1 (en) Keyword recognition system using template-concatenation model
Escalera et al. Multi-modal laughter recognition in video conversations
CN113178196B (en) Audio data extraction method and device, computer equipment and storage medium
JP2757356B2 (en) Word speech recognition method and apparatus
Lin et al. Semi-coupled hidden Markov model with state-based alignment strategy for audio-visual emotion recognition
Jiang et al. Multilayer architecture in sign language recognition system
JP2710045B2 (en) Voice recognition method
KR20240013550A (en) Method and apparatus for detecting overlap of voices through multimodal analysis
CN112820292A (en) Method, device, electronic device and storage medium for generating conference summary

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040723

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041203