JP2010511958A - Gesture / voice integrated recognition system and method - Google Patents
Gesture / voice integrated recognition system and method Download PDFInfo
- Publication number
- JP2010511958A JP2010511958A JP2009540141A JP2009540141A JP2010511958A JP 2010511958 A JP2010511958 A JP 2010511958A JP 2009540141 A JP2009540141 A JP 2009540141A JP 2009540141 A JP2009540141 A JP 2009540141A JP 2010511958 A JP2010511958 A JP 2010511958A
- Authority
- JP
- Japan
- Prior art keywords
- gesture
- integrated
- voice
- feature information
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
本発明はジェスチャー/音声統合認識システム及び方法に関し、雑音環境下における音声とジェスチャーの統合を通じて命令語の認識の性能を高めるために入力された音声の中から命令語の始点と終点を検出し音声特徴情報を抽出する音声特徴抽出部と、前記検出した始点と終点に関する情報を用いて撮影映像のジェスチャーから命令区間を検出し、ジェスチャー特徴情報を抽出するジェスチャー特徴抽出部と、前記抽出された音声特徴情報とジェスチャー特徴情報を既設定の学習パラメーターを用いて統合認識データとして出力する統合認識部を含んで構成され、簡単に、且つ正確にユーザーの命令を認識することができる。 The present invention relates to a gesture / speech integrated recognition system and method, and relates to a voice and speech recognition method that detects the start and end points of a command word from input voices in order to improve the recognition performance of the command word through voice and gesture integration in a noisy environment. A voice feature extraction unit for extracting feature information, a gesture feature extraction unit for detecting a command section from a gesture of a captured video using information on the detected start point and end point, and extracting gesture feature information; and the extracted voice The system includes an integrated recognition unit that outputs feature information and gesture feature information as integrated recognition data using preset learning parameters, and can easily and accurately recognize user commands.
Description
本発明は、統合認識技術に関し、特に、実際の雑音環境下でユーザーの命令を高性能で認識するために、音声のEPD値を利用しジェスチャーの特徴情報を抽出して音声の特徴情報と統合し、ユーザーの命令を認識することができるジェスチャー/音声統合認識システム及び方法に関する。 The present invention relates to integrated recognition technology, and in particular, extracts feature information of gestures using speech EPD values and integrates them with speech feature information in order to recognize user commands with high performance in an actual noise environment. And a gesture / voice integrated recognition system and method capable of recognizing a user's command.
本発明は、情報通信部及び情報通信研究振興院のIT新成長動力核心技術開発事業の一環として行った研究から導出されたものである[課題管理番号:2006−S−031−01、課題名:ネットワークに基づく実感型サービスのための五感情報処理技術の開発]。 The present invention is derived from research conducted as part of the IT New Growth Dynamic Core Technology Development Project of the Information Communication Department and the Information Communication Research Promotion Agency [Problem Management Number: 2006-S-031-01, Name of Project] : Development of five-sense information processing technology for network-based real-world services].
最近、マルチメディア技術とインターフェイス技術の発達に伴い、人と機械のインターフェイスを容易く、且つ簡単に実現するために、顔の表情や方向、唇の形、凝視追跡、手のジェスチャ、音声等を利用しマルチモーダル(Multi−modal)形態の認識研究が活発に行われている。 Recently, with the development of multimedia technology and interface technology, facial expression and direction, lip shape, gaze tracking, hand gesture, voice, etc. are used to easily and easily realize human-machine interface. However, research on the recognition of multi-modal forms has been actively conducted.
特に、現在のMan−Machineインターフェイス技術のうち、音声認識技術とジェスチャー認識技術が最も便利なインターフェイス技術として使用されている。但し、音声認識技術とジェスチャー認識技術は、制限された環境では高い認識率を示すが、実際の雑音環境下ではその性能を十分に発揮できないという問題がある。それは、音声認識は環境の雑音が性能に最も大きな影響を与えるからであり、カメラに基づくジェスチャー認識技術は照明の変化とジェスチャーの種類によって性能の差が多く発生する。従って、音声認識技術は、雑音に強いアルゴリズムを利用して認識することができる技術の開発が必要であり、ジェスチャー認識技術は認識情報を含むジェスチャーの特定区間を抽出することができる技術開発が必要となった。また、一般的なジェスチャーを使用する場合にはジェスチャーの特定区間が簡単に区分できないため、認識することに困難があった。 In particular, among the current Man-Machine interface technologies, speech recognition technology and gesture recognition technology are used as the most convenient interface technologies. However, although the voice recognition technology and the gesture recognition technology show a high recognition rate in a limited environment, there is a problem that the performance cannot be sufficiently exhibited in an actual noise environment. This is because, in speech recognition, environmental noise has the greatest effect on performance, and in camera-based gesture recognition technology, there are many differences in performance depending on lighting changes and gesture types. Therefore, it is necessary to develop a technology that can recognize speech recognition technology using a noise-resistant algorithm, and gesture recognition technology needs technology development that can extract a specific section of a gesture including recognition information. It became. In addition, when using a general gesture, it is difficult to recognize a specific section of the gesture because it cannot be easily divided.
また、音声とジェスチャーを統合し認識する場合においては、音声フレームの処理速度は約10ms/frameであり、映像フレームの処理速度は約66.7ms/frameであるため、各フレームを処理する処理速度に差がある上、一般的にジェスチャー区間が音声区間と比べて、より多くの時間がかかるため、発生する音声区間の長さとジェスチャー区間の長さに差が発生し、音声とジェスチャーを同期化するのに問題が生じる。 In the case where voice and gesture are integrated and recognized, the processing speed of the audio frame is about 10 ms / frame and the processing speed of the video frame is about 66.7 ms / frame. In addition, since the gesture section generally takes more time than the voice section, there is a difference between the length of the generated voice section and the length of the gesture section, and the voice and gesture are synchronized. Problems arise.
従って、上記のような問題を解決するために、環境雑音に強いアルゴリズムを用い、ユーザーの音声から命令語区間を探索して特徴情報を抽出し、また音声の命令語の始点に関する情報を用いてジェスチャーの特徴区間を検出し、明確に区分されないジェスチャーも簡単に命令を認識することができる手段が必要となった。 Therefore, in order to solve the above problems, an algorithm that is resistant to environmental noise is used, a command word section is searched from the user's voice, feature information is extracted, and information about the start point of the voice command word is used. There is a need for a means that can detect a feature section of a gesture and easily recognize a command even for a gesture that is not clearly divided.
また、音声とジェスチャーの統合認識において発生する同期の差に関する問題を、音声EPD値により検出されたジェスチャーの命令区間で予め設定された最適フレームを適用し、同期を一致させる手段が必要となった。 In addition, there is a need for means for matching synchronization by applying an optimal frame preset in the gesture command section detected by the voice EPD value to the problem regarding the synchronization difference that occurs in the integrated recognition of voice and gesture. .
上記のような問題を解決するための本発明のジェスチャー/音声統合認識システムは、入力された音声の中から命令語の始点と終点を検出し音声特徴情報を抽出する音声特徴抽出部と、前記検出した始点と終点に関する情報を利用して撮影映像のジェスチャーから命令区間を検出しジェスチャー特徴情報を抽出するジェスチャー特徴抽出部と、前記抽出した音声特徴情報とジェスチャー特徴情報を既設定の学習パラメーターを用いて統合認識データとして出力する統合認識部を含んで成ることを特徴とする。 An integrated gesture / speech recognition system according to the present invention for solving the above-described problem includes a speech feature extraction unit that detects a start point and an end point of a command word from input speech and extracts speech feature information; Using the information about the detected start and end points, a gesture feature extraction unit that detects a command section from a gesture of a captured video and extracts gesture feature information; and the extracted speech feature information and gesture feature information with preset learning parameters It is characterized by comprising an integrated recognition unit that is used and output as integrated recognition data.
一方、前記ジェスチャー/音声統合認識システムは、前記検出した始点を利用し前記撮影映像からジェスチャーの始点を検出するジェスチャー始点検出モジュールと、前記ジェスチャーの始点から予め設定された最適フレーム数を適用し最適の映像フレームを計算して抽出する最適フレーム適用モジュールを含む同期化モジュールをさらに含むことを特徴とする。このとき、前記ジェスチャー始点検出モジュールは、前記検出した音声の始点(EPD:End Point Detection)プラグを前記撮影映像でチェックしジェスチャーの始点を検出することを特徴とする。 On the other hand, the integrated gesture / speech recognition system uses the detected start point to detect the start point of the gesture from the captured video and applies the optimum number of frames set in advance from the start point of the gesture. And a synchronization module including an optimum frame application module for calculating and extracting the video frame. At this time, the gesture start point detection module detects the start point of the gesture by checking the detected start point (EPD: End Point Detection) plug in the captured video.
また、前記音声特徴抽出部は、前記入力された音声の中から命令語の始点と終点を検出するイーピーディー(EPD:End Point Detection)検出モジュールと、聴覚モデルに基づくアルゴリズムを利用し、前記検出した命令語から前記命令語に含まれた音声特徴情報を抽出する聴覚モデルに基づく音声特徴抽出モジュールを含んで成り、さらに、前記抽出した音声特徴情報から雑音を除去することを特徴とする。 The voice feature extraction unit uses an EPD (End Point Detection) detection module that detects a start point and an end point of a command word from the input voice, and an algorithm based on an auditory model, and detects the detection. A speech feature extraction module based on an auditory model for extracting speech feature information included in the command word from the command word, and further removing noise from the extracted speech feature information.
また、前記ジェスチャー特徴抽出モジュールは、カメラで撮影された映像から手の動きを追跡し前記同期化モジュールに伝送する手追跡モジュールと、前記同期化モジュールで抽出した最適の映像フレームを利用し、ジェスチャー特徴情報を抽出するジェスチャー特徴抽出モジュールを含んで成ることを特徴とする。 The gesture feature extraction module uses a hand tracking module that tracks hand movements from video captured by a camera and transmits the motion to the synchronization module, and an optimal video frame extracted by the synchronization module. It is characterized by comprising a gesture feature extraction module for extracting feature information.
また、前記統合認識部は、予め設定された統合学習モデルと統合学習データベースに基づき学習パラメーターを生成する統合学習DB制御モジュールと、前記抽出した音声特徴情報とジェスチャー特徴情報を前記生成された学習パラメーターを利用し制御する統合特徴制御モジュールと、前記統合特徴制御モジュールにより制御される結果を認識結果として生成する統合認識モジュールを含んで成ることを特徴とし、このとき、前記統合特徴制御モジュールは、入力されるベクトルのノード数の拡張と縮小を通じて前記抽出した音声特徴情報とジェスチャー特徴情報の特徴ベクトルを制御することを特徴とする。 In addition, the integrated recognition unit includes an integrated learning DB control module that generates a learning parameter based on a preset integrated learning model and an integrated learning database, the extracted speech feature information and gesture feature information as the generated learning parameter And an integrated recognition module for generating a result controlled by the integrated feature control module as a recognition result. In this case, the integrated feature control module is an input. The feature vector of the extracted speech feature information and gesture feature information is controlled through expansion and reduction of the number of nodes of the vector to be performed.
上記のような目的を達成するため、本発明のジェスチャー/音声統合認識方法は、入力された音声の中から命令語の始点(EPD値)と終点を検出し音声特徴情報を抽出する1段階と、前記検出した命令語の始点を利用し、カメラにより入力された映像のジェスチャーから命令区間を検出し、ジェスチャー特徴情報を抽出する2段階及び前記抽出した音声特徴情報とジェスチャー特徴情報を既設定の学習パラメーターを利用し統合認識データとして出力する3段階を含んで成ることを特徴とする。 In order to achieve the above object, the gesture / speech integrated recognition method of the present invention includes a step of detecting speech feature information by detecting a start point (EPD value) and an end point of a command word from input speech. , Using the detected start point of the command word, detecting the command section from the gesture of the video input by the camera, and extracting the gesture feature information; and the extracted voice feature information and gesture feature information are already set It is characterized by comprising three stages of outputting as integrated recognition data using learning parameters.
このとき、前記1段階は、前記命令語の始点と終点による命令語区間から聴覚モデルに基づき音声特徴情報を抽出することを特徴とする。 At this time, the step 1 is characterized in that voice feature information is extracted based on an auditory model from a command word section by a start point and an end point of the command word.
また、前記2段階は、前記カメラの入力映像から手のジェスチャーを追跡するA段階と、前記伝送されたEPD値を利用して前記手のジェスチャーによる命令区間を検出するB段階と、予め設定された最適のフレームを適用し前記ジェスチャーによる命令区間から最適のフレームを決めるC段階と、前記決められた最適のフレームからジェスチャー特徴情報を抽出するD段階を含んで成ることを特徴とする。 In addition, the two steps are preset as A step for tracking a hand gesture from the input image of the camera and B step for detecting a command interval by the hand gesture using the transmitted EPD value. And C stage for determining the optimum frame from the command section by the gesture and D stage for extracting gesture feature information from the determined optimum frame.
前述のように本発明によるジェスチャー/音声統合認識システム及び方法は、音声の命令語区間の始点であるEPD値を利用してジェスチャーの命令語区間を検出し、明確に区分できないジェスチャーの場合にも認識率を高めることができ、また、ジェスチャーの命令語区間に対して最適のフレームを適用し音声とジェスチャーの同期化を通じ、音声とジェスチャーによる統合認識を実現することができる効果がある。 As described above, the gesture / speech integrated recognition system and method according to the present invention detects the gesture command word section using the EPD value that is the starting point of the voice command word section, and also in the case of a gesture that cannot be clearly distinguished. The recognition rate can be increased, and integrated recognition by voice and gesture can be realized by applying an optimum frame to the command word section of gesture and synchronizing the voice and gesture.
以下、添付の図面を参照し本発明が属する技術分野において通常の知識を有する者が本発明を容易に実施することができる好ましい実施例を詳細に説明する。但し、本発明の好ましい実施例に対する動作原理を詳細に説明することにおいて、関る公知の機能または構成に対する具体的な説明が本発明の要旨を不必要に不明確にすることがあると判断される場合はその詳細な説明を省略する。 DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Reference will now be made in detail to the presently preferred embodiments of the invention, which are readily practiced by those skilled in the art to which the invention pertains. However, in describing the operating principles for the preferred embodiment of the present invention in detail, it is determined that specific descriptions of known functions or configurations may unnecessarily obscure the subject matter of the present invention. Detailed description thereof will be omitted.
図1は本発明によるジェスチャー/音声統合認識システムの概念を示す図面である。 FIG. 1 is a diagram showing a concept of a gesture / voice integrated recognition system according to the present invention.
図1を参照すると、ジェスチャー/音声統合認識技術は、人の音声とジェスチャーによる命令を統合して認識し、その認識結果によって発生する制御命令を利用し五感を表現するデバイスを制御する。 Referring to FIG. 1, the gesture / speech integrated recognition technology recognizes a human voice and a command based on a gesture, and controls a device that expresses the five senses using a control command generated according to the recognition result.
具体的に、人100は、音声110とジェスチャー120により命令をする。ここで、人のする命令に対して、例を挙げ説明すると、人がサイバー空間で物を購買する場合にディスプレイされている物から、特定のパンを選ぶという命令として“とうもろこし食パン”といいながらとうもろこし食パンを指差す行為をすることができる。
Specifically, the
人100が音声110とジェスチャー120により命令をすると、人の音声命令に関する特徴情報は音声認識111を通じて認識し、人のジェスチャーによる特徴情報はジェスチャー認識121を通じて認識する。このように認識された音声とジェスチャーの認識情報は、環境雑音に弱い音声と明確に区分できないジェスチャーに対する認識率を高めるために音声とジェスチャーによる特徴情報を統合認識130により、1つのユーザー命令として認識する。
When the
本発明はこのように人の音声とジェスチャーに対する統合認識に関する技術である。このように認識された命令は制御部により個別的な感覚に対する出力装置であるスピーカー170、ディスプレイ装置171、発香器172、触覚装置173、味覚装置174に伝達され、夫々の装置を制御する。また、認識結果をネットワークに伝送し、その結果に対する五感データを伝達し、夫々の出力装置を制御することもできる。但し、本願発明は統合認識に関するもので、認識以後の構成は多様に適用できるため、それに対する説明は省略する。
The present invention is a technique relating to integrated recognition of human speech and gestures. The command recognized in this way is transmitted to the speaker 170, the
図2は本発明によるジェスチャー/音声統合認識システムの構成を示す図面である。 FIG. 2 is a diagram showing a configuration of a gesture / voice integrated recognition system according to the present invention.
図2を参照すると、ジェスチャー/音声統合認識システムは、マイク211により入力された音声の中から命令語の始点と終点を検出し音声特徴情報を抽出する音声特徴抽出部210と、音声特徴抽出部210により検出した始点と終点に関する情報を利用し、カメラにより撮影された映像のジェスチャーから命令区間を検出し、ジェスチャー特徴情報を抽出するジェスチャー特徴抽出部220と、音声特徴抽出部210により検出した始点を利用し撮影映像からジェスチャーの始点を検出し、このように検出したジェスチャーの始点から予め設定された最適フレーム数を適用し、最適の映像フレームを計算する同期化モジュール230と、このように抽出した音声特徴情報とジェスチャー特徴情報を既設定の学習パラメーターを利用し統合認識データとして出力する統合認識部240を含んで成ることを特徴とする。以下、夫々の構成要素に対して具体的に説明する。
Referring to FIG. 2, the gesture / speech integrated recognition system detects a start point and an end point of a command word from speech input by a
音声特徴抽出部210は、ユーザーが音声を入力するマイク211と、ユーザーの音声の中から命令語区間の始点と終点を検出するEPD(End Point Detection)検出モジュール212、EPD検出モジュール212により検出した音声の命令語区間に対して聴覚モデルに基づき音声特徴情報を抽出する聴覚モデルに基づく音声特徴抽出モジュール213から成る。また、抽出した音声特徴情報に含まれた雑音を除去するチャンネル雑音除去モジュールを含むことができる(不図示)。
The voice
EPD検出モジュール212は、有無線マイクにより入力された音声を分析し命令語の始点と終点を検出する。
The
具体的に、EPD検出モジュール212は、音声信号を獲得し、音声信号の終点の検出に必要なエネルギー値を計算し、入力された音声信号の中から命令語として計算すべき区間を判別し命令語の始点と終点を検出する。
Specifically, the
EPD検出モジュール212は、先ずマイクから音声信号を獲得し、獲得した音声をフレーム計算のための形態に変換する。この過程で無線により音声が入力される場合は、データの損失や信号干渉による信号の歪みのような問題が発生し得るため、信号獲得時にこれに対する処理過程が必要である。
The
EPD検出モジュール212において、音声信号の終点の検出に必要なエネルギー値の計算は、例えば、下記のように求める。音声信号を分析するためのフレームのサイズは160sampleを基準とし、フレームエネルギーは下記の式により計算される。
In the
S(n):声帯信号サンプル、N:1フレームのサンプル数 S (n): vocal cord signal sample, N: number of samples in one frame
こうして求められたフレームエネルギーは、以後行われる終点の検出のためのパラメーターとして用いられる。 The frame energy obtained in this way is used as a parameter for the subsequent end point detection.
EPD検出モジュール212は、フレームエネルギー値を計算してからは命令語として実際計算すべき区間を判別する。例えば、音声信号の始点と終点を計算する過程は、フレームエネルギーを利用した4個のエネルギー臨界値(threshold)と10個の条件により決まる。ここで、4つのエネルギー臨界値と10個の条件は多様に設定が可能であり、好ましくは、実験により命令語区間を求めるための最も適当なものを選択する。4つの臨界値は終点検出アルゴリズムによりフレーム毎に始点と終点を判別する。
The
EPD検出モジュール212は、こうして検出した命令語の始点(以下、“EPD値”とする。)に対する情報を同期化モジュール230のジェスチャー始点検出モジュール231に伝達する。
The
また、EPD検出モジュール212は、入力された音声の中から命令語区間に対する情報を聴覚モデルに基づく音声特徴抽出モジュール213に伝送し音声特徴情報を抽出する。
Further, the
音声の命令語区間に対する情報を受信した聴覚モデルに基づく音声特徴抽出モジュール213は、EPD検出モジュール212により検出した命令語区間から聴覚モデルに基づき特徴情報を抽出する。聴覚モデルに基づき音声特徴情報を抽出するために用いられるアルゴリズムには、EIHアルゴリズムとZCPAアルゴリズム等がある。
The voice
聴覚モデルに基づく音声特徴抽出モジュール213により抽出された音声特徴情報は、チャンネル雑音除去モジュール(不図示)により雑音を除去し統合認識部240に伝達される。
The voice feature information extracted by the voice
ジェスチャー特徴抽出部220は、カメラ221により撮影された映像から顔と手を検出する顔及び手検出モジュール222と、検出した手の動きを追跡して同期化モジュール230に伝達し、同期化モジュール230により計算された最適のフレームを利用しジェスチャーの特徴情報を抽出するジェスチャー特徴抽出モジュール224から成る。
The gesture feature extraction unit 220 tracks a face and
顔及び手検出モジュール222は、映像からジェスチャーの対象となる顔及び手を検出し、手追跡モジュール223は映像における手の動きを続けて追跡する。但し、手追跡モジュール223は手に限定し説明したが、当業者によりジェスチャーとして認識され得る様々な体の一部を追跡することが出来る。
The face and
手追跡モジュール223により時間が進むに従って手の動きを続けて保存し、手の動きからジェスチャー命令として認識できる部分は、同期化モジュール230により音声特徴抽出部210から伝達されたEPD値を利用して検出される。以下、EPD値を利用して手の動きの中からジェスチャー命令として認識される区間を検出し、音声とジェスチャーの同期化のために、最適フレームを適用する同期化モジュール230に対して説明する。
The
同期化モジュール230は、EPD値と手の動きに対する映像を利用しジェスチャーの始点を検出するジェスチャー始点検出モジュール231と、検出したジェスチャー始点により計算されたジェスチャーの始点フレームを利用し統合認識に必要な最適の映像フレームを計算する最適フレーム適用モジュール232を含んで成る。
The
ジェスチャー始点検出モジュール231は、リアルタイムで音声信号と映像信号が入力される中、EPD検出モジュール212により音声のEPD値が検出されると、同期化モジュール230は映像信号から音声EPDプラグをチェックする。このような方法によりジェスチャー始点検出モジュール231はジェスチャーの始点フレームを計算する。また、計算されたジェスチャーの始点フレームを利用し、最適フレーム適用モジュール232は統合認識に必要な最適の映像フレームを計算してジェスチャー特徴抽出モジュール224に伝達する。最適フレーム適用モジュール232により適用される統合認識に必要な最適の映像フレームは、ジェスチャーの認識率が最も高いと判断されるフレーム数を予め設定し、ジェスチャー始点検出モジュール231によりジェスチャーの始点フレームが計算されると、最適の映像フレームを決める。
When the EPD value of the audio is detected by the
統合認識部240は、学習モデルに基づき音声特徴情報とジェスチャー特徴情報を効率的に統合するための統合モデルを生成する統合モデル生成モジュール242と、統計的モデルに基づく統合認識アルゴリズムの開発に適合した形態で構築された統合学習DB244と、統合モデル生成モジュール242と統合学習DB244による学習及び学習パラメーターを制御する統合学習DB制御モジュール243と、学習パラメーターと入力された音声特徴情報とジェスチャー特徴情報の特徴ベクトルを制御する統合特徴制御モジュール241と、認識結果を生成し様々な機能を提供する統合認識モデル245から成る。
The
統合モデル生成モジュール242は、音声特徴情報とジェスチャー特徴情報を効率的に統合するために、高性能の統合モデルを生成する。高性能の統合モデルを決めるため、既存に用いられた多様な学習アルゴリズム(Hidden Markov Model(HMM)、Neural Network(NN)、Dynamic Time Wapping(DTW)等)を具現し実験により決めることができる。特に、本願発明は、NNに基づき統合モデルを決め、統合認識に高性能を発揮することができるNNパラメーターを最適化する方法を用いることができる。但し、高性能の統合モデルを生成するにおいて最も大きな問題の1つは、フレーム数が異なる2つのモダリティを学習モデル内でどう同期化するのかという問題である。
The integrated
学習モデル内における同期化の問題は、学習モデルの最適化の問題と同一である。本発明は統合レイヤーを備え、前記統合レイヤー内で音声とジェスチャーの連結方法を最適化する。最適化するために、時間軸を基準に音声とジェスチャーが重畳長さを計算してから、これに基づき同期化する。このような重畳長さは認識率の実験を通じて最も高い認識率を示す連結方法を探す。 The synchronization problem within the learning model is the same as the learning model optimization problem. The present invention includes an integration layer, and optimizes a voice and gesture connection method within the integration layer. In order to optimize, the speech and gesture overlap length is calculated based on the time axis and then synchronized based on the calculated length. Such a superposition length is searched for a connection method showing the highest recognition rate through an experiment on the recognition rate.
統合学習DB244は、統計的モデルに基づく統合認識アルゴリズムの開発に適合する形態で統合認識データベースを構築する。
The
例えば、10個の単語を対象にステレオカメラと無線マイクを利用し様々な年齢層のデータを同期化させて収集する。表1はジェスチャーと音声の統合のために定義された命令語群である。定義された命令語群は、一般的に人が多くの学習をしなくても理解できる自然なジェスチャーを対象とした。 For example, data of various age groups are synchronized and collected using a stereo camera and a wireless microphone for 10 words. Table 1 shows a command group defined for the integration of gesture and voice. The defined command groups are intended for natural gestures that humans can generally understand without much learning.
このとき、音声のサンプリングの割合は、16kHzに16bitsを使用し、チャンネル数1(mono)のPulse Coded Modulation(PCM)方式のWaveformを利用して録音する。映像は、STH−DCSG−Cステレオカメラを利用し、1秒当り15frame、320x240サイズの24bits BITMAPイメージをブルースクリーン背景と4つの蛍光灯ボックスが設けられた照明下で録画した。ステレオカメラでは音声インターフェイスが存在しないため、音声収集モジュールと映像収集モジュールを独立して作成し、音声録音プログラムでIPC(Inter−Process Communications)を通じて映像収集プロセスを制御する方法により映像と音声の同期化プログラムを作成しデータを収集した。映像収集モジュールは、Open CV(Computer Vison)ライブラリーとSVS(Small Vision System)を利用して構成した。 At this time, the audio sampling rate is 16 bits at 16 kHz, and recording is performed using a Pulse Coded Modulation (PCM) Waveform with 1 channel (mono). The video was recorded using a STH-DCSG-C stereo camera, and a 24-bit BITMAP image of 15 frames per second and 320 × 240 size was recorded under illumination with a blue screen background and four fluorescent lamp boxes. Since there is no audio interface in stereo cameras, audio and video acquisition modules are created independently, and video and audio are synchronized by controlling the video acquisition process through IPC (Inter-Process Communications) with an audio recording program. A program was created and data was collected. The video collection module was configured using an Open CV (Computer Vision) library and an SVS (Small Vision System).
ステレオカメラの映像は、別途のキャリブレーション過程を経て実際の録音環境に適用させなければならず、最適の映像を獲得するために、関わるgain、exposure、brightness、red、blueパラメーター値を修正して色感、露出及びWB値を調整した。キャリブレーション情報及びパラメーター情報は別途のiniファイルで保存し映像保存モジュールで呼び出し参照するようにした。 Stereo camera images must be applied to the actual recording environment through a separate calibration process, and the gain, exposure, brightness, red, and blue parameter values are modified to obtain the optimal image. The color feeling, exposure and WB value were adjusted. Calibration information and parameter information are saved in a separate ini file and called by the video saving module for reference.
統合学習DB制御モジュール243は、統合モデル生成モジュール242と連携し予め生成され保存された統合学習DB244に基づき学習パラメーターを生成する。
The integrated learning
統合特徴制御モジュール241は、統合学習DB制御モジュール243により生成された学習パラメーターと、音声特徴抽出部210と、ジェスチャー特徴抽出部220により抽出された音声と、ジェスチャーの特徴情報の特徴ベクトルを制御する。このような制御は入力ベクトルのノード数の拡張及び縮小に関わる。統合特徴制御モジュール241は、統合レイヤーを有することを特徴とし、このような統合レイヤーは夫々異なるサイズの音声とジェスチャーの長さを効率的に統合し単一認識率を提示するよう開発される。
The integrated
統合認識モジュール245は、統合特徴制御モジュール241による制御結果を用いて認識結果を生成する。また、統合表現器、或いはネットワーク等と相互作用するための様々な機能を提供する。
The
図3は、本発明によるジェスチャー/音声統合認識方法を示す流れ図である。 FIG. 3 is a flowchart illustrating a gesture / voice integrated recognition method according to the present invention.
図3を参照すると、ジェスチャー/音声統合認識方法は、3つのスレッドで構成され動作する。3つのスレッドは、音声の特徴を抽出する音声特徴抽出スレッド10と、ジェスチャーの特徴を抽出するジェスチャー特徴抽出スレッド20と、音声とジェスチャーの統合認識を行う統合認識スレッド30から成る。3つのスレッド10、20、30は、学習パラメーターをロードする時点に生成し、スレッドプラグを利用して有機的に動作する。以下、3つのスレッド10、20、30の有機的な動作を通じたジェスチャー/音声統合認識方法を説明する。
Referring to FIG. 3, the gesture / speech integrated recognition method is composed of three threads and operates. The three threads include a speech feature extraction thread 10 that extracts speech features, a gesture
ユーザーが音声とジェスチャーを利用して命令をする場合、音声特徴抽出スレッド10は有無線マイクを利用し音声を受信し続けるS311。また、ジェスチャー特徴抽出スレッド20はカメラを利用してジェスチャーを含む映像を続けて受信するS320。マイクを利用し続けて入力される音声の音声フレームを計算しながらS312、EPD検出モジュール212は音声に含まれた命令語の始点と終点(音声EPD値)を検出するS313。音声EPD値が検出されると、音声EPD値をジェスチャー特徴抽出スレッドの同期化段階40に伝達する。また、音声に含まれた命令語の始点と終点により音声の命令語区間が決まると、聴覚モデルに基づく音声特徴抽出モジュール213は聴覚モデルに基づき命令語区間から音声特徴を抽出しS314、統合認識スレッド30に伝達する。
When the user gives an instruction using voice and gesture, the voice feature extraction thread 10 continues to receive voice using the wired / wireless microphone (S311). In addition, the gesture
ジェスチャー特徴抽出スレッド20は、カメラを通じて続けて入力される映像から手及び顔を検出するS321。こうして手と顔が検出されると、ユーザーのジェスチャーを追跡するS322。ユーザーのジェスチャーは変わり続けるため、一定の長さのジェスチャーをバッファに保存するS323。
The gesture
ジェスチャーをバッファに保存する過程で、音声EPD値が検出され伝達されると、バッファに保存されているジェスチャー映像における音声EPDプラグをチェックするS324。音声EPDプラグにより映像の特徴情報を含むジェスチャーの始点と終点を検索しS325、このように検索されたジェスチャー特徴を保存するS326。こうして保存されたジェスチャー特徴は音声と同期が異なるため、予め設定された最適フレームを適用しジェスチャーの始点フレームから最適フレームを計算する。また、計算された最適フレームはジェスチャー特徴抽出モジュール224を利用しジェスチャー特徴情報を抽出し統合認識スレッドに伝達する。
If the voice EPD value is detected and transmitted in the process of storing the gesture in the buffer, the voice EPD plug in the gesture video stored in the buffer is checked S324. The starting point and the ending point of the gesture including the feature information of the video are searched by the voice EPD plug in S325, and the gesture feature thus searched is stored in S326. Since the gesture features stored in this manner are different in synchronization with the voice, the optimum frame set in advance is applied and the optimum frame is calculated from the start frame of the gesture. The calculated optimum frame is extracted using the gesture
音声特徴抽出スレッド10とジェスチャー特徴抽出スレッド20で成功的に音声とジェスチャーの特徴情報が抽出されると、統合認識スレッド30で認識結果を確認する間、音声/ジェスチャー特徴抽出スレッド10、20は停止(Sleep)状態となるS328、S315。
When the voice and gesture feature information is successfully extracted by the voice feature extraction thread 10 and the gesture
統合認識スレッド30は、音声特徴情報とジェスチャー特徴情報の伝達を受ける前に、予め統合モデル生成モジュール242により高性能の統合モデルを生成し、こうして生成された統合モデルと統合学習DB244を制御し、統合学習DB制御モジュール243は学習パラメーターを生成してロードするS331。こうして学習パラメーターがロードされると、統合認識スレッド30は音声/ジェスチャー特徴情報が伝達される前まで停止状態で維持されるS332。
The
このように停止状態にある統合認識スレッド30は、音声とジェスチャーの特徴情報の抽出が完了しS333、特徴情報に関する信号を受信すると、夫々の特徴をメモリにロードするS334。音声とジェスチャーの特徴情報がロードされると、予め設定された最適化した統合学習モデルと学習パラメーターを用いて認識結果を計算するS335。
The
統合認識部240により認識結果が計算されると、停止状態にある音声特徴抽出スレッド10とジェスチャー特徴抽出スレッド20は再び入力される音声と映像から特徴情報を抽出する作業をする。
When the recognition result is calculated by the
以上で説明した本発明は、前述の実施例及び添付の図面により限定されるものではなく、本発明の技術的思想から外れない範囲内で様々な置換、変形及び変更が可能であるということは本発明が属する技術分野において通常の知識を有する当業者には自明である。 The present invention described above is not limited by the above-described embodiments and the accompanying drawings, and various replacements, modifications and changes can be made without departing from the technical idea of the present invention. It is obvious to a person skilled in the art having ordinary knowledge in the technical field to which the present invention belongs.
Claims (15)
前記検出した始点と終点に関する情報を利用して撮影映像のジェスチャーから命令区間を検出し、ジェスチャー特徴情報を抽出するジェスチャー特徴抽出部と、
前記抽出した音声特徴情報とジェスチャー特徴情報を既設定の学習パラメーターを用いて統合認識データとして出力する統合認識部を含むことを特徴とするジェスチャー/音声統合認識システム。 A voice feature extraction unit for detecting voice feature information by detecting the start point and end point of the command word from the input voice;
A gesture feature extraction unit for detecting a command section from a gesture of a captured video using information on the detected start point and end point, and extracting gesture feature information;
A gesture / speech integrated recognition system, comprising: an integrated recognition unit that outputs the extracted voice feature information and gesture feature information as integrated recognition data using preset learning parameters.
前記ジェスチャーの始点から予め設定された最適フレーム数を適用し、最適の映像フレームを計算して抽出する最適フレーム適用モジュールを含む同期化モジュールをさらに含むことを特徴とする請求項1に記載のジェスチャー/音声統合認識システム。 A gesture start point detection module for detecting a start point of a gesture from the captured video using the detected start point;
The gesture according to claim 1, further comprising a synchronization module including an optimal frame application module that applies an optimal number of frames set in advance from a starting point of the gesture and calculates and extracts an optimal video frame. / Integrated speech recognition system.
前記検出した音声の始点(EPD:End Point Detection)プラグを前記撮影映像でチェックしジェスチャーの始点を検出することを特徴とする請求項2に記載のジェスチャー/音声統合認識システム。 The gesture start point detection module includes:
The gesture / speech integrated recognition system according to claim 2, wherein the detected start point (EPD: End Point Detection) plug is checked in the captured video to detect a start point of a gesture.
前記入力された音声の中から命令語の始点と終点を検出するイーピーディー(EPD:End Point Detection)検出モジュールと、
聴覚モデルに基づくアルゴリズムを利用し、前記検出した命令語から前記命令語に含まれた音声特徴情報を抽出する聴覚モデルに基づく音声特徴抽出モジュールを含んで成ることを特徴とする請求項第1項乃至第3項の何れか1項に記載のジェスチャー/音声統合認識システム。 The voice feature extraction unit
An EPD (End Point Detection) detection module for detecting a start point and an end point of a command word from the input voice;
2. A speech feature extraction module based on an auditory model that extracts speech feature information contained in the command word from the detected command word using an algorithm based on an auditory model. The gesture / speech integrated recognition system according to any one of Items 3 to 3.
前記抽出した音声特徴情報から雑音を除去することを特徴とする請求項4に記載のジェスチャー/音声統合認識システム。 The voice feature extraction unit
5. The gesture / voice integrated recognition system according to claim 4, wherein noise is removed from the extracted voice feature information.
カメラで撮影された映像から手の動きを追跡し前記同期化モジュールに伝送する手追跡モジュールと、
前記同期化モジュールで抽出した最適の映像フレームを利用し、ジェスチャー特徴情報を抽出するジェスチャー特徴抽出モジュールを含んで成ることを特徴とする請求項3に記載のジェスチャー/音声統合認識システム。 The gesture feature extraction unit
A hand tracking module that tracks hand movements from video captured by the camera and transmits it to the synchronization module;
4. The gesture / speech integrated recognition system according to claim 3, further comprising a gesture feature extraction module that extracts gesture feature information using an optimal video frame extracted by the synchronization module.
予め設定された統合学習モデルと統合学習データベースに基づき学習パラメーターを生成する統合学習DB制御モジュールと、
前記抽出した音声特徴情報とジェスチャー特徴情報を前記生成された学習パラメーターを用いて制御する統合特徴制御モジュールと、
前記統合特徴制御モジュールにより制御される結果を認識結果として生成する統合認識モジュールを含んで成ることを特徴とする請求項1に記載のジェスチャー/音声統合認識システム。 The integrated recognition unit
An integrated learning DB control module for generating learning parameters based on a preset integrated learning model and an integrated learning database;
An integrated feature control module for controlling the extracted voice feature information and gesture feature information using the generated learning parameter;
The gesture / voice integrated recognition system according to claim 1, further comprising an integrated recognition module that generates a result controlled by the integrated feature control module as a recognition result.
Neural Network(NN)学習アルゴリズムに基づき生成されることを特徴とする請求項7に記載のジェスチャー/音声統合認識システム。 The integrated learning model is
The integrated gesture / speech recognition system according to claim 7, wherein the gesture / speech integrated recognition system is generated based on a neural network (NN) learning algorithm.
ステレオカメラと無線マイクを利用し様々な年齢層の音声とジェスチャーに対する特徴情報を統合し、統計的モデルに基づく統合認識アルゴリズムに適用可能な形態で構築されることを特徴とする請求項7に記載のジェスチャー/音声統合認識システム。 The integrated learning database is
The feature information for speech and gestures of various ages is integrated using a stereo camera and a wireless microphone, and is constructed in a form applicable to an integrated recognition algorithm based on a statistical model. Gesture / voice integrated recognition system.
前記抽出した音声特徴情報とジェスチャー特徴情報を統合する統合レイヤーを含むことを特徴とする請求項7に記載のジェスチャー/音声統合認識システム。 The gesture / voice integrated recognition system according to claim 7, wherein the integrated recognition module includes an integration layer that integrates the extracted voice feature information and gesture feature information.
入力されるベクトルのノード数の拡張及び縮小を通じて前記抽出された音声特徴情報とジェスチャー特徴情報の特徴ベクトルを制御することを特徴とする請求項7に記載のジェスチャー/音声統合認識システム。 The integrated feature control module includes:
The gesture / speech integrated recognition system according to claim 7, wherein the feature vector of the extracted speech feature information and gesture feature information is controlled through expansion and reduction of the number of nodes of the input vector.
前記検出した命令語の始点を利用し、カメラにより入力された映像のジェスチャーから命令区間を検出し、ジェスチャー特徴情報を抽出する2段階と、
前記抽出した音声特徴情報とジェスチャー特徴情報を既設定の学習パラメーターを用いて統合認識データとして出力する3段階を含むことを特徴とするジェスチャー/音声統合認識方法。 A step of detecting voice feature information by detecting a start point (EPD value) and an end point of a command word from input voice;
Using the start point of the detected command word, detecting a command section from a gesture of a video input by a camera, and extracting gesture feature information;
A gesture / speech integrated recognition method comprising three steps of outputting the extracted speech feature information and gesture feature information as integrated recognition data using preset learning parameters.
前記命令語の始点と終点による命令語区間から聴覚モデルに基づき音声特徴情報を抽出することを特徴とする請求項12に記載のジェスチャー/音声統合認識方法。 The one stage includes
13. The gesture / voice integrated recognition method according to claim 12, wherein voice feature information is extracted based on an auditory model from a command word section defined by a start point and an end point of the command word.
前記カメラの入力映像から手のジェスチャーを追跡するA段階と、
前記伝送されたEPD値を利用して前記手のジェスチャーによる命令区間を検出するB段階と、
予め設定された最適フレームを適用し前記ジェスチャーによる命令区間から最適のフレームを決めるC段階と、
前記決められた最適のフレームからジェスチャー特徴情報を抽出するD段階を含んで成ることを特徴とする請求項12に記載のジェスチャー/音声統合認識方法。 The two steps are:
A stage for tracking hand gestures from the input video of the camera;
B stage for detecting a command interval by the hand gesture using the transmitted EPD value;
C stage for applying an optimal frame set in advance and determining an optimal frame from the command section by the gesture;
13. The integrated gesture / speech recognition method according to claim 12, further comprising a step D of extracting gesture feature information from the determined optimum frame.
前記抽出した音声特徴情報から雑音を除去する段階をさらに含むことを特徴とする請求項12に記載のジェスチャー/音声統合認識方法。 The method of claim 12, wherein the one step further includes a step of removing noise from the extracted voice feature information.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20060121836 | 2006-12-04 | ||
KR1020070086575A KR100948600B1 (en) | 2006-12-04 | 2007-08-28 | System and method for integrating gesture and voice |
PCT/KR2007/006189 WO2008069519A1 (en) | 2006-12-04 | 2007-12-03 | Gesture/speech integrated recognition system and method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010511958A true JP2010511958A (en) | 2010-04-15 |
Family
ID=39806143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009540141A Pending JP2010511958A (en) | 2006-12-04 | 2007-12-03 | Gesture / voice integrated recognition system and method |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2010511958A (en) |
KR (1) | KR100948600B1 (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011081541A (en) * | 2009-10-06 | 2011-04-21 | Canon Inc | Input device and control method thereof |
WO2018061743A1 (en) * | 2016-09-28 | 2018-04-05 | コニカミノルタ株式会社 | Wearable terminal |
CN108248413A (en) * | 2016-12-28 | 2018-07-06 | 广州市移电科技有限公司 | Street lamp equipped with charging pile |
JP2018163400A (en) * | 2017-03-24 | 2018-10-18 | 日本電信電話株式会社 | Model learning apparatus, speech word estimation apparatus, model learning method, speech word estimation method and program |
US11521038B2 (en) | 2018-07-19 | 2022-12-06 | Samsung Electronics Co., Ltd. | Electronic apparatus and control method thereof |
KR20230129964A (en) * | 2016-11-03 | 2023-09-11 | 삼성전자주식회사 | Electric device, method for control thereof |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101329100B1 (en) * | 2008-12-08 | 2013-11-14 | 한국전자통신연구원 | Apparatus for contest awareness and method using the same |
US8600166B2 (en) * | 2009-11-06 | 2013-12-03 | Sony Corporation | Real time hand tracking, pose classification and interface control |
EP2555536A1 (en) | 2011-08-05 | 2013-02-06 | Samsung Electronics Co., Ltd. | Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same |
US20130033644A1 (en) * | 2011-08-05 | 2013-02-07 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for controlling thereof |
KR101971697B1 (en) * | 2012-02-24 | 2019-04-23 | 삼성전자주식회사 | Method and apparatus for authenticating user using hybrid biometrics information in a user device |
KR102254484B1 (en) * | 2014-05-08 | 2021-05-21 | 현대모비스 주식회사 | An apparatus and a method for hybrid recognizing a gesture |
KR102265143B1 (en) * | 2014-05-16 | 2021-06-15 | 삼성전자주식회사 | Apparatus and method for processing input |
KR101650769B1 (en) | 2015-05-28 | 2016-08-25 | 미디어젠(주) | The vehicle-mounted voice recognition system by using gesture recognition |
US10986287B2 (en) | 2019-02-19 | 2021-04-20 | Samsung Electronics Co., Ltd. | Capturing a photo using a signature motion of a mobile device |
CN110287363A (en) * | 2019-05-22 | 2019-09-27 | 深圳壹账通智能科技有限公司 | Resource supplying method, apparatus, equipment and storage medium based on deep learning |
KR102322817B1 (en) * | 2020-09-10 | 2021-11-08 | 한국항공대학교산학협력단 | Convolutional neural network based human machine interface system using doppler radar and voice sensor, device for processing sensor data of the human machine interface system, method for operating the sames |
KR102539047B1 (en) * | 2021-06-04 | 2023-06-02 | 주식회사 피앤씨솔루션 | Method and apparatus for improving hand gesture and voice command recognition performance for input interface of ar glasses device |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1173297A (en) * | 1997-08-29 | 1999-03-16 | Hitachi Ltd | Recognition method using timely relation of multi-modal expression with voice and gesture |
JPH11288342A (en) * | 1998-02-09 | 1999-10-19 | Toshiba Corp | Device and method for interfacing multimodal input/ output device |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05108302A (en) * | 1991-10-14 | 1993-04-30 | Nippon Telegr & Teleph Corp <Ntt> | Information input method using voice and pointing action |
-
2007
- 2007-08-28 KR KR1020070086575A patent/KR100948600B1/en active IP Right Grant
- 2007-12-03 JP JP2009540141A patent/JP2010511958A/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1173297A (en) * | 1997-08-29 | 1999-03-16 | Hitachi Ltd | Recognition method using timely relation of multi-modal expression with voice and gesture |
JPH11288342A (en) * | 1998-02-09 | 1999-10-19 | Toshiba Corp | Device and method for interfacing multimodal input/ output device |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011081541A (en) * | 2009-10-06 | 2011-04-21 | Canon Inc | Input device and control method thereof |
WO2018061743A1 (en) * | 2016-09-28 | 2018-04-05 | コニカミノルタ株式会社 | Wearable terminal |
KR20230129964A (en) * | 2016-11-03 | 2023-09-11 | 삼성전자주식회사 | Electric device, method for control thereof |
US11908465B2 (en) | 2016-11-03 | 2024-02-20 | Samsung Electronics Co., Ltd. | Electronic device and controlling method thereof |
KR102643027B1 (en) | 2016-11-03 | 2024-03-05 | 삼성전자주식회사 | Electric device, method for control thereof |
CN108248413A (en) * | 2016-12-28 | 2018-07-06 | 广州市移电科技有限公司 | Street lamp equipped with charging pile |
JP2018163400A (en) * | 2017-03-24 | 2018-10-18 | 日本電信電話株式会社 | Model learning apparatus, speech word estimation apparatus, model learning method, speech word estimation method and program |
US11521038B2 (en) | 2018-07-19 | 2022-12-06 | Samsung Electronics Co., Ltd. | Electronic apparatus and control method thereof |
Also Published As
Publication number | Publication date |
---|---|
KR100948600B1 (en) | 2010-03-24 |
KR20080050994A (en) | 2008-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2010511958A (en) | Gesture / voice integrated recognition system and method | |
WO2008069519A1 (en) | Gesture/speech integrated recognition system and method | |
WO2021036644A1 (en) | Voice-driven animation method and apparatus based on artificial intelligence | |
CN107799126B (en) | Voice endpoint detection method and device based on supervised machine learning | |
WO2021082941A1 (en) | Video figure recognition method and apparatus, and storage medium and electronic device | |
CN105843381B (en) | Data processing method for realizing multi-modal interaction and multi-modal interaction system | |
US8793134B2 (en) | System and method for integrating gesture and sound for controlling device | |
KR101604593B1 (en) | Method for modifying a representation based upon a user instruction | |
US20150325240A1 (en) | Method and system for speech input | |
WO2016150001A1 (en) | Speech recognition method, device and computer storage medium | |
CN110310623A (en) | Sample generating method, model training method, device, medium and electronic equipment | |
CN109508687A (en) | Man-machine interaction control method, device, storage medium and smart machine | |
CN102932212A (en) | Intelligent household control system based on multichannel interaction manner | |
Madhuri et al. | Vision-based sign language translation device | |
KR20100062207A (en) | Method and apparatus for providing animation effect on video telephony call | |
CN110309254A (en) | Intelligent robot and man-machine interaction method | |
CN113129867B (en) | Training method of voice recognition model, voice recognition method, device and equipment | |
CN109241924A (en) | Multi-platform information interaction system Internet-based | |
CN106502382A (en) | Active exchange method and system for intelligent robot | |
CN111326152A (en) | Voice control method and device | |
CN115206306A (en) | Voice interaction method, device, equipment and system | |
Su et al. | Liplearner: Customizable silent speech interactions on mobile devices | |
Song et al. | A review of audio-visual fusion with machine learning | |
CN107452381B (en) | Multimedia voice recognition device and method | |
CN111462732B (en) | Speech recognition method and device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120313 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120831 |