JP2012118679A - Information processor, word discrimination device, screen display operation device, word registration device and method and program related to the same - Google Patents
Information processor, word discrimination device, screen display operation device, word registration device and method and program related to the same Download PDFInfo
- Publication number
- JP2012118679A JP2012118679A JP2010266650A JP2010266650A JP2012118679A JP 2012118679 A JP2012118679 A JP 2012118679A JP 2010266650 A JP2010266650 A JP 2010266650A JP 2010266650 A JP2010266650 A JP 2010266650A JP 2012118679 A JP2012118679 A JP 2012118679A
- Authority
- JP
- Japan
- Prior art keywords
- word
- image
- lip
- vowel
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、パーソナルコンピュータや携帯電話機等の各種の情報処理装置、これに使用される単語判別装置、画面表示の操作を行う画面表示操作装置、単語登録を行う単語登録装置およびこれらの方法ならびにプログラムに関する。 The present invention relates to various information processing apparatuses such as a personal computer and a mobile phone, a word discriminating apparatus used therefor, a screen display operating apparatus for performing screen display operations, a word registering apparatus for performing word registration, and methods and programs thereof. About.
パーソナルコンピュータや携帯電話機等の各種の情報処理装置では、ディスプレイ上に各種操作に関する情報を表示して、キーボードや操作パネルあるいはマウス等のポインティングデバイスを用いて、入力操作を行うことが多い。 In various information processing apparatuses such as personal computers and mobile phones, information related to various operations is displayed on a display, and input operations are often performed using a keyboard, an operation panel, or a pointing device such as a mouse.
図25は、本発明の第1の関連技術の情報処理装置としての携帯電話機の外観を表わしたものである。この携帯電話機200は、第1の筐体201と第2の筐体202をヒンジ機構203で折り畳み自在に連結した折り畳み型の電話機である。第1の筐体201にはディスプレイ205が配置され、第2の筐体202における折り畳み時にディスプレイ205と対向する面には操作部206が配置されている。
FIG. 25 shows the appearance of a mobile phone as an information processing apparatus according to the first related technology of the present invention. The
この携帯電話機200を例に採れば、ユーザはディスプレイ205に表示されたメニュー画面等の画面内容を見て、操作部206の決定キー206Aや方向キー206B、あるいはダイヤルキー206C等のキー操作を行って、電子メールの送信や情報の検索等の必要な処理を実行する。ディスプレイ205にタッチパネルが付属している場合には、所望の表示部位を指やペンで押下することによっても、各種の操作が可能である。
Taking this
ところで、このような操作は、ユーザの手によって行われるのを前提としている。したがって、手の不自由な人にとって多くの情報処理装置は、使い勝手の悪いインタフェースを備えた装置となる。また、手に特別の障害がない人にとっても、これらの情報処理装置を多用することは手に過度の負担を掛け、好ましくない。 By the way, it is assumed that such an operation is performed by the user's hand. Therefore, many information processing apparatuses are provided with an inconvenient interface for the handicapped person. Further, even for people who do not have any special obstacles in their hands, it is not preferable to use these information processing devices excessively because they place an excessive burden on the hands.
特にこの種の情報処理装置では、メニュー画面からユーザの所望の項目を選択するような場合、メニューが多くの階層に分類されている場合が多い。このような場合には、キーの押下等の手による操作を繰り返す必要があり、手の不自由な人に大きな負担を強いることになる。 In particular, in this type of information processing apparatus, when a user's desired item is selected from a menu screen, the menu is often classified into many layers. In such a case, it is necessary to repeat a manual operation such as pressing a key, which places a heavy burden on a handicapped person.
そこで、本発明の第2の関連技術として、レーザポインタと空気で作動するスイッチを用いてマウスカーソルを画面上で移動させたりクリックするパソコン入力装置が提案されている(たとえば特許文献1参照)。この第1の関連技術では、レーザポインタをユーザの頭部に取り付けておき、レーザビームをディスプレイ上に照射して、その位置をカメラで検出することで、マウスカーソルの移動制御を行う。また、ユーザの口元にチューブをセットして呼気または吸気によってスイッチを作動させることで、クリックを実現する。 Therefore, as a second related technique of the present invention, a personal computer input device has been proposed in which a mouse cursor is moved or clicked on a screen using a laser pointer and a switch operated by air (see, for example, Patent Document 1). In the first related technique, the movement of the mouse cursor is controlled by attaching a laser pointer to the user's head, irradiating a laser beam on the display, and detecting the position with a camera. The click is realized by setting a tube in the user's mouth and operating the switch by exhalation or inspiration.
この第2の関連技術では、ユーザがレーザポインタやこの画像を取得するカメラおよび空気で作動する特殊なスイッチを用意する必要がある。また、ユーザは入力操作を行っている間、頭部の姿勢と目の視点および口の自由度を奪われるという問題がある。 In this second related technique, it is necessary for the user to prepare a laser pointer, a camera for acquiring this image, and a special switch operated by air. Further, there is a problem that the user is deprived of the posture of the head, the viewpoint of the eyes, and the degree of freedom of the mouth while performing the input operation.
そこで、第3の関連技術として、目の動きと口の形状認識を利用した文字入力装置が提案されている(たとえば特許文献2参照)。この第3の関連技術では、使用者の映像(顔の位置、向き、目の方向など)および母音を発声した時の映像(口形状)の画像データを辞書として保存しておき、使用者が入力しようと見つめている行の文字を選定するようにしている。 Therefore, as a third related technique, a character input device using eye movement and mouth shape recognition has been proposed (see, for example, Patent Document 2). In the third related technique, image data of a user's video (face position, orientation, eye direction, etc.) and video (mouth shape) when a vowel is uttered are stored as a dictionary, and the user can The character of the line which is staring to input is selected.
この第3の関連技術では、入力したい文字の母音の口の動きをカメラで読み取り、行を選択するボタンを表示して、ボタンを見つめた映像と合わせて文字の判別を行う。したがって、第3の関連技術を実施するためには、ユーザが行のボタンを目で追って、該当する行を見つけてこれを目で見つめている状態でその行の文字を1文字分だけ発声する必要がある。語句を通常の速度でしゃべった場合には、該当する行を目でいちいち追跡することが不可能なためである。このため、文字の入力速度がかなり低下するだけでなく、視点を頻繁に変更しなければならないので、目が疲れるという問題が生じる。 In the third related technique, the movement of the mouth of the vowel of the character to be input is read by the camera, a button for selecting a line is displayed, and the character is discriminated together with the video staring at the button. Therefore, in order to implement the third related technique, the user follows the button of the line, finds the corresponding line, and utters only one character of the line while gazing at the line. There is a need. This is because if the word is spoken at a normal speed, it is impossible to trace the corresponding line one by one. For this reason, not only the input speed of characters is considerably reduced, but also the problem that eyes are tired arises because the viewpoint must be changed frequently.
そこで、第3の関連技術では、行の方はキー入力によって決定してもよいとしているが、これでは手の不自由な人の操作を排除することになる。 Therefore, in the third related technique, the direction of the line may be determined by key input, but this eliminates the operation of a handicapped person.
そこで本発明の目的は、ユーザの口の映像のみによって情報処理や単語の判別を行ったり、画面表示の操作を可能にしたり、単語登録を行う情報処理装置、単語判別装置、画面表示操作装置、単語登録装置およびこれらの方法ならびにプログラムを提供することにある。 Accordingly, an object of the present invention is to perform information processing and word discrimination only with a video of a user's mouth, enable an operation of screen display, an information processing device that performs word registration, a word discrimination device, a screen display operation device, The object is to provide a word registration device, a method thereof, and a program.
本発明では、(イ)各種の情報を視覚的に表示するディスプレイと、(ロ)このディスプレイを使用する操作者の口を少なくとも撮影する撮像手段と、(ハ)この撮像手段によって得られた操作者の口の画像の経時的な変化を判別する変化判別手段と、(ニ)この変化判別手段の判別結果に応じて判別結果と対応付けた予め定めた特定の操作を実行する特定操作実行手段とを情報処理装置が具備する。 In the present invention, (a) a display for visually displaying various types of information, (b) an imaging means for photographing at least an operator's mouth using the display, and (c) an operation obtained by the imaging means. Change discriminating means for discriminating temporal changes in the image of the person's mouth, and (d) a specific operation executing means for executing a predetermined specific operation associated with the discrimination result according to the discrimination result of the change discriminating means And the information processing apparatus.
また、本発明では、(イ)認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出手段と、(ロ)この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出手段と、(ハ)この単語画像抽出手段によって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記した唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録手段と、(ニ)この単語発声パターン記録手段あるいはこれと同等の手段によって予め記録しておいた単語発声パターンをそれぞれ単語と対応付けた単語辞書と、(ホ)前記した単語発声パターン記録手段で記録した認識の対象となる単語発声パターンを前記した単語辞書内の各単語についての単語発声パターンと比較するパターン比較手段と、(へ)このパターン比較手段による比較の結果、最も一致すると判別した単語発声パターンに対応する単語を前記した認識の対象とする人物の発声した単語であると判別する単語判別手段とを単語判別装置が具備する。 In the present invention, (a) lip image region extracting means for extracting a lip region image from a human face image to be recognized; and (b) a lip image region extracted by the lip image region extracting unit. A word image extraction means for extracting a series of temporal changes from the start to the end of the lip image change as a unit word image, and (c) closing upper and lower lips in the word image extracted by the word image extraction means. One unit of words utters the temporal changes in the vertical and horizontal distances passing through the center point of the opening of the lips when the seam at the time is arranged horizontally. Word utterance pattern recording means for recording as a word utterance pattern at the time of being recorded, and (d) a word utterance pattern previously recorded by the word utterance pattern recording means or equivalent means. A word dictionary associated with each word, and (e) a pattern for comparing the word utterance pattern to be recognized recorded by the word utterance pattern recording means with the word utterance pattern for each word in the word dictionary. And (f) a word discriminating unit for discriminating that the word corresponding to the word utterance pattern determined to be the best match as a result of the comparison by the pattern comparing unit is a word spoken by the person to be recognized as described above. Is provided with a word discrimination device.
更に本発明では、(イ)認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出手段と、(ロ)この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出手段と、(ハ)この単語画像抽出手段によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定手段と、(ニ)前記した単語画像抽出手段によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別手段と、(ホ)前記した閉タイミング測定手段あるいはこれと同等の手段によって測定したそれぞれのタイミングと前記した母音判別手段あるいはこれと同等の手段によって判別した各母音の組み合わせを、予め複数の単語とそれぞれ対応付けて用意した単語辞書と、(へ)前記した単語画像抽出手段によって抽出した単語画像における前記した閉タイミング測定手段で測定したそれぞれのタイミングおよび前記した母音判別手段で判別した単語を構成するそれぞれの母音の組み合わせを前記した単語辞書における前記した組み合わせと比較する比較手段と、(ト)この比較手段で最も一致すると判別した前記した単語辞書における前記した組み合わせに対応する単語を前記した認識の対象とする人物の発声した単語であると判別する単語判別手段とを単語判別装置が具備する。 Further, in the present invention, (a) a lip image region extracting means for extracting a lip region image from a human face image to be recognized, and (b) a lip image region extracted by the lip image region extracting unit. A word image extracting means for extracting a series of temporal changes from the start to the end of the lip image as one unit of word image; and (c) timing at which the upper and lower lips in the word image extracted by the word image extracting means are closed. And (d) a vowel discrimination that discriminates each vowel constituting a word from the shape of the same lip opening that continues for a predetermined time or longer in the word image extracted by the word image extraction unit. Means, (e) the respective timings measured by the closing timing measuring means or the equivalent means, and the vowel discrimination means described above. Is a word dictionary prepared by associating each vowel combination determined by an equivalent means with a plurality of words in advance, and (f) the closing timing measurement in the word image extracted by the word image extracting means. A comparison means for comparing each timing measured by the means and a combination of each vowel constituting the word discriminated by the vowel discrimination means with the above combination in the word dictionary, and (g) a best match between the comparison means Then, the word discriminating device comprises word discriminating means for discriminating that the word corresponding to the above-described combination in the above-described word dictionary is the word uttered by the person to be recognized as described above.
更にまた本発明では、(イ)認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出手段と、(ロ)この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出手段と、(ハ)この単語画像抽出手段によって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記した唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録手段と、(ニ)この単語発声パターン記録手段あるいはこれと同等の手段によって予め記録しておいた単語発声パターンをそれぞれ単語と対応付けた単語辞書と、(ホ)前記した単語発声パターン記録手段で記録した認識の対象となる単語発声パターンを前記した単語辞書内の各単語についての単語発声パターンと比較するパターン比較手段と、(へ)このパターン比較手段による比較の結果、最も一致すると判別した単語発声パターンに対応する単語を前記した認識の対象とする人物の発声した単語であると判別する単語判別手段と、(ト)各種の情報を表示するディスプレイと、(チ)前記した単語判別手段で判別した単語に対応する操作内容でこのディスプレイ上に表示された表示内容を操作する内容操作手段とを画面表示操作装置が具備する。 Furthermore, in the present invention, (a) a lip image region extracting means for extracting a lip region image from a human face image to be recognized, and (b) a lip image region extracted by the lip image region extracting unit. A word image extraction means for extracting a series of temporal changes from the start to the end of the lip image change as a unit word image, and (c) closing upper and lower lips in the word image extracted by the word image extraction means. One unit of words utters the temporal changes in the vertical and horizontal distances passing through the center point of the opening of the lips when the seam at the time is arranged horizontally. A word utterance pattern recording means for recording as a word utterance pattern at the time of being recorded, and (d) a word utterance pattern recorded in advance by the word utterance pattern recording means or an equivalent means. The word dictionary associated with each word and (e) the word utterance pattern to be recognized recorded by the word utterance pattern recording means are compared with the word utterance pattern for each word in the word dictionary. And (f) word discrimination means for discriminating that the word corresponding to the word utterance pattern determined to be the best match as a result of comparison by the pattern comparison means is the word spoken by the person to be recognized as described above. And (g) a display for displaying various types of information, and (h) a content operation unit for operating the display content displayed on the display with the operation content corresponding to the word determined by the word determination unit. A display operation device is provided.
また、本発明では、(イ)認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出手段と、(ロ)この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出手段と、(ハ)この単語画像抽出手段によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定手段と、(ニ)前記した単語画像抽出手段によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別手段と、(ホ)前記した閉タイミング測定手段あるいはこれと同等の手段によって測定したそれぞれのタイミングと前記した母音判別手段あるいはこれと同等の手段によって判別した各母音の組み合わせを、予め複数の単語とそれぞれ対応付けて用意した単語辞書と、(へ)前記した単語画像抽出手段によって抽出した単語画像における前記した閉タイミング測定手段で測定したそれぞれのタイミングおよび前記した母音判別手段で判別した単語を構成するそれぞれの母音の組み合わせを前記した単語辞書における前記した組み合わせと比較する比較手段と、(ト)この比較手段で最も一致すると判別した前記した単語辞書における前記した組み合わせに対応する単語を前記した認識の対象とする人物の発声した単語であると判別する単語判別手段と、(チ)各種の情報を表示するディスプレイと、(リ)前記した単語判別手段で判別した単語に対応する操作内容でこのディスプレイ上に表示された表示内容を操作する内容操作手段とを画面表示操作装置が具備する。 In the present invention, (a) lip image region extracting means for extracting a lip region image from a human face image to be recognized; and (b) a lip image region extracted by the lip image region extracting unit. A word image extraction means for extracting a series of temporal changes from the start to the end of the lip image change as a unit word image, and (c) upper and lower lips in the word image extracted by the word image extraction means are closed. A closed timing measuring means for measuring timing, and (d) a vowel for discriminating each vowel constituting a word from the shape of the same lip opening that lasts for a predetermined time or longer in the word image extracted by the word image extracting means. Discriminating means, (e) the respective timings measured by the closing timing measuring means described above or equivalent means, and the vowel discriminating means described above. Or a word dictionary prepared by associating each vowel combination determined by means equivalent to this with a plurality of words in advance, and (f) the closing timing described above in the word image extracted by the word image extracting means. A comparison means for comparing each timing measured by the measurement means and each vowel combination constituting the word discriminated by the vowel discrimination means with the above-mentioned combination in the word dictionary; A word discriminating means for discriminating that a word corresponding to the combination in the word dictionary determined to be a match is a word uttered by the person to be recognized as described above, and (h) a display for displaying various types of information (I) This display with the operation content corresponding to the word discriminated by the word discriminating means described above. And the content operating means for operating the display contents displayed on the upper screen display operation device comprises.
更に本発明では、(イ)単語登録の際に認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出手段と、(ロ)この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を登録する画像を発声した場合の単語画像として抽出する登録対象単語画像抽出手段と、(ハ)この登録対象単語画像抽出手段によって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記した唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録手段と、(ニ)この単語発声パターン記録手段あるいはこれと同等の手段によって予め記録しておいた単語発声パターンをそれぞれ単語と対応付けた単語辞書と、(ホ)前記した単語発声パターン記録手段で記録した単語登録の対象となる単語発声パターンを前記した単語辞書内の各単語についての単語発声パターンと比較するパターン比較手段と、(へ)このパターン比較手段による比較の結果、所定の値以上近似しないと判別した単語発声パターンに対応する未登録の単語のみを単語登録可能とする登録単語可否判別手段とを単語登録装置が具備する。 Further, in the present invention, (b) lip image region extracting means for extracting a lip region image from a human face image to be recognized at the time of word registration, and (b) extraction by the lip image region extracting unit. Registration target word image extraction means for extracting as a word image when an image for registering a series of temporal changes from the start to the end of the lip image change in the lip image region, and (c) this registration target word image extraction In the word image extracted by the means, when the upper and lower lips are closed when the joints are arranged horizontally, the vertical and horizontal directions passing through the center point of the opening of the lips described above, respectively. A word utterance pattern recording means for recording a temporal change in distance as a word utterance pattern when a unit word is uttered; and (d) a word utterance pattern recording means or a hand equivalent thereto. And (e) a word utterance pattern to be registered in the word utterance pattern recorded by the word utterance pattern recording means in the word dictionary. Pattern comparison means for comparing with the word utterance pattern for each word, and (f) registering only unregistered words corresponding to the word utterance pattern determined to be not more than a predetermined value as a result of comparison by the pattern comparison means The word registration device includes a registration word permission / non-permission determining unit that enables the registration.
更にまた本発明では、(イ)単語登録の際に認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出手段と、(ロ)この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を登録する画像を発声した場合の単語画像として抽出する登録対象単語画像抽出手段と、(ハ)この登録対象単語画像抽出手段によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定手段と、(ニ)前記した登録対象単語画像抽出手段によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別手段と、(ホ)前記した閉タイミング測定手段あるいはこれと同等の手段によって測定したそれぞれのタイミングと前記した母音判別手段あるいはこれと同等の手段によって判別した各母音の組み合わせを、予め複数の単語とそれぞれ対応付けて用意した単語辞書と、(へ)前記した登録対象単語画像抽出手段によって抽出した単語画像における前記した閉タイミング測定手段で測定したそれぞれのタイミングおよび前記した母音判別手段で判別した単語を構成するそれぞれの母音の組み合わせを前記した単語辞書における前記した組み合わせと比較する比較手段と、(ト)この比較手段による比較の結果、所定の値以上近似しないと判別した前記した組み合わせに対応する未登録の単語のみを単語登録可能とする登録単語可否判別手段とを単語登録装置が具備する。 Furthermore, in the present invention, (a) a lip image region extracting unit that extracts an image of a lip region from a face image of a person to be recognized at the time of word registration, and (b) the lip image region extracting unit Registration target word image extraction means for extracting as an image a word image when a series of chronological changes from the start to the end of the lip image region in the extracted lip image region is registered, and (c) this registration target word image A closing timing measuring means for measuring the timing at which the upper and lower lips are closed in the word image extracted by the extracting means; and (d) the same lip that continues for a predetermined time or longer in the word image extracted by the registration target word image extracting means. Vowel discriminating means for discriminating each vowel constituting the word from the shape of the opening, and (e) the closing timing measuring means described above or equivalent means Accordingly, a word dictionary prepared by previously associating each timing measured and a combination of each vowel determined by the above-described vowel determination unit or an equivalent unit with a plurality of words, and (f) the above-described registration target word Compare each timing measured by the closing timing measuring means in the word image extracted by the image extracting means and each vowel constituting the word determined by the vowel determining means with the combination in the word dictionary. And (g) a registered word propriety determining means for registering only unregistered words corresponding to the above-described combinations determined not to approximate more than a predetermined value as a result of comparison by the comparing means. A registration device is provided.
また、本発明では、(イ)認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出ステップと、(ロ)この唇画像領域抽出ステップで抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出ステップと、(ハ)この単語画像抽出ステップによって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記した唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録ステップと、(ニ)この単語発声パターン記録ステップで記録した認識の対象となる単語発声パターンを、前記した単語発声パターン記録ステップで予めそれぞれの単語と対応付けて登録した単語辞書内の各単語についての単語発声パターンと比較するパターン比較ステップと、(ホ)このパターン比較ステップによる比較の結果、最も一致すると判別した単語発声パターンに対応する単語を前記した認識の対象とする人物の発声した単語であると判別する単語判別ステップとを単語判別方法が具備する。 In the present invention, (a) a lip image region extracting step for extracting a lip region image from a human face image to be recognized; and (b) a lip image region extracted in the lip image region extracting step. A word image extraction step for extracting a series of temporal changes from the start to the end of the lip image change as a unit word image, and (c) closing the upper and lower lips in the word image extracted by the word image extraction step. One unit of words utters the temporal changes in the vertical and horizontal distances passing through the center point of the opening of the lips when the seam at the time is arranged horizontally. A word utterance pattern recording step for recording as a word utterance pattern at the time of being recorded, and (d) a word utterance pattern to be recognized recorded in the word utterance pattern recording step. A pattern comparison step for comparing with the word utterance pattern for each word in the word dictionary registered in advance in association with each word in the word utterance pattern recording step; and (e) as a result of comparison by this pattern comparison step, The word discrimination method includes a word discrimination step of discriminating that a word corresponding to the discriminated word utterance pattern is a word uttered by the person to be recognized as described above.
更に本発明では、(イ)認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出ステップと、(ロ)この唇画像領域抽出ステップによって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出ステップと、(ハ)この単語画像抽出ステップによって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定ステップと、(ニ)前記した単語画像抽出ステップによって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別ステップと、(ホ)前記した単語画像抽出ステップによって抽出した単語画像における前記した閉タイミング測定ステップで測定したそれぞれのタイミングおよび前記した母音判別ステップで判別した単語を構成するそれぞれの母音の組み合わせを、前記した閉タイミング測定ステップで測定したそれぞれのタイミングと前記した母音判別ステップで判別した各母音の組み合わせで単語ごとに予め登録した単語辞書と比較する比較ステップと、(へ)この比較ステップによる比較の結果、最も一致すると判別した前記した単語辞書における前記した組み合わせに対応する単語を前記した認識の対象とする人物の発声した単語であると判別する単語判別ステップとを単語判別方法が具備する。 Further, in the present invention, (a) a lip image region extracting step for extracting a lip region image from a human face image to be recognized, and (b) a lip image region extracted by the lip image region extracting step. A word image extraction step for extracting a series of temporal changes from the start to the end of the lip image as one unit of word image; and (c) timing at which upper and lower lips are closed in the word image extracted by the word image extraction step. And (d) vowel discrimination that discriminates each vowel constituting a word from the shape of the same lip opening that lasts for a predetermined time or longer in the word image extracted by the word image extraction step. And (e) the closing timing measurement step in the word image extracted in the word image extraction step. Each timing determined in the above-mentioned step and each vowel combination constituting the word determined in the above-described vowel determination step are determined in each timing measured in the above-mentioned closed timing measurement step and each vowel determination step described above. A comparison step for comparing with a word dictionary registered in advance for each word in a combination of vowels, and (f) a word corresponding to the combination in the word dictionary determined to be the best match as a result of comparison in the comparison step. The word discrimination method includes a word discrimination step for discriminating a word uttered by a person to be recognized.
更にまた本発明では、コンピュータに、単語判別プログラムとして、(イ)認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出処理と、(ロ)この唇画像領域抽出処理によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出処理と、(ハ)この単語画像抽出処理によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定処理と、(ニ)前記した単語画像抽出処理によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別処理と、(ホ)前記した単語画像抽出処理によって抽出した単語画像における前記した閉タイミング測定処理で測定したそれぞれのタイミングおよび前記した母音判別処理で判別した単語を構成するそれぞれの母音の組み合わせを、前記した閉タイミング測定処理で測定したそれぞれのタイミングと前記した母音判別処理で判別した各母音の組み合わせで単語ごとに予め登録した単語辞書と比較する比較処理と、(へ)この比較処理による比較の結果、最も一致すると判別した前記した単語辞書における前記した組み合わせに対応する単語を前記した認識の対象とする人物の発声した単語であると判別する単語判別処理とを実行させることを特徴とする。
Furthermore, in the present invention, as a word discrimination program, (b) a lip image region extraction process for extracting a lip region image from a human face image to be recognized; A word image extraction process for extracting a series of temporal changes from the start to the end of the lip image change in the lip image region extracted by the extraction process as one unit of word image; and (c) a word extracted by the word image extraction process. A closing timing measurement process for measuring the timing at which the upper and lower lips in the image are closed, and (d) a word composed of the same lip opening shape that continues for a predetermined time or longer in the word image extracted by the word image extraction process. A vowel discrimination process for discriminating each vowel to be performed, and (e) the above-mentioned closed pattern in the word image extracted by the word image extraction process described above. The timings measured in the ming measurement process and the combinations of the vowels constituting the words determined in the vowel discrimination process are determined in the timings measured in the closed timing measurement process and the vowel discrimination process. A comparison process for comparing each vowel combination with a word dictionary registered in advance for each word, and (f) as a result of comparison by this comparison process, the word corresponding to the combination in the word dictionary determined to be the best match is And a word discrimination process for discriminating that the word is spoken by a person who is the object of recognition.
以上説明したように本発明によれば、携帯電話機や小型のパーソナルコンピュータ等の情報処理装置に付属していることの多いカメラ(撮像装置)を活用することで、新たなデバイスを使用することなく操作者の口の画像の変化を基に予め定めた特定の操作を実行することができる。また、カメラ(撮像装置)が付属していない情報処理装置であっても、USB(Universal Serial Bus)接続等の手法によって、安価に本発明を実現することができる。 As described above, according to the present invention, a camera (imaging device) often attached to an information processing apparatus such as a mobile phone or a small personal computer can be used without using a new device. It is possible to execute a predetermined operation based on a change in the image of the operator's mouth. In addition, even an information processing apparatus that does not include a camera (imaging device) can realize the present invention at low cost by a technique such as USB (Universal Serial Bus) connection.
また、更に本発明によれば、母音の判別だけでなく単語画像における上下の唇が閉じられるタイミングの測定も行うことにした。これにより母音と両唇音の組み合わせによる単語認識が可能になり、辞書として登録する単語の数を装置の操作に必要な程度まで増加させることが可能になる。 Furthermore, according to the present invention, not only the determination of vowels but also the measurement of the timing when the upper and lower lips in the word image are closed. As a result, it is possible to recognize words by combining vowels and lip sounds, and it is possible to increase the number of words registered as a dictionary to a level necessary for operation of the apparatus.
図1は、本発明の情報処理装置のクレーム対応図を示したものである。本発明の情報処理装置10は、ディスプレイ11と、撮像手段12と、変化判別手段13と、特定操作実行手段14を備えている。ここで、ディスプレイ11は、各種の情報を視覚的に表示する。撮像手段12は、ディスプレイ11を使用する操作者の口を少なくとも撮影する。変化判別手段13は、撮像手段12によって得られた操作者の口の画像の経時的な変化を判別する。特定操作実行手段14は、変化判別手段13の判別結果に応じて判別結果と対応付けた予め定めた特定の操作を実行する。
FIG. 1 is a diagram corresponding to claims of the information processing apparatus according to the present invention. The
図2は、本発明の単語判別装置のクレーム対応図を示したものである。本発明の単語判別装置20は、唇画像領域抽出手段21と、単語画像抽出手段22と、単語発声パターン記録手段23と、単語辞書24と、パターン比較手段25と、単語判別手段26を備えている。ここで、唇画像領域抽出手段21は、認識の対象とする人物の顔の画像から唇の領域の画像を抽出する。単語画像抽出手段22は、唇画像領域抽出手段21によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する。単語発声パターン記録手段23は、単語画像抽出手段22によって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記した唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する。単語辞書24は、単語発声パターン記録手段23あるいはこれと同等の手段によって予め記録しておいた単語発声パターンをそれぞれ単語と対応付けたものである。パターン比較手段25は、単語発声パターン記録手段23で記録した認識の対象となる単語発声パターンを単語辞書24内の各単語についての単語発声パターンと比較する。単語判別手段26は、パターン比較手段25で最も一致すると判別した単語発声パターンに対応する単語を前記した認識の対象とする人物の発声した単語であると判別する。
FIG. 2 shows a claim correspondence diagram of the word discriminating apparatus of the present invention. The
図3は、本発明の他の単語判別装置のクレーム対応図を示したものである。本発明の他の単語判別装置30は、唇画像領域抽出手段31と、単語画像抽出手段32と、閉タイミング測定手段33と、母音判別手段34と、単語辞書35と、比較手段36と、単語判別手段37を備えている。ここで、唇画像領域抽出手段31は、認識の対象とする人物の顔の画像から唇の領域の画像を抽出する。単語画像抽出手段32は、唇画像領域抽出手段31によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する。閉タイミング測定手段33は、単語画像抽出手段32によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する。母音判別手段34は、単語画像抽出手段32によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する。単語辞書35は、閉タイミング測定手段33あるいはこれと同等の手段によって測定したそれぞれのタイミングと母音判別手段34あるいはこれと同等の手段によって判別した各母音の組み合わせを、予め複数の単語について用意したものである。比較手段36は、単語画像抽出手段32によって抽出した単語画像における閉タイミング測定手段33で測定したそれぞれのタイミングおよび母音判別手段34で判別した単語を構成するそれぞれの母音の組み合わせを単語辞書35における前記した組み合わせと比較する。単語判別手段37は、比較手段36による比較の結果、最も一致すると判別した単語辞書35における前記した組み合わせに対応する単語を前記した認識の対象とする人物の発声した単語であると判別する。
FIG. 3 shows a claim correspondence diagram of another word discriminating apparatus of the present invention. Another
図4は、本発明の画面表示操作装置のクレーム対応図を示したものである。本発明の画面表示操作装置40は、唇画像領域抽出手段41と、単語画像抽出手段42と、単語発声パターン記録手段43と、単語辞書44と、パターン比較手段45と、単語判別手段46と、ディスプレイ47と、内容操作手段48を備えている。ここで、唇画像領域抽出手段41は、認識の対象とする人物の顔の画像から唇の領域の画像を抽出する。単語画像抽出手段42は、唇画像領域抽出手段41によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する。単語発声パターン記録手段43は、単語画像抽出手段42によって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記した唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する。単語辞書44は、単語発声パターン記録手段43あるいはこれと同等の手段によって予め記録しておいた単語発声パターンの標準的なものを複数の単語について集めたものである。パターン比較手段45は、単語発声パターン記録手段43で記録した認識の対象となる単語発声パターンを単語辞書44内の各単語についての単語発声パターンと比較する。単語判別手段46は、パターン比較手段45で最も一致すると判別した単語発声パターンに対応する単語を前記した認識の対象とする人物の発声した単語であると判別する。ディスプレイ47は、各種の情報を表示する。内容操作手段48では、単語判別手段46で判別した単語に対応する操作内容でこのディスプレイ47上に表示された表示内容を操作する。
FIG. 4 is a diagram corresponding to the claims of the screen display operation device of the present invention. The screen
図5は、本発明の他の画面表示操作装置のクレーム対応図を示したものである。本発明の他の画面表示操作装置50は、唇画像領域抽出手段51と、単語画像抽出手段52と、閉タイミング測定手段53と、母音判別手段54と、単語辞書55と、比較手段56と、単語判別手段57と、ディスプレイ58と、内容操作手段59を備えている。ここで、唇画像領域抽出手段51は、認識の対象とする人物の顔の画像から唇の領域の画像を抽出する。単語画像抽出手段52は、唇画像領域抽出手段51によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する。閉タイミング測定手段53は、単語画像抽出手段52によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する。母音判別手段54は、単語画像抽出手段52によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する。単語辞書55は、閉タイミング測定手段53あるいはこれと同等の手段によって測定したそれぞれのタイミングと母音判別手段54あるいはこれと同等の手段によって判別した各母音の組み合わせを、予め複数の単語について用意したものである。比較手段56は、単語画像抽出手段52によって抽出した単語画像における閉タイミング測定手段53で測定したそれぞれのタイミングおよび母音判別手段54で判別した単語を構成するそれぞれの母音の組み合わせを単語辞書55と比較する。単語判別手段57は、比較手段56で最も一致すると判別した単語辞書の単語を前記した認識の対象とする人物の発声した単語であると判別する。ディスプレイ58は、各種の情報を表示する。内容操作手段59は、単語判別手段57で判別した単語に対応する操作内容でこのディスプレイ58上に表示された表示内容を操作する。
FIG. 5 is a diagram corresponding to a claim of another screen display operation device of the present invention. Another screen
図6は、本発明の単語登録装置のクレーム対応図を示したものである。本発明の単語登録装置60は、唇画像領域抽出手段61と、登録対象単語画像抽出手段62と、単語発声パターン記録手段63と、単語辞書64と、パターン比較手段65と、登録単語可否判別手段66を備えている。ここで、唇画像領域抽出手段61は、単語登録の際に認識の対象とする人物の顔の画像から唇の領域の画像を抽出する。登録対象単語画像抽出手段62は、唇画像領域抽出手段61によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を登録する画像を発声した場合の単語画像として抽出する。単語発声パターン記録手段63は、登録対象単語画像抽出手段62によって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記した唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する。単語辞書64は、単語発声パターン記録手段63あるいはこれと同等の手段によって予め記録しておいた単語発声パターンの標準的なものを複数の単語について集めたものである。パターン比較手段65は、単語発声パターン記録手段63で記録した単語登録の対象となる単語発声パターンを単語辞書64内の各単語についての単語発声パターンと比較する。登録単語可否判別手段66は、パターン比較手段65で所定の値以上近似しないと判別した未登録の単語のみを単語登録可能とする。
FIG. 6 shows a claim correspondence diagram of the word registration device of the present invention. The
図7は、本発明の他の単語登録装置のクレーム対応図を示したものである。本発明の他の単語登録装置70は、唇画像領域抽出手段71と、登録対象単語画像抽出手段72と、閉タイミング測定手段73と、母音判別手段74と、単語辞書75と、比較手段76と、登録単語可否判別手段77を備えている。ここで、唇画像領域抽出手段71は、単語登録の際に認識の対象とする人物の顔の画像から唇の領域の画像を抽出する。登録対象単語画像抽出手段72は、唇画像領域抽出手段71によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を登録する画像を発声した場合の単語画像として抽出する。閉タイミング測定手段73は、登録対象単語画像抽出手段72によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する。母音判別手段74は、登録対象単語画像抽出手段72によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する。単語辞書75は、閉タイミング測定手段73あるいはこれと同等の手段によって測定したそれぞれのタイミングと母音判別手段74あるいはこれと同等の手段によって判別した各母音の組み合わせを、予め複数の単語について用意したものである。比較手段76は、登録対象単語画像抽出手段72によって抽出した単語画像における閉タイミング測定手段73で測定したそれぞれのタイミングおよび母音判別手段74で判別した単語を構成するそれぞれの母音の組み合わせを単語辞書75と比較する。登録単語可否判別手段77は、比較手段76で所定の値以上近似しないと判別した未登録の単語のみを単語登録可能とする。
FIG. 7 shows a claim correspondence diagram of another word registration apparatus of the present invention. Another
図8は、本発明の単語判別方法のクレーム対応図を示したものである。本発明の単語判別方法80は、唇画像領域抽出ステップ81と、単語画像抽出ステップ82と、単語発声パターン記録ステップ83と、パターン比較ステップ84と、単語判別ステップ85を備えている。ここで、唇画像領域抽出ステップ81では、認識の対象とする人物の顔の画像から唇の領域の画像を抽出する。単語画像抽出ステップ82では、唇画像領域抽出ステップ81で抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する。単語発声パターン記録ステップ83では、単語画像抽出ステップ82によって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記した唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する。パターン比較ステップ84では、単語発声パターン記録ステップ83で記録した認識の対象となる単語発声パターンを、単語発声パターン記録ステップ83で予めそれぞれの単語と対応付けて登録した単語辞書内の各単語についての単語発声パターンと比較する。単語判別ステップ85では、パターン比較ステップ84で最も一致すると判別した単語発声パターンに対応する単語を前記した認識の対象とする人物の発声した単語であると判別する。
FIG. 8 shows a claim correspondence diagram of the word discrimination method of the present invention. The
図9は、本発明の他の単語判別方法のクレーム対応図を示したものである。本発明の他の単語判別方法90は、唇画像領域抽出ステップ91と、単語画像抽出ステップ92と、閉タイミング測定ステップ93と、母音判別ステップ94と、比較ステップ95と、単語判別ステップ96を備えている。ここで、唇画像領域抽出ステップ91では、認識の対象とする人物の顔の画像から唇の領域の画像を抽出する。単語画像抽出ステップ92では、唇画像領域抽出ステップ91によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する。閉タイミング測定ステップ93では、単語画像抽出ステップ92によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する。母音判別ステップ94では、単語画像抽出ステップ92によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する。比較ステップ95では、単語画像抽出ステップ92によって抽出した単語画像における閉タイミング測定ステップ93で測定したそれぞれのタイミングおよび母音判別ステップ94で判別した単語を構成するそれぞれの母音の組み合わせを、閉タイミング測定ステップ93で測定したそれぞれのタイミングと母音判別ステップ94で判別した各母音の組み合わせで単語ごとに予め登録した単語辞書における前記した組み合わせと比較する。単語判別ステップ96では、比較ステップ95で最も一致すると判別した単語辞書の単語を前記した認識の対象とする人物の発声した単語であると判別する。
FIG. 9 shows a claim correspondence diagram of another word discrimination method of the present invention. Another
図10は、本発明の単語判別プログラムのクレーム対応図を示したものである。本発明の単語判別プログラム100は、コンピュータに、唇画像領域抽出処理101と、単語画像抽出処理102と、閉タイミング測定処理103と、母音判別処理104と、比較処理105と、単語判別処理106を実行させるようにしている。ここで、唇画像領域抽出処理101では、認識の対象とする人物の顔の画像から唇の領域の画像を抽出する。単語画像抽出処理102では、唇画像領域抽出処理101によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する。閉タイミング測定処理103では、単語画像抽出処理102によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する。母音判別処理104では、単語画像抽出処理102によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する。比較処理105では、単語画像抽出処理102によって抽出した単語画像における閉タイミング測定処理103で測定したそれぞれのタイミングおよび母音判別処理104で判別した単語を構成するそれぞれの母音の組み合わせを、閉タイミング測定処理103で測定したそれぞれのタイミングと母音判別処理104で判別した各母音の組み合わせで単語ごとに予め登録した単語辞書における前記した組み合わせと比較する。単語判別処理106では、比較処理105で最も一致すると判別した単語辞書の単語を前記した認識の対象とする人物の発声した単語であると判別する。
FIG. 10 shows a claim correspondence diagram of the word discrimination program of the present invention. The
<発明の実施の形態> <Embodiment of the Invention>
次に本発明の実施の形態を説明する。 Next, an embodiment of the present invention will be described.
図11は、本発明の実施の形態における画面表示操作装置としての携帯電話機の構成を表わしたものである。携帯電話機300は、第1の筐体301と第2の筐体302をヒンジ機構303で折り畳み自在に連結した折り畳み型の電話機である。第1の筐体301には中央にディスプレイ305が配置され、その右上には撮像装置306が配置されている。また、第2の筐体302における折り畳み時にディスプレイ305と対向する面には操作部307が配置されている。操作部307には、決定キー307Aや方向キー307B、ダイヤルキー307C等の各種のキーが配置されている。
FIG. 11 shows a configuration of a mobile phone as a screen display operation device according to the embodiment of the present invention. The
図12は、本実施の形態における携帯電話機の回路構成の概要を表わしたものである。携帯電話機300は、CPU(Central Processing Unit)321と、このCPU321が実行するプログラムを格納したメモリ322を備えた主制御部323を有している。主制御部323は、データバス等のバス324を通じて携帯電話機300の各部と接続されており、これらの制御を行うようになっている。
FIG. 12 shows an outline of the circuit configuration of the mobile phone according to the present embodiment. The
このうち通信制御部325は、図示しない基地局との通信を制御する。撮像装置306は静止画および動画の撮影を行う。表示制御装置326は、ディスプレイ305の表示を制御する。操作部307はキー入力によって携帯電話機300の各種操作を行う。本実施の形態の携帯電話機では、ディスプレイ305の表示内容と対応付けて、唇の画像を用いた入力操作も可能である。
Among these, the
単語辞書327は、単語発声パターンの標準的なものを複数の単語について集めたものである。ここで単語発声パターンとは、ユーザが複数の音からなる単語を発声したときに、上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化をパターン化したものである。単語判別部328はユーザが発声によって各種操作を行うときに使用する単語についての単語発声パターンを、辞書に登録した標準的な単語発声パターンと比較することによって判別するようになっている。画像メモリ329は、撮像装置306から得られた画像データを格納する。唇画像領域抽出部330は、ユーザの顔の画像から唇の画像を抽出する。唇の検出には、たとえば動的輪郭モデル(SNAKES)を用いることができる。また、顔を特定し、その周囲よりも赤い領域を判別することでも唇の検出を行うことができる。
The
単語画像抽出部331は、ユーザが単語を発声する際の唇の画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として画像メモリ329から抽出する。閉タイミング測定部332はユーザが単語を発声したときの上下の唇の閉じるタイミングをそれぞれ測定する。母音判別部333は、単語画像抽出部331の抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する。一般機能部334は、携帯電話機としての一般的な機能として、本実施の形態の携帯電話機300に備えられている機能をまとめた部分である。たとえば本実施の形態の携帯電話機300がテレビジョンの受信機能や電子決済の機能を備えている場合、これらの機能は一般機能部334に存在している。
The word
このような携帯電話機300を構成する主制御部323以外の少なくとも一部は、CPU321がメモリ322に格納されたプログラムを実行することによってソフトウェア的に実現することができる。
At least a part of the
図13は、日本語の母音と唇の開口部の形状の関係を大まかに示したものである。母音は、声帯の震えを伴う有声音であり、ある程度の時間以上同一の音が持続して発せられる点で子音と異なる。日本語の場合には母音は「ア」、「イ」、「ウ」、「エ」、「オ」の各音からなる。 FIG. 13 roughly shows the relationship between the Japanese vowels and the shape of the lip opening. A vowel is a voiced sound with vocal cord tremors, and differs from a consonant in that the same sound is emitted continuously for a certain period of time. In the case of Japanese, the vowels consist of “A”, “I”, “U”, “E”, and “O” sounds.
個々の母音は口の大きさや口の開口部の形状と舌の前後の位置との組み合わせによって外見上で特定することができる。しかしながら撮像装置306を用いて舌の前後の位置を特定することは困難である。そこで本実施の形態では、ユーザが単語を発声したときに口の開口部の形状が所定時間以上同一の状態に継続したとき、この形状から「ア」、「イ」、「ウ」、「エ」、「オ」のいずれかの母音が発声されたと推定するようにしている。
Individual vowels can be identified in appearance by a combination of the size of the mouth and the shape of the mouth opening and the positions of the front and back of the tongue. However, it is difficult to specify the front and back positions of the tongue using the
ここで「ア」の音は、上下の唇の閉じたときの合わせ目が全体的に水平に配置されていると仮定したときの唇の開口部の中心点を通る上下方向に指2本が入る程度に口が開けられている状態で発せられる。「イ」の音は、軽く小指の先が入る程度に口が開けられている状態で発せられる。「エ」の音は、「ア」の音と「イ」の音の中間程度に口が開けられている状態で発せられる。これらの音を発するとき、口はすぼめていない。 Here, the sound of “a” is obtained when two fingers are vertically moved through the center point of the opening of the lip when it is assumed that the joint when the upper and lower lips are closed is arranged horizontally. It is emitted with the mouth open enough to enter. The sound of “I” is emitted with the mouth open enough for the tip of the little finger to enter. The sound of “D” is emitted with the mouth open to the middle of the sound of “A” and “I”. When you make these sounds, your mouth is not shrugged.
「ウ」および「オ」の各音は、口をすぼめて発声する。このうち「ウ」の音は「オ」の音よりも唇の開口部が一回り小さくなる。「ア」、「エ」、「イ」の各音における上下の唇の閉じたときの合わせ目が全体的に水平に配置されていると仮定したときの唇の開口部の中心点を通る左右方向の距離は、「ウ」および「オ」の各音を発声する場合よりも長い。 Each sound of “U” and “O” is uttered with the mouth closed. Among these, the sound of “U” is slightly smaller in the opening of the lips than the sound of “O”. Left and right passing through the center point of the lip opening when assuming that the joints when the upper and lower lips are closed in the sounds of “a”, “d”, and “b” are arranged horizontally. The distance in the direction is longer than when the “U” and “O” sounds are uttered.
したがって、本実施の形態では、図12に示した母音判別部333が単語画像抽出部331の抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別するようにしている。もちろん、唇の大きさには個人差があり、開口部の上下方向および左右方向の距離と各母音の関係は相対的なものとなる。
Therefore, in this embodiment, each vowel that constitutes a word from the shape of the same lip opening that continues for a predetermined time or longer in the word image extracted by the word
母音は継続的に発せられる音なので、たとえばユーザが「イ」という音を発声したときと「イイ」という連続音を発声したときでは、唇の開口部の形状に変化はなく、同一の開口部の形状が保たれる時間が異なるだけである。したがって、本実施の形態では、唇の開口部の形状が所定時間以上継続することを母音の判別に用いると共に、この所定時間を超えた特定時間が経過するたびに同一の母音が繰り返し発声されたと判別する。これにより、ユーザが「イ」という音を単発で発声したか「イイ」というように複数回「イ」の音を連発で発声したかが分かるようにしている。 Since the vowel sounds are continuously generated, for example, when the user utters the sound “I” and when the user utters the continuous sound “I”, the shape of the opening of the lips does not change, and the same opening The only difference is the time that the shape is maintained. Therefore, in the present embodiment, it is used for vowel discrimination that the shape of the lip opening continues for a predetermined time or more, and the same vowel is repeatedly uttered every time a specific time exceeding the predetermined time elapses. Determine. As a result, it is possible to determine whether the user has uttered the sound of “I” in a single shot or “I” in multiple shots, such as “I”.
ただし、これには例外がある。「ン」は、前に発声した「ア」、「イ」、「ウ」、「エ」、「オ」の各音と唇の形状を保持したまま発声することができる。また、次に発声する母音に備えて、先行して唇の開口部の形状を変えて音「ン」を発声することもできる。したがって、「イイ」という連続音と「イン」という言葉は、「イ」という音と区別できても、本発明の原理では区別できない可能性がある。可能性があるといったのは、「インク」という単語を発声したとき、母音で「イイウ」と判別するか「イウウ」と判別するか特定することができないことによる。もちろん、単語登録の対象とする音に「ン」を含めないとする制限も可能である。 There are exceptions to this. “N” can be uttered while retaining the sounds “A”, “I”, “U”, “D”, “O” and the shape of the lips. In preparation for the next vowel to be uttered, the sound “N” can be uttered by changing the shape of the opening of the lips in advance. Therefore, even though the continuous sound “I” and the word “In” can be distinguished from the sound “I”, they may not be distinguished by the principle of the present invention. This is because there is a possibility that when the word “ink” is uttered, it is impossible to specify whether the vowel is used to identify “Iu” or “Iu”. Of course, it is also possible to restrict the word registration target from not including “n”.
ところで、携帯電話機300の操作をユーザの発声する単語の違いによって行おうとするとき、母音のみから個々の単語の違いを判別しようとすると、たとえば「イイ(OK)」という単語と「ミギ(右)」という単語は、共に母音「イ」、「イ」からなる区別できない単語となる。すなわち、操作のために登録する単語の数や種類が大きく制限されることになる。
By the way, when trying to operate the
そこで本実施の形態では、閉タイミング測定部332を用いてユーザが単語を発声したときの上下の唇の閉じるタイミングをそれぞれ測定するようにしている。これは、日本語で、ま行、ぱ行、ば行の各音(両唇音)を発声した場合には、上下の唇が必ず一度閉じるという特徴を利用するものである。たとえば「イイ(OK)」という単語を発声するとき、唇の開口部は図13の右上に示した「イ」の状態が継続したままとなる。これに対して「ミギ(右)」という単語を発声した場合には、一度、口が完全に閉じ、次に図13の右上に示した「イ」の状態が発生し、最後に図13の右上に示した「イ」の状態が発生する。
Therefore, in the present embodiment, the closing
なお、「ミギ(右)」という単語を発声した場合に、口が完全に閉じる回数は必ずしも特定することはできない。「ミギ(右)」という単語の発声を終了させたときに、口が「イ」の状態で開いている場合もあれば、閉じている場合もあるからである。 When the word “migi (right)” is uttered, the number of times the mouth is completely closed cannot always be specified. This is because when the utterance of the word “migi (right)” is ended, the mouth may be open in a “b” state or may be closed.
いずれにせよ本実施の形態では単語を各母音の組み合わせとそれぞれの音が両唇音であるか否かという特性を用いることで、ユーザが携帯電話機300の操作に使用する各単語を比較的不自由なく登録できるようにしている。
In any case, in this embodiment, each word used for the operation of the
図14は、携帯電話機のメニュー画面呼び出しと音声による単語登録モードの処理の概要を表わしたものである。図11および図12と共に説明する。 FIG. 14 shows an outline of processing in the cellular phone menu screen call and word registration mode by voice. This will be described with reference to FIGS. 11 and 12.
ユーザは、まず図11に示したように第1の筐体301と第2の筐体302を折り畳み状態から開いて、メニュー画面の呼び出しを意味する「メニュー」と発声する。すると、CPU321は起動状態となった撮像装置306から、このときのユーザの顔の画像を取り込んで、「メニュー画面」の指示があったことを判別する(ステップS401)。
First, as shown in FIG. 11, the user opens the
図15は、このステップS401の処理が行われるときの携帯電話機とユーザの顔の位置関係を示したものである。図12と共に説明する。携帯電話機300の第1の筐体301と第2の筐体302が開いた状態で、ユーザ351の顔352は撮像装置306の前方に位置しているのが通常である。したがって、この状態で、被写体の取り込まれる画角(視野角)θの範囲内に存在する顔352の画像から唇画像領域抽出部330は、ユーザ351の唇353の画像領域を切り出すことができる。このとき切り出された唇353の画像領域は画像メモリ329に順次取り込まれ、ユーザ351が単語を発声したときにその開始点から終了点までの一連の画像が単語画像抽出部331で抽出される。
FIG. 15 shows the positional relationship between the mobile phone and the user's face when the process of step S401 is performed. This will be described with reference to FIG. In general, the
この抽出した一連の画像に対して、閉タイミング測定部332はユーザが単語を発声したときの上下の唇の閉じるタイミングをそれぞれ測定する。また、母音判別部333は唇画像領域抽出部330で切り出した唇の画像における上下の唇の傾きを水平に直した後、これを基にして図13に示す形状が所定時間以上継続したことをもって各母音を判別する。
With respect to the extracted series of images, the closing
上下の唇の閉じるタイミングおよび母音の判別に際して、唇画像領域抽出部330で切り出した画像における唇353の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化について、1単位の単語が発声されたときの単語発声パターンが画像メモリ329の図示しない作業用メモリ領域に展開される。そして、上下の唇の閉じるタイミングがそれぞれ記録されると共に、母音を発声する最小の時間として予め設定した時間(所定時間)以上に唇353の開口部の形状(図13参照)が継続したとき、上下方向と左右方向のそれぞれの測定距離を基にして、これらが5種類の母音のいずれかに該当するかを判別する。また、1種類の母音に対応する唇353の開口部の形状が所定時間を超えた時間継続すると判別した場合には、特定時間が経過するたびに同一の母音が繰り返し発声されたとして、その旨の判別を行うことになる。
When discriminating the timing of closing the upper and lower lips and the vowels, with respect to temporal changes in the vertical and horizontal distances passing through the center point of the opening of the
図16は、本実施の形態で単語辞書に登録した単語発声パターンについて、発声内容と解析結果および辞書の登録内容の一例を示したものである。図12と共に説明する。 FIG. 16 shows an example of utterance contents, analysis results, and dictionary registration contents for the word utterance patterns registered in the word dictionary in the present embodiment. This will be described with reference to FIG.
単語辞書327は、ユーザが初期的に基本的な操作に使用するシステム辞書と、ユーザが後発的に登録するユーザ辞書に分かれている。システム辞書には、図16に示す「メニュー」や「トウロク(登録)」という語句が登録されている。
The
このうち、「メニュー」という語句の発声は、閉タイミング測定部332で測定した両唇音の存在するタイミングを「○」で表わし、子音を「△」で表わすとき、母音判別部333の判別した母音を使用して、「○△エ△イ△ウウ」と表わすことができる。ここで、「メ」は、両唇音なので「○」を開始点とし、ま行の子音「△」と「メ」の母音「エ」がこれに続くことになる。「ニ」は、な行の子音「△」と「ニ」の母音「イ」から構成される。「ュ」は、や行の子音「△」と「ュ」の母音「ウ」から構成される。「ー」は「ュ」を延ばした単語なので、「ュ」と同様に子音「△」との母音「ウ」から構成される。ただし「ニ」の音が発声されてから「ュ」の音が発声されるまでの時間間隔は、母音「イ」が認識される最小間隔となる。
Among them, the utterance of the phrase “menu” indicates the timing at which both lip sounds measured by the closing
図14に戻って説明を続ける。ユーザが「メニュー」と発声するとCPU321はこの発声パターンから子音「△」を取り除き、「○△エ△イ△ウウ」と処理する。CPU321は、処理内容を用いて単語辞書327のシステム辞書領域を検索すると、「メニュー」の登録内容と一致する。したがって、ユーザがメニュー画面の指示を行ったことが判別されることになる(ステップS401)。そこで、CPU321はディスプレイ305にメニュー画面を表示するように表示制御装置326を制御する(ステップS402)。
Returning to FIG. 14, the description will be continued. When the user utters “menu”, the
ディスプレイ305にメニュー画面が表示されたら、CPU321はこの表示状態で次にどのような発声による指示が行われるかを待機する。ユーザが単語登録を行うために「トウロク(登録)」と発声したとする。ここで「トウロク」という発声については、単語辞書327のシステム辞書領域に、図16に示すように「オウオウ」という登録内容で登録されている。
When the menu screen is displayed on the
一方、CPU321の方ではユーザが「トウロク」と発声すると、画像メモリ329に展開されたその単語発声パターンを基に前記した処理を行い、解析結果として「△オウ△オ△ウ」を得る。ここで「ト」、「ウ」、「ロ」、「ク」の各音はいずれも両唇音ではないので「○」が付かない。最初の「ト」は、た行の子音「△」と母音「オ」から構成される。「ウ」は、そのまま母音「ウ」から構成される。「ロ」は、ら行の子音「△」と母音「ウ」から構成される。最後の「ク」は、か行の子音「△」と母音「ウ」から構成される。この結果、子音「△」を取り除くと、「オウオウ」となり、「トウロク(登録)」の登録内容と完全に一致することになる。
On the other hand, when the user utters “Toroku”, the
したがって、ステップS402の処理でディスプレイ305にメニュー画面が表示された状態でユーザが「トウロク(登録)」と発声したとすると、CPU321はこれを「トウロク(登録)」の発声による指示があったと判別して(ステップS403:Y)、音声による単語登録のモードを実行することになる(ステップS404)。そして、ユーザが「オワリ(終り)」と発声すると、CPU321はこれを単語辞書327側の登録内容「オアイ」(図16参照)との一致を検出して「オワリ(終り)」が発声されたと判別して(ステップS405:Y)、単語登録のモードを終了する(エンド)。
Therefore, if the user utters “Turoku (registration)” in the state where the menu screen is displayed on the
一方、ディスプレイ305にメニュー画面が表示された状態でユーザが「トウロク(トウロク)」以外の他の語句を発声し(ステップS403:N)、それが単語登録のモード以外のモードとして判別された場合(ステップS406:Y)、該当するそのモードが実行される。それ以外の場合、たとえばユーザが咳払いをしたり単語辞書327の登録内容に一致しない語句を発声した場合には(ステップS406:N)、メニュー画面が表示された状態となる(ステップS402)。もちろん、システムによってはユーザがこの状態で「オワリ(終り)」と発声することで、メニュー画面の表示状態を終了させることができるようにしてもよい。
On the other hand, when the menu screen is displayed on the
ところで図16に示した単語辞書327には、ユーザ辞書として「タブイチ(タブ1)」、「タブニ(タブ2)」等の発声内容の登録も行われている。そこで、このような単語辞書327を用いて、ユーザ351がディスプレイ305に表示されたタブを操作する様子を説明する。
By the way, in the
図17は、ディスプレイの表示内容の一例を示したものである。図12と共に説明する。 FIG. 17 shows an example of display contents on the display. This will be described with reference to FIG.
ディスプレイ305には、ある操作が行われた時点で複数のタブを有するウィンドウが重なった状態で表示されている。図17では「タブ1」が選択された結果として、第1のウィンドウが前面に出た状態でその内容が表示されている。ユーザは、この状態から「タブ2」の第2のウィンドウに移行する際に、「手」を使用するのであれば、図11に示したダイヤルキー307Cの「2」キーを選択したり、図示しないカーソルを数字の「2」の位置に移動させてクリックすることになる。本実施の形態の携帯電話機300では、発声によってもタブの選択が可能である。
On the
図18は、ユーザが発声によってディスプレイの表示内容の操作を行う場合の処理の流れを示したものである。この処理は、図14のステップS406における「その他の指示」の1つとして行われるものである。図12、図15〜図17と共に説明する。 FIG. 18 shows the flow of processing when the user manipulates the display content by speaking. This process is performed as one of the “other instructions” in step S406 in FIG. This will be described with reference to FIGS. 12 and 15 to 17.
ディスプレイ305に図17の内容が表示され、ユーザ351が図14のステップS406における「その他の指示」の1つとして、発声によるディスプレイの表示内容の操作を選択したものとする。この状態で撮像装置306の取り込んだ画像データは、画像メモリ329の所定のリングメモリ領域にエンドレスに格納され、唇画像領域抽出部330は唇の画像領域を順次抽出し、母音判別部333は母音が判別されるかをチェックする(ステップS421)。
It is assumed that the content of FIG. 17 is displayed on the
この結果、唇353の開口部の解析から母音のいずれかが検出されたら(ステップS421:Y)、単語画像抽出部331は画像メモリ329のリングメモリ領域に格納された画像を時間t1だけ遡って、単語の切り出しを開始する(ステップS422)。ここで時間t1は、その母音を含む音が両唇音であるか否かを確認できる長さである。
As a result, when one of the vowels is detected from the analysis of the opening of the lips 353 (step S421: Y), the word
これと共に、単語画像抽出部331はリングメモリ領域における切り出しが開始した時点以降を順にチェックしていって次の母音が先の母音の検出(判別)から時間t2以内に検出(判別)されるかをチェックする(ステップS423、ステップS424)。ここで時間t2は、単語として複数の音が発声されるときの通常想定される「間(ま)」となる最大時間に所定の余裕時間を加えた時間である。単語画像抽出部331が次の母音を時間t2の経過前に判別すれば(ステップS423:Y)、更に次の母音を時間t2以内に判別するかを繰り返しチェックする。
At the same time, the word
これに対して次の母音を時間t2の経過前に判別しなかった場合(ステップS423:N、ステップS424:Y)、単語画像抽出部331はその時点で単語の画像の切り出しを終了する(ステップS425)。単語判別部328は図14の箇所で説明した単語処理を行って、単語辞書327の「登録内容」に対応する内容を取得する(ステップS426)。
On the other hand, when the next vowel is not discriminated before the elapse of time t 2 (step S423: N, step S424: Y), the word
たとえば、ユーザ351が「タブニ(タブ2)」と発声した単語の画像が唇画像領域抽出部330によって切り出されたとする。この場合、ステップS426の処理で「ア○ウイ」という処理結果が得られる。CPU321は単語辞書327の登録内容を検索して(ステップS427)、これと一致するものが存在すれば(ステップS428:Y)、その登録内容の操作を実行して(ステップS429)、処理がステップS421に戻る(リターン)。この例では、ステップS429の操作として、図17の第1のウィンドウが表示された状態から「タブ2」の選択により第2のウィンドウが代わって選択された状態に変化する。
For example, it is assumed that an image of a word uttered by the
検索結果から「ア○ウイ」という処理結果と一致する登録内容が単語辞書327に存在しなかった場合には(ステップS428:N)、「操作内容認識不能」等のエラー表示がディスプレイ305に一定期間現われて(ステップS430)、その後、ステップS421に戻る(リターン)。ここでユーザ351は、発声による操作を再度トライすることができる。もちろん、システムによってはステップS427の検索で一致する登録内容が存在しない場合に、個々の母音や両唇音の位置の一致の度合いが最も高い単語を一致候補として表示してユーザ351に確認させたり、一致の度合いが所定のしきい値を超える場合には一致として処理し該当する操作を実行するようにしてもよい。
If there is no registered content in the
次に、ユーザが操作に必要な単語を登録する場合について具体的に説明する。図16に示す単語辞書327に、第1のウィンドウから第3のウィンドウまでの展開を指示する「タブイチ(タブ1)」から「タブサン(タブ3)」までの単語が登録されているものとし、第4のウィンドウの展開を指示する単語がまだ登録されていないものとする。この場合、ユーザ351(図15)は図17に示したディスプレイ305で第4のウィンドウを音声指示によって展開することができない。
Next, a specific description will be given of a case where a user registers a word necessary for an operation. In the
図19は、図14のステップS404による単語登録の処理の流れを具体的に表わしたものである。図12、図15および図16と共に説明する。 FIG. 19 specifically shows the flow of the word registration process in step S404 of FIG. This will be described with reference to FIGS.
図14のステップS404による単語登録のモードが開始すると、CPU321はディスプレイ305に単語登録の対象となる操作内容を選択する画面を表示する(ステップS441)。この表示は、手の不自由な人に配慮して、ディスプレイ305の表示に関するあらゆる操作を択一的に選択できる内容となっている。ユーザ351は、次の表示内容を要求する場合には「ツギ(次)」と発声する(ステップS442:Y)。この場合、CPU321は次の選択画面に切り替えて(ステップS443)、ステップS441の表示状態に戻る。これに対してユーザ351が前に表示された表示内容を要求する場合には「マエ(前)」と発声する(ステップS442:N、ステップS444:Y)。この場合、CPU321は前の選択画面に切り替えて(ステップS445)、ステップS441の表示状態に戻る。
When the word registration mode in step S404 in FIG. 14 is started, the
このようにしてある時点で単語登録の対象となる所望の操作内容がディスプレイ305に表示されたら、ユーザ351はこの操作内容を単語登録の対象に選択するために「センタク(選択)」と発声する。CPU321はこれを認識すると(ステップS442:N、ステップS444:N、ステップS446:Y)、ディスプレイ305に音声の入力の指示を表示する(ステップS447)。そして、その指示から単語の入力に十分な時間t3が経過したら(ステップS448:Y)、単語画像抽出部331は唇画像領域抽出部330によって抽出されたその間の画像から単語を構成する画像を抽出する。
In this way, when a desired operation content to be registered at a certain point is displayed on the
単語判別部328は抽出した画像に対して図14の箇所で説明した単語処理を行って、単語辞書327の「登録内容」に対応する内容を取得する(ステップS449)。CPU321はこの取得した内容について単語辞書327の登録内容を検索して(ステップS450)、一致するものがなければ(ステップS451:N)、ユーザ351の発声した音の内容を単語登録して(ステップS452)、処理を終了する(エンド)。
The
一方、ステップS449で単語処理を行って得られた結果が単語辞書327の登録内容のいずれかと一致した場合には(ステップS451:Y)、重複登録を防止するためにディスプレイ305にエラー表示が行われる(ステップS453)。これに対してユーザ351は登録のための処理を再度トライするか、単語登録を断念する選択を音声の発声によって行う(ステップS454、ステップS455)。ユーザ351が登録のために「トウロク(登録)」と発声したことが判別された場合(ステップS454:Y)、CPU321は処理をステップS447に戻して音声の入力を再度待機する。
On the other hand, when the result obtained by performing the word processing in step S449 matches any of the registered contents of the word dictionary 327 (step S451: Y), an error is displayed on the
たとえば、第4のウィンドウを音声指示によって展開する語句を単語登録するために、最初の時点でユーザ351が「タブシ(タブ4)」と発声したとする。この場合のステップS449による単語処理の結果は「ア○ウイ」となり、「タブニ(タブ2)」の登録内容と一致する。したがって、「タブシ(タブ4)」は単語辞書327の既登録の内容と一致することになり(ステップS451:Y)、登録することができない(ステップS453)。
For example, it is assumed that the
この場合、ユーザ351が登録にトライすることを選択し(ステップS454:Y)、「タブヨン(タブ4)」と読み替えて単語を発声したとする。すると、ステップS449による単語処理の結果は「ア○ウオオ」となり、ユーザ351は単語登録を行うことができる。
In this case, it is assumed that the
エラー表示が行われた時点で、ユーザ351は単語処理を断念して「オワリ(終り)」と発声することもできる。この場合、CPU321が「オワリ」を判別すると(ステップS454:N、ステップS455:Y)、単語登録の処理が終了する(エンド)。ステップS441による操作内容の選択画面が表示されている状態でユーザ351が「オワリ(終り)」を発声した場合も(ステップS442:N、ステップS444:N、ステップS446:N、ステップS456:Y)、同様である(エンド)。
At the time when the error display is performed, the
以上説明した実施の形態によれば、ユーザ351が発声した単語を母音と両唇音の配列で区別して単語の比較処理を行うことにした。このため、ユーザ351の覚えやすい単語で多数の単語登録を行うことができ、表示操作を音を発するときの唇の開口部の形状によって多くの操作が可能になる。しかも、ユーザ351は必ずしも音を発生させず唇の開口部の形状を変化させるだけで表示操作を行うことができるので、他人に音の発生による迷惑を掛けることがない。
According to the embodiment described above, the words uttered by the
なお、実施の形態では「ン」の音を先に発声した音と同一の母音として処理したが、次に発声する音と同一の母音として処理したり、不定の音「−」としていずれにも該当しない内容に分類して処理してもよい。また、本実施の形態では単語の発声の開始前および終了時点でユーザ351が唇を閉じていないことを前提に処理を説明したが、必ず唇を閉じる人の場合には、単語の両端に発生する「○」の符号を1つずつ除去することで、唇を閉じない人と同様のデータ処理が可能である。
In the embodiment, the “n” sound is processed as the same vowel as the previously uttered sound, but it is processed as the same vowel as the next uttered sound, or the indefinite sound “−”. The contents may be classified and processed as not applicable. In the present embodiment, the process has been described on the assumption that the
<発明の第1の変形例> <First Modification of Invention>
以上説明した実施の形態では単語を自然に発声させ、これを母音や両唇音の配置に分解して辞書に登録し、表示操作と対応付けたが、これに限るものではない。より簡易な音声による操作として、単語を構成する各音を唇の開閉で区切って1音ずつ発声させ、これらの母音の組み合わせを表示操作と対応付けるようにしてもよい。この場合、登録できる単語の種類はある程度制限されるが、登録された単語をうまく活用することでディスプレイに表示された内容を十分に操作することができる。 In the embodiment described above, a word is uttered naturally, it is decomposed into vowels and lip sounds, registered in a dictionary, and associated with a display operation. However, the present invention is not limited to this. As a simple voice operation, each sound constituting a word may be divided by opening and closing the lips and uttered one sound at a time, and a combination of these vowels may be associated with a display operation. In this case, the types of words that can be registered are limited to some extent, but the contents displayed on the display can be sufficiently manipulated by making good use of the registered words.
図20は、話者としてのユーザが単語を1音ずつ発声するときの画像の変化の様子を表わしたものである。操作に使用する語句として「ミギ(右)」という音を発声する場合、この第1の変形例では「ミ」と「ギ」を1音ずつ間隔を置いて発音する。同図(A)は「ミ」を発声する前の画像の状態であり、ユーザ351の唇353は閉じている。
FIG. 20 shows a change in image when a user as a speaker utters a word one sound at a time. In the case of uttering a sound “Migi (right)” as a word used for the operation, in this first modification, “mi” and “gi” are pronounced one by one at intervals. FIG. 6A shows the state of the image before “mi” is uttered, and the
同図(B)は発声状態での唇の形状を表わした画像であり、ユーザ351の唇353は発声した音の種類に応じた開き具合となっている。1つの音の発声が終了すると、この第1の変形例でユーザ351は唇353を閉じ、同図(A)の状態に戻る。
FIG. 5B is an image showing the shape of the lips in the utterance state, and the
このように1つの音が発声されるたびに口の開閉が行われるので、口を開いた同図(C)の画像と口を閉じた同図(A)の画像が単語を構成する音の数だけ繰り返されることになる。もちろん、ユーザ351は発声を伴わない唇353の開閉のみを行うことができ、この場合にも第1の変形例の画面表示操作装置は表示上での各種操作を行うことができる。
Since the mouth is opened and closed each time one sound is produced in this way, the image of FIG. 10C with the mouth open and the image of FIG. It will be repeated by the number. Of course, the
図21は、この第1の変形例におけるディスプレイの操作の第1の例を説明するためのものである。図20と共に説明する。 FIG. 21 is for explaining a first example of the operation of the display in the first modification. This will be described with reference to FIG.
ディスプレイ305には、第1のウィンドウ501と第2のウィンドウ502が表示されている。このような場合、ユーザ351は、いずれかのウィンドウをアクティブにする操作をまず行った後、該当するウィンドウに対してデータ処理を行うことになる。このときの第1のウィンドウ501と第2のウィンドウ502の切り替えという単純な操作は、図20(A)および同図(C)に示した口の開閉の判別で可能になる。
On the
図22は、第1および第2のウィンドウのアクティブとノンアクティブの切替制御の様子を表わしたものである。図20および図21と共に説明する。 FIG. 22 shows a state of switching control between the active and inactive states of the first and second windows. This will be described with reference to FIGS.
図22[A]に示す第1の状態を初期状態とする。この初期状態では第1のウィンドウ501がアクティブで、これに対する操作が可能である。このとき、第2のウィンドウ502はノンアクティブであり、これに対する操作を行えない状態となっている。この状態でユーザ351が図20の(A)および(C)に示すように口を1度開閉させると、図22[B]に示すように第1のウィンドウ501がノンアクティブとなり、代わって第2のウィンドウ502がアクティブとなる。また、図22[B]に示すように第2のウィンドウ502がアクティブな状態からユーザ351が口を1度開閉させると、今度は図22[A]に示すように第1のウィンドウ501が再びアクティブな状態になる。このとき、第2のウィンドウ502はノンがアクティブとなる。
The first state shown in FIG. 22A is an initial state. In this initial state, the
このようにディスプレイ305に2つの操作事項が存在し、これを択一的に選択しなければならない場合、この第1の変形例ではユーザ351が口を開閉するたびに選択動作が繰り返されることになる。したがって、極めて簡単に画面の操作が可能になる。
In this way, when there are two operation items on the
しかしながら口の開閉だけでは操作を指示する単語の種類が極端に限定される。したがって、図17に示した複数のウィンドウのいずれかをアクティブにするような制御が困難になる。そこで、このような場合には図20(A)および(B)で示した単語発声時における唇353の開口部の形状の判別による操作が有効となる。
However, the types of words for instructing operations are extremely limited only by opening and closing the mouth. Therefore, it becomes difficult to control one of the plurality of windows shown in FIG. Therefore, in such a case, the operation by determining the shape of the opening of the
図23は、図17で説明した「タブ1」〜「タブ4」の選択を、この第1の変形例における第2の例として説明するためのものである。図17および図20と共に説明する。
FIG. 23 is a diagram for explaining selection of “
図17に示したように第1のウィンドウが前面に表示されている状態を第1の状態とする。このとき、第1のウィンドウがアクティブとなっており、ユーザはこれに対して更に詳細な操作を行うことができる。この状態でユーザ351が1つの音を発声するたびに口を開閉させながら、「ミ」、「ギ」(右)と発声したとする。この場合、先の実施の形態で説明した認識によってそれぞれの母音が判別され、「イ、イ」という判別結果が得られる。この第1の変形例では1つの音を発声するたびに口を開閉させるので、両唇音の判別による表記を省略している。
A state in which the first window is displayed on the front as shown in FIG. 17 is defined as a first state. At this time, the first window is active, and the user can perform more detailed operations on the first window. In this state, it is assumed that the
この「イ、イ」という判別結果が得られるたびに、第1の変形例の画面表示操作装置ではタブの選択を右方向に1つずつエンドレスに進める。したがって、第1の状態のときにユーザ351が「ミ」、「ギ」(右)と発声すると、第2の状態となり「タブ2」が選択されて第2のウィンドウがアクティブとなる。また、第2の状態のときにユーザ351が「ミ」、「ギ」(右)と発声すると、第3の状態となり「タブ3」が選択されて第3のウィンドウがアクティブとなる。更に第3の状態のときにユーザ351が「ミ」、「ギ」(右)と発声すると、第4の状態となり「タブ4」が選択されて第4のウィンドウがアクティブとなる。更にまた第4の状態のときにユーザ351が「ミ」、「ギ」(右)と発声すると、第1の状態に戻り「タブ1」が選択されて第1のウィンドウがアクティブとなる。以下、同様である。
Each time the determination result “I, i” is obtained, the screen display operation device of the first modification advances the tab selection one by one in the right direction. Therefore, when the
また、第1のウィンドウがアクティブとなっている状態でユーザ351が1つの音を発声するたびに口を開閉させながら、「ヒ」、「ダ」、「リ」(左)と発声したとする。この場合、先の実施の形態で説明した認識によってそれぞれの母音が判別され、「イ、ア、イ」という判別結果が得られる。
In addition, it is assumed that the
この「イ、ア、イ」という判別結果が得られるたびに、第1の変形例の画面表示操作装置ではタブの選択を左方向に1つずつエンドレスに進める。したがって、第1の状態のときにユーザ351が「ヒ」、「ダ」、「リ」(左)と発声すると、第4の状態となり「タブ4」が選択されて第4のウィンドウがアクティブとなる。また、第4の状態のときにユーザ351が「ヒ」、「ダ」、「リ」(左)と発声すると、第3の状態となり「タブ3」が選択されて第3のウィンドウがアクティブとなる。更に第3の状態のときにユーザ351が「ヒ」、「ダ」、「リ」(左)と発声すると、第2の状態となり「タブ2」が選択されて第2のウィンドウがアクティブとなる。更にまた第2の状態のときにユーザ351が「ヒ」、「ダ」、「リ」(左)と発声すると、第1の状態に戻り「タブ1」が選択されて第1のウィンドウがアクティブとなる。以下、同様である。
Each time the determination result “i, a, i” is obtained, the screen display operation device of the first modification advances the selection of the tabs one by one in the left direction. Therefore, when the
以上説明した本発明の第1の変形例によれば、ユーザ351が1つの音を発声するたびに口を開閉させるので、単語を構成する各母音の判別が容易になる。したがって、画面(ウィンドウ)の切り替えや、画面の移動、バックライトの点灯や消灯といったディスプレイに関する操作の典型的なものについて予め口の開閉や母音の組み合わせを登録しておけば、手を使用することなく各種の操作が可能になる。このため、手がふさがった状態でも画面表示操作装置に顔を向けることができれば、各種の操作が可能になるという利点がある。
According to the first modified example of the present invention described above, the mouth is opened and closed each time the
しかも、「ミ」、「ギ」(右)や「ヒ」、「ダ」、「リ」(左)といったユーザ351が直感的に分かりやすい動作パターンを登録することで、使い勝手の良いインタフェースとして、誰でも気軽に活用することができる。
Moreover, by registering operation patterns that are easy to understand intuitively for the
<発明の第2の変形例> <Second Modification of Invention>
図24は、本発明の第2の変形例における画面表示操作装置を示したものである。この第2の変形例の画面表示操作装置は、ノート型のパーソナルコンピュータ600である。このパーソナルコンピュータ600は、装置本体601に開閉自在に配置された蓋部602の内面側に、ディスプレイ603と共に撮像装置604を取り付けた構造となっている。したがって、ユーザはキー操作部605を手で操作することができるだけでなく、撮像装置604を用いて口の開閉や単語発声時の唇の開口部の形状認識による各種の操作が可能である。
FIG. 24 shows a screen display operating device in a second modification of the present invention. The screen display operation device according to the second modification is a notebook
このように本発明の画面表示操作装置は、携帯電話機やPHS(Personal Handy-phone System)といった小型の情報処理装置に限定される必要はなく、撮像装置を使用できるあらゆる情報処理装置に適用可能である。 Thus, the screen display operation device of the present invention is not necessarily limited to a small information processing device such as a mobile phone or a PHS (Personal Handy-phone System), and can be applied to any information processing device that can use an imaging device. is there.
また、本発明の実施の形態および変形例では日本語を対象とした母音および両唇音の特徴に基づく音の判別について説明したが、母音の種類や数の異なる他の言語についても本発明を適用することができることは当然である。 In the embodiments and modifications of the present invention, the sound discrimination based on the characteristics of vowels and lip sounds for Japanese is described. However, the present invention is also applied to other languages having different types and numbers of vowels. Of course you can do it.
以上説明した実施の形態の一部または全部は、以下の付記のようにも記載されるが、以下の記載に限定されるものではない。 Some or all of the embodiments described above are described as in the following supplementary notes, but are not limited to the following descriptions.
(付記1)
各種の情報を視覚的に表示するディスプレイと、
このディスプレイを使用する操作者の口を少なくとも撮影する撮像手段と、
この撮像手段によって得られた操作者の口の画像の経時的な変化を判別する変化判別手段と、
この変化判別手段の判別結果に応じて判別結果と対応付けた予め定めた特定の操作を実行する特定操作実行手段
とを具備することを特徴とする情報処理装置。
(Appendix 1)
A display that visually displays various types of information;
Imaging means for photographing at least an operator's mouth using the display;
Change discriminating means for discriminating temporal changes in the image of the operator's mouth obtained by the imaging means;
An information processing apparatus comprising: a specific operation executing unit that executes a predetermined specific operation associated with the determination result according to the determination result of the change determination unit.
(付記2)
前記変化判別手段は操作者の口の開閉の変化を判別することを特徴とする付記1記載の情報処理装置。
(Appendix 2)
The information processing apparatus according to
(付記3)
前記変化判別手段は操作者の唇の開口部の発声時に1音ごとに形成される特有の形状を判別することを特徴とする付記1記載の情報処理装置。
(Appendix 3)
The information processing apparatus according to
(付記4)
前記1音ごとに形成される特有の形状は、母音を発声するときの形状であることを特徴とする付記3記載の情報処理装置。
(Appendix 4)
The information processing apparatus according to
(付記5)
認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出手段と、
この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出手段と、
この単語画像抽出手段によって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録手段と、
この単語発声パターン記録手段あるいはこれと同等の手段によって予め記録しておいた単語発声パターンをそれぞれ単語と対応付けた単語辞書と、
前記単語発声パターン記録手段で記録した認識の対象となる単語発声パターンを前記単語辞書内の各単語についての単語発声パターンと比較するパターン比較手段と、(へ)このパターン比較手段による比較の結果、最も一致すると判別した単語発声パターンに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別手段
とを具備することを特徴とする単語判別装置。
(Appendix 5)
Lip image region extracting means for extracting a lip region image from a human face image to be recognized;
A word image extraction means for extracting a series of temporal changes from the start to the end of the lip image change in the lip image area extracted by the lip image area extraction means as a unit word image;
Vertical and horizontal directions passing through the center point of the opening of the lips when the joints when the upper and lower lips are closed in the word image extracted by the word image extracting means are arranged horizontally. A word utterance pattern recording means for recording a temporal change in each distance as a word utterance pattern when a unit word is uttered;
A word dictionary in which each word utterance pattern previously recorded by the word utterance pattern recording means or equivalent means is associated with a word;
Pattern comparison means for comparing the word utterance pattern to be recognized recorded by the word utterance pattern recording means with the word utterance pattern for each word in the word dictionary; and (f) the result of comparison by the pattern comparison means, A word discriminating apparatus comprising: a word discriminating unit that discriminates a word corresponding to a word utterance pattern determined to be the best match as a word uttered by a person to be recognized.
(付記6)
認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出手段と、
この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出手段と、
この単語画像抽出手段によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定手段と、
前記単語画像抽出手段によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別手段と、
前記閉タイミング測定手段あるいはこれと同等の手段によって測定したそれぞれのタイミングと前記母音判別手段あるいはこれと同等の手段によって判別した各母音の組み合わせを、予め複数の単語とそれぞれ対応付けて用意した単語辞書と、
前記単語画像抽出手段によって抽出した単語画像における前記閉タイミング測定手段で測定したそれぞれのタイミングおよび前記母音判別手段で判別した単語を構成するそれぞれの母音の組み合わせを前記単語辞書における前記組み合わせと比較する比較手段と、
この比較手段で最も一致すると判別した前記単語辞書における前記組み合わせに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別手段
とを具備することを特徴とする単語判別装置。
(Appendix 6)
Lip image region extracting means for extracting a lip region image from a human face image to be recognized;
A word image extraction means for extracting a series of temporal changes from the start to the end of the lip image change in the lip image area extracted by the lip image area extraction means as a unit word image;
A closing timing measuring means for measuring the timing at which the upper and lower lips in the word image extracted by the word image extracting means are closed;
Vowel discrimination means for discriminating each vowel constituting a word from the shape of the same lip opening that continues for a predetermined time or longer in the word image extracted by the word image extraction means;
A word dictionary prepared by associating a combination of each timing measured by the closing timing measuring means or equivalent means and each vowel determined by the vowel discrimination means or equivalent means with a plurality of words in advance. When,
Comparison comparing each timing measured by the closing timing measuring unit in the word image extracted by the word image extracting unit and each vowel combination constituting the word determined by the vowel determining unit with the combination in the word dictionary Means,
Word discrimination means comprising: word discrimination means for discriminating that a word corresponding to the combination in the word dictionary determined to be the best match by the comparison means is a word uttered by the person to be recognized; apparatus.
(付記7)
前記母音判別手段は、同一の唇の開口部の形状が前記所定時間以上継続するとき、この所定時間を超えた特定時間が経過するたびに同一の母音が繰り返し発声されたと判別することを特徴とする付記6記載の単語判別装置。
(Appendix 7)
The vowel discrimination means discriminates that the same vowel is repeatedly uttered every time a specific time exceeding the predetermined time elapses when the shape of the same lip opening continues for the predetermined time or longer. The word discrimination device according to appendix 6.
(付記8)
認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出手段と、
この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出手段と、
この単語画像抽出手段によって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録手段と、
この単語発声パターン記録手段あるいはこれと同等の手段によって予め記録しておいた単語発声パターンをそれぞれ単語と対応付けた単語辞書と、
前記単語発声パターン記録手段で記録した認識の対象となる単語発声パターンを前記単語辞書内の各単語についての単語発声パターンと比較するパターン比較手段と、
このパターン比較手段による比較の結果、最も一致すると判別した単語発声パターンに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別手段と、
各種の情報を表示するディスプレイと、
前記単語判別手段で判別した単語に対応する操作内容でこのディスプレイ上に表示された表示内容を操作する内容操作手段
とを具備することを特徴とする画面表示操作装置。
(Appendix 8)
Lip image region extracting means for extracting a lip region image from a human face image to be recognized;
A word image extraction means for extracting a series of temporal changes from the start to the end of the lip image change in the lip image area extracted by the lip image area extraction means as a unit word image;
Vertical and horizontal directions passing through the center point of the opening of the lips when the joints when the upper and lower lips are closed in the word image extracted by the word image extracting means are arranged horizontally. A word utterance pattern recording means for recording a temporal change in each distance as a word utterance pattern when a unit word is uttered;
A word dictionary in which each word utterance pattern previously recorded by the word utterance pattern recording means or equivalent means is associated with a word;
Pattern comparing means for comparing the word utterance pattern to be recognized recorded by the word utterance pattern recording means with the word utterance pattern for each word in the word dictionary;
As a result of the comparison by the pattern comparison means, a word determination means for determining that a word corresponding to the word utterance pattern determined to be the best match is a word uttered by the person to be recognized,
A display that displays various information,
A screen display operation device comprising: content operation means for operating display contents displayed on the display with operation contents corresponding to the word determined by the word determination means.
(付記9)
認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出手段と、
この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出手段と、
この単語画像抽出手段によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定手段と、
前記単語画像抽出手段によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別手段と、
前記閉タイミング測定手段あるいはこれと同等の手段によって測定したそれぞれのタイミングと前記母音判別手段あるいはこれと同等の手段によって判別した各母音の組み合わせを、予め複数の単語とそれぞれ対応付けて用意した単語辞書と、
前記単語画像抽出手段によって抽出した単語画像における前記閉タイミング測定手段で測定したそれぞれのタイミングおよび前記母音判別手段で判別した単語を構成するそれぞれの母音の組み合わせを前記単語辞書における前記組み合わせと比較する比較手段と、
この比較手段で最も一致すると判別した前記単語辞書における前記組み合わせに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別手段と、
各種の情報を表示するディスプレイと、
前記単語判別手段で判別した単語に対応する操作内容でこのディスプレイ上に表示された表示内容を操作する内容操作手段
とを具備することを特徴とする画面表示操作装置。
(Appendix 9)
Lip image region extracting means for extracting a lip region image from a human face image to be recognized;
A word image extraction means for extracting a series of temporal changes from the start to the end of the lip image change in the lip image area extracted by the lip image area extraction means as a unit word image;
A closing timing measuring means for measuring the timing at which the upper and lower lips in the word image extracted by the word image extracting means are closed;
Vowel discrimination means for discriminating each vowel constituting a word from the shape of the same lip opening that continues for a predetermined time or longer in the word image extracted by the word image extraction means;
A word dictionary prepared by associating a combination of each timing measured by the closing timing measuring means or equivalent means and each vowel determined by the vowel discrimination means or equivalent means with a plurality of words in advance. When,
Comparison comparing each timing measured by the closing timing measuring unit in the word image extracted by the word image extracting unit and each vowel combination constituting the word determined by the vowel determining unit with the combination in the word dictionary Means,
A word discriminating unit for discriminating that a word corresponding to the combination in the word dictionary determined to be the best match by the comparing unit is a word uttered by the person to be recognized;
A display that displays various information,
A screen display operation device comprising: content operation means for operating display contents displayed on the display with operation contents corresponding to the word determined by the word determination means.
(付記10)
前記母音判別手段は、同一の唇の開口部の形状が前記所定時間以上継続するとき、この所定時間を超えた特定時間が経過するたびに同一の母音が繰り返し発声されたと判別することを特徴とする付記9記載の画面表示操作装置。
(Appendix 10)
The vowel discrimination means discriminates that the same vowel is repeatedly uttered every time a specific time exceeding the predetermined time elapses when the shape of the same lip opening continues for the predetermined time or longer. The screen display operation device according to appendix 9.
(付記11)
単語登録の際に認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出手段と、
この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を登録する画像を発声した場合の単語画像として抽出する登録対象単語画像抽出手段と、
この登録対象単語画像抽出手段によって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録手段と、
この単語発声パターン記録手段あるいはこれと同等の手段によって予め記録しておいた単語発声パターンをそれぞれ単語と対応付けた単語辞書と、
前記単語発声パターン記録手段で記録した単語登録の対象となる単語発声パターンを前記単語辞書内の各単語についての単語発声パターンと比較するパターン比較手段と、
このパターン比較手段による比較の結果、所定の値以上近似しないと判別した単語発声パターンに対応する未登録の単語のみを単語登録可能とする登録単語可否判別手段
とを具備することを特徴とする単語登録装置。
(Appendix 11)
Lip image region extracting means for extracting a lip region image from a human face image to be recognized at the time of word registration;
A registration target word image extraction unit that extracts a word image when a series of changes in the lip image region extracted from the lip image region extracted by the lip image region extraction unit from the start to the end of the lip image region is registered as a word image;
A vertical direction passing through the center point of the opening of the lips when the joints when the upper and lower lips are closed in the word image extracted by the registration target word image extracting means are horizontally arranged as a whole; Word utterance pattern recording means for recording temporal changes in the distances in the left and right directions as word utterance patterns when one unit of words is uttered;
A word dictionary in which each word utterance pattern previously recorded by the word utterance pattern recording means or equivalent means is associated with a word;
Pattern comparison means for comparing the word utterance pattern to be registered in the word utterance pattern recording means with the word utterance pattern for each word in the word dictionary;
A word comprising: a registered word availability judging means for registering only unregistered words corresponding to a word utterance pattern judged not to be approximated by a predetermined value or more as a result of comparison by the pattern comparing means; Registration device.
(付記12)
単語登録の際に認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出手段と、
この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を登録する画像を発声した場合の単語画像として抽出する登録対象単語画像抽出手段と、
この登録対象単語画像抽出手段によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定手段と、
前記登録対象単語画像抽出手段によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別手段と、
前記閉タイミング測定手段あるいはこれと同等の手段によって測定したそれぞれのタイミングと前記母音判別手段あるいはこれと同等の手段によって判別した各母音の組み合わせを、予め複数の単語とそれぞれ対応付けて用意した単語辞書と、
前記登録対象単語画像抽出手段によって抽出した単語画像における前記閉タイミング測定手段で測定したそれぞれのタイミングおよび前記母音判別手段で判別した単語を構成するそれぞれの母音の組み合わせを前記単語辞書における前記組み合わせと比較する比較手段と、
この比較手段による比較の結果、所定の値以上近似しないと判別した単語発声パターンに対応する未登録の単語のみを単語登録可能とする登録単語可否判別手段
とを具備することを特徴とする単語登録装置。
(Appendix 12)
Lip image region extracting means for extracting a lip region image from a human face image to be recognized at the time of word registration;
A registration target word image extraction unit that extracts a word image when a series of changes in the lip image region extracted from the lip image region extracted by the lip image region extraction unit from the start to the end of the lip image region is registered as a word image;
A closing timing measuring means for measuring a timing at which upper and lower lips are closed in the word image extracted by the registration target word image extracting means;
Vowel discrimination means for discriminating each vowel constituting a word from the shape of the same lip opening that lasts for a predetermined time or longer in the word image extracted by the registration target word image extraction means;
A word dictionary prepared by associating a combination of each timing measured by the closing timing measuring means or equivalent means and each vowel determined by the vowel discrimination means or equivalent means with a plurality of words in advance. When,
Compare each timing combination measured by the closing timing measurement unit in the word image extracted by the registration target word image extraction unit and each vowel constituting the word determined by the vowel determination unit with the combination in the word dictionary. Comparing means to
A word registration characterized by comprising: a registered word availability judging means capable of registering only unregistered words corresponding to a word utterance pattern judged not to approximate more than a predetermined value as a result of comparison by the comparing means apparatus.
(付記13)
前記母音判別手段は、同一の唇の開口部の形状が前記所定時間以上継続するとき、この所定時間を超えた特定時間が経過するたびに同一の母音が繰り返し発声されたと判別することを特徴とする付記12記載の単語登録装置。
(Appendix 13)
The vowel discrimination means discriminates that the same vowel is repeatedly uttered every time a specific time exceeding the predetermined time elapses when the shape of the same lip opening continues for the predetermined time or longer. The word registration device according to
(付記14)
各種の情報を視覚的に表示するディスプレイを使用する操作者の口を少なくとも撮影する撮像ステップと、
この撮像ステップで得られた操作者の口の画像の経時的な変化を判別する変化判別ステップと、
この変化判別ステップによる判別結果に応じて判別結果と対応付けた予め定めた特定の操作を実行する特定操作実行ステップ
とを具備することを特徴とする情報処理方法。
(Appendix 14)
An imaging step of photographing at least an operator's mouth using a display that visually displays various types of information;
A change determination step for determining a change over time in an image of the operator's mouth obtained in this imaging step;
An information processing method comprising: a specific operation executing step for executing a predetermined specific operation associated with the determination result according to the determination result in the change determination step.
(付記15)
認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出ステップと、
この唇画像領域抽出ステップで抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出ステップと、
この単語画像抽出ステップによって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録ステップと、
この単語発声パターン記録ステップで記録した認識の対象となる単語発声パターンを、前記単語発声パターン記録ステップで予めそれぞれの単語と対応付けて登録した単語辞書内の各単語についての単語発声パターンと比較するパターン比較ステップと、
このパターン比較ステップによる比較の結果、最も一致すると判別した単語発声パターンに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別ステップ
とを具備することを特徴とする単語判別方法。
(Appendix 15)
A lip image region extracting step for extracting a lip region image from a human face image to be recognized;
A word image extraction step for extracting a series of temporal changes from the start to the end of the lip image change in the lip image region extracted in the lip image region extraction step as a unit word image;
The vertical and horizontal directions passing through the center point of the opening of the lips when the joints when the upper and lower lips are closed in the word image extracted by the word image extraction step are arranged horizontally. A word utterance pattern recording step of recording a temporal change of each distance of the word as a word utterance pattern when one unit of words is uttered;
The word utterance pattern to be recognized recorded in the word utterance pattern recording step is compared with the word utterance pattern for each word in the word dictionary registered in advance in association with each word in the word utterance pattern recording step. A pattern comparison step;
A word discrimination step for discriminating that the word corresponding to the word utterance pattern determined to be the best match as a result of the comparison in the pattern comparison step is a word uttered by the person to be recognized. Word discrimination method.
(付記16)
認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出ステップと、
この唇画像領域抽出ステップによって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出ステップと、
この単語画像抽出ステップによって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定ステップと、
前記単語画像抽出ステップによって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別ステップと、
前記単語画像抽出ステップによって抽出した単語画像における前記閉タイミング測定ステップで測定したそれぞれのタイミングおよび前記母音判別ステップで判別した単語を構成するそれぞれの母音の組み合わせを、前記閉タイミング測定ステップで測定したそれぞれのタイミングと前記母音判別ステップで判別した各母音の組み合わせで単語ごとに予め登録した単語辞書における前記組み合わせと比較する比較ステップと、
この比較ステップによる比較の結果、最も一致すると判別した前記単語辞書における前記組み合わせに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別ステップ
とを具備することを特徴とする単語判別方法。
(Appendix 16)
A lip image region extracting step for extracting a lip region image from a human face image to be recognized;
A word image extraction step for extracting a series of temporal changes from the start to the end of the lip image change in the lip image region extracted by the lip image region extraction step as a unit word image;
A closing timing measurement step for measuring the timing at which the upper and lower lips in the word image extracted by the word image extraction step are closed;
A vowel discrimination step for discriminating each vowel constituting the word from the shape of the same lip opening that lasts for a predetermined time or longer in the word image extracted by the word image extraction step;
Each timing measured in the closing timing measurement step in the word image extracted in the word image extraction step and each vowel combination constituting the word determined in the vowel determination step is measured in the closing timing measurement step, respectively. A comparison step for comparing with the combination in the word dictionary registered in advance for each word with a combination of the timing of the vowel and the vowels determined in the vowel determination step;
A word determination step of determining that a word corresponding to the combination in the word dictionary determined to be the best match as a result of comparison in the comparison step is a word uttered by the person to be recognized. A word discrimination method.
(付記17)
前記母音判別ステップでは、同一の唇の開口部の形状が前記所定時間以上継続するとき、この所定時間を超えた特定時間が経過するたびに同一の母音が繰り返し発声されたと判別することを特徴とする付記16記載の単語判別方法。
(Appendix 17)
In the vowel determination step, when the shape of the same lip opening continues for the predetermined time or more, it is determined that the same vowel is repeatedly uttered each time a specific time exceeding the predetermined time elapses. The word discrimination method according to supplementary note 16.
(付記18)
認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出ステップと、
この唇画像領域抽出ステップによって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出ステップと、
この単語画像抽出ステップによって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録ステップと、
この単語発声パターン記録ステップで記録した認識の対象となる単語発声パターンを、前記単語発声パターン記録ステップで予めそれぞれの単語と対応付けて登録した単語辞書内の各単語についての単語発声パターンと比較するパターン比較ステップと、
このパターン比較ステップによる比較の結果、最も一致すると判別した単語発声パターンに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別ステップと、
この単語判別ステップで判別した単語に対応する操作内容で、各種の情報を表示するディスプレイ上に表示された表示内容を操作する内容操作ステップ
とを具備することを特徴とする画面表示操作方法。
(Appendix 18)
A lip image region extracting step for extracting a lip region image from a human face image to be recognized;
A word image extraction step for extracting a series of temporal changes from the start to the end of the lip image change in the lip image region extracted by the lip image region extraction step as a unit word image;
The vertical and horizontal directions passing through the center point of the opening of the lips when the joints when the upper and lower lips are closed in the word image extracted by the word image extraction step are arranged horizontally. A word utterance pattern recording step of recording a temporal change of each distance of the word as a word utterance pattern when one unit of words is uttered;
The word utterance pattern to be recognized recorded in the word utterance pattern recording step is compared with the word utterance pattern for each word in the word dictionary registered in advance in association with each word in the word utterance pattern recording step. A pattern comparison step;
As a result of comparison by this pattern comparison step, a word determination step for determining that a word corresponding to the word utterance pattern determined to be the best match is a word uttered by the person to be recognized,
A screen display operation method, comprising: a content operation step for operating display contents displayed on a display for displaying various types of information with operation contents corresponding to the word determined in the word determination step.
(付記19)
認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出ステップと、
この唇画像領域抽出ステップによって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出ステップと、
この単語画像抽出ステップによって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定ステップと、
前記単語画像抽出ステップによって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別ステップと、
前記単語画像抽出ステップによって抽出した単語画像における前記閉タイミング測定ステップで測定したそれぞれのタイミングおよび前記母音判別ステップで判別した単語を構成するそれぞれの母音の組み合わせを、前記閉タイミング測定ステップで測定したそれぞれのタイミングと前記母音判別ステップで判別した各母音の組み合わせで単語ごとに予め登録した単語辞書と比較する比較ステップと、
この比較ステップによる比較の結果、最も一致すると判別した単語辞書の単語を前記認識の対象とする人物の発声した単語であると判別する単語判別ステップと、
この単語判別ステップで判別した単語に対応する操作内容で、各種の情報を表示するディスプレイ上に表示された表示内容を操作する内容操作ステップ
とを具備することを特徴とする画面表示操作方法。
(Appendix 19)
A lip image region extracting step for extracting a lip region image from a human face image to be recognized;
A word image extraction step for extracting a series of temporal changes from the start to the end of the lip image change in the lip image region extracted by the lip image region extraction step as a unit word image;
A closing timing measurement step for measuring the timing at which the upper and lower lips in the word image extracted by the word image extraction step are closed;
A vowel discrimination step for discriminating each vowel constituting the word from the shape of the same lip opening that lasts for a predetermined time or longer in the word image extracted by the word image extraction step;
Each timing measured in the closing timing measurement step in the word image extracted in the word image extraction step and each vowel combination constituting the word determined in the vowel determination step is measured in the closing timing measurement step, respectively. A comparison step for comparing with a word dictionary registered in advance for each word with a combination of each vowel determined in the timing and the vowel determination step;
As a result of comparison by this comparison step, a word determination step of determining that a word in the word dictionary determined to be the best match is a word spoken by the person to be recognized,
A screen display operation method, comprising: a content operation step for operating display contents displayed on a display for displaying various types of information with operation contents corresponding to the word determined in the word determination step.
(付記20)
前記母音判別ステップは、同一の唇の開口部の形状が前記所定時間以上継続するとき、この所定時間を超えた特定時間が経過するたびに同一の母音が繰り返し発声されたと判別することを特徴とする付記19記載の画面表示操作方法。
(Appendix 20)
In the vowel discrimination step, when the shape of the same lip opening continues for the predetermined time or more, it is determined that the same vowel is repeatedly uttered each time a specific time exceeding the predetermined time elapses. The screen display operation method according to appendix 19.
(付記21)
単語登録の際に認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出ステップと、
この唇画像領域抽出ステップによって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を登録する画像を発声した場合の単語画像として抽出する登録対象単語画像抽出ステップと、
この登録対象単語画像抽出ステップによって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録ステップと、
この単語発声パターン記録ステップで記録した単語登録の対象となる単語発声パターンを、前記単語発声パターン記録ステップで予めそれぞれの単語と対応付けて登録した単語辞書内の各単語についての単語発声パターンと比較するパターン比較ステップと、
このパターン比較ステップによる比較の結果、所定の値以上近似しないと判別した単語発声パターンに対応する未登録の単語のみを単語登録可能とする登録単語可否判別ステップ
とを具備することを特徴とする単語登録方法。
(Appendix 21)
A lip image region extracting step for extracting a lip region image from a human face image to be recognized at the time of word registration;
A registration target word image extraction step for extracting as a word image when an image for registering a series of temporal changes from the start to the end of the lip image change in the lip image region extracted by the lip image region extraction step;
The vertical direction passing through the center point of the opening of the lips when the joints when the upper and lower lips are closed in the word image extracted by the registration target word image extraction step are arranged horizontally. A word utterance pattern recording step for recording temporal changes in the distances in the left and right directions as a word utterance pattern when one unit of words is uttered;
The word utterance pattern to be registered in the word utterance pattern recording step is compared with the word utterance pattern for each word in the word dictionary registered in advance in association with each word in the word utterance pattern recording step. Pattern comparison step to
A word comprising: a registered word propriety determining step for registering only unregistered words corresponding to a word utterance pattern determined not to be approximated by a predetermined value or more as a result of comparison in the pattern comparing step; Registration method.
(付記22)
単語登録の際に認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出ステップと、
この唇画像領域抽出ステップによって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を登録する画像を発声した場合の単語画像として抽出する登録対象単語画像抽出ステップと、
この登録対象単語画像抽出ステップによって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定ステップと、
前記登録対象単語画像抽出ステップによって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別ステップと、
前記登録対象単語画像抽出ステップによって抽出した単語画像における前記閉タイミング測定ステップで測定したそれぞれのタイミングおよび前記母音判別ステップで判別した単語を構成するそれぞれの母音の組み合わせを、前記閉タイミング測定ステップで測定したそれぞれのタイミングと前記母音判別ステップで判別した各母音の組み合わせで単語ごとに予め登録した単語辞書と比較する比較ステップと、
この比較ステップによる比較の結果、所定の値以上近似しないと判別した前記した組み合わせに対応する未登録の単語のみを単語登録可能とする登録単語可否判別ステップ
とを具備することを特徴とする単語登録方法。
(Appendix 22)
A lip image region extracting step for extracting a lip region image from a human face image to be recognized at the time of word registration;
A registration target word image extraction step for extracting as a word image when an image for registering a series of temporal changes from the start to the end of the lip image change in the lip image region extracted by the lip image region extraction step;
A closing timing measuring step for measuring the timing at which the upper and lower lips in the word image extracted by the registration target word image extracting step are closed;
A vowel discrimination step for discriminating each vowel constituting a word from the shape of the same lip opening that continues for a predetermined time or longer in the word image extracted by the registration target word image extraction step;
In the closed timing measurement step, a combination of each timing measured in the closing timing measurement step in the word image extracted in the registration target word image extraction step and each vowel constituting the word determined in the vowel discrimination step is measured. A comparison step for comparing each word and a word dictionary registered in advance for each word with a combination of each vowel determined in the vowel determination step;
A word registration characterized by comprising: a registered word availability determination step that allows only unregistered words corresponding to the above-described combinations determined not to be approximated by a predetermined value or more as a result of comparison in the comparison step. Method.
(付記23)
前記母音判別ステップは、同一の唇の開口部の形状が前記所定時間以上継続するとき、この所定時間を超えた特定時間が経過するたびに同一の母音が繰り返し発声されたと判別することを特徴とする付記22記載の単語登録方法。
(Appendix 23)
In the vowel discrimination step, when the shape of the same lip opening continues for the predetermined time or more, it is determined that the same vowel is repeatedly uttered each time a specific time exceeding the predetermined time elapses. The word registration method according to
(付記24)
コンピュータに、
各種の情報を視覚的に表示するディスプレイを使用する操作者の口を少なくとも撮影する撮像処理と、
この撮像処理で得られた操作者の口の画像の経時的な変化を判別する変化判別処理と、
この変化判別処理による判別結果に応じて判別結果と対応付けた予め定めた特定の操作を実行する特定操作実行処理
とを実行させることを特徴とする情報処理プログラム。
(Appendix 24)
On the computer,
An imaging process for photographing at least an operator's mouth using a display that visually displays various types of information;
A change determination process for determining a temporal change in the image of the operator's mouth obtained by the imaging process;
An information processing program for executing a specific operation execution process for executing a predetermined specific operation associated with a determination result in accordance with a determination result by the change determination process.
(付記25)
コンピュータに、
認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出処理と、
この唇画像領域抽出処理で抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出処理と、
この単語画像抽出処理によって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録処理と、
この単語発声パターン記録処理で記録した認識の対象となる単語発声パターンを、前記単語発声パターン記録処理で予めそれぞれの単語と対応付けて登録した単語辞書内の各単語についての単語発声パターンと比較するパターン比較処理と、
このパターン比較処理による比較の結果、最も一致すると判別した単語発声パターンに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別処理
とを実行させることを特徴とする単語判別プログラム。
(Appendix 25)
On the computer,
Lip image region extraction processing for extracting a lip region image from a human face image to be recognized;
A word image extraction process for extracting a series of temporal changes from the start to the end of the lip image change in the lip image area extracted by the lip image area extraction process as a unit word image;
Vertical and horizontal directions passing through the center point of the opening of the lips when the joints when the upper and lower lips are closed in the word image extracted by the word image extraction process are arranged horizontally. A word utterance pattern recording process for recording a temporal change in the distance of each as a word utterance pattern when one unit of words is uttered;
The word utterance pattern to be recognized recorded in the word utterance pattern recording process is compared with the word utterance pattern for each word in the word dictionary registered in advance in association with each word in the word utterance pattern recording process. Pattern comparison processing,
As a result of the comparison by the pattern comparison process, a word discrimination process for discriminating that the word corresponding to the word utterance pattern most closely matched is a word uttered by the person to be recognized is performed. Word discrimination program.
(付記26)
コンピュータに、
認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出処理と、
この唇画像領域抽出処理によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出処理と、
この単語画像抽出処理によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定処理と、
前記単語画像抽出処理によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別処理と、
前記単語画像抽出処理によって抽出した単語画像における前記閉タイミング測定処理で測定したそれぞれのタイミングおよび前記母音判別処理で判別した単語を構成するそれぞれの母音の組み合わせを、前記閉タイミング測定処理で測定したそれぞれのタイミングと前記母音判別処理で判別した各母音の組み合わせで単語ごとに予め登録した単語辞書と比較する比較処理と、
この比較処理による比較の結果、最も一致すると判別した前記単語辞書における前記組み合わせに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別処理
とを実行させることを特徴とする単語判別プログラム。
(Appendix 26)
On the computer,
Lip image region extraction processing for extracting a lip region image from a human face image to be recognized;
A word image extraction process for extracting a series of temporal changes from the start to the end of the lip image change in the lip image area extracted by the lip image area extraction process as a unit word image;
A closing timing measurement process for measuring the timing at which the upper and lower lips are closed in the word image extracted by the word image extraction process;
Vowel discrimination processing for discriminating each vowel constituting a word from the shape of the same lip opening that continues for a predetermined time or longer in the word image extracted by the word image extraction processing;
Each timing measured in the closing timing measurement process in the word image extracted by the word image extraction process and each vowel combination constituting the word determined in the vowel determination process is measured in the closed timing measurement process, respectively. A comparison process for comparing with a word dictionary registered in advance for each word with a combination of the timing of and the vowels determined in the vowel determination process;
A word discrimination process for discriminating that a word corresponding to the combination in the word dictionary determined to be the best match as a result of comparison by the comparison process is a word uttered by a person to be recognized; A word discrimination program.
(付記27)
前記母音判別処理では、同一の唇の開口部の形状が前記所定時間以上継続するとき、この所定時間を超えた特定時間が経過するたびに同一の母音が繰り返し発声されたと判別することを特徴とする付記26記載の単語判別プログラム。
(Appendix 27)
In the vowel discrimination process, when the shape of the same lip opening continues for the predetermined time or more, it is determined that the same vowel is repeatedly uttered each time a specific time exceeding the predetermined time elapses. The word discrimination program according to
(付記28)
コンピュータに、
認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出処理と、
この唇画像領域抽出処理によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出処理と、
この単語画像抽出処理によって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録処理と、
この単語発声パターン記録処理で記録した認識の対象となる単語発声パターンを、前記単語発声パターン記録処理で予めそれぞれの単語と対応付けて登録した単語辞書内の各単語についての単語発声パターンと比較するパターン比較処理と、
このパターン比較処理による比較の結果、最も一致すると判別した単語発声パターンに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別処理と、
この単語判別処理で判別した単語に対応する操作内容で、各種の情報を表示するディスプレイ上に表示された表示内容を操作する内容操作処理
とを実行させることを特徴とする画面表示操作プログラム。
(Appendix 28)
On the computer,
Lip image region extraction processing for extracting a lip region image from a human face image to be recognized;
A word image extraction process for extracting a series of temporal changes from the start to the end of the lip image change in the lip image area extracted by the lip image area extraction process as a unit word image;
Vertical and horizontal directions passing through the center point of the opening of the lips when the joints when the upper and lower lips are closed in the word image extracted by the word image extraction process are arranged horizontally. A word utterance pattern recording process for recording a temporal change in the distance of each as a word utterance pattern when one unit of words is uttered;
The word utterance pattern to be recognized recorded in the word utterance pattern recording process is compared with the word utterance pattern for each word in the word dictionary registered in advance in association with each word in the word utterance pattern recording process. Pattern comparison processing,
As a result of the comparison by the pattern comparison process, a word determination process for determining that the word corresponding to the word utterance pattern determined to be the best match is a word uttered by the person to be recognized,
What is claimed is: 1. A screen display operation program for executing content operation processing for operating display content displayed on a display for displaying various types of information with operation content corresponding to a word determined by the word determination processing.
(付記29)
コンピュータに、
認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出処理と、
この唇画像領域抽出処理によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出処理と、
この単語画像抽出処理によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定処理と、
前記単語画像抽出処理によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別処理と、
前記単語画像抽出処理によって抽出した単語画像における前記閉タイミング測定処理で測定したそれぞれのタイミングおよび前記母音判別処理で判別した単語を構成するそれぞれの母音の組み合わせを、前記閉タイミング測定処理で測定したそれぞれのタイミングと前記母音判別処理で判別した各母音の組み合わせで単語ごとに予め登録した単語辞書と比較する比較処理と、
この比較処理による比較の結果、最も一致すると判別した単語辞書の単語を前記認識の対象とする人物の発声した単語であると判別する単語判別処理と、
この単語判別処理で判別した単語に対応する操作内容で、各種の情報を表示するディスプレイ上に表示された表示内容を操作する内容操作処理
とを実行させることを特徴とする画面表示操作プログラム。
(Appendix 29)
On the computer,
Lip image region extraction processing for extracting a lip region image from a human face image to be recognized;
A word image extraction process for extracting a series of temporal changes from the start to the end of the lip image change in the lip image area extracted by the lip image area extraction process as a unit word image;
A closing timing measurement process for measuring the timing at which the upper and lower lips are closed in the word image extracted by the word image extraction process;
Vowel discrimination processing for discriminating each vowel constituting a word from the shape of the same lip opening that continues for a predetermined time or longer in the word image extracted by the word image extraction processing;
Each timing measured in the closing timing measurement process in the word image extracted by the word image extraction process and each vowel combination constituting the word determined in the vowel determination process is measured in the closed timing measurement process, respectively. A comparison process for comparing with a word dictionary registered in advance for each word with a combination of the timing of and the vowels determined in the vowel determination process;
As a result of comparison by this comparison process, a word determination process for determining that a word in the word dictionary determined to be the best match is a word spoken by the person to be recognized;
What is claimed is: 1. A screen display operation program for executing content operation processing for operating display content displayed on a display for displaying various types of information with operation content corresponding to a word determined by the word determination processing.
(付記30)
前記母音判別処理は、同一の唇の開口部の形状が前記所定時間以上継続するとき、この所定時間を超えた特定時間が経過するたびに同一の母音が繰り返し発声されたと判別することを特徴とする付記29記載の画面表示操作プログラム。
(Appendix 30)
In the vowel discrimination process, when the shape of the same lip opening continues for the predetermined time or more, it is determined that the same vowel is repeatedly uttered each time a specific time exceeding the predetermined time elapses. The screen display operation program according to appendix 29.
(付記31)
コンピュータに、
単語登録の際に認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出処理と、
この唇画像領域抽出処理によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を登録する画像を発声した場合の単語画像として抽出する登録対象単語画像抽出処理と、
この登録対象単語画像抽出処理によって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録処理と、
この単語発声パターン記録処理で記録した単語登録の対象となる単語発声パターンを、前記単語発声パターン記録処理で予めそれぞれの単語と対応付けて登録した単語辞書内の各単語についての単語発声パターンと比較するパターン比較処理と、
このパターン比較処理による比較の結果、所定の値以上近似しないと判別した単語発声パターンに対応する未登録の単語のみを単語登録可能とする登録単語可否判別処理
とを実行させることを特徴とする単語登録プログラム。
(Appendix 31)
On the computer,
Lip image region extraction processing for extracting a lip region image from a human face image to be recognized at the time of word registration;
A registration target word image extraction process for extracting a word image when a series of temporal changes from the start to the end of a lip image change in the lip image area extracted by the lip image area extraction process is spoken;
The vertical direction passing through the center point of the opening of the lips when the joints when the upper and lower lips are closed in the word image extracted by the registration target word image extraction process are arranged horizontally. A word utterance pattern recording process for recording a temporal change in each distance in the left-right direction as a word utterance pattern when one unit of words is uttered;
The word utterance pattern to be registered in the word utterance pattern recording process is compared with the word utterance pattern for each word in the word dictionary registered in advance in association with each word in the word utterance pattern recording process. Pattern comparison processing,
A word that is subjected to a registered word availability determination process that allows only unregistered words corresponding to a word utterance pattern that is determined not to be approximated by a predetermined value or more as a result of comparison by the pattern comparison process. Registration program.
(付記32)
コンピュータに、
単語登録の際に認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出処理と、
この唇画像領域抽出処理によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を登録する画像を発声した場合の単語画像として抽出する登録対象単語画像抽出処理と、
この登録対象単語画像抽出処理によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定処理と、
前記登録対象単語画像抽出処理によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別処理と、
前記登録対象単語画像抽出処理によって抽出した単語画像における前記閉タイミング測定処理で測定したそれぞれのタイミングおよび前記母音判別処理で判別した単語を構成するそれぞれの母音の組み合わせを、前記閉タイミング測定処理で測定したそれぞれのタイミングと前記母音判別処理で判別した各母音の組み合わせで単語ごとに予め登録した単語辞書における前記した組み合わせと比較する比較処理と、
この比較処理による比較の結果、所定の値以上近似しないと判別した前記した組み合わせに対応する未登録の単語のみを単語登録可能とする登録単語可否判別処理
とを実行させることを特徴とする単語登録プログラム。
(Appendix 32)
On the computer,
Lip image region extraction processing for extracting a lip region image from a human face image to be recognized at the time of word registration;
A registration target word image extraction process for extracting a word image when a series of temporal changes from the start to the end of a lip image change in the lip image area extracted by the lip image area extraction process is spoken;
A closing timing measurement process for measuring the timing at which the upper and lower lips in the word image extracted by the registration target word image extraction process are closed;
Vowel discrimination processing for discriminating each vowel constituting a word from the shape of the same lip opening that continues for a predetermined time or longer in the word image extracted by the registration target word image extraction processing;
In the word image extracted by the registration target word image extraction process, the timing measured by the closing timing measurement process and the combination of the vowels constituting the word determined by the vowel determination process are measured by the closed timing measurement process. A comparison process for comparing with the above combination in the word dictionary registered in advance for each word with a combination of each timing and each vowel determined in the vowel determination process;
Word registration characterized in that, as a result of comparison by this comparison process, a registered word propriety determination process that allows only unregistered words corresponding to the above-described combinations determined not to approximate more than a predetermined value is executed. program.
(付記33)
前記母音判別処理は、同一の唇の開口部の形状が前記所定時間以上継続するとき、この所定時間を超えた特定時間が経過するたびに同一の母音が繰り返し発声されたと判別することを特徴とする付記32記載の単語登録プログラム。
(Appendix 33)
In the vowel discrimination process, when the shape of the same lip opening continues for the predetermined time or more, it is determined that the same vowel is repeatedly uttered each time a specific time exceeding the predetermined time elapses. The word registration program according to
10 情報処理装置
11、58、47、305、603 ディスプレイ
12 撮像手段
13 変化判別手段
14 特定操作実行手段
20、30 単語判別装置
21、31 唇画像領域抽出手段
22、32 単語画像抽出手段
23 単語発声パターン記録手段
24、35、44、55、64、75、327 単語辞書
25、45、65 パターン比較手段
26、37、46、57 単語判別手段
33、53、73 閉タイミング測定手段
34、54、74 母音判別手段
36、56、76 比較手段
40、50 画面表示操作装置
41、51、61、71 唇画像領域抽出手段
42、52 単語画像抽出手段
43、63 単語発声パターン記録手段
48、59 内容操作手段
60、70 単語登録装置
62、72 登録対象単語画像抽出手段
66、77 登録単語可否判別手段
80、90 単語判別方法
81、91 唇画像領域抽出ステップ
82、92 単語画像抽出ステップ
83 単語発声パターン記録ステップ
84 パターン比較ステップ
85、96 単語判別ステップ
93 閉タイミング測定ステップ
94 母音判別ステップ
95 比較ステップ
100 単語判別プログラム
101 唇画像領域抽出処理
102 単語画像抽出処理
103 閉タイミング測定処理
104 母音判別処理
105 比較処理
106 単語判別処理
300 携帯電話機
306、604 撮像装置
321 CPU
322 メモリ
323 主制御部
328 単語判別部
329 画像メモリ
330 唇画像領域抽出部
331 単語画像抽出部
332 閉タイミング測定部
333 母音判別部
351 ユーザ
352 顔
353 唇
501 第1のウィンドウ
502 第2のウィンドウ
600 パーソナルコンピュータ
DESCRIPTION OF SYMBOLS 10 Information processing apparatus 11, 58, 47, 305, 603 Display 12 Imaging means 13 Change discrimination means 14 Specific operation execution means 20, 30 Word discrimination apparatus 21, 31 Lip image area extraction means 22, 32 Word image extraction means 23 Word utterance Pattern recording means 24, 35, 44, 55, 64, 75, 327 Word dictionary 25, 45, 65 Pattern comparison means 26, 37, 46, 57 Word discrimination means 33, 53, 73 Closed timing measurement means 34, 54, 74 Vowel determination means 36, 56, 76 Comparison means 40, 50 Screen display operation device 41, 51, 61, 71 Lip image area extraction means 42, 52 Word image extraction means 43, 63 Word utterance pattern recording means 48, 59 Content operation means 60, 70 Word registration device 62, 72 Registration target word image extraction means 66, 77 Registration unit Visibility determining means 80, 90 Word determining method 81, 91 Lip image region extracting step 82, 92 Word image extracting step 83 Word utterance pattern recording step 84 Pattern comparing step 85, 96 Word determining step 93 Closing timing measuring step 94 Vowel determining step 95 Comparison step 100 Word discrimination program 101 Lip image region extraction processing 102 Word image extraction processing 103 Close timing measurement processing 104 Vowel discrimination processing 105 Comparison processing 106 Word discrimination processing 300 Mobile phone 306, 604 Imaging device 321 CPU
322
Claims (10)
このディスプレイを使用する操作者の口を少なくとも撮影する撮像手段と、
この撮像手段によって得られた操作者の口の画像の経時的な変化を判別する変化判別手段と、
この変化判別手段の判別結果に応じて判別結果と対応付けた予め定めた特定の操作を実行する特定操作実行手段
とを具備することを特徴とする情報処理装置。 A display that visually displays various types of information;
Imaging means for photographing at least an operator's mouth using the display;
Change discriminating means for discriminating temporal changes in the image of the operator's mouth obtained by the imaging means;
An information processing apparatus comprising: a specific operation executing unit that executes a predetermined specific operation associated with the determination result according to the determination result of the change determination unit.
この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出手段と、
この単語画像抽出手段によって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録手段と、
この単語発声パターン記録手段あるいはこれと同等の手段によって予め記録しておいた単語発声パターンをそれぞれ単語と対応付けた単語辞書と、
前記単語発声パターン記録手段で記録した認識の対象となる単語発声パターンを前記単語辞書内の各単語についての単語発声パターンと比較するパターン比較手段と、(へ)このパターン比較手段による比較の結果、最も一致すると判別した単語発声パターンに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別手段
とを具備することを特徴とする単語判別装置。 Lip image region extracting means for extracting a lip region image from a human face image to be recognized;
A word image extraction means for extracting a series of temporal changes from the start to the end of the lip image change in the lip image area extracted by the lip image area extraction means as a unit word image;
Vertical and horizontal directions passing through the center point of the opening of the lips when the joints when the upper and lower lips are closed in the word image extracted by the word image extracting means are arranged horizontally. A word utterance pattern recording means for recording a temporal change in each distance as a word utterance pattern when a unit word is uttered;
A word dictionary in which each word utterance pattern previously recorded by the word utterance pattern recording means or equivalent means is associated with a word;
Pattern comparison means for comparing the word utterance pattern to be recognized recorded by the word utterance pattern recording means with the word utterance pattern for each word in the word dictionary; and (f) the result of comparison by the pattern comparison means, A word discriminating apparatus comprising: a word discriminating unit that discriminates a word corresponding to a word utterance pattern determined to be the best match as a word uttered by a person to be recognized.
この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出手段と、
この単語画像抽出手段によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定手段と、
前記単語画像抽出手段によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別手段と、
前記閉タイミング測定手段あるいはこれと同等の手段によって測定したそれぞれのタイミングと前記母音判別手段あるいはこれと同等の手段によって判別した各母音の組み合わせを、予め複数の単語とそれぞれ対応付けて用意した単語辞書と、
前記単語画像抽出手段によって抽出した単語画像における前記閉タイミング測定手段で測定したそれぞれのタイミングおよび前記母音判別手段で判別した単語を構成するそれぞれの母音の組み合わせを前記単語辞書における前記組み合わせと比較する比較手段と、
この比較手段による比較の結果、最も一致すると判別した単語辞書における前記組み合わせに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別手段
とを具備することを特徴とする単語判別装置。 Lip image region extracting means for extracting a lip region image from a human face image to be recognized;
A word image extraction means for extracting a series of temporal changes from the start to the end of the lip image change in the lip image area extracted by the lip image area extraction means as a unit word image;
A closing timing measuring means for measuring the timing at which the upper and lower lips in the word image extracted by the word image extracting means are closed;
Vowel discrimination means for discriminating each vowel constituting a word from the shape of the same lip opening that continues for a predetermined time or longer in the word image extracted by the word image extraction means;
A word dictionary prepared by associating a combination of each timing measured by the closing timing measuring means or equivalent means and each vowel determined by the vowel discrimination means or equivalent means with a plurality of words in advance. When,
Comparison comparing each timing measured by the closing timing measuring unit in the word image extracted by the word image extracting unit and each vowel combination constituting the word determined by the vowel determining unit with the combination in the word dictionary Means,
A word discriminating unit for discriminating that the word corresponding to the combination in the word dictionary determined to be the best match as a result of comparison by the comparing unit is a word uttered by the person to be recognized; Word discrimination device.
この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出手段と、
この単語画像抽出手段によって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録手段と、
この単語発声パターン記録手段あるいはこれと同等の手段によって予め記録しておいた単語発声パターンをそれぞれ単語と対応付けた単語辞書と、
前記単語発声パターン記録手段で記録した認識の対象となる単語発声パターンを前記単語辞書内の各単語についての単語発声パターンと比較するパターン比較手段と、
このパターン比較手段による比較の結果、最も一致すると判別した単語発声パターンに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別手段と、
各種の情報を表示するディスプレイと、
前記単語判別手段で判別した単語に対応する操作内容でこのディスプレイ上に表示された表示内容を操作する内容操作手段
とを具備することを特徴とする画面表示操作装置。 Lip image region extracting means for extracting a lip region image from a human face image to be recognized;
A word image extraction means for extracting a series of temporal changes from the start to the end of the lip image change in the lip image area extracted by the lip image area extraction means as a unit word image;
Vertical and horizontal directions passing through the center point of the opening of the lips when the joints when the upper and lower lips are closed in the word image extracted by the word image extracting means are arranged horizontally. A word utterance pattern recording means for recording a temporal change in each distance as a word utterance pattern when a unit word is uttered;
A word dictionary in which each word utterance pattern previously recorded by the word utterance pattern recording means or equivalent means is associated with a word;
Pattern comparing means for comparing the word utterance pattern to be recognized recorded by the word utterance pattern recording means with the word utterance pattern for each word in the word dictionary;
As a result of the comparison by the pattern comparison means, a word determination means for determining that a word corresponding to the word utterance pattern determined to be the best match is a word uttered by the person to be recognized,
A display that displays various information,
A screen display operation device comprising: content operation means for operating display contents displayed on the display with operation contents corresponding to the word determined by the word determination means.
この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出手段と、
この単語画像抽出手段によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定手段と、
前記単語画像抽出手段によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別手段と、
前記閉タイミング測定手段あるいはこれと同等の手段によって測定したそれぞれのタイミングと前記母音判別手段あるいはこれと同等の手段によって判別した各母音の組み合わせを、予め複数の単語とそれぞれ対応付けて用意した単語辞書と、
前記単語画像抽出手段によって抽出した単語画像における前記閉タイミング測定手段で測定したそれぞれのタイミングおよび前記母音判別手段で判別した単語を構成するそれぞれの母音の組み合わせを前記単語辞書における前記組み合わせと比較する比較手段と、
この比較手段で最も一致すると判別した前記単語辞書における前記組み合わせに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別手段と、
各種の情報を表示するディスプレイと、
前記単語判別手段で判別した単語に対応する操作内容でこのディスプレイ上に表示された表示内容を操作する内容操作手段
とを具備することを特徴とする画面表示操作装置。 Lip image region extracting means for extracting a lip region image from a human face image to be recognized;
A word image extraction means for extracting a series of temporal changes from the start to the end of the lip image change in the lip image area extracted by the lip image area extraction means as a unit word image;
A closing timing measuring means for measuring the timing at which the upper and lower lips in the word image extracted by the word image extracting means are closed;
Vowel discrimination means for discriminating each vowel constituting a word from the shape of the same lip opening that continues for a predetermined time or longer in the word image extracted by the word image extraction means;
A word dictionary prepared by associating a combination of each timing measured by the closing timing measuring means or equivalent means and each vowel determined by the vowel discrimination means or equivalent means with a plurality of words in advance. When,
Comparison comparing each timing measured by the closing timing measuring unit in the word image extracted by the word image extracting unit and each vowel combination constituting the word determined by the vowel determining unit with the combination in the word dictionary Means,
A word discriminating unit for discriminating that a word corresponding to the combination in the word dictionary determined to be the best match by the comparing unit is a word uttered by the person to be recognized;
A display that displays various information,
A screen display operation device comprising: content operation means for operating display contents displayed on the display with operation contents corresponding to the word determined by the word determination means.
この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を登録する画像を発声した場合の単語画像として抽出する登録対象単語画像抽出手段と、
この登録対象単語画像抽出手段によって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録手段と、
この単語発声パターン記録手段あるいはこれと同等の手段によって予め記録しておいた単語発声パターンをそれぞれ単語と対応付けた単語辞書と、
前記単語発声パターン記録手段で記録した単語登録の対象となる単語発声パターンを前記単語辞書内の各単語についての単語発声パターンと比較するパターン比較手段と、
このパターン比較手段による比較の結果、所定の値以上近似しないと判別した単語発声パターンに対応する未登録の単語のみを単語登録可能とする登録単語可否判別手段
とを具備することを特徴とする単語登録装置。 Lip image region extracting means for extracting a lip region image from a human face image to be recognized at the time of word registration;
A registration target word image extraction unit that extracts a word image when a series of changes in the lip image region extracted from the lip image region extracted by the lip image region extraction unit from the start to the end of the lip image region is registered as a word image;
A vertical direction passing through the center point of the opening of the lips when the joints when the upper and lower lips are closed in the word image extracted by the registration target word image extracting means are horizontally arranged as a whole; Word utterance pattern recording means for recording temporal changes in the distances in the left and right directions as word utterance patterns when one unit of words is uttered;
A word dictionary in which each word utterance pattern previously recorded by the word utterance pattern recording means or equivalent means is associated with a word;
Pattern comparison means for comparing the word utterance pattern to be registered in the word utterance pattern recording means with the word utterance pattern for each word in the word dictionary;
A word comprising: a registered word availability judging means for registering only unregistered words corresponding to a word utterance pattern judged not to be approximated by a predetermined value or more as a result of comparison by the pattern comparing means; Registration device.
この唇画像領域抽出手段によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を登録する画像を発声した場合の単語画像として抽出する登録対象単語画像抽出手段と、
この登録対象単語画像抽出手段によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定手段と、
前記登録対象単語画像抽出手段によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別手段と、
前記閉タイミング測定手段あるいはこれと同等の手段によって測定したそれぞれのタイミングと前記母音判別手段あるいはこれと同等の手段によって判別した各母音の組み合わせを、予め複数の単語とそれぞれ対応付けて用意した単語辞書と、
前記登録対象単語画像抽出手段によって抽出した単語画像における前記閉タイミング測定手段で測定したそれぞれのタイミングおよび前記母音判別手段で判別した単語を構成するそれぞれの母音の組み合わせを前記単語辞書における前記組み合わせと比較する比較手段と、
この比較手段による比較の結果、所定の値以上近似しないと判別した単語発声パターンに対応する未登録の単語のみを単語登録可能とする登録単語可否判別手段
とを具備することを特徴とする単語登録装置。 Lip image region extracting means for extracting a lip region image from a human face image to be recognized at the time of word registration;
A registration target word image extraction unit that extracts a word image when a series of changes in the lip image region extracted from the lip image region extracted by the lip image region extraction unit from the start to the end of the lip image region is registered as a word image;
A closing timing measuring means for measuring a timing at which upper and lower lips are closed in the word image extracted by the registration target word image extracting means;
Vowel discrimination means for discriminating each vowel constituting a word from the shape of the same lip opening that lasts for a predetermined time or longer in the word image extracted by the registration target word image extraction means;
A word dictionary prepared by associating a combination of each timing measured by the closing timing measuring means or equivalent means and each vowel determined by the vowel discrimination means or equivalent means with a plurality of words in advance. When,
Compare each timing combination measured by the closing timing measurement unit in the word image extracted by the registration target word image extraction unit and each vowel constituting the word determined by the vowel determination unit with the combination in the word dictionary. Comparing means to
A word registration characterized by comprising: a registered word availability judging means capable of registering only unregistered words corresponding to a word utterance pattern judged not to approximate more than a predetermined value as a result of comparison by the comparing means apparatus.
この唇画像領域抽出ステップで抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出ステップと、
この単語画像抽出ステップによって抽出した単語画像における上下の唇の閉じたときの合わせ目が全体的に水平に配置しているとしたときの前記唇の開口部の中心点を通る上下方向と左右方向のそれぞれの距離の時間的な変化を1単位の単語が発声されたときの単語発声パターンとして記録する単語発声パターン記録ステップと、
この単語発声パターン記録ステップで記録した認識の対象となる単語発声パターンを、前記単語発声パターン記録ステップで予めそれぞれの単語と対応付けて登録した単語辞書内の各単語についての単語発声パターンと比較するパターン比較ステップと、
このパターン比較ステップによる比較の結果、最も一致すると判別した単語発声パターンに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別ステップ
とを具備することを特徴とする単語判別方法。 A lip image region extracting step for extracting a lip region image from a human face image to be recognized;
A word image extraction step for extracting a series of temporal changes from the start to the end of the lip image change in the lip image region extracted in the lip image region extraction step as a unit word image;
The vertical and horizontal directions passing through the center point of the opening of the lips when the joints when the upper and lower lips are closed in the word image extracted by the word image extraction step are arranged horizontally. A word utterance pattern recording step of recording a temporal change of each distance of the word as a word utterance pattern when one unit of words is uttered;
The word utterance pattern to be recognized recorded in the word utterance pattern recording step is compared with the word utterance pattern for each word in the word dictionary registered in advance in association with each word in the word utterance pattern recording step. A pattern comparison step;
A word discrimination step for discriminating that the word corresponding to the word utterance pattern determined to be the best match as a result of the comparison in the pattern comparison step is a word uttered by the person to be recognized. Word discrimination method.
この唇画像領域抽出ステップによって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出ステップと、
この単語画像抽出ステップによって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定ステップと、
前記単語画像抽出ステップによって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別ステップと、
前記単語画像抽出ステップによって抽出した単語画像における前記閉タイミング測定ステップで測定したそれぞれのタイミングおよび前記母音判別ステップで判別した単語を構成するそれぞれの母音の組み合わせを、前記閉タイミング測定ステップで測定したそれぞれのタイミングと前記母音判別ステップで判別した各母音の組み合わせで単語ごとに予め登録した単語辞書における前記組み合わせと比較する比較ステップと、
この比較ステップによる比較の結果、最も一致すると判別した前記単語辞書における前記組み合わせに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別ステップ
とを具備することを特徴とする単語判別方法。 A lip image region extracting step for extracting a lip region image from a human face image to be recognized;
A word image extraction step for extracting a series of temporal changes from the start to the end of the lip image change in the lip image region extracted by the lip image region extraction step as a unit word image;
A closing timing measurement step for measuring the timing at which the upper and lower lips in the word image extracted by the word image extraction step are closed;
A vowel discrimination step for discriminating each vowel constituting the word from the shape of the same lip opening that lasts for a predetermined time or longer in the word image extracted by the word image extraction step;
Each timing measured in the closing timing measurement step in the word image extracted in the word image extraction step and each vowel combination constituting the word determined in the vowel determination step is measured in the closing timing measurement step, respectively. A comparison step for comparing with the combination in the word dictionary registered in advance for each word with a combination of the timing of the vowels and the vowels determined in the step,
A word determination step of determining that a word corresponding to the combination in the word dictionary determined to be the best match as a result of comparison in the comparison step is a word uttered by the person to be recognized. A word discrimination method.
認識の対象とする人物の顔の画像から唇の領域の画像を抽出する唇画像領域抽出処理と、
この唇画像領域抽出処理によって抽出した唇画像領域における唇画像の変化開始から終了までの一連の経時的変化を1単位の単語画像として抽出する単語画像抽出処理と、
この単語画像抽出処理によって抽出した単語画像における上下の唇が閉じられるタイミングを測定する閉タイミング測定処理と、
前記単語画像抽出処理によって抽出した単語画像における所定時間以上継続する同一の唇の開口部の形状から単語を構成するそれぞれの母音を判別する母音判別処理と、
前記単語画像抽出処理によって抽出した単語画像における前記閉タイミング測定処理で測定したそれぞれのタイミングおよび前記母音判別処理で判別した単語を構成するそれぞれの母音の組み合わせを、前記閉タイミング測定処理で測定したそれぞれのタイミングと前記母音判別処理で判別した各母音の組み合わせで単語ごとに予め登録した単語辞書と比較する比較処理と、
この比較処理による比較の結果、最も一致すると判別した前記単語辞書における前記組み合わせに対応する単語を前記認識の対象とする人物の発声した単語であると判別する単語判別処理
とを実行させることを特徴とする単語判別プログラム。 On the computer,
Lip image region extraction processing for extracting a lip region image from a human face image to be recognized;
A word image extraction process for extracting a series of temporal changes from the start to the end of the lip image change in the lip image area extracted by the lip image area extraction process as a unit word image;
A closing timing measurement process for measuring the timing at which the upper and lower lips are closed in the word image extracted by the word image extraction process;
Vowel discrimination processing for discriminating each vowel constituting a word from the shape of the same lip opening that continues for a predetermined time or longer in the word image extracted by the word image extraction processing;
Each timing measured in the closing timing measurement process in the word image extracted by the word image extraction process and each vowel combination constituting the word determined in the vowel determination process is measured in the closed timing measurement process, respectively. A comparison process for comparing with a word dictionary registered in advance for each word with a combination of the timing of and the vowels determined in the vowel determination process;
A word discrimination process for discriminating that a word corresponding to the combination in the word dictionary determined to be the best match as a result of comparison by the comparison process is a word uttered by a person to be recognized; A word discrimination program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010266650A JP2012118679A (en) | 2010-11-30 | 2010-11-30 | Information processor, word discrimination device, screen display operation device, word registration device and method and program related to the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010266650A JP2012118679A (en) | 2010-11-30 | 2010-11-30 | Information processor, word discrimination device, screen display operation device, word registration device and method and program related to the same |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012118679A true JP2012118679A (en) | 2012-06-21 |
Family
ID=46501446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010266650A Pending JP2012118679A (en) | 2010-11-30 | 2010-11-30 | Information processor, word discrimination device, screen display operation device, word registration device and method and program related to the same |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012118679A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014210077A (en) * | 2013-04-19 | 2014-11-13 | 株式会社ユニバーサルエンターテインメント | Game machine and management method for game machine |
JP2015007952A (en) * | 2013-06-24 | 2015-01-15 | 由田新技股▲ふん▼有限公司 | Device and method to detect movement of face to create signal, and computer readable storage medium |
JP2015102897A (en) * | 2013-11-21 | 2015-06-04 | 株式会社Nttドコモ | Image recognition device, and image recognition method |
JP2017084041A (en) * | 2015-10-27 | 2017-05-18 | 株式会社ダイヘン | Voice command input device and welding system |
JP2017127888A (en) * | 2016-01-19 | 2017-07-27 | 株式会社ダイヘン | Welding device |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09325793A (en) * | 1996-06-05 | 1997-12-16 | Oki Electric Ind Co Ltd | Method and device for recognizing voice |
JP2000029585A (en) * | 1998-07-08 | 2000-01-28 | Canon Inc | Voice command recognizing image processor |
JP2008310382A (en) * | 2007-06-12 | 2008-12-25 | Omron Corp | Lip reading device and method, information processor, information processing method, detection device and method, program, data structure, and recording medium |
-
2010
- 2010-11-30 JP JP2010266650A patent/JP2012118679A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09325793A (en) * | 1996-06-05 | 1997-12-16 | Oki Electric Ind Co Ltd | Method and device for recognizing voice |
JP2000029585A (en) * | 1998-07-08 | 2000-01-28 | Canon Inc | Voice command recognizing image processor |
JP2008310382A (en) * | 2007-06-12 | 2008-12-25 | Omron Corp | Lip reading device and method, information processor, information processing method, detection device and method, program, data structure, and recording medium |
Non-Patent Citations (2)
Title |
---|
CSNG201000458015; 佐藤 慶幸: '口唇の形状情報を用いた口唇領域自動抽出処理の改善 Improvement of Automatic Lip Extraction Process Us' 電気学会論文誌C Vol.130 No.5 IEEJ 第130巻, 20100501, p.873-881, (社)電気学会 The Institute of Electrical Engine * |
JPN6014021775; 佐藤 慶幸: '口唇の形状情報を用いた口唇領域自動抽出処理の改善 Improvement of Automatic Lip Extraction Process Us' 電気学会論文誌C Vol.130 No.5 IEEJ 第130巻, 20100501, p.873-881, (社)電気学会 The Institute of Electrical Engine * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014210077A (en) * | 2013-04-19 | 2014-11-13 | 株式会社ユニバーサルエンターテインメント | Game machine and management method for game machine |
JP2015007952A (en) * | 2013-06-24 | 2015-01-15 | 由田新技股▲ふん▼有限公司 | Device and method to detect movement of face to create signal, and computer readable storage medium |
JP2015102897A (en) * | 2013-11-21 | 2015-06-04 | 株式会社Nttドコモ | Image recognition device, and image recognition method |
JP2017084041A (en) * | 2015-10-27 | 2017-05-18 | 株式会社ダイヘン | Voice command input device and welding system |
JP2017127888A (en) * | 2016-01-19 | 2017-07-27 | 株式会社ダイヘン | Welding device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240211028A1 (en) | Multimodal task execution and text editing for a wearable system | |
EP3616050B1 (en) | Apparatus and method for voice command context | |
EP3155500B1 (en) | Portable electronic equipment and method of operating a user interface | |
JP6635049B2 (en) | Information processing apparatus, information processing method and program | |
US20200075011A1 (en) | Sign Language Information Processing Method and Apparatus, Electronic Device and Readable Storage Medium | |
US20140304605A1 (en) | Information processing apparatus, information processing method, and computer program | |
EP1186162B1 (en) | Multi-modal video target acquisition and re-direction system and method | |
US10564712B2 (en) | Information processing device, information processing method, and program | |
US20140304606A1 (en) | Information processing apparatus, information processing method and computer program | |
US20150331490A1 (en) | Voice recognition device, voice recognition method, and program | |
US20140303975A1 (en) | Information processing apparatus, information processing method and computer program | |
JP4537901B2 (en) | Gaze measurement device, gaze measurement program, and gaze calibration data generation program | |
US10937415B2 (en) | Information processing device and information processing method for presenting character information obtained by converting a voice | |
JPH0981309A (en) | Input device | |
JP2010067104A (en) | Digital photo-frame, information processing system, control method, program, and information storage medium | |
CN110322760B (en) | Voice data generation method, device, terminal and storage medium | |
WO2015059976A1 (en) | Information processing device, information processing method, and program | |
JPH10301675A (en) | Multimodal interface device and multimodal interface method | |
US20170199543A1 (en) | Glass-type terminal and method of controling the same | |
JP2012118679A (en) | Information processor, word discrimination device, screen display operation device, word registration device and method and program related to the same | |
WO2016152200A1 (en) | Information processing system and information processing method | |
US12105916B2 (en) | Systems and methods for providing on-screen virtual keyboards | |
JP2007272534A (en) | Apparatus, method and program for complementing ellipsis of word | |
JP2009054101A (en) | Device, method and program for eye-gaze input | |
US20220013117A1 (en) | Information processing apparatus and information processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20121016 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131018 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140521 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140527 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140724 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20141216 |