JP2015220684A - Portable terminal equipment and lip reading processing program - Google Patents

Portable terminal equipment and lip reading processing program Download PDF

Info

Publication number
JP2015220684A
JP2015220684A JP2014104624A JP2014104624A JP2015220684A JP 2015220684 A JP2015220684 A JP 2015220684A JP 2014104624 A JP2014104624 A JP 2014104624A JP 2014104624 A JP2014104624 A JP 2014104624A JP 2015220684 A JP2015220684 A JP 2015220684A
Authority
JP
Japan
Prior art keywords
lip reading
call mode
unit
imaging
procedure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014104624A
Other languages
Japanese (ja)
Inventor
正永 中村
Masanaga Nakamura
正永 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nikon Corp
Original Assignee
Nikon Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nikon Corp filed Critical Nikon Corp
Priority to JP2014104624A priority Critical patent/JP2015220684A/en
Publication of JP2015220684A publication Critical patent/JP2015220684A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephone Set Structure (AREA)
  • Telephone Function (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide portable terminal equipment which can be used under a noise environment, and which can be mounted in a non-troublesome manner.SOLUTION: Portable terminal equipment includes: a communication module for transmitting/receiving information with the outside; a microphone; a display part for displaying various information; an imaging device; a control part for, when the volume of a sound to be input to the microphone is equal to or more than a predetermined threshold, allowing the display part to display a screen for selecting a lip reading speech mode at the time of receiving a call, and for, when the lip reading speech mode is selected, switching a speech mode to the lip reading speech mode; and a lip reading processing part for detecting the shape of the lip of a speaker from an image captured by an imaging device, and for converting it into at least one of the voice data and text data of words. The communication module is configured to, when the speech mode is switched to the lip reading speech mode, transmit at least one of the voice data and text data converted by the lip reading processing part to the outside.

Description

本発明は、携帯端末装置および読唇処理プログラムに関する。   The present invention relates to a portable terminal device and a lip reading processing program.

携帯電話やスマートフォンのように、ユーザに携帯されて様々な場所で使用される携帯端末装置が知られている。このような携帯端末装置を騒音環境下で用いる場合、ユーザの声を集音するために、たとえば骨伝導マイクが利用される(特許文献1参照)。   Background Art Mobile terminal devices that are carried by users and used in various places, such as mobile phones and smartphones, are known. When such a portable terminal device is used in a noisy environment, for example, a bone conduction microphone is used to collect the user's voice (see Patent Document 1).

特開2007−243591号公報JP 2007-243591 A

しかし、骨伝導マイクは、ユーザに接触させて使用するため、装着が煩わしい。   However, since the bone conduction microphone is used in contact with the user, it is troublesome to wear.

(1) 請求項1の発明による携帯端末装置は、外部との情報の送受信を行う通信モジュールと、マイクロフォンと、各種の情報を表示する表示部と、撮像装置と、マイクロフォンに入力される音の大きさがあらかじめ定められた閾値以上である場合には、着信時に読唇通話モードを選択する画面を表示部に表示させ、読唇通話モードが選択されると通話モードを読唇通話モードに切り替える制御部と、読唇通話モードに切り替えられると、撮像装置で撮像して得られた画像から話者の唇の形状を検出して言葉の音声データおよびテキストデータの少なくとも一方に変換する読唇処理部とを備え、通信モジュールは、読唇通話モードに切り替えられると、読唇処理部で変換した音声データまたはテキストデータの少なくとも一方を外部に送信する。
(2) 請求項2の発明による携帯端末装置は、外部との情報の送受信を行う通信モジュールと、マイクロフォンと、イヤホンを接続するイヤホンジャックと、イヤホンジャックにイヤホンが接続されたことを検出するイヤホン挿入検出端子と、各種の情報を表示する表示部と、撮像装置と、イヤホン挿入検出端子でイヤホンジャックにイヤホンが接続されたことを検出され、かつ、着信があった場合には、読唇通話モードを選択する画面を表示部に表示させ、読唇通話モードが選択されると通話モードを読唇通話モードに切り替える制御部と、読唇通話モードに切り替えられると、撮像装置で撮像して得られた画像から話者の唇の形状を検出して言葉の音声データおよびテキストデータの少なくとも一方に変換する読唇処理部とを備え、通信モジュールは、読唇通話モードに切り替えられると、読唇処理部で変換した音声データまたはテキストデータの少なくとも一方を外部に送信する。
(3) 請求項3の発明による携帯端末装置は、外部との情報の送受信を行う通信モジュールと、マイクロフォンと、各種の情報を表示する表示部と、撮像装置と、着信音の出力が禁止されるように設定され、かつ、着信があった場合には、読唇通話モードを選択する画面を表示部に表示させ、読唇通話モードが選択されると通話モードを読唇通話モードに切り替える制御部と、読唇通話モードに切り替えられると、撮像装置で撮像して得られた画像から話者の唇の形状を検出して言葉の音声データおよびテキストデータの少なくとも一方に変換する読唇処理部とを備え、通信モジュールは、読唇通話モードに切り替えられると、読唇処理部で変換した音声データまたはテキストデータの少なくとも一方を外部に送信する。
(4) 請求項4の発明による携帯端末装置は、外部との情報の送受信を行う通信モジュールと、マイクロフォンと、各種の情報を表示する表示部と、少なくともユーザの目元を撮像する第1の撮像装置と、第1の撮像装置とは異なる第2の撮像装置と、第1の撮像装置で撮像して得られた第1の画像に基づいて、ユーザの視線を検出する第1の視線検出部と、第2の撮像装置で撮像して得られた第2の画像に基づいて、第2の画像中の人物の視線を検出する第2の視線検出部と、第1の視線検出部での検出結果、および、第2の視線検出部での検出結果に基づいて、ユーザと第2の画像中の人物とが視線を合わせているか否かを判断する視線判断部と、第2の画像から第2の画像中の人物の唇の形状を検出して言葉の音声データおよびテキストデータの少なくとも一方に変換する読唇処理を行う読唇処理部と、視線判断部でユーザと第2の画像中の人物とが視線を合わせていると判断されると、読唇処理部による読唇処理の開始の許可を申請する申請部と、読唇処理の開始の許可が得られたか否かを判断する許可判断部と、許可判断部で許可が得られたと判断されると、読唇処理部に読唇処理を開始させる制御部とを備える。
(5) 請求項6の発明による読唇処理プログラムは、コンピュータに、マイクロフォンに入力される音の大きさがあらかじめ定められた閾値以上である場合には、着信時に読唇通話モードを選択する画面を表示部に表示させる表示手順と、読唇通話モードが選択されると通話モードを読唇通話モードに切り替える通話モード切替手順と、読唇通話モードに切り替えられると、撮像装置で撮像して得られた画像から話者の唇の形状を検出して言葉の音声データおよびテキストデータの少なくとも一方に変換する読唇処理手順と、読唇通話モードに切り替えられると、変換した音声データまたはテキストデータの少なくとも一方を外部に送信する送信手順とを実行させる。
(6) 請求項7の発明による読唇処理プログラムは、コンピュータに、イヤホンジャックにイヤホンが接続されたことを検出され、かつ、着信があった場合には、読唇通話モードを選択する画面を表示部に表示させる表示手順と、読唇通話モードが選択されると通話モードを読唇通話モードに切り替える通話モード切替手順と、読唇通話モードに切り替えられると、撮像装置で撮像して得られた画像から話者の唇の形状を検出して言葉の音声データおよびテキストデータの少なくとも一方に変換する読唇処理手順と、読唇通話モードに切り替えられると、変換した音声データまたはテキストデータの少なくとも一方を外部に送信する送信手順とを実行させる。
(7) 請求項8の発明による読唇処理プログラムは、コンピュータに、着信音の出力が禁止されるように設定され、かつ、着信があった場合には、読唇通話モードを選択する画面を表示部に表示させる表示手順と、読唇通話モードが選択されると通話モードを読唇通話モードに切り替える通話モード切替手順と、読唇通話モードに切り替えられると、撮像装置で撮像して得られた画像から話者の唇の形状を検出して言葉の音声データおよびテキストデータの少なくとも一方に変換する読唇処理手順と、読唇通話モードに切り替えられると、変換した音声データまたはテキストデータの少なくとも一方を外部に送信する送信手順とを実行させる。
(8) 請求項9の発明による読唇処理プログラムは、コンピュータに、少なくともユーザの目元を撮像する第1の撮像装置で撮像する第1の撮像手順と、第1の撮像装置とは異なる第2の撮像装置で撮像する第2の撮像手順と、第1の撮像装置で撮像して得られた第1の画像に基づいて、ユーザの視線を検出する第1の視線検出手順と、第2の撮像装置で撮像して得られた第2の画像に基づいて、第2の画像中の人物の視線を検出する第2の視線検出手順と、第1の視線検出手順での検出結果、および、第2の視線検出手順での検出結果に基づいて、ユーザと第2の画像中の人物とが視線を合わせているか否かを判断する視線判断手順と、視線判断手順でユーザと第2の画像中の人物とが視線を合わせていると判断されると、読唇処理の開始の許可を申請する申請手順と、読唇処理の開始の許可が得られたか否かを判断する許可判断手順と、許可判断手順で許可が得られたと判断されると、第2の画像から第2の画像中の人物の唇の形状を検出して言葉の音声データおよびテキストデータの少なくとも一方に変換する読唇処理を行う読唇処理手順とを実行させる。
(1) A portable terminal device according to a first aspect of the present invention includes a communication module that transmits / receives information to / from the outside, a microphone, a display unit that displays various types of information, an imaging device, and a sound input to the microphone. When the size is equal to or larger than a predetermined threshold, a screen for selecting the lip reading call mode is displayed on the display unit when an incoming call is received, and when the lip reading call mode is selected, the control unit switches the call mode to the lip reading call mode; A lip reading processing unit that, when switched to the lip reading call mode, detects the shape of the speaker's lips from an image captured by the imaging device and converts it into at least one of speech data and text data of words, When the communication module is switched to the lip reading call mode, the communication module transmits at least one of voice data or text data converted by the lip reading processing unit to the outside. The
(2) A mobile terminal device according to a second aspect of the present invention is a communication module that transmits and receives information to and from the outside, a microphone, an earphone jack that connects the earphone, and an earphone that detects that the earphone is connected to the earphone jack. When the insertion detection terminal, the display unit for displaying various information, the imaging device, and the earphone insertion detection terminal detect that the earphone is connected to the earphone jack and there is an incoming call, the lip reading call mode From the image obtained by taking an image with the imaging device when the lip reading call mode is selected, and the control unit that switches the call mode to the lip reading call mode when the lip reading call mode is selected. A lip reading processing unit that detects the shape of the speaker's lips and converts it to at least one of speech data and text data of words, and communicates When the module is switched to the lip reading call mode, the module transmits at least one of voice data and text data converted by the lip reading processing unit to the outside.
(3) The portable terminal device according to the invention of claim 3 is prohibited from outputting a ringtone, a communication module that transmits / receives information to / from the outside, a microphone, a display unit that displays various types of information, an imaging device, and the like. When the incoming call is received, a screen for selecting the lip reading call mode is displayed on the display unit, and when the lip reading call mode is selected, the control unit switches the call mode to the lip reading call mode; A lip reading processing unit that detects the shape of a speaker's lips from an image captured by an imaging device and converts it into at least one of speech data and text data when switched to the lip reading call mode, When the module is switched to the lip reading call mode, the module transmits at least one of voice data and text data converted by the lip reading processing unit to the outside.
(4) A portable terminal device according to a fourth aspect of the invention is a first imaging that images at least a user's eye, a communication module that transmits and receives information to and from the outside, a microphone, a display unit that displays various types of information, and the like. A first gaze detection unit that detects the gaze of the user based on the first image obtained by imaging the apparatus, a second imaging device different from the first imaging device, and the first imaging device And a second line-of-sight detection unit that detects the line of sight of a person in the second image based on the second image obtained by imaging with the second imaging device, and a first line-of-sight detection unit From the second image, a line-of-sight determination unit that determines whether the user and the person in the second image are in line of sight based on the detection result and the detection result in the second line-of-sight detection unit Detecting the shape of the lips of the person in the second image, voice data of the words and text When the lip reading processing unit that performs lip reading processing that converts data into at least one of the image data and the gaze determination unit determines that the user and the person in the second image are in line of sight, the lip reading processing unit starts the lip reading processing The lip reading processing section is applied to the lip reading processing section when it is determined that the permission is obtained by the application section for applying for permission, the permission determining section for determining whether permission to start the lip reading processing is obtained, and the permission determining section. A control unit to be started.
(5) The lip reading processing program according to the invention of claim 6 displays on the computer a screen for selecting the lip reading call mode when an incoming call is received when the volume of the sound input to the microphone is equal to or greater than a predetermined threshold. The display procedure to be displayed on the screen, the call mode switching procedure for switching the call mode to the lip reading call mode when the lip reading call mode is selected, and the conversation from the image obtained by the imaging device when switched to the lip reading call mode Lip reading processing procedure that detects the shape of the person's lips and converts them into at least one of speech data and text data, and when switched to the lip reading mode, at least one of the converted speech data or text data is transmitted to the outside The transmission procedure is executed.
(6) The lip reading processing program according to the invention of claim 7 displays a screen for selecting the lip reading call mode when the computer detects that the earphone is connected to the earphone jack and there is an incoming call. The display procedure to be displayed on the screen, the call mode switching procedure for switching the call mode to the lip reading call mode when the lip reading call mode is selected, and the speaker obtained from the image obtained by the imaging device when the lip reading call mode is switched to Lip reading processing procedure that detects the shape of the lips and converts it to at least one of speech data and text data, and transmission that transmits at least one of the converted speech data or text data to the outside when switched to the lip reading call mode And execute the procedure.
(7) The lip reading processing program according to the invention of claim 8 is configured to display a screen for selecting a lip reading call mode when the computer is set to prohibit the output of a ringtone and when there is an incoming call. The display procedure to be displayed on the screen, the call mode switching procedure for switching the call mode to the lip reading call mode when the lip reading call mode is selected, and the speaker obtained from the image obtained by the imaging device when the lip reading call mode is switched to Lip reading processing procedure that detects the shape of the lips and converts it to at least one of speech data and text data, and transmission that transmits at least one of the converted speech data or text data to the outside when switched to the lip reading call mode And execute the procedure.
(8) According to a ninth aspect of the present invention, there is provided a lip reading processing program according to a first imaging procedure in which at least a first imaging device that images at least a user's eyes is captured on a computer, and a second imaging device different from the first imaging device. A second imaging procedure for imaging by the imaging device, a first gaze detection procedure for detecting a user's gaze based on a first image obtained by imaging by the first imaging device, and a second imaging A second gaze detection procedure for detecting a gaze of a person in the second image, a detection result in the first gaze detection procedure, and a second A line-of-sight determination procedure for determining whether or not the user and the person in the second image are in line of sight based on the detection result in the line-of-sight detection procedure, and the user and the second image in the line-of-sight determination procedure When it is determined that the person is in line of sight, the lip reading process starts If it is determined that the permission has been obtained in the permission procedure, the permission determination procedure for determining whether permission to start the lip reading process has been obtained, A lip reading processing procedure for detecting the shape of the lips of the person in the image and performing lip reading processing for converting into at least one of speech data and text data of words.

本発明によれば、煩わしさがない。   According to the present invention, there is no inconvenience.

第1の実施の形態の携帯端末装置のブロック構成図である。It is a block block diagram of the portable terminal device of 1st Embodiment. 第1の実施の形態の携帯端末装置における着信時の動作についてのフローチャートである。It is a flowchart about the operation | movement at the time of the incoming call in the portable terminal device of 1st Embodiment. 図2に示したフローチャートにおけるステップS200のサブルーチンを示すフローチャートである。It is a flowchart which shows the subroutine of step S200 in the flowchart shown in FIG. 第2の実施の形態の携帯端末装置の外観斜視図である。It is an external appearance perspective view of the portable terminal device of 2nd Embodiment. 携帯端末装置の全体構成図である。It is a whole block diagram of a portable terminal device. 第2の実施の形態の読唇処理の動作についてのフローチャートである。It is a flowchart about the operation | movement of the lip reading process of 2nd Embodiment. 申請信号を受信した際に、許可または拒否する処理の動作についてのフローチャートである。It is a flowchart about the operation | movement of the process permitted or denied when an application signal is received. 変形例を示す図である。It is a figure which shows a modification. 変形例を示す図である。It is a figure which shows a modification.

−−−第1の実施の形態−−−
図1〜3を参照して、本発明による携帯端末装置および読唇処理プログラムの第1の実施の形態を説明する。図1は、第1の実施の形態の携帯端末装置のブロック構成図である。図1に例示する携帯端末装置100は、たとえば携帯電話、スマートフォンなどの携帯可能な情報端末である。携帯端末装置100は、制御部101と、記憶部102と、操作部103と、送受信部104と、呼び出し部105と、表示部106と、スピーカ107と、マイク108と、撮像部110と、読唇処理部120とを備える。
--- First embodiment ---
With reference to FIGS. 1-3, 1st Embodiment of the portable terminal device by this invention and the lip reading processing program is described. FIG. 1 is a block configuration diagram of the mobile terminal device according to the first embodiment. A mobile terminal device 100 illustrated in FIG. 1 is a portable information terminal such as a mobile phone or a smartphone. The mobile terminal device 100 includes a control unit 101, a storage unit 102, an operation unit 103, a transmission / reception unit 104, a calling unit 105, a display unit 106, a speaker 107, a microphone 108, an imaging unit 110, and lip reading And a processing unit 120.

携帯端末装置100は、たとえばメール機能、ウェブブラウザ機能、音声通話機能、撮影機能などを有する。制御部101は、不図示のCPU、RAM、ROMなどを有し、ROMに記憶されたプログラムを実行して携帯端末装置100全体を制御することにより、これらの機能を実現する。   The mobile terminal device 100 has, for example, a mail function, a web browser function, a voice call function, a photographing function, and the like. The control unit 101 includes a CPU, a RAM, a ROM, and the like (not shown), and implements these functions by executing a program stored in the ROM and controlling the mobile terminal device 100 as a whole.

記憶部102は、フラッシュメモリなどで構成され、この記憶部102には、通話相手の電話番号および名前などが記録される電話帳、送信相手のメールアドレスおよび名前などが記録されるアドレス帳、表示部106に文字を表示させるための文字データなどが記憶されている。   The storage unit 102 is configured by a flash memory or the like, and in this storage unit 102, a phone book in which the telephone number and name of the other party are recorded, an address book in which the mail address and name of the other party are recorded, and display Character data for displaying characters on the unit 106 is stored.

操作部103は、複数の各種操作キーを有し、電話送信、電話受信、メール送信、メール受信、その他各種機能を実行させるためのキー操作を行うためのものである。   The operation unit 103 has a plurality of various operation keys, and performs key operations for executing telephone transmission, telephone reception, mail transmission, mail reception, and other various functions.

送受信部104は、アンテナ(不図示)を介して受信した通信信号(通話信号)を復調して、復調して得られた多重化されたデジタル信号から携帯端末装置100宛のデジタル信号を抽出してアナログ信号に変換してスピーカ107に供給する。また、送受信部104は、マイク108からの音声信号をデジタル信号に変換して、このデジタル信号を多重化して搬送波を変調して送信する。また、送受信部104は、通信信号がメール信号である場合は、所定のメール信号処理により、メール信号の送信およびメール信号の受信を行う。呼び出し部105は、着信時の呼び出しを、音声で知らせたり、振動で知らせたり、あるいは光で知らせたりするためのものである。   The transceiver 104 demodulates a communication signal (call signal) received via an antenna (not shown), and extracts a digital signal addressed to the mobile terminal device 100 from the multiplexed digital signal obtained by the demodulation. Are converted into analog signals and supplied to the speaker 107. The transmission / reception unit 104 converts the audio signal from the microphone 108 into a digital signal, multiplexes the digital signal, modulates the carrier wave, and transmits the modulated signal. Further, when the communication signal is a mail signal, the transmission / reception unit 104 transmits the mail signal and receives the mail signal by predetermined mail signal processing. The calling unit 105 is for notifying the incoming call by voice, by vibration, or by light.

表示部106は、たとえば液晶モニタで構成され、携帯端末装置100が各種機能を実施する際に各種画面を表示する。たとえば、メール機能を実施するときは、送信メール編集画面、受信メール表示画面などが表示部106に表示される。また、ウェブブラウザ機能を実施するときは、ウェブページ閲覧画面などが表示部106に表示される。   The display unit 106 is composed of a liquid crystal monitor, for example, and displays various screens when the mobile terminal device 100 performs various functions. For example, when the mail function is performed, a transmitted mail editing screen, a received mail display screen, and the like are displayed on the display unit 106. When the web browser function is performed, a web page browsing screen or the like is displayed on the display unit 106.

スピーカ107は、音声通話時の音声を出力するスピーカである。マイク108は、音声通話時に使用されるマイクロフォンである。撮像部110は、撮像素子111、撮像光学系および信号処理部を有する撮像部であり、撮像素子111で撮像した被写体像の静止画像や動画像の画像データを出力する。   The speaker 107 is a speaker that outputs sound during a voice call. The microphone 108 is a microphone used during a voice call. The imaging unit 110 is an imaging unit having an imaging element 111, an imaging optical system, and a signal processing unit, and outputs still image of a subject image captured by the imaging element 111 and image data of a moving image.

読唇処理部120は、撮像部110から出力される動画像の画像データ(動画像データ)から、被写体の人物の唇の形状や動きを画像解析することで被写体の人物が発した言葉を認識して、認識結果を出力する処理部である。本実施の形態では、読唇処理部120は、被写体の人物が発した言葉の認識結果を音声データとして生成して出力する。なお、読唇処理部120は、記憶部102に記憶されているプログラムを制御部101の不図示のCPUが実行することによって実現される。   The lip reading processing unit 120 recognizes words uttered by the subject person from the image data (moving image data) of the moving image output from the imaging unit 110 by analyzing the shape and movement of the lip of the subject person. And a processing unit that outputs a recognition result. In the present embodiment, the lip reading processing unit 120 generates and outputs a speech recognition result of words uttered by the subject person. The lip reading processing unit 120 is realized by a CPU (not shown) of the control unit 101 executing a program stored in the storage unit 102.

このように構成される携帯端末装置100では、不図示の携帯電話通信網を介して、他の携帯端末装置や固定電話等との音声通話が可能である。また、携帯端末装置100では、通話中に撮像部110で撮像した得られた画像におけるユーザの唇の形や動きに基づいて読唇処理を行うことでユーザの発した言葉を認識して、認識した言葉の音声データを不図示の携帯電話通信網へ出力できる。   The mobile terminal device 100 configured as described above can make a voice call with another mobile terminal device, a fixed phone, or the like via a mobile phone communication network (not shown). In addition, the mobile terminal device 100 recognizes and recognizes the words uttered by the user by performing lip reading processing based on the shape and movement of the user's lips in the obtained image captured by the imaging unit 110 during a call. Voice data of words can be output to a mobile phone communication network (not shown).

本実施の形態の携帯端末装置100では、音声通話を行う際の設定モードとして、通常通話モードと、読唇通話モードとを備えている。通常通話モードとは、従来の携帯電話やスマートフォンにおける音声通話と同じ動作を行う設定モードである。すなわち、通常通話モードでは、制御部101は、ユーザが発する音声をマイク108で集音し、送受信部104でマイク108からの音声信号をデジタル信号に変換して、このデジタル信号を多重化して搬送波を変調して送信するように各部を制御する。   The mobile terminal device 100 according to the present embodiment includes a normal call mode and a lip reading call mode as setting modes for performing a voice call. The normal call mode is a setting mode that performs the same operation as a voice call in a conventional mobile phone or smartphone. That is, in the normal call mode, the control unit 101 collects the voice uttered by the user with the microphone 108, converts the voice signal from the microphone 108 into a digital signal with the transmission / reception unit 104, multiplexes the digital signal, and transmits the carrier wave Each unit is controlled to modulate and transmit.

読唇通話モードとは、マイク108で集音した音声に代えて、撮像部110からの画像データに基づいて読唇処理部120が読唇処理を行って出力する音声データを不図示の携帯電話通信網へ出力する設定モードである。すなわち、読唇通話モードでは、制御部101は、撮像部110から出力される画像データに基づいて、読唇処理部120に読唇処理を行わせて、読唇処理部120から出力される音声データのデジタル信号を送受信部104で多重化して搬送波を変調して送信するように各部を制御する。   The lip reading call mode refers to voice data output by the lip reading processing unit 120 performing lip reading processing based on image data from the imaging unit 110 instead of the voice collected by the microphone 108 to a mobile phone communication network (not shown). Setting mode to output. That is, in the lip reading call mode, the control unit 101 causes the lip reading processing unit 120 to perform lip reading processing based on the image data output from the imaging unit 110, and the digital signal of the audio data output from the lip reading processing unit 120. Are transmitted and received by the transmission / reception unit 104, and each unit is controlled to modulate and transmit a carrier wave.

なお、いずれの通話モードに設定された場合であっても、制御部101は、アンテナ(不図示)を介して受信した通話信号を復調して、復調して得られた多重化されたデジタル信号から携帯端末装置100宛のデジタル信号を抽出してアナログ信号に変換してスピーカ107に供給するように送受信部104を制御する。   Note that, regardless of which call mode is set, the control unit 101 demodulates a call signal received via an antenna (not shown), and a multiplexed digital signal obtained by demodulation. The transmission / reception unit 104 is controlled so that a digital signal addressed to the mobile terminal device 100 is extracted, converted into an analog signal, and supplied to the speaker 107.

−−−フローチャート−−−
図2は、本実施の形態の携帯端末装置100における着信時の動作についてのフローチャートである。本実施の形態の携帯端末装置100では、着信があると図2に示す処理を行うプログラムが起動されて、制御部101で実行される。ステップS101において、マイク108からの信号を入力してステップS103へ進む。ステップS103において、ステップS101で入力したマイク108の信号に基づいて、携帯端末装置100の周囲の騒音の大きさがあらかじめ定められた所定の閾値を超えるか否かを判断する。
--- Flow chart ---
FIG. 2 is a flowchart about the operation at the time of incoming call in portable terminal device 100 of the present embodiment. In mobile terminal device 100 of the present embodiment, when there is an incoming call, a program for performing the processing shown in FIG. 2 is started and executed by control unit 101. In step S101, a signal from the microphone 108 is input, and the process proceeds to step S103. In step S103, based on the signal of the microphone 108 input in step S101, it is determined whether or not the noise level around the mobile terminal device 100 exceeds a predetermined threshold value.

ステップS103が肯定判断されるとステップS105へ進み、着信がある旨の表示、および、読唇通話モードでの通話を開始するか否かを問い合わせる旨の表示を表示部106に表示させてステップS107へ進む。ステップS107において、通話開始の操作入力があるまで待機する。   If an affirmative determination is made in step S103, the process proceeds to step S105, where a display indicating that there is an incoming call and a display indicating whether or not to start a call in the lip reading mode are displayed on the display unit 106, and then the process proceeds to step S107. move on. In step S107, the process waits until an operation input for starting a call is received.

ステップS107で読唇通話モードでの通話を開始するように操作されるとステップS200のサブルーチンへ進み、通話モードを読唇通話モードに設定し、読唇通話モードでの通話処理を開始してステップS109ヘ進む。ステップS109において、終話操作が行われたか否かを判断する。ステップS109が否定判断されるとステップS200へ戻る。ステップS109が判断されるとステップS111へ進み、公知の終話信号を送受信部104から出力させて、本プログラムを終了する。   If it is operated in step S107 to start a call in the lip reading call mode, the process proceeds to a subroutine in step S200, the call mode is set to the lip reading call mode, a call process in the lip reading call mode is started, and the process proceeds to step S109. . In step S109, it is determined whether or not an end call operation has been performed. If a negative determination is made in step S109, the process returns to step S200. If step S109 is judged, it will progress to step S111, will output a well-known end signal from the transmission / reception part 104, and will complete | finish this program.

ステップS103が否定判断されるとステップS113へ進み、着信がある旨の表示を表示部106に表示させてステップS115へ進む。ステップS115において、通話開始の操作入力があるまで待機する。ステップS115で通話を開始するように操作されるとステップS300のサブルーチンへ進み、通話モードを通常通話モードに設定し、通常通話モードでの通話処理を開始してステップS117ヘ進む。ステップS117において、終話操作が行われたか否かを判断する。ステップS117が否定判断されるとステップS300へ戻る。ステップS117が判断されるとステップS111へ進む。   If a negative determination is made in step S103, the process proceeds to step S113, a display indicating that there is an incoming call is displayed on the display unit 106, and the process proceeds to step S115. In step S115, the process waits until an operation input for starting a call is received. When the operation is started to start the call in step S115, the process proceeds to a subroutine of step S300, the call mode is set to the normal call mode, the call process in the normal call mode is started, and the process proceeds to step S117. In step S117, it is determined whether or not an end-of-call operation has been performed. If a negative determination is made in step S117, the process returns to step S300. If step S117 is determined, the process proceeds to step S111.

ステップS107で通常通話モードでの通話を開始するように操作されるとステップS300のサブルーチンへ進む。   If it is operated in step S107 to start a call in the normal call mode, the process proceeds to a subroutine of step S300.

図3は、図2に示したフローチャートにおけるステップS200のサブルーチンを示す図である。ステップS301において、撮像素子111での被写体像の撮像を開始して動画像を取得するように撮像部110を制御してステップS303へ進む。ステップS303において、撮像部110からの動画像データに基づく読唇処理を開始するよう読唇処理部120を制御してステップS305へ進む。   FIG. 3 is a diagram showing a subroutine of step S200 in the flowchart shown in FIG. In step S301, the imaging unit 110 is controlled to start capturing a subject image with the imaging element 111 and acquire a moving image, and the process proceeds to step S303. In step S303, the lip reading processing unit 120 is controlled to start the lip reading processing based on the moving image data from the imaging unit 110, and the process proceeds to step S305.

ステップS305において、読唇処理部120から出力される音声データ、すなわち、被写体の人物が発した言葉の認識結果としての音声データを送受信部104で多重化して搬送波を変調して送信するように各部を制御して、メインルーチンのステップS109へ進む。   In step S305, the audio data output from the lip reading processing unit 120, that is, the audio data as the recognition result of the words uttered by the person of the subject is multiplexed by the transmission / reception unit 104, and the carrier wave is modulated and transmitted. Control proceeds to step S109 of the main routine.

このように構成される携帯端末装置100では、着信があったときにマイク108で集音した周囲の音の大きさに基づいて、周囲の騒音が大きいか否かを制御部101が判断する(ステップS101,S103)。そして、周囲の騒音の大きさがあらかじめ定められた所定の閾値を超えると判断されると(ステップS103肯定判断)、制御部101は、着信がある旨の表示、および、読唇通話モードでの通話を開始するか否かを問い合わせる旨の表示を表示部106に表示させる(ステップS105)。   In the mobile terminal device 100 configured as described above, the control unit 101 determines whether or not the ambient noise is large based on the volume of the ambient sound collected by the microphone 108 when an incoming call is received ( Steps S101 and S103). When it is determined that the ambient noise level exceeds a predetermined threshold value (Yes in step S103), the control unit 101 displays a message indicating that there is an incoming call and calls in the lip reading mode. Is displayed on the display unit 106 (step S105).

ここで、ステップS103における所定の閾値は、たとえば80dB(A)の音圧レベルである。なお本発明は、この値に限定されない。また、この閾値が聴感補正を考慮した値でなくてもよい。   Here, the predetermined threshold value in step S103 is, for example, a sound pressure level of 80 dB (A). The present invention is not limited to this value. Further, this threshold value may not be a value considering auditory sense correction.

携帯端末装置100のユーザが、操作部103を操作することで読唇通話モードでの通話を開始すると、通話モードが読唇通話モードに設定される。通話モードが読唇通話モードに設定されると、制御部101は、撮像素子111での被写体像の撮像を開始して動画像を取得するように撮像部110を制御する(ステップS301)とともに、撮像部110からの動画像データに基づく読唇処理が開始されるよう読唇処理部120を制御する(ステップS303)。   When the user of the mobile terminal device 100 starts a call in the lip reading call mode by operating the operation unit 103, the call mode is set to the lip reading call mode. When the call mode is set to the lip reading call mode, the control unit 101 controls the imaging unit 110 to start capturing a subject image with the imaging element 111 and acquire a moving image (step S301) and image capturing. The lip reading processing unit 120 is controlled to start the lip reading processing based on the moving image data from the unit 110 (step S303).

このとき、携帯端末装置100のユーザが、自分(ユーザ)の顔が撮像素子111で撮像されるように携帯端末装置100を顔から前方に離した位置で保持し、声を発せずとも言葉を発するように唇を動かせば、読唇処理部120が読唇処理を行って言葉を認識する。読唇処理部120は、認識した言葉の音声データのデジタル信号を生成して送受信部104に出力する。そして、送受信部104は、読唇処理部120から出力された音声データのデジタル信号を多重化して搬送波を変調して送信する(ステップS305)。   At this time, the user of the mobile terminal device 100 holds the mobile terminal device 100 at a position away from the face so that the face of the user (user) is imaged by the image sensor 111, and speaks without speaking. If the lips are moved so as to utter, the lip reading processing unit 120 performs the lip reading process to recognize the words. The lip reading processing unit 120 generates a digital signal of the voice data of the recognized word and outputs it to the transmission / reception unit 104. Then, the transmission / reception unit 104 multiplexes the digital signal of the audio data output from the lip reading processing unit 120, modulates the carrier wave, and transmits it (step S305).

これにより、携帯端末装置100のユーザが、声を発せずとも言葉を発するように唇を動かせば、読唇処理部120で言葉が認識されて、音声データとして通話相手に送信される。通話相手側の携帯電話機や固定電話機では、携帯端末装置100の読唇処理部120で生成された音声データが音声としてスピーカから出力される。   As a result, if the user of the mobile terminal device 100 moves his / her lips so that he / she speaks without speaking his / her voice, the lip reading processing unit 120 recognizes the word and transmits it as voice data to the other party. In the mobile phone or fixed phone on the other end of the call, the audio data generated by the lip reading processing unit 120 of the mobile terminal device 100 is output from the speaker as audio.

なお、通話相手側の携帯電話機や固定電話機からの音声は、携帯端末装置100のスピーカ107から出力される。しかし、上述したように周囲の騒音が大きいことや、ユーザの顔が撮像素子111で撮像されるように携帯端末装置100を顔から前方に離した位置で保持することから、不図示のイヤホンを用いることが望ましい。なお、携帯端末装置100では、従来の携帯電話機やスマートフォンと同様に、不図示のイヤホンが接続されると、通話相手側の携帯電話機や固定電話機からの音声は、携帯端末装置100のスピーカ107からではなく、接続されたイヤホンから出力される。   Note that the voice from the other party's mobile phone or fixed phone is output from the speaker 107 of the mobile terminal device 100. However, since the surrounding noise is large as described above, and the mobile terminal device 100 is held at a position away from the face so that the user's face is captured by the image sensor 111, an unillustrated earphone is attached. It is desirable to use it. Note that, in the mobile terminal device 100, as with a conventional mobile phone or smartphone, when an unillustrated earphone is connected, the sound from the mobile phone or fixed phone on the call partner side is transmitted from the speaker 107 of the mobile terminal device 100. Instead, it is output from the connected earphone.

第1の実施の形態の携帯端末装置100では、次の作用効果を奏する。
(1) 着信があったときにマイク108で集音した周囲の騒音の大きさがあらかじめ定められた所定の閾値を超えると判断されると、読唇通話モードでの通話を開始するか否かを問い合わせる旨の表示を表示部106に表示させるように構成した。そして、読唇通話モードでの通話を開始するように操作されると通話モードを読唇通話モードに設定し、読唇通話モードでの通話処理を開始するように構成した。これにより、周囲の騒音の影響によってユーザの発する音声を明瞭に集音できないような場合に、容易に読唇通話モードでの通話を開始できるので、利便性が高い。また、骨伝導マイクのような集音装置をユーザの身体に装着する必要がないので煩わしさがない。
The mobile terminal device 100 according to the first embodiment has the following operational effects.
(1) When it is determined that the magnitude of ambient noise collected by the microphone 108 when an incoming call is received exceeds a predetermined threshold value, whether or not to start a call in the lip reading call mode is determined. The display unit 106 is configured to display a display for inquiring. Then, when operated to start a call in the lip reading call mode, the call mode is set to the lip reading call mode, and the call processing in the lip reading call mode is started. Thereby, when the user's voice cannot be clearly collected due to the influence of ambient noise, a call in the lip reading call mode can be easily started, which is highly convenient. Moreover, since it is not necessary to attach a sound collecting device such as a bone conduction microphone to the user's body, there is no inconvenience.

(2) 読唇処理部120で認識した言葉が音声データのデジタル信号として生成されて出力されるように構成した。これにより、読唇処理による認識結果を通話相手に音声で伝えることができる。したがって、たとえば携帯電話網や、通話相手の携帯電話機や固定電話機に特に変更を加える必要がないので、通話相手が限定されず、携帯端末装置100の利便性が高い。 (2) The words recognized by the lip reading processing unit 120 are generated and output as digital signals of audio data. Thereby, the recognition result by the lip reading process can be conveyed to the other party by voice. Therefore, for example, since it is not necessary to make any particular changes to the mobile phone network, the mobile phone or the fixed phone of the call partner, the call partner is not limited, and the convenience of the mobile terminal device 100 is high.

(3) 読唇処理を行うためのプログラムを記憶部102に記憶させて、制御部101で読唇処理を行うように構成した。これにより、たとえば、読唇処理機能を備えていない携帯端末装置に読唇処理を行うためのプログラムを記憶させることで、読唇処理を行えるので、携帯端末装置100の利便性を向上できる。 (3) A program for performing lip reading processing is stored in the storage unit 102, and the control unit 101 performs lip reading processing. Thereby, for example, the lip reading process can be performed by storing a program for performing the lip reading process in a portable terminal device that does not have the lip reading processing function, and thus the convenience of the portable terminal device 100 can be improved.

−−−第2の実施の形態−−−
図4〜7を参照して、本発明による携帯端末装置および読唇処理プログラムの第2の実施の形態を説明する。以下の説明では、第1の実施の形態と同じ構成要素には同じ符号を付して相違点を主に説明する。特に説明しない点については、第1の実施の形態と同じである。本実施の形態では、主に、目の前にいる人物が発した言葉を読唇処理によって認識するように構成した点で、第1の実施の形態と異なる。
--- Second Embodiment ---
A second embodiment of the portable terminal device and the lip reading processing program according to the present invention will be described with reference to FIGS. In the following description, the same components as those in the first embodiment are denoted by the same reference numerals, and different points will be mainly described. Points that are not particularly described are the same as those in the first embodiment. This embodiment is different from the first embodiment in that it is configured to recognize words uttered by a person in front of the eyes by lip reading processing.

図4は、本実施の形態の携帯端末装置200の外観斜視図である。携帯端末装置200の眼鏡型のウェアラブル端末装置であり、第1撮像部210、第2撮像部220、投影部230、回路部240、操作部103、マイク108、イヤホン204を備えている。第1撮像部210は、携帯端末装置200の前方、すなわち、携帯端末装置200を装着したユーザの前方の被写体を撮像するための撮影装置であり、後述する撮像素子111aと、撮像光学系212とを備えている。   FIG. 4 is an external perspective view of the mobile terminal device 200 of the present embodiment. It is a glasses-type wearable terminal device of the mobile terminal device 200, and includes a first imaging unit 210, a second imaging unit 220, a projection unit 230, a circuit unit 240, an operation unit 103, a microphone 108, and an earphone 204. The first imaging unit 210 is an imaging device for imaging a subject in front of the mobile terminal device 200, that is, in front of the user wearing the mobile terminal device 200, and includes an imaging element 111a and an imaging optical system 212, which will be described later. It has.

第1撮像部210は、携帯端末装置200の前方の被写体からの被写体光が撮像光学系212に入射するように、たとえば、メガネ型フレーム201のテンプル部分(ツルの部分)の側面に設けられている。   The first imaging unit 210 is provided, for example, on the side surface of the temple portion (vine portion) of the glasses-type frame 201 so that subject light from a subject in front of the mobile terminal device 200 enters the imaging optical system 212. Yes.

第2撮像部220は、携帯端末装置200のメガネ型フレーム201から延在するアーム202の先端に取り付けられていて、携帯端末装置200を装着したユーザの口元および目元を撮影するための撮影装置であり、後述する撮像素子111bと、不図示の撮像光学系とを備えている。また、第2撮像部220には、マイク108も設けられている。   The second imaging unit 220 is attached to the tip of an arm 202 extending from the glasses-type frame 201 of the mobile terminal device 200, and is an imaging device for capturing the mouth and eyes of the user wearing the mobile terminal device 200. Yes, it includes an imaging element 111b described later and an imaging optical system (not shown). The second imaging unit 220 is also provided with a microphone 108.

投影部230は、眼鏡レンズ203に設けられたハーフミラー層203aに映像を投影する装置であり、各種情報をハーフミラー層203aに表示する。ユーザは、表示された情報と共に眼鏡レンズ203越しに前方を見ることができる。回路部240には、制御部101が設けられている。   The projection unit 230 is a device that projects an image on the half mirror layer 203a provided in the spectacle lens 203, and displays various information on the half mirror layer 203a. The user can view the front through the eyeglass lens 203 together with the displayed information. The circuit unit 240 is provided with a control unit 101.

メガネ型フレーム201のたとえばテンプル部分の側面には、ユーザが操作するための操作部103が設けられている。メガネ型フレーム201のテンプル部分には、イヤホン204が取り付けられている。   For example, on the side surface of the temple portion of the glasses-type frame 201, an operation unit 103 is provided for the user to operate. An earphone 204 is attached to the temple portion of the glasses-type frame 201.

たとえば、第1撮像部210が設けられたメガネ型フレーム201のテンプル部分側面の部位には、後述する赤外線通信部130の赤外線発光部131と赤外線受光部132とが設けられている。   For example, an infrared light emitting unit 131 and an infrared light receiving unit 132 of an infrared communication unit 130 to be described later are provided at a site on the side of the temple portion of the glasses-type frame 201 where the first imaging unit 210 is provided.

図5は、携帯端末装置200の全体構成図である。携帯端末装置200は、制御部101と、記憶部102と、操作部103と、送受信部104と、呼び出し部105と、投影部230と、イヤホン204と、マイク108と、撮像部110と、読唇処理部120と、赤外線通信部130と、視線検出部140とを備える。携帯端末装置200では、撮像部110に上述した2つの撮像素子111a,111bが設けられている。赤外線通信部130は、周知の赤外線通信を行う通信部であり、上述した赤外線発光部131と赤外線受光部132とを有する。   FIG. 5 is an overall configuration diagram of the mobile terminal device 200. The mobile terminal device 200 includes a control unit 101, a storage unit 102, an operation unit 103, a transmission / reception unit 104, a calling unit 105, a projection unit 230, an earphone 204, a microphone 108, an imaging unit 110, and a lip reading A processing unit 120, an infrared communication unit 130, and a line-of-sight detection unit 140 are provided. In the mobile terminal device 200, the imaging unit 110 is provided with the two imaging elements 111a and 111b described above. The infrared communication unit 130 is a communication unit that performs known infrared communication, and includes the infrared light emitting unit 131 and the infrared light receiving unit 132 described above.

視線検出部140は、ユーザから視認し得る距離にいる相手の視線の方向や、ユーザの視線の方向を検出する検出部である。視線検出部140は、既知の視線検出手法により、第1撮像部210の撮像素子111aで撮像した得られた画像から、第1撮像部210の撮像素子111aで撮像した被写体、すなわち、ユーザから視認し得る距離にいる相手の視線の方向を検出する。また、視線検出部140は、既知の視線検出手法により、第2撮像部220の撮像素子111bで撮像した得られた画像から、ユーザの視線の方向を検出する。   The line-of-sight detection unit 140 is a detection unit that detects the direction of the line of sight of the other party at a distance that can be visually recognized by the user and the direction of the line of sight of the user. The line-of-sight detection unit 140 uses a known line-of-sight detection method to visually recognize a subject imaged by the imaging element 111a of the first imaging unit 210, that is, a user, from an image captured by the imaging element 111a of the first imaging unit 210. The direction of the line of sight of the opponent who is at a possible distance is detected. Further, the line-of-sight detection unit 140 detects the direction of the user's line of sight from the obtained image captured by the imaging element 111b of the second imaging unit 220 by a known line-of-sight detection method.

このように構成される携帯端末装置200では、上述した第1の実施の形態の携帯端末装置100と同様に、不図示の携帯電話通信網を介して、他の携帯端末装置や固定電話等との音声通話が可能である。携帯端末装置200では、上述した第1の実施の形態の携帯端末装置100と同様に、通話中に第2撮像部220の撮像素子111bで撮像した得られた画像におけるユーザの唇の形や動きに基づいて読唇処理を行うことでユーザの発した言葉を認識して、認識した言葉の音声データを不図示の携帯電話通信網へ出力できる。   In the mobile terminal device 200 configured as described above, in the same manner as the mobile terminal device 100 of the first embodiment described above, other mobile terminal devices, fixed telephones, and the like are connected via a mobile phone communication network (not shown). Voice calls are possible. In the mobile terminal device 200, as in the mobile terminal device 100 of the first embodiment described above, the shape and movement of the user's lips in the obtained image captured by the image sensor 111b of the second imaging unit 220 during a call. By performing the lip reading process based on the above, it is possible to recognize the words uttered by the user and output the voice data of the recognized words to a mobile phone communication network (not shown).

また、携帯端末装置200では、視認し得る距離に存在する相手の発した言葉を認識して、認識した言葉を文字に変換して、眼鏡レンズ203のハーフミラー層203aに表示できる。すなわち、本実施の形態の携帯端末装置200では、携帯端末装置200をそれぞれ装着した2人のユーザが、騒音が大きい環境下で、互いの視線が合った状態が数秒間続くと、第1撮像部210の撮像素子111aで撮像して得られた被写体像に基づく読唇処理が開始される。携帯端末装置200で行われる処理について、以下に詳細を説明する。   In addition, the mobile terminal device 200 can recognize words uttered by a partner existing at a visually recognizable distance, convert the recognized words into characters, and display them on the half mirror layer 203 a of the eyeglass lens 203. That is, in the mobile terminal device 200 according to the present embodiment, when two users respectively wearing the mobile terminal device 200 are in a noisy environment and in a state where their eyes are aligned with each other for several seconds, the first imaging is performed. Lip reading processing based on the subject image obtained by imaging with the imaging element 111a of the unit 210 is started. Details of processing performed in the mobile terminal device 200 will be described below.

以下の説明では、2人のユーザがそれぞれ携帯端末装置200を装着し、お互いに視認し得る位置で向かい合っているものとする。説明の便宜上、2人のユーザをそれぞれユーザAおよびユーザBとする。ユーザAが装着する携帯端末装置200を携帯端末装置200Aとし、ユーザBが装着する携帯端末装置200を携帯端末装置200Bとする。また、携帯端末装置200の各部の説明について、携帯端末装置200Aと携帯端末装置200Bとで区別をする必要がある場合、携帯端末装置200Aについては符号の末尾にAを付し、携帯端末装置200Bについては符号の末尾にBを付して説明する。   In the following description, it is assumed that two users wear the mobile terminal device 200 and face each other at positions where they can be visually recognized. For convenience of explanation, it is assumed that two users are user A and user B, respectively. The mobile terminal device 200 worn by the user A is referred to as a mobile terminal device 200A, and the mobile terminal device 200 worn by the user B is referred to as a mobile terminal device 200B. In the description of each part of the mobile terminal device 200, when it is necessary to distinguish between the mobile terminal device 200A and the mobile terminal device 200B, the mobile terminal device 200A is given an A at the end of the reference numeral, and the mobile terminal device 200B. Will be described with a suffix B.

各携帯端末装置200A,200Bでは、それぞれの制御部101は、マイク108で集音した周囲の音の大きさに基づいて、周囲の騒音が大きいか否かを制御部101が判断する。そして、周囲の騒音の大きさがあらかじめ定められた所定の閾値を超えると判断されると、それぞれの制御部101は、第1撮像部210の撮像素子111aで携帯端末装置200の前方の被写体を撮像するように各部を制御する。また、それぞれの制御部101は、第2撮像部220の撮像素子111bでユーザの目元および口元を撮像するように各部を制御する。   In each of the mobile terminal devices 200A and 200B, each control unit 101 determines whether or not the surrounding noise is large based on the volume of the surrounding sound collected by the microphone 108. When it is determined that the ambient noise level exceeds a predetermined threshold value, each control unit 101 uses the imaging element 111a of the first imaging unit 210 to select a subject in front of the mobile terminal device 200. Each part is controlled so as to capture an image. In addition, each control unit 101 controls each unit so that the imaging element 111b of the second imaging unit 220 images the user's eyes and mouth.

携帯端末装置200Aの制御部101Aは、撮像素子111aで撮像して得られた画像に基づいて、視線検出部140で視線検出処理を行わせる。そして、制御部101Aは、視線検出部140での視線検出処理の結果に基づいて、携帯端末装置200Aの前方の被写体の中に、ユーザA、すなわち、携帯端末装置200Aを注視する人物が存在するか否かを判断する。   The control unit 101A of the mobile terminal device 200A causes the line-of-sight detection unit 140 to perform line-of-sight detection processing based on an image obtained by imaging with the imaging element 111a. Then, based on the result of the line-of-sight detection process in the line-of-sight detection unit 140, the control unit 101A includes a person who is gazing at the user A, that is, the mobile terminal device 200A, among subjects in front of the mobile terminal device 200A. Determine whether or not.

また、制御部101Aは、撮像素子111bで撮像して得られた画像に基づいて、視線検出部140でユーザAについての視線検出処理を行わせる。そして、制御部101Aは、視線検出部140での視線検出処理の結果、および、撮像素子111aで撮像して得られた画像に基づいて、ユーザAが携帯端末装置200の前方の被写体のどの部分を注視しているかを特定する。   In addition, the control unit 101A causes the line-of-sight detection unit 140 to perform line-of-sight detection processing on the user A based on an image obtained by imaging with the image sensor 111b. Then, the control unit 101A determines which part of the subject in front of the mobile terminal device 200 the user A is based on the result of the line-of-sight detection process in the line-of-sight detection unit 140 and the image obtained by imaging with the imaging element 111a. Identify whether you are watching.

そして、制御部101Aは、携帯端末装置200Aを注視する人物が存在し、かつ、ユーザAが当該人物の顔を注視しているか否かを判断する。携帯端末装置200Aを注視する人物が存在し、かつ、ユーザAが当該人物の顔を注視している状態が、たとえば数秒間継続していると判断されると、制御部101Aは、前方の相手に対して読唇処理を開始するかどうかを尋ねる表示、すなわち読唇処理開始問合せ表示画面を眼鏡レンズ203のハーフミラー層203aに表示するよう各部を制御する。   Then, the control unit 101A determines whether there is a person gazing at the mobile terminal device 200A and whether the user A is gazing at the person's face. If it is determined that there is a person watching the mobile terminal device 200A and the user A is watching the face of the person, for example, for several seconds, the control unit 101A Each part is controlled to display on the half mirror layer 203a of the eyeglass lens 203 a display asking whether or not to start the lip reading process, that is, a lip reading process start inquiry display screen.

たとえば、ユーザAの操作部103の操作によって読唇処理の開始が指示されると、制御部101Aは、赤外線通信を開始して、読唇処理開始の許可を申請する申請信号を送信するように赤外線通信部130Aを制御する。   For example, when the start of the lip reading process is instructed by the operation of the operation unit 103 of the user A, the control unit 101A starts the infrared communication and transmits the application signal for applying for permission to start the lip reading process. Control unit 130A.

たとえば、ユーザBが装着する携帯端末装置200Bでは、携帯端末装置200Aからの申請信号を赤外線通信部130Bで受信すると、制御部101Bは、携帯端末装置200Aからの読唇処理開始の申請を許可するか否かを選択するための選択画面を眼鏡レンズ203Bのハーフミラー層203aBに表示するよう各部を制御する。   For example, in the portable terminal device 200B worn by the user B, when the application signal from the portable terminal device 200A is received by the infrared communication unit 130B, the control unit 101B permits the application for starting the lip reading process from the portable terminal device 200A. Each part is controlled so that a selection screen for selecting whether or not is displayed on the half mirror layer 203aB of the spectacle lens 203B.

たとえば、ユーザBの操作部103の操作によって携帯端末装置200Aからの読唇処理開始の申請が許可されると、制御部101Bは、読唇処理開始の申請を許可する許可信号を送信するように赤外線通信部130Aを制御する。また、ユーザBの操作部103の操作によって携帯端末装置200Aからの読唇処理開始の申請が拒否されると、制御部101Bは、読唇処理開始の申請を許可しない不許可信号を送信するように赤外線通信部130Aを制御する。   For example, when the application for starting the lip reading process from the portable terminal device 200A is permitted by the operation of the operation unit 103 of the user B, the control unit 101B performs infrared communication so as to transmit a permission signal permitting the application for starting the lip reading process. Control unit 130A. Further, when the application for starting the lip reading process from the portable terminal device 200A is rejected by the operation of the operation unit 103 of the user B, the control unit 101B transmits the non-permission signal not permitting the application for starting the lip reading process. Controls the communication unit 130A.

携帯端末装置200Aでは、申請信号を送信後の所定の待機時間以内に、たとえば、申請信号を送信後20秒以内に携帯端末装置200Bからの許可信号を受信すると、制御部101Aは、読唇処理を開始するよう各部を制御する。すなわち、制御部101Aは、第1撮像部210の撮像素子111aで撮像して得られたユーザBの動画像データに基づく読唇処理を開始するよう読唇処理部120を制御する。そして、制御部101Aは、読唇処理によって認識した言葉を文字に変換して、眼鏡レンズ203のハーフミラー層203aに表示するよう各部を制御する。   When the mobile terminal device 200A receives the permission signal from the mobile terminal device 200B within a predetermined waiting time after transmitting the application signal, for example, within 20 seconds after transmitting the application signal, the control unit 101A performs the lip reading process. Control each part to start. That is, the control unit 101A controls the lip reading processing unit 120 to start the lip reading process based on the moving image data of the user B obtained by imaging with the imaging element 111a of the first imaging unit 210. Then, the control unit 101A controls each unit so that the words recognized by the lip reading process are converted into characters and displayed on the half mirror layer 203a of the eyeglass lens 203.

なお、申請信号を送信後、所定の待機時間以内に携帯端末装置200Bからの不許可信号を受信すると、制御部101Aは、読唇処理の開始を中止する。また、申請信号を送信後、所定の待機時間を超えても携帯端末装置200Bからの許可信号または不許可信号を受信できなかった場合、制御部101Aは、読唇処理の開始を中止する。   Note that if the non-permission signal is received from the mobile terminal device 200B within a predetermined waiting time after transmitting the application signal, the control unit 101A stops the lip reading process. In addition, after transmitting the application signal, if the permission signal or the disapproval signal from the mobile terminal device 200B cannot be received even after a predetermined waiting time has elapsed, the control unit 101A stops the lip reading process.

読唇処理の開始後、たとえば、ユーザAが顔を大きく動かすなどして撮像素子111aでの撮像範囲からユーザBの口元が外れてしまった場合、制御部101Aは、撮像素子111aで撮像して得られた画像に基づいて、ユーザBの口元を再認識する処理を行うよう各部を制御する。そして、たとえば10秒程度の所定時間内にユーザBの口元の再認識に成功した場合には、制御部101Aは、読唇処理を継続するよう各部を制御する。   After the start of the lip reading process, for example, when the user A moves his / her face greatly and the mouth of the user B deviates from the imaging range of the imaging device 111a, the control unit 101A obtains an image by the imaging device 111a. Based on the obtained image, each unit is controlled to perform processing for re-recognizing the mouth of the user B. Then, for example, when the re-recognition of the mouth of the user B is successful within a predetermined time of about 10 seconds, the control unit 101A controls each unit to continue the lip reading process.

また、所定時間を超えてもユーザBの口元を再認識できなかった場合には、制御部101Aは、読唇処理を終了するよう各部を制御する。操作部103の操作によって読唇処理の開始の中止が指示された場合にも、制御部101Aは、読唇処理を終了するよう各部を制御する。   If the user B's mouth cannot be re-recognized after the predetermined time, the control unit 101A controls each unit to end the lip reading process. Even when the start of the lip reading process is instructed by the operation of the operation unit 103, the control unit 101A controls each unit to end the lip reading process.

なお、上述の説明では、ユーザAが装着する携帯端末装置200Aについての動作を主に説明したが、ユーザBが装着する携帯端末装置200Bについても携帯端末装置200Aと同じである。   In the above description, the operation of the mobile terminal device 200A worn by the user A is mainly described, but the mobile terminal device 200B worn by the user B is the same as the mobile terminal device 200A.

−−−フローチャート−−−
図6は、携帯端末装置200における上述した読唇処理の動作についてのフローチャートである。本実施の形態の携帯端末装置200では、不図示の電源スイッチがオンされると図6に示す処理を行うプログラムが起動されて、制御部101で定期的に実行される。ステップS101およびステップS103の動作については、第1の実施の形態における図2のフローチャートのステップS101およびステップ103と同じである。
--- Flow chart ---
FIG. 6 is a flowchart of the operation of the lip reading process described above in the mobile terminal device 200. In the mobile terminal device 200 of the present embodiment, when a power switch (not shown) is turned on, a program for performing the processing shown in FIG. 6 is started and periodically executed by the control unit 101. The operations in steps S101 and S103 are the same as those in steps S101 and 103 in the flowchart of FIG. 2 in the first embodiment.

ステップS103が肯定判断されるとステップS151へ進み、撮像素子111a,111bによる撮像を開始させてステップS153へ進む。ステップS153において、撮像素子111aで撮像して得られた画像に基づいて、視線検出部140で視線検出処理を行わせてステップS155へ進む。ステップS155において、ステップS153での視線検出処理の結果、携帯端末装置200を注視する人物が存在するか否かを判断する。   If an affirmative determination is made in step S103, the process proceeds to step S151 to start imaging by the image sensors 111a and 111b, and the process proceeds to step S153. In step S153, the line-of-sight detection unit 140 performs line-of-sight detection processing based on the image obtained by imaging with the image sensor 111a, and the process proceeds to step S155. In step S155, it is determined whether or not there is a person watching the mobile terminal device 200 as a result of the line-of-sight detection process in step S153.

ステップS155が肯定判断されるとステップS157へ進み、撮像素子111bで撮像して得られた画像に基づいて、視線検出部140でユーザについての視線検出処理を行わせてステップS159へ進む。ステップS159において、ステップS157での視線検出処理の結果、および、撮像素子111aで撮像した携帯端末装置200の前方の被写体の画像に基づいて、ユーザが携帯端末装置200の前方の被写体のどの部分を注視しているかを特定してステップS161へ進む。   If an affirmative determination is made in step S155, the process proceeds to step S157, and the line-of-sight detection process for the user is performed by the line-of-sight detection unit 140 based on the image obtained by imaging with the image sensor 111b, and the process proceeds to step S159. In step S159, based on the result of the line-of-sight detection process in step S157 and the image of the subject in front of the mobile terminal device 200 imaged by the image sensor 111a, which part of the subject in front of the mobile terminal device 200 is selected by the user. It is determined whether the user is gazing, and the process proceeds to step S161.

ステップS161において、ステップS159での処理結果に基づいて、ステップS153で存在すると判断した携帯端末装置200を注視する人物の顔を、ユーザが注視しているか否かを判断する。ステップS161が肯定判断されるとステップS163へ進み、携帯端末装置200を注視する人物が携帯端末装置200を継続して注視し、かつ、当該人物の顔をユーザが注視する状態が所定時間継続したか否かを判断する。   In step S161, based on the processing result in step S159, it is determined whether or not the user is gazing at the face of the person gazing at the mobile terminal device 200 determined to be present in step S153. If an affirmative determination is made in step S161, the process proceeds to step S163, and a state in which a person watching the mobile terminal device 200 continuously watches the mobile terminal device 200 and the user watches the face of the person continues for a predetermined time. Determine whether or not.

ステップS163が肯定判断されるとステップS165へ進み、前方の相手に対して読唇処理を開始するかどうかを尋ねる読唇処理開始問合せ表示画面をハーフミラー層203aに表示させてステップS167へ進む。   If an affirmative determination is made in step S163, the process proceeds to step S165, and a lip reading process start inquiry display screen asking whether or not to start the lip reading process for the front partner is displayed on the half mirror layer 203a, and the process proceeds to step S167.

ステップS167において、操作部103への操作入力があるまで待機する。ステップS167で、操作部103の操作によって読唇処理の開始が指示されたと判断されると、ステップS169へ進み、読唇処理開始の許可を申請する申請信号を送信するように赤外線通信部130を制御してステップS171へ進む。   In step S167, the process waits until there is an operation input to the operation unit 103. If it is determined in step S167 that start of the lip reading process is instructed by the operation of the operation unit 103, the process proceeds to step S169, and the infrared communication unit 130 is controlled to transmit an application signal for applying for permission to start the lip reading process. Then, the process proceeds to step S171.

ステップS171において、所定の待機時間内に読唇処理開始の申請を許可する許可信号を受信したか否かを判断する。ステップS171が肯定判断されるとステップS173へ進み、撮像素子111aで撮像した携帯端末装置200の前方の被写体の画像に基づいて、読唇処理を開始するよう読唇処理部120を制御してステップS175へ進む。ステップS175において、読唇処理部120での読唇処理によって認識した言葉を文字に変換して、ハーフミラー層203aに表示するよう各部を制御してステップS177へ進む。   In step S171, it is determined whether or not a permission signal permitting application for starting the lip reading process is received within a predetermined waiting time. If an affirmative determination is made in step S171, the process proceeds to step S173, and the lip reading processing unit 120 is controlled to start the lip reading process based on the image of the subject in front of the mobile terminal device 200 imaged by the image sensor 111a, and the process proceeds to step S175. move on. In step S175, the words recognized by the lip reading process in the lip reading processing unit 120 are converted into characters and each part is controlled to display on the half mirror layer 203a, and the process proceeds to step S177.

ステップS177において、撮像素子111aで撮像した被写体像の画像に基づいて、読唇処理の対象となる人物を引き続き認識できているか否かを判断する。ステップS177が肯定判断されるとステップS179へ進み、読唇処理を終了するように操作部103への操作入力がなされたか否かを判断する。ステップS179が否定判断されるとステップS173へ戻る。   In step S177, based on the image of the subject image picked up by the image sensor 111a, it is determined whether or not the person who is the target of the lip reading process can be continuously recognized. If an affirmative determination is made in step S177, the process proceeds to step S179, and it is determined whether or not an operation input to the operation unit 103 has been made so as to end the lip reading process. If a negative determination is made in step S179, the process returns to step S173.

ステップS179が肯定判断されると、本プログラムを終了する。
ステップS177が否定判断されるとステップS181へ進み、撮像素子111aで撮像した被写体像の画像に基づいて、読唇処理の対象となる人物の口元を認識できない状態が所定時間を超えて継続したか否かを判断する。
If a positive determination is made in step S179, the program ends.
If a negative determination is made in step S177, the process proceeds to step S181, and based on the image of the subject image picked up by the image pickup device 111a, whether or not the state of being able to recognize the mouth of the person subject to the lip reading process has continued beyond a predetermined time Determine whether.

ステップS181が否定判断されると、ステップS183へ進み、撮像素子111aで撮像した被写体像の画像に基づいて、読唇処理の対象となる人物の口元を再認識できたか否かを判断する。ステップS183が肯定判断されるとステップS179へ進む。
ステップS183が否定判断されるとステップS181へ戻る。
ステップS181が肯定判断されると本プログラムを終了する。
If a negative determination is made in step S181, the process proceeds to step S183, and it is determined whether or not the mouth of the person who is the subject of the lip reading process can be re-recognized based on the image of the subject image captured by the image sensor 111a. If a positive determination is made in step S183, the process proceeds to step S179.
If a negative determination is made in step S183, the process returns to step S181.
If an affirmative decision is made in step S181, the program ends.

ステップS171が否定判断されると、すなわち、許可信号を受信しないまま所定の待機時間が経過したか、または、所定の待機時間内に不許可信号を受信すると、本プログラムを終了する。
ステップS167において、操作部103の操作によって読唇処理の開始の中止が指示されたと判断されると、本プログラムを終了する。
ステップS163で所定時間が経過していない場合はステップS161へ戻る。
If a negative determination is made in step S171, that is, if the predetermined standby time has elapsed without receiving the permission signal, or if the non-permission signal is received within the predetermined standby time, the program is terminated.
In step S167, when it is determined that the start of the lip reading process is instructed by the operation of the operation unit 103, the program is terminated.
If the predetermined time has not elapsed in step S163, the process returns to step S161.

ステップS163で所定時間が経過する前に、携帯端末装置200を注視していた人物が携帯端末装置200を注視しなくなったか、または、当該人物の顔をユーザが注視しなくなった場合にはステップS101へ戻る。
ステップS161が否定判断されると、ステップS101へ戻る。
ステップS155が否定判断されると、ステップS101へ戻る。
ステップS103が否定判断されると本プログラムを終了する。
If the person who has been gazing at the mobile terminal device 200 stops gazing at the mobile terminal device 200 before the predetermined time elapses at step S163, or if the user is not gazing at the face of the person, step S101 is performed. Return to.
If a negative determination is made in step S161, the process returns to step S101.
If a negative determination is made in step S155, the process returns to step S101.
If a negative determination is made in step S103, the program is terminated.

図7は、他の携帯端末装置200からの読唇処理開始の許可を申請する申請信号を受信した際に、許可または拒否する処理の動作についてのフローチャートである。本実施の形態の携帯端末装置200では、不図示の電源スイッチがオンされると図7に示す処理を行うプログラムが起動されて、制御部101で実行される。ステップS401において、他の携帯端末装置200からの申請信号を受信するまで待機する。   FIG. 7 is a flowchart of the operation of the process of permitting or rejecting when receiving an application signal for applying for permission to start the lip reading process from another mobile terminal device 200. In portable terminal device 200 of the present embodiment, when a power switch (not shown) is turned on, a program for performing the processing shown in FIG. 7 is started and executed by control unit 101. In step S401, the process waits until an application signal from another mobile terminal device 200 is received.

ステップS401において、他の携帯端末装置200からの申請信号を受信するとステップS403へ進み、他の携帯端末装置200のユーザからの読唇処理開始の申請を許可するか否かの選択画面をハーフミラー層203aに表示させてステップS405へ進む。ステップS405において、操作部103への操作入力があるまで待機する。ステップS405で、操作部103の操作によって読唇処理の開始の申請が許可されたと判断されると、ステップS407へ進み、読唇処理開始の申請を許可する許可信号を送信するように赤外線通信部130を制御して本プログラムを終了する。   In step S401, when an application signal from another mobile terminal device 200 is received, the process proceeds to step S403, and a selection screen as to whether or not an application for starting the lip reading process from the user of the other mobile terminal device 200 is permitted is displayed in the half mirror layer. The information is displayed on 203a, and the process proceeds to step S405. In step S405, the process waits until there is an operation input to the operation unit 103. If it is determined in step S405 that the application for starting the lip reading process is permitted by the operation of the operation unit 103, the process proceeds to step S407, and the infrared communication unit 130 is set to transmit a permission signal permitting the application for starting the lip reading process. Control and end this program.

ステップS405で、操作部103の操作によって読唇処理の開始の申請が拒否されたと判断されると、ステップS409へ進み、読唇処理開始の申請を許可しない不許可信号を送信するように赤外線通信部130を制御して本プログラムを終了する。   If it is determined in step S405 that the application for starting the lip reading process has been rejected by the operation of the operation unit 103, the process proceeds to step S409, where the infrared communication unit 130 transmits a non-permission signal that does not permit the application for starting the lip reading process. To finish this program.

第2の実施の形態の携帯端末装置200では、第1の実施の形態の作用効果に加えて、次の作用効果を奏する。
(1) 騒音が大きい環境下で、携帯端末装置200をそれぞれ装着した2人のユーザ同士の視線が合った状態が数秒間続くと、読唇処理開始の許可を申請する申請信号を出力するように構成した。そして、相手側からの許可信号を受信すると、読唇処理を開始するように構成した。これにより、お互いに視認し得る位置で向かい合っているが周囲の騒音の影響によって相手の発する音声を明瞭に聞き取れないような場合に、容易に読唇処理を開始できるので、利便性が高い。また、相手側の携帯端末装置200からの許可信号の受信をもって読唇処理を開始するように構成しているので、他人のプライバシーを保護できる。
The mobile terminal device 200 according to the second embodiment has the following operational effects in addition to the operational effects of the first embodiment.
(1) In a noisy environment, if a line of sight of two users each wearing the portable terminal device 200 continues for several seconds, an application signal for applying for permission to start the lip reading process is output. Configured. And when the permission signal from the other party is received, the lip reading process is started. This makes it easy to start the lip reading process when the voices of the other party cannot be clearly heard due to the influence of surrounding noise, but facing each other at positions where they can be visually recognized, which is highly convenient. Further, since the lip reading process is started upon receipt of the permission signal from the counterpart mobile terminal device 200, the privacy of others can be protected.

(2) 読唇処理開始の許可を申請する申請信号を受信すると、読唇処理開始の申請を許可するか否かを選択するための選択画面を眼鏡レンズ203のハーフミラー層203aに表示するように構成した。これにより、読唇されることに対してユーザの意志を反映できるので、ユーザのプライバシーを保護できる。 (2) Upon receipt of an application signal for applying for permission to start lip reading processing, a selection screen for selecting whether to permit application for starting lip reading processing is displayed on the half mirror layer 203a of the eyeglass lens 203. did. Thereby, since a user's will can be reflected with respect to being lip read, a user's privacy can be protected.

(3) 撮像して取得した画像に基づいて視線検出処理を行うことで、携帯端末装置200Aを注視する人物が存在し、かつ、ユーザAが当該人物の顔を注視している状態が所定時間継続すると、読唇処理開始問合せ画面を眼鏡レンズ203のハーフミラー層203aに表示するように構成した。これにより、簡単な装置構成によって、読唇処理を開始させたいと考えるユーザの意志を検出できるので、コスト増を抑制できる。 (3) By performing a line-of-sight detection process based on an image acquired by imaging, a state in which there is a person watching the mobile terminal device 200A and the user A is watching the face of the person for a predetermined time If it continues, it comprised so that the lip reading process start inquiry screen might be displayed on the half mirror layer 203a of the spectacle lens 203. FIG. Thereby, since the user's will to start the lip reading process can be detected with a simple device configuration, an increase in cost can be suppressed.

−−−変形例−−−
(1) 上述した第1の実施の形態では、読唇処理部120で認識した言葉が音声データとして生成されて出力されるように構成したが、本発明はこれに限定されない。たとえば、読唇処理部120で認識した言葉が音声データに代えて、または、音声データとともに、テキストデータとして生成されて出力されるように構成してもよく、上述した作用効果と同様の作用効果を奏する。なお、この場合には、携帯端末装置100からのテキストデータが、携帯端末装置100との通話相手の端末装置の表示部へ通話中に表示されるように、通話相手の端末装置が構成されていることが望ましい。または、携帯端末装置100からのテキストデータに基づいて音声読み上げを行うことで、通話相手の端末装置のユーザに音声で通知するように、通話相手の端末装置が構成されていることが望ましい。
---- Modified example ---
(1) In the first embodiment described above, the words recognized by the lip reading processing unit 120 are generated and output as voice data, but the present invention is not limited to this. For example, the words recognized by the lip reading processing unit 120 may be configured to be generated and output as text data instead of the voice data or together with the voice data. Play. In this case, the call partner terminal device is configured so that text data from the mobile terminal device 100 is displayed during a call on the display unit of the call partner terminal device with the mobile terminal device 100. It is desirable. Alternatively, it is desirable that the call partner terminal device is configured so as to notify the user of the call partner terminal device by voice by reading out the voice based on the text data from the mobile terminal device 100.

または、携帯端末装置100からのテキストデータを携帯電話通信網側で音声データに変換して、変換した音声データを通話相手の端末装置に送信するようにしてもよい。   Alternatively, text data from the mobile terminal device 100 may be converted into voice data on the mobile phone communication network side, and the converted voice data may be transmitted to the terminal device of the call partner.

(2) 上述した第1の実施の形態では、着信があったときにマイク108で集音した周囲の騒音の大きさがあらかじめ定められた所定の閾値を超える場合に、読唇通話モードでの通話を選択できるように構成しているが、本発明はこれに限定されない。たとえば、携帯端末装置100で着信音の出力が禁止される周知のマナーモードに設定されている場合に着信があると、読唇通話モードでの通話を選択できるように構成してもよい。すなわち、携帯端末装置100でマナーモード設定時に着信があった場合にも、周囲の騒音が大きかった場合と同様の着信動作を行って、読唇通話モードを選択できるようにしてもよい。このように構成することで、たとえば大きな音や声を出すことが憚られる公共の場などでも、発声することなく通話できるので、マナーの面からも好ましい。 (2) In the first embodiment described above, when the magnitude of the ambient noise collected by the microphone 108 when an incoming call is received exceeds a predetermined threshold value, the call in the lip reading call mode However, the present invention is not limited to this. For example, when the mobile terminal device 100 is set to a well-known manner mode in which the output of ringtones is prohibited, a call in the lip reading call mode may be selected when there is an incoming call. That is, even when there is an incoming call when the mobile terminal device 100 is set in the manner mode, the same lip reading call mode may be selected by performing the same incoming call operation as when the surrounding noise is loud. This configuration is preferable from the aspect of manners because, for example, a public place where a loud sound or voice can be heard can be talked without speaking.

また、たとえば、図8に示す携帯端末装置100のイヤホンジャック151に不図示のイヤホンが差し込まれていることが検出されているときに着信があった場合にも、周囲の騒音が大きかった場合と同様の着信動作を行って、読唇通話モードを選択できるようにしてもよい。なお、制御部101は、イヤホンジャック151に不図示のイヤホンが差し込まれているか否かを、イヤホンジャック151に設けられたイヤホン挿入検出端子151aからの出力に基づいて判断する。   Further, for example, even when there is an incoming call when it is detected that an earphone (not shown) is inserted into the earphone jack 151 of the mobile terminal device 100 shown in FIG. A similar incoming call operation may be performed to select the lip reading call mode. Note that the control unit 101 determines whether an earphone (not shown) is inserted into the earphone jack 151 based on an output from the earphone insertion detection terminal 151a provided in the earphone jack 151.

大きな騒音環境下では、イヤホンを用いないと音声の聞き取りが困難であることが考えられる。したがって、上述のように構成することで、読唇通話モードでの通話を行うことが望ましいシチュエーションで、読唇通話モードでの通話を開始するか否かを問い合わせる旨の表示を適切に表示できる。これにより、携帯端末装置100の利便性を向上できる。   In a loud noise environment, it is considered that it is difficult to listen to voice unless earphones are used. Therefore, by configuring as described above, it is possible to appropriately display a display for inquiring whether to start a call in the lip reading call mode in a situation where it is desirable to make a call in the lip reading call mode. Thereby, the convenience of the portable terminal device 100 can be improved.

また、たとえば、図9に示す携帯端末装置100のGPS受信機152からの現在位置に関する情報に基づいて、たとえば、電車の路線に沿って移動しているなど、公共交通機関による移動中であるか否かを判断するようにしてもよい。そして、公共交通機関による移動中であると判断される場合に着信があったときにも、周囲の騒音が大きかった場合と同様の着信動作を行って、読唇通話モードを選択できるようにしてもよい。このように構成することで、たとえば公共交通機関の利用時に着信があっても、公共交通機関の利用中であって後に電話をかけ直す旨を発声することなく通話相手に音声で通知できる。これにより、あらかじめ設定されているメッセージによる応答のような画一的な返答でなく、着信時の状況に応じてユーザが適切に応答できるため、利便性が高い。   Further, for example, based on the information about the current position from the GPS receiver 152 of the mobile terminal device 100 shown in FIG. 9, is it moving along public trains, for example, moving along a train route? It may be determined whether or not. And when it is determined that the vehicle is moving by public transport, the incoming call operation is the same as when the surrounding noise is loud so that the lip reading mode can be selected. Good. With this configuration, for example, even when an incoming call is received when using public transportation, it is possible to notify the other party of the call by voice without saying that the user is using the public transportation and wants to call again later. Accordingly, since the user can appropriately respond according to the situation at the time of the incoming call instead of a uniform response such as a response by a preset message, the convenience is high.

(3) 上述した第1の実施の形態では、記憶部102に記憶されているプログラムを制御部101の不図示のCPUが実行することによって読唇処理部120を構成しているが、本発明はこれに限定されない。たとえば、上述した読唇処理を行う回路を設けてもよい。 (3) In the first embodiment described above, the lip reading processing unit 120 is configured by the CPU (not shown) of the control unit 101 executing the program stored in the storage unit 102. It is not limited to this. For example, a circuit for performing the lip reading process described above may be provided.

(4) 上述した第2の実施の形態では、ユーザの操作入力を操作部103で受け付けるように構成しているが、本発明はこれに限定されない。たとえば、マイク108で集音したユーザの音声コマンドに基づいて、制御部101で操作入力の内容を判定し、判定結果に応じて各部を制御するように構成してもよい。 (4) In the second embodiment described above, the operation unit 103 is configured to accept user operation input, but the present invention is not limited to this. For example, the control unit 101 may determine the content of the operation input based on a user's voice command collected by the microphone 108 and control each unit according to the determination result.

(5) 上述した第2の実施の形態では、申請信号を送信後の所定の待機時間以内に他の携帯端末装置200からの許可信号を受信すると、制御部101が読唇処理を開始するよう各部を制御するように構成しているが、本発明はこれに限定されない。たとえば、申請信号を送信後の所定の待機時間以内に他の携帯端末装置200からの許可信号を受信すると、制御部101が、前方の相手から読唇処理の開始が許可された旨の表示を眼鏡レンズ203のハーフミラー層203aに表示するよう各部を制御するように構成してもよい。 (5) In the second embodiment described above, each unit is configured to start the lip reading process when the control unit 101 receives a permission signal from another portable terminal device 200 within a predetermined waiting time after transmitting the application signal. However, the present invention is not limited to this. For example, when receiving a permission signal from another portable terminal device 200 within a predetermined waiting time after transmitting the application signal, the control unit 101 displays a display indicating that the start of the lip reading process is permitted from the front partner. You may comprise so that each part may be controlled so that it may display on the half mirror layer 203a of the lens 203. FIG.

(6) 上述した第2の実施の形態では、読唇処理によって認識した言葉を文字に変換して、眼鏡レンズ203のハーフミラー層203aに表示するように構成しているが、本発明はこれに限定されない。たとえば、読唇処理によって認識した言葉を音声データに変換して、イヤホン204から音声として出力するように構成してもよい。すなわち、読唇処理部120での読唇処理によって認識した言葉を制御部101が音声に変換して音声信号を生成し、生成した音声信号をイヤホン204に出力するように各部を制御するように構成してもよい。 (6) In the second embodiment described above, the words recognized by the lip reading process are converted into characters and displayed on the half mirror layer 203a of the spectacle lens 203. However, the present invention is not limited to this. It is not limited. For example, the words recognized by the lip reading process may be converted into voice data and output from the earphone 204 as voice. That is, the control unit 101 converts the words recognized by the lip reading processing in the lip reading processing unit 120 into speech and generates an audio signal, and controls each unit so as to output the generated audio signal to the earphone 204. May be.

(7) 上述した第2の実施の形態の携帯端末装置200において、ユーザの読唇処理を行う際の認識精度向上のために、たとえば、音声通話を行っている際に、撮像素子111bで撮像して得られた画像と、マイク108からの音声信号とに基づく学習をするように構成してもよい。すなわち、撮像素子111bで撮像して得られた画像に基づく画像解析によって検出したユーザの唇の形や動きと、マイク108からの音声信号に基づく音声認識の結果とに基づいて、制御部101で学習するように構成してもよい。
(8) 上述した各実施の形態および変形例は、それぞれ組み合わせてもよい。
(7) In the mobile terminal device 200 according to the second embodiment described above, for example, when performing a voice call, an image is picked up by the image sensor 111b in order to improve the recognition accuracy when the user's lip reading process is performed. The learning may be performed based on the image obtained in this way and the sound signal from the microphone 108. That is, based on the shape and movement of the user's lips detected by image analysis based on the image obtained by imaging with the imaging element 111b and the result of voice recognition based on the voice signal from the microphone 108, the control unit 101 You may comprise so that it may learn.
(8) You may combine each embodiment and modification which were mentioned above, respectively.

なお、本発明の特徴的な機能を損なわない限り、本発明は、上述した実施の形態における構成に何ら限定されない。   Note that the present invention is not limited to the configurations in the above-described embodiments as long as the characteristic functions of the present invention are not impaired.

100,200 携帯端末装置、101 制御部、104 送受信部、106 表示部、108 マイク、110 撮像部、111,111a,111b 撮像素子、120 読唇処理部、130 赤外線通信部、131 赤外線発光部、132 赤外線受光部、140 視線検出部、151 イヤホンジャック、151a イヤホン挿入検出端子、203 眼鏡レンズ、203a ハーフミラー層、210 第1撮像部、220 第2撮像部、230 投影部 100, 200 portable terminal device, 101 control unit, 104 transmission / reception unit, 106 display unit, 108 microphone, 110 imaging unit, 111, 111a, 111b imaging element, 120 lip reading processing unit, 130 infrared communication unit, 131 infrared light emitting unit, 132 Infrared light receiving unit, 140 Line of sight detection unit, 151 Earphone jack, 151a Earphone insertion detection terminal, 203 Eyeglass lens, 203a Half mirror layer, 210 First imaging unit, 220 Second imaging unit, 230 Projection unit

Claims (9)

外部との情報の送受信を行う通信モジュールと、
マイクロフォンと、
各種の情報を表示する表示部と、
撮像装置と、
前記マイクロフォンに入力される音の大きさがあらかじめ定められた閾値以上である場合には、着信時に読唇通話モードを選択する画面を前記表示部に表示させ、前記読唇通話モードが選択されると通話モードを読唇通話モードに切り替える制御部と、
前記読唇通話モードに切り替えられると、前記撮像装置で撮像して得られた画像から話者の唇の形状を検出して言葉の音声データおよびテキストデータの少なくとも一方に変換する読唇処理部とを備え、
前記通信モジュールは、前記読唇通話モードに切り替えられると、前記読唇処理部で変換した音声データまたはテキストデータの少なくとも一方を外部に送信する携帯端末装置。
A communication module for sending and receiving information to and from the outside;
A microphone,
A display unit for displaying various types of information;
An imaging device;
When the volume of sound input to the microphone is equal to or greater than a predetermined threshold value, a screen for selecting the lip reading call mode is displayed on the display unit when an incoming call is received, and when the lip reading call mode is selected, the call is made. A control unit for switching the mode to the lip reading mode;
A lip reading processing unit that detects the shape of a speaker's lips from an image obtained by imaging with the imaging device and converts the lip reading mode into at least one of speech data and text data when switched to the lip reading call mode; ,
When the communication module is switched to the lip reading call mode, the communication module transmits at least one of voice data or text data converted by the lip reading processing unit to the outside.
外部との情報の送受信を行う通信モジュールと、
マイクロフォンと、
イヤホンを接続するイヤホンジャックと、
前記イヤホンジャックにイヤホンが接続されたことを検出するイヤホン挿入検出端子と、
各種の情報を表示する表示部と、
撮像装置と、
前記イヤホン挿入検出端子で前記イヤホンジャックにイヤホンが接続されたことを検出され、かつ、着信があった場合には、読唇通話モードを選択する画面を前記表示部に表示させ、前記読唇通話モードが選択されると通話モードを読唇通話モードに切り替える制御部と、
前記読唇通話モードに切り替えられると、前記撮像装置で撮像して得られた画像から話者の唇の形状を検出して言葉の音声データおよびテキストデータの少なくとも一方に変換する読唇処理部とを備え、
前記通信モジュールは、前記読唇通話モードに切り替えられると、前記読唇処理部で変換した音声データまたはテキストデータの少なくとも一方を外部に送信する携帯端末装置。
A communication module for sending and receiving information to and from the outside;
A microphone,
An earphone jack to connect the earphone,
An earphone insertion detection terminal for detecting that an earphone is connected to the earphone jack;
A display unit for displaying various types of information;
An imaging device;
When it is detected that an earphone is connected to the earphone jack at the earphone insertion detection terminal and there is an incoming call, a screen for selecting a lip reading call mode is displayed on the display unit, and the lip reading call mode is A control unit that switches the call mode to the lip reading call mode when selected,
A lip reading processing unit that detects the shape of a speaker's lips from an image obtained by imaging with the imaging device and converts the lip reading mode into at least one of speech data and text data when switched to the lip reading call mode; ,
When the communication module is switched to the lip reading call mode, the communication module transmits at least one of voice data or text data converted by the lip reading processing unit to the outside.
外部との情報の送受信を行う通信モジュールと、
マイクロフォンと、
各種の情報を表示する表示部と、
撮像装置と、
着信音の出力が禁止されるように設定され、かつ、着信があった場合には、読唇通話モードを選択する画面を前記表示部に表示させ、前記読唇通話モードが選択されると通話モードを読唇通話モードに切り替える制御部と、
前記読唇通話モードに切り替えられると、前記撮像装置で撮像して得られた画像から話者の唇の形状を検出して言葉の音声データおよびテキストデータの少なくとも一方に変換する読唇処理部とを備え、
前記通信モジュールは、前記読唇通話モードに切り替えられると、前記読唇処理部で変換した音声データまたはテキストデータの少なくとも一方を外部に送信する携帯端末装置。
A communication module for sending and receiving information to and from the outside;
A microphone,
A display unit for displaying various types of information;
An imaging device;
When the ring tone output is set to be prohibited and there is an incoming call, a screen for selecting the lip reading call mode is displayed on the display unit, and when the lip reading call mode is selected, the call mode is set. A control unit to switch to lip reading mode;
A lip reading processing unit that detects the shape of a speaker's lips from an image obtained by imaging with the imaging device and converts the lip reading mode into at least one of speech data and text data when switched to the lip reading call mode; ,
When the communication module is switched to the lip reading call mode, the communication module transmits at least one of voice data or text data converted by the lip reading processing unit to the outside.
外部との情報の送受信を行う通信モジュールと、
マイクロフォンと、
各種の情報を表示する表示部と、
少なくともユーザの目元を撮像する第1の撮像装置と、
前記第1の撮像装置とは異なる第2の撮像装置と、
前記第1の撮像装置で撮像して得られた第1の画像に基づいて、前記ユーザの視線を検出する第1の視線検出部と、
前記第2の撮像装置で撮像して得られた第2の画像に基づいて、前記第2の画像中の人物の視線を検出する第2の視線検出部と、
前記第1の視線検出部での検出結果、および、前記第2の視線検出部での検出結果に基づいて、前記ユーザと前記第2の画像中の人物とが視線を合わせているか否かを判断する視線判断部と、
前記第2の画像から前記第2の画像中の人物の唇の形状を検出して言葉の音声データおよびテキストデータの少なくとも一方に変換する読唇処理を行う読唇処理部と、
前記視線判断部で前記ユーザと前記第2の画像中の人物とが視線を合わせていると判断されると、前記読唇処理部による前記読唇処理の開始の許可を申請する申請部と、
前記読唇処理の開始の許可が得られたか否かを判断する許可判断部と、
前記許可判断部で前記許可が得られたと判断されると、前記読唇処理部に前記読唇処理を開始させる制御部とを備える携帯端末装置。
A communication module for sending and receiving information to and from the outside;
A microphone,
A display unit for displaying various types of information;
A first imaging device that images at least a user's eyes;
A second imaging device different from the first imaging device;
A first line-of-sight detection unit that detects the line of sight of the user based on a first image obtained by imaging with the first imaging device;
A second line-of-sight detection unit that detects the line of sight of a person in the second image based on a second image obtained by imaging with the second imaging device;
Whether the user and the person in the second image are in line of sight based on the detection result in the first line-of-sight detection unit and the detection result in the second line-of-sight detection unit A line-of-sight determination unit to determine;
A lip reading processing unit for performing a lip reading process for detecting the shape of the lips of the person in the second image from the second image and converting it into at least one of speech data and text data of words;
When it is determined by the line-of-sight determination unit that the user and the person in the second image are in line of sight, an application unit that applies for permission to start the lip reading process by the lip reading processing unit;
A permission determining unit that determines whether permission to start the lip reading process is obtained;
A portable terminal device comprising: a control unit that causes the lip reading processing unit to start the lip reading process when the permission determination unit determines that the permission has been obtained.
請求項4に記載の携帯端末装置において、
前記申請部は、前記読唇処理の開始の許可を申請する申請信号を前記携帯端末装置の外部に出力する申請信号出力部を有し、
前記携帯端末装置の外部からの前記読唇処理の開始の申請を許可する許可信号を受信する許可信号受信部とをさらに備え、
前記許可判断部は、前記許可信号を前記許可信号受信部で受信すると、前記読唇処理の開始の許可が得られたと判断する携帯端末装置。
The mobile terminal device according to claim 4,
The application unit has an application signal output unit that outputs an application signal for applying for permission to start the lip reading process to the outside of the mobile terminal device,
A permission signal receiving unit for receiving a permission signal for permitting an application to start the lip reading process from the outside of the mobile terminal device;
When the permission determination unit receives the permission signal by the permission signal receiving unit, the permission determination unit determines that permission to start the lip reading process has been obtained.
コンピュータに、
マイクロフォンに入力される音の大きさがあらかじめ定められた閾値以上である場合には、着信時に読唇通話モードを選択する画面を表示部に表示させる表示手順と、
前記読唇通話モードが選択されると通話モードを読唇通話モードに切り替える通話モード切替手順と、
前記読唇通話モードに切り替えられると、撮像装置で撮像して得られた画像から話者の唇の形状を検出して言葉の音声データおよびテキストデータの少なくとも一方に変換する読唇処理手順と、
前記読唇通話モードに切り替えられると、前記変換した音声データまたはテキストデータの少なくとも一方を外部に送信する送信手順とを実行させる読唇処理プログラム。
On the computer,
A display procedure for displaying on the display unit a screen for selecting a lip reading call mode when an incoming call is received when the volume of sound input to the microphone is equal to or greater than a predetermined threshold;
A call mode switching procedure for switching the call mode to the lip reading call mode when the lip reading call mode is selected;
When switched to the lip reading call mode, a lip reading processing procedure for detecting the shape of a speaker's lips from an image obtained by imaging with an imaging device and converting it into at least one of speech data and text data of words;
A lip reading processing program for executing a transmission procedure of transmitting at least one of the converted voice data and text data to the outside when switched to the lip reading call mode.
コンピュータに、
イヤホンジャックにイヤホンが接続されたことを検出され、かつ、着信があった場合には、読唇通話モードを選択する画面を表示部に表示させる表示手順と、
前記読唇通話モードが選択されると通話モードを読唇通話モードに切り替える通話モード切替手順と、
前記読唇通話モードに切り替えられると、撮像装置で撮像して得られた画像から話者の唇の形状を検出して言葉の音声データおよびテキストデータの少なくとも一方に変換する読唇処理手順と、
前記読唇通話モードに切り替えられると、前記変換した音声データまたはテキストデータの少なくとも一方を外部に送信する送信手順とを実行させる読唇処理プログラム。
On the computer,
When it is detected that an earphone is connected to the earphone jack and there is an incoming call, a display procedure for displaying a screen for selecting a lip reading call mode on the display unit,
A call mode switching procedure for switching the call mode to the lip reading call mode when the lip reading call mode is selected;
When switched to the lip reading call mode, a lip reading processing procedure for detecting the shape of a speaker's lips from an image obtained by imaging with an imaging device and converting it into at least one of speech data and text data of words;
A lip reading processing program for executing a transmission procedure of transmitting at least one of the converted voice data and text data to the outside when switched to the lip reading call mode.
コンピュータに、
着信音の出力が禁止されるように設定され、かつ、着信があった場合には、読唇通話モードを選択する画面を表示部に表示させる表示手順と、
前記読唇通話モードが選択されると通話モードを読唇通話モードに切り替える通話モード切替手順と、
前記読唇通話モードに切り替えられると、撮像装置で撮像して得られた画像から話者の唇の形状を検出して言葉の音声データおよびテキストデータの少なくとも一方に変換する読唇処理手順と、
前記読唇通話モードに切り替えられると、前記変換した音声データまたはテキストデータの少なくとも一方を外部に送信する送信手順とを実行させる読唇処理プログラム。
On the computer,
Display procedure for displaying a screen for selecting the lip reading call mode on the display unit when the ringtone output is set to be prohibited and there is an incoming call;
A call mode switching procedure for switching the call mode to the lip reading call mode when the lip reading call mode is selected;
When switched to the lip reading call mode, a lip reading processing procedure for detecting the shape of a speaker's lips from an image obtained by imaging with an imaging device and converting it into at least one of speech data and text data of words;
A lip reading processing program for executing a transmission procedure of transmitting at least one of the converted voice data and text data to the outside when switched to the lip reading call mode.
コンピュータに、
少なくともユーザの目元を撮像する第1の撮像装置で撮像する第1の撮像手順と、
前記第1の撮像装置とは異なる第2の撮像装置で撮像する第2の撮像手順と、
前記第1の撮像装置で撮像して得られた第1の画像に基づいて、前記ユーザの視線を検出する第1の視線検出手順と、
前記第2の撮像装置で撮像して得られた第2の画像に基づいて、前記第2の画像中の人物の視線を検出する第2の視線検出手順と、
前記第1の視線検出手順での検出結果、および、前記第2の視線検出手順での検出結果に基づいて、前記ユーザと前記第2の画像中の人物とが視線を合わせているか否かを判断する視線判断手順と、
前記視線判断手順で前記ユーザと前記第2の画像中の人物とが視線を合わせていると判断されると、読唇処理の開始の許可を申請する申請手順と、
前記読唇処理の開始の許可が得られたか否かを判断する許可判断手順と、
前記許可判断手順で前記許可が得られたと判断されると、前記第2の画像から前記第2の画像中の人物の唇の形状を検出して言葉の音声データおよびテキストデータの少なくとも一方に変換する読唇処理を行う読唇処理手順とを実行させる読唇処理プログラム。
On the computer,
A first imaging procedure for imaging with a first imaging device that images at least the user's eyes;
A second imaging procedure for imaging with a second imaging device different from the first imaging device;
A first gaze detection procedure for detecting the gaze of the user based on a first image obtained by imaging with the first imaging device;
A second line-of-sight detection procedure for detecting the line of sight of a person in the second image based on a second image obtained by imaging with the second imaging device;
Whether the user and the person in the second image are in line of sight based on the detection result in the first visual line detection procedure and the detection result in the second visual line detection procedure Gaze judgment procedure to judge,
When it is determined that the user and the person in the second image are in line of sight in the line of sight determination procedure, an application procedure for applying for permission to start the lip reading process;
A permission determination procedure for determining whether permission to start the lip reading process is obtained;
When it is determined that the permission is obtained in the permission determination procedure, the shape of the lips of the person in the second image is detected from the second image and converted into at least one of speech data of words and text data A lip reading processing program for executing a lip reading processing procedure for performing lip reading processing.
JP2014104624A 2014-05-20 2014-05-20 Portable terminal equipment and lip reading processing program Pending JP2015220684A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014104624A JP2015220684A (en) 2014-05-20 2014-05-20 Portable terminal equipment and lip reading processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014104624A JP2015220684A (en) 2014-05-20 2014-05-20 Portable terminal equipment and lip reading processing program

Publications (1)

Publication Number Publication Date
JP2015220684A true JP2015220684A (en) 2015-12-07

Family

ID=54779723

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014104624A Pending JP2015220684A (en) 2014-05-20 2014-05-20 Portable terminal equipment and lip reading processing program

Country Status (1)

Country Link
JP (1) JP2015220684A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018066780A (en) * 2016-10-17 2018-04-26 イノベーション・ラボラトリ株式会社 Voice suppression system and voice suppression device
CN108319912A (en) * 2018-01-30 2018-07-24 歌尔科技有限公司 A kind of lip reading recognition methods, device, system and intelligent glasses
JP2019060921A (en) * 2017-09-25 2019-04-18 富士ゼロックス株式会社 Information processor and program

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000068882A (en) * 1998-08-17 2000-03-03 Matsushita Electric Ind Co Ltd Radio communication equipment
JP2000311077A (en) * 1999-04-28 2000-11-07 Fujitsu Ltd Sound information input device
JP2000349935A (en) * 1999-06-08 2000-12-15 Matsushita Electric Ind Co Ltd Communication device
JP2002281556A (en) * 2001-03-16 2002-09-27 Kenwood Corp Mobile communication terminal equipment
JP2005244394A (en) * 2004-02-25 2005-09-08 Nec Corp Portable telephone with image pick-up function
JP2006005440A (en) * 2004-06-15 2006-01-05 Sony Corp Speech transmission and reception method and speech terminal
JP2007096486A (en) * 2005-09-27 2007-04-12 Oki Electric Ind Co Ltd Mobile communication system selection method and mobile communication terminal used for the same
JP2007520943A (en) * 2004-01-20 2007-07-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Extended use of phones in noisy environments
US20100079573A1 (en) * 2008-09-26 2010-04-01 Maycel Isaac System and method for video telephony by converting facial motion to text
JP2012059121A (en) * 2010-09-10 2012-03-22 Softbank Mobile Corp Eyeglass-type display device
JP2012070081A (en) * 2010-09-21 2012-04-05 Fuji Xerox Co Ltd Image display device, image display program, and image display system
JP2013073395A (en) * 2011-09-27 2013-04-22 Hitachi Systems Ltd Automatic character display system
JP2014085954A (en) * 2012-10-25 2014-05-12 Kyocera Corp Portable terminal device, program and input operation accepting method

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000068882A (en) * 1998-08-17 2000-03-03 Matsushita Electric Ind Co Ltd Radio communication equipment
JP2000311077A (en) * 1999-04-28 2000-11-07 Fujitsu Ltd Sound information input device
JP2000349935A (en) * 1999-06-08 2000-12-15 Matsushita Electric Ind Co Ltd Communication device
JP2002281556A (en) * 2001-03-16 2002-09-27 Kenwood Corp Mobile communication terminal equipment
JP2007520943A (en) * 2004-01-20 2007-07-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Extended use of phones in noisy environments
JP2005244394A (en) * 2004-02-25 2005-09-08 Nec Corp Portable telephone with image pick-up function
JP2006005440A (en) * 2004-06-15 2006-01-05 Sony Corp Speech transmission and reception method and speech terminal
JP2007096486A (en) * 2005-09-27 2007-04-12 Oki Electric Ind Co Ltd Mobile communication system selection method and mobile communication terminal used for the same
US20100079573A1 (en) * 2008-09-26 2010-04-01 Maycel Isaac System and method for video telephony by converting facial motion to text
JP2012059121A (en) * 2010-09-10 2012-03-22 Softbank Mobile Corp Eyeglass-type display device
JP2012070081A (en) * 2010-09-21 2012-04-05 Fuji Xerox Co Ltd Image display device, image display program, and image display system
JP2013073395A (en) * 2011-09-27 2013-04-22 Hitachi Systems Ltd Automatic character display system
JP2014085954A (en) * 2012-10-25 2014-05-12 Kyocera Corp Portable terminal device, program and input operation accepting method

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018066780A (en) * 2016-10-17 2018-04-26 イノベーション・ラボラトリ株式会社 Voice suppression system and voice suppression device
JP2019060921A (en) * 2017-09-25 2019-04-18 富士ゼロックス株式会社 Information processor and program
JP7021488B2 (en) 2017-09-25 2022-02-17 富士フイルムビジネスイノベーション株式会社 Information processing equipment and programs
CN108319912A (en) * 2018-01-30 2018-07-24 歌尔科技有限公司 A kind of lip reading recognition methods, device, system and intelligent glasses

Similar Documents

Publication Publication Date Title
US8706162B1 (en) Automatic routing of call audio at incoming call
US20170272784A1 (en) Live video broadcasting method and device
US20220159117A1 (en) Server, client terminal, control method, and storage medium
US10499156B2 (en) Method and device of optimizing sound signal
WO2015125626A1 (en) Display control device, display control method, and computer program
CN105430185B (en) The method, apparatus and equipment of information alert
CN103297594A (en) Method and device for automatic switchover of call modes
CN112004174B (en) Noise reduction control method, device and computer readable storage medium
KR20160133414A (en) Information processing device, control method, and program
CN109360549B (en) Data processing method, wearable device and device for data processing
CN105704317A (en) Antenna parameter adjustment method and apparatus, and electronic device
CN104767860A (en) Incoming call prompt method and device and terminal
JP2009004959A (en) Mobile terminal
CN108432220B (en) Method and terminal for switching call mode
JP2015220684A (en) Portable terminal equipment and lip reading processing program
JP6690749B2 (en) Information processing apparatus, communication control method, and computer program
CN111698600A (en) Processing execution method and device and readable medium
KR20130131511A (en) Guide apparatus for blind person
CN113596662B (en) Method for suppressing howling, device for suppressing howling, earphone, and storage medium
CN113726952B (en) Simultaneous interpretation method and device in call process, electronic equipment and storage medium
CN111694539B (en) Method, device and medium for switching between earphone and loudspeaker
KR102000282B1 (en) Conversation support device for performing auditory function assistance
CN114115515A (en) Method and head-mounted unit for assisting a user
CN111343420A (en) Voice enhancement method and wearing equipment
CN111326175A (en) Prompting method for interlocutor and wearable device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170516

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180821

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20180821

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190129