JP2014132396A - 携帯端末装置及び情報処理システム - Google Patents

携帯端末装置及び情報処理システム Download PDF

Info

Publication number
JP2014132396A
JP2014132396A JP2013000297A JP2013000297A JP2014132396A JP 2014132396 A JP2014132396 A JP 2014132396A JP 2013000297 A JP2013000297 A JP 2013000297A JP 2013000297 A JP2013000297 A JP 2013000297A JP 2014132396 A JP2014132396 A JP 2014132396A
Authority
JP
Japan
Prior art keywords
lip
recognition
data
unit
lip movement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013000297A
Other languages
English (en)
Other versions
JP5902632B2 (ja
Inventor
Motoyuki Suzuki
基之 鈴木
Hideo Nishijima
英男 西島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Consumer Electronics Co Ltd
Original Assignee
Hitachi Consumer Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Consumer Electronics Co Ltd filed Critical Hitachi Consumer Electronics Co Ltd
Priority to JP2013000297A priority Critical patent/JP5902632B2/ja
Priority to PCT/JP2013/083815 priority patent/WO2014106927A1/ja
Priority to US14/651,002 priority patent/US10303433B2/en
Priority to CN201380064683.0A priority patent/CN104838339B/zh
Publication of JP2014132396A publication Critical patent/JP2014132396A/ja
Application granted granted Critical
Publication of JP5902632B2 publication Critical patent/JP5902632B2/ja
Priority to US16/396,985 priority patent/US11487502B2/en
Priority to US17/969,868 priority patent/US11861264B2/en
Priority to US18/379,239 priority patent/US20240036815A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/52Details of telephonic subscriber devices including functional features of a camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Abstract

【課題】
声を発するのが好ましくない環境や騒音が大きい環境においても、より使い勝手の良い携帯端末装置及び情報処理システムを提供する。
【解決手段】
口唇動き認識データを記憶する記憶部と、操作者の少なくとも口唇部分を含む映像を撮影する撮像部と、撮像部から得られた操作者の口唇部分の動きデータと口唇動き認識データを比較することにより実行する操作を認識する口唇動き認識部と、口唇動き認識部に従って実行可能な操作を行う制御部とを備える。
【選択図】 図1

Description

本発明は、携帯端末装置及び情報処理システムに関する。
近年、携帯電話、カーナビゲーションシステム、家庭内AV機器等の端末において、キーボードやマウス等の操作手段を用いずに、音声を認識することにより容易に操作可能なユーザインタフェースが注目されている。
特開2007−41089公報
しかし、これらの音声認識により操作を行う端末では、図書館のように声を発するのが好ましくない環境や騒音が大きい環境では操作できないという問題が生じる。
本発明の目的は、前記課題を考慮し、声を発するのが好ましくない環境や騒音が大きい環境においても、より使い勝手の良い携帯端末装置及び情報処理システムを提供することにある。
前記課題を解決するための手段として、例えば特許請求の範囲に記載の構成を採用すればよい。一例を挙げるならば、口唇動き認識データを記憶する記憶部と、操作者の少なくとも口唇部分を含む映像を撮影する撮像部と、撮像部から得られた操作者の口唇部分の動きデータと口唇動き認識データを比較することにより実行する操作を認識する口唇動き認識部と、口唇の動き認識部に従って実行可能な操作を行う制御部とを備える構成を用いる。
本発明の技術を用いることにより、声を発するのが好ましくない環境や騒音が大きい環境においても、より使い勝手の良い携帯端末装置及び情報処理システムを提供することが可能となる。
本発明の実施例に係る携帯端末装置の構成例を示すブロック図である。 音声認識或いは口唇動き認識により携帯端末の操作を行う処理のフローチャートの例である。 携帯端末の状態に対応した操作選択肢テーブルの例を示す図である。 操作決定処理を説明するフローチャートの例である。 操作者の音声及び映像を取り込む処理を説明するフローチャートの例である。 操作者の音声及び映像を取り込む処理における携帯端末の表示例を示す図である。 音声認識操作決定処理を説明するフローチャートの例である。 口唇動き認識操作決定処理を説明するフローチャートの例である。 口唇の大きさの定義の例を示す図である。 口唇動き認識操作決定処理における口唇動き認識データと取得口唇動きデータの例を示す図である。 口唇動き認識データ更新処理の例を説明する図である。 操作対象決定処理を説明するフローチャートの例である。 口唇動き認識カテゴリ決定処理を説明するフローチャートの例である。 操作に対応したカテゴリ選択肢テーブルの例を示す図である。 音声認識カテゴリ決定処理を説明するフローチャートの例である。 口唇動き認識操作対象決定処理を説明するフローチャートの例である。 口唇動き認識による操作対象選択処理を説明するフローチャートの例である。 操作対象選択処理における携帯端末の表示例を示す図である。 口唇動き認識操作対象決定処理における口唇動き認識データと口唇動き取得データの例を示す図である。 音声認識操作対象決定処理を説明するフローチャートの例である。 口唇動き認識操作決定処理を説明するフローチャートの第2の例である。 操作選択肢に対応する母音並びのテーブルの例である。 音節母音並び変換処理を説明するフローチャートの例である。 母音に対応した口唇形状の一例を示す図である。 母音に対応した口唇の大きさのテーブルの例を示す図である。 音声及び映像を取り込む処理を説明するフローチャートの第2の例である。 音声及び映像を取り込む処理における表示例を示す図である。 本発明の第2の実施例に係る携帯端末装置の構成例を示すブロック図である。 本発明の実施例2に係る操作決定処理を説明するフローチャートの例である。 本発明の第3の実施例に係る携帯端末装置の構成例を示すブロック図である。 本発明の第3の実施例に係る携帯端末装置と音声・口唇動き認識サーバーからなる情報処理システムの概略構成を示すブロック図である。 本発明の情報処理システムの処理の一例を示すフローチャートである。 本発明の情報処理システムの処理の一例を示すフローチャートである。 音声・口唇動き認識サーバーにおける音声・口唇動き認識処理の一例を示すフローチャートである。 音声・口唇動き認識サーバーにおける音声認識処理の一例を示すフローチャートである。 音声・口唇動き認識サーバーにおける口唇動き認識処理の一例を示すフローチャートである。
以下、本発明の実施形態の例を、図面を用いて説明する。
図1は、本発明の一実施例による携帯端末装置100の内部構成例を示すブロック図である。
ここでは、スマートフォンの場合を例にして説明する。携帯端末100は、制御部101、音声認識部102、口唇動き認識部103、メモリ104、ストレージ105、GPS(Global Positioning System)受信部106、地磁気センサ107、加速度センサ108、ジャイロセンサ109、基地局通信部110、無線通信部111、マイク112、音声処理部113、スピーカ114、音声出力部115、タッチパネル116、操作入力部117、表示部118、画像処理部119、撮像部120、入出力I/F121を備え、それぞれはバス150に相互に接続されている。
基地局通信部110は、W−CDMA(Wideband Code Division Multiple Access)やGSM(登録商標)(Global System for Mobile communications)などの基地局400と遠距離の無線通信を行う通信インターフェースである。これにより基地局500を通して外部ネットワーク600に接続し、情報の送受信を行うこともできる。
制御部101はCPU(Central Processing Unit)等で構成されは、メモリ104に記憶したプログラムを実行することによって、各構成部を制御し、各種の処理を行っている。
音声認識部102はマイク112から音声処理部113を介して取り込んだ操作者の音声を認識し、音声で指示した操作を認識するものである。また、口唇動き認識部103は撮像部120から画像処理部119を介して取り込んだ操作者の口唇を含む映像を認識し、操作者の口唇の動きで指示した操作を認識するものである。
制御部101は、操作者の音声から認識した結果により操作を実行するか、操作者の口唇の動きから認識した結果により操作を実行するかを選択し、選択した結果に基づいて操作を実行する。
メモリ104は、フラッシュメモリなどであり、プログラム、データなどを記憶している。上記した音声認識部102や口唇動き認識部103で認識のために使用するデータはメモリ104の所定の領域104a,104bに保存されている。
さらに携帯端末100はメモリカードなどのストレージ105を備えており、ストレージ105にもメールアドレスや音楽、ビデオ、写真のデータなどを保存することができる。
メモリ104或いはストレージ105に記憶されるプログラム或いはデータは、基地局通信部110が基地局と無線通信を行い、図示しない外部サーバーなどからダウンロードすることにより、随時更新・追加することが可能である。また、入出力I/F121を介してパソコン等の外部機器300と接続し、データやプログラム等を更新、追加することも可能である。
GPS受信部106は、上空にあるGPS衛星からの信号を受信するものである。これにより、携帯端末100の現在位置を検出することができる。
地磁気センサ107は携帯端末100の向いている方向を検出するセンサである。
加速度センサ108は携帯端末100の加速度を検出するセンサ、ジャイロセンサ109は、携帯端末100の角速度を検出するセンサである。これらにより、携帯端末100の傾き、動きを詳細に検出することができる。
無線通信部111は、IEEE802.11a/b/nなどの無線LANによる無線通信を行う通信インターフェースであり、無線ルータ500を介して外部ネットワーク600に接続することができる。
マイク112は、外部の音声を入力するものであり、スピーカ111は、外部に対して音声を出力するものである。外部音声出力部115はイヤフォン200を接続して音声を出力するものである。入出力される音声は、音声処理部113にて音声処理される。
タッチパネル116は、操作入力部117、表示部118からなる。表示部118はLCDなど映像や画像を表示するものであり、その表示面にはタッチパッドのような操作入力部117を有する。
操作入力部117は、例えば静電容量式などのタッチパッドであり、指やタッチペンなどによる接触操作(以降、タッチという)を操作入力として検出するものである。
撮像部120は、カメラなどである。表示部118に表示される映像や、撮像部120から入力された映像は、画像処理部119にて処理される。
入出力I/F121は、例えばUSB(Universal Serial Bus)などであり、外部機器300とデータの送受信を行うインターフェースである。
次に携帯端末装置100において、音声認識或いは口唇動き認識により操作を実行する制御部101の処理のフローチャートの例を図2に示す。
図2において、まず携帯端末装置100の状態により実行可能な操作の選択肢から、どのような操作を行うかを決定する(S201)。図3に携帯端末装置100の状態に対応した実行可能な操作のテーブルの例を示す。例えば、ホーム画面が表示されている状態では「音楽再生」や「メール」等が操作選択肢となり、音楽を再生している状態では「停止」や「前スキップ」等が操作選択肢となる。次に、操作を行う対象を選択する必要の有無により分岐処理を行う(S202)。例えば、操作として「音楽再生」を行う場合、どの曲を再生するのかというように操作(音楽再生など)を行う対象(曲など)の選択が必要となる。また、音楽再生中の操作として「停止」を行う場合、操作(停止など)を行う対象の選択は必要ない。操作対象の選択がある場合(Yes)には,操作対象を決定する処理S203を行い、選択した操作対象(例えば曲)に対して、操作(例えば音楽再生)を実行する(S204)。分岐処理S202で操作対象の選択がない場合(No)には操作(例えば停止)を実行する。図3に示した携帯端末装置の状態に応じた操作選択肢のテーブルデータはメモリ領域104cに記憶されている。 図4は操作決定処理S201の一例を示すフローチャートである。
図4において、まずマイク112から音声処理部113を介して音声を、撮像部120から画像処理部119を介して操作者の少なくとも口唇部分を含む映像を取り込む(S401)。次に、音声認識部102で音声認識操作決定処理S402を行い、口唇動き認識部103で口唇動き認識操作決定処理S403を行う。分岐処理S404では音声認識操作決定処理S402で音声認識に成功したかどうかを音声認識フラグにより判断する。音声認識に成功した場合(Yes)には音声認識操作決定処理S402で認識した結果に基づいてどのような操作を行うかを決定する(S405)。次に分岐処理406で口唇部分が撮影範囲から外れることなく映像の取り込みが行われ、口唇動きデータの取得に成功したかを口唇検出フラグにより判断する。口唇動きデータの取得に成功した場合(Yes)には音声認識結果に対応してメモリ領域104bの口唇動き認識データを更新し(S407)、マナーモードを解除(S408)して処理を終了する。マナーモード解除以降の操作においては、スピーカ114から(或いはイヤフォン200が接続されている場合には外部音声出力部115を介して、イヤフォンから)の音声による操作ガイド、音による着信案内等を行う。一方、分岐処理S406で口唇検出フラグにより口唇動きデータの取得に失敗したと判断した場合(No)にはメモリ領域104bの口唇動き認識データを更新せず、マナーモードを解除(S408)して処理を終了する。
分岐処理S404で音声認識フラグにより音声認識に失敗したと判断した場合(No)には分岐処理409で口唇動き認識フラグにより口唇動き認識操作決定処理S403で認識に成功したかどうかを判断する。口唇動き認識に成功した場合(Yes)には口唇動き認識操作決定処理S403で認識した結果に基づいてどのような操作を行うかを決定(S410)し、マナーモードを設定(S411)して処理を終了する。マナーモードにおいてはスピーカ114からの出力をオフとし、音声無しの画面表示での操作ガイド或いは着信案内等を行う。一方、分岐処理S409で口唇動き認識フラグにより口唇動き認識が失敗したと判断した場合(No)には再度音声および映像を取り込む処理(S401)に戻る。
以上の処理により、音声認識操作決定処理に成功した場合には音声認識結果に従って操作が決定され、音声認識操作決定処理に失敗して口唇動き認識操作決定処理に成功した場合には口唇動き認識に従って操作が決定される。また、音声認識に成功し、口唇動きデータの取得に成功した場合にはメモリ領域104bの口唇動き認識データの更新が行われる。
以上の説明のように、雑踏等で騒音が大きい環境や図書館等で声を出すのがふさわしくない環境で音声認識操作決定処理が行えない場合にも、口唇動き認識操作決定処理を行うことでどのような操作を行うかを決定することができる。また、マナーモードの設定・解除が音声認識及び口唇動き認識の処理によって自動的に行うことが可能となる。
図5は音声及び口唇部分を含む映像を取り込む処理S401の一例を示すフローチャートである。
図5において、まず音声及び映像の取り込み開始を判断する(S501)。取り込み開始の判断としては、例えば図6に示す携帯端末装置100のタッチパネル116の所定の部位Mがタッチされたかにより判断を行う。所定の部位Mがタッチされた(Yes)と判断すると、音声及び口唇部分の映像の取り込み(S502)を開始するとともに、取り込んだ映像を携帯端末装置100の表示部118の所定の部位Wに表示する(S503)。口唇動き検出部103により、取り込んだ映像により口唇部分が撮影範囲から外れていないかを検出する(S504)。分岐処理S505では口唇検出結果により分岐処理を行い、図6(a)のように、口唇部分が撮影範囲から外れていない(Yes)の場合には、例えば表示部118の所定の部位Wの表示枠を青色とする(S506)。図6(b)のように口唇部分が撮影範囲から外れている(No)と判断した場合には、例えば表示部118の所定の部位Wの表示枠を赤色とする(S507)。分岐処理S508では音声及び映像の取り込み終了を判断する。取り込み終了の判断としては、携帯端末装置100のタッチパネル116の所定の部位Mが再度タッチされたかにより判断を行う。所定の部位Mがタッチされていない(No)と判断した場合にはS502に戻り、音声及び映像の取り込みを続ける。所定の部位Mがタッチされた(Yes)と判断すると、音声及び口唇部分の映像の取り込みを終了し(S509)、処理を終了する。
以上の処理により、音声及び口唇部分の映像の取り込みが行われる。また、取り込んだ映像の表示及び表示枠の色により口唇部分が撮影範囲から外れたかどうかを容易に判断することができ、操作者が撮影位置を修正することができる。なお、ここでは口唇部分の映像が撮影範囲から外れたかどうかを操作者に知らせる方法として表示枠の色を変えるようにしたが、他の表示方法により知らせるようにしてもよい。
次に,音声認識部102における音声認識操作決定処理S402のフローチャートの一例を図7に示す。
図7において、まず音声分析を行い、入力音声の特徴パラメータの時系列パターン(具体的には,スペクトルやケプストラムの時系列)を抽出する(S701)。次にHMM(Hidden Markov Model)による音響モデルとしてメモリ領域104aに記憶された操作選択肢に対応する音声認識データとの尤度を計算する(S702)。分岐処理S703では、尤度計算の結果の最大確率 (最大尤度)が所定の値(ここでは一例として0.6とした)以上の場合(Yes)には音声認識フラグをOKとし(S704)、最大確率を与える操作選択肢を認識結果として決定し(S705)、処理を終了する。一方、分岐処理S703でNoと判断した場合には、騒音等により音声認識が失敗したと判断し、音声認識フラグをNGとして(S706)、処理を終了する。
次に、口唇動き認識部103における口唇動き認識操作決定処理S403について、図8の例を用いて説明する。
図8のフローチャートにおいて、まず入力された口唇の動きの映像から、口唇の動きを検出し、口唇動きデータを取得する(S801)。口唇の動きのデータとしては、例えば図9に示すように口唇の横の大きさXと口唇の縦の大きさYの時間的な変化を検出する。
口唇部分が撮影範囲から外れていて入力された映像から口唇部分の検出ができず、口唇動きデータ取得処理S801において口唇動きデータの取得に失敗した場合には、分岐処理802においてNoと判断し、口唇検出フラグ及び口唇動き認識フラグをNGに設定(S803、S809)し、処理を終了する。一方、入力された映像から口唇動きデータの取得に成功した場合には、分岐処理S802においてYesと判断し、口唇検出フラグをOKに設定(S804)する。次に、この取得した口唇動きデータとメモリ領域104bに記憶されている操作選択肢に対応する口唇動き認識データとの尤度を計算する(S805)。分岐処理S806では尤度計算の結果の最大確率 (最大尤度)が所定の値(ここでは一例として0.6とした)以上の場合(Yes)には、口唇動き認識フラグをOKとし(S807)、最大確率を与える操作選択肢を認識結果として決定し(S808)、処理を終了する。一方、分岐処理S806でNoと判断した場合には口唇動き認識フラグをNGとし(S809)、処理を終了する。
図10に口唇動き認識データXr(t)、Yr(t)と取得した口唇動きデータXd(t)、Yd(t)の例を示す。図10(a)は操作選択肢「音楽再生(おんがくさいせい)」に対応し、図10(b)は「ビデオ再生(びでおさいせい)」に対応する。Xは口唇の横の大きさ、Yは口唇の縦の大きさを示している。例えば母音「あ」に対応する「が」「さ」の口唇の大きさはX、Yともに大きくなっている。一方、母音「い」に対応する「い」「び」の口唇の大きさXは比較的大きいのに対して、Yは小さくなっている。このように、口唇の動きとして取得した口唇動きデータXd(t)、Yd(t)とメモリ104に記憶された操作選択肢に対応する口唇動き認識データXr(t)、Yr(t)から口唇の大きさX,Yの時間的変化が最も近い選択肢を認識結果として決定することができる。
口唇動き認識データ更新処理S407の一例を、図11を用いて説明する。
図11(a)は更新前の口唇動き認識データYr(t)を、図11(b)は取得した口唇動きデータYd(t)を、図11(c)は更新後の口唇動き認識データYr(t)‘を示している。ここで、更新後の口唇動き認識データYr(t)‘を以下の式で定義する。
(数1) Yr(t)‘=Yr(t)+α・(Yd(t)-Yr(t))

更新後の口唇動き認識データYr(t)‘は次の口唇動き認識における口唇動き認識データYr(t)として用いられる。
ここで、αは口唇動き認識データが取得した口唇動きデータに収束する速さを決定する係数であり、例えば、α=1とすると、

(数2) Yr(t)‘=Yd(t)

となり、取得した口唇動きデータYd(t)が次の口唇動き認識における口唇動き認識データとなる。α=0.5とすると、

(数3) Yr(t)‘=0.5・(Yd(t)+Yr(t))

となり、取得した口唇動きデータYd(t)と更新前の口唇動き認識データYr(t)の平均が次の口唇動き認識における口唇動き認識データとなる。αの範囲は、

(数4) 0<α<1

が選ばれる。αが大きいほど口唇動き認識データが取得した口唇動きデータに早く収束する。図11(c)はα=0.5の場合を示している。
更新後の口唇動き認識データXr(t)‘も同様に次式で与えられる。
(数5) Xr(t)‘=Xr(t)+α・(Xd(t)-Xr(t))

以上の処理により、更新後の口唇動き認識データXr(t)’、Yr(t)’は更新前よりも実際に取得した口唇動きに近いデータに更新され、次の口唇動き認識において口唇動き認識データXr(t)、Yr(t)として用いられる。これを繰り返すことで、より操作者の口唇動きに合わせた口唇動き認識データXr(t)、Yr(t)を得ることができ、口唇動き認識の精度を向上することができる。
以上の音声認識操作決定処理、或いは口唇動き認識操作決定処理によりどのような操作を行うかを決定することができる。
次に操作を行う対象を決定する処理(S203)について説明する。
図12に操作対象決定処理のフローチャートの例を示す。
図12において、まずマイク112から音声処理部113を介して音声を、撮像部120から画像処理部119を介して操作者の少なくとも口唇部分を含む映像を取り込む(S1201)。次に、音声認識カテゴリ決定処理S1202、口唇動き認識カテゴリ決定処理S1203を行う。分岐処理S1204では音声認識カテゴリ決定処理S1202で音声認識に成功したかどうかを音声認識フラグにより判断する。音声認識に成功した場合(Yes)には音声認識カテゴリ決定処理S1202で認識した結果に基づいて操作対象のカテゴリを決定する(S1205)。次に分岐処理1206で口唇部分が撮影範囲から外れることなく映像の取り込みが行われ、口唇動きデータの取得に成功したかを口唇検出フラグにより判断する。口唇動きデータの取得に成功した場合(Yes)には音声認識結果に対応してメモリ領域104bの口唇動き認識データを更新(S1207)し、次の処理S1210に進む。一方、分岐処理S1206で口唇検出フラグにより口唇動きデータの取得に失敗したと判断した場合(No)にはメモリ領域104bの口唇動き認識データを更新せず、次の処理S1210に進む。
分岐処理S1204で音声認識フラグにより音声認識に失敗したと判断した場合(No)には分岐処理1208で口唇動き認識フラグにより口唇動き認識カテゴリ決定処理S1203で認識に成功したかどうかを判断する。口唇動き認識に成功した場合(Yes)には口唇動き認識カテゴリ決定処理S403で認識した結果に基づいて操作対象のカテゴリを決定し(S1209)、次の処理S1210に進む。一方、分岐処理S1208で口唇動き認識フラグにより口唇動き認識に失敗したと判断した場合(No)には再度音声および映像を取り込む処理(S1201)に戻る。
S1210では再度音声及び操作者の少なくとも口唇部分を含む映像を取り込む。取り込んだ音声及び映像をもとに音声認識操作対象決定処理S1211、口唇動き認識操作対象決定処理S1212を行う。分岐処理S1213では音声認識操作対象決定処理S1211で認識に成功したかどうかを音声認識フラグにより判断する。音声認識に成功した場合(Yes)には音声認識操作対象決定処理S1211で認識した結果に基づいて操作対象を決定する(S1214)。次に分岐処理S1215で口唇部分が撮影範囲から外れることなく映像の取り込みが行われ、口唇動きデータの取得に成功したかを口唇検出フラグにより判断する。口唇動きデータの取得に成功した場合(Yes)には音声認識結果に対応してメモリ領域104bの口唇動き認識データを更新し(S1216)、処理を終了する。一方、分岐処理S1215で口唇検出フラグにより口唇動きデータの取得に失敗したと判断した場合(No)にはメモリ領域104bの口唇動き認識データを更新せず、処理を終了する。
分岐処理S1213で音声認識フラグにより音声認識に失敗したと判断した場合(No)には分岐処理1217で口唇動き認識フラグにより口唇動き認識操作対象決定処理S1212で口唇動き認識に成功したかどうかを判断する。口唇動き認識に成功した場合(Yes)には口唇動き認識操作対象決定処理S1212で認識した結果に基づいて操作対象を決定(S1218)し、処理を終了する。一方、分岐処理S1217で口唇動き認識フラグにより口唇動き認識に失敗したと判断した場合(No)には再度音声および映像を取り込む処理(S1210)に戻る。
図13は口唇動き認識カテゴリ決定処理の一例を示すフローチャートである。
図13のフローチャートにおいて、まず入力された口唇の動きの映像から、口唇の動きを検出し、口唇動きデータを取得する(S1301)。口唇部分が撮影範囲から外れていて口唇検出ができず、口唇動きデータ取得処理S1301において口唇動きデータの取得に失敗した場合には、分岐処理1302においてNoと判断し、口唇検出フラグ及び口唇動き認識フラグをNGに設定(S1303、S1309)し、処理を終了する。一方、口唇動きデータ取得処理S1301において入力された口唇の映像からの口唇動きデータの取得に成功した場合には、分岐処理1302においてYesと判断し、口唇検出フラグをOKに設定する(S1304)。次に、この取得した口唇動きデータとメモリ領域104bに記憶されている操作選択肢に対応する口唇動き認識データとの尤度を計算する(S1305)。
図14に操作に対応したカテゴリ選択肢のテーブルの例を示す。音楽、写真等のデータに付与されているメタデータの属性がカテゴリに相当する。例えば各音楽データには曲名、アーティスト、アルバム等の属性(カテゴリ)に関するデータがメタデータとして付与されている。
分岐処理S1306では尤度計算の結果の最大確率 (最大尤度)が所定の値(ここでは一例として0.6とした)以上の場合(Yes)には、口唇動き認識フラグをOKとし(S1307)、最大確率を与える操作カテゴリを認識結果として決定し(S1308)、処理を終了する。一方、分岐処理S1306でNoと判断した場合には口唇動き認識フラグをNGとし(S1309)、処理を終了する。
次に、音声認識カテゴリ決定処理(S1202)について説明する。
図15は音声認識カテゴリ決定処理の一例を示すフローチャートである。
図15において、まずマイク112から音声処理部113を介して入力された音声の分析を行い、入力音声の特徴パラメータの時系列パターンを抽出する(S1501)。次にHMMによる音響モデルとしてメモリ領域104aに記憶されたカテゴリ選択肢に対応する音声認識データとの尤度を計算する(S1502)。分岐処理S1503では、尤度計算の結果の最大確率 (最大尤度)が所定の値(ここでは一例として0.6とした)以上の場合(Yes)には認識フラグをOKとし(S1504)、最大確率を与えるカテゴリ選択肢を認識結果として決定し(S1505)、処理を終了する。一方、分岐処理S1503でNoと判断した場合には、騒音等により音声認識に失敗したと判断し、認識フラグをNGとし(S1506)、処理を終了する。
以上の口唇動き認識カテゴリ決定処理、或いは音声認識カテゴリ決定処理により操作対象がどのカテゴリに属するかを決定することができる。
次に、決定したカテゴリに属する操作対象を決定するための口唇動き認識操作対象決定処理、および音声認識操作対象決定処理について説明する。
図16は口唇動き認識操作対象決定処理の例を示すフローチャートである。
図16のフローチャートにおいて、まず入力された口唇の動きの映像から、口唇の動きを検出し、口唇動きデータを取得する(S1601)。口唇動きデータ取得処理S1601において口唇部分が撮影範囲から外れていて口唇検出ができず、口唇動きデータの取得に失敗した場合には、分岐処理S1602においてNoと判断し、口唇検出フラグ及び口唇動き認識フラグをNGに設定(S1603、S1611)し、処理を終了する。一方、口唇動きデータ取得処理S1601において入力された口唇部分の映像からの口唇動きデータの取得に成功した場合には、分岐処理S1602においてYesと判断し、口唇検出フラグをOKに設定する(S1604)。ストレージ105に記憶されている音楽、写真等のデータにはタイトル、アーティスト、撮影日等の属性に関するメタデータ付与されている。S1605では選択したカテゴリの属性部分の記述に対応した口唇動き認識データ(例えばカテゴリとして曲名を選択した場合には各音楽データのメタデータとして記録されている曲のタイトルに対応した口唇動き認識データ)と取得した口唇動きデータとの尤度を計算する。分岐処理1606では尤度計算の結果の最大確率 (最大尤度)が所定の値(ここでは一例として0.6とした)以上の場合(Yes)には、候補数が複数あるか、すなわち最大確率が所定の値以上となるデータが複数あるかを判断して分岐処理を行う(S1607)。候補数が1つの場合(Yes)には口唇動き認識フラグをOKとし(S1608)、最大確率を与える操作対象を認識結果として決定し(S1609)、処理を終了する。一方、分岐処理S1607で候補数が複数の場合(No)と判断した場合には操作対象選択処理(S1610)を行い、処理を終了する。一方、分岐処理S1606でNoと判断した場合には、口唇動き認識フラグをNGとし(S1611)、処理を終了する。
操作対象選択処理S1610について、図17のフローチャートを用いて説明する。
図17において、まずタッチパッド116の表示部118に複数の候補を表示する(S1701)。表示の例を図18に示す。ここでは、候補となる曲が3つある場合の例である。また、これに対応した口唇動き認識データおよび取得口唇動きデータを図19に示す。この場合、口唇動き認識データXr(t),Yr(t)がほとんど同じ部分が含まれ、口唇の動きだけでは操作対象を決定できない。そこで、選択のための口唇形状が異なる文字を曲名に付加して表示している(ここでは、「あ」「い」「う」)。次に撮像部120から画像処理部119を介して操作者の少なくとも口唇部分を含む映像を取り込む(S1702)。まず入力された口唇の動きの映像から、口唇の動きを検出し、口唇動きデータを取得する(S1703)。口唇動きデータ取得処理S1703において口唇が撮影範囲から外れていて口唇検出ができず、口唇動きデータの取得に失敗した場合には、分岐処理1704においてNoと判断し、口唇検出フラグ及び口唇動き認識フラグをNGに設定(S1705、S1711)し、処理を終了する。一方、口唇動きデータ取得処理S1703において入力された映像から口唇動きデータの取得に成功した場合には、分岐処理S1704においてYesと判断し、口唇検出フラグをOKに設定する(S1706)。次に、この入力映像に対応した口唇動きデータと選択のために付加した文字(図18の例では「あ」「い」「う」)に対応した口唇動き認識データとの尤度を計算する(S1707)。分岐処理S1708では尤度計算の結果の最大確率 (最大尤度)が所定の値(ここでは一例として0.6とした)以上の場合(Yes)には、口唇動き認識フラグをOKとし(S1709)、最大確率を与える選択肢を操作対象として決定し(S1710)、処理を終了する。一方、分岐処理S1708でNoと判断した場合には口唇動き認識フラグをNGとし(S1711)、処理を終了する。
以上のように、口唇動きがほぼ同じ候補が複数ある場合にも、口唇形状が異なる文字或いは文字列を付加することで、操作対象を決定することができる。
図20は音声認識操作対象決定処理S1211の例を示すフローチャートである。
図20において、まずマイク112から音声処理部113を介して入力された音声の分析を行い、入力音声の特徴パラメータの時系列パターンを抽出する(S2001)。音楽、写真等のデータの属性部分の記載(例えばカテゴリとして曲名を選択した場合には各音楽データのメタデータとして記録されている曲のタイトル)について、メモリ領域104aに音響モデルとして記憶されている音声認識データとの尤度を計算する(S2002)。分岐処理S2003では、尤度計算の結果の最大確率 (最大尤度)が所定の値(ここでは一例として0.6とした)以上の場合(Yes)には音声認識フラグをOKとし(S2004)、最大確率を与える操作対象を認識結果として決定し(S2005)、処理を終了する。一方、分岐処理S2003でNoと判断した場合には、音声認識フラグをNGとして処理を終了する。
口唇動き認識操作決定処理S405の他の実施例を図21に示す。本実施例では口唇の形状を母音に対応させ、口唇の動きを母音の並びとして認識を行うものである。
図21において、まず入力された口唇の動きの映像から、音節数Nを決定する(S2101)。次に、音節母音並び変換処理により各音節に対応する口唇の形状がどの母音に対応するかを判別し、N個の音節に対応した母音の並びに変換する(S2102)。この入力映像に対応した母音の並びとメモリ104bに記憶されている操作選択肢に対応する母音の並びで表現された口唇動き認識データとの尤度を計算する(S2103)。
分岐処理2104では尤度計算の結果の最大確率 (最大尤度)が所定の値(ここでは一例として0.6とした)以上の場合(Yes)には、認識フラグをOKとし(S2105)、最大確率を与える操作選択肢を認識結果として決定し(S2106)、処理を終了する。一方、分岐処理S2104でNoと判定した場合には認識フラグをNGとし(S2107)、処理を終了する。
メモリ104bに予め記憶されている操作選択肢に対応する母音並びのテーブルの例を図22に示す。例えば「音楽再生」に対応する母音並びは「おあうあいえい」となる。この操作選択肢に対応する母音並びと入力映像に対応した母音並びの尤度を計算し、最も尤度が大きい操作選択肢を認識結果として決定する。各操作選択肢の文字列の母音並びが異なるようにすることで操作選択肢と母音並びが一対一に対応し、母音並びにより操作選択肢を決定することができる。母音並びによる認識では操作選択肢に対する母音の並びを記憶するため、図10に示す操作選択肢に対する口唇動き認識データのように口唇の大きさX及びYの時間的な変化を記憶する必要がなく、メモリ104bの使用量を少なくすることができる。
図23に音節母音並び変換処理(S2102)のフローチャートの一例を示す。
図23において、まず母音口唇形状と比較する音節を指定するパラメータIを1から音節数Nまでとして、ループ処理を開始し(S2301)、S2303のループ終了処理までS2302の処理を繰り返して行う。S2302では入力された映像のI番目の音節に対応する口唇の形状とメモリ104bに記憶されている口唇認識データの母音に対応する口唇の形状を比較し、I番目の音節に対応する母音を決定する。以上の処理により、入力映像に対応したN個の音節が母音の並びに変換される。
図24に母音に対応した口唇形状の例を示す。ここでは、日本語の「あ」「い」「う」「え」「お」の母音に対する口唇形状を示している。例えば、図25のテーブルに示すように口唇の縦の幅Xと横の幅Yの大きさを3段階で表し、各母音と対応させる。これにより、入力映像の口唇形状の縦の幅Xと横の幅Yを求め、図25のテーブルに従って対応する母音を決定することができる。
以上の母音並びによる認識方法は口唇動き認識操作決定処理S405に限らず、口唇動き認識カテゴリ決定処理S1104、口唇動き認識操作対象決定処理S1109に適用してもよい。
図26は音声及び口唇部分を含む映像を取り込む処理の他の実施例を示すフローチャートである。
図26において、図5の音声・映像取り込み処理と異なるのは選択肢表示処理S510を付加した点である。図27に音声及び口唇部分を含む映像を取り込む処理における表示の例を示す。図27(a)は操作決定処理においてホームの状態での操作選択肢の表示であり、図27(b)は操作対象決定処理において音楽再生時におけるカテゴリ選択肢の表示である。選択のための母音が異なる文字或いは文字列を付加して表示し、付加した文字或いは文字列部分について音声認識或いは口唇動き認識により操作選択処理を行なう。これにより、母音が異なる短い文字或いは文字列で認識できるため、認識を容易に確実に行うことが可能となる。
以上のように、選択肢を表示部118に表示することで操作選択肢或いはカテゴリ選択肢をいちいち覚えておく必要がなく、確実に選択することができる。ただし、操作者が携帯端末の操作に慣れた場合などには選択肢を表示しないように、選択肢を表示するかどうかを設定できるようにしてもよい。
図28は携帯端末装置100の第2の実施例の構成例を示すブロック図であり、図1の構成例と同一機能部分には同じ記号を付し、説明を省略する。
本実施例では図1の構成例に対して操作者認識部122及びメモリ104の所定の領域104dに操作者認識データを設けるようにしており、携帯端末装置100を使用する操作者が複数いる場合に対応するものである。
図29は実施例2に係る操作決定処理S201の一例を示すフローチャートであり、図4のフローチャートと同一処理には同一の記号を付している。
図29において、まずマイク112から音声処理部113を介して音声を、撮像部120から画像処理部119を介して操作者の少なくとも口唇部分を含む映像を取り込む(S401)。次に、操作者認識部122で音声・映像取り込み処理S401で取り込んだ音声及び/或いは映像とメモリ領域104dに記憶されている操作者認識データに基づいて操作している操作者Nを認識する(S420)。操作者認識データとしては、例えば携帯端末装置100にログインするために予め登録した音声認証用データ或いは顔認証用データを用いることができる。操作者認識後、音声認識部102で音声認識操作決定処理S402を行い、口唇動き認識部103で口唇動き認識操作決定処理S403を行う。分岐処理S404では音声認識操作決定処理S402で音声認識に成功したかどうかを音声認識フラグにより判断する。音声認識に成功した場合(Yes)には音声認識操作決定処理S402で認識した結果に基づいてどのような操作を行うかを決定する(S405)。次に分岐処理406で口唇部分が撮影範囲から外れることなく映像の取り込みが行われ、口唇動きデータの取得に成功したかを口唇検出フラグにより判断する。口唇動きデータの取得に成功した場合(Yes)には音声認識結果に対応してメモリ領域104bの操作者Nに対応した口唇動き認識データを更新し(S421)、マナーモードを解除(S408)して処理を終了する。マナーモード解除以降の操作においては、スピーカ114から(或いはイヤフォン200が接続されている場合には外部音声出力部115を介して、イヤフォンから)の音声による操作ガイド、音による着信案内等を行う。一方、分岐処理S406で口唇検出フラグにより口唇動きデータの取得に失敗したと判断した場合(No)にはメモリ領域104bの口唇動き認識データを更新せず、マナーモードを解除(S408)して処理を終了する。
分岐処理S404で音声認識フラグにより音声認識に失敗したと判断した場合(No)には分岐処理409で口唇動き認識フラグにより口唇動き認識操作決定処理S403で認識に成功したかどうかを判断する。口唇動き認識に成功した場合(Yes)には口唇動き認識操作決定処理S403で認識した結果に基づいてどのような操作を行うかを決定(S410)し、マナーモードを設定(S411)して処理を終了する。マナーモードにおいてはスピーカ114からの出力をオフとし、音声無しの画面表示での操作ガイド或いは着信案内等を行う。一方、分岐処理S409で口唇動き認識フラグにより口唇動き認識が失敗したと判断した場合(No)には再度音声および映像を取り込む処理(S401)に戻る。
以上の処理により、操作者毎に操作者に対応した口唇動き認識データが更新され、口唇の動きの個人差に対応した口唇動き認識データを得ることができる。したがって、口唇動き認識操作決定処理S403では操作者に対応して更新された口唇動き認識データを用いて口唇動き認識を行うことで、携帯端末装置を複数の人が使用する場合にも口唇動き認識の精度を向上することができる。
また、操作決定処理S201に限らず、操作対象決定処理S203についても同様に操作者に対応した口唇動き認識データ更新処理を適用してもよい。
図30は携帯端末装置100の第3の実施例の構成例を示すブロック図であり、図28の構成例と同一機能部分には同じ記号を付し、説明を省略する。また、図31は本実施例の携帯端末装置100と音声・口唇動き認識サーバー700からなる音声・口唇動き認識情報処理システムの概略構成を示すブロック図である。
本実施例の携帯端末装置100では図28の構成例に対して音声認識部102、口唇動き認識部103、メモリ104の音声認識データ領域及び口唇動き認識データ領域を設けておらず、これらに対応する部位を音声・口唇動き認識サーバー700に設けている。
図31において音声・口唇動き認識サーバー700は、制御部701、音声認識部702、口唇動き認識部703、メモリ704、ストレージ705、通信部706を備え、それぞれはバス710に相互に接続されている。
通信部706は外部ネットワーク600と接続するためのインターフェースであり、基地局400或いは無線ルータ500を介して携帯端末装置100と接続される。
制御部701はCPU等で構成されは、メモリ704に記憶したプログラムを実行することによって、各構成部を制御し、各種の処理を行っている。
音声認識部702は通信部706を介して得られた携帯端末装置100の操作者の音声データを認識し、音声データに対応した文字列に変換するものである。また、口唇動き認識部703は通信手段706を介して得られた携帯端末装置100の操作者の映像データから口唇の動きを認識し、映像データに対応した文字列に変換するものである。制御部701は操作者の音声から認識した結果或いは操作者の口唇の動きから認識した結果を通信部706を介して携帯端末装置100に送信する。
メモリ704は、フラッシュメモリなどであり、プログラム、データなどを記憶している。ストレージ705はSSD(Solid State Device)或いはハードディスクであり、上記した音声認識部702や口唇動き認識部703で認識のために使用するデータはストレージ705の所定の領域705a,705bに保存されている。
図32は図31の携帯端末装置100と音声・口唇動き認識サーバー700からなる情報処理システムにおける制御部101及び制御部701の処理の一例を示すフローチャートである。
図32において、まず携帯端末装置100においてマイク112から音声処理部113を介して音声を、撮像部120から画像処理部119を介して操作者の少なくとも口唇部分を含む映像を取り込む(S3201)。操作者認識部122で音声・映像取り込み処理S3201で取り込んだ音声及び/或いは映像とメモリ領域104dに記憶されている操作者認識データに基づいて操作している操作者Nを認識する(S3202)。
次に、取り込んだ音声及び映像のデータを基地局通信部110或いは無線通信部111を介して音声・口唇動き認識サーバー700に送信する(S3203)。音声・口唇動き認識サーバー700では受信した音声及び映像のデータに基づいて音声及び口唇動き認識処理S3204を行い、認識結果を通信部706を介して携帯端末装置100に送信する(S3205)。S3206では音声・口唇動き認識サーバー700から送られた認識結果の音声認識フラグ及び口唇動き認識フラグに基づいて分岐処理を行い、音声認識及び口唇動き認識に失敗した場合(No)には音声・映像取り込み処理S3201に戻る。音声認識或いは口唇動き認識に成功した場合(Yes)には操作決定処理S3207を行い、メモリ104cに記憶された図3に示すような操作に関する選択肢データと認識結果との尤度に基づいてどのような操作を行うのかを決定し、認識結果に対応した操作選択肢が存在する場合には決定成否フラグをOKとする。分岐処理3408では決定成否フラグにより分岐処理を行い、認識結果に対応した操作選択肢が存在しない場合(No)には音声・映像取り込み処理S3201に戻る。認識結果に対応した操作選択肢が存在する場合(Yes)には分岐処理S3209で音声認識フラグに基づいて分岐処理を行う。音声認識に成功した場合(Yes)にはマナーモードを解除(S3210)し、失敗した場合(No)にはマナーモードを設定(S3211)する。
次に、操作を行う対象を選択する必要の有無により分岐処理を行う(S3212)。例えば、操作として「音楽再生」を行う場合、どの曲を再生するのかというように操作(音楽再生など)を行う対象(曲など)の選択が必要となる。また、音楽再生中の操作として「停止」を行う場合、操作(停止など)を行う対象の選択は必要ない。操作対象の選択がない場合(No)には決定した操作を実行する(S3228)。分岐処理S3212において操作選択肢ありと判断した場合(Yes)には音声・映像取り込み処理S3213を行い、取り込んだ音声及び映像のデータを音声・口唇動き認識サーバー700に送信する(S3214)。音声・口唇動き認識サーバー700では受信した音声及び映像のデータに基づいて音声及び口唇動き認識処理S3215を行い、認識結果を携帯端末装置100に送信する(S3216)。S3217では音声・口唇動き認識サーバー700から送られた認識結果の音声認識フラグ及び口唇動き認識フラグに基づいて分岐処理を行い、音声認識及び口唇動き認識に失敗した場合(No)には音声・映像取り込み処理S3213に戻る。音声認識或いは口唇動き認識に成功した場合(Yes)には操作カテゴリ決定処理S3218を行い、メモリ104cに記憶された図13に示すような操作に対応したカテゴリ選択肢データと認識結果との尤度に基づいて操作対象のカテゴリを決定し、認識結果に対応したカテゴリ選択肢が存在する場合には決定成否フラグをOKとする。分岐処理3418では決定成否フラグにより分岐処理を行い、認識結果に対応したカテゴリ選択肢が存在しない場合(No)には音声・映像取り込み処理S3213に戻る。認識結果に対応したカテゴリ選択肢が存在する場合(Yes)には音声・映像取り込み処理S3220を行い、取り込んだ音声及び映像のデータを音声・口唇動き認識サーバー700に送信する(S3221)。音声・口唇動き認識サーバー700では受信した音声及び映像のデータに基づいて音声及び口唇動き認識処理S3222を行い、認識結果を携帯端末装置100に送信する(S3223)。S3224では音声・口唇動き認識サーバー700から送られた認識結果の音声認識フラグ及び口唇動き認識フラグに基づいて分岐処理を行い、音声認識及び口唇動き認識に失敗した場合(No)には音声・映像取り込み処理S3220に戻る。認識に成功した場合(Yes)には操作対象決定処理S3225を行う。携帯端末100のメモリ104eには操作者毎の履歴データが記憶されており、音声認識によりインターネット検索したときの検索対象の語句等の履歴が保存されている。また、携帯端末装置100のストレージ105に記憶されている音楽、写真等のデータにはタイトル、アーティスト、撮影日等の属性に関するメタデータ付与されている。メモリ104eに記憶された履歴データ及び操作カテゴリ決定処理S3218で決定したカテゴリの属性部分の記述(例えばカテゴリとして曲名を選択した場合には各音楽データのメタデータとして記録されている曲のタイトルに対応した記述)と認識結果との尤度に基づいて操作対象を決定し、認識結果に対応した操作対象が存在する場合には決定成否フラグをOKとする。分岐処理3426では決定成否フラグにより分岐処理を行い、認識結果に対応した操作対象が存在しない場合(No)には音声・映像取り込み処理S3220に戻る。認識結果に対応した操作対象が存在する場合(Yes)にはメモリ104eに記憶されている操作者Nに対応した履歴データに決定した操作対象を追加・更新(S3227)し、決定した操作対象に対して操作を実行する(S3228)。
音声・口唇動き認識処理S3204,S3215,S3222のフローチャートの一例を図33に示す。図33において、まず通信部706を介して取得した操作者の音声データ及び少なくとも口唇部分を含む映像データに基づいて音声認識部702で音声認識処理S3301を行い、口唇動き認識部703で口唇動き認識定処理S3302を行う。分岐処理S3303では音声認識処理S3301で音声認識に成功したかどうかを音声認識フラグにより判断する。音声認識に失敗した場合(No)には処理を終了する。音声認識に成功した場合(Yes)には分岐処理S3304で口唇部分が撮影範囲から外れることなく映像の取り込みが行われ、口唇動きデータの取得に成功したかを口唇検出フラグにより判断する。口唇動きデータの取得に成功した場合(Yes)には音声認識で得られた文字列に対応した口唇認識データの有無により分岐処理を行う。音声認識で得られた文字列に対応した口唇認識データがある場合(Yes)には文字列に対応したストレージ領域705bの口唇認識データを更新し(S3306)、口唇認識データがない場合(No)には音声認識で得られた文字列に対応した口唇認識データをストレージ領域705bに追加し(S3307)、処理を終了する。一方、分岐処理S3304で口唇動きデータの取得に失敗したと判断した場合(No)には口唇動き認識データを更新せず、処理を終了する。
以上の処理により、音声認識に成功し、口唇動きデータの取得に成功した場合には音声認識結果に対応した口唇動き認識データの更新及び追加が行われる。
音声認識処理S3301のフローチャートの一例を図34に示す。図34において、まず音声分析を行い、入力音声の特徴パラメータの時系列パターンを抽出する(S3401)。次にHMMによる音響モデルとしてストレージの所定の領域705aに記憶された音声認識データとの尤度を計算する(S3402)。分岐処理S3403では、尤度計算の結果の最大確率 (最大尤度)が所定の値(ここでは一例として0.6とした)以上の場合(Yes)には音声認識フラグをOKとし(S3404)、最大確率を与える音声認識データを認識結果として処理を終了する。一方、分岐処理S3403でNoと判断した場合には、騒音等により音声認識が失敗したと判断し、音声認識フラグをNGとして(S3405)、処理を終了する。
次に、口唇動き認識処理S3302について、図35の例を用いて説明する。
図35のフローチャートにおいて、まず入力された映像から口唇の動きを検出し、口唇動きデータを取得する(S3501)。口唇部分が撮影範囲から外れていて入力された映像から口唇部分の検出ができず、口唇動きデータ取得処理S3501において口唇動きデータの取得に失敗した場合には、分岐処理3702においてNoと判断し、口唇検出フラグ及び口唇動き認識フラグをNGに設定(S3503、S3508)し、処理を終了する。一方、入力された映像から口唇動きデータの取得に成功した場合には、分岐処理S3502においてYesと判断し、口唇検出フラグをOKに設定(S3504)する。次に、この取得した口唇動きデータとストレージの所定の領域705bに記憶されている口唇動き認識データとの尤度を計算する(S3505)。分岐処理S3506では尤度計算の結果の最大確率 (最大尤度)が所定の値(ここでは一例として0.6とした)以上の場合(Yes)には、口唇動き認識フラグをOKとし(S3507)、最大確率を与える口唇動き認識データを認識結果として処理を終了する。一方、分岐処理S3506でNoと判断した場合には口唇動き認識フラグをNGとし(S3508)、処理を終了する。
上記の実施例では携帯端末装置100において取り込んだ音声及び映像データを音声・口唇動き認識サーバー700に送信するようにしているが、携帯端末装置100において入力音声の特徴パラメータの時系列パターンを抽出する音声分析を行い、入力された映像から口唇の動きを検出して口唇動きデータ取得した結果を音声・口唇動き認識サーバー700に送信するようにしてもよい。これにより、携帯端末装置100から音声・口唇動き認識サーバー700に送るデータ量を低減し、処理時間を低減することが可能となる。
以上の実施例では音声・口唇動き認識サーバー700で音声認識及び口唇認識を行うことにより、多数の操作者の音声及び口唇動きのデータに基づいて口唇動き認識データが更新されるため、口唇動き認識の精度をより高めることが可能となる。また、操作者毎の履歴データを設け、音声認識で新たに使用された語句等を履歴データとして追加し、履歴データを口唇動き認識において利用することで、携帯端末装置の操作者毎に使用頻度の高い語句を口唇動き認識させることが可能となる。
尚、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。例えば、第1及び第2の実施例では音声認識データ、口唇動き認識データ、選択肢データ、をメモリ104に記憶するようにしたが、ストレージ105に記憶するようにしてもよい。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現しても良い。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現しても良い。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ104やストレージ105に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えても良い
100:携帯端末装置、101:制御部、102:音声認識部、103:口唇動き認識部、104:メモリ、105:ストレージ、110:基地局通信部、111:無線通信部、112:マイク、113:音声処理部、114:スピーカ、115:外部音声出力部、116:タッチパネル、117:操作入力部、118:表示部、119:画像処理部、120:撮像部、122:操作者認識部、400:基地局、500:無線ルータ、600:外部ネットワーク、700:音声・口唇動き認識サーバー、701:制御部、702:音声認識部、703:口唇動き認識部、705:ストレージ、706:通信部

Claims (11)

  1. 口唇動き認識データを記憶する記憶部と、
    操作者の少なくとも口唇部分を含む映像を撮影する撮像部と、
    前記撮像部から得られた操作者の口唇部分の動きデータと前記口唇動き認識データを比較することにより実行する操作を認識する口唇動き認識部と、
    前記口唇動き認識部に従って実行可能な操作を行う制御部とを備える
    ことを特徴とする携帯端末装置。
  2. 操作者の音声を取り込むマイクと、
    前記マイクから取り込んだ音声により実行する操作を認識する音声認識部を備え、
    前記制御部は前記音声認識部及び口唇動き認識部の認識結果に基づいて実行可能な操作を行う
    ことを特徴とする請求項1に記載の携帯端末装置。
  3. 前記制御部は、
    前記音声認識部から実行する操作を決定する結果が得られた場合には音声認識部の結果に基づいて実行可能な操作を行い、前記口唇の動き認識部から実行する操作を認識する結果が得られ、かつ音声認識部から実行する操作を認識する結果が得られない場合には前記口唇動き認識部の結果に基づいて実行可能な操作を行う
    ことを特徴とする請求項2に記載の携帯端末装置。
  4. 前記選択部は、
    前記音声認識部から実行する操作を決定する結果が得られた場合にはマナーモードを解除し、前記口唇の動き認識部から実行する操作を認識する結果が得られ、かつ音声認識部から実行する操作を認識する結果が得られない場合にはマナーモードを設定する
    ことを特徴とする請求項2に記載の携帯端末装置。
  5. 実行可能な操作に対応した文字列の選択肢を表示する表示部を備える
    ことを特徴とする請求項1に記載の携帯端末装置。
  6. 前記選択肢は、少なくとも口唇部分の形状が異なる音節の文字、或いは口唇部分の形状が異なる音節の並びが異なる文字列を含む
    ことを特徴とする請求項1に記載の携帯端末装置。
  7. 前記選択肢は少なくとも母音が異なる文字、或いは母音の並びが異なる文字列を含む
    ことを特徴とする請求項1に記載の携帯端末装置。
  8. 口唇部分の形状を記憶する記憶部を設け、
    前記口唇動き認識部は前記記憶部に記憶された口唇部分の形状に基づいて操作者の口唇部分の映像から文字列の音節の並びを識別する
    ことを特徴とする請求項1に記載の携帯端末装置。
  9. 前記音声認識部において実行する操作を決定する結果が得られ、かつ前記口唇動き認識部において操作者の口唇部分の動きデータが得られた場合には前記口唇部分の動きデータに基づいて前記口唇動き認識データを更新する
    ことを特徴とする請求項2に記載の携帯端末装置。
  10. 前記マイクから取り込んだ音声及び/或いは前記撮像部で撮影した映像により操作者を識別する操作者識別部を設け、
    前記音声認識部において実行する操作を決定する結果が得られ、かつ前記口唇動き認識部において操作者の口唇部分の動きデータが得られた場合には前記口唇部分の動きデータに基づいて前記操作者認識部で認識した操作者に対応した前記口唇動き認識データを更新する
    ことを特徴とする請求項2に記載の携帯端末装置。
  11. 携帯端末装置と音声認識及び口唇動き認識を行うサーバーを備える情報処理システムであって
    前記携帯端末装置は、
    操作者の少なくとも口唇部分を含む映像を撮影する撮像部と、
    操作者の音声を取り込むマイクと、
    前記撮像部で取り込んだ映像データと前記マイクで取り込んだ音声データを前記サーバーに送信し、認識結果を受信する通信部とを備え、
    前記サーバーは、
    前記携帯端末装置からの音声データと映像データを受信し、認識結果を送信する通信部と、
    口唇動き認識データを記憶する記憶部と、
    前記サーバーの通信部を介して受信した操作者の音声データにより認識を行う音声認識部と、
    前記サーバーの通信部を介して受信した操作者の映像データと前記口唇動き認識データにより認識を行う口唇動き認識部とを備える
    ことを特徴とする情報処理システム。
JP2013000297A 2013-01-07 2013-01-07 携帯端末装置及び情報処理システム Active JP5902632B2 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
JP2013000297A JP5902632B2 (ja) 2013-01-07 2013-01-07 携帯端末装置及び情報処理システム
US14/651,002 US10303433B2 (en) 2013-01-07 2013-12-18 Portable terminal device and information processing system
CN201380064683.0A CN104838339B (zh) 2013-01-07 2013-12-18 便携终端装置以及信息处理系统
PCT/JP2013/083815 WO2014106927A1 (ja) 2013-01-07 2013-12-18 携帯端末装置及び情報処理システム
US16/396,985 US11487502B2 (en) 2013-01-07 2019-04-29 Portable terminal device and information processing system
US17/969,868 US11861264B2 (en) 2013-01-07 2022-10-20 Portable terminal device and information processing system
US18/379,239 US20240036815A1 (en) 2013-01-07 2023-10-12 Portable terminal device and information processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013000297A JP5902632B2 (ja) 2013-01-07 2013-01-07 携帯端末装置及び情報処理システム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2016046542A Division JP6190909B2 (ja) 2016-03-10 2016-03-10 携帯端末装置及び情報処理システム

Publications (2)

Publication Number Publication Date
JP2014132396A true JP2014132396A (ja) 2014-07-17
JP5902632B2 JP5902632B2 (ja) 2016-04-13

Family

ID=51062249

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013000297A Active JP5902632B2 (ja) 2013-01-07 2013-01-07 携帯端末装置及び情報処理システム

Country Status (4)

Country Link
US (4) US10303433B2 (ja)
JP (1) JP5902632B2 (ja)
CN (1) CN104838339B (ja)
WO (1) WO2014106927A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016224554A (ja) * 2015-05-27 2016-12-28 株式会社ソニー・インタラクティブエンタテインメント 眼前装着型表示装置
JP2017162029A (ja) * 2016-03-07 2017-09-14 セイコーソリューションズ株式会社 注文管理システム
JP2019124838A (ja) * 2018-01-17 2019-07-25 株式会社Jvcケンウッド 音声出力制御装置、電子機器、音声出力制御方法およびプログラム

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10360441B2 (en) 2015-11-25 2019-07-23 Tencent Technology (Shenzhen) Company Limited Image processing method and apparatus
CN106919891B (zh) * 2015-12-26 2019-08-23 腾讯科技(深圳)有限公司 一种图像处理方法及装置
CN105632497A (zh) * 2016-01-06 2016-06-01 昆山龙腾光电有限公司 一种语音输出方法、语音输出系统
JP2018091954A (ja) * 2016-12-01 2018-06-14 オリンパス株式会社 音声認識装置、及び音声認識方法
CN107679449B (zh) 2017-08-17 2018-08-03 平安科技(深圳)有限公司 嘴唇动作捕捉方法、装置及存储介质
CN109422147A (zh) * 2017-08-28 2019-03-05 奥的斯电梯公司 口头命令界面
KR102417524B1 (ko) * 2017-10-13 2022-07-07 현대자동차주식회사 음성 인식 기반의 자동차 제어 방법
JP7081164B2 (ja) * 2018-01-17 2022-06-07 株式会社Jvcケンウッド 表示制御装置、通信装置、表示制御方法および通信方法
CN108521516A (zh) * 2018-03-30 2018-09-11 百度在线网络技术(北京)有限公司 用于终端设备的控制方法和装置
CN108538291A (zh) * 2018-04-11 2018-09-14 百度在线网络技术(北京)有限公司 语音控制方法、终端设备、云端服务器及系统
EP4130941A1 (en) * 2018-05-04 2023-02-08 Google LLC Hot-word free adaptation of automated assistant function(s)
CN112041924B (zh) * 2018-05-18 2024-07-02 渊慧科技有限公司 通过音素预测进行视觉语音识别
CN111049664A (zh) * 2018-10-11 2020-04-21 中兴通讯股份有限公司 一种网络告警处理方法、装置及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09325793A (ja) * 1996-06-05 1997-12-16 Oki Electric Ind Co Ltd 音声認識方法及び装置
JP2000068882A (ja) * 1998-08-17 2000-03-03 Matsushita Electric Ind Co Ltd 無線通信装置
JP2002118623A (ja) * 2000-10-06 2002-04-19 Matsushita Electric Ind Co Ltd 移動体通信装置
JP2002335304A (ja) * 2001-05-07 2002-11-22 Ricoh Co Ltd 移動体無線端末
JP2004246095A (ja) * 2003-02-14 2004-09-02 Nec Saitama Ltd 携帯電話装置及び遠隔制御方法
WO2006080161A1 (ja) * 2005-01-28 2006-08-03 Kyocera Corporation 発声内容認識装置及び発声内容認識方法
WO2007049569A1 (ja) * 2005-10-24 2007-05-03 Advanced Media, Inc. 情報検索システム及びサーバ装置
JP2007280179A (ja) * 2006-04-10 2007-10-25 Mitsubishi Electric Corp 携帯端末
WO2011037264A1 (ja) * 2009-09-28 2011-03-31 京セラ株式会社 電子機器および制御方法
JP2011186994A (ja) * 2010-03-11 2011-09-22 Fujitsu Ltd 文字入力装置および文字入力方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6014625A (en) * 1996-12-30 2000-01-11 Daewoo Electronics Co., Ltd Method and apparatus for producing lip-movement parameters in a three-dimensional-lip-model
EP2264895A3 (en) * 1999-10-27 2012-01-25 Systems Ltd Keyless Integrated keypad system
JP2001358828A (ja) 2000-06-10 2001-12-26 Masahiko Okuno モバイル機器、モバイル機器の指紋認証方法及びモバイル機器の指紋認証プログラムを記録した記録媒体
JP2002368870A (ja) 2001-06-04 2002-12-20 Nec Corp 移動通信端末装置
JP2005184485A (ja) 2003-12-19 2005-07-07 Casio Comput Co Ltd 撮像装置、撮像装置の動作制御方法及びプログラム
JP2007041089A (ja) 2005-08-01 2007-02-15 Hitachi Ltd 情報端末および音声認識プログラム
US20070048695A1 (en) * 2005-08-31 2007-03-01 Wen-Chen Huang Interactive scoring system for learning language
KR101502003B1 (ko) * 2008-07-08 2015-03-12 엘지전자 주식회사 이동 단말기 및 그 텍스트 입력 방법
JP2010026731A (ja) 2008-07-17 2010-02-04 Nec Saitama Ltd 文字入力装置、文字入力方法、文字入力システム、文字入力サーバー及び端末
JP2010272077A (ja) * 2009-05-25 2010-12-02 Toshiba Corp 情報再生方法及び情報再生装置
JP5341678B2 (ja) 2009-08-27 2013-11-13 京セラ株式会社 通信システム
KR101092820B1 (ko) * 2009-09-22 2011-12-12 현대자동차주식회사 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템
CN102104651A (zh) * 2009-12-22 2011-06-22 康佳集团股份有限公司 移动终端接收来电时播放预留语音的方法及其移动终端
CN102117115B (zh) * 2009-12-31 2016-11-23 上海量科电子科技有限公司 一种利用唇语进行文字输入选择的系统及实现方法
US8635066B2 (en) * 2010-04-14 2014-01-21 T-Mobile Usa, Inc. Camera-assisted noise cancellation and speech recognition
US8700392B1 (en) * 2010-09-10 2014-04-15 Amazon Technologies, Inc. Speech-inclusive device interfaces
BR112014015844A8 (pt) * 2011-12-26 2017-07-04 Intel Corp determinação das entradas de áudio e visuais de ocupantes baseada em veículo
KR101891259B1 (ko) * 2012-04-04 2018-09-28 삼성전자주식회사 지능형 이벤트 정보 출력 지원 방법 및 단말기
TW201342278A (zh) * 2012-04-06 2013-10-16 Wei-Yen Yeh 資訊整合互動系統及其方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09325793A (ja) * 1996-06-05 1997-12-16 Oki Electric Ind Co Ltd 音声認識方法及び装置
JP2000068882A (ja) * 1998-08-17 2000-03-03 Matsushita Electric Ind Co Ltd 無線通信装置
JP2002118623A (ja) * 2000-10-06 2002-04-19 Matsushita Electric Ind Co Ltd 移動体通信装置
JP2002335304A (ja) * 2001-05-07 2002-11-22 Ricoh Co Ltd 移動体無線端末
JP2004246095A (ja) * 2003-02-14 2004-09-02 Nec Saitama Ltd 携帯電話装置及び遠隔制御方法
WO2006080161A1 (ja) * 2005-01-28 2006-08-03 Kyocera Corporation 発声内容認識装置及び発声内容認識方法
WO2007049569A1 (ja) * 2005-10-24 2007-05-03 Advanced Media, Inc. 情報検索システム及びサーバ装置
JP2007280179A (ja) * 2006-04-10 2007-10-25 Mitsubishi Electric Corp 携帯端末
WO2011037264A1 (ja) * 2009-09-28 2011-03-31 京セラ株式会社 電子機器および制御方法
JP2011186994A (ja) * 2010-03-11 2011-09-22 Fujitsu Ltd 文字入力装置および文字入力方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016224554A (ja) * 2015-05-27 2016-12-28 株式会社ソニー・インタラクティブエンタテインメント 眼前装着型表示装置
US10275021B2 (en) 2015-05-27 2019-04-30 Sony Interactive Entertainment Inc. Display apparatus of front-of-the-eye mounted type
JP2017162029A (ja) * 2016-03-07 2017-09-14 セイコーソリューションズ株式会社 注文管理システム
JP2019124838A (ja) * 2018-01-17 2019-07-25 株式会社Jvcケンウッド 音声出力制御装置、電子機器、音声出力制御方法およびプログラム
JP7010012B2 (ja) 2018-01-17 2022-01-26 株式会社Jvcケンウッド 音声出力制御装置、電子機器、音声出力制御方法およびプログラム

Also Published As

Publication number Publication date
CN104838339B (zh) 2018-03-13
CN104838339A (zh) 2015-08-12
US11861264B2 (en) 2024-01-02
US11487502B2 (en) 2022-11-01
US20230039067A1 (en) 2023-02-09
US20150324168A1 (en) 2015-11-12
US20240036815A1 (en) 2024-02-01
JP5902632B2 (ja) 2016-04-13
US20190250884A1 (en) 2019-08-15
WO2014106927A1 (ja) 2014-07-10
US10303433B2 (en) 2019-05-28

Similar Documents

Publication Publication Date Title
JP5902632B2 (ja) 携帯端末装置及び情報処理システム
CN107644646B (zh) 语音处理方法、装置以及用于语音处理的装置
JP2022532313A (ja) 分散システムにおいてユーザの好みに最適化するためのカスタマイズされた出力
CN110556127B (zh) 语音识别结果的检测方法、装置、设备及介质
EP2323351A2 (en) Mobile communication terminal that delivers vibration information, and method thereof
KR20170032096A (ko) 전자장치, 전자장치의 구동방법, 음성인식장치, 음성인식장치의 구동 방법 및 컴퓨터 판독가능 기록매체
CN104484037A (zh) 通过可穿戴设备进行智能控制的方法及该可穿戴设备
TWI619115B (zh) 會議記錄裝置及其自動生成會議記錄的方法
KR20150093482A (ko) 화자 분할 기반 다자간 자동 통번역 운용 시스템 및 방법과 이를 지원하는 장치
CN107479854A (zh) 一种投影仪及投影方法
US20200403816A1 (en) Utilizing volume-based speaker attribution to associate meeting attendees with digital meeting content
CN105302335B (zh) 词汇推荐方法和装置及计算机可读存储介质
KR20170044386A (ko) 전자기기 및 전자기기의 제어방법
KR101322394B1 (ko) 음성인식 정보검색 시스템 및 그 방법
WO2019101099A1 (zh) 视频节目识别方法、设备、终端、系统和存储介质
JP2021177418A (ja) 電子機器の通訳機能提供方法およびイヤセット機器
US9343065B2 (en) System and method for processing a keyword identifier
JP6190909B2 (ja) 携帯端末装置及び情報処理システム
US9641740B2 (en) Apparatus and method for auto-focusing in device having camera
KR102527585B1 (ko) 이동 단말기 및 그 제어방법
KR102315211B1 (ko) 단말기 및 그것의 동작 방법
CN113707130B (zh) 一种语音识别方法、装置和用于语音识别的装置
US20240004921A1 (en) Information processing system, information processing method, and non-transitory recording medium
JP2017152913A (ja) 通信システム、通信端末、サーバ装置、および情報処理方法
US20230280961A1 (en) Device management system, information processing system, information processing device, device management method, and non-transitory recording medium

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20140911

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160209

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160310

R150 Certificate of patent or registration of utility model

Ref document number: 5902632

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250