JP2019079449A - 電子機器、制御装置、制御プログラム及び電子機器の動作方法 - Google Patents
電子機器、制御装置、制御プログラム及び電子機器の動作方法 Download PDFInfo
- Publication number
- JP2019079449A JP2019079449A JP2017207841A JP2017207841A JP2019079449A JP 2019079449 A JP2019079449 A JP 2019079449A JP 2017207841 A JP2017207841 A JP 2017207841A JP 2017207841 A JP2017207841 A JP 2017207841A JP 2019079449 A JP2019079449 A JP 2019079449A
- Authority
- JP
- Japan
- Prior art keywords
- electronic device
- user
- image
- lip
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
【課題】電子機器の利便性を向上させることが可能な技術を提供する。【解決手段】電子機器は、通知部、カメラ及び処理部を備える。通知部は、第1の言葉を読み上げるテンポをユーザに通知する。カメラは、第1の言葉を読み上げているユーザの少なくとも口唇を撮影する。処理部は、言葉を読み上げるテンポに基づいて、カメラで生成される、ユーザの少なくとも口唇が写る第1撮影画像から、発話の基本口形を示す基本口形画像を抽出する。【選択図】図3
Description
本開示は、電子機器に関する。
特許文献1〜4に記載されているように、電子機器に関して様々な技術が提案されている。
電子機器については、その利便性の向上が望まれる。
そこで、本発明は上述の点に鑑みて成されたものであり、電子機器の利便性を向上させることが可能な技術を提供することを目的とする。
電子機器、制御装置、制御プログラム及び電子機器の動作方法が開示される。一の実施の形態では、電子機器は、通知部、カメラ及び処理部を備える。通知部は、第1の言葉を読み上げるテンポをユーザに通知する。カメラは、第1の言葉を読み上げているユーザの少なくとも口唇を撮影する。処理部は、言葉を読み上げるテンポに基づいて、カメラで生成される、ユーザの少なくとも口唇が写る第1撮影画像から、発話の基本口形を示す基本口形画像を抽出する。
また、一の実施の形態では、制御装置は、通知部及びカメラを備える電子機器を制御するための、当該電子機器が備える制御装置である。制御装置は、通知部に、言葉を読み上げるテンポをユーザに通知させる。制御装置は、カメラに、言葉を読み上げているユーザの少なくとも口唇を撮影させる。制御装置は、言葉を読み上げるテンポに基づいて、カメラで生成される、ユーザの少なくとも口唇が写る撮影画像から、発話の基本口形を示す基本口形画像を抽出する。
また、一の実施の形態では、制御プログラムは、電子機器を制御するための制御プログラムである。制御プログラムは、電子機器に、言葉を読み上げるテンポをユーザに通知する第1処理と、言葉を読み上げているユーザの少なくとも口唇を撮影する第2処理と、言葉を読み上げるテンポに基づいて、第2処理で生成される、ユーザの少なくとも口唇が写る撮影画像から、発話の基本口形を示す基本口形画像を抽出する第3処理とを実行させるためのものである。
また、一の実施の形態では、電子機器の動作方法は、言葉を読み上げるテンポをユーザに通知する第1処理と、言葉を読み上げているユーザの少なくとも口唇を撮影する第2処理と、言葉を読み上げるテンポに基づいて、第2処理で生成される、ユーザの少なくとも口唇が写る撮影画像から、発話の基本口形を示す基本口形画像を抽出する第3処理とを備える。
電子機器の利便性が向上する。
<電子機器の外観の一例>
図1及び2は電子機器1の外観の一例を示す斜視図及び背面図である。図1及び2に示されるように、電子機器1は、平面視で略長方形の板状の機器ケース11を備えている。機器ケース11は電子機器1の外装を構成している。
図1及び2は電子機器1の外観の一例を示す斜視図及び背面図である。図1及び2に示されるように、電子機器1は、平面視で略長方形の板状の機器ケース11を備えている。機器ケース11は電子機器1の外装を構成している。
機器ケース11の前面11aには、言い換えれば電子機器1の前面には、文字、記号及び図形等の各種情報が表示される表示面121が位置している。表示面121の背面側には後述するタッチパネル130が位置している。これにより、ユーザは、電子機器1の前面の表示面121を指等で操作することによって、電子機器1に対して各種情報を入力することができる。なお、ユーザは、指以外の操作子、例えば、スタイラスペンなどのタッチパネル用ペンで表示面121を操作することによっても、電子機器1に対して各種情報を入力することができる。
機器ケース11の前面11aの上端部にはレシーバ穴12が位置している。機器ケース11の下側の側面11dにはマイク穴14が位置している。機器ケース11の前面11aの上端部からは、後述する第1カメラ180が有するレンズ181が視認可能となっている。図2に示されるように、機器ケース11の背面11b、言い換えれば電子機器1の背面の上端部からは、後述する第2カメラ190が有するレンズ191が視認可能となっている。また、機器ケース11の背面11bの上端部には発光部15が位置している。発光部15は例えばLED(Light Emitting Diode)である。機器ケース11の背面11bの下端部にはスピーカ穴13が位置している。
電子機器1は、複数の操作ボタンから成る後述の操作ボタン群140を有する。各操作ボタンは、例えばハードウェアボタンであって、機器ケース11の表面に位置する。各操作ボタンは、例えば押しボタンである。操作ボタン群140には、ボリュームボタン141、電源ボタン142及び操作ボタン143〜145が含まれる。ボリュームボタン141は、機器ケース11の右側の側面11cに位置している。本明細書では、右側と言えば、表示面121を見た場合の右側を意味する。また、左側と言えば、表示面121を見た場合の左側を意味する。電源ボタン142は、機器ケース11の上側の側面11eに位置している。操作ボタン143〜145は、機器ケース11の前面11aの下端部に位置している。
操作ボタン143は例えばバックボタンとして機能する。バックボタンは、表示面121の表示を一つ前の表示に切り替えるための操作ボタンである。ユーザが操作ボタン143を押すことによって、表示面121の表示が一つ前の表示に切り替わる。
操作ボタン144は例えばホームボタンとして機能する。ホームボタンは、表示面121にホーム画面を表示させるための操作ボタンである。ユーザが操作ボタン144を押すことによって、表示面121にホーム画面が表示される。
操作ボタン145は、例えば履歴ボタンとして機能する。履歴ボタンは、電子機器1で実行されたアプリケーションの履歴を表示面121に表示させるための操作ボタンである。ユーザが操作ボタン145を押すことによって、表示面121には、電子機器1で実行されたアプリケーションの履歴が表示される。
<電子機器の電気的構成の一例>
図3は電子機器1の電気的構成の一例を主に示すブロック図である。図3に示されるように、電子機器1は、制御部100、無線通信部110、表示部120、タッチパネル130及び操作ボタン群140を備える。さらに電子機器1は、レシーバ150、スピーカ160、マイク170、第1カメラ180、第2カメラ190、発光部15及び電池200を備える。電子機器1が備えるこれらの構成要素は、機器ケース11内に収められている。
図3は電子機器1の電気的構成の一例を主に示すブロック図である。図3に示されるように、電子機器1は、制御部100、無線通信部110、表示部120、タッチパネル130及び操作ボタン群140を備える。さらに電子機器1は、レシーバ150、スピーカ160、マイク170、第1カメラ180、第2カメラ190、発光部15及び電池200を備える。電子機器1が備えるこれらの構成要素は、機器ケース11内に収められている。
制御部100は、電子機器1の他の構成要素を制御することによって、電子機器1の動作を統括的に管理することが可能である。制御部100は制御装置あるいは制御回路とも言える。制御部100は、以下にさらに詳細に述べられるように、種々の機能を実行するための制御及び処理能力を提供するために、少なくとも1つのプロセッサを含む。
種々の実施形態によれば、少なくとも1つのプロセッサは、単一の集積回路(IC)として、または複数の通信可能に接続された集積回路(IC)及び/またはディスクリート回路(discrete circuits)として実行されてもよい。少なくとも1つのプロセッサは、種々の既知の技術に従って実行されることが可能である。
1つの実施形態において、プロセッサは、例えば、関連するメモリに記憶された指示を実行することによって1以上のデータ計算手続又は処理を実行するように構成された1以上の回路又はユニットを含む。他の実施形態において、プロセッサは、1以上のデータ計算手続き又は処理を実行するように構成されたファームウェア(例えば、ディスクリートロジックコンポーネント)であってもよい。
種々の実施形態によれば、プロセッサは、1以上のプロセッサ、コントローラ、マイクロプロセッサ、マイクロコントローラ、特定用途向け集積回路(ASIC)、デジタル信号処理装置、プログラマブルロジックデバイス、フィールドプログラマブルゲートアレイ、またはこれらのデバイス若しくは構成の任意の組み合わせ、または他の既知のデバイス及び構成の組み合わせを含み、以下に説明される機能を実行してもよい。
本例では、制御部100は、CPU(Central Processing Unit)101、DSP(Digital Signal Processor)102及び記憶部103を備える。記憶部103は、ROM(Read Only Memory)及びRAM(Random Access Memory)などの、CPU101及びDSP102が読み取り可能な非一時的な記録媒体を含む。記憶部103が有するROMは、例えば、不揮発性メモリであるフラッシュROM(フラッシュメモリ)である。記憶部103には、電子機器1を制御するための複数の制御プログラム103a等が記憶されている。制御部100の各種機能は、CPU101及びDSP102が記憶部103内の各種制御プログラム103aを実行することによって実現される。
なお制御部100は、複数のCPU101を備えてもよい。この場合、制御部100は、比較的複雑な処理を行う、処理能力が高いメインCPUと、比較的簡単な処理を行う、処理能力が低いサブCPUとを備えてもよい。また制御部100は、DSP102を備えなくてもよいし、複数のDSP102を備えてもよい。また、制御部100の全ての機能あるいは制御部100の一部の機能は、その機能の実現にソフトウェアが不要なハードウェア回路によって実現されてもよい。
記憶部103は、ROM及びRAM以外の、コンピュータが読み取り可能な非一時的な記録媒体を備えていてもよい。記憶部103は、例えば、小型のハードディスクドライブ及びSSD(Solid State Drive)などを備えていてもよい。
記憶部103内の複数の制御プログラム103aには、様々なアプリケーション(つまり、アプリケーションプログラム)が含まれている。記憶部103には、例えば、音声通話及びビデオ通話を行うための通話アプリケーション、ウェブサイトを表示するためのブラウザ及び電子メールの作成、閲覧及び送受信を行うためのメールアプリケーションが記憶されている。また記憶部103には、第1カメラ180及び第2カメラ190を利用して被写体を撮影するためのカメラアプリケーション、記憶部103に記録されている静止画及び動画を表示するための記録画像表示アプリケーション及び記憶部103に記憶されている音楽データの再生制御を行うための音楽再生制御アプリケーションなどが記憶されている。記憶部103内の少なくとも一つのアプリケーションは、記憶部103内にあらかじめ記憶されているものであってよい。また、記憶部103内の少なくとも一つのアプリケーションは、電子機器1が他の装置からダウンロードして記憶部103内に記憶したものであってよい。
無線通信部110は、アンテナ111を有している。無線通信部110は、アンテナ111を用いて、例えば複数種類の通信方式で無線通信することが可能である。無線通信部110の無線通信は、制御部100によって制御される。
無線通信部110は、携帯電話システムの基地局と無線通信することが可能である。無線通信部110は、当該基地局及びインターネット等のネットワークを通じて、電子機器1とは別の携帯電話機及びウェブサーバ等と通信することが可能である。電子機器1は、他の携帯電話機等と、データ通信、音声通話及びビデオ通話等を行うことが可能である。
また無線通信部110、Wifi等の無線LAN(Local Area Network)を用いて無線通信を行うことが可能である。また無線通信部110は、近距離無線通信を行うことが可能である。例えば、無線通信部110は、Bluetooth(登録商標)に準拠して無線通信することが可能である。無線通信部110は、ZigBee(登録商標)及びNFC(Near Field Communication)の少なくとも一方に準拠して無線通信することが可能であってもよい。
無線通信部110は、アンテナ111で受信した信号に対して増幅処理等の各種処理を行い、処理後の受信信号を制御部100に出力する。制御部100は、入力される受信信号に対して各種処理を行って、当該受信信号に含まれる情報を取得する。また、制御部100は、情報を含む送信信号を無線通信部110に出力する。無線通信部110は、入力される送信信号に対して増幅処理等の各種処理を行って、処理後の送信信号をアンテナ111から無線送信する。
表示部120は、電子機器1の前面11aに位置する表示面121と、表示パネル122とを備えている。表示部120は、表示面121に各種情報を表示することが可能である。表示パネル122は、例えば液晶表示パネルである。表示パネル122は、機器ケース11内において、表示面121と対向している。表示部120に表示される情報は、電子機器1の表面の表示面121に表示される。制御部100は、表示パネル122を制御することによって、表示面121の表示を制御することができる。なお表示パネル122は、液晶表示パネル以外の表示パネルであってもよい。例えば、表示パネル122は、有機EL(Electroluminescence)パネルなどの自発光型の表示パネルであってもよい。
タッチパネル130は、表示面121に対する指等の操作子による操作を検出することが可能である。タッチパネル130は表示面121に対する操作を検出するセンサであると言える。タッチパネル130は、例えば、投影型静電容量方式のタッチパネルである。タッチパネル130は、例えば、表示面121の裏側に位置する。ユーザが指等の操作子によって表示面121に対して操作を行ったとき、その操作に応じた電気信号をタッチパネル130は制御部100に入力することが可能である。制御部100は、タッチパネル130が出力する出力信号に基づいて、表示面121に対して行われた操作の内容を特定することが可能である。そして制御部100は、特定した操作内容に応じた処理を行うことが可能である。なお、表示パネル122及びタッチパネル130の代わりに、タッチパネルが組み込まれたインセル型の表示パネルが採用されてもよい。
操作ボタン群140の各操作ボタンは、ユーザによって操作されると、操作されたことを示す操作信号を制御部100に出力することが可能である。これにより、制御部100は、各操作ボタンについて、当該操作ボタンが操作されたか否かを判断することができる。操作信号が入力された制御部100が他の構成要素を制御することによって、電子機器1では、操作された操作ボタンに割り当てられている機能が実行される。
マイク170は、電子機器1の外部から入力される音を電気的な音信号に変換して制御部100に出力することが可能である。電子機器1の外部からの音は、マイク穴14から電子機器1の内部に取り込まれてマイク170に入力される。
スピーカ160は、例えばダイナミックスピーカである。スピーカ160は、制御部100からの電気的な音信号を音に変換して出力することが可能である。スピーカ160から出力される音は、スピーカ穴13から外部に出力される。ユーザは、スピーカ穴13から出力される音を、電子機器1から離れた場所でも聞こえることが可能である。
レシーバ150は受話音を出力することが可能である。レシーバ150は例えばダイナミックスピーカである。レシーバ150は、制御部100からの電気的な音信号を音に変換して出力することが可能である。レシーバ150から出力される音はレシーバ穴12から外部に出力される。レシーバ穴12から出力される音の音量は、スピーカ穴13から出力される音の音量よりも小さくなっている。ユーザは、レシーバ穴12から出力される音を、当該レシーバ穴12に耳を近づけることによって聞くことができる。なお、レシーバ150の代わりに、機器ケース11の前面部分を振動させる、圧電振動素子等の振動素子を設けてもよい。この場合には、音は、当該前面部分の振動によりユーザに伝達される。
第1カメラ180は、レンズ181及びイメージセンサなどを備えている。第2カメラ190は、レンズ191及びイメージセンサなどを備えている。第1カメラ180及び第2カメラ190のそれぞれは、制御部100による制御に基づいて被写体を撮影し、撮影した被写体を示す静止画あるいは動画を生成して制御部100に出力することが可能である。
第1カメラ180のレンズ181は、機器ケース11の前面11aから視認可能となっている。したがって、第1カメラ180は、電子機器1の前面側(言い換えれば、表示面121側)に存在する被写体を撮影することが可能である。第1カメラ180はインカメラと呼ばれる。一方で、第2カメラ190のレンズ191は、機器ケース11の背面11bから視認可能となっている。したがって、第2カメラ190は、電子機器1の背面側に存在する被写体を撮影することが可能である。第2カメラ190はアウトカメラと呼ばれる。以後、第1カメラ180及び第2カメラ190を特に区別する必要がないときには、それぞれを単に「カメラ」と呼ぶことがある。
発光部15は、制御部100による制御によって、発光したり、消灯したりすることができる。電池200は電子機器1の電源を出力することが可能である。電池220は例えば充電式の電池である。電池220から出力される電源は、電子機器1が備える制御部100及び無線通信部110などの各種構成に対して供給される。
なお電子機器1は、タッチパネル130以外のセンサを備えてもよい。例えば、電子機器1は、指紋センサ、加速度センサ、気圧センサ、地磁気センサ、温度センサ、近接センサ、照度センサ及びジャイロセンサの少なくとも一つを備えてもよい。また電子機器1は、当該電子機器1の位置を求めることが可能なGPS(Global Positioning System)受信機を備えてもよい。
<機械読唇の一例>
本例では、電子機器1は機械読唇機能を有している。制御部100は、例えば、カメラで生成される、発話している人の少なくとも口唇が写る撮影画像に基づいて、当該人の発話内容(言い換えれば当該人が話す言葉の内容)を推定する機械読唇処理を行う。
本例では、電子機器1は機械読唇機能を有している。制御部100は、例えば、カメラで生成される、発話している人の少なくとも口唇が写る撮影画像に基づいて、当該人の発話内容(言い換えれば当該人が話す言葉の内容)を推定する機械読唇処理を行う。
ここで、本開示での発話には、人が言葉を実際に声に出す場合だけではなく、実際には声を出していないが、言葉を声に出すときと同じように口を動かす場合も含まれる。また、言葉を読み上げるという表現及び言葉を発するという表現は、発話の概念に含まれる。したがって、例えば、言葉を読み上げるという動作には、人が言葉を実際に声に出して読み上げる場合だけではなく、実際には声を出していないが、言葉を声に出して読み上げるときと同じように口を動かす場合も含まれる。また言葉には、単語及び文が含まれる。
本例では、制御部100は、例えば特許文献1に記載されている機械読唇処理と同様にして機械読唇処理を行う。機械読唇処理では、発話時の口形の単位となる基本口形が使用される。特許文献1にも記載されているように、人が言葉を発するときに、言葉の中の各音を発するために形成される口形は、発せられる音または口形の特徴などに応じて、複数種類の基本口形に分類される。すなわち、人が言葉の中の各音を発するとき、発する音の種類に応じて、基本口形の中のいずれかの口形が形成される。そして、ある基本口形から別の基本口形へと口形を変化させながら、その口形の変化に合わせて声を出すことで、言葉が音として発せられる。したがって、発話時の口形の時系列の変化は、基本口形の時系列の変化のパターン(以後、「口形パターン」と呼ぶ)で表すことができる。制御部100は、特許文献1に記載されているように、発話中の人の口唇が写る口唇画像に基づいて、発話中の人の口形の変化を口形パターンで表し、その口形パターンと、記憶部103に記憶される口形辞書中の口形パターンとを比較することによって、人が発する言葉を推定することができる。口形辞書には、複数の言葉のそれぞれについて、当該言葉を発したときの口形の変化のパターンを基本口形の変化のパターンで表した口形パターンが登録されている。
図4は日本語の基本口形を説明するための図である。図4では、左側に基本口形の名称が示されて、中央に基本口形に割り当てられた口形コードが示され、右側に基本口形の模式図が示されている。
図4に示されるように、日本語には6種類の基本口形が存在する。具体的には、母音に対応する、ア口形、イ口形、ウ口形、エ口形及びオ口形と、閉唇口形とが存在する。ア口形は、母音アを発するときに形作られる口形であり、イ口形は、母音イを発するときに形作られる口形であり、ウ口形は、母音ウを発するときに形作られる口形である。また、エ口形は、母音エを発するときに形作られる口形であり、オ口形は、母音オを発するときに形作られる口形であり、閉唇口形は、唇を閉じた状態の口形である。本例では、ア口形、イ口形、ウ口形、エ口形、オ口形及び閉唇口形に対して、それぞれ、A、I、U、E、O及びXという口形コードを割り当てる。以下では、基本口形を、それに割り当てた口形コードで示すことがある。
記憶部103には、各基本口形について、当該基本口形を示す基本口形画像が記憶されている。制御部100は、機械読唇処理において、カメラで生成される撮影動画から、発話中の人の口唇が写る口唇画像を複数フレーム分抽出する。そして、制御部100は、抽出した口唇画像の各フレームと基本口形画像とを比較し、その比較結果に基づいて、発話中の人の口形の変化を表す口形パターンを生成する。そして、制御部100は、生成した口形パターンと、記憶部103に記憶される口形辞書中の口形パターンとを比較し、その比較結果に基づいて、人の発話内容を推定する。
機械読唇処理では、例えばインカメラ180が使用される。電子機器1のユーザ10は、図5に示されるように、例えば、インカメラ180に自分の少なくとも口唇10aが写るように電子機器1を自分の手10bで持った状態で、電子機器1に機械読唇処理を実行させる。ユーザ10は、例えば、表示面121に対して所定の操作を行うことによって、電子機器1に機械読唇処理の実行を指示することができる。ユーザ10から機械読唇処理の実行の指示を受けた電子機器1では、制御部100が、インカメラ180を動作させ、インカメラ180で生成される撮影画像に基づいて機械読唇処理を行う。
なお、ユーザ10が、操作ボタン143〜145のいずれか一つを操作することによって、電子機器1に対して機械読唇処理の実行を指示することができるようにしてもよい。また、ユーザ10は、例えば、電子機器1を机の上に置くなどして、電子機器1を手10bに持たずに、電子機器1に機械読唇処理を実行させてもよい。また機械読唇処理において、アウトカメラ190が使用されてもよい。
このように、本例では、電子機器1が機械読唇機能を有することから、ユーザは、実際に声を出すことなく、電子機器1に対する入力を行うことができる。例えば、ユーザは、声を実際に出すことなく、声を出すときと同じような口の動きをすることによって、電子機器1に対して、電子メールの送信指示及びブラウザの起動指示などを行うことができる。したがって、周囲にユーザの声が聞こえることなく、電子機器1に対して指示を行うことができる。よって、音声入力と比較して、ユーザのプライバシーを保護することができる。また、周囲の人に不快感を与えることを抑制することができる。また、周囲が騒がしい場合であっても、ユーザは、電子機器1に対する入力を行うことができる。
また、発話障害などの原因により、ユーザが実際に声を出すことが上手にできない場合であっても、電子機器1に対する入力を適宜行うことができる。
<基本口形画像の登録方法の一例>
本例では、記憶部103には、基本口形画像を電子機器1に登録するための登録アプリケーションが記憶されている。制御部100が登録アプリケーションを実行することによって、電子機器1の動作モードが、基本口形画像を電子機器1に登録する登録モードに設定される。登録モードでは、カメラで生成される撮影画像から基本口形画像が抽出されて電子機器1に登録される。登録モードでは、例えばインカメラ180が使用される。
本例では、記憶部103には、基本口形画像を電子機器1に登録するための登録アプリケーションが記憶されている。制御部100が登録アプリケーションを実行することによって、電子機器1の動作モードが、基本口形画像を電子機器1に登録する登録モードに設定される。登録モードでは、カメラで生成される撮影画像から基本口形画像が抽出されて電子機器1に登録される。登録モードでは、例えばインカメラ180が使用される。
ここで、基本口形画像を電子機器1に登録する方法として、ユーザに、口の形を、意図的に基本口形にしてもらった状態で、当該ユーザの顔をカメラで撮影し、カメラで生成される撮影画像から、ユーザの口唇が写る口唇画像を抽出し、抽出した口唇画像を基本口形画像として電子機器1に登録する方法が考えられる。
しかしながら、この方法では、カメラ撮影時のユーザの口の形が不自然な形となる可能性があり、不自然な基本口形を示す基本口形画像が電子機器1に登録される可能がある。その結果、ユーザの自然な発話のときに形作られる基本口形と、登録されている基本口形画像が示す基本口形とが大きく異なり、電子機器1において適切に機械読唇を行えない可能性がある。
そこで、以下では、自然な形の基本口形を示す基本口形画像を電子機器1に登録することを可能にする登録方法について説明する。以後、動作モードと言えば、電子機器1の動作モードを意味する。また、ア口形を示す基本口形画像、イ口形を示す基本口形画像、ウ口形を示す基本口形画像、エ口形を示す基本口形画像、オ口形を示す基本口形画像及び閉唇口形を示す基本口形画像を、それぞれ、「ア口形画像」、「イ口形画像」、「ウ口形画像」、「エ口形画像」、「オ口形画像」及び「閉唇口形画像」と呼ぶことがある。
図6は、電子機器1が登録モードで動作する際の当該電子機器1の動作の一例を示すフローチャートである。図6に示されるように、ステップs1において、制御部100は、記憶部103内の登録アプリケーションを読み出して実行する。これにより、電子機器1の動作モードが登録モードに設定される。
制御部100は、例えば、電子機器1が、ユーザから、登録アプリケーションの実行の指示を受け取ると、ステップs1において登録アプリケーションを実行する。また、制御部100は、登録アプリケーションが異常終了したとき、ステップs1において登録アプリケーションを実行して再起動する。ユーザは、例えば、表示面121に表示される所定のアイコンに対して所定の操作(例えばタップ操作)を行うことによって、登録アプリケーションの実行を電子機器1に指示することができる。表示面121に表示されるアイコンに対する操作はタッチパネル130が検出することが可能である。またユーザが、操作ボタン143〜145のいずれか一つを操作することによって、登録アプリケーションの実行を電子機器1に指示することができるようにしてもよい。
登録アプリケーションが実行されて動作モードが登録モードに設定されると、ステップs2において、電子機器1は、ユーザに対して識別情報の入力を要求する。例えば、表示部120は、ユーザに対して識別情報の入力を要求するための要求画面を表示面121に表示する。その後、ステップs3において、電子機器1は、ユーザから当該ユーザを識別するための識別情報が入力されると、ステップs4において、制御部100は入力された識別情報を記憶部103に記憶する。識別情報には、例えば、ユーザの名前が含まれる。ユーザは、例えば、表示面121を操作することによって、電子機器1に対して、自身の識別情報を入力することができる。
ステップs4の後、ステップs5において、電子機器1は、ユーザに対して、基本口形画像をカメラの撮影画像から抽出するための抽出用言葉を読み上げることを要求する。ステップs5では、表示部120は、抽出用言葉の読み上げを要求するための要求画面300を表示面121に表示する。そして、制御部100はインカメラ180に撮影を開始させる。電子機器1が登録モードで動作する場合には、ユーザは、インカメラ180に自身の顔が写るように電子機器1を使用する。ユーザ10は、例えば、電子機器1を図5のように手10bに持って使用する。
図7は要求画面300の一例を示す図である。図7に示されるように、要求画面300には、例えば、抽出用言葉301と、指示情報302,303と、カメラ画像領域304と、スタートボタン305とが示されている。
図7の例では、「ぎんがてつどうのよる」という言葉が抽出用言葉301として採用されている。抽出用言葉301は、後述の説明から明らかになるように、その言葉を発している人の口唇が写る口唇画像から、複数の基本口形画像を抽出することが可能となるような言葉となっている。できるだけ自然な基本口形を示す基本口形画像が抽出されるように、抽出用言葉301は、ユーザが自然と読めるような、多くの人が知っている言葉であってもよい。抽出用言葉301は図7の例には限られない。
指示情報302は、抽出用言葉301を読み上げることをユーザに対して指示する情報である。スタートボタン305は、ユーザが抽出用言葉301を読み上げるときに操作するソフトウェアボタンである。指示情報303は、ユーザに対して、抽出用言葉301を読み上げるときにスタートボタン305を操作することを指示する情報である。
カメラ画像領域304は、インカメラ180で生成される撮影動画310がリアルタイムに示される領域である。図7の例では、ユーザの顔が写る撮影動画310がカメラ画像領域304に示されている。ユーザは、カメラ画像領域304に示される撮影動画310を見て、自身の顔がインカメラ180に写っているか否かを確認することができる。以後、撮影動画と言えば、特に断らない限り、インカメラ180で生成される撮影動画を意味する。
本例では、表示面121にカメラ画像領域304が表示されている間、制御部100は、撮影動画310から、ユーザの顔(詳細には顔全体)が写る顔画像を抽出する顔認識処理を実行する。さらに制御部100は、撮影動画310から、インカメラ180に写るユーザ10の口唇(詳細には口唇全体)が写る口唇画像を抽出する口唇認識処理を実行する。制御部100は、撮影動画に対して、特徴点抽出処理などの画像処理を行うことによって、顔認識処理及び口唇認識処理を実行することができる。制御部100は、例えば、撮影動画の各フレームから顔画像及び口唇画像を抽出する。したがって、表示面121にカメラ画像領域304が表示されている間、制御部100は、顔認識処理及び口唇認識処理を繰り返し実行することになる。
以後、顔認識の成功と言えば、顔認識処理において顔画像が抽出されたことを意味し、顔認識の失敗と言えば、顔認識処理において顔画像が抽出されなかったことを意味する。同様に、口唇認識の成功と言えば、口唇認識処理において口唇画像が抽出されたことを意味し、口唇認識の失敗と言えば、口唇識処理において口唇画像が抽出されなかったことを意味する。
制御部100は、顔認識に成功すると、図7に示されるように、抽出した顔画像の範囲320(以後、「顔認識範囲320」と呼ぶことがある)を撮影動画310に重ねて示す。また制御部100は、口唇認識に成功すると、抽出した口唇画像の範囲330(以後、「口唇認識範囲330」と呼ぶことがある)を撮影動画310に重ねて示す。ユーザは、カメラ画像領域304に顔認識範囲320が示されているか否かによって、電子機器1において顔認識が成功している否かを確認することができる。同様に、ユーザは、カメラ画像領域304に口唇認識範囲330が示されているか否かによって、電子機器1において口唇認識が成功している否かを確認することができる。
以上のような要求画面300が表示されている場合に、ステップs6において、タッチパネル130が、スタートボタン305に対する所定の操作(例えばタップ操作)を検出すると、ステップs7において、電子機器1は、抽出用言葉を読み上げるテンポ(以後、「読み上げテンポ」と呼ぶことがある)をユーザに対して通知する。本例では、表示部120が、読み上げテンポをユーザに対して通知する通知処理を実行する。ステップs7では、制御部100は、読み上げテンポを通知するテンポ通知画面を表示部120に表示させる。
なお、制御部100は、顔認識及び口唇認識の両方に成功しているとき、スタートボタン305に対するタップ操作を受け付け、顔認識及び口唇認識の少なくとも一方に失敗しているとき、当該タップ操作を受け付けなくてもよい。言い換えれば、制御部100は、顔認識範囲320及び口唇認識範囲330の両方が表示面121に表示されているとき、スタートボタン305に対するタップ操作を受け付け、顔認識範囲320及び口唇認識範囲330の少なくとも一方が表示面121に表示されていないとき、当該タップ操作を受け付けなくてもよい。この場合、制御部100は、顔認識及び口唇認識の両方に成功しているとき、スタートボタン305に対してタップ操作が行われると、ステップs7を実行して、テンポ通知画面を表示部120に表示させる。一方で、制御部100は、顔認識及び口唇認識の少なくとも一方に失敗しているとき、スタートボタン305に対してタップ操作が行われたとしても、ステップs7を実行しない。また、制御部100は、顔認識に成功しているか否かにかかわらず、口唇認識に成功しているとき、スタートボタン305に対するタップ操作を受け付け、顔認識に成功しているか否かにかかわらず、口唇認識に失敗しているとき、当該タップ操作を受け付けなくてもよい。
このように、口唇認識に成功しているときスタートボタン305に対するタップ操作が受け付けられることによって、インカメラ180で生成される撮影画像から、ユーザの口唇が写る口唇画像を適切に抽出することが可能となる。なお、制御部100がスタートボタン305に対するタップ操作を受け付けない場合には、表示部120はエラーメッセージを表示してもよい。このエラーメッセージには、例えば、「顔と唇がカメラに正しく写るようにしてください」といった文字列が含まれる。
図8はテンポ通知画面400の一例を示す図である。図8に示されるように、テンポ通知画面400には、例えば、抽出用言葉301と、上述のカメラ画像領域304と、情報402と、リトライボタン403と、ストップボタン404とが示されている。
情報402は、ユーザが抽出用言葉301を読み上げている最中であることを示す情報である。ストップボタン404は、ユーザが抽出用言葉301の読み上げが終了したときに操作するソフトウェアボタンである。リトライボタン403は、ユーザが抽出用言葉301の読み上げを再度行うときに操作するソフトウェアボタンである。
表示部120は、テンポ通知画面400を利用してテンポ通知処理を行う。具体的には、表示部120、テンポ通知画面400に示す抽出用言葉301の表示態様を、読み上げテンポに応じて、その先頭から変化させることによって、テンポ通知処理を行う。テンポ通知処理では、例えば、抽出用言葉301の表示色が、読み上げテンポに応じて、その先頭から変化する。例えば、抽出用言葉301の初期の表示色が青色であるとすると、抽出用言葉301の表示色は、その先頭から、読み上げテンポに応じて、青色から赤色に変化する。これにより、ユーザに対して読み上げテンポが通知される。
図9は、抽出用言葉301の表示色が、読み上げテンポに応じて、その先頭から変化する様子の一例を示す図である。図8,9では、抽出用言葉301の表示色が変化する様子が太字で示されている。以下の図についても同様である。
図9の例では、抽出用言葉301の表示色が、その先頭から1音ごとに、それをユーザが読み上げるタイミングで変化している。ここで、音とは、日本語の1拍の音を意味するものとする。拍はモーラとも呼ばれる。
図9に示されるように、抽出用言葉301の先頭の「ぎ」の読み上げ期間t1において「ぎ」の表示色が変化する。次に、抽出用言葉301の先頭から2番目の「ん」の読み上げ期間t2において「ん」の表示色が変化する。次に、抽出用言葉301の先頭から3番目の「が」の読み上げ期間t3において「が」の表示色が変化する。次に、抽出用言葉301の先頭から4番目の「て」の読み上げ期間t4において「て」の表示色が変化する。次に、抽出用言葉301の先頭から5番目の「つ」の読み上げ期間t5において「つ」の表示色が変化する。次に、抽出用言葉301の先頭から6番目の「ど」の読み上げ期間t6において「ど」の表示色が変化する。次に、抽出用言葉301の先頭から7番目の「う」の読み上げ期間t7において「う」の表示色が変化する。次に、抽出用言葉301の先頭から8番目の「の」の読み上げ期間t8において「の」の表示色が変化する。次に、抽出用言葉301の先頭から9番目の「よ」の読み上げ期間t9において「よ」の表示色が変化する。そして、抽出用言葉301の最後の「る」の読み上げ期間t10において「る」の表示色が変化する。
図9の例では、読み上げ期間t1〜t10によって、抽出用言葉301の読み上げテンポが決定される。表示部120が行うテンポ通知処理は、最初の読み上げ期間t1の先頭で開始し、最後の読み上げ期間t10の末尾で終了すると言える。以後、読み上げ期間t1の先頭から読み上げ期間t10の末尾までの期間を「テンポ通知期間」と呼ぶことがある。また、読み上げ期間t1〜t10を特に区別する必要がない場合には、それぞれを符号なしで「読み上げ期間」と呼ぶ。
このように、本例では、カラオケの字幕の表示色が曲のテンポに応じて変化するのと同様に、抽出用言葉301の表示色が、その先頭から、読み上げテンポに応じて順次変化する。言い換えれば、抽出用言葉301の表示色が、その先頭から、抽出用言葉301を読み上げる速さに応じて順次変化する。これにより、ユーザは、テンポ通知画面400での抽出用言葉301の表示色の変化に合わせて、抽出用言葉301を読み上げることによって、電子機器1から通知される読み上げテンポで抽出用言葉301を読み上げることができる。
なお、抽出用言葉301に含まれる1音において、読み上げる方向に沿って表示色が徐々に変化してもよい。例えば、抽出用言葉301の「ぎ」の表示色が、抽出用言葉301を読み上げる方向(図8では左側から右側に向かう方向)に沿って徐々に変化してもよい。また、電子機器1は、抽出用言葉301を中抜き文字で表示してもよい。この場合、電子機器1は、抽出用言葉301に含まれる1音を表す中抜き文字の表示色を、読み上げる方向に沿って徐々に変化させてもよい。
また、テンポ通知画面400では、図10に示されるように、抽出用言葉301の表示サイズが、その先頭から、読み上げテンポに応じて順次変化してもよい。図10の例では、抽出用言葉301の表示サイズが、その先頭から、読み上げテンポに応じて1音ずつ大きくなっている。また、テンポ通知画面400では、図11に示されるように、抽出用言葉301の表示色及び表示サイズが、その先頭から、読み上げテンポに応じて順次変化してもよい。
ステップs7において、制御部100は、テンポ通知期間にインカメラ180で生成される撮影動画310の各フレームから抽出する口唇画像を記憶部103に保存する。これにより、記憶部103には、ユーザが抽出用言葉301を読み上げている間の当該ユーザの口唇が写る口唇画像が記憶部103に保存される。撮影動画310の各フレームから口唇画像が抽出されることによって、ユーザの口唇が写る口唇動画が生成されると言えることから、記憶部103には、ユーザが抽出用言葉301を読み上げている間の当該ユーザの口唇が写る口唇動画が保存されると言える。本開示では、情報等を記憶部103に保存するとは、記憶部103が有する、フラッシュメモリ等の不揮発性メモリに情報等を記憶することを意味する。以後、記憶部103に保存されている口唇動画を「保存口唇動画」と呼ぶことがある。また、保存口唇動画を構成する複数のフレームのそれぞれを「口唇画像フレーム」と呼ぶことがある。
ユーザは、テンポ通知画面400から通知される読み上げテンポに従って抽出用言葉301を最後まで読み上げると、ストップボタン404に対してタップ操作を行う。テンポ通知画面400が表示されているときに、ステップs8において、タッチパネル130がストップボタン404に対するタップ操作を検出すると、制御部100はステップs9を実行する。
またユーザは、テンポ通知画面400から通知される読み上げテンポに従って上手く抽出用言葉301を読み上げることができなかったなどの理由で、抽出用言葉301の読み上げを再度行いたい場合には、リトライボタン403に対してタップ操作を行う。テンポ通知画面400が表示されているときに、ステップs10において、タッチパネル130がリトライボタン403に対するタップ操作を検出すると、ステップs7において、表示部120は、表示中のテンポ通知画面400中の抽出用言葉301の表示態様を元に戻した後、再度、抽出用言葉301の表示態様を、先頭から読み上げテンポに応じて変化させる。つまり、表示部120は、テンポ通知処理を再度行う。ユーザは、テンポ通知画面400から通知される読み上げテンポに従って再度抽出用言葉301を読み上げる。また、タッチパネル130がリトライボタン403に対するタップ操作を検出すると、制御部100は、記憶部103内の保存口唇動画を記憶部103から削除する。そして、制御部100は、再度行われるテンポ通知処理に応じて、口唇動画を記憶部103に再度保存する。
ステップs9においては、制御部100は、ユーザに通知された読み上げテンポに基づいて、記憶部103内の保存口唇動画から、基本口形画像を抽出する。
図12は、保存口唇動画から基本口形画像が抽出される抽出処理の一例を説明するための図である。図12には、テンポ通知期間T100と、それに含まれる上述の読み上げ期間t1〜t10とが示されている。図12では、各読み上げ期間において、その期間に読み上げられる音が時間軸tの上側に示されている。また、各読み上げ期間において、その期間に読み上げられる音に対応する基本口形に割り当てられた口形コード(図4参照)が時間軸tの下側に示される。ここで、音に対応する基本口形とは、その音を人が発する場合に形作られる基本口形を意味する。
特許文献1,2にも記載されているように、日本語の音には、単口形音と、複口形音とが存在する。単口形音とは、それを発するときの口形が、初口形を含まず、終口形のみで構成される音である。一方で、複口形音とは、それを発するときの口形に、初口形と終口形とが含まれる音である。初口形とは、人が音を発するとき、その音を発するために予め形作る必要がある基本口形であって、その音の母音に対応する基本口形とは異なる基本口形である。終口形とは、人が音を発するときにその音を発し終える際に形作られる基本口形である。
例えば「ひ」は単口形音である。人が「ひ」を発するとき、初口形は形作られずに、終口形であるイ口形が形作られる。一方で、例えば「さ」は複口形音である。人が「さ」を発するとき、初口形であるイ口形が形作られた後に、終口形であるア口形が形作られる。
ある音が単口形音である場合には、その音の終口形だけが、その音に対応する基本口形となる。一方で、ある音が複口形音である場合には、その音の初口形及び終口形が、その音に対応する基本口形となる。
「ぎんがてつどうのよる」という抽出用言葉においては、「ぎ」、「ん」、「が」、「つ」、「う」及び「る」が単口形音となり、「て」、「ど」、「の」及び「よ」が複口形音となる。
「ぎ」の終口形はイ口形となる。よって、「ぎ」に対応する基本口形はイ口形となる。したがって、図12においては、「ぎ」の読み上げ期間t1に、イ口形に割り当てられた口形コード「I」が示されている。
「ん」の終口形は閉唇口形となる。よって、「ん」に対応する基本口形は閉唇口形となる。したがって、図12においては、「ん」の読み上げ期間t2に、閉唇口形に割り当てられた口形コード「X」が示されている。
「が」の終口形はア口形となる。よって、「が」に対応する基本口形はア口形となる。したがって、図12においては、「が」の読み上げ期間t3に、ア口形に割り当てられた口形コード「A」が示されている。
「つ」、「う」及び「る」の終口形はウ口形となる。よって、「つ」、「う」及び「る」に対応する基本口形はウ口形となる。したがって、図12においては、「つ」、「う」及び「る」の読み上げ期間t5,t7,t10に、ウ口形に割り当てられた口形コード「U」が示されている。
「て」の初口形及び終口形はそれぞれイ口形及びエ口形となる。よって、「て」に対応する基本口形はイ口形及びエ口形となる。したがって、図12においては、「て」の読み上げ期間t4に、イ口形に割り当てられた口形コード「I」と、エ口形に割り当てられた口形コード「E」とが示されている。詳細には、読み上げ期間t4において、初口形が現れる前半期間t4aに口形コード「I」が示され、終口形が現れる後半期間t4bに口形コード「E」が示されている。
「ど」、「の」及び「よ」のそれぞれの初口形及び終口形は、それぞれウ口形及びオ口形となる。よって、「ど」、「の」及び「よ」に対応する基本口形はウ口形及びオ口形となる。したがって、図12においては、「ど」、「の」及び「よ」の読み上げ期間t6,t8,t9に、ウ口形に割り当てられた口形コード「U」と、オ口形に割り当てられた口形コード「O」とが示されている。詳細には、読み上げ期間t6,t8,t9のそれぞれにおいて、初口形が現れる前半期間t6a,t8a,t9aに口形コード「U」が示され、終口形が現れる後半期間t6b、t8b、t9bに口形コード「O」が示されている。
図12に示されるように、「ぎんがてつどうのよる」という抽出用言葉については、それを構成する複数の音に対応する基本口形に、6種類の基本口形のすべてが含まれている。図12に示される口形コードの並びは、「ぎんがてつどうのよる」という言葉が読み上げられる際に形作られる口形パターンを示していると言える。したがって、「ぎんがてつどうのよる」という言葉が読み上げられる際に形作られる口形パターンには、6種類の基本口形のすべてが含まれている。
図12の例の場合、ステップs9において、制御部100は、例えば、保存口唇動画から、「ぎ」の読み上げ期間t1にインカメラ180で撮影された口唇が写る一の口唇画像フレームを抽出し、抽出した一の口唇画像フレームをイ口形画像とする。言い換えれば、制御部100は、「ぎ」の読み上げ期間t1においてインカメラ180で生成された撮影動画の一のフレームから抽出された口唇画像を保存口唇動画から抽出し、抽出した口唇画像をイ口形画像とする。ユーザがテンポ通知画面400から通知される読み上げテンポに合わせて抽出用言語を読み上げた場合には、「ぎ」の読み上げ期間t1にインカメラ180で撮影された口唇が写る一の口唇画像フレームには、「ぎ」の終口形であるイ口形が写る可能性が高い。よって、当該一の口唇画像フレームをイ口形画像とすることによって、イ口形画像を適切に抽出することができる。制御部100は、例えば、「ぎ」の読み上げ期間t1の真ん中のタイミングでインカメラ180で撮影された口唇が写る一の口唇画像フレームをイ口形画像とする。
ステップs9において、制御部100は、保存口唇動画から、例えば、「ん」の読み上げ期間t2にインカメラ180で撮影された口唇が写る一の口唇画像フレームを抽出し、抽出した一の口唇画像フレームを閉唇口形画像とする。例えば、制御部100は、「ん」の読み上げ期間t2の真ん中のタイミングでインカメラ180で撮影された口唇が写る一の口唇画像フレームを閉唇口形画像とする。
ステップs9において、制御部100は、保存口唇動画から、例えば、「が」の読み上げ期間t3にインカメラ180で撮影された口唇が写る一の口唇画像フレームを抽出し、抽出した一の口唇画像フレームをア口形画像とする。例えば、制御部100は、「が」の読み上げ期間t3の真ん中のタイミングでインカメラ180で撮影された口唇が写る一の口唇画像フレームをア口形画像とする。
ステップs9において、制御部100は、保存口唇動画から、例えば、「つ」の読み上げ期間t5にインカメラ180で撮影された口唇が写る一の口唇画像フレームを抽出し、抽出した一の口唇画像フレームをウ口形画像とする。例えば、制御部100は、「つ」の読み上げ期間t5の真ん中のタイミングでインカメラ180で撮影された口唇が写る一の口唇画像フレームをウ口形画像とする。
ステップs9において、制御部100は、保存口唇動画から、例えば、「て」の読み上げ期間t4の後半期間t4bにインカメラ180で撮影された口唇が写る一の口唇画像フレームを抽出し、抽出した一の口唇画像フレームを、エ口形画像とする。ユーザがテンポ通知画面400から通知される読み上げテンポに合わせて抽出用言語を読み上げた場合には、「て」の読み上げ期間t4の後半期間t4bにインカメラ180で撮影された口唇が写る一の口唇画像フレームには、「て」の終口形であるエ口形が写る可能性が高い。よって、当該一の口唇画像フレームをエ口形画像とすることによって、エ口形画像を適切に抽出することができる。制御部100は、例えば、「て」の読み上げ期間t4の後半期間t4bの真ん中のタイミングでインカメラ180で撮影された口唇が写る一の口唇画像フレームをエ口形画像とする。
ステップs9において、制御部100は、保存口唇動画から、例えば、「ど」の読み上げ期間t6の後半期間t6bにインカメラ180で撮影された口唇が写る一の口唇画像フレームを抽出し、抽出した一の口唇画像フレームをオ口形画像とする。例えば、制御部100は、「ど」の読み上げ期間t6の後半期間t6bの真ん中のタイミングでインカメラ180で撮影された口唇が写る一の口唇画像フレームをオ口形画像とする。
このように、抽出用言葉として例えば「ぎんがてつどうのよる」を採用することによって、制御部100は、電子機器1がユーザに通知する読み上げテンポに基づいて、カメラで生成される撮影動画から6種類の基本口形画像のすべてを抽出することができる。
なお、図12の例において、制御部100が、保存口唇動画から基本口形画像を抽出する方法は、上記の例に限られない。例えば、制御部100は、保存口唇動画から、「て」の読み上げ期間t4の前半期間t4aにインカメラ180で撮影された口唇が写る一の口唇画像フレームを抽出し、抽出した一の口唇画像フレームをイ口形画像としてもよい。また制御部100は、保存口唇動画から、「う」の読み上げ期間t7にインカメラ180で撮影された口唇が写る一の口唇画像フレームを抽出し、抽出した一の口唇画像フレームをウ口形画像としてもよい。また制御部100は、保存口唇動画から、「の」の読み上げ期間t8の後半期間t8bにインカメラ180で撮影された口唇が写る一の口唇画像フレームを抽出し、抽出した一の口唇画像フレームをオ口形画像としてもよい。
以上のように、電子機器1は、ユーザに対して抽出用言葉を読み上げるテンポを通知することから、当該テンポを適切に設定することによって、ユーザに自然な形で抽出用言葉を読み上げさせることが可能となる。そして、制御部100は、ユーザに通知される読み上げテンポに基づいて、カメラで生成される撮影画像から基本口形画像を抽出することから、自然な形の基本口形を示す基本口形画像を適切に取得することが可能となる。よって、電子機器1は、自然な形の基本口形を示す基本口形画像を用いて処理を行うことができ、その結果、電子機器1の利便性が向上する。例えば、電子機器1は、自然な形の基本口形を示す基本口形画像を用いて機械読唇処理を行うことができることから、機械読唇の精度が向上する。
ステップs9の後、電子機器1は、抽出した基本口形画像が適切であるかを確認する抽出確認処理を行う。抽出確認処理では、電子機器1が機械読唇処理を行うことによってユーザが口パクした言葉を当てるという一種のクイズが行われる。抽出確認処理は、図13に示されるステップs11〜s19で構成される。
ステップs9の後、ステップs11において、電子機器1は、ユーザに対して、抽出した基本口形画像が適切であるかを確認するための口パクを行うことを要求する。ステップs11では、表示部120は、ユーザに対して口パクを行うことを要求する要求画面500を表示する。図14は要求画面500の一例を示す図である。
図14に示されるように、要求画面500には、上述のカメラ画像領域304と、通知情報501と、指示情報502,503と、ユーザが口パクする言語として選択する対象の複数の確認用言語504と、スタートボタン505とが示されている。図14の例では、要求画面500には、抽出用言語とは異なる4つの確認用言語504が示されている。なお、要求画面500に示される確認用言語504の内容及び数は図14の例に限られない。
通知情報501は、ユーザに対して、抽出した基本口形画像が適切であるかを今から確認することを通知する情報である。指示情報502は、ユーザに対して、要求画面500に示される4つの確認用言語504の一つを選択し、選択した確認用言語504を口パクすることを指示する情報である。スタートボタン505は、ユーザが選択した確認用言語504を口パクするときに操作するソフトウェアボタンである。指示情報503は、ユーザに対して、口パクを開始するときにスタートボタン505を操作することを指示する情報である。
要求画面500が表示されている場合に、ステップs12において、スタートボタン505に対する所定の操作(例えばタップ操作)をタッチパネル130が検出すると、ステップs13が実行される。ユーザは、スタートボタン505に対してタップ操作をした後に、要求画面500に含まれる複数の確認用言語504から選択した確認用言語504を口パクで読み上げる。
なお、要求画面500が表示されている場合、制御部100は、顔認識及び口唇認識の両方に成功しているとき、スタートボタン505に対するタップ操作を受け付け、顔認識及び口唇認識の少なくとも一方に失敗しているとき、当該タップ操作を受け付けなくてもよい。また、制御部100は、顔認識に成功しているか否かにかかわらず、口唇認識に成功しているとき、スタートボタン505に対するタップ操作を受け付け、顔認識に成功しているか否かにかかわらず、口唇認識に失敗しているとき、当該タップ操作を受け付けなくてもよい。制御部100がスタートボタン505に対するタップ操作を受け付けない場合には、表示部120はエラーメッセージを表示してもよい。
ステップs13では、制御部100が、ステップs9で抽出した基本口形画像と、インカメラ180で生成される撮像動画310とに基づいて、ユーザが口パクする確認用言語を推定する機械読唇処理を行う。またステップs13では、表示部120が、ユーザが口パクを行う期間であることを通知する通知画面600を表示する、図15は通知画面600の一例を示す図である。
図15に示されるように、通知画面600には、通知情報601と、上述のカメラ画像領域304と、要求画面500と同様の複数の確認用言語504と、ストップボタン602とが示される。通知情報601は、ユーザに対して、現在口パクを行う期間であることを通知する情報である。ストップボタン602は、ユーザが口パクを終了したときに操作するソフトウェアボタンである。ユーザは、確認用言語の口パクが完了すると、ストップボタン602に対して所定の操作(例えばタップ操作を行う)。
通知画面600が表示されている場合に、ステップs14において、ストップボタン602に対するタップ操作をタッチパネル130が検出すると、ステップs15において、電子機器1は、機械読唇処理の結果をユーザに対して通知する。ステップs15では、表示部120は、機械読唇処理の結果をユーザに対して通知する通知画面700を表示する。図16は通知画面700の一例を示す図である。
図16に示されるように、通知画面700には、通知情報701と、指示情報702と、上述のカメラ画像領域304と、正解ボタン703と、不正解ボタン704とが示される。
通知情報701は、ユーザに対して、機械読唇処理において推定された言語(以後、「推定言語」と呼ぶことがある)を通知する情報である。通知情報701には推定言語701aが含まれる。指示情報702は、正解ボタン701か、不正解ボタン704かを操作することをユーザに対して指示する情報である。ユーザは、口パクした確認用言語と、通知情報701で通知される推定言語とが一致する場合には、正解ボタン703に対して所定の操作(例えばタップ操作)を行う。言い換えれば、ユーザが口パクした言語を電子機器1が推定した結果、その推定結果が正解である場合には、ユーザは正解ボタン703をタップ操作する。ユーザは、口パクした確認用言語と、通知情報701で通知される推定言語とが一致しない場合には、不正解ボタン704に対して所定の操作(例えばタップ操作)を行う。言い換えれば、ユーザが口パクした言語を電子機器1が推定した結果、その推定結果が不正解である場合には、ユーザは不正解ボタン704をタップ操作する。
図16の例において、ユーザは、口パクで「かぜのまたさぶろ」を読み上げていたとき、正解ボタン703をタップ操作する。また図16の例において、ユーザは、口パクで「わがはいはねこである」を読み上げていたとき、不正解ボタン704をタップ操作する。
通知画面700が表示されている場合、ステップs16において、不正解ボタン704に対するタップ操作がタッチパネル130で検出されると、ステップs17において、制御部100は、抽出した基本口形画像が適切でないと判定する。そして、制御部100は、抽出した基本口形画像を電子機器1に登録せずに破棄する。
ステップs17の後、図6に示されるステップs5が再度実行されて、図7に示される要求画面300が再度表示面121に表示される。以後、電子機器1は同様に動作する。ユーザは、表示面121に表示される要求画面300に含まれるスタートボタン305を操作した後、抽出用言語301を再度読み上げる。なお、要求画面300に示される抽出用言語301は、前回表示された要求画面300に示される抽出用言語301とは異なる言語であってもよい。
一方で、通知画面700が表示されている場合、ステップs18において、正解ボタン703に対するタップ操作がタッチパネル130で検出されると、ステップs19において、制御部100は、ステップs9で抽出した6種類の基本口形画像のうち、推定に正解した確認用言語が読み上げられる際に形作られる口形パターンに含まれる基本口形を示す基本口形画像は適切であると判定する。
例えば、ステップs13の機械読唇処理で「かぜのまたさぶろう」が推定され、それがユーザが口パクした確認用言語と一致した場合を考える。「かぜのまたさぶろう」という確認用言語が読み上げられる際に形作られる口形パターンには、6種類の基本口形がすべて含まれる。したがって、ステップs19では、抽出された6種類の基本口形画像のすべてが適切であると判定される。
また、ステップs13の機械読唇処理で「わがはいはねこである」が推定され、それがユーザが口パクした確認用言語と一致した場合を考える。「わがはいはねこである」という確認用言語が読み上げられる際に形作られる口形パターンには、ア口形、イ口形、ウ口形、エ口形及びオ口形の5種類の基本口形が含まれる。したがって、ステップs19では、抽出された6種類の基本口形画像のうち、ア口形、イ口形、ウ口形、エ口形及びオ口形をそれぞれ示す5種類の基本口形画像が適切であると判定される。
ステップs19の後、ステップs20において、制御部100は、抽出したすべての基本口形画像、つまり6種類の基本口形画像が適切であることを確認したか否かを判定する。制御部100は、抽出したすべての基本口形画像が適切であることを確認したと判定すると、ステップs21において、抽出した6種類の基本口形画像を、ステップs3で入力された識別情報と対応付けて記憶部103に保存する。これにより、カメラで生成されるユーザの顔が写る撮影画像から抽出された6種類の基本口形画像が、当該ユーザの識別情報とともに電子機器1に登録される。これは、当該ユーザの電子機器1への登録であるとも言える。
ステップs21の後、ステップs22において、制御部100は、登録アプリケーションの実行を終了する。これにより、電子機器1において登録モードが解除される。
一方で、ステップs20において、制御部100が、抽出したすべての基本口形画像が適切であることをまだ確認していないと判定すると、ステップs11が再度実行されて、図14に示される要求画面500が表示面121に再度表示される。このとき、要求画面500には、それが読み上げられるときに形作られる口形パターンに、適切であることがまだ確認されてない基本口形画像が示す基本口形を含むような確認用言語504が示される。例えば、まだ確認されてない基本口形画像が閉唇口形画像であるとすると、要求画面500には、図14と同様に「かぜのまたさぶろう」が確認用言語504として示される。以後、電子機器1は同様に動作する。
このように、電子機器1では、抽出した基本口形画像が適切であるかを確認する抽出確認処理が行われることから、電子機器1には、適切な基本口形画像が登録される可能性が高くなる。その結果、電子機器1の利便性がさらに向上する。電子機器1が、登録した基本口形画像を用いて機械読唇処理を行う場合には、機械読唇の精度がさらに向上する。
以上の説明から理解できるように、複数のユーザが電子機器1に登録されると、当該複数のユーザの識別情報のそれぞれに対応付けられて基本口形画像が電子機器1に登録される。ユーザは、電子機器1の機械読唇機能を利用して電子機器1に対して入力を行う場合には、自身の識別情報を電子機器1に入力する。ユーザは、例えば表示面121に対して所定の操作を行うことによって、電子機器1に識別情報を入力することができる。電子機器1では、制御部100は、入力された識別情報と同じ識別情報に対応する基本口形画像を記憶部103から読み出す。つまり、制御部100は、入力された識別情報が示すユーザについての基本口形画像を記憶部103から読み出す。そして、制御部100は、読み出した基本口形画像を使用して機械読唇処理を実行する。
このように、ユーザごとに、それに応じた基本口形画像を電子機器1に登録することによって、複数のユーザが電子機器1を使用する場合であっても、電子機器1は、それを使用するユーザに応じた基本口形画像を用いて処理を行うことができる。よって、電子機器1は、ユーザに応じた処理を適切に行うことができる。例えば、電子機器1は、それを使用するユーザに応じた基本口形画像を用いて機械読唇処理を行うことができる。よって、機械読唇の精度が向上する。
なお、制御部100は、カメラで生成される撮影画像に少なくともユーザの口唇が写っていれば、当該撮影画像から基本口形画像を抽出することができる。したがって、ユーザは、電子機器1に登録アプリケーションを実行させる際には、自身の口唇が少なくともカメラに写るようにして電子機器1を使用すればよい。ユーザが、自身の口唇だけがカメラに写るように電子機器1を使用する場合には、制御部100は、表示面121にカメラ画像領域304が表示されている間、顔認識処理を実行しない。
またユーザは、要求画面500のスタートボタン505を操作した後、口パクではなく、実際に声を出して選択した確認用言語を読み上げてもよい。
また、要求画面500に示される複数の確認用言語504のすべてが、それが読み上げられるときに形作られる口形パターンに6種類の基本口形がすべて含まれるような言語である場合には、ステップs18の後、ステップs19,s20が実行されずにステップs21,s22が実行される。
また、制御部100が実行する機械読唇処理での推定が所定回数(例えば5回)不正解の場合には、つまり、登録アプリケーションの実行中にステップs16が所定回数実行される場合には、電子機器1はステップs17の実行後に、登録アプリケーションの実行を終了するか否かをユーザに問い合わせる問い合わせ画面を表示面121に表示してもよい。問い合わせ画面の表示中に、ユーザが、登録アプリケーションの実行の終了を指示する終了指示操作を電子機器1に対して行うと、電子機器1は、登録アプリケーションの実行を終了する。一方で、問い合わせ画面の表示中に、ユーザが、登録アプリケーションの実行の継続を指示する継続指示操作を電子機器1に対して行うと、電子機器1は、登録アプリケーションの実行を継続して、ステップs5を実行する。終了指示操作及び継続指示操作は、例えば表示面121に対する所定の操作である。終了指示操作及び継続指示操作の少なくとも一方は、操作ボタン143〜145のいずれか一つに対する操作であってもよい。
また抽出用言語が、それが読み上げられるときに形作られる口形パターンに少なくとも1種類の基本口形を含まないような言語である場合には、図17に示されるように、ステップs9の後、ステップs31が実行されてもよい。ステップs31では、制御部100は、6種類の基本口形画像において、抽出していない基本口形画像が存在するか否かを判定する。ステップs31において、6種類の基本口形画像のすべてが抽出されたと判定されると、図13のステップs11が実行され、以後電子機器1は同様に動作する。一方で、ステップs31において、6種類の基本口形画像において、抽出されていない基本口形画像が存在すると判定されると、ステップs5が再度実行されて、要求画面300が表示される。この要求画面300には、それが読み上げらえる際に形作られる口形パターンに、未だ抽出されてない基本口形画像が示す基本口形を含むような抽出用言語301が示される。つまり、それが読み上げらえる際に形作られる口形パターンに、未だ抽出されてない基本口形画像が示す基本口形を含むような言葉が、新しい抽出用言語301として採用される。
例えば、抽出用言語として「こんにちはあかちゃん」という言葉が採用される場合を考える。「こんにちはあかちゃん」という言葉が読み上げられる際に形作られる口形パターンにはエ口形が含まれない。したがって、ステップs9では、エ口形画像が抽出されない。よって、その後のステップs31ではYESと判定されて、ステップs5が実行される。このステップs5で表示される要求画面300には、それが読み上げらえる際に形作られる口形パターンにエ口形を含むような抽出用言語301が示される。例えば、「げんきですか」という言葉があらたな抽出用言語301として要求画面300に示される。「げんきですか」という言葉が読み上げられる際に形作られる口形パターンにはエ口形が含まれる。
また登録モードでは、抽出確認処理が行われなくてもよい。この場合には、ステップs9の実行後に、ステップs21,s22が実行される。
また、記憶部103において、基本口形画像に対応付けられる識別情報は、ユーザの顔が写る顔画像であってもよい。この場合、例えば、ステップs1の後、ステップs2〜s4が実行されずに、ステップs5が実行されて要求画面300が表示される。そして、要求画面300が表示されている際に実行される顔認識処理で抽出される顔画像が識別情報として使用される。よって、この場合には、ステップs21において、ユーザの顔が写る顔画像と、当該ユーザについて基本口形画像とが対応付けられて記憶部103に保存される。
このように、識別情報として顔画像が採用される場合には、ユーザは、電子機器1の機械読唇機能を利用して電子機器1に対して入力を行う場合、電子機器1を操作して識別情報を入力する必要がなくなる。ユーザは、電子機器1に機械読唇処理を実行させる場合には、カメラに自分の顔が写るようにして電子機器1を使用する。電子機器1では、制御部100が、カメラで生成される撮影画像から、ユーザの顔が写る顔画像を識別情報として抽出する。そして、制御部100は、記憶部103内において、抽出した顔画像と一致する顔画像に対応付けられている基本口形画像を使用して機械読唇処理を実行する。
また上記の例では、表示部120が、読み上げテンポをユーザに通知する通知部として機能しているが、スピーカ160も読み上げテンポをユーザに通知する通知部として機能してもよい。
例えば、テンポ通知画面400が表示面121に表示されている場合に、スピーカ160は、テンポ通知画面400に含まれる抽出用言葉301を、テンポ通知画面400によって通知される読み上げテンポで音声として出力してもよい。つまり、電子機器1は、読み上げテンポで抽出用言葉301を声に出して読み上げてもよい。これにより、スピーカ160から、抽出用言葉301の読み上げ例を示す音声が出力される。
例えば、上述の図9に示されるように、「ぎんがてつどうのよる」という抽出用言葉301の表示色が変化することによって読み上げテンポがユーザに通知される場合を考える。この場合には、スピーカ160は、読み上げ期間t1〜t10において、それぞれ、「ぎ」という音声、「ん」という音声、「が」という音声、「て」という音声、「つ」という音声、「ど」という音声、「う」という音声、「の」という音声、「よ」という音声及び「る」という音声を出力する。これにより、ユーザと電子機器1がいっしょに抽出用言葉を読み上げることになる。なお、ユーザは実際に声を出して抽出用言葉を読み上げる必要はない。
また、ユーザと電子機器1がいっしょに抽出用言葉を読み上げる場合に、スピーカ160は、読み上げ期間t1の直前に、読み上げ開始タイミングをユーザに通知してもよい。例えば、スピーカ160は、読み上げ期間t1の直前に、「せいの」という言葉を音声で出力することによって、読み上げ開始タイミングをユーザに通知してもよい。この場合、テンポ通知画面400において、抽出用言葉301の表示色が、読み上げテンポに応じて変化しなくてもよい。つまり、表示部120は、読み上げテンポを通知しなくてもよい。
また表示部120は、読み上げ期間t1の直前に、読み上げ開始タイミングをユーザに通知するための画像を表示してよい。この場合、表示部120は、読み上げ開始タイミングをユーザに通知するための画像を、読み上げテンポに応じて変化させてもよい。例えば、表示部120は、読み上げ開始タイミングをユーザに通知するための画像として、「せいの」という言葉を表示してもよい。表示120は、「せいの」という言葉を表示するとき、例えば、読み上げテンポに応じて、「せいの」という言葉の表示色を変化させてもよい。例えば、表示部120は、読み上げテンポに応じて、「せ」と、「い」と、「の」を、この順で表示してもよい。
また、スピーカ160が、読み上げ期間t1の直前に、読み上げ開始タイミングをユーザに通知するのに合わせて、表示部120は、読み上げ開始タイミングをユーザに通知するための画像を表示してもよい。
また、電子機器1が抽出用言葉を声に出して読み上げた後に、それを聞いたユーザが、電子機器1の読み上げを真似するように、抽出用言葉を読み上げてもよい。図18は、この場合の電子機器1の動作の一例を示すフローチャートである。図18に示されるフローチャートは、上述の図6に示されるフローチャートにおいて、ステップs5,s6の替わりにステップs41〜44が実行されるものである。
図18に示されるように、ステップs4において識別情報が記憶部103に記憶されると、ステップs41において、表示部120が、これからユーザにしてもらうことを説明するための説明画面800を表示する。またステップs41において、制御部100はインカメラ180に撮影を開始させる。
図19は説明画面800の一例を示す図である。説明画面800には、通知情報801と、上述のカメラ画像領域304と、抽出用言葉301とが含まれている。通知情報801は、電子機器1が抽出用言葉301を読み上げた後に、それと同じ言葉をユーザが読み上げることをユーザに通知する情報である。
ステップs41において説明画面800が表示された後、ステップs42において、電子機器1は、抽出用言葉を声に出して読み上げる。つまり、スピーカ160が、上述のようにして、抽出用言葉を読み上げテンポで音声として出力する。このとき、上述のテンポ通知画面400と同様のテンポ通知画面450が表示面121に表示されてもよい。図20はテンポ通知画面450の一例を示す図である。テンポ通知画面450には、テンポ通知画面400と同様に、抽出用言葉301と、カメラ画像領域304と、情報402とが示されている。ただし、テンポ通知画面450には、リトライボタン403及びストップボタン404は示されない。テンポ通知画面450では、テンポ通知画面450と同様に、抽出用言葉301の表示色が、電子機器1が抽出用言葉301を読み上げるテンポに応じて変化する。なお、テンポ通知画面450において、抽出用言葉301の表示色は変化しなくてもよい。
電子機器1の抽出用言葉の読み上げが終了すると、ステップs43において、表示部120は、ユーザに対して抽出用言葉の読み上げを要求するための要求画面900を表示する。図21は要求画面900の一例を示す図である。要求画面900には、例えば、通知情報901と、指示情報902と、スタートボタン903と、上述のカメラ画像領域304と、抽出用言葉301とが示されている。通知情報901は、次はユーザが抽出用言葉301を読み上げる番であることをユーザに通知する情報である。スタートボタン903は、ユーザが抽出用言葉301を読み上げるときに操作するソフトウェアボタンである。指示情報902は、ユーザに対して、抽出用言葉301を読み上げるときにスタートボタン305を操作することを指示する情報である。
要求画面900が表示されている場合、ステップs44において、タッチパネル130が、スタートボタン903に対する所定の操作(例えばタップ操作)を検出すると、上述のステップs7が実行されて、テンポ通知画面400が表示される。このとき、テンポ通知画面400では、抽出用言葉301の表示色は変化しなくてもよい。ステップs7の後、電子機器1は同様に動作する。図13に示されるステップs17が実行されると、ステップs41が再度実行される。なお、図18に示されるフローチャートにおいて、テンポ通知画面400,450に含まれる抽出用言葉301の表示色が変化しない場合には、表示部120及びスピーカ160のうちのスピーカ160だけが、ユーザに読み上げテンポを通知する通知部として機能する。
上記の例では、基本口形画像は機械読唇処理で使用されているが、基本口形画像の使い方はこれに限定されない。例えば、特許文献2に記載されているように、電子機器1は、基本口形画像を使用して発話映像を生成してもよい。この場合には、自然な口の動きを表す発話映像を生成することができる。よって、電子機器1の利便性が向上する。
また上記の例では、日本語の基本口形が電子機器1に登録されているが、外国語の基本口形も同様にして電子機器1に登録することができる。
また上記の例では、電子機器1は、スマートフォン等の携帯電話機であったが、他の種類の電子機器であってよい。電子機器1は、例えば、タブレット端末、パーソナルコンピュータ、ウェアラブル機器などであってよい。電子機器1として採用されるウェアラブル機器は、リストバンド型あるいは腕時計型などの腕に装着するタイプであってもよいし、ヘッドバンド型あるいはメガネ型などの頭に装着するタイプであってもよいし、服型などの体に装着するタイプであってもよい。また電子機器1は、乗り物(例えば、自動車、自転車、オートバイ、飛行機及び船など)に搭載される、ユーザが操作する操作機器であってもよい。操作機器は、例えば、ナビゲーション装置、及び乗り物の自動運転用の補助操作装置などを含む。
以上のように、電子機器1は詳細に説明されたが、上記した説明は、全ての局面において例示であって、この開示がそれに限定されるものではない。また、上述した各種の例は、相互に矛盾しない限り組み合わせて適用可能である。そして、例示されていない無数の例が、この開示の範囲から外れることなく想定され得るものと解される。
1 電子機器
100 制御部
103 記憶部
120 表示部
160 スピーカ
180 第1カメラ
190 第2カメラ
100 制御部
103 記憶部
120 表示部
160 スピーカ
180 第1カメラ
190 第2カメラ
Claims (15)
- 第1の言葉を読み上げるテンポをユーザに通知する通知部と、
前記第1の言葉を読み上げている前記ユーザの少なくとも口唇を撮影するカメラと、
前記テンポに基づいて、前記カメラで生成される、前記ユーザの少なくとも口唇が写る第1撮影画像から、発話の基本口形を示す基本口形画像を抽出する処理部と
を備える、電子機器。 - 請求項1に記載の電子機器であって、
前記通知部は、表示部を含み、
前記表示部は、前記テンポを通知する通知情報を表示する、電子機器。 - 請求項2に記載の電子機器であって、
前記表示部は、前記通知情報として、前記テンポに応じて表示態様が先頭から変化するように前記第1の言葉を表示する、電子機器。 - 請求項3に記載の電子機器であって、
前記カメラは、前記表示部が前記第1の言葉を表示しているときに前記第1の言葉を読み上げている前記ユーザの前記少なくとも口唇を撮影する、電子機器。 - 請求項1乃至請求項4のいずれか一つに記載の電子機器であって、
前記通知部は、スピーカを含み、
前記スピーカは、前記第1の言葉を前記テンポで音声として出力する、電子機器。 - 請求項5に記載の電子機器であって、
前記カメラは、前記スピーカが前記第1の言葉を音声として出力しているときに前記第1の言葉を読み上げている前記ユーザの前記少なくとも口唇を撮影する、電子機器。 - 請求項1乃至請求項6のいずれか一つに記載の電子機器であって、
記憶部をさらに備え、
前記処理部は、前記ユーザを識別するための識別情報と、前記基本口形画像とを対応付けて前記記憶部に記憶する、電子機器。 - 請求項7に記載の電子機器であって、
前記処理部は、前記カメラで生成される撮影画像から、前記ユーザの顔が写る顔画像を抽出し、抽出した当該顔画像を前記識別情報として前記基本口形画像に対応付けて前記記憶部に記憶する、電子機器。 - 請求項7及び請求項8のいずれか一つに記載の電子機器であって、
前記記憶部は、複数のユーザをそれぞれ識別するための複数の識別情報を記憶し、
前記記憶部は、前記複数の識別情報のそれぞれについて、当該識別情報と、当該識別情報に対応するユーザについての前記基本口形画像とを対応付けて記憶する、電子機器。 - 請求項9に記載の電子機器であって、
前記処理部は、当該処理部に入力される前記識別情報と同じ前記識別情報に対応する前記基本口形画像を前記記憶部から読み出して所定の処理で使用する、電子機器。 - 請求項10に記載の電子機器であって、
前記カメラは、第2の言葉を読み上げている前記ユーザの少なくとも口唇を撮影し、
前記処理部は、当該処理部に入力される、前記第2の言葉を読み上げている前記ユーザの前記識別情報と同じ前記識別情報に対応する前記基本口形画像を前記記憶部から読み出し、読み出した前記基本口形画像と、前記カメラで生成される、前記第2の言葉を読み上げている前記ユーザの少なくとも口唇が写る第2撮影画像とに基づいて、前記ユーザが読み上げている言葉を推定する、電子機器。 - 請求項1乃至請求項10のいずれか一つに記載の電子機器であって、
前記カメラは、第2の言葉を読み上げている前記ユーザの少なくとも口唇を撮影し、
前記処理部は、前記カメラで生成される、前記第2の言葉を読み上げている前記ユーザの少なくとも口唇が写る第2撮影画像と、前記基本口形画像とに基づいて、前記ユーザが読み上げた言葉を推定し、
前記通知部は、前記処理部が推定した前記言葉が、前記第2の言葉に一致するか否かの問い合わせを前記ユーザに通知し、
前記処理部は、前記電子機器に入力される、前記問い合わせに対する前記ユーザの応答に基づいて、前記基本口形画像が適切であるか否かを判定する、電子機器。 - 通知部及びカメラを備える電子機器を制御するための、当該電子機器が備える制御装置であって、
前記通知部に、言葉を読み上げるテンポをユーザに通知させ、
前記カメラに、前記言葉を読み上げている前記ユーザの少なくとも口唇を撮影させ、
前記テンポに基づいて、前記カメラで生成される、前記ユーザの少なくとも口唇が写る撮影画像から、発話の基本口形を示す基本口形画像を抽出する、制御装置。 - 電子機器を制御するための制御プログラムであって、
前記電子機器に、
言葉を読み上げるテンポをユーザに通知する第1処理と、
前記言葉を読み上げている前記ユーザの少なくとも口唇を撮影する第2処理と、
前記テンポに基づいて、前記第2処理で生成される、前記ユーザの少なくとも口唇が写る撮影画像から、発話の基本口形を示す基本口形画像を抽出する第3処理と
を実行させるための制御プログラム。 - 電子機器の動作方法であって、
言葉を読み上げるテンポをユーザに通知する第1処理と、
前記言葉を読み上げている前記ユーザの少なくとも口唇を撮影する第2処理と、
前記テンポに基づいて、前記第2処理で生成される、前記ユーザの少なくとも口唇が写る撮影画像から、発話の基本口形を示す基本口形画像を抽出する第3処理と
を備える、電子機器の動作方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017207841A JP2019079449A (ja) | 2017-10-27 | 2017-10-27 | 電子機器、制御装置、制御プログラム及び電子機器の動作方法 |
PCT/JP2018/037658 WO2019082648A1 (ja) | 2017-10-27 | 2018-10-10 | 電子機器、制御装置、制御プログラム及び電子機器の動作方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017207841A JP2019079449A (ja) | 2017-10-27 | 2017-10-27 | 電子機器、制御装置、制御プログラム及び電子機器の動作方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019079449A true JP2019079449A (ja) | 2019-05-23 |
Family
ID=66247792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017207841A Pending JP2019079449A (ja) | 2017-10-27 | 2017-10-27 | 電子機器、制御装置、制御プログラム及び電子機器の動作方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2019079449A (ja) |
WO (1) | WO2019082648A1 (ja) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06295192A (ja) * | 1993-04-09 | 1994-10-21 | Matsushita Electric Ind Co Ltd | 比較装置 |
JP4134921B2 (ja) * | 2004-02-27 | 2008-08-20 | ヤマハ株式会社 | カラオケ装置 |
JP2008310382A (ja) * | 2007-06-12 | 2008-12-25 | Omron Corp | 読唇装置および方法、情報処理装置および方法、検出装置および方法、プログラム、データ構造、並びに、記録媒体 |
JP2010026731A (ja) * | 2008-07-17 | 2010-02-04 | Nec Saitama Ltd | 文字入力装置、文字入力方法、文字入力システム、文字入力サーバー及び端末 |
JP2014229272A (ja) * | 2013-05-27 | 2014-12-08 | 株式会社東芝 | 電子機器 |
-
2017
- 2017-10-27 JP JP2017207841A patent/JP2019079449A/ja active Pending
-
2018
- 2018-10-10 WO PCT/JP2018/037658 patent/WO2019082648A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2019082648A1 (ja) | 2019-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107428006B (zh) | 机器人、机器人控制方法以及机器人系统 | |
JP5331936B2 (ja) | 音声制御画像編集 | |
WO2017130486A1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
WO2019206186A1 (zh) | 唇语识别方法及其装置、增强现实设备以及存储介质 | |
US9858924B2 (en) | Voice processing apparatus and voice processing method | |
CN110322760B (zh) | 语音数据生成方法、装置、终端及存储介质 | |
KR102356623B1 (ko) | 가상 비서 전자 장치 및 그 제어 방법 | |
CN113168227A (zh) | 执行电子装置的功能的方法以及使用该方法的电子装置 | |
BR112020006904A2 (pt) | rastreamento de atividade de áudio e sumários | |
JP2019208138A (ja) | 発話認識装置、及びコンピュータプログラム | |
KR20200044947A (ko) | 표시 제어 장치, 통신 장치, 표시 제어 방법 및 컴퓨터 프로그램 | |
JP6587918B2 (ja) | 電子機器、電子機器の制御方法、電子機器の制御装置、制御プログラム及び電子機器システム | |
JP6798258B2 (ja) | 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム | |
US10845921B2 (en) | Methods and systems for augmenting images in an electronic device | |
JP6874437B2 (ja) | コミュニケーションロボット、プログラム及びシステム | |
US10432851B2 (en) | Wearable computing device for detecting photography | |
US10643636B2 (en) | Information processing apparatus, information processing method, and program | |
JP2016189121A (ja) | 情報処理装置、情報処理方法およびプログラム | |
JPWO2018135304A1 (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
CN110291768B (zh) | 信息处理装置、信息处理方法和信息处理系统 | |
KR20200056754A (ko) | 개인화 립 리딩 모델 생성 방법 및 장치 | |
WO2019082648A1 (ja) | 電子機器、制御装置、制御プログラム及び電子機器の動作方法 | |
JP2017211430A (ja) | 情報処理装置および情報処理方法 | |
JP2016156877A (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP2015172848A (ja) | 読唇入力装置、読唇入力方法及び読唇入力プログラム |