JP2019015773A

JP2019015773A - 情報処理装置およびプログラム

Info

Publication number: JP2019015773A
Application number: JP2017131009A
Authority: JP
Inventors: 嘉彦根本; Yoshihiko Nemoto; 賢吾得地; Kengo Tokuchi
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2017-07-04
Filing date: 2017-07-04
Publication date: 2019-01-31
Anticipated expiration: 2037-07-04
Also published as: US10685651B2; US11682392B2; US20190013022A1; US20200273459A1; JP7056020B2

Abstract

【課題】音声指示を行う際に、音声入力の開始や終了のために特別な操作を必要とする場合と比較して、話者の操作を容易にする。【解決手段】端末装置は、話者の音声情報を取得するマイク１３と、話者の発話に関する動作を検出するカメラ１４と、カメラ１４が話者の発話に関する動作を検出した後にマイク１３が取得した音声情報に応じて音声指示を行う指示部２４とを備える。端末装置では、音声指示を行う際に、例えばカメラ１４によって発話に関する動作を検出することで、音声入力の開始や終了のための話者の操作が容易になる。【選択図】図３

Description

本発明は、情報処理装置およびプログラムに関する。

例えば特許文献１には、所定の機能を提供するアプリケーションを制御する端末装置において、アプリケーションが動作中か否かを判別する動作判別手段と、自装置の姿勢を検出する姿勢検出手段と、動作判別手段によってアプリケーションの動作中と判別された場合に、姿勢検出手段により検出された姿勢を基準姿勢として記憶手段に記憶する記憶制御手段と、姿勢検出手段により検出された姿勢と、記憶制御手段により記憶手段に記憶された基準姿勢とを比較する比較手段と、比較手段の比較結果に応じて、アプリケーションの動作を制御する動作制御手段とを具備する端末装置が記載されている。

特開２０１１−１８２７２号公報

ところで、音声入力に基づいて予め定められた処理を実行させる音声指示を行う際、例えば、話者がボタン等を操作することで音声入力が開始され、再びボタン等が操作されることで音声入力が終了される。このように、従来は、音声指示を行う際に、音声入力の開始や終了のために、話者の発話動作とは別に操作を行う必要があった。また、音声入力が開始された後、無音のまま所定時間が経過することを条件として音声入力を終了させることもあるが、この場合、ノイズを拾ってしまったり、ノイズのレベルによっては無音の期間が検出されず話者が発話を止めても音声入力が終了しなかったりするおそれがあった。

そこで、本発明は、音声指示を行う際に、音声入力の開始や終了のために特別な操作を必要とする場合と比較して、話者の操作を容易にすることを目的とする。

請求項１に記載の発明は、話者の音声情報を取得する取得手段と、前記話者の発話に関する動作を検出する検出手段と、前記検出手段が前記動作を検出した後に前記取得手段が取得した前記音声情報に応じて音声指示を行う音声指示手段と、を備える情報処理装置である。
請求項２に記載の発明は、前記音声指示手段は、前記検出手段によって前記動作が検出されなくなった場合に、検出されなくなったときよりも以前に前記取得手段から取得した前記音声情報を用いて前記音声指示を行う請求項１に記載の情報処理装置である。
請求項３に記載の発明は、前記検出手段は、本装置に対して発話を行う前記話者の画像に基づいて、前記動作を検出する請求項１に記載の情報処理装置である。
請求項４に記載の発明は、前記検出手段は、前記話者の口元の画像を検出する請求項３に記載の情報処理装置である。
請求項５に記載の発明は、前記検出手段は、前記話者の口元の動きを検出する請求項３に記載の情報処理装置である。
請求項６に記載の発明は、前記検出手段は、本装置と前記話者との距離の変位に基づいて、前記動作を検出する請求項１に記載の情報処理装置である。
請求項７に記載の発明は、前記検出手段は、予め定められた波長の光を用いて前記距離の変位を特定する請求項６に記載の情報処理装置である。
請求項８に記載の発明は、前記検出手段は、前記話者を撮影した画像における被写体の大きさに基づいて前記距離の変位を特定する請求項６に記載の情報処理装置である。
請求項９に記載の発明は、前記検出手段は、本装置が上下反転した状態にて、前記話者の口元の画像を撮像する請求項１に記載の情報処理装置である。
請求項１０に記載の発明は、スピーカおよびマイクを備え、前記取得手段として前記スピーカにより前記音声情報を取得し、前記マイクにて音を出力する請求項９に記載の情報処理装置である。
請求項１１に記載の発明は、前記音声指示手段は、本装置が上下反転された際に、前記音声指示のための前記取得手段からの前記音声情報の取得を開始する請求項９に記載の情報処理装置である。
請求項１２に記載の発明は、前記検出手段は、本装置の下側に設けられるカメラである請求項１に記載の情報処理装置である。
請求項１３に記載の発明は、話者の音声情報を取得する取得手段と、前記話者の発話に関する動作を検出する検出手段と、前記検出手段が検出する前記動作から特定される時期に前記取得手段が取得した前記音声情報に応じて音声指示を行う音声指示手段と、を備える情報処理装置である。
請求項１４に記載の発明は、話者の音声情報を取得する取得手段と、発話を行う前記話者の状態から当該話者の一連の発話の終了を特定し、前記取得手段が取得した前記音声情報に応じて音声指示を行う音声指示手段と、を備える情報処理装置である。
請求項１５に記載の発明は、情報処理装置として機能するコンピュータに、話者の音声情報を取得する機能と、前記話者の発話に関する動作を検出する機能と、前記動作を検出した後に取得した前記音声情報に応じて音声指示を行う機能と、を実現させるためのプログラムである。

請求項１の発明によれば、音声指示を行う際に、音声入力の開始や終了のために特別な操作を必要とする場合と比較して、話者の操作を容易にすることができる。
請求項２の発明によれば、的確なタイミングで音声指示を終了することが可能になる。
請求項３の発明によれば、発話を行う話者の画像を用いて直接的に発話に関する動作を検出することができる。
請求項４の発明によれば、発話を行う口元の画像を用いて発話に関する動作を精度良く検出することができる。
請求項５の発明によれば、発話を行う口元の動きを用いて発話に関する動作を精度良く検出することができる。
請求項６の発明によれば、音声指示を行う際、話者と本装置とが相対的に近づいたり遠ざかったりするという動作を検出することが可能になる。
請求項７の発明によれば、本装置と話者との距離を直接的に検出することができる。
請求項８の発明によれば、撮像画像を利用して本装置と話者との距離を検出することができる。
請求項９の発明によれば、一般的に本装置の上側に配置されている撮像手段を利用して発話に関する動作を検出することが可能になる。
請求項１０の発明によれば、本装置が上下反転された状態であっても、情報処理装置における音声情報の取得と音声の出力とが容易になる。
請求項１１の発明によれば、本装置が上下反転されることによって、音声指示のための音声情報の取得を開始することができる。
請求項１２の発明によれば、本装置と話者との距離が近い状態で音声指示が行われる際においても話者の発話に関する動作をカメラによって検出し易くなる。
請求項１３の発明によれば、音声指示を行う際に、音声入力の開始や終了のために特別な操作を必要とする場合と比較して、話者の操作を容易にすることができる。
請求項１４の発明によれば、音声指示を行う際に、音声入力の終了のために特別な操作を必要とする場合と比較して、話者の操作を容易にすることができる。
請求項１５の発明によれば、音声指示を行う際に、音声入力の開始や終了のために特別な操作を必要とする場合と比較して、話者の操作を容易にすることが可能なプログラムを提供することができる。

実施形態１の端末装置の全体図である。実施形態１の端末装置のハードウェア構成例を示した図である。本実施形態の簡易入力機能を実現する機能ブロック図である。（Ａ）および（Ｂ）は、端末装置において音声指示が行われる際の説明図である。（Ａ）および（Ｂ）は、端末装置において音声指示が行われる際にカメラで取得される画像の一例の図である。実施形態１の簡易入力機能の動作フロー図である。（Ａ）および（Ｂ）は、実施形態３における端末装置の音声指示の説明図である。

以下、添付図面を参照して、本発明を実施するための形態について説明する。
＜実施形態１＞
図１は、実施形態１の端末装置１の全体図である。
図１に示すように、本実施形態の端末装置１は、画像を表示するとともにユーザの操作を受け付けるタッチパネル１１と、音を出力するスピーカ１２と、音声情報を取得するマイク１３と、被写体を撮像するカメラ１４と、赤外線を用いて対象物の検出を行う距離センサ１５と、ユーザの操作を受け付ける操作ボタン１６と、端末装置１の全体を統括的に制御する制御部１７と、を備える。

タッチパネル１１は、制御部１７による制御に基づいて、静止画や動画などの画像を表示する。また、タッチパネル１１は、ユーザの指等のタッチ操作（接触操作）を検知する。そして、端末装置１では、タッチパネル１１に対するユーザのタッチ操作が行われると、タッチ操作に応じて予め定められた処理が実行される。
なお、タッチパネル１１には、例えば液晶ディスプレイや有機ＥＬディスプレイ等を用いて良い。また、タッチパネルの構成には、静電容量方式や抵抗膜方式など各種方式を用いて良い。

スピーカ１２は、電気信号に基づいて振動板を振動させることによって音声を出力する。また、本実施形態のスピーカ１２は、端末装置１の上側に配置されている。そして、スピーカ１２は、端末装置１をユーザが手に持って顔に近づけた状態で、ユーザの耳の近くに位置する。

マイク１３（取得手段の一例）は、音によって振動する振動板の動作を電気信号に変換することで音声情報を生成する。また、本実施形態のマイク１３は、端末装置１の下側（端末装置１の上下方向においてスピーカ１２とは逆側）に配置されている。そして、マイク１３は、端末装置１をユーザが手に持って顔に近づけた状態で、ユーザの口の近くに位置する。

カメラ１４（検出手段の一例）は、端末装置１の表裏の側において、タッチパネル１１、スピーカ１２およびマイク１３と同じ側に設けられる。そして、カメラ１４は、カメラ１４が設けられている側に位置する被写体を撮像する。

距離センサ１５（検出手段の一例）は、赤外光の発光部と受光部が一体的に構成されたセンサである。そして、距離センサ１５は、発光部から照射された赤外光が、対象物にて反射して受光部に受光するときの出力電圧の変化によって、対象物との距離を検出する。
なお、距離センサ１５は、赤外線だけではなく、予め定められた波長の光を用いて対象物との距離を検出しても良い。

操作ボタン１６は、機械的な構造により構成されたボタンである。そして、操作ボタン１６は、タッチパネル１１とは別に、ユーザの操作を受け付ける。本実施形態の端末装置１では、操作ボタン１６が押下されることで、タッチパネル１１に例えばホーム画面画像が表示される。

制御部１７（音声指示手段の一例）は、端末装置１の全体を統括的に制御する。例えば、制御部１７は、端末装置１の電源制御や、タッチパネル１１に表示する画像の表示制御や、ネットワーク等を介した通信制御などの各種制御を行う。

次に、端末装置１のハードウェア構成について説明する。
図２は、実施形態１の端末装置１のハードウェア構成例を示した図である。
図２に示すように、端末装置１は、演算手段であるＣＰＵ１０１と、記憶手段であるメインメモリ１０２、フラッシュメモリ１０３とを備える。また、端末装置１は、外部との通信を行うための通信Ｉ／Ｆ１０４と、端末装置１の向き検知するジャイロセンサ１０５と、端末装置１の動きを検知する加速度センサ１０６と、日時を計測するＲＴＣ（リアルタイムクロック）１０７と、を備える。

ＣＰＵ１０１は、ＯＳ（Operating System）やアプリケーションソフトウェア等の各種プログラムを実行し、端末装置１の各機能を実現する。また、メインメモリ１０２は、各種プログラムやその実行に用いるデータ等を記憶する記憶領域であり、フラッシュメモリ１０３は、各種プログラムに対する入力データや各種プログラムからの出力データ等を記憶する記憶領域である。

以上のように構成される端末装置１は、制御部１７の制御に基づいて、スピーカ１２、マイク１３および通信Ｉ／Ｆ１０４を用いる通話操作、通信Ｉ／Ｆ１０４およびタッチパネル１１を用いるインターネット利用操作、カメラ１４およびタッチパネル１１を用いる撮影操作、タッチパネル１１を用いる静止画および動画の閲覧操作やゲーム操作など、ユーザが利用可能な各種の操作が実行可能である。

また、端末装置１において、ユーザによる文字等の情報の入力は、タッチパネル１１に表示されるキーボード画像やテンキー画像によって行われる。さらに、本実施形態では、マイク１３にてユーザにより発せられた音声から文字列を入力する「音声入力」が可能になっている。
さらに、本実施形態の端末装置１では、音声入力により入力された文字列に基づいて、端末装置１において実行可能な各種操作を実行する「音声指示」が可能になっている。

ところで、従来は、音声指示を行う際、音声入力の開始と音声入力の終了とのタイミングにおいて、それぞれ話者が端末装置１に対して特別の操作を行うことが要求されていた。
例えば、音声指示として、音声入力によるインターネット検索を行う場合、まず、話者は、タッチパネル１１に表示されるアイコン画像を操作して、インターネット検索のためのブラウザを起動する。その後、音声入力を開始するには、タッチパネル１１に表示される音声入力の開始のためのボタンの操作が必要であった。また、音声入力の終了の際には、タッチパネル１１に表示される音声入力の終了のためのボタンの操作が必要であった。
なお、音声入力の終了の際、音声入力の終了のためのボタンの操作が要求されない場合があるが、この場合、話者が発話を止めても、装置側において音声入力が継続されてしまったり、他の人の声や周囲の雑音などのノイズが文字入力に反映されたりすることがあった。

これに対して、本実施形態の端末装置１は、音声入力の際に、話者の発話に関する動作、すなわち発話を行う話者の状態を検出することで、音声入力の開始および終了の両方または一方において、話者の発話動作以外の端末装置１に対する操作を不要とする「簡易入力機能」を備えている。
以下、簡易入力機能について、詳細に説明する。

図３は、本実施形態の簡易入力機能を実現する機能ブロック図である。
図４は、端末装置１において音声指示が行われる際の説明図である。
図５は、端末装置１において音声指示が行われる際にカメラで取得される画像の一例の図である。

図３に示すように、制御部１７は、音声情報を取得する音声取得部２１と、画像情報を取得する画像取得部２２と、音声情報を文字情報に変換する音声入力部２３と、端末装置１を動作させる指示を行う指示部２４と、を有する。
そして、本実施形態では、端末装置１は、端末装置１（本装置）に対して操作を行う話者の画像に基づいて話者の発話に関する動作を検出し、音声情報に応じた音声指示を行うようにしている。

音声取得部２１は、マイク１３から音声情報を取得する。そして、音声取得部２１は、マイク１３が音声情報を生成したときの時間情報をＲＴＣ１０７にて参照し、時系列の音声情報を作成する。そして、音声取得部２１は、時系列の音声情報を音声入力部２３に送る。

さらに、本実施形態の音声取得部２１は、時系列の音声情報のうち、予め定められた音量レベルの範囲となっている期間（以下、特定音量レベル期間）を特定する。本実施形態において、予め定められた音量レベルとは、端末装置１に対して約１０ｃｍ離れた位置にて話者が一般的な声の大きさで発話をした場合に基づいて予め定められたレベルである。
そして、音声取得部２１は、特定音量レベル期間の情報を、音声入力部２３に送る。

画像取得部２２は、音声指示が行われる際に、カメラ１４が撮像した画像情報を取得する。このとき、画像取得部２２は、画像情報が取得される際の時間情報を画像情報に合わせて音声入力部２３に送る。すなわち、画像取得部２２は、カメラ１４が画像情報を生成したときの時間情報をＲＴＣ１０７にて参照し、時系列の画像情報を作成する。

さらに、画像取得部２２は、取得した画像情報から発話を行っている人物（話者）の口元の画像を検出する。そして、画像取得部２２は、画像情報として口元の画像が検出されている時間を特定する。

話者が音声入力を行う際、話者が端末装置１を手に持っている場合、図４（Ａ）に示すように、話者は、端末装置１を顔に近づける。また、話者が音声入力を行う際、話者が端末装置１を手に持っていたり、端末装置１がテーブル等に置かれた状態であったりする場合、図４（Ｂ）に示すように、端末装置１に対して顔を近づける。
そのため、話者が音声入力を行う際、図５（Ａ）に示すように、カメラ１４により取得される画像Ａ（画像情報）は、主に話者の口元となり、画像Ａは概ね口元の画像によって占められる状態になる。逆に、画像情報には、話者の口元以外の要素の画像が含まれにくくなる。
そこで、実施形態１では、画像情報として口元の画像が検出された際に、話者が発話を開始したタイミングと判断するようにしている。

一方、話者が音声入力を終了する際、話者が端末装置１を手に持っている場合、図４（Ａ）に示すように、話者は、端末装置１を顔から遠ざける。また、話者が音声入力を終了する際、話者が端末装置１を手に持っていたり、端末装置１がテーブル等に置かれた状態であったりする場合、図４（Ｂ）に示すように、端末装置１から顔を遠ざける。
そのため、話者が音声入力を終了する際、図５（Ｂ）に示すように、カメラ１４により取得される画像Ｂ（画像情報）は、口元の画像ではなく、口元以外の要素を含む画像によって構成されたり、そもそも口元や顔自体を含まない画像によって構成されたりする。
そこで、実施形態１では、画像情報として口元の画像が検出されなくなった際に、話者が一連の発話を終了したタイミングと判断するようにしている。

以上のように、実施形態１では、口元の画像が検出されたときから、口元の画像が検出されなくなったときまでの時間を、発話期間として特定する。そして、画像取得部２２は、発話期間の情報を音声入力部２３に送る。

音声入力部２３は、マイク１３が取得した音声情報を取得する。そして、音声入力部２３は、発話期間に対応する期間の音声情報を文字列に変換した文字情報（テキスト情報）を作成する。すなわち、音声入力部２３は、発話に関する動作が検出されてから、発話に関する動作が検出されなくなるまでに取得された音声情報に対して、文字情報に変換する処理を行う。
なお、音声入力部２３は、音響モデルや言語モデルなどの音声入力（音声認識）に関する各種のモデルを用いることができる。

また、本実施形態では、音声入力部２３は、発話期間の情報に加えて、音声取得部２１から取得した特定音量レベル期間も加味して文字情報の作成を行う。具体的には、特定音量レベル期間に対応する期間の音声情報に対して、文字情報に変換する処理を行う。
なお、発話時間の情報に特定音量レベル期間の情報を加味して、音声入力の開始や終了のタイミングを特定することは、他の実施形態においても適用される。ただし、音声入力部２３は、特定音量レベル期間の情報よりも発話期間の情報を優先する。
そして、音声入力部２３は、作成した文字情報を指示部２４に送る。

指示部２４は、音声入力部２３から取得した文字情報に基づいて、端末装置１における各構成部を動作させる。すなわち、指示部２４は、文字情報に基づいて、端末装置１に設けられた各構成部を用いた機能を実行させる。

なお、指示部２４によって実行される端末装置１の機能としては、以下の例を挙げることができる。
例えば、インターネット検索のアプリケーションが起動している状態で、指示部２４が文字情報を取得した場合には、指示部２４は、文字情報により特定される検索ワードをタッチパネル１１に表示するとともに、その検索ワードについてインターネット検索を実行させる。
また、指示部２４は、文字情報により特定される内容が、端末装置１に設けられた構成部を用いて実現される機能に関するものである場合、その機能を利用可能な状態にする。具体的には、文字情報が「〇〇に電話をかけて」といった内容であれば、指示部２４は、〇〇と通話を行うために通信Ｉ／Ｆ１０４を起動して発信動作を行う。また、文字情報が「〇時〇分にアラームを鳴らして」といった内容であれば、指示部２４は、〇時〇分にスピーカ１２から予め定められたアラーム音を出力させる。

次に、簡易入力機能の動作の流れを具体的に説明する。
図６は、実施形態１の簡易入力機能の動作フロー図である。
以下では、音声入力により入力された検索ワードについてインターネット検索を実行させるという音声指示の例について説明する。
まず、話者は、予め定められた操作を行う（Ｓ１０１）。この例では、話者は、インターネット検索のためのブラウザを起動するために、タッチパネル１１上に表示されるアイコンを押す（Ｓ１０１）。

その後、話者は、音声入力を行うために口元を端末装置１に近づける。このとき、端末装置１では、カメラ１４によって口元の画像が検出されるか否かを判断する（Ｓ１０２）。Ｓ１０２にて、口元の画像の検出がされなかった場合には（Ｓ１０２にてＮｏ）、タッチパネル１１に対する接触操作によって、文字入力が行われているか否か判断する（Ｓ１０３）。文字入力が行われている場合には（Ｓ１０３でＹｅｓ）、簡易入力機能としての処理は終了する。
一方、口元の画像が検出されない場合（Ｓ１０２にてＮｏ）であって、文字入力が行われない場合（Ｓ１０３にてＮｏ）には、予め定められた時間が経過したか否か判断する（Ｓ１０４）。
予め定められた時間が経過していなければ（Ｓ１０４でＮｏ）、再びＳ１０２に戻り、口元の画像が検出されたか否かを判断する。また、予め定められた時間が経過していれば（Ｓ１０４でＹｅｓ）、簡易入力機能としての処理は終了する。

また、Ｓ１０２にて口元の画像が検出された場合（Ｓ１０２にてＹｅｓ）、その時点で、マイク１３にて取得した音声情報を用いる音声入力を開始する（Ｓ１０５）。
その後、口元の画像が検出されなくなったか否かを判断する（Ｓ１０６）。Ｓ１０６にて口元の画像が検出されている場合には（Ｓ１０６にてＮｏ）、マイク１３にて取得する音声情報を用いる音声入力を継続する。
一方、Ｓ１０６にて口元の画像が検出されなくなった場合（Ｓ１０６にてＹｅｓ）、その時点で、マイク１３からの音声情報の取得を停止し、音声入力を終了する（Ｓ１０７）。
そして、本実施形態においては、音声入力が開始された後、音声入力が終了するまでにマイク１３から取得した音声情報を用いて、予め定められた音声指示を実行する（Ｓ１０８）。この例では、音声入力が開始されてから終了するまでに取得された音声情報を変換した検索ワードを用いて、例えばインターネット検索を実行させる。

なお、音声指示を行うにあたって、Ｓ１０１における予め定められた操作は、必須のものではない。例えば、画像取得部２２が常時起動されており、口元の画像が検出されたことをもって、音声入力を開始するようにしても良い。この場合、話者が端末装置１のタッチパネル１１上のアイコンを操作するなどの予め定められた操作を行わなくても、音声指示（音声入力）が開始される。

以上説明したとおり、実施形態１においては、話者が端末装置１のマイク１３に対して話しかけるという発話動作を行うだけで、音声入力の開始や終了に際して、発話動作以外の操作を行うことを必須とせず、自動的に音声入力が完了する。

（変形例１）
次に、変形例１について説明する。
画像取得部２２による話者の画像の検出に基づく発話期間の特定は、上述した口元の画像の検出に基づく例に限定されない。例えば、画像取得部２２は、話者の口元の動きを検出することで、発話期間を特定しても良い。

具体的には、画像取得部２２は、話者の口元の画像の変動量を検出する。変形例１の画像取得部２２は、例えば、上唇や下唇などの口元の特徴的な箇所の変動量を特定する。そして、画像取得部２２は、口元の画像において予め定められた量以上の変動量が検出されている期間を、発話期間とする。より詳細には、画像取得部２２は、話者の口元の画像に基づいて、口元の変動が予め定められた変動量以上になったことが特定されたときを、音声入力の開始のタイミングとする。また、画像取得部２２は、音声入力の開始後、口元の変動が予め定められた量未満になったことが特定されたときを、音声入力の終了のタイミングとする。
このように、変形例１において、画像取得部２２は、話者が発話を行っていることを直接的かつ動的に検出する。

＜実施形態２＞
次に、実施形態２の端末装置１の簡易入力機能について説明する。なお、実施形態２において、実施形態１と同様な構成については同一の符号を付して、その詳細な説明を省略する。

実施形態２の端末装置１では、端末装置１と話者との距離に基づいて、話者の発話に関する動作を検出する。
図４を参照しながら説明したとおり、端末装置１に対して音声入力を行う場合、端末装置１と話者との距離が近くなる。そこで、実施形態２においては、端末装置１と話者との距離を検出することで、発話期間を特定する。

実施形態２において、端末装置１では、距離センサ１５を用いて端末装置１と話者との距離を検出する。そして、実施形態２の端末装置１では、端末装置１と話者との距離が予め定められた設定距離よりも短い期間を、発話期間とする。より詳細には、端末装置１は、音声指示が行われる際、距離センサ１５によって対象物（話者）との距離が設定距離よりも短いことが特定されたときを、音声入力の開始のタイミングとする。また、端末装置１は、音声入力の開始後、距離センサ１５によって対象物（話者）との距離が設定距離以上になったことが特定されたときを、音声入力の終了のタイミングとする。

以上のとおり、実施形態２においても、話者が端末装置１のマイク１３に対して話しかけるという発話動作を行うだけで、音声入力の開始や終了に際して、発話動作以外の操作を行うことを必須とせず、自動的に音声入力が完了する。

（変形例２）
次に、変形例２について説明する。
上述した例では、端末装置１と話者との距離の変位に基づいて、話者の発話に関する動作を検出するにあたって、距離センサ１５を用いているが、この例に限定されない。

変形例２の端末装置１は、カメラ１４にて得られる画像情報に基づいて話者との距離の変位を検出する。具体的には、変形例２の端末装置１では、音声指示が行われる際、カメラ１４の画像情報において特定可能な長さの変化に基づいて、話者と端末装置１との距離の変位を検出することで、発話期間を特定する。

変形例２の端末装置１では、図５（Ａ）および図５（Ｂ）に示すように、例えば話者の口元の画像から、口の右側の口角Ｐ１と口の左側の口角Ｐ２との間隔Ｌの長さを特定する。カメラ１４によって撮像される画像における口角の間隔Ｌは、端末装置１と話者との距離に比例する。そこで、変形例２の端末装置１は、口角の間隔Ｌが予め定めた設定距離よりも大きいことが特定されたときを、音声入力の開始のタイミングとする。また、変形例２の端末装置１は、音声入力の開始後、口角の間隔Ｌが設定距離以下になったとき、あるいは、画像情報から口元の画像そのものが特定できなくなったときを、音声入力の終了のタイミングとする。

なお、変形例２において、画像情報から被写体の長さが特定できれば、上述した口角の間隔Ｌの例に限定されない。変形例２において、例えば、画像情報から特定される話者の両耳の間隔、両目の間隔、口全体の大きさ（幅）、鼻の大きさ（幅）、顔の大きさ（幅）などに基づいて、端末装置１と話者との距離の変位を検出しても良い。

なお、実施形態１等において、マイク１３の周辺、すなわち端末装置１の下側にカメラ１４を設けても良い。このように構成した場合、話者が端末装置１を耳に当てた状態であっても、カメラ１４によって話者の口元の画像が撮像される。そして、上述したように、口元の画像や、画像情報の被写体から特定される距離に基づいて、話者の発話に関する動作を検出し、音声情報に応じた音声指示を行うようにしても良い。

＜実施形態３＞
図７は、実施形態３における端末装置１の音声指示の説明図である。
次に、実施形態３の端末装置１の簡易入力機能について説明する。なお、実施形態３において、他の実施形態と同様な構成については同一の符号を付して、その詳細な説明を省略する。

実施形態３においては、図７（Ａ）に示すように、話者が端末装置１を耳に当てた状態で音声指示が行われることを想定している。ただし、図７（Ａ）に示すように、本実施形態の端末装置１は、端末装置１の上側にカメラ１４が配置されているため、カメラ１４によって話者の口元の画像を撮像し難い。

そこで、図７（Ｂ）に示すように、実施形態３では、端末装置１が上下反転された状態で使用するようにしている。端末装置１が上下反転されることで、カメラ１４は、下側に位置することになる。したがって、カメラ１４によって、話者の口元の画像が撮像され易くなる。

そして、実施形態３において、音声指示を開始するための予め定められた操作（図６、Ｓ１０１）は、端末装置１が上下反転されるという操作になる。なお、端末装置１が上下反転されたか否かは、ジャイロセンサ１０５によって特定される。そして、実施形態３では、端末装置１が上下反転されたことによって、音声指示を行うモードに移行する。

そして、実施形態３では、変形例１と同様に、話者の口元の画像の変動量を検出する。例えば、上唇や下唇などの口元における特徴的な箇所の変動量を算出し、予め定められた設定量以上の変動が検出されている期間を発話期間とする。
実施形態３の端末装置１では、カメラ１４によって撮像された画像情報において口元が設定量以上の変動を行っていることが特定されたときを、音声入力の開始のタイミングとする。また、実施形態３の端末装置１では、音声入力の開始後、カメラ１４によって撮像される画像情報において口元が設定量以上の変動を行っていないことが特定されたときを、音声入力の終了のタイミングとする。

なお、端末装置１が上下反転されることで、スピーカ１２が下側に位置し、マイク１３が上側に位置する。すなわち、話者の口元にカメラ１４およびスピーカ１２が対向し、話者の耳元にマイク１３が対向した状態になる。
そこで、実施形態３では、スピーカ１２とマイク１３との機能を、上下反転される前の状態に対して入れ替える。すなわち、実施形態３の端末装置１では、スピーカ１２にて音声情報を取得するとともに、マイク１３にて音声を出力するように制御する。スピーカ１２およびマイク１３のハードウェアの基本構成は同じである。従って、実施形態３では、スピーカ１２およびマイク１３の機能をソフトウェアによる制御によって変更する。そして、スピーカ１２の振動板にて話者の音声に基づく振動を検出し音声信号を生成し、マイク１３の振動板を振動させることで音声を出力する。

なお、実施形態３において、端末装置１が上下反転されたときを、音声入力の開始のタイミングとしても良い。この場合、端末装置１は、音声入力の開始後、カメラ１４によって撮像された画像情報から特定される話者の発話の状態に基づいて、音声入力の終了のタイミングを特定すれば良い。

以上のとおり、実施形態３においても、話者が端末装置１を耳に当てた状態で、話者が端末装置１に対して話しかけるという発話動作を行うだけで、話者の発話動作以外の操作を行うことを必須とせずに、自動的に音声入力が完了する。

なお、本実施形態において、発話を行う話者の状態に基づいて、音声入力の開始および終了の両方のタイミングを特定しているが、いずれか一方のタイミングだけを特定しても良い。この場合であっても、話者が音声指示を行う際において、例えば話者の操作回数が低減されることで話者の操作が容易になる。

また、実施形態１においては板形状の端末装置１を例に説明したが、形状や使用時の形態は、本実施形態の態様に限定されるものではない。例えば、端末装置１は、所謂携帯端末のように携帯されることに限定されず、テーブルなどに設置して使用されるものでも良い。また、端末装置１の形状は、例えば円柱状、楕円形形状や角柱形状など、本実施形態とは異なる形状を有していても構わない。

なお、上述した簡易入力機能はプログラムとして捉えることができる。さらに、簡易入力機能をコンピュータに実現させるプログラムは、例えば通信手段により提供することはもちろん、各種の記録媒体に格納して提供しても良い。

１…端末装置、１１…タッチパネル、１２…スピーカ、１３…マイク、１４…カメラ、１５…距離センサ、１６…操作ボタン、１７…制御部、２１…音量取得部、２２…画像取得部、２３…音声入力部、２４…指示部

Claims

話者の音声情報を取得する取得手段と、
前記話者の発話に関する動作を検出する検出手段と、
前記検出手段が前記動作を検出した後に前記取得手段が取得した前記音声情報に応じて音声指示を行う音声指示手段と、
を備える情報処理装置。
前記音声指示手段は、前記検出手段によって前記動作が検出されなくなった場合に、検出されなくなったときよりも以前に前記取得手段から取得した前記音声情報を用いて前記音声指示を行う請求項１に記載の情報処理装置。
前記検出手段は、本装置に対して発話を行う前記話者の画像に基づいて、前記動作を検出する請求項１に記載の情報処理装置。
前記検出手段は、前記話者の口元の画像を検出する請求項３に記載の情報処理装置。
前記検出手段は、前記話者の口元の動きを検出する請求項３に記載の情報処理装置。
前記検出手段は、本装置と前記話者との距離の変位に基づいて、前記動作を検出する請求項１に記載の情報処理装置。
前記検出手段は、予め定められた波長の光を用いて前記距離の変位を特定する請求項６に記載の情報処理装置。
前記検出手段は、前記話者を撮影した画像における被写体の大きさに基づいて前記距離の変位を特定する請求項６に記載の情報処理装置。
前記検出手段は、本装置が上下反転した状態にて、前記話者の口元の画像を撮像する請求項１に記載の情報処理装置。
スピーカおよびマイクを備え、
前記取得手段として前記スピーカにより前記音声情報を取得し、前記マイクにて音を出力する請求項９に記載の情報処理装置。
前記音声指示手段は、本装置が上下反転された際に、前記音声指示のための前記取得手段からの前記音声情報の取得を開始する請求項９に記載の情報処理装置。
前記検出手段は、本装置の下側に設けられるカメラである請求項１に記載の情報処理装置。
話者の音声情報を取得する取得手段と、
前記話者の発話に関する動作を検出する検出手段と、
前記検出手段が検出する前記動作から特定される時期に前記取得手段が取得した前記音声情報に応じて音声指示を行う音声指示手段と、
を備える情報処理装置。
話者の音声情報を取得する取得手段と、
発話を行う前記話者の状態から当該話者の一連の発話の終了を特定し、前記取得手段が取得した前記音声情報に応じて音声指示を行う音声指示手段と、
を備える情報処理装置。
情報処理装置として機能するコンピュータに、
話者の音声情報を取得する機能と、
前記話者の発話に関する動作を検出する機能と、
前記動作を検出した後に取得した前記音声情報に応じて音声指示を行う機能と、
を実現させるためのプログラム。