JP2019015773A - 情報処理装置およびプログラム - Google Patents

情報処理装置およびプログラム Download PDF

Info

Publication number
JP2019015773A
JP2019015773A JP2017131009A JP2017131009A JP2019015773A JP 2019015773 A JP2019015773 A JP 2019015773A JP 2017131009 A JP2017131009 A JP 2017131009A JP 2017131009 A JP2017131009 A JP 2017131009A JP 2019015773 A JP2019015773 A JP 2019015773A
Authority
JP
Japan
Prior art keywords
speaker
voice
information
terminal device
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017131009A
Other languages
English (en)
Other versions
JP7056020B2 (ja
Inventor
嘉彦 根本
Yoshihiko Nemoto
嘉彦 根本
賢吾 得地
Kengo Tokuchi
賢吾 得地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2017131009A priority Critical patent/JP7056020B2/ja
Priority to US15/915,713 priority patent/US10685651B2/en
Publication of JP2019015773A publication Critical patent/JP2019015773A/ja
Priority to US16/870,415 priority patent/US11682392B2/en
Application granted granted Critical
Publication of JP7056020B2 publication Critical patent/JP7056020B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

【課題】音声指示を行う際に、音声入力の開始や終了のために特別な操作を必要とする場合と比較して、話者の操作を容易にする。【解決手段】端末装置は、話者の音声情報を取得するマイク13と、話者の発話に関する動作を検出するカメラ14と、カメラ14が話者の発話に関する動作を検出した後にマイク13が取得した音声情報に応じて音声指示を行う指示部24とを備える。端末装置では、音声指示を行う際に、例えばカメラ14によって発話に関する動作を検出することで、音声入力の開始や終了のための話者の操作が容易になる。【選択図】図3

Description

本発明は、情報処理装置およびプログラムに関する。
例えば特許文献1には、所定の機能を提供するアプリケーションを制御する端末装置において、アプリケーションが動作中か否かを判別する動作判別手段と、自装置の姿勢を検出する姿勢検出手段と、動作判別手段によってアプリケーションの動作中と判別された場合に、姿勢検出手段により検出された姿勢を基準姿勢として記憶手段に記憶する記憶制御手段と、姿勢検出手段により検出された姿勢と、記憶制御手段により記憶手段に記憶された基準姿勢とを比較する比較手段と、比較手段の比較結果に応じて、アプリケーションの動作を制御する動作制御手段とを具備する端末装置が記載されている。
特開2011−18272号公報
ところで、音声入力に基づいて予め定められた処理を実行させる音声指示を行う際、例えば、話者がボタン等を操作することで音声入力が開始され、再びボタン等が操作されることで音声入力が終了される。このように、従来は、音声指示を行う際に、音声入力の開始や終了のために、話者の発話動作とは別に操作を行う必要があった。また、音声入力が開始された後、無音のまま所定時間が経過することを条件として音声入力を終了させることもあるが、この場合、ノイズを拾ってしまったり、ノイズのレベルによっては無音の期間が検出されず話者が発話を止めても音声入力が終了しなかったりするおそれがあった。
そこで、本発明は、音声指示を行う際に、音声入力の開始や終了のために特別な操作を必要とする場合と比較して、話者の操作を容易にすることを目的とする。
請求項1に記載の発明は、話者の音声情報を取得する取得手段と、前記話者の発話に関する動作を検出する検出手段と、前記検出手段が前記動作を検出した後に前記取得手段が取得した前記音声情報に応じて音声指示を行う音声指示手段と、を備える情報処理装置である。
請求項2に記載の発明は、前記音声指示手段は、前記検出手段によって前記動作が検出されなくなった場合に、検出されなくなったときよりも以前に前記取得手段から取得した前記音声情報を用いて前記音声指示を行う請求項1に記載の情報処理装置である。
請求項3に記載の発明は、前記検出手段は、本装置に対して発話を行う前記話者の画像に基づいて、前記動作を検出する請求項1に記載の情報処理装置である。
請求項4に記載の発明は、前記検出手段は、前記話者の口元の画像を検出する請求項3に記載の情報処理装置である。
請求項5に記載の発明は、前記検出手段は、前記話者の口元の動きを検出する請求項3に記載の情報処理装置である。
請求項6に記載の発明は、前記検出手段は、本装置と前記話者との距離の変位に基づいて、前記動作を検出する請求項1に記載の情報処理装置である。
請求項7に記載の発明は、前記検出手段は、予め定められた波長の光を用いて前記距離の変位を特定する請求項6に記載の情報処理装置である。
請求項8に記載の発明は、前記検出手段は、前記話者を撮影した画像における被写体の大きさに基づいて前記距離の変位を特定する請求項6に記載の情報処理装置である。
請求項9に記載の発明は、前記検出手段は、本装置が上下反転した状態にて、前記話者の口元の画像を撮像する請求項1に記載の情報処理装置である。
請求項10に記載の発明は、スピーカおよびマイクを備え、前記取得手段として前記スピーカにより前記音声情報を取得し、前記マイクにて音を出力する請求項9に記載の情報処理装置である。
請求項11に記載の発明は、前記音声指示手段は、本装置が上下反転された際に、前記音声指示のための前記取得手段からの前記音声情報の取得を開始する請求項9に記載の情報処理装置である。
請求項12に記載の発明は、前記検出手段は、本装置の下側に設けられるカメラである請求項1に記載の情報処理装置である。
請求項13に記載の発明は、話者の音声情報を取得する取得手段と、前記話者の発話に関する動作を検出する検出手段と、前記検出手段が検出する前記動作から特定される時期に前記取得手段が取得した前記音声情報に応じて音声指示を行う音声指示手段と、を備える情報処理装置である。
請求項14に記載の発明は、話者の音声情報を取得する取得手段と、発話を行う前記話者の状態から当該話者の一連の発話の終了を特定し、前記取得手段が取得した前記音声情報に応じて音声指示を行う音声指示手段と、を備える情報処理装置である。
請求項15に記載の発明は、情報処理装置として機能するコンピュータに、話者の音声情報を取得する機能と、前記話者の発話に関する動作を検出する機能と、前記動作を検出した後に取得した前記音声情報に応じて音声指示を行う機能と、を実現させるためのプログラムである。
請求項1の発明によれば、音声指示を行う際に、音声入力の開始や終了のために特別な操作を必要とする場合と比較して、話者の操作を容易にすることができる。
請求項2の発明によれば、的確なタイミングで音声指示を終了することが可能になる。
請求項3の発明によれば、発話を行う話者の画像を用いて直接的に発話に関する動作を検出することができる。
請求項4の発明によれば、発話を行う口元の画像を用いて発話に関する動作を精度良く検出することができる。
請求項5の発明によれば、発話を行う口元の動きを用いて発話に関する動作を精度良く検出することができる。
請求項6の発明によれば、音声指示を行う際、話者と本装置とが相対的に近づいたり遠ざかったりするという動作を検出することが可能になる。
請求項7の発明によれば、本装置と話者との距離を直接的に検出することができる。
請求項8の発明によれば、撮像画像を利用して本装置と話者との距離を検出することができる。
請求項9の発明によれば、一般的に本装置の上側に配置されている撮像手段を利用して発話に関する動作を検出することが可能になる。
請求項10の発明によれば、本装置が上下反転された状態であっても、情報処理装置における音声情報の取得と音声の出力とが容易になる。
請求項11の発明によれば、本装置が上下反転されることによって、音声指示のための音声情報の取得を開始することができる。
請求項12の発明によれば、本装置と話者との距離が近い状態で音声指示が行われる際においても話者の発話に関する動作をカメラによって検出し易くなる。
請求項13の発明によれば、音声指示を行う際に、音声入力の開始や終了のために特別な操作を必要とする場合と比較して、話者の操作を容易にすることができる。
請求項14の発明によれば、音声指示を行う際に、音声入力の終了のために特別な操作を必要とする場合と比較して、話者の操作を容易にすることができる。
請求項15の発明によれば、音声指示を行う際に、音声入力の開始や終了のために特別な操作を必要とする場合と比較して、話者の操作を容易にすることが可能なプログラムを提供することができる。
実施形態1の端末装置の全体図である。 実施形態1の端末装置のハードウェア構成例を示した図である。 本実施形態の簡易入力機能を実現する機能ブロック図である。 (A)および(B)は、端末装置において音声指示が行われる際の説明図である。 (A)および(B)は、端末装置において音声指示が行われる際にカメラで取得される画像の一例の図である。 実施形態1の簡易入力機能の動作フロー図である。 (A)および(B)は、実施形態3における端末装置の音声指示の説明図である。
以下、添付図面を参照して、本発明を実施するための形態について説明する。
<実施形態1>
図1は、実施形態1の端末装置1の全体図である。
図1に示すように、本実施形態の端末装置1は、画像を表示するとともにユーザの操作を受け付けるタッチパネル11と、音を出力するスピーカ12と、音声情報を取得するマイク13と、被写体を撮像するカメラ14と、赤外線を用いて対象物の検出を行う距離センサ15と、ユーザの操作を受け付ける操作ボタン16と、端末装置1の全体を統括的に制御する制御部17と、を備える。
タッチパネル11は、制御部17による制御に基づいて、静止画や動画などの画像を表示する。また、タッチパネル11は、ユーザの指等のタッチ操作(接触操作)を検知する。そして、端末装置1では、タッチパネル11に対するユーザのタッチ操作が行われると、タッチ操作に応じて予め定められた処理が実行される。
なお、タッチパネル11には、例えば液晶ディスプレイや有機ELディスプレイ等を用いて良い。また、タッチパネルの構成には、静電容量方式や抵抗膜方式など各種方式を用いて良い。
スピーカ12は、電気信号に基づいて振動板を振動させることによって音声を出力する。また、本実施形態のスピーカ12は、端末装置1の上側に配置されている。そして、スピーカ12は、端末装置1をユーザが手に持って顔に近づけた状態で、ユーザの耳の近くに位置する。
マイク13(取得手段の一例)は、音によって振動する振動板の動作を電気信号に変換することで音声情報を生成する。また、本実施形態のマイク13は、端末装置1の下側(端末装置1の上下方向においてスピーカ12とは逆側)に配置されている。そして、マイク13は、端末装置1をユーザが手に持って顔に近づけた状態で、ユーザの口の近くに位置する。
カメラ14(検出手段の一例)は、端末装置1の表裏の側において、タッチパネル11、スピーカ12およびマイク13と同じ側に設けられる。そして、カメラ14は、カメラ14が設けられている側に位置する被写体を撮像する。
距離センサ15(検出手段の一例)は、赤外光の発光部と受光部が一体的に構成されたセンサである。そして、距離センサ15は、発光部から照射された赤外光が、対象物にて反射して受光部に受光するときの出力電圧の変化によって、対象物との距離を検出する。
なお、距離センサ15は、赤外線だけではなく、予め定められた波長の光を用いて対象物との距離を検出しても良い。
操作ボタン16は、機械的な構造により構成されたボタンである。そして、操作ボタン16は、タッチパネル11とは別に、ユーザの操作を受け付ける。本実施形態の端末装置1では、操作ボタン16が押下されることで、タッチパネル11に例えばホーム画面画像が表示される。
制御部17(音声指示手段の一例)は、端末装置1の全体を統括的に制御する。例えば、制御部17は、端末装置1の電源制御や、タッチパネル11に表示する画像の表示制御や、ネットワーク等を介した通信制御などの各種制御を行う。
次に、端末装置1のハードウェア構成について説明する。
図2は、実施形態1の端末装置1のハードウェア構成例を示した図である。
図2に示すように、端末装置1は、演算手段であるCPU101と、記憶手段であるメインメモリ102、フラッシュメモリ103とを備える。また、端末装置1は、外部との通信を行うための通信I/F104と、端末装置1の向き検知するジャイロセンサ105と、端末装置1の動きを検知する加速度センサ106と、日時を計測するRTC(リアルタイムクロック)107と、を備える。
CPU101は、OS(Operating System)やアプリケーションソフトウェア等の各種プログラムを実行し、端末装置1の各機能を実現する。また、メインメモリ102は、各種プログラムやその実行に用いるデータ等を記憶する記憶領域であり、フラッシュメモリ103は、各種プログラムに対する入力データや各種プログラムからの出力データ等を記憶する記憶領域である。
以上のように構成される端末装置1は、制御部17の制御に基づいて、スピーカ12、マイク13および通信I/F104を用いる通話操作、通信I/F104およびタッチパネル11を用いるインターネット利用操作、カメラ14およびタッチパネル11を用いる撮影操作、タッチパネル11を用いる静止画および動画の閲覧操作やゲーム操作など、ユーザが利用可能な各種の操作が実行可能である。
また、端末装置1において、ユーザによる文字等の情報の入力は、タッチパネル11に表示されるキーボード画像やテンキー画像によって行われる。さらに、本実施形態では、マイク13にてユーザにより発せられた音声から文字列を入力する「音声入力」が可能になっている。
さらに、本実施形態の端末装置1では、音声入力により入力された文字列に基づいて、端末装置1において実行可能な各種操作を実行する「音声指示」が可能になっている。
ところで、従来は、音声指示を行う際、音声入力の開始と音声入力の終了とのタイミングにおいて、それぞれ話者が端末装置1に対して特別の操作を行うことが要求されていた。
例えば、音声指示として、音声入力によるインターネット検索を行う場合、まず、話者は、タッチパネル11に表示されるアイコン画像を操作して、インターネット検索のためのブラウザを起動する。その後、音声入力を開始するには、タッチパネル11に表示される音声入力の開始のためのボタンの操作が必要であった。また、音声入力の終了の際には、タッチパネル11に表示される音声入力の終了のためのボタンの操作が必要であった。
なお、音声入力の終了の際、音声入力の終了のためのボタンの操作が要求されない場合があるが、この場合、話者が発話を止めても、装置側において音声入力が継続されてしまったり、他の人の声や周囲の雑音などのノイズが文字入力に反映されたりすることがあった。
これに対して、本実施形態の端末装置1は、音声入力の際に、話者の発話に関する動作、すなわち発話を行う話者の状態を検出することで、音声入力の開始および終了の両方または一方において、話者の発話動作以外の端末装置1に対する操作を不要とする「簡易入力機能」を備えている。
以下、簡易入力機能について、詳細に説明する。
図3は、本実施形態の簡易入力機能を実現する機能ブロック図である。
図4は、端末装置1において音声指示が行われる際の説明図である。
図5は、端末装置1において音声指示が行われる際にカメラで取得される画像の一例の図である。
図3に示すように、制御部17は、音声情報を取得する音声取得部21と、画像情報を取得する画像取得部22と、音声情報を文字情報に変換する音声入力部23と、端末装置1を動作させる指示を行う指示部24と、を有する。
そして、本実施形態では、端末装置1は、端末装置1(本装置)に対して操作を行う話者の画像に基づいて話者の発話に関する動作を検出し、音声情報に応じた音声指示を行うようにしている。
音声取得部21は、マイク13から音声情報を取得する。そして、音声取得部21は、マイク13が音声情報を生成したときの時間情報をRTC107にて参照し、時系列の音声情報を作成する。そして、音声取得部21は、時系列の音声情報を音声入力部23に送る。
さらに、本実施形態の音声取得部21は、時系列の音声情報のうち、予め定められた音量レベルの範囲となっている期間(以下、特定音量レベル期間)を特定する。本実施形態において、予め定められた音量レベルとは、端末装置1に対して約10cm離れた位置にて話者が一般的な声の大きさで発話をした場合に基づいて予め定められたレベルである。
そして、音声取得部21は、特定音量レベル期間の情報を、音声入力部23に送る。
画像取得部22は、音声指示が行われる際に、カメラ14が撮像した画像情報を取得する。このとき、画像取得部22は、画像情報が取得される際の時間情報を画像情報に合わせて音声入力部23に送る。すなわち、画像取得部22は、カメラ14が画像情報を生成したときの時間情報をRTC107にて参照し、時系列の画像情報を作成する。
さらに、画像取得部22は、取得した画像情報から発話を行っている人物(話者)の口元の画像を検出する。そして、画像取得部22は、画像情報として口元の画像が検出されている時間を特定する。
話者が音声入力を行う際、話者が端末装置1を手に持っている場合、図4(A)に示すように、話者は、端末装置1を顔に近づける。また、話者が音声入力を行う際、話者が端末装置1を手に持っていたり、端末装置1がテーブル等に置かれた状態であったりする場合、図4(B)に示すように、端末装置1に対して顔を近づける。
そのため、話者が音声入力を行う際、図5(A)に示すように、カメラ14により取得される画像A(画像情報)は、主に話者の口元となり、画像Aは概ね口元の画像によって占められる状態になる。逆に、画像情報には、話者の口元以外の要素の画像が含まれにくくなる。
そこで、実施形態1では、画像情報として口元の画像が検出された際に、話者が発話を開始したタイミングと判断するようにしている。
一方、話者が音声入力を終了する際、話者が端末装置1を手に持っている場合、図4(A)に示すように、話者は、端末装置1を顔から遠ざける。また、話者が音声入力を終了する際、話者が端末装置1を手に持っていたり、端末装置1がテーブル等に置かれた状態であったりする場合、図4(B)に示すように、端末装置1から顔を遠ざける。
そのため、話者が音声入力を終了する際、図5(B)に示すように、カメラ14により取得される画像B(画像情報)は、口元の画像ではなく、口元以外の要素を含む画像によって構成されたり、そもそも口元や顔自体を含まない画像によって構成されたりする。
そこで、実施形態1では、画像情報として口元の画像が検出されなくなった際に、話者が一連の発話を終了したタイミングと判断するようにしている。
以上のように、実施形態1では、口元の画像が検出されたときから、口元の画像が検出されなくなったときまでの時間を、発話期間として特定する。そして、画像取得部22は、発話期間の情報を音声入力部23に送る。
音声入力部23は、マイク13が取得した音声情報を取得する。そして、音声入力部23は、発話期間に対応する期間の音声情報を文字列に変換した文字情報(テキスト情報)を作成する。すなわち、音声入力部23は、発話に関する動作が検出されてから、発話に関する動作が検出されなくなるまでに取得された音声情報に対して、文字情報に変換する処理を行う。
なお、音声入力部23は、音響モデルや言語モデルなどの音声入力(音声認識)に関する各種のモデルを用いることができる。
また、本実施形態では、音声入力部23は、発話期間の情報に加えて、音声取得部21から取得した特定音量レベル期間も加味して文字情報の作成を行う。具体的には、特定音量レベル期間に対応する期間の音声情報に対して、文字情報に変換する処理を行う。
なお、発話時間の情報に特定音量レベル期間の情報を加味して、音声入力の開始や終了のタイミングを特定することは、他の実施形態においても適用される。ただし、音声入力部23は、特定音量レベル期間の情報よりも発話期間の情報を優先する。
そして、音声入力部23は、作成した文字情報を指示部24に送る。
指示部24は、音声入力部23から取得した文字情報に基づいて、端末装置1における各構成部を動作させる。すなわち、指示部24は、文字情報に基づいて、端末装置1に設けられた各構成部を用いた機能を実行させる。
なお、指示部24によって実行される端末装置1の機能としては、以下の例を挙げることができる。
例えば、インターネット検索のアプリケーションが起動している状態で、指示部24が文字情報を取得した場合には、指示部24は、文字情報により特定される検索ワードをタッチパネル11に表示するとともに、その検索ワードについてインターネット検索を実行させる。
また、指示部24は、文字情報により特定される内容が、端末装置1に設けられた構成部を用いて実現される機能に関するものである場合、その機能を利用可能な状態にする。具体的には、文字情報が「〇〇に電話をかけて」といった内容であれば、指示部24は、〇〇と通話を行うために通信I/F104を起動して発信動作を行う。また、文字情報が「〇時〇分にアラームを鳴らして」といった内容であれば、指示部24は、〇時〇分にスピーカ12から予め定められたアラーム音を出力させる。
次に、簡易入力機能の動作の流れを具体的に説明する。
図6は、実施形態1の簡易入力機能の動作フロー図である。
以下では、音声入力により入力された検索ワードについてインターネット検索を実行させるという音声指示の例について説明する。
まず、話者は、予め定められた操作を行う(S101)。この例では、話者は、インターネット検索のためのブラウザを起動するために、タッチパネル11上に表示されるアイコンを押す(S101)。
その後、話者は、音声入力を行うために口元を端末装置1に近づける。このとき、端末装置1では、カメラ14によって口元の画像が検出されるか否かを判断する(S102)。S102にて、口元の画像の検出がされなかった場合には(S102にてNo)、タッチパネル11に対する接触操作によって、文字入力が行われているか否か判断する(S103)。文字入力が行われている場合には(S103でYes)、簡易入力機能としての処理は終了する。
一方、口元の画像が検出されない場合(S102にてNo)であって、文字入力が行われない場合(S103にてNo)には、予め定められた時間が経過したか否か判断する(S104)。
予め定められた時間が経過していなければ(S104でNo)、再びS102に戻り、口元の画像が検出されたか否かを判断する。また、予め定められた時間が経過していれば(S104でYes)、簡易入力機能としての処理は終了する。
また、S102にて口元の画像が検出された場合(S102にてYes)、その時点で、マイク13にて取得した音声情報を用いる音声入力を開始する(S105)。
その後、口元の画像が検出されなくなったか否かを判断する(S106)。S106にて口元の画像が検出されている場合には(S106にてNo)、マイク13にて取得する音声情報を用いる音声入力を継続する。
一方、S106にて口元の画像が検出されなくなった場合(S106にてYes)、その時点で、マイク13からの音声情報の取得を停止し、音声入力を終了する(S107)。
そして、本実施形態においては、音声入力が開始された後、音声入力が終了するまでにマイク13から取得した音声情報を用いて、予め定められた音声指示を実行する(S108)。この例では、音声入力が開始されてから終了するまでに取得された音声情報を変換した検索ワードを用いて、例えばインターネット検索を実行させる。
なお、音声指示を行うにあたって、S101における予め定められた操作は、必須のものではない。例えば、画像取得部22が常時起動されており、口元の画像が検出されたことをもって、音声入力を開始するようにしても良い。この場合、話者が端末装置1のタッチパネル11上のアイコンを操作するなどの予め定められた操作を行わなくても、音声指示(音声入力)が開始される。
以上説明したとおり、実施形態1においては、話者が端末装置1のマイク13に対して話しかけるという発話動作を行うだけで、音声入力の開始や終了に際して、発話動作以外の操作を行うことを必須とせず、自動的に音声入力が完了する。
(変形例1)
次に、変形例1について説明する。
画像取得部22による話者の画像の検出に基づく発話期間の特定は、上述した口元の画像の検出に基づく例に限定されない。例えば、画像取得部22は、話者の口元の動きを検出することで、発話期間を特定しても良い。
具体的には、画像取得部22は、話者の口元の画像の変動量を検出する。変形例1の画像取得部22は、例えば、上唇や下唇などの口元の特徴的な箇所の変動量を特定する。そして、画像取得部22は、口元の画像において予め定められた量以上の変動量が検出されている期間を、発話期間とする。より詳細には、画像取得部22は、話者の口元の画像に基づいて、口元の変動が予め定められた変動量以上になったことが特定されたときを、音声入力の開始のタイミングとする。また、画像取得部22は、音声入力の開始後、口元の変動が予め定められた量未満になったことが特定されたときを、音声入力の終了のタイミングとする。
このように、変形例1において、画像取得部22は、話者が発話を行っていることを直接的かつ動的に検出する。
<実施形態2>
次に、実施形態2の端末装置1の簡易入力機能について説明する。なお、実施形態2において、実施形態1と同様な構成については同一の符号を付して、その詳細な説明を省略する。
実施形態2の端末装置1では、端末装置1と話者との距離に基づいて、話者の発話に関する動作を検出する。
図4を参照しながら説明したとおり、端末装置1に対して音声入力を行う場合、端末装置1と話者との距離が近くなる。そこで、実施形態2においては、端末装置1と話者との距離を検出することで、発話期間を特定する。
実施形態2において、端末装置1では、距離センサ15を用いて端末装置1と話者との距離を検出する。そして、実施形態2の端末装置1では、端末装置1と話者との距離が予め定められた設定距離よりも短い期間を、発話期間とする。より詳細には、端末装置1は、音声指示が行われる際、距離センサ15によって対象物(話者)との距離が設定距離よりも短いことが特定されたときを、音声入力の開始のタイミングとする。また、端末装置1は、音声入力の開始後、距離センサ15によって対象物(話者)との距離が設定距離以上になったことが特定されたときを、音声入力の終了のタイミングとする。
以上のとおり、実施形態2においても、話者が端末装置1のマイク13に対して話しかけるという発話動作を行うだけで、音声入力の開始や終了に際して、発話動作以外の操作を行うことを必須とせず、自動的に音声入力が完了する。
(変形例2)
次に、変形例2について説明する。
上述した例では、端末装置1と話者との距離の変位に基づいて、話者の発話に関する動作を検出するにあたって、距離センサ15を用いているが、この例に限定されない。
変形例2の端末装置1は、カメラ14にて得られる画像情報に基づいて話者との距離の変位を検出する。具体的には、変形例2の端末装置1では、音声指示が行われる際、カメラ14の画像情報において特定可能な長さの変化に基づいて、話者と端末装置1との距離の変位を検出することで、発話期間を特定する。
変形例2の端末装置1では、図5(A)および図5(B)に示すように、例えば話者の口元の画像から、口の右側の口角P1と口の左側の口角P2との間隔Lの長さを特定する。カメラ14によって撮像される画像における口角の間隔Lは、端末装置1と話者との距離に比例する。そこで、変形例2の端末装置1は、口角の間隔Lが予め定めた設定距離よりも大きいことが特定されたときを、音声入力の開始のタイミングとする。また、変形例2の端末装置1は、音声入力の開始後、口角の間隔Lが設定距離以下になったとき、あるいは、画像情報から口元の画像そのものが特定できなくなったときを、音声入力の終了のタイミングとする。
なお、変形例2において、画像情報から被写体の長さが特定できれば、上述した口角の間隔Lの例に限定されない。変形例2において、例えば、画像情報から特定される話者の両耳の間隔、両目の間隔、口全体の大きさ(幅)、鼻の大きさ(幅)、顔の大きさ(幅)などに基づいて、端末装置1と話者との距離の変位を検出しても良い。
なお、実施形態1等において、マイク13の周辺、すなわち端末装置1の下側にカメラ14を設けても良い。このように構成した場合、話者が端末装置1を耳に当てた状態であっても、カメラ14によって話者の口元の画像が撮像される。そして、上述したように、口元の画像や、画像情報の被写体から特定される距離に基づいて、話者の発話に関する動作を検出し、音声情報に応じた音声指示を行うようにしても良い。
<実施形態3>
図7は、実施形態3における端末装置1の音声指示の説明図である。
次に、実施形態3の端末装置1の簡易入力機能について説明する。なお、実施形態3において、他の実施形態と同様な構成については同一の符号を付して、その詳細な説明を省略する。
実施形態3においては、図7(A)に示すように、話者が端末装置1を耳に当てた状態で音声指示が行われることを想定している。ただし、図7(A)に示すように、本実施形態の端末装置1は、端末装置1の上側にカメラ14が配置されているため、カメラ14によって話者の口元の画像を撮像し難い。
そこで、図7(B)に示すように、実施形態3では、端末装置1が上下反転された状態で使用するようにしている。端末装置1が上下反転されることで、カメラ14は、下側に位置することになる。したがって、カメラ14によって、話者の口元の画像が撮像され易くなる。
そして、実施形態3において、音声指示を開始するための予め定められた操作(図6、S101)は、端末装置1が上下反転されるという操作になる。なお、端末装置1が上下反転されたか否かは、ジャイロセンサ105によって特定される。そして、実施形態3では、端末装置1が上下反転されたことによって、音声指示を行うモードに移行する。
そして、実施形態3では、変形例1と同様に、話者の口元の画像の変動量を検出する。例えば、上唇や下唇などの口元における特徴的な箇所の変動量を算出し、予め定められた設定量以上の変動が検出されている期間を発話期間とする。
実施形態3の端末装置1では、カメラ14によって撮像された画像情報において口元が設定量以上の変動を行っていることが特定されたときを、音声入力の開始のタイミングとする。また、実施形態3の端末装置1では、音声入力の開始後、カメラ14によって撮像される画像情報において口元が設定量以上の変動を行っていないことが特定されたときを、音声入力の終了のタイミングとする。
なお、端末装置1が上下反転されることで、スピーカ12が下側に位置し、マイク13が上側に位置する。すなわち、話者の口元にカメラ14およびスピーカ12が対向し、話者の耳元にマイク13が対向した状態になる。
そこで、実施形態3では、スピーカ12とマイク13との機能を、上下反転される前の状態に対して入れ替える。すなわち、実施形態3の端末装置1では、スピーカ12にて音声情報を取得するとともに、マイク13にて音声を出力するように制御する。スピーカ12およびマイク13のハードウェアの基本構成は同じである。従って、実施形態3では、スピーカ12およびマイク13の機能をソフトウェアによる制御によって変更する。そして、スピーカ12の振動板にて話者の音声に基づく振動を検出し音声信号を生成し、マイク13の振動板を振動させることで音声を出力する。
なお、実施形態3において、端末装置1が上下反転されたときを、音声入力の開始のタイミングとしても良い。この場合、端末装置1は、音声入力の開始後、カメラ14によって撮像された画像情報から特定される話者の発話の状態に基づいて、音声入力の終了のタイミングを特定すれば良い。
以上のとおり、実施形態3においても、話者が端末装置1を耳に当てた状態で、話者が端末装置1に対して話しかけるという発話動作を行うだけで、話者の発話動作以外の操作を行うことを必須とせずに、自動的に音声入力が完了する。
なお、本実施形態において、発話を行う話者の状態に基づいて、音声入力の開始および終了の両方のタイミングを特定しているが、いずれか一方のタイミングだけを特定しても良い。この場合であっても、話者が音声指示を行う際において、例えば話者の操作回数が低減されることで話者の操作が容易になる。
また、実施形態1においては板形状の端末装置1を例に説明したが、形状や使用時の形態は、本実施形態の態様に限定されるものではない。例えば、端末装置1は、所謂携帯端末のように携帯されることに限定されず、テーブルなどに設置して使用されるものでも良い。また、端末装置1の形状は、例えば円柱状、楕円形形状や角柱形状など、本実施形態とは異なる形状を有していても構わない。
なお、上述した簡易入力機能はプログラムとして捉えることができる。さらに、簡易入力機能をコンピュータに実現させるプログラムは、例えば通信手段により提供することはもちろん、各種の記録媒体に格納して提供しても良い。
1…端末装置、11…タッチパネル、12…スピーカ、13…マイク、14…カメラ、15…距離センサ、16…操作ボタン、17…制御部、21…音量取得部、22…画像取得部、23…音声入力部、24…指示部

Claims (15)

  1. 話者の音声情報を取得する取得手段と、
    前記話者の発話に関する動作を検出する検出手段と、
    前記検出手段が前記動作を検出した後に前記取得手段が取得した前記音声情報に応じて音声指示を行う音声指示手段と、
    を備える情報処理装置。
  2. 前記音声指示手段は、前記検出手段によって前記動作が検出されなくなった場合に、検出されなくなったときよりも以前に前記取得手段から取得した前記音声情報を用いて前記音声指示を行う請求項1に記載の情報処理装置。
  3. 前記検出手段は、本装置に対して発話を行う前記話者の画像に基づいて、前記動作を検出する請求項1に記載の情報処理装置。
  4. 前記検出手段は、前記話者の口元の画像を検出する請求項3に記載の情報処理装置。
  5. 前記検出手段は、前記話者の口元の動きを検出する請求項3に記載の情報処理装置。
  6. 前記検出手段は、本装置と前記話者との距離の変位に基づいて、前記動作を検出する請求項1に記載の情報処理装置。
  7. 前記検出手段は、予め定められた波長の光を用いて前記距離の変位を特定する請求項6に記載の情報処理装置。
  8. 前記検出手段は、前記話者を撮影した画像における被写体の大きさに基づいて前記距離の変位を特定する請求項6に記載の情報処理装置。
  9. 前記検出手段は、本装置が上下反転した状態にて、前記話者の口元の画像を撮像する請求項1に記載の情報処理装置。
  10. スピーカおよびマイクを備え、
    前記取得手段として前記スピーカにより前記音声情報を取得し、前記マイクにて音を出力する請求項9に記載の情報処理装置。
  11. 前記音声指示手段は、本装置が上下反転された際に、前記音声指示のための前記取得手段からの前記音声情報の取得を開始する請求項9に記載の情報処理装置。
  12. 前記検出手段は、本装置の下側に設けられるカメラである請求項1に記載の情報処理装置。
  13. 話者の音声情報を取得する取得手段と、
    前記話者の発話に関する動作を検出する検出手段と、
    前記検出手段が検出する前記動作から特定される時期に前記取得手段が取得した前記音声情報に応じて音声指示を行う音声指示手段と、
    を備える情報処理装置。
  14. 話者の音声情報を取得する取得手段と、
    発話を行う前記話者の状態から当該話者の一連の発話の終了を特定し、前記取得手段が取得した前記音声情報に応じて音声指示を行う音声指示手段と、
    を備える情報処理装置。
  15. 情報処理装置として機能するコンピュータに、
    話者の音声情報を取得する機能と、
    前記話者の発話に関する動作を検出する機能と、
    前記動作を検出した後に取得した前記音声情報に応じて音声指示を行う機能と、
    を実現させるためのプログラム。
JP2017131009A 2017-07-04 2017-07-04 情報処理装置およびプログラム Active JP7056020B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017131009A JP7056020B2 (ja) 2017-07-04 2017-07-04 情報処理装置およびプログラム
US15/915,713 US10685651B2 (en) 2017-07-04 2018-03-08 Information processing apparatus
US16/870,415 US11682392B2 (en) 2017-07-04 2020-05-08 Information processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017131009A JP7056020B2 (ja) 2017-07-04 2017-07-04 情報処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2019015773A true JP2019015773A (ja) 2019-01-31
JP7056020B2 JP7056020B2 (ja) 2022-04-19

Family

ID=64903331

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017131009A Active JP7056020B2 (ja) 2017-07-04 2017-07-04 情報処理装置およびプログラム

Country Status (2)

Country Link
US (2) US10685651B2 (ja)
JP (1) JP7056020B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7056020B2 (ja) * 2017-07-04 2022-04-19 富士フイルムビジネスイノベーション株式会社 情報処理装置およびプログラム
CN110517685B (zh) * 2019-09-25 2021-10-08 深圳追一科技有限公司 语音识别方法、装置、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006005440A (ja) * 2004-06-15 2006-01-05 Sony Corp 通話送受信方法および通話端末
JP2006208751A (ja) * 2005-01-28 2006-08-10 Kyocera Corp 発声内容認識装置
JP2010217754A (ja) * 2009-03-18 2010-09-30 Toshiba Corp 音声入力装置、音声認識システム及び音声認識方法
JP2013025605A (ja) * 2011-07-22 2013-02-04 Sony Corp 情報処理装置、情報処理方法及びプログラム
JP2014067203A (ja) * 2012-09-26 2014-04-17 Kyocera Corp 電子機器、注視点検出プログラムおよび注視点検出方法
JP2014153663A (ja) * 2013-02-13 2014-08-25 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
JP2015191448A (ja) * 2014-03-28 2015-11-02 パナソニックIpマネジメント株式会社 端末装置および端末装置における音声操作制御方法
JP2015191391A (ja) * 2014-03-28 2015-11-02 本田技研工業株式会社 アルコールインタロックシステム
JP2016076007A (ja) * 2014-10-03 2016-05-12 株式会社Nttドコモ 対話装置および対話方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004000043A1 (de) * 2004-11-17 2006-05-24 Siemens Ag Verfahren zur selektiven Aufnahme eines Schallsignals
EP2304647B1 (en) * 2008-05-08 2018-04-11 Nuance Communication, Inc. Localizing the position of a source of a voice signal
JP2011018272A (ja) 2009-07-10 2011-01-27 Nec Casio Mobile Communications Ltd 端末装置およびプログラム
US9747900B2 (en) * 2013-05-24 2017-08-29 Google Technology Holdings LLC Method and apparatus for using image data to aid voice recognition
US20170186446A1 (en) * 2015-12-24 2017-06-29 Michal Wosk Mouth proximity detection
JP7056020B2 (ja) * 2017-07-04 2022-04-19 富士フイルムビジネスイノベーション株式会社 情報処理装置およびプログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006005440A (ja) * 2004-06-15 2006-01-05 Sony Corp 通話送受信方法および通話端末
JP2006208751A (ja) * 2005-01-28 2006-08-10 Kyocera Corp 発声内容認識装置
JP2010217754A (ja) * 2009-03-18 2010-09-30 Toshiba Corp 音声入力装置、音声認識システム及び音声認識方法
JP2013025605A (ja) * 2011-07-22 2013-02-04 Sony Corp 情報処理装置、情報処理方法及びプログラム
JP2014067203A (ja) * 2012-09-26 2014-04-17 Kyocera Corp 電子機器、注視点検出プログラムおよび注視点検出方法
JP2014153663A (ja) * 2013-02-13 2014-08-25 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
JP2015191448A (ja) * 2014-03-28 2015-11-02 パナソニックIpマネジメント株式会社 端末装置および端末装置における音声操作制御方法
JP2015191391A (ja) * 2014-03-28 2015-11-02 本田技研工業株式会社 アルコールインタロックシステム
JP2016076007A (ja) * 2014-10-03 2016-05-12 株式会社Nttドコモ 対話装置および対話方法

Also Published As

Publication number Publication date
US11682392B2 (en) 2023-06-20
US10685651B2 (en) 2020-06-16
US20190013022A1 (en) 2019-01-10
JP7056020B2 (ja) 2022-04-19
US20200273459A1 (en) 2020-08-27

Similar Documents

Publication Publication Date Title
US10714117B2 (en) Voice trigger for a digital assistant
US9633669B2 (en) Smart circular audio buffer
WO2019214361A1 (zh) 语音信号中关键词的检测方法、装置、终端及存储介质
US9031847B2 (en) Voice-controlled camera operations
CN110931048A (zh) 语音端点检测方法、装置、计算机设备及存储介质
CN110390953A (zh) 啸叫语音信号的检测方法、装置、终端及存储介质
JP7056020B2 (ja) 情報処理装置およびプログラム
KR20190090281A (ko) 사운드를 제어하는 전자 장치 및 그 동작 방법
JP2018075657A (ja) 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム
JP2012230534A (ja) 電子機器および電子機器の制御プログラム
JP2016156877A (ja) 情報処理装置、情報処理方法およびプログラム
KR20200056754A (ko) 개인화 립 리딩 모델 생성 방법 및 장치
CN114333821A (zh) 电梯控制方法、装置、电子设备、存储介质及产品
CN109102810B (zh) 声纹识别方法和装置
JP2016180778A (ja) 情報処理システムおよび情報処理方法
AU2022224773B2 (en) Voice trigger for a digital assistant
KR102012774B1 (ko) 휴대 단말기 및 그 동작 방법
WO2022116523A1 (zh) 图像处理方法、图像识别装置、电子设备及介质
CN114049873A (zh) 语音克隆方法、训练方法、装置和介质
CN116189718A (zh) 语音活性检测方法、装置、设备及存储介质
TW201018191A (en) System and method for testing shaking function of a mobile phone
JP2007249021A (ja) 音声情報処理装置及び音声情報処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200619

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210902

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220321

R150 Certificate of patent or registration of utility model

Ref document number: 7056020

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150