JP6872134B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP6872134B2 JP6872134B2 JP2018516344A JP2018516344A JP6872134B2 JP 6872134 B2 JP6872134 B2 JP 6872134B2 JP 2018516344 A JP2018516344 A JP 2018516344A JP 2018516344 A JP2018516344 A JP 2018516344A JP 6872134 B2 JP6872134 B2 JP 6872134B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- appropriateness
- sound collecting
- collecting unit
- control information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 53
- 238000003672 processing method Methods 0.000 title claims description 6
- 238000012545 processing Methods 0.000 claims description 63
- 230000008859 change Effects 0.000 claims description 60
- 238000004364 calculation method Methods 0.000 claims description 21
- 238000004891 communication Methods 0.000 description 58
- 230000005540 biological transmission Effects 0.000 description 39
- 238000000034 method Methods 0.000 description 36
- 230000008569 process Effects 0.000 description 29
- 238000010586 diagram Methods 0.000 description 25
- 238000012986 modification Methods 0.000 description 25
- 230000004048 modification Effects 0.000 description 24
- 230000000694 effects Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 230000004044 response Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
- Telephone Function (AREA)
Description
1.第1の実施形態
2.第2の実施形態
3.第3の実施形態
4.第4の実施形態
5.ハードウェア構成
6.変形例
<1−1.情報処理システムの構成>
まず、本開示の第1の実施形態について説明する。第1の実施形態では、集音部120に対してユーザが音声入力を行う場面を想定する。図1は、第1の実施形態による情報処理システムの構成を示した説明図である。図1に示すように、第1の実施形態による情報処理システムは、デバイス10‐1、サーバ20‐1、および、通信網30を含む。
サーバ20‐1は、本開示における情報処理装置の一例である。サーバ20‐1は、音声認識機能を有する。例えば、サーバ20‐1は、後述する通信網30を介してデバイス10‐1から受信される音声データに対して音声認識(クラウド音声認識)を行う。そして、サーバ20‐1は、音声認識結果をデバイス10‐1へ送信する。
デバイス10‐1は、本開示における情報処理装置の一例である。デバイス10‐1は、集音部120で集音された音声データをサーバ20‐1へ送信する。例えば、デバイス10‐1は、集音部120で集音されたユーザの発話の音声データをサーバ20‐1へ送信する。なお、集音部120は、デバイス10‐1に備えられてもよいし、または、デバイス10‐1と有線通信または無線通信により通信可能に接続されていてもよい。
通信網30は、通信網30に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、通信網30は、電話回線網、インターネット、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、通信網30は、IP−VPN(Internet Protocol−Virtual Private Network)などの専用回線網を含んでもよい。
以上、第1の実施形態による情報処理システムの構成について説明した。ところで、集音部120とユーザとの位置関係が不適切であると、集音部120は、ユーザの音声を適切に集音することができない。その結果、集音部120で集音された音声をサーバ20‐1が音声認識する際に、音声認識の精度が低下し得る。例えば、ユーザの意図とは異なるテキストが音声認識結果として得られる。また、不適切に集音された音声をサーバ20‐1が音声認識する場合には、音声認識の処理量が増加し得る。
{1−2−1.サーバ20‐1}
次に、第1の実施形態による構成について詳細に説明する。図2は、第1の実施形態によるサーバ20‐1の構成例を示した機能ブロック図である。図2に示すように、サーバ20‐1は、制御部200、通信部220、および、記憶部222を有する。
制御部200は、サーバ20‐1に内蔵される、例えばCPU(Central Processing Unit)や、RAM(Random Access Memory)などのハードウェアを用いて、サーバ20‐1の動作を全般的に制御する。また、図2に示すように、制御部200は、音声認識部202、適正度算出部204、制御情報生成部206、および、送信制御部208を有する。
音声認識部202は、例えばデバイス10‐1から受信される音声データなどを認識する。また、音声認識部202は、音声認識の結果を適正度算出部204および送信制御部208に伝達する。
適正度算出部204は、音声認識部202による音声認識に基づいて適正度を算出する。ここで、適正度は、例えば、集音部120の位置および/または姿勢の適正度(以下、集音部の位置等の適正度と称する)であり得る。または、適正度は、集音された音声の適正度(例えば、当該音声の音声認識結果の信頼度など)であり得る。なお、以下では、適正度が、集音部の位置等の適正度である例を中心として説明を行う。
制御情報生成部206は、適正度算出部204により算出された集音部の位置等の適正度と所定の閾値との比較に基づいて、集音部120の位置および/または姿勢をデバイス10‐1に変更させるための制御情報を生成する。例えば、算出された集音部の位置等の適正度が所定の閾値以下である場合には、制御情報生成部206は、当該制御情報を生成することを決定する。また、算出された集音部の位置等の適正度が所定の閾値よりも大きい場合には、制御情報生成部206は、当該制御情報を生成しないことを決定する。
位置変更履歴DB224は、集音部120ごとの、過去に算出された適正度、および、過去の制御情報の内容が格納されるデータベースである。図3は、位置変更履歴DB224の構成例を示した説明図である。図3に示したように、位置変更履歴DB224では、例えば、デバイスID2240、日時2242、適正度2244、および、制御情報2246が対応付けられている。ここで、デバイスID2240には、音声データの送信元であるデバイス10‐1に予め割り当てられている識別情報が記録される。また、日時2242には、該当のデバイス10‐1に関して、集音部の位置等の適正度が算出された際の日時が記録される。また、適正度2244には、該当のデバイス10‐1に関して、該当の日時に算出された集音部の位置等の適正度の値が記録される。また、制御情報2246には、該当のデバイス10‐1に関して、該当の日時に生成された制御情報の内容が記録される。なお、図3では、制御情報が、二種類の回転角度(θ、φ)の組により集音部の位置を変更させる情報である例を示している。但し、かかる例に限定されず、制御情報は、例えば、直交する3軸の方向の移動量(x、y、z)の組により集音部の位置を変更させる情報であってもよい。
送信制御部208は、本開示における処理部の一例である。送信制御部208は、他の装置に対する各種の情報の送信を制御する。例えば、送信制御部208は、音声認識部202による音声認識結果を該当のデバイス10‐1へ通信部220に送信させる。また、送信制御部208は、制御情報生成部206により生成された制御情報を該当のデバイス10‐1へ通信部220に送信させる。なお、送信制御部208は、制御情報を音声認識結果と一緒にデバイス10‐1へ通信部220に送信させてもよい。または、音声認識部202による音声認識の途中に制御情報が生成される度に、送信制御部208は、生成された制御情報だけをデバイス10‐1へ通信部220に逐次的に送信させてもよい。
通信部220は、本開示における取得部の一例である。通信部220は、例えば通信網30を介して他の装置との間で情報の送受信を行う。例えば、通信部220は、音声データをデバイス10‐1から受信する。また、通信部220は、送信制御部208の制御に従って、制御情報や音声認識結果をデバイス10‐1へ送信する。
記憶部222は、各種のデータや各種のソフトウェアを記憶する。例えば、記憶部222は、位置変更履歴DB224などを記憶する。
次に、第1の実施形態によるデバイス10‐1の構成について詳細に説明する。図4は、第1の実施形態によるデバイス10‐1の構成例を示した機能ブロック図である。図4に示すように、デバイス10‐1は、制御部100、集音部120、駆動部122、通信部124、および、記憶部126を有する。
制御部100は、デバイス10‐1に内蔵される、後述するCPU150や、RAM154などのハードウェアを用いて、デバイス10‐1の動作を全般的に制御する。また、図4に示すように、制御部100は、送信制御部102、および、駆動制御部104を有する。
送信制御部102は、他の装置に対する各種の情報の送信を制御する。例えば、送信制御部102は、集音部120により集音された音声データ、および、デバイス10‐1の識別情報をサーバ20‐1へ通信部124に送信させる。
駆動制御部104は、本開示における処理部の一例である。駆動制御部104は、サーバ20‐1から受信される制御情報に従って、集音部120の位置および/または姿勢を駆動部122に変更させる。
集音部120は、外部の音(空気振動)を検出し、そして、電気信号に変換する。また、集音部120は、集音した音声を制御部100へ伝達する。
駆動部122は、駆動制御部104の制御に従って、集音部120の位置および/または姿勢を変更する。この駆動部122は、例えば、集音部120の位置および/または姿勢を変更可能なアクチュエータを含む。
通信部124は、本開示における取得部の一例である。通信部124は、例えば通信網30を介して他の装置との間で情報の送受信を行う。例えば、通信部124は、制御情報および音声認識結果をサーバ20‐1から受信する。また、通信部124は、送信制御部102の制御に従って、音声データ、および、デバイス10‐1の識別情報をサーバ20‐1へ送信する。
記憶部126は、各種のデータや各種のソフトウェアを記憶する。
以上、第1の実施形態による構成について説明した。次に、第1の実施形態の適用例について説明する。本適用例では、デバイス10‐1が、集音部120を備えたヘッドセット10‐1aである例について説明する。なお、集音部120は上下方向(垂直方向)にのみ移動可能であるものとする。
{1−4−1.動作の全体的な流れ}
以上、第1の実施形態の適用例について説明した。次に、第1の実施形態による動作について、図6および図7を参照して説明する。図6は、第1の実施形態による動作の全体的な流れを示したシーケンス図である。なお、図6に示した動作は、基本的に、集音部120に対してユーザが発話する度に実行される。
ここで、S113における「制御情報生成処理」の流れについて、図7を参照して説明する。図7に示したように、まず、制御情報生成部206は、位置変更履歴DB224を参照することにより、該当のデバイス10‐1に関する前回の適正度を特定する。そして、制御情報生成部206は、S107で算出された適正度が、前回算出された適正度以上であるか否かを判定する(S151)。S107で算出された適正度が、前回算出された適正度以上である場合には(S151:Yes)、制御情報生成部206は、集音部120の位置を前回の移動方向と同じ方向に移動させるための制御情報を生成する(S153)。そして、制御情報生成部206は、該当のデバイス10‐1の識別情報、S107で算出された適正度、および、生成された制御情報を対応付けて位置変更履歴DB224に保存する(S155)。
以上説明したように、第1の実施形態によれば、サーバ20‐1は、集音部120で集音されたユーザの音声をデバイス10‐1から受信し、そして、受信された音声に基づいて算出される適正度に応じて、集音部120の位置および/または姿勢を変更させるための制御情報をデバイス10‐1へ送信する。また、デバイス10‐1は、サーバ20‐1から受信される制御情報に従って、集音部120の位置および/または姿勢を変更する。このため、集音部120で集音される音声の音声認識の精度が向上するように、集音部120の位置および/または姿勢を自動的に調整することができる。例えば、ユーザは発話を繰り返すだけで、集音部120の位置および/または姿勢を適切に調整することができる。
以上、第1の実施形態について説明した。第1の実施形態では、サーバ20‐1が、集音部120の位置および/または姿勢を変更させるための制御情報を生成し、そして、デバイス10‐1へ送信する例について説明した。
{2−1−1.サーバ20‐2}
まず、第2の実施形態による構成について詳細に説明する。図8は、第2の実施形態によるサーバ20‐2の構成例を示した機能ブロック図である。図8に示すように、サーバ20‐2は、(図2に示した)サーバ20‐1と比較して、制御情報生成部206を有しない。また、第2の実施形態では、第1の実施形態と異なり、基本的には、位置変更履歴DB224は設けられない。
第2の実施形態による送信制御部208は、適正度算出部204により算出された集音部の位置等の適正度を該当のデバイス10‐2へ通信部220に送信させる。なお、送信制御部208は、集音部の位置等の適正度を音声認識結果と一緒に該当のデバイス10‐1へ通信部220に送信させてもよいし、または、音声認識部202による音声認識の処理中に、集音部の位置等の適正度だけを該当のデバイス10‐1へ通信部220に逐次的に送信させてもよい。
また、図9は、第2の実施形態によるデバイス10‐2の構成例を示した機能ブロック図である。なお、図9に示したように、デバイス10‐2に含まれる構成要素は、(図4に示した)デバイス10‐1と同様である。
第2の実施形態による送信制御部102は、基本的に、集音部120により集音された音声データのみをサーバ20‐2へ通信部124に送信させる。すなわち、基本的に、デバイス10‐2の識別情報はサーバ20‐2へ送信されない。
第2の実施形態による駆動制御部104は、サーバ20‐2から受信された、集音部の位置等の適正度と所定の閾値との比較に基づいて、集音部120の位置および/または姿勢を駆動部122に変更させる。例えば、受信された集音部の位置等の適正度が所定の閾値以下である場合には、駆動制御部104は、集音部120の位置および/または姿勢を駆動部122に変更させることを決定する。また、受信された集音部の位置等の適正度が所定の閾値よりも大きい場合には、駆動制御部104は、集音部120の位置および/または姿勢を駆動部122に変更させないことを決定する。
位置変更履歴DB128は、過去に受信された集音部の位置等の適正度、および、集音部120の位置等の変更内容が格納されるデータベースである。図10は、位置変更履歴DB128の構成例を示した説明図である。図10に示したように、位置変更履歴DB128では、例えば、日時1280、適正度1282、および、制御内容1284が対応付けられている。ここで、日時1280には、集音部の位置等の適正度が受信された日時が記録される。また、適正度1282には、該当の日時に受信された集音部の位置等の適正度の値が記録される。また、制御内容1284には、該当の日時において駆動制御部104により実行された制御内容が記録される。なお、制御内容1284に記録される内容は、図3に示した制御情報2246と同様であり得る。
以上、第2の実施形態による構成について説明した。次に、第2の実施形態の適用例について説明する。本適用例では、(第1の実施形態の適用例と同様に)デバイス10‐2が、集音部120を備えたヘッドセット10‐2aであり、かつ、集音部120が上下方向にのみ移動可能である例について説明する。
{2−3−1.動作の全体的な流れ}
以上、第2の実施形態の適用例について説明した。次に、第2の実施形態による動作について、図11および図12を参照して説明する。図11は、第2の実施形態による動作の全体的な流れを示したシーケンス図である。なお、図11に示した動作は、基本的に、集音部120に対してユーザが発話する度に実行される。また、図11に示したS201は、(図6に示した)第1の実施形態によるS101と同様である。
ここで、S213における「集音部の位置等変更処理」の流れについて、図12を参照して説明する。図12に示したように、まず、駆動制御部104は、位置変更履歴DB128を参照することにより、前回受信された適正度を特定する。そして、駆動制御部104は、S209で受信された適正度が、前回受信された適正度以上であるか否かを判定する(S251)。S209で受信された適正度が、前回受信された適正度以上である場合には(S251:Yes)、駆動制御部104は、集音部120の位置を前回の移動方向と同じ方向に駆動部122に移動させる(S253)。そして、駆動制御部104は、S209で受信された適正度、および、集音部120の位置等の変更内容を対応付けて位置変更履歴DB128に保存する(S255)。
以上説明したように、第2の実施形態によれば、サーバ20‐2は、集音部120で集音されたユーザの音声をデバイス10‐2から受信し、そして、受信された音声に基づいて算出される適正度をデバイス10‐2へ送信する。また、デバイス10‐2は、サーバ20‐2から受信される適正度に応じて、集音部120の位置および/または姿勢を変更する。このため、集音部120で集音される音声の音声認識の精度が向上するように、集音部120の位置および/または姿勢を自動的に調整することができる。
以上、第2の実施形態について説明した。上述したように、第1の実施形態および第2の実施形態では、デバイス10‐1またはデバイス10‐2が集音部120の位置および/または姿勢を自動的に調整する例について説明した。
{3−1−1.サーバ20‐3}
まず、第3の実施形態による構成について詳細に説明する。なお、第3の実施形態によるサーバ20‐3の構成は、第2の実施形態によるサーバ20‐2と概略同様である。
図13は、第3の実施形態によるデバイス10‐3の構成例を示した機能ブロック図である。図13に示したように、デバイス10‐3は、図9に示したデバイス10‐2と比較して、出力部130をさらに含み、かつ、駆動部122を含まない。
第3の実施形態による制御部100は、(図9に示した)第2の実施形態と比較して、出力制御部106をさらに含み、かつ、駆動制御部104を含まない。
出力制御部106は、本開示における処理部の一例である。出力制御部106は、例えばテキスト、画像、音などの各種の情報を、後述する出力部130に出力させる。例えば、集音部の位置等の適正度がサーバ20‐3から受信された場合には、出力制御部106は、受信された適正度に応じた情報を出力部130に出力させる。
一例として、出力制御部106は、受信された集音部の位置等の適正度を表示画面に表示させたり、当該適正度を読み上げる音声を出力部130に出力させる。例えば、図14Aに示したように、出力制御部106は、当該適正度を示すテキストを表示画面に表示させてもよい。なお、出力制御部106は、当該適正度が所定の閾値以下である場合にのみ、当該適正度を示すテキストを表示画面に表示させてもよい。
または、出力制御部106は、受信された集音部の位置等の適正度と所定の閾値との比較に基づいて、警告表示を表示画面に表示させたり、または、警告音を出力部130に出力させることも可能である。例えば、当該適正度が所定の閾値以下である場合には、図14Cに示したように、出力制御部106は、集音部120の位置および/または姿勢の変更をユーザに促すテキストを表示画面に表示させる。また、当該適正度が所定の閾値よりも大きい場合には、出力制御部106は、当該テキストを表示画面に表示させない。
なお、変形例として、出力制御部106は、デバイス10‐3の姿勢(または集音部120が向いている方向)の測定結果、および、集音部120の位置等の変更履歴に基づいて、(デバイス10‐3の現在の位置および姿勢を基準とした)集音部120の移動推奨方向を示す表示を表示画面に表示させることも可能である。ここで、デバイス10‐3の姿勢は、例えばデバイス10‐3に内蔵されるジャイロセンサー、3軸加速度センサー、または、地磁気センサーなどにより測定され得る。また、集音部120の位置等の変更履歴は、例えば記憶部126に格納される位置変更履歴DB128に格納され得る。
出力部130は、出力制御部106の制御に従って、表示画面を表示したり、音声を出力する。この出力部130は、表示を行う表示部、および、音声を出力する音声出力部を含む。ここで、表示部は、例えばLCD(Liquid Crystal Display)やOLED(Organic Light Emitting Diode)などから構成されるディスプレイや、LED(Light Emitting Diode)などを含む。また、音声出力部は、スピーカなどを含む。
以上、第3の実施形態による構成について説明した。次に、第3の実施形態の適用例について説明する。本適用例では、デバイス10‐3が、スマートフォン10‐3aである例について説明する。
以上、第3の実施形態の適用例について説明した。次に、第3の実施形態による動作について、図15を参照して説明する。図15は、第3の実施形態による動作の全体的な流れを示したシーケンス図である。なお、図15に示した動作は、基本的に、集音部120に対してユーザが発話する度に実行される。また、図15に示したS301〜S309は、(図11に示した)第2の実施形態によるS201〜S209と同様である。
以上説明したように、第3の実施形態によれば、デバイス10‐3は、サーバ20‐3から受信される適正度に応じて、集音部120の位置および/または姿勢の変更をユーザに促す警告表示を表示させたり、警告音を出力させる。このため、集音部120で集音される音声の音声認識の精度が向上するように、集音部120の位置および/または姿勢をユーザは適切に調整することができる。
以上、第3の実施形態について説明した。ところで、上述したように、集音部の位置等の適正度が低い場合には、集音部120で集音される音声の音声認識の精度が低下し得る。従って、集音部の位置等の適正度が低い場合に、音声認識に基づく操作をユーザが行おうとすると、ユーザの意図とは異なる操作が実行される恐れがある。
図16は、第4の実施形態による情報処理システムの構成を示した説明図である。図16に示すように、第4の実施形態による情報処理システムは、(図1に示した)第1の実施形態と比較して、外部機器50をさらに含む。
外部機器50は、例えば通信網30を介して、デバイス10‐4と通信可能な機器である。この外部機器50は、デバイス10‐4から指示情報を受信し、そして、受信した指示情報に従って処理を行うことが可能である。例えば、外部機器50は、受信した指示情報に従って電源をONとOFFの間で切り替えたり、または、指示情報が指示する機能を実行する。
{4−2−1.デバイス10‐4}
以上、第4の実施形態による情報処理システムの構成について説明した。次に、第4の実施形態による構成について詳細に説明する。なお、第4の実施形態によるサーバ20‐4の構成は、第2の実施形態によるサーバ20‐2と概略同様である。
図17は、第4の実施形態によるデバイス10‐4の構成例を示した機能ブロック図である。図17に示したように、第4の実施形態による制御部100は、(図9に示した)第2の実施形態と比較して、操作許可部108をさらに含む。
操作許可部108は、本開示における処理部の一例である。操作許可部108は、サーバ20‐4から受信される音声認識結果から特定される操作を所定の条件に基づいて許可するか否かを決定する。例えば、操作許可部108は、まず、サーバ20‐4から受信された音声認識結果が命令のテキストを含むか否かを判定する。当該音声認識結果が命令のテキストを含む場合には、操作許可部108は、当該音声認識結果に対応する操作を特定する。そして、操作許可部108は、サーバ20‐2から受信された、集音部の位置等の適正度と所定の閾値との比較に基づいて、特定した操作の実行を許可するか否かを決定する。
例えば、操作許可部108は、特定した操作が外部機器50に対する操作であるか否かに基づいて、当該操作の実行を許可するか否かを決定する。一例として、特定した操作が外部機器50に対する操作であり、かつ、受信された集音部の位置等の適正度が所定の閾値以下である場合には、操作許可部108は、当該操作を許可しない。また、受信された集音部の位置等の適正度が所定の閾値よりも大きい場合、および、特定した操作が外部機器50に対する操作ではない場合(例えば、デバイス10‐4に対する操作である場合)には、操作許可部108は、当該操作を許可する。この判定例によれば、集音部の位置等の適正度が低い場合には、外部機器50に対する操作が実行されない。従って、ユーザの音声が誤認識される恐れが高い場合には、外部機器50に対する、音声認識に基づく操作を制限することができる。
または、操作許可部108は、特定した操作が、外部機器50またはデバイス10‐4の挙動に関する操作(以下、制御系の操作と称する場合がある)であるか否かに基づいて、当該操作の実行を許可するか否かを決定する。ここで、制御系の操作は、例えば、加速、操舵、および、制動に関する操作を含み得る。例えば、特定した操作が制御系の操作であり、かつ、受信された集音部の位置等の適正度が所定の閾値以下である場合には、操作許可部108は、当該操作を許可しない。また、受信された集音部の位置等の適正度が所定の閾値よりも大きい場合、および、特定した操作が制御系以外の操作である場合には、操作許可部108は、当該操作を許可する。
または、操作許可部108は、特定した操作が他のユーザ宛ての情報(例えば、電子メール、SMS(Short Message Service)、または、SNS(Social Networking Service)でのメッセージなど)の送信操作であるか否かに基づいて、当該操作の実行を許可するか否かを決定する。なお、例えば、音声認識結果が「メール送信!」といったテキストである場合などに、操作許可部108は、当該音声認識結果に対応する操作がメール送信操作であると特定する。
なお、変形例として、操作許可部108は、受信された集音部の位置等の適正度、第1の閾値、および、(第1の閾値よりも小さい)第2の閾値の比較に基づいて、特定した操作の実行を許可するか否かを決定することも可能である。例えば、受信された集音部の位置等の適正度が第1の閾値以上であり、かつ、第2の閾値よりも大きい場合には、操作許可部108は、特定した操作の実行の可否をユーザに問い合わせ、かつ、当該問い合わせに対するユーザの回答に基づいて、操作を許可するか否かを決定してもよい。一例として、操作許可部108は、該当の操作の実行に関する問い合わせ用のUIを表示画面に表示させることにより、ユーザに問い合わせを行う。そして、当該UIに対して、操作の実行を承諾する旨の回答が入力された場合には、操作許可部108は、該当の操作を許可する。また、当該UIに対して、操作の実行を承諾しない旨の回答が入力された場合には、操作許可部108は、該当の操作を許可しない。
第4の実施形態による送信制御部102は、操作許可部108により特定された操作が、外部機器50に対する操作である場合には、当該操作の実行を指示する指示情報を外部機器50へ通信部124に送信させることが可能である。例えば、送信制御部102は、操作許可部108により該当の操作が許可された場合にのみ、当該指示情報を外部機器50へ通信部124に送信させてもよい。
{4−3−1.動作の全体の流れ}
以上、第4の実施形態の構成について説明した。次に、第4の実施形態による動作について、図18を参照して説明する。図18は、第4の実施形態による動作の全体的な流れを示したシーケンス図である。なお、図18に示した動作は、基本的に、集音部120に対してユーザが発話する度に実行される。また、図18に示したS401〜S409は、(図11に示した)第2の実施形態によるS201〜S209と同様である。
ここで、S411における「操作実行処理」の流れについて、図19を参照して説明する。図19に示したように、まず、操作許可部108は、S409で受信された適正度が、所定の閾値よりも大きいか否かを判定する(S451)。受信された適正度が所定の閾値よりも大きい場合には(S451:Yes)、操作許可部108は、受信された音声認識結果に対応する操作を実行する(S453)。一方、受信された適正度が所定の閾値以下である場合には(S451:No)、操作許可部108は、受信された音声認識結果に対応する操作を実行しない(S455)。
なお、第4の実施形態による動作は、上述した例に限定されない。例えば、S413〜S415の処理は実行されなくてもよい。また、S411における「操作実行処理」は、上述した例に限定されず、以下で述べる変形例(変形例1〜変形例3)のうちのいずれかが代わりに実行されてもよい。
まず、「操作実行処理」の変形例1について、図20を参照して説明する。図20に示したように、まず、操作許可部108は、受信された音声認識結果に対応する操作を特定する。そして、操作許可部108は、特定した操作が外部機器50に対する操作であるか否かを判定する(S501)。特定した操作が外部機器50に対する操作ではない場合には(S501:No)、操作許可部108は、特定した操作を実行する(S503)。そして、当該「操作実行処理」は終了する。
次に、「操作実行処理」の変形例2について、図21を参照して説明する。図21に示したように、まず、操作許可部108は、受信された音声認識結果に対応する操作を特定する。そして、操作許可部108は、特定した操作が、外部機器50またはデバイス10‐4に対する制御系の操作であるか否かを判定する(S601)。特定した操作が制御系の操作ではない場合には(S601:No)、操作許可部108は、特定した操作を実行する(S603)。そして、当該「操作実行処理」は終了する。
次に、「操作実行処理」の変形例3について、図22を参照して説明する。図22に示したように、まず、操作許可部108は、受信された音声認識結果に対応する操作を特定する。そして、操作許可部108は、特定した操作が、電子メールの送信操作であるか否かを判定する(S701)。特定した操作が電子メールの送信操作ではない場合には(S701:No)、操作許可部108は、特定した操作を実行する(S703)。そして、当該「操作実行処理」は終了する。
以上説明したように、第4の実施形態によれば、デバイス10‐4は、サーバ20‐4から受信される集音部の位置等の適正度と所定の閾値との比較に応じて、音声認識結果に対応する操作を許可するか否かを決定する。例えば、集音部の位置等の適正度が所定の閾値以下である場合には、デバイス10‐4は、外部機器50に対する、音声認識に基づく操作、音声認識に基づく制御系の操作、または、他のユーザ宛ての情報の送信操作などの実行を許可しない。従って、集音部の位置等の適正度が低い場合、つまり、ユーザの音声が誤認識される恐れが高い場合には、音声認識に基づく操作を適切に制限することができる。
次に、各実施形態に共通するデバイス10のハードウェア構成について、図23を参照して説明する。図23に示すように、デバイス10は、CPU150、ROM(Read Only Memory)152、RAM154、バス156、インターフェース158、ストレージ装置160、および通信装置162を備える。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、第1の実施形態および第2の実施形態では、基本的に、一台のデバイス10を一人のユーザが利用する例について説明したが、かかる例に限定されない。例えば、一台のデバイス10を複数のユーザが利用する場面に関しても、各実施形態は同様に適用可能である。例えば、複数のユーザのうちのいずれか(以下、発話ユーザと称する)が発話する度に、サーバ20は、発話ユーザの音声に基づいて集音部の位置等の適正度を算出し、そして、算出した適正度をデバイス10へ送信する。そして、デバイス10は、受信された適正度に応じて、集音部120の位置および/または姿勢を逐次変更する。
ここで、本変形例の適用例について説明する。この適用例では、例えば図24に示したように、対話を行うことが可能なロボット10a(デバイス10)を複数のユーザ2が利用する場面を想定する。ロボット10aは、ユーザ2の発話の音声認識結果に基づいて、当該発話に対して返事を行うことが可能である。
また、上述した各実施形態の動作における各ステップは、必ずしも記載された順序に沿って処理されなくてもよい。例えば、各ステップは、適宜順序が変更されて処理されてもよい。また、各ステップは、時系列的に処理される代わりに、一部並列的に又は個別的に処理されてもよい。また、記載されたステップのうちの一部が省略されたり、または、別のステップがさらに追加されてもよい。
(1)
集音部で集音された音声に基づいて算出される適正度を取得する取得部と、
前記取得部により取得された適正度に基づいて処理を行う処理部と、
を備える、情報処理装置。
(2)
前記適正度は、前記集音部の位置の適正度を含む、前記(1)に記載の情報処理装置。
(3)
前記適正度は、前記集音部の姿勢の適正度を含む、前記(1)または(2)に記載の情報処理装置。
(4)
前記処理部は、前記適正度と所定の閾値との比較に基づいて、前記処理を行うか否かを決定する、前記(2)または(3)に記載の情報処理装置。
(5)
前記処理は、前記集音部の位置の変更に関する制御を行うことである、前記(4)に記載の情報処理装置。
(6)
前記処理は、前記集音部の位置の変更をユーザに促す情報の出力を制御することである、前記(4)に記載の情報処理装置。
(7)
前記取得部は、前記集音部で集音されたユーザの音声の音声認識結果をさらに取得し、
前記処理部は、前記音声認識結果から特定される操作を、前記適正度に基づいて許可するか否かを決定する、前記(1)〜(3)のいずれか一項に記載の情報処理装置。
(8)
前記情報処理装置は、前記集音部をさらに備え、
前記処理部は、前記音声認識結果から特定される、外部の機器に対する操作を、前記適正度に基づいて許可するか否かを決定する、前記(7)に記載の情報処理装置。
(9)
前記処理部は、前記音声認識結果から特定される、前記情報処理装置または外部の機器の挙動に関する操作を、前記適正度に基づいて許可するか否かを決定する、前記(7)または(8)に記載の情報処理装置。
(10)
前記処理部は、前記音声認識結果から特定される、他のユーザ宛ての情報の送信操作を、前記適正度に基づいて許可するか否かを決定する、前記(7)に記載の情報処理装置。
(11)
前記適正度が第1の閾値以下であり、かつ、第2の閾値よりも大きい場合には、前記処理部は、前記音声認識結果から特定される操作の実行の可否を前記ユーザに対して問合せ、かつ、
前記処理部は、前記問合せに対する前記ユーザの回答に基づいて、前記操作を許可するか否かを決定する、前記(7)〜(10)のいずれか一項に記載の情報処理装置。
(12)
集音部で集音された音声を取得する取得部と、
前記取得部により取得された音声に基づいて算出される適正度に応じた処理を行う処理部と、
を備える、情報処理装置。
(13)
前記情報処理装置は、前記取得部により取得された音声の音声認識に基づいて前記適正度を算出する適正度算出部をさらに備え、
前記処理部は、前記適正度算出部により算出された適正度に応じた処理を行う、前記(12)に記載の情報処理装置。
(14)
前記情報処理装置は、前記集音部の位置を変更させるための制御情報を前記適正度に基づいて生成する制御情報生成部をさらに備え、
前記処理部は、前記制御情報生成部により生成された前記制御情報を出力する、前記(13)に記載の情報処理装置。
(15)
前記制御情報生成部は、前記適正度と所定の閾値との比較に基づいて、前記制御情報を生成するか否かを決定する、前記(14)に記載の情報処理装置。
(16)
前記制御情報生成部は、さらに、前記集音部の位置の変更履歴に基づいて、前記制御情報を生成する、前記(14)または(15)に記載の情報処理装置。
(17)
前記取得部は、さらに、前記集音部を含む機器に関する情報を取得し、
前記制御情報生成部は、さらに、前記取得部により取得された機器に関する情報に基づいて、前記制御情報を生成する、前記(14)〜(16)のいずれか一項に記載の情報処理装置。
(18)
前記処理部は、前記集音部を含む機器へ前記適正度を通信部に送信させる、前記(13)に記載の情報処理装置。
(19)
集音部で集音された音声に基づいて算出される適正度を取得することと、
取得された適正度に基づいて、プロセッサが処理を行うことと、
を含む、情報処理方法。
(20)
コンピュータを、
集音部で集音された音声に基づいて算出される適正度を取得する取得部と、
前記取得部により取得された適正度に基づいて処理を行う処理部と、
として機能させるための、プログラム。
20‐1、20‐2、20‐3、20‐4 サーバ
30 通信網
50 外部機器
100、200 制御部
102、208 送信制御部
104 認識結果実行部
106 駆動制御部
108 出力制御部
110 操作許可部
120 集音部
122 駆動部
124、220 通信部
126、222 記憶部
128、224 位置変更履歴DB
130 出力部
202 音声認識部
204 適正度算出部
206 制御情報生成部
Claims (6)
- 集音部で集音された音声を取得する取得部と、
前記取得部により取得された音声に基づいて算出される適正度に応じた処理を行う処理部と、
前記取得部により取得された音声の音声認識に基づいて前記適正度を算出する適正度算出部と、
前記集音部の位置を変更させるための制御情報を前記適正度に基づいて生成する制御情報生成部と、
を備え、
前記処理部は、前記制御情報生成部により生成された前記制御情報を出力する、
情報処理装置。 - 前記制御情報生成部は、前記適正度と所定の閾値との比較に基づいて、前記制御情報を生成するか否かを決定する、請求項1に記載の情報処理装置。
- 前記制御情報生成部は、さらに、前記集音部の位置の変更履歴に基づいて、前記制御情報を生成する、請求項1または2に記載の情報処理装置。
- 前記取得部は、さらに、前記集音部を含む機器に関する情報を取得し、
前記制御情報生成部は、さらに、前記取得部により取得された機器に関する情報に基づいて、前記制御情報を生成する、請求項1〜3のいずれか一項に記載の情報処理装置。 - 集音部で集音された音声を取得することと、
取得された前記音声の音声認識に基づいて適正度を算出することと、
前記集音部の位置を変更させるための制御情報を前記適正度に基づいて生成することと、
前記適正度に応じて、プロセッサが処理を行うことと、
生成された前記制御情報を出力することと、
を含む、情報処理方法。 - コンピュータを、
集音部で集音された音声を取得する取得部と、
前記取得部により取得された音声に基づいて算出される適正度に応じた処理を行う処理部と、
前記取得部により取得された音声の音声認識に基づいて前記適正度を算出する適正度算出部と、
前記集音部の位置を変更させるための制御情報を前記適正度に基づいて生成する制御情報生成部と、
として機能させるための、プログラムであって、
前記処理部は、前記制御情報生成部により生成された前記制御情報を出力する、
プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016097003 | 2016-05-13 | ||
JP2016097003 | 2016-05-13 | ||
PCT/JP2017/004063 WO2017195412A1 (ja) | 2016-05-13 | 2017-02-03 | 情報処理装置、情報処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2017195412A1 JPWO2017195412A1 (ja) | 2019-03-14 |
JP6872134B2 true JP6872134B2 (ja) | 2021-05-19 |
Family
ID=60267539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018516344A Active JP6872134B2 (ja) | 2016-05-13 | 2017-02-03 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP3457399A4 (ja) |
JP (1) | JP6872134B2 (ja) |
WO (1) | WO2017195412A1 (ja) |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03131198A (ja) * | 1989-10-16 | 1991-06-04 | Sharp Corp | 音声認識装置 |
AU2001276904A1 (en) * | 2000-07-14 | 2002-01-30 | Syvox Corporation | Apparatus and methods for sound reproduction and recording |
WO2003052737A1 (fr) * | 2001-12-17 | 2003-06-26 | Asahi Kasei Kabushiki Kaisha | Procede de reconnaissance vocale, controleur a distance, terminal d'information, terminal de communication telephonique et systeme de reconnaissance vocale |
US7242765B2 (en) * | 2002-06-28 | 2007-07-10 | Tommy Lee Hairston | Headset cellular telephones |
JP2005140860A (ja) * | 2003-11-04 | 2005-06-02 | Canon Inc | 音声認識装置およびその制御方法 |
JP2007135008A (ja) * | 2005-11-10 | 2007-05-31 | Sony Ericsson Mobilecommunications Japan Inc | 携帯端末装置 |
WO2012096072A1 (ja) * | 2011-01-13 | 2012-07-19 | 日本電気株式会社 | 音声処理装置及びその制御方法とその制御プログラムを格納した記憶媒体、該音声処理装置を備えた車両、情報処理装置及び情報処理システム |
US10382509B2 (en) | 2011-01-28 | 2019-08-13 | Amazon Technologies, Inc. | Audio-based application architecture |
JP5408810B2 (ja) * | 2011-06-24 | 2014-02-05 | アイシン・エィ・ダブリュ株式会社 | 音声認識制御システム、音声認識制御方法、及び音声認識制御プログラム |
JP2014081441A (ja) * | 2012-10-15 | 2014-05-08 | Sharp Corp | コマンド判定装置およびその制御方法、コマンド判定プログラム |
US9236050B2 (en) * | 2013-03-14 | 2016-01-12 | Vocollect Inc. | System and method for improving speech recognition accuracy in a work environment |
-
2017
- 2017-02-03 WO PCT/JP2017/004063 patent/WO2017195412A1/ja active Application Filing
- 2017-02-03 JP JP2018516344A patent/JP6872134B2/ja active Active
- 2017-02-03 EP EP17795773.5A patent/EP3457399A4/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
WO2017195412A1 (ja) | 2017-11-16 |
EP3457399A1 (en) | 2019-03-20 |
EP3457399A4 (en) | 2019-10-16 |
JPWO2017195412A1 (ja) | 2019-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6739907B2 (ja) | 機器特定方法、機器特定装置及びプログラム | |
CN110291576B (zh) | 基于触摸的操作系统的免提导航 | |
EP3321928B1 (en) | Operation of a virtual assistant on an electronic device | |
EP3101652A1 (en) | Electronic device for outputting messages and method for controlling the same | |
US10969763B2 (en) | Systems and methods to adapt and optimize human-machine interaction using multimodal user-feedback | |
KR20220098808A (ko) | 컴퓨팅 디바이스 근처의 가상 어시스턴트 식별 | |
KR102561572B1 (ko) | 센서 활용 방법 및 이를 구현한 전자 장치 | |
US20240078798A1 (en) | Information processing device, information processing method, and program | |
CN106325228B (zh) | 机器人的控制数据的生成方法及装置 | |
US11367443B2 (en) | Electronic device and method for controlling electronic device | |
US10983751B2 (en) | Multi-application augmented reality audio with contextually aware notifications | |
WO2017002488A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
TWI801629B (zh) | 用於與智慧型工業輔助及工業機器通訊的方法、系統、及電腦程式產品 | |
CN106325065A (zh) | 机器人交互行为的控制方法、装置及机器人 | |
KR20200101221A (ko) | 사용자 입력 처리 방법 및 이를 지원하는 전자 장치 | |
WO2016206642A1 (zh) | 机器人的控制数据的生成方法及装置 | |
JP5206151B2 (ja) | 音声入力ロボット、遠隔会議支援システム、遠隔会議支援方法 | |
US20240075944A1 (en) | Localized voice recognition assistant | |
JP6872134B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
WO2017053000A1 (en) | Technologies for physical programming | |
JP2018075657A (ja) | 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム | |
CN113810814B (zh) | 耳机模式切换的控制方法及装置、电子设备和存储介质 | |
KR20200077936A (ko) | 사용자 상태에 기초하여 반응을 제공하는 전자 장치 및 그의 동작 방법 | |
CN111344117A (zh) | 用于控制机械臂的用户交互电子系统和方法 | |
US11809630B1 (en) | Using a haptic effects library to determine whether to provide predefined or parametrically-defined haptic responses, and systems and methods of use thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190208 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20190214 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190222 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20190515 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190522 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200115 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210316 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210329 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6872134 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |