JP6872134B2

JP6872134B2 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP6872134B2
Application number: JP2018516344A
Authority: JP
Inventors: 大輔福永; 義己田中; 久浩菅沼
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2016-05-13
Filing date: 2017-02-03
Publication date: 2021-05-19
Anticipated expiration: 2037-02-03
Also published as: WO2017195412A1; EP3457399A1; EP3457399A4; JPWO2017195412A1

Description

本開示は、情報処理装置、情報処理方法、およびプログラムに関する。

従来、音声認識に関する技術が各種提案されている。音声認識では、ユーザが発した音声をテキストに変換することができる。

例えば、下記特許文献１には、クラウドベースのアプリケーションが、ユーザが発した音声コマンドを音声認識し、そして、音声認識結果に対応する処理を行う技術が記載されている。

特表２０１４−５０７０３０号公報

しかしながら、特許文献１に記載の技術では、集音された音声の状態によらずに、同一の処理を行う。例えば、特許文献１に記載の技術では、集音された音声が音声認識に適しているか否かによって、処理を異ならせることができない。

そこで、本開示では、集音された音声の状態に適応的に処理を行うことが可能な、新規かつ改良された情報処理装置、情報処理方法、およびプログラムを提案する。

本開示によれば、集音部で集音された音声に基づいて算出される適正度を取得する取得部と、前記取得部により取得された適正度に基づいて処理を行う処理部と、を備える、情報処理装置が提供される。

また、本開示によれば、集音部で集音された音声を取得する取得部と、前記取得部により取得された音声に基づいて算出される適正度に応じた処理を行う処理部と、を備える、情報処理装置が提供される。

また、本開示によれば、集音部で集音された音声に基づいて算出される適正度を取得することと、取得された適正度に基づいて、プロセッサが処理を行うことと、を含む、情報処理方法が提供される。

また、本開示によれば、コンピュータを、集音部で集音された音声に基づいて算出される適正度を取得する取得部と、前記取得部により取得された適正度に基づいて処理を行う処理部と、として機能させるための、プログラムが提供される。

以上説明したように本開示によれば、集音された音声の状態に適応的に処理を行うことができる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

第１の実施形態による情報処理システムの構成例を示した説明図である。第１の実施形態によるサーバ２０‐１の構成例を示した機能ブロック図である。第１の実施形態による位置変更履歴ＤＢ２２４の構成例を示した説明図である。第１の実施形態によるデバイス１０‐１の構成例を示した機能ブロック図である。デバイス１０‐１による集音部１２０の位置の変更例を示した説明図である。第１の実施形態による動作を示したシーケンス図である。第１の実施形態による「制御情報生成処理」の流れを示したフローチャートである。第２の実施形態によるサーバ２０‐２の構成例を示した機能ブロック図である。第２の実施形態によるデバイス１０‐２の構成例を示した機能ブロック図である。第２の実施形態による位置変更履歴ＤＢ１２８の構成例を示した説明図である。第２の実施形態による動作を示したシーケンス図である。第２の実施形態による「集音部の位置等変更処理」の流れを示したフローチャートである。第３の実施形態によるデバイス１０‐３の構成例を示した機能ブロック図である。第３の実施形態による集音部の位置等の適正度を示す表示の表示例を示した説明図である。第３の実施形態による集音部の位置等の適正度を示す表示の表示例を示した説明図である。第３の実施形態による集音部１２０の位置の変更を促す警告表示の表示例を示した説明図である。第３の実施形態による集音部１２０の位置の変更を促す警告表示の表示例を示した説明図である。第３の実施形態による動作を示したシーケンス図である。第４の実施形態による情報処理システムの構成例を示した説明図である。第４の実施形態によるデバイス１０‐４の構成例を示した機能ブロック図である。第４の実施形態による動作を示したシーケンス図である。第４の実施形態による「操作実行処理」の流れを示したフローチャートである。「操作実行処理」の変形例１の流れを示したフローチャートである。「操作実行処理」の変形例２の流れを示したフローチャートである。「操作実行処理」の変形例３の流れを示したフローチャートである。各実施形態に共通するデバイス１０のハードウェア構成例を示した説明図である。本開示の変形例による、ロボット１０に対して複数のユーザが発話を行う場面の例を示した説明図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成を有する複数の構成要素を、必要に応じてデバイス１０ａおよびデバイス１０ｂのように区別する。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。例えば、デバイス１０ａおよびデバイス１０ｂを特に区別する必要が無い場合には、単にデバイス１０と称する。

また、以下に示す項目順序に従って当該「発明を実施するための形態」を説明する。
１．第１の実施形態
２．第２の実施形態
３．第３の実施形態
４．第４の実施形態
５．ハードウェア構成
６．変形例

なお、本明細書及び図面において、後述する各実施形態によるデバイス１０‐１、デバイス１０‐２、デバイス１０‐３、および、デバイス１０‐４を総称して、デバイス１０と称する場合がある。同様に、各実施形態によるサーバ２０‐１、サーバ２０‐２、サーバ２０‐３、および、サーバ２０‐４を総称して、サーバ２０と称する場合がある。

＜＜１．第１の実施形態＞＞
＜１−１．情報処理システムの構成＞
まず、本開示の第１の実施形態について説明する。第１の実施形態では、集音部１２０に対してユーザが音声入力を行う場面を想定する。図１は、第１の実施形態による情報処理システムの構成を示した説明図である。図１に示すように、第１の実施形態による情報処理システムは、デバイス１０‐１、サーバ２０‐１、および、通信網３０を含む。

{１−１−１．サーバ２０‐１}
サーバ２０‐１は、本開示における情報処理装置の一例である。サーバ２０‐１は、音声認識機能を有する。例えば、サーバ２０‐１は、後述する通信網３０を介してデバイス１０‐１から受信される音声データに対して音声認識（クラウド音声認識）を行う。そして、サーバ２０‐１は、音声認識結果をデバイス１０‐１へ送信する。

{１−１−２．デバイス１０‐１}
デバイス１０‐１は、本開示における情報処理装置の一例である。デバイス１０‐１は、集音部１２０で集音された音声データをサーバ２０‐１へ送信する。例えば、デバイス１０‐１は、集音部１２０で集音されたユーザの発話の音声データをサーバ２０‐１へ送信する。なお、集音部１２０は、デバイス１０‐１に備えられてもよいし、または、デバイス１０‐１と有線通信または無線通信により通信可能に接続されていてもよい。

また、デバイス１０‐１は、集音部１２０の位置および／または姿勢の変更を制御することが可能である。

なお、図１では、デバイス１０‐１がヘッドセットである例を示しているが、かかる例に限定されない。例えば、デバイス１０‐１は、汎用ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、タブレット型端末、スマートフォンなどの携帯電話、ゲーム機、携帯型音楽プレーヤ、エージェント装置、ロボット、または、ＨＭＤ（ＨｅａｄＭｏｕｎｔｅｄＤｉｓｐｌａｙ）などの眼鏡型デバイスや腕時計型デバイスなどの他のウェアラブルデバイスなどであってもよい。

{１−１−３．通信網３０}
通信網３０は、通信網３０に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、通信網３０は、電話回線網、インターネット、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などを含んでもよい。また、通信網３０は、ＩＰ−ＶＰＮ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ−ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）などの専用回線網を含んでもよい。

なお、第１の実施形態による情報処理システムの構成は、上述した例に限定されない。例えば、図１では、サーバ２０‐１が一台だけ図示されているが、かかる例に限定されない。例えば、複数台のコンピュータが協同して動作することにより、後述するサーバ２０‐１の機能が実現されてもよい。また、図１では、デバイス１０‐１が一台だけ図示されているが、かかる例に限定されず、当該情報処理システムは、デバイス１０‐１を複数台含み得る。

{１−１−４．課題の整理}
以上、第１の実施形態による情報処理システムの構成について説明した。ところで、集音部１２０とユーザとの位置関係が不適切であると、集音部１２０は、ユーザの音声を適切に集音することができない。その結果、集音部１２０で集音された音声をサーバ２０‐１が音声認識する際に、音声認識の精度が低下し得る。例えば、ユーザの意図とは異なるテキストが音声認識結果として得られる。また、不適切に集音された音声をサーバ２０‐１が音声認識する場合には、音声認識の処理量が増加し得る。

一方、音声認識の精度が高くなるように、集音部１２０の位置や姿勢を調整することは、ユーザの手間が大きい。また、音声認識の精度が高くなるような、ユーザに対する集音部１２０の位置や姿勢は、例えば集音部１２０の周囲の音の状況や集音部１２０の種類などによって異なる。従って、集音部１２０の適切な位置や姿勢をユーザが特定することは難しい。

そこで、上記事情を一着眼点にして、第１の実施形態によるデバイス１０‐１およびサーバ２０‐１を創作するに至った。第１の実施形態によれば、サーバ２０‐１は、集音部１２０で集音されたユーザの音声をデバイス１０‐１から受信し、そして、受信された音声に基づいて算出される適正度に応じて、集音部１２０の位置および／または姿勢を変更させるための制御情報をデバイス１０‐１へ送信する。また、デバイス１０‐１は、サーバ２０‐１から受信される制御情報に基づいて、集音部１２０の位置および／または姿勢を変更する。これにより、集音部１２０で集音される音声の音声認識の精度が向上するように、集音部１２０の位置および／または姿勢を自動的に調整することができる。

＜１−２．構成＞
｛１−２−１．サーバ２０‐１｝
次に、第１の実施形態による構成について詳細に説明する。図２は、第１の実施形態によるサーバ２０‐１の構成例を示した機能ブロック図である。図２に示すように、サーバ２０‐１は、制御部２００、通信部２２０、および、記憶部２２２を有する。

（１−２−１−１．制御部２００）
制御部２００は、サーバ２０‐１に内蔵される、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）や、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などのハードウェアを用いて、サーバ２０‐１の動作を全般的に制御する。また、図２に示すように、制御部２００は、音声認識部２０２、適正度算出部２０４、制御情報生成部２０６、および、送信制御部２０８を有する。

（１−２−１−２．音声認識部２０２）
音声認識部２０２は、例えばデバイス１０‐１から受信される音声データなどを認識する。また、音声認識部２０２は、音声認識の結果を適正度算出部２０４および送信制御部２０８に伝達する。

（１−２−１−３．適正度算出部２０４）
適正度算出部２０４は、音声認識部２０２による音声認識に基づいて適正度を算出する。ここで、適正度は、例えば、集音部１２０の位置および／または姿勢の適正度（以下、集音部の位置等の適正度と称する）であり得る。または、適正度は、集音された音声の適正度（例えば、当該音声の音声認識結果の信頼度など）であり得る。なお、以下では、適正度が、集音部の位置等の適正度である例を中心として説明を行う。

例えば、適正度算出部２０４は、デバイス１０‐１から受信された音声データを音声認識部２０２が音声認識する際の計算量、当該音声データに含まれるノイズの情報（例えばノイズの量など）、および／または、音声認識結果の信頼度などに基づいて、集音部の位置等の適正度を算出する。例えば、適正度算出部２０４は、音声認識する際の計算量が少ないほど、当該音声データに含まれるノイズの量が少ないほど、および、音声認識結果の信頼度が高いほど、集音部の位置等の適正度がより高くなるように当該適正度を算出する。なお、例えば認識対象の音声データに含まれるノイズ量が多いほど、または、認識結果の候補となるテキストが多いほど、音声認識部２０２が音声認識する際の計算量は大きくなり得る。

なお、デバイス１０‐１から受信される音声データは、基本的には、任意の発話の音声であり得る。但し、かかる例に限定されず、例えば、音声認識機能の利用の開始時（例えばデバイス１０‐１に実装されている音声認識用アプリケーションの開始時など）には、所定の起動ワードの発話の音声データがデバイス１０‐１から受信され得る。この所定の起動ワードは予め決められているテキストであるので、適正度算出部２０４は、任意の発話と比較して、集音部の位置等の適正度をより正確に算出することが可能である。

（１−２−１−４．制御情報生成部２０６）
制御情報生成部２０６は、適正度算出部２０４により算出された集音部の位置等の適正度と所定の閾値との比較に基づいて、集音部１２０の位置および／または姿勢をデバイス１０‐１に変更させるための制御情報を生成する。例えば、算出された集音部の位置等の適正度が所定の閾値以下である場合には、制御情報生成部２０６は、当該制御情報を生成することを決定する。また、算出された集音部の位置等の適正度が所定の閾値よりも大きい場合には、制御情報生成部２０６は、当該制御情報を生成しないことを決定する。

また、制御情報を生成することを決定した際には、制御情報生成部２０６は、後述する位置変更履歴ＤＢ２２４に格納されている、集音部１２０の位置等の変更履歴に基づいて、制御情報を生成する。例えば、制御情報生成部２０６は、今回算出された集音部の位置等の適正度と、前回算出された集音部の位置等の適正度との比較、および、前回の集音部１２０の位置および／または姿勢の変更内容に基づいて、制御情報を生成する。一例として、今回算出された集音部の位置等の適正度が、前回算出された集音部の位置等の適正度以上である場合には、制御情報生成部２０６は、集音部１２０を前回の移動方向と同じ方向に移動させるための制御情報を生成する。また、今回算出された集音部の位置等の適正度が、前回算出された集音部の位置等の適正度未満である場合には、制御情報生成部２０６は、前回の移動方向とは反対の方向、または、所定の角度だけずらした方向へ集音部１２０を移動させるための制御情報を生成する。ここで、制御情報は、集音部１２０の相対的な移動方向、移動量、または、姿勢の変更量を示す値であり得る。

なお、集音部１２０を初めて移動させる際、すなわち変更履歴が存在しない場合には、制御情報生成部２０６は、予め定められた方向へ集音部１２０を移動させるための制御情報を生成してもよい。

また、制御情報生成部２０６は、さらに、デバイス１０‐１から受信されるデバイス１０‐１の識別情報に基づいて、制御情報を生成することも可能である。例えば、デバイス１０‐１の識別情報と、集音部１２０の移動可能な条件（移動可能な方向や量など）とが対応付けられたテーブルが予め用意され得る。そして、制御情報生成部２０６は、受信されたデバイス１０‐１の識別情報、および、当該テーブルの登録内容に基づいて、集音部１２０の移動可能な条件を特定することにより制御情報を生成する。

‐位置変更履歴ＤＢ２２４
位置変更履歴ＤＢ２２４は、集音部１２０ごとの、過去に算出された適正度、および、過去の制御情報の内容が格納されるデータベースである。図３は、位置変更履歴ＤＢ２２４の構成例を示した説明図である。図３に示したように、位置変更履歴ＤＢ２２４では、例えば、デバイスＩＤ２２４０、日時２２４２、適正度２２４４、および、制御情報２２４６が対応付けられている。ここで、デバイスＩＤ２２４０には、音声データの送信元であるデバイス１０‐１に予め割り当てられている識別情報が記録される。また、日時２２４２には、該当のデバイス１０‐１に関して、集音部の位置等の適正度が算出された際の日時が記録される。また、適正度２２４４には、該当のデバイス１０‐１に関して、該当の日時に算出された集音部の位置等の適正度の値が記録される。また、制御情報２２４６には、該当のデバイス１０‐１に関して、該当の日時に生成された制御情報の内容が記録される。なお、図３では、制御情報が、二種類の回転角度（θ、φ）の組により集音部の位置を変更させる情報である例を示している。但し、かかる例に限定されず、制御情報は、例えば、直交する３軸の方向の移動量（ｘ、ｙ、ｚ）の組により集音部の位置を変更させる情報であってもよい。

（１−２−１−５．送信制御部２０８）
送信制御部２０８は、本開示における処理部の一例である。送信制御部２０８は、他の装置に対する各種の情報の送信を制御する。例えば、送信制御部２０８は、音声認識部２０２による音声認識結果を該当のデバイス１０‐１へ通信部２２０に送信させる。また、送信制御部２０８は、制御情報生成部２０６により生成された制御情報を該当のデバイス１０‐１へ通信部２２０に送信させる。なお、送信制御部２０８は、制御情報を音声認識結果と一緒にデバイス１０‐１へ通信部２２０に送信させてもよい。または、音声認識部２０２による音声認識の途中に制御情報が生成される度に、送信制御部２０８は、生成された制御情報だけをデバイス１０‐１へ通信部２２０に逐次的に送信させてもよい。

（１−２−１−６．通信部２２０）
通信部２２０は、本開示における取得部の一例である。通信部２２０は、例えば通信網３０を介して他の装置との間で情報の送受信を行う。例えば、通信部２２０は、音声データをデバイス１０‐１から受信する。また、通信部２２０は、送信制御部２０８の制御に従って、制御情報や音声認識結果をデバイス１０‐１へ送信する。

（１−２−１−７．記憶部２２２）
記憶部２２２は、各種のデータや各種のソフトウェアを記憶する。例えば、記憶部２２２は、位置変更履歴ＤＢ２２４などを記憶する。

なお、第１の実施形態によるサーバ２０‐１の構成は、上述した例に限定されない。例えば、位置変更履歴ＤＢ２２４は、サーバ２０‐１に備えられる代わりに、サーバ２０‐１と通信可能な他の装置（図示省略）に備えられてもよい。

｛１−２−２．デバイス１０‐１｝
次に、第１の実施形態によるデバイス１０‐１の構成について詳細に説明する。図４は、第１の実施形態によるデバイス１０‐１の構成例を示した機能ブロック図である。図４に示すように、デバイス１０‐１は、制御部１００、集音部１２０、駆動部１２２、通信部１２４、および、記憶部１２６を有する。

（１−２−２−１．制御部１００）
制御部１００は、デバイス１０‐１に内蔵される、後述するＣＰＵ１５０や、ＲＡＭ１５４などのハードウェアを用いて、デバイス１０‐１の動作を全般的に制御する。また、図４に示すように、制御部１００は、送信制御部１０２、および、駆動制御部１０４を有する。

（１−２−２−２．送信制御部１０２）
送信制御部１０２は、他の装置に対する各種の情報の送信を制御する。例えば、送信制御部１０２は、集音部１２０により集音された音声データ、および、デバイス１０‐１の識別情報をサーバ２０‐１へ通信部１２４に送信させる。

（１−２−２−３．駆動制御部１０４）
駆動制御部１０４は、本開示における処理部の一例である。駆動制御部１０４は、サーバ２０‐１から受信される制御情報に従って、集音部１２０の位置および／または姿勢を駆動部１２２に変更させる。

図５は、集音部１２０の位置の変更例を示した説明図である。なお、図５では、サーバ２０‐１から制御情報３２が受信された場合における集音部１２０の位置の変更例を示している。図５に示したように、駆動制御部１０４は、制御情報３２に従って、現在の集音部１２０の位置を基準として、θに関して「＋３」、φに関して「−２」だけ集音部１２０の位置を変化させるように、駆動部１２２を制御する。

（１−２−２−４．集音部１２０）
集音部１２０は、外部の音（空気振動）を検出し、そして、電気信号に変換する。また、集音部１２０は、集音した音声を制御部１００へ伝達する。

（１−２−２−５．駆動部１２２）
駆動部１２２は、駆動制御部１０４の制御に従って、集音部１２０の位置および／または姿勢を変更する。この駆動部１２２は、例えば、集音部１２０の位置および／または姿勢を変更可能なアクチュエータを含む。

（１−２−２−６．通信部１２４）
通信部１２４は、本開示における取得部の一例である。通信部１２４は、例えば通信網３０を介して他の装置との間で情報の送受信を行う。例えば、通信部１２４は、制御情報および音声認識結果をサーバ２０‐１から受信する。また、通信部１２４は、送信制御部１０２の制御に従って、音声データ、および、デバイス１０‐１の識別情報をサーバ２０‐１へ送信する。

（１−２−２−７．記憶部１２６）
記憶部１２６は、各種のデータや各種のソフトウェアを記憶する。

＜１−３．適用例＞
以上、第１の実施形態による構成について説明した。次に、第１の実施形態の適用例について説明する。本適用例では、デバイス１０‐１が、集音部１２０を備えたヘッドセット１０‐１ａである例について説明する。なお、集音部１２０は上下方向（垂直方向）にのみ移動可能であるものとする。

ヘッドセット１０‐１ａをユーザが装着した場合、ユーザの口と集音部１２０との位置関係は、ユーザによって異なる。従って、ユーザによっては、ヘッドセット１０‐１ａの装着時に、音声認識の精度の観点で不適切な位置に集音部１２０が位置づけられ得る。本適用例によれば、集音部１２０の位置を、ヘッドセット１０‐１ａを装着中のユーザに最適な位置に自動的に調整することが可能である。

具体的には、まず、ユーザが集音部１２０に対して任意の発話をすると、ヘッドセット１０‐１ａは、集音部１２０により集音された音声データ、および、ヘッドセット１０‐１ａの識別情報をサーバ２０‐１へ送信する。

その後、サーバ２０‐１は、受信した音声データに対して音声認識を行うとともに、当該音声認識に基づいて、集音部の位置等の適正度を算出する。また、サーバ２０‐１は、受信したヘッドセット１０‐１ａの識別情報に基づいて、集音部１２０が上下方向にのみ移動可能であることを認識する。そして、算出された適正度が所定の閾値よりも大きい場合には、サーバ２０‐１は、制御情報を生成しないことを決定し、そして、音声認識結果だけを該当のヘッドセット１０‐１ａへ送信する。

一方、算出された適正度が所定の閾値以下である場合には、サーバ２０‐１は、位置変更履歴ＤＢ２２４に格納されている、該当のヘッドセット１０‐１ａに関する集音部１２０の位置等の変更履歴に基づいて、上下いずれかの方向へ集音部１２０を移動させるための制御情報を生成する。例えば、今回算出された集音部の位置等の適正度が、前回算出された集音部の位置等の適正度以上である場合には、サーバ２０‐１は、前回の移動方向と同じ方向へ集音部１２０を移動させるための制御情報を生成する。また、今回算出された集音部の位置等の適正度が、前回算出された集音部の位置等の適正度未満である場合には、制御情報生成部２０６は、前回の移動方向とは反対の方向へ集音部１２０を移動させるための制御情報を生成する。

その後、サーバ２０‐１は、生成した制御情報および音声認識結果を該当のヘッドセット１０‐１ａへ送信する。その後、ヘッドセット１０‐１ａは、受信した制御情報に従って、集音部１２０の位置を変更する。

なお、ユーザが発話する度に、サーバ２０‐１およびヘッドセット１０‐１ａは、上述した処理を繰り返す。従って、ユーザが発話を繰り返すことにより、ヘッドセット１０‐１ａは、集音部１２０の位置がユーザにとって最適な位置になるように、集音部１２０の位置を徐々に調整していくことができる。

＜１−４．動作＞
｛１−４−１．動作の全体的な流れ｝
以上、第１の実施形態の適用例について説明した。次に、第１の実施形態による動作について、図６および図７を参照して説明する。図６は、第１の実施形態による動作の全体的な流れを示したシーケンス図である。なお、図６に示した動作は、基本的に、集音部１２０に対してユーザが発話する度に実行される。

図６に示したように、まず、デバイス１０‐１の集音部１２０は、ユーザにより発せられた音声を集音する（Ｓ１０１）。

続いて、通信部１２４は、送信制御部１０２の制御に従って、Ｓ１０１で集音された音声データ、および、デバイス１０‐１の識別情報をサーバ２０‐１へ送信する（Ｓ１０３）。

その後、サーバ２０‐１の音声認識部２０２は、受信された音声データに対して音声認識を行う（Ｓ１０５）。続いて、適正度算出部２０４は、Ｓ１０５における音声認識および所定の計算式に基づいて、集音部の位置等の適正度を算出する（Ｓ１０７）。なお、適正度算出部２０４は、Ｓ１０５の途中において、集音部の位置等の適正度を算出することも可能である。

続いて、制御情報生成部２０６は、Ｓ１０７で算出された適正度が所定の閾値よりも大きいか否かを判定する（Ｓ１０９）。算出された適正度が所定の閾値よりも大きい場合には（Ｓ１０９：Ｙｅｓ）、通信部２２０は、送信制御部２０８の制御に従って、Ｓ１０５における音声認識結果のみをデバイス１０‐１へ送信する（Ｓ１１１）。その後、本動作は終了する。

一方、算出された適正度が所定の閾値以下である場合には（Ｓ１０９：Ｎｏ）、制御情報生成部２０６は、後述する「制御情報生成処理」を行う（Ｓ１１３）。

続いて、通信部２２０は、送信制御部２０８の制御に従って、Ｓ１０５における音声認識結果、および、Ｓ１１３で生成された制御情報をデバイス１０‐１へ送信する（Ｓ１１５）。

その後、デバイス１０‐１の駆動制御部１０４は、受信した制御情報に従って、集音部１２０の位置および／または姿勢を駆動部１２２に変更させる（Ｓ１１７）。

｛１−４−２．制御情報生成処理｝
ここで、Ｓ１１３における「制御情報生成処理」の流れについて、図７を参照して説明する。図７に示したように、まず、制御情報生成部２０６は、位置変更履歴ＤＢ２２４を参照することにより、該当のデバイス１０‐１に関する前回の適正度を特定する。そして、制御情報生成部２０６は、Ｓ１０７で算出された適正度が、前回算出された適正度以上であるか否かを判定する（Ｓ１５１）。Ｓ１０７で算出された適正度が、前回算出された適正度以上である場合には（Ｓ１５１：Ｙｅｓ）、制御情報生成部２０６は、集音部１２０の位置を前回の移動方向と同じ方向に移動させるための制御情報を生成する（Ｓ１５３）。そして、制御情報生成部２０６は、該当のデバイス１０‐１の識別情報、Ｓ１０７で算出された適正度、および、生成された制御情報を対応付けて位置変更履歴ＤＢ２２４に保存する（Ｓ１５５）。

一方、Ｓ１５１において、Ｓ１０７で算出された適正度が、前回算出された適正度未満である場合には（Ｓ１５１：Ｎｏ）、制御情報生成部２０６は、前回の移動方向とは反対の方向、または、所定の角度だけずらした方向へ集音部１２０を移動させるための制御情報を生成する（Ｓ１５７）。その後、制御情報生成部２０６は、上述したＳ１５５の処理を行う。

＜１−５．効果＞
以上説明したように、第１の実施形態によれば、サーバ２０‐１は、集音部１２０で集音されたユーザの音声をデバイス１０‐１から受信し、そして、受信された音声に基づいて算出される適正度に応じて、集音部１２０の位置および／または姿勢を変更させるための制御情報をデバイス１０‐１へ送信する。また、デバイス１０‐１は、サーバ２０‐１から受信される制御情報に従って、集音部１２０の位置および／または姿勢を変更する。このため、集音部１２０で集音される音声の音声認識の精度が向上するように、集音部１２０の位置および／または姿勢を自動的に調整することができる。例えば、ユーザは発話を繰り返すだけで、集音部１２０の位置および／または姿勢を適切に調整することができる。

また、第１の実施形態によれば、デバイス１０‐１は、サーバ２０‐１から受信される制御情報を利用するだけで、集音部１２０の位置および／または姿勢を適切に変更することが可能である。従って、例えばデバイス１０‐１が変更方向を自ら判断するなどの特別な処理が不要になる。その結果、デバイス１０‐１の消費電力の節約につながる。

また、第１の実施形態によれば、集音部１２０で集音される音声の音声認識の精度が向上するので、サーバ２０‐１による音声認識の処理量が減少することが期待できる。

また、第１の実施形態によれば、一台の集音部１２０で集音される音声のみを用いて当該集音部１２０の位置および／または姿勢を適切に変更することができる。例えば、公知の技術のような、複数の集音部１２０による集音結果を用いて、発話するユーザの方向を判定する処理などが不要となる。従って、公知の技術と比較して、シンプルなハードウェア構成により、集音部１２０の位置および／または姿勢を適切に変更することができる。

＜＜２．第２の実施形態＞＞
以上、第１の実施形態について説明した。第１の実施形態では、サーバ２０‐１が、集音部１２０の位置および／または姿勢を変更させるための制御情報を生成し、そして、デバイス１０‐１へ送信する例について説明した。

次に、第２の実施形態について説明する。後述するように、第２の実施形態によるデバイス１０‐２は、第２の実施形態によるサーバ２０‐２から受信される集音部の位置等の適正度に応じて、集音部１２０の位置および／または姿勢を変更することが可能である。なお、以下では、第１の実施形態と異なる内容についてのみ説明を行うこととし、重複する内容については説明を省略する。

＜２−１．構成＞
{２−１−１．サーバ２０‐２}
まず、第２の実施形態による構成について詳細に説明する。図８は、第２の実施形態によるサーバ２０‐２の構成例を示した機能ブロック図である。図８に示すように、サーバ２０‐２は、（図２に示した）サーバ２０‐１と比較して、制御情報生成部２０６を有しない。また、第２の実施形態では、第１の実施形態と異なり、基本的には、位置変更履歴ＤＢ２２４は設けられない。

（２−１−１−１．送信制御部２０８）
第２の実施形態による送信制御部２０８は、適正度算出部２０４により算出された集音部の位置等の適正度を該当のデバイス１０‐２へ通信部２２０に送信させる。なお、送信制御部２０８は、集音部の位置等の適正度を音声認識結果と一緒に該当のデバイス１０‐１へ通信部２２０に送信させてもよいし、または、音声認識部２０２による音声認識の処理中に、集音部の位置等の適正度だけを該当のデバイス１０‐１へ通信部２２０に逐次的に送信させてもよい。

{２−１−２．デバイス１０‐２}
また、図９は、第２の実施形態によるデバイス１０‐２の構成例を示した機能ブロック図である。なお、図９に示したように、デバイス１０‐２に含まれる構成要素は、（図４に示した）デバイス１０‐１と同様である。

（２−１−２−１．送信制御部１０２）
第２の実施形態による送信制御部１０２は、基本的に、集音部１２０により集音された音声データのみをサーバ２０‐２へ通信部１２４に送信させる。すなわち、基本的に、デバイス１０‐２の識別情報はサーバ２０‐２へ送信されない。

（２−１−２−２．駆動制御部１０４）
第２の実施形態による駆動制御部１０４は、サーバ２０‐２から受信された、集音部の位置等の適正度と所定の閾値との比較に基づいて、集音部１２０の位置および／または姿勢を駆動部１２２に変更させる。例えば、受信された集音部の位置等の適正度が所定の閾値以下である場合には、駆動制御部１０４は、集音部１２０の位置および／または姿勢を駆動部１２２に変更させることを決定する。また、受信された集音部の位置等の適正度が所定の閾値よりも大きい場合には、駆動制御部１０４は、集音部１２０の位置および／または姿勢を駆動部１２２に変更させないことを決定する。

また、集音部１２０の位置等を変更することを決定した際には、駆動制御部１０４は、後述する位置変更履歴ＤＢ１２８に格納されている、集音部１２０の位置等の変更履歴に基づいて、集音部１２０の位置および／または姿勢を駆動部１２２に変更させる。例えば、駆動制御部１０４は、今回受信された集音部の位置等の適正度と、前回受信された集音部の位置等の適正度との比較、および、前回の集音部１２０の位置および／または姿勢の変更内容に基づいて、集音部１２０の位置および／または姿勢を駆動部１２２に変更させる。一例として、今回受信された集音部の位置等の適正度が、前回受信された集音部の位置等の適正度以上である場合には、駆動制御部１０４は、集音部１２０を前回の移動方向と同じ方向に駆動部１２２に移動させる。また、今回受信された集音部の位置等の適正度が、前回受信された集音部の位置等の適正度未満である場合には、駆動制御部１０４は、前回の移動方向とは反対の方向、または、所定の角度だけずらした方向へ集音部１２０を駆動部１２２に移動させる。

なお、集音部１２０を初めて移動させる際、すなわち変更履歴が存在しない場合には、駆動制御部１０４は、予め定められた方向へ集音部１２０を駆動部１２２に移動させてもよい。

‐位置変更履歴ＤＢ１２８
位置変更履歴ＤＢ１２８は、過去に受信された集音部の位置等の適正度、および、集音部１２０の位置等の変更内容が格納されるデータベースである。図１０は、位置変更履歴ＤＢ１２８の構成例を示した説明図である。図１０に示したように、位置変更履歴ＤＢ１２８では、例えば、日時１２８０、適正度１２８２、および、制御内容１２８４が対応付けられている。ここで、日時１２８０には、集音部の位置等の適正度が受信された日時が記録される。また、適正度１２８２には、該当の日時に受信された集音部の位置等の適正度の値が記録される。また、制御内容１２８４には、該当の日時において駆動制御部１０４により実行された制御内容が記録される。なお、制御内容１２８４に記録される内容は、図３に示した制御情報２２４６と同様であり得る。

＜２−２．適用例＞
以上、第２の実施形態による構成について説明した。次に、第２の実施形態の適用例について説明する。本適用例では、（第１の実施形態の適用例と同様に）デバイス１０‐２が、集音部１２０を備えたヘッドセット１０‐２ａであり、かつ、集音部１２０が上下方向にのみ移動可能である例について説明する。

具体的には、まず、ユーザが集音部１２０に対して任意の発話をすると、ヘッドセット１０‐２ａは、集音部１２０により集音された音声データのみをサーバ２０‐２へ送信する。

その後、サーバ２０‐２は、受信した音声データに対して音声認識を行うとともに、当該音声認識に基づいて、集音部の位置等の適正度を算出する。そして、サーバ２０‐２は、算出した適正度および音声認識結果を該当のヘッドセット１０‐２ａへ送信する。

その後、受信された適正度が所定の閾値よりも大きい場合には、ヘッドセット１０‐２ａは、集音部１２０の位置および／または姿勢を駆動部１２２に変更させないことを決定する。一方、受信された適正度が所定の閾値以下である場合には、ヘッドセット１０‐２ａは、位置変更履歴ＤＢ１２８に格納されている、集音部１２０の位置等の変更履歴に基づいて、上下いずれかの方向へ集音部１２０を移動させる。例えば、今回受信された集音部の位置等の適正度が、前回受信された集音部の位置等の適正度以上である場合には、ヘッドセット１０‐２ａは、前回の移動方向と同じ方向へ集音部１２０を移動させる。また、今回受信された集音部の位置等の適正度が、前回受信された集音部の位置等の適正度未満である場合には、ヘッドセット１０‐２ａは、前回の移動方向とは反対の方向へ集音部１２０を移動させる。

なお、ユーザが発話する度に、サーバ２０‐２およびヘッドセット１０‐２ａは、上述した処理を繰り返す。従って、ユーザが発話を繰り返すことにより、ヘッドセット１０‐２ａは、集音部１２０の位置がユーザにとって最適な位置になるように、集音部１２０の位置を徐々に調整していくことができる。

＜２−３．動作＞
｛２−３−１．動作の全体的な流れ｝
以上、第２の実施形態の適用例について説明した。次に、第２の実施形態による動作について、図１１および図１２を参照して説明する。図１１は、第２の実施形態による動作の全体的な流れを示したシーケンス図である。なお、図１１に示した動作は、基本的に、集音部１２０に対してユーザが発話する度に実行される。また、図１１に示したＳ２０１は、（図６に示した）第１の実施形態によるＳ１０１と同様である。

Ｓ２０１の後、デバイス１０‐１の通信部１２４は、送信制御部１０２の制御に従って、Ｓ２０１で集音された音声データのみをサーバ２０‐２へ送信する（Ｓ２０３）。なお、図１１に示したＳ２０５〜Ｓ２０７は、（図６に示した）Ｓ１０５〜Ｓ１０７と同様である。

Ｓ２０７の後、サーバ２０‐２の通信部２２０は、送信制御部２０８の制御に従って、Ｓ２０５における音声認識結果、および、Ｓ２０７で算出された、集音部の位置等の適正度をデバイス１０‐２へ送信する（Ｓ２０９）。

その後、デバイス１０‐２の駆動制御部１０４は、受信された適正度が所定の閾値よりも大きいか否かを判定する（Ｓ２１１）。受信された適正度が所定の閾値よりも大きい場合には（Ｓ２１１：Ｙｅｓ）、デバイス１０‐２は本動作を終了する。

一方、受信された適正度が所定の閾値以下である場合には（Ｓ２１１：Ｎｏ）、駆動制御部１０４は、後述する「集音部の位置等変更処理」を行う（Ｓ２１３）。

｛２−３−２．集音部の位置等変更処理｝
ここで、Ｓ２１３における「集音部の位置等変更処理」の流れについて、図１２を参照して説明する。図１２に示したように、まず、駆動制御部１０４は、位置変更履歴ＤＢ１２８を参照することにより、前回受信された適正度を特定する。そして、駆動制御部１０４は、Ｓ２０９で受信された適正度が、前回受信された適正度以上であるか否かを判定する（Ｓ２５１）。Ｓ２０９で受信された適正度が、前回受信された適正度以上である場合には（Ｓ２５１：Ｙｅｓ）、駆動制御部１０４は、集音部１２０の位置を前回の移動方向と同じ方向に駆動部１２２に移動させる（Ｓ２５３）。そして、駆動制御部１０４は、Ｓ２０９で受信された適正度、および、集音部１２０の位置等の変更内容を対応付けて位置変更履歴ＤＢ１２８に保存する（Ｓ２５５）。

一方、Ｓ２０９で受信された適正度が、前回受信された適正度未満である場合には（Ｓ２５１：Ｎｏ）、駆動制御部１０４は、前回の移動方向とは反対の方向、または、所定の角度だけずらした方向へ集音部１２０を駆動部１２２に移動させる（Ｓ２５７）。その後、駆動制御部１０４は、上述したＳ２５５の処理を行う。

＜２−４．効果＞
以上説明したように、第２の実施形態によれば、サーバ２０‐２は、集音部１２０で集音されたユーザの音声をデバイス１０‐２から受信し、そして、受信された音声に基づいて算出される適正度をデバイス１０‐２へ送信する。また、デバイス１０‐２は、サーバ２０‐２から受信される適正度に応じて、集音部１２０の位置および／または姿勢を変更する。このため、集音部１２０で集音される音声の音声認識の精度が向上するように、集音部１２０の位置および／または姿勢を自動的に調整することができる。

また、第２の実施形態によれば、第１と実施形態と異なり、サーバ２０‐２がデバイス１０‐２の種類を認識すること、および、算出した集音部の位置等の適正度を保存することが不要である。従って、サーバ２０‐２の処理量が軽減される。

＜＜３．第３の実施形態＞＞
以上、第２の実施形態について説明した。上述したように、第１の実施形態および第２の実施形態では、デバイス１０‐１またはデバイス１０‐２が集音部１２０の位置および／または姿勢を自動的に調整する例について説明した。

次に、第３の実施形態について説明する。後述するように、第３の実施形態によるデバイス１０‐３は、第３の実施形態によるサーバ２０‐３から受信される集音部の位置等の適正度に応じて、集音部１２０の位置および／または姿勢の変更をユーザに促す警告表示を表示させたり、警告音を出力させることが可能である。これにより、集音部１２０で集音される音声の音声認識の精度が向上するように、集音部１２０の位置および／または姿勢をユーザは適切に調整することができる。なお、以下では、第２の実施形態と異なる内容についてのみ説明を行う。

＜３−１．構成＞
{３−１−１．サーバ２０‐３}
まず、第３の実施形態による構成について詳細に説明する。なお、第３の実施形態によるサーバ２０‐３の構成は、第２の実施形態によるサーバ２０‐２と概略同様である。

{３−１−２．デバイス１０‐３}
図１３は、第３の実施形態によるデバイス１０‐３の構成例を示した機能ブロック図である。図１３に示したように、デバイス１０‐３は、図９に示したデバイス１０‐２と比較して、出力部１３０をさらに含み、かつ、駆動部１２２を含まない。

（３−１−２−１．制御部１００）
第３の実施形態による制御部１００は、（図９に示した）第２の実施形態と比較して、出力制御部１０６をさらに含み、かつ、駆動制御部１０４を含まない。

（３−１−２−２．出力制御部１０６）
出力制御部１０６は、本開示における処理部の一例である。出力制御部１０６は、例えばテキスト、画像、音などの各種の情報を、後述する出力部１３０に出力させる。例えば、集音部の位置等の適正度がサーバ２０‐３から受信された場合には、出力制御部１０６は、受信された適正度に応じた情報を出力部１３０に出力させる。

‐表示例１
一例として、出力制御部１０６は、受信された集音部の位置等の適正度を表示画面に表示させたり、当該適正度を読み上げる音声を出力部１３０に出力させる。例えば、図１４Ａに示したように、出力制御部１０６は、当該適正度を示すテキストを表示画面に表示させてもよい。なお、出力制御部１０６は、当該適正度が所定の閾値以下である場合にのみ、当該適正度を示すテキストを表示画面に表示させてもよい。

または、出力制御部１０６は、受信された集音部の位置等の適正度の程度を示す表示を表示画面に表示させてもよい。例えば、当該適正度が所定の閾値よりも大きい場合には、図１４Ｂに示したように、出力制御部１０６は、「マイク位置が良好であること」を示すテキストを表示画面に表示させてもよい。また、当該適正度が所定の閾値以下である場合には、出力制御部１０６は、「マイク位置が不良であること」を示すテキストを表示画面に表示させてもよい。

‐表示例２
または、出力制御部１０６は、受信された集音部の位置等の適正度と所定の閾値との比較に基づいて、警告表示を表示画面に表示させたり、または、警告音を出力部１３０に出力させることも可能である。例えば、当該適正度が所定の閾値以下である場合には、図１４Ｃに示したように、出力制御部１０６は、集音部１２０の位置および／または姿勢の変更をユーザに促すテキストを表示画面に表示させる。また、当該適正度が所定の閾値よりも大きい場合には、出力制御部１０６は、当該テキストを表示画面に表示させない。

‐表示例３
なお、変形例として、出力制御部１０６は、デバイス１０‐３の姿勢（または集音部１２０が向いている方向）の測定結果、および、集音部１２０の位置等の変更履歴に基づいて、（デバイス１０‐３の現在の位置および姿勢を基準とした）集音部１２０の移動推奨方向を示す表示を表示画面に表示させることも可能である。ここで、デバイス１０‐３の姿勢は、例えばデバイス１０‐３に内蔵されるジャイロセンサー、３軸加速度センサー、または、地磁気センサーなどにより測定され得る。また、集音部１２０の位置等の変更履歴は、例えば記憶部１２６に格納される位置変更履歴ＤＢ１２８に格納され得る。

より具体的には、まず、今回受信された集音部の位置等の適正度が、前回受信された集音部の位置等の適正度以上である場合には、出力制御部１０６は、集音部１２０の前回の移動方向を集音部１２０の移動推奨方向として決定する。また、今回受信された集音部の位置等の適正度が、前回受信された集音部の位置等の適正度未満である場合には、出力制御部１０６は、前回の移動方向とは反対の方向、または、所定の角度だけずらした方向を集音部１２０の移動推奨方向として決定する。そして、出力制御部１０６は、決定した移動推奨方向を示す表示を表示画面に表示させる。

例えば、集音部１２０の移動推奨方向を「右」に決定した場合には、出力制御部１０６は、「マイクを右へ２０ｃｍ動かして下さい」のようなテキストを表示画面に表示させてもよい。または、例えば図１４Ｄに示したように、出力制御部１０６は、（デバイス１０‐３の現在の位置および姿勢を基準とした）集音部１２０の移動推奨方向を示す矢印の画像を表示画面に表示させてもよい。

（３−１−２−３．出力部１３０）
出力部１３０は、出力制御部１０６の制御に従って、表示画面を表示したり、音声を出力する。この出力部１３０は、表示を行う表示部、および、音声を出力する音声出力部を含む。ここで、表示部は、例えばＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）やＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）などから構成されるディスプレイや、ＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）などを含む。また、音声出力部は、スピーカなどを含む。

＜３−２．適用例＞
以上、第３の実施形態による構成について説明した。次に、第３の実施形態の適用例について説明する。本適用例では、デバイス１０‐３が、スマートフォン１０‐３ａである例について説明する。

ところで、スマートフォン１０‐３ａを使用して音声認識を利用する場面では、通常、ユーザは、スマートフォン１０‐３ａを把持した状態で発話したり、机の上に置いた状態で発話を行う。このため、音声認識の精度の観点で不適切な位置に集音部１２０が配置される場合がある。本適用例によれば、集音部１２０の位置が音声認識に適した位置であるか否かをユーザに知らせることができる。

具体的には、まず、ユーザが集音部１２０に対して任意の発話をすると、スマートフォン１０‐３ａは、集音部１２０により集音された音声データのみをサーバ２０‐３へ送信する。

その後、サーバ２０‐３は、受信した音声データに対して音声認識を行うとともに、当該音声認識に基づいて、集音部の位置等の適正度を算出する。そして、サーバ２０‐３は、算出した適正度および音声認識結果を該当のスマートフォン１０‐３ａへ送信する。

その後、スマートフォン１０‐３ａは、受信された適正度と所定の閾値とを比較する。そして、当該適正度が所定の閾値以下である場合には、スマートフォン１０‐３ａは、集音部１２０の位置および／または姿勢の変更をユーザに促す警告表示を表示画面に表示する。

なお、ユーザが発話する度に、サーバ２０‐３およびスマートフォン１０‐３ａは、上述した処理を繰り返す。従って、発話とスマートフォン１０‐３ａの位置の調整とを繰り返すことにより、ユーザは、集音部１２０の位置がユーザにとって最適な位置になるように、集音部１２０の位置を徐々に調整していくことができる。

＜３−３．動作＞
以上、第３の実施形態の適用例について説明した。次に、第３の実施形態による動作について、図１５を参照して説明する。図１５は、第３の実施形態による動作の全体的な流れを示したシーケンス図である。なお、図１５に示した動作は、基本的に、集音部１２０に対してユーザが発話する度に実行される。また、図１５に示したＳ３０１〜Ｓ３０９は、（図１１に示した）第２の実施形態によるＳ２０１〜Ｓ２０９と同様である。

Ｓ３０９の後、デバイス１０‐３の出力制御部１０６は、Ｓ３０９で受信された、集音部の位置等の適正度が所定の閾値よりも大きいか否かを判定する（Ｓ３１１）。受信された適正度が所定の閾値よりも大きい場合には（Ｓ３１１：Ｙｅｓ）、デバイス１０‐３は本動作を終了する。

一方、受信された適正度が所定の閾値以下である場合には（Ｓ３１１：Ｎｏ）、出力制御部１０６は、集音部１２０の位置および／または姿勢の変更をユーザに促す警告表示や警告音を出力部１３０に出力させる（Ｓ３１３）。

＜３−４．効果＞
以上説明したように、第３の実施形態によれば、デバイス１０‐３は、サーバ２０‐３から受信される適正度に応じて、集音部１２０の位置および／または姿勢の変更をユーザに促す警告表示を表示させたり、警告音を出力させる。このため、集音部１２０で集音される音声の音声認識の精度が向上するように、集音部１２０の位置および／または姿勢をユーザは適切に調整することができる。

＜＜４．第４の実施形態＞＞
以上、第３の実施形態について説明した。ところで、上述したように、集音部の位置等の適正度が低い場合には、集音部１２０で集音される音声の音声認識の精度が低下し得る。従って、集音部の位置等の適正度が低い場合に、音声認識に基づく操作をユーザが行おうとすると、ユーザの意図とは異なる操作が実行される恐れがある。

次に、第４の実施形態について説明する。後述するように、第４の実施形態によるデバイス１０‐４は、第４の実施形態によるサーバ２０‐４から受信される集音部の位置等の適正度に応じて、音声認識結果に対応する操作を許可するか否かを決定することが可能である。これにより、集音部の位置等の適正度が低い場合、つまり、ユーザの音声が誤認識される恐れが高い場合には、音声認識に基づく操作を適切に制限することができる。なお、以下では、第２の実施形態と異なる内容についてのみ説明を行う。

＜４−１．情報処理システムの構成＞
図１６は、第４の実施形態による情報処理システムの構成を示した説明図である。図１６に示すように、第４の実施形態による情報処理システムは、（図１に示した）第１の実施形態と比較して、外部機器５０をさらに含む。

{４−１−１．外部機器５０}
外部機器５０は、例えば通信網３０を介して、デバイス１０‐４と通信可能な機器である。この外部機器５０は、デバイス１０‐４から指示情報を受信し、そして、受信した指示情報に従って処理を行うことが可能である。例えば、外部機器５０は、受信した指示情報に従って電源をＯＮとＯＦＦの間で切り替えたり、または、指示情報が指示する機能を実行する。

なお、図１６では、外部機器５０が車である例を示しているが、かかる例に限定されない。例えば、外部機器５０は、ロボット（ドローンなど）、家電機器（エア・コンディショナー、照明機器、電子錠、給湯器、コンロなど）、サーバ（メールサーバなど）、汎用ＰＣ、タブレット型端末、スマートフォンなどの携帯電話、ゲーム機、または、テレビジョン受信機などであってもよい。

なお、図１６では、集音部１２０がデバイス１０‐４に含まれる例を示しているが、かかる例に限定されず、集音部１２０は、外部機器５０（内部または外部）に配置されてもよい。また、図１６では、（デバイス１０‐４を使用する）ユーザ２が外部機器５０と離れて位置する例を示しているが、かかる例に限定されず、ユーザ２は、外部機器５０の内部に位置することも可能である。

＜４−２．構成＞
{４−２−１．デバイス１０‐４}
以上、第４の実施形態による情報処理システムの構成について説明した。次に、第４の実施形態による構成について詳細に説明する。なお、第４の実施形態によるサーバ２０‐４の構成は、第２の実施形態によるサーバ２０‐２と概略同様である。

{４−２−２．デバイス１０‐４}
図１７は、第４の実施形態によるデバイス１０‐４の構成例を示した機能ブロック図である。図１７に示したように、第４の実施形態による制御部１００は、（図９に示した）第２の実施形態と比較して、操作許可部１０８をさらに含む。

（４−２−２−１．操作許可部１０８）
操作許可部１０８は、本開示における処理部の一例である。操作許可部１０８は、サーバ２０‐４から受信される音声認識結果から特定される操作を所定の条件に基づいて許可するか否かを決定する。例えば、操作許可部１０８は、まず、サーバ２０‐４から受信された音声認識結果が命令のテキストを含むか否かを判定する。当該音声認識結果が命令のテキストを含む場合には、操作許可部１０８は、当該音声認識結果に対応する操作を特定する。そして、操作許可部１０８は、サーバ２０‐２から受信された、集音部の位置等の適正度と所定の閾値との比較に基づいて、特定した操作の実行を許可するか否かを決定する。

‐判定例１
例えば、操作許可部１０８は、特定した操作が外部機器５０に対する操作であるか否かに基づいて、当該操作の実行を許可するか否かを決定する。一例として、特定した操作が外部機器５０に対する操作であり、かつ、受信された集音部の位置等の適正度が所定の閾値以下である場合には、操作許可部１０８は、当該操作を許可しない。また、受信された集音部の位置等の適正度が所定の閾値よりも大きい場合、および、特定した操作が外部機器５０に対する操作ではない場合（例えば、デバイス１０‐４に対する操作である場合）には、操作許可部１０８は、当該操作を許可する。この判定例によれば、集音部の位置等の適正度が低い場合には、外部機器５０に対する操作が実行されない。従って、ユーザの音声が誤認識される恐れが高い場合には、外部機器５０に対する、音声認識に基づく操作を制限することができる。

‐判定例２
または、操作許可部１０８は、特定した操作が、外部機器５０またはデバイス１０‐４の挙動に関する操作（以下、制御系の操作と称する場合がある）であるか否かに基づいて、当該操作の実行を許可するか否かを決定する。ここで、制御系の操作は、例えば、加速、操舵、および、制動に関する操作を含み得る。例えば、特定した操作が制御系の操作であり、かつ、受信された集音部の位置等の適正度が所定の閾値以下である場合には、操作許可部１０８は、当該操作を許可しない。また、受信された集音部の位置等の適正度が所定の閾値よりも大きい場合、および、特定した操作が制御系以外の操作である場合には、操作許可部１０８は、当該操作を許可する。

例えば、外部機器５０が車５０ａである場合には、制御系の操作を誤れば事故の発生につながり得る。一方、例えば音楽の再生やカーナビゲーションの操作などに関しては、仮にユーザの意図しない操作が実行されたとしても、危険性はなく、また、元の状態にすぐに戻すこともできる。上記の判定例によれば、集音部の位置等の適正度が低い場合には、音声認識に基づく制御系の操作は実行されない。従って、車５０ａの走行時における安全性の低下を防止することができる。また、制御系以外の操作に関しては、集音部の位置等の適正度が低い場合でも制限されない。従って、安全性を確保しつつ、ユーザの利便性を維持することができる。

‐判定例３
または、操作許可部１０８は、特定した操作が他のユーザ宛ての情報（例えば、電子メール、ＳＭＳ（ＳｈｏｒｔＭｅｓｓａｇｅＳｅｒｖｉｃｅ）、または、ＳＮＳ（ＳｏｃｉａｌＮｅｔｗｏｒｋｉｎｇＳｅｒｖｉｃｅ）でのメッセージなど）の送信操作であるか否かに基づいて、当該操作の実行を許可するか否かを決定する。なお、例えば、音声認識結果が「メール送信！」といったテキストである場合などに、操作許可部１０８は、当該音声認識結果に対応する操作がメール送信操作であると特定する。

例えば、特定した操作が他のユーザ宛ての情報の送信操作であり、かつ、受信された集音部の位置等の適正度が所定の閾値以下である場合には、操作許可部１０８は、当該操作を許可しない。また、受信された集音部の位置等の適正度が所定の閾値よりも大きい場合、および、特定した操作が他のユーザ宛ての情報の送信操作以外の操作である場合には、操作許可部１０８は、当該操作を許可する。

一般的に、電子メール等の情報が一度送信されると、送信を取り消すことができない。この判定例によれば、集音部の位置等の適正度が低い場合には、他のユーザ宛ての情報が送信されない。従って、ユーザの音声が誤認識される恐れが高い場合には、音声認識に基づく、他のユーザ宛ての情報の送信操作を制限することができる。例えば、ユーザが意図せずに電子メール等が送信されてしまうことや、ユーザの意図する送信先とは異なる送信先に電子メール等が送信されてしまうことを防止することができる。

‐‐変形例
なお、変形例として、操作許可部１０８は、受信された集音部の位置等の適正度、第１の閾値、および、（第１の閾値よりも小さい）第２の閾値の比較に基づいて、特定した操作の実行を許可するか否かを決定することも可能である。例えば、受信された集音部の位置等の適正度が第１の閾値以上であり、かつ、第２の閾値よりも大きい場合には、操作許可部１０８は、特定した操作の実行の可否をユーザに問い合わせ、かつ、当該問い合わせに対するユーザの回答に基づいて、操作を許可するか否かを決定してもよい。一例として、操作許可部１０８は、該当の操作の実行に関する問い合わせ用のＵＩを表示画面に表示させることにより、ユーザに問い合わせを行う。そして、当該ＵＩに対して、操作の実行を承諾する旨の回答が入力された場合には、操作許可部１０８は、該当の操作を許可する。また、当該ＵＩに対して、操作の実行を承諾しない旨の回答が入力された場合には、操作許可部１０８は、該当の操作を許可しない。

この変形例によれば、集音部の位置等の適正度が第２の閾値以下である場合には、音声認識結果に対応する操作は実行されない。また、当該適正度が第１の閾値以上であり、かつ、第２の閾値よりも大きい場合には、音声認識結果に対応する操作の実行の可否がユーザに確認される。また、当該適正度が第２の閾値以上である場合には、音声認識結果に対応する操作がユーザに確認せずに実行される。従って、音声が誤認識される可能性の高さに応じて、音声認識に基づく操作を適切に制限することができる。

（４−２−２−２．送信制御部１０２）
第４の実施形態による送信制御部１０２は、操作許可部１０８により特定された操作が、外部機器５０に対する操作である場合には、当該操作の実行を指示する指示情報を外部機器５０へ通信部１２４に送信させることが可能である。例えば、送信制御部１０２は、操作許可部１０８により該当の操作が許可された場合にのみ、当該指示情報を外部機器５０へ通信部１２４に送信させてもよい。

＜４−３．動作＞
{４−３−１．動作の全体の流れ}
以上、第４の実施形態の構成について説明した。次に、第４の実施形態による動作について、図１８を参照して説明する。図１８は、第４の実施形態による動作の全体的な流れを示したシーケンス図である。なお、図１８に示した動作は、基本的に、集音部１２０に対してユーザが発話する度に実行される。また、図１８に示したＳ４０１〜Ｓ４０９は、（図１１に示した）第２の実施形態によるＳ２０１〜Ｓ２０９と同様である。

Ｓ４０９の後、デバイス１０‐４は、後述する「操作実行処理」を行う（Ｓ４１１）。

なお、図１８に示したＳ４１３〜Ｓ４１５は、（図１１に示した）第２の実施形態によるＳ２１１〜Ｓ２１３の処理と同様である。

{４−３−２．操作実行処理}
ここで、Ｓ４１１における「操作実行処理」の流れについて、図１９を参照して説明する。図１９に示したように、まず、操作許可部１０８は、Ｓ４０９で受信された適正度が、所定の閾値よりも大きいか否かを判定する（Ｓ４５１）。受信された適正度が所定の閾値よりも大きい場合には（Ｓ４５１：Ｙｅｓ）、操作許可部１０８は、受信された音声認識結果に対応する操作を実行する（Ｓ４５３）。一方、受信された適正度が所定の閾値以下である場合には（Ｓ４５１：Ｎｏ）、操作許可部１０８は、受信された音声認識結果に対応する操作を実行しない（Ｓ４５５）。

{４−３−３．変形例}
なお、第４の実施形態による動作は、上述した例に限定されない。例えば、Ｓ４１３〜Ｓ４１５の処理は実行されなくてもよい。また、Ｓ４１１における「操作実行処理」は、上述した例に限定されず、以下で述べる変形例（変形例１〜変形例３）のうちのいずれかが代わりに実行されてもよい。

（４−３−３−１．変形例１）
まず、「操作実行処理」の変形例１について、図２０を参照して説明する。図２０に示したように、まず、操作許可部１０８は、受信された音声認識結果に対応する操作を特定する。そして、操作許可部１０８は、特定した操作が外部機器５０に対する操作であるか否かを判定する（Ｓ５０１）。特定した操作が外部機器５０に対する操作ではない場合には（Ｓ５０１：Ｎｏ）、操作許可部１０８は、特定した操作を実行する（Ｓ５０３）。そして、当該「操作実行処理」は終了する。

一方、特定した操作が外部機器５０に対する操作である場合には（Ｓ５０１：Ｙｅｓ）、次に、操作許可部１０８は、Ｓ４０９で受信された適正度が、所定の閾値よりも大きいか否かを判定する（Ｓ５０５）。受信された適正度が所定の閾値よりも大きい場合には（Ｓ５０５：Ｙｅｓ）、操作許可部１０８は、特定した操作を許可する。そして、通信部１２４は、送信制御部１０２の制御に従って、当該操作の実行を指示する指示情報を外部機器５０へ送信する。その後、外部機器５０は、受信された指示情報に従って、該当の操作を実行する（Ｓ５０７）。そして、当該「操作実行処理」は終了する。

一方、受信された適正度が所定の閾値以下である場合には（Ｓ５０５：Ｎｏ）、操作許可部１０８は、特定した操作を許可しない（Ｓ５０９）。そして、当該「操作実行処理」は終了する。

（４−３−３−２．変形例２）
次に、「操作実行処理」の変形例２について、図２１を参照して説明する。図２１に示したように、まず、操作許可部１０８は、受信された音声認識結果に対応する操作を特定する。そして、操作許可部１０８は、特定した操作が、外部機器５０またはデバイス１０‐４に対する制御系の操作であるか否かを判定する（Ｓ６０１）。特定した操作が制御系の操作ではない場合には（Ｓ６０１：Ｎｏ）、操作許可部１０８は、特定した操作を実行する（Ｓ６０３）。そして、当該「操作実行処理」は終了する。

一方、特定した操作が制御系の操作である場合には（Ｓ６０１：Ｙｅｓ）、次に、操作許可部１０８は、Ｓ４０９で受信された適正度が、所定の閾値よりも大きいか否かを判定する（Ｓ６０５）。受信された適正度が所定の閾値よりも大きい場合には（Ｓ６０５：Ｙｅｓ）、操作許可部１０８は、特定した操作を許可する。例えば該当の操作が外部機器５０に対する操作である場合には、デバイス１０‐４は、当該操作の実行を指示する指示情報を外部機器５０へ送信し、そして、外部機器５０は、受信した指示情報に従って該当の操作を実行する。また、該当の操作がデバイス１０‐４に対する操作である場合には、デバイス１０‐４は、該当の操作を実行する（Ｓ６０７）。そして、当該「操作実行処理」は終了する。

一方、受信された適正度が所定の閾値以下である場合には（Ｓ６０５：Ｎｏ）、操作許可部１０８は、特定した操作を許可しない（Ｓ６０９）。そして、当該「操作実行処理」は終了する。

（４−３−３−３．変形例３）
次に、「操作実行処理」の変形例３について、図２２を参照して説明する。図２２に示したように、まず、操作許可部１０８は、受信された音声認識結果に対応する操作を特定する。そして、操作許可部１０８は、特定した操作が、電子メールの送信操作であるか否かを判定する（Ｓ７０１）。特定した操作が電子メールの送信操作ではない場合には（Ｓ７０１：Ｎｏ）、操作許可部１０８は、特定した操作を実行する（Ｓ７０３）。そして、当該「操作実行処理」は終了する。

一方、特定した操作が電子メールの送信操作である場合には（Ｓ７０１：Ｙｅｓ）、次に、操作許可部１０８は、Ｓ４０９で受信された適正度が第１の閾値よりも大きいか否かを判定する（Ｓ７０５）。受信された適正度が第１の閾値よりも大きい場合には（Ｓ７０５：Ｙｅｓ）、操作許可部１０８は、特定した操作を許可する。そして、送信制御部１０２は、当該操作が指定する電子メールを、当該操作が指定する送信先へ通信部１２４に送信させる（Ｓ７０７）。そして、当該「操作実行処理」は終了する。

一方、受信された適正度が第１の閾値以下である場合には（Ｓ７０５：Ｎｏ）、操作許可部１０８は、次に、受信された適正度が第２の閾値よりも大きいか否かを判定する（Ｓ７０９）。受信された適正度が第２の閾値よりも大きい場合には（Ｓ７０９：Ｙｅｓ）、操作許可部１０８は、特定した操作の実行の可否をユーザに問い合わせる（Ｓ７１１）。そして、当該問い合わせに対して、操作の実行を承諾する旨の回答が入力された場合には（Ｓ７１３：Ｙｅｓ）、操作許可部１０８は、上述したＳ７０７以降の処理を行う。

一方、当該問い合わせに対して、操作の実行を承諾しない旨の回答が入力された場合には（Ｓ７１３：Ｎｏ）、操作許可部１０８は、特定した操作を許可しない（Ｓ７１５）。そして、当該「操作実行処理」は終了する。

また、Ｓ７０９において、受信された適正度が第２の閾値以下である場合には（Ｓ７０９：Ｎｏ）、操作許可部１０８は、上述したＳ７１５以降の処理を行う。

＜４−４．効果＞
以上説明したように、第４の実施形態によれば、デバイス１０‐４は、サーバ２０‐４から受信される集音部の位置等の適正度と所定の閾値との比較に応じて、音声認識結果に対応する操作を許可するか否かを決定する。例えば、集音部の位置等の適正度が所定の閾値以下である場合には、デバイス１０‐４は、外部機器５０に対する、音声認識に基づく操作、音声認識に基づく制御系の操作、または、他のユーザ宛ての情報の送信操作などの実行を許可しない。従って、集音部の位置等の適正度が低い場合、つまり、ユーザの音声が誤認識される恐れが高い場合には、音声認識に基づく操作を適切に制限することができる。

また、デバイス１０‐４は、第２の実施形態と同様に、集音部の位置等の適正度が向上するように、集音部１２０の位置および／または姿勢を自動的に調整することも可能である。従って、ユーザが発話を繰り返すことにより、集音部１２０の位置および／または姿勢が適切に調整され、そして、制限されていた音声認識に基づく操作を実行可能とすることもできる。

＜＜５．ハードウェア構成＞＞
次に、各実施形態に共通するデバイス１０のハードウェア構成について、図２３を参照して説明する。図２３に示すように、デバイス１０は、ＣＰＵ１５０、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１５２、ＲＡＭ１５４、バス１５６、インターフェース１５８、ストレージ装置１６０、および通信装置１６２を備える。

ＣＰＵ１５０は、演算処理装置および制御装置として機能し、各種プログラムに従ってデバイス１０内の動作全般を制御する。また、ＣＰＵ１５０は、デバイス１０において制御部１００の機能を実現する。なお、ＣＰＵ１５０は、マイクロプロセッサなどのプロセッサにより構成される。

ＲＯＭ１５２は、ＣＰＵ１５０が使用するプログラムや演算パラメータなどの制御用データなどを記憶する。

ＲＡＭ１５４は、例えば、ＣＰＵ１５０により実行されるプログラムなどを一時的に記憶する。

バス１５６は、ＣＰＵバスなどから構成される。このバス１５６は、ＣＰＵ１５０、ＲＯＭ１５２、およびＲＡＭ１５４を相互に接続する。

インターフェース１５８は、ストレージ装置１６０、および通信装置１６２を、バス１５６と接続する。

ストレージ装置１６０は、記憶部１２６として機能する、データ格納用の装置である。ストレージ装置１６０は、例えば、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置、または記憶媒体に記録されたデータを削除する削除装置などを含む。

通信装置１６２は、例えば通信網３０などに接続するための通信デバイス等で構成された通信インターフェースである。また、通信装置１６２は、無線ＬＡＮ対応通信装置、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）対応通信装置、または有線による通信を行うワイヤー通信装置であってもよい。この通信装置１６２は、通信部１２４として機能する。

なお、各実施形態によるサーバ２０のハードウェア構成に関しても、上記のハードウェア構成と同様であってもよい。

＜＜６．変形例＞＞
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

＜６−１．変形例１＞
例えば、第１の実施形態および第２の実施形態では、基本的に、一台のデバイス１０を一人のユーザが利用する例について説明したが、かかる例に限定されない。例えば、一台のデバイス１０を複数のユーザが利用する場面に関しても、各実施形態は同様に適用可能である。例えば、複数のユーザのうちのいずれか（以下、発話ユーザと称する）が発話する度に、サーバ２０は、発話ユーザの音声に基づいて集音部の位置等の適正度を算出し、そして、算出した適正度をデバイス１０へ送信する。そして、デバイス１０は、受信された適正度に応じて、集音部１２０の位置および／または姿勢を逐次変更する。

｛６−１−１．適用例｝
ここで、本変形例の適用例について説明する。この適用例では、例えば図２４に示したように、対話を行うことが可能なロボット１０ａ（デバイス１０）を複数のユーザ２が利用する場面を想定する。ロボット１０ａは、ユーザ２の発話の音声認識結果に基づいて、当該発話に対して返事を行うことが可能である。

このような場合、ロボット１０ａの集音部１２０と各ユーザとの位置関係はそれぞれ異なるので、集音部１２０の位置が固定されたままでは、一部のユーザの音声を適切に集音することができない。本適用例によれば、異なるユーザが発話する度に、発話したユーザの音声を適切に集音可能なように、集音部１２０の位置および／または姿勢を逐次調整することができる。

具体的には、まず、一人目のユーザ２ａが発話すると、ロボット１０ａは、当該発話の音声データをサーバ２０へ送信する。そして、サーバ２０は、受信した音声データに対して音声認識を行うとともに、当該音声認識に基づいて、集音部の位置等の適正度を算出する。そして、サーバ２０‐２は、算出した適正度および音声認識結果をロボット１０ａへ送信する。そして、ロボット１０ａは、受信された適正度と所定の閾値との比較に基づいて、集音部１２０の位置および／または姿勢を変更する。

そして、ユーザ２ａの対話が終了し、次に、二人目のユーザ２ｂが発話すると、ロボット１０ａは、同様の処理により、当該ユーザ２ｂの方向を基準として、集音部１２０の位置および／または姿勢を変更する。このように、ロボット１０ａは、各ユーザの発話の状況に応じて、集音部１２０の位置および／または姿勢をリアルタイムに、かつ、適切に調整することができる。

＜６−２．変形例２＞
また、上述した各実施形態の動作における各ステップは、必ずしも記載された順序に沿って処理されなくてもよい。例えば、各ステップは、適宜順序が変更されて処理されてもよい。また、各ステップは、時系列的に処理される代わりに、一部並列的に又は個別的に処理されてもよい。また、記載されたステップのうちの一部が省略されたり、または、別のステップがさらに追加されてもよい。

また、上述した各実施形態によれば、例えばＣＰＵ１５０、ＲＯＭ１５２、およびＲＡＭ１５４などのハードウェアを、上述した各実施形態によるデバイス１０および／またはサーバ２０の各構成と同等の機能を発揮させるためのコンピュータプログラムも提供可能である。また、該コンピュータプログラムが記録された記録媒体も提供される。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
集音部で集音された音声に基づいて算出される適正度を取得する取得部と、
前記取得部により取得された適正度に基づいて処理を行う処理部と、
を備える、情報処理装置。
（２）
前記適正度は、前記集音部の位置の適正度を含む、前記（１）に記載の情報処理装置。
（３）
前記適正度は、前記集音部の姿勢の適正度を含む、前記（１）または（２）に記載の情報処理装置。
（４）
前記処理部は、前記適正度と所定の閾値との比較に基づいて、前記処理を行うか否かを決定する、前記（２）または（３）に記載の情報処理装置。
（５）
前記処理は、前記集音部の位置の変更に関する制御を行うことである、前記（４）に記載の情報処理装置。
（６）
前記処理は、前記集音部の位置の変更をユーザに促す情報の出力を制御することである、前記（４）に記載の情報処理装置。
（７）
前記取得部は、前記集音部で集音されたユーザの音声の音声認識結果をさらに取得し、
前記処理部は、前記音声認識結果から特定される操作を、前記適正度に基づいて許可するか否かを決定する、前記（１）〜（３）のいずれか一項に記載の情報処理装置。
（８）
前記情報処理装置は、前記集音部をさらに備え、
前記処理部は、前記音声認識結果から特定される、外部の機器に対する操作を、前記適正度に基づいて許可するか否かを決定する、前記（７）に記載の情報処理装置。
（９）
前記処理部は、前記音声認識結果から特定される、前記情報処理装置または外部の機器の挙動に関する操作を、前記適正度に基づいて許可するか否かを決定する、前記（７）または（８）に記載の情報処理装置。
（１０）
前記処理部は、前記音声認識結果から特定される、他のユーザ宛ての情報の送信操作を、前記適正度に基づいて許可するか否かを決定する、前記（７）に記載の情報処理装置。
（１１）
前記適正度が第１の閾値以下であり、かつ、第２の閾値よりも大きい場合には、前記処理部は、前記音声認識結果から特定される操作の実行の可否を前記ユーザに対して問合せ、かつ、
前記処理部は、前記問合せに対する前記ユーザの回答に基づいて、前記操作を許可するか否かを決定する、前記（７）〜（１０）のいずれか一項に記載の情報処理装置。
（１２）
集音部で集音された音声を取得する取得部と、
前記取得部により取得された音声に基づいて算出される適正度に応じた処理を行う処理部と、
を備える、情報処理装置。
（１３）
前記情報処理装置は、前記取得部により取得された音声の音声認識に基づいて前記適正度を算出する適正度算出部をさらに備え、
前記処理部は、前記適正度算出部により算出された適正度に応じた処理を行う、前記（１２）に記載の情報処理装置。
（１４）
前記情報処理装置は、前記集音部の位置を変更させるための制御情報を前記適正度に基づいて生成する制御情報生成部をさらに備え、
前記処理部は、前記制御情報生成部により生成された前記制御情報を出力する、前記（１３）に記載の情報処理装置。
（１５）
前記制御情報生成部は、前記適正度と所定の閾値との比較に基づいて、前記制御情報を生成するか否かを決定する、前記（１４）に記載の情報処理装置。
（１６）
前記制御情報生成部は、さらに、前記集音部の位置の変更履歴に基づいて、前記制御情報を生成する、前記（１４）または（１５）に記載の情報処理装置。
（１７）
前記取得部は、さらに、前記集音部を含む機器に関する情報を取得し、
前記制御情報生成部は、さらに、前記取得部により取得された機器に関する情報に基づいて、前記制御情報を生成する、前記（１４）〜（１６）のいずれか一項に記載の情報処理装置。
（１８）
前記処理部は、前記集音部を含む機器へ前記適正度を通信部に送信させる、前記（１３）に記載の情報処理装置。
（１９）
集音部で集音された音声に基づいて算出される適正度を取得することと、
取得された適正度に基づいて、プロセッサが処理を行うことと、
を含む、情報処理方法。
（２０）
コンピュータを、
集音部で集音された音声に基づいて算出される適正度を取得する取得部と、
前記取得部により取得された適正度に基づいて処理を行う処理部と、
として機能させるための、プログラム。

１０‐１、１０‐２、１０‐３、１０‐４デバイス
２０‐１、２０‐２、２０‐３、２０‐４サーバ
３０通信網
５０外部機器
１００、２００制御部
１０２、２０８送信制御部
１０４認識結果実行部
１０６駆動制御部
１０８出力制御部
１１０操作許可部
１２０集音部
１２２駆動部
１２４、２２０通信部
１２６、２２２記憶部
１２８、２２４位置変更履歴ＤＢ
１３０出力部
２０２音声認識部
２０４適正度算出部
２０６制御情報生成部

Claims

集音部で集音された音声を取得する取得部と、
前記取得部により取得された音声に基づいて算出される適正度に応じた処理を行う処理部と、
前記取得部により取得された音声の音声認識に基づいて前記適正度を算出する適正度算出部と、
前記集音部の位置を変更させるための制御情報を前記適正度に基づいて生成する制御情報生成部と、
を備え、
前記処理部は、前記制御情報生成部により生成された前記制御情報を出力する、
情報処理装置。
前記制御情報生成部は、前記適正度と所定の閾値との比較に基づいて、前記制御情報を生成するか否かを決定する、請求項１に記載の情報処理装置。
前記制御情報生成部は、さらに、前記集音部の位置の変更履歴に基づいて、前記制御情報を生成する、請求項１または２に記載の情報処理装置。
前記取得部は、さらに、前記集音部を含む機器に関する情報を取得し、
前記制御情報生成部は、さらに、前記取得部により取得された機器に関する情報に基づいて、前記制御情報を生成する、請求項１〜３のいずれか一項に記載の情報処理装置。
集音部で集音された音声を取得することと、
取得された前記音声の音声認識に基づいて適正度を算出することと、
前記集音部の位置を変更させるための制御情報を前記適正度に基づいて生成することと、
前記適正度に応じて、プロセッサが処理を行うことと、
生成された前記制御情報を出力することと、
を含む、情報処理方法。
コンピュータを、
集音部で集音された音声を取得する取得部と、
前記取得部により取得された音声に基づいて算出される適正度に応じた処理を行う処理部と、
前記取得部により取得された音声の音声認識に基づいて前記適正度を算出する適正度算出部と、
前記集音部の位置を変更させるための制御情報を前記適正度に基づいて生成する制御情報生成部と、
として機能させるための、プログラムであって、
前記処理部は、前記制御情報生成部により生成された前記制御情報を出力する、
プログラム。