JP6872134B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP6872134B2
JP6872134B2 JP2018516344A JP2018516344A JP6872134B2 JP 6872134 B2 JP6872134 B2 JP 6872134B2 JP 2018516344 A JP2018516344 A JP 2018516344A JP 2018516344 A JP2018516344 A JP 2018516344A JP 6872134 B2 JP6872134 B2 JP 6872134B2
Authority
JP
Japan
Prior art keywords
unit
appropriateness
sound collecting
collecting unit
control information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018516344A
Other languages
English (en)
Other versions
JPWO2017195412A1 (ja
Inventor
大輔 福永
大輔 福永
義己 田中
義己 田中
久浩 菅沼
久浩 菅沼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2017195412A1 publication Critical patent/JPWO2017195412A1/ja
Application granted granted Critical
Publication of JP6872134B2 publication Critical patent/JP6872134B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Description

本開示は、情報処理装置、情報処理方法、およびプログラムに関する。
従来、音声認識に関する技術が各種提案されている。音声認識では、ユーザが発した音声をテキストに変換することができる。
例えば、下記特許文献1には、クラウドベースのアプリケーションが、ユーザが発した音声コマンドを音声認識し、そして、音声認識結果に対応する処理を行う技術が記載されている。
特表2014−507030号公報
しかしながら、特許文献1に記載の技術では、集音された音声の状態によらずに、同一の処理を行う。例えば、特許文献1に記載の技術では、集音された音声が音声認識に適しているか否かによって、処理を異ならせることができない。
そこで、本開示では、集音された音声の状態に適応的に処理を行うことが可能な、新規かつ改良された情報処理装置、情報処理方法、およびプログラムを提案する。
本開示によれば、集音部で集音された音声に基づいて算出される適正度を取得する取得部と、前記取得部により取得された適正度に基づいて処理を行う処理部と、を備える、情報処理装置が提供される。
また、本開示によれば、集音部で集音された音声を取得する取得部と、前記取得部により取得された音声に基づいて算出される適正度に応じた処理を行う処理部と、を備える、情報処理装置が提供される。
また、本開示によれば、集音部で集音された音声に基づいて算出される適正度を取得することと、取得された適正度に基づいて、プロセッサが処理を行うことと、を含む、情報処理方法が提供される。
また、本開示によれば、コンピュータを、集音部で集音された音声に基づいて算出される適正度を取得する取得部と、前記取得部により取得された適正度に基づいて処理を行う処理部と、として機能させるための、プログラムが提供される。
以上説明したように本開示によれば、集音された音声の状態に適応的に処理を行うことができる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
第1の実施形態による情報処理システムの構成例を示した説明図である。 第1の実施形態によるサーバ20‐1の構成例を示した機能ブロック図である。 第1の実施形態による位置変更履歴DB224の構成例を示した説明図である。 第1の実施形態によるデバイス10‐1の構成例を示した機能ブロック図である。 デバイス10‐1による集音部120の位置の変更例を示した説明図である。 第1の実施形態による動作を示したシーケンス図である。 第1の実施形態による「制御情報生成処理」の流れを示したフローチャートである。 第2の実施形態によるサーバ20‐2の構成例を示した機能ブロック図である。 第2の実施形態によるデバイス10‐2の構成例を示した機能ブロック図である。 第2の実施形態による位置変更履歴DB128の構成例を示した説明図である。 第2の実施形態による動作を示したシーケンス図である。 第2の実施形態による「集音部の位置等変更処理」の流れを示したフローチャートである。 第3の実施形態によるデバイス10‐3の構成例を示した機能ブロック図である。 第3の実施形態による集音部の位置等の適正度を示す表示の表示例を示した説明図である。 第3の実施形態による集音部の位置等の適正度を示す表示の表示例を示した説明図である。 第3の実施形態による集音部120の位置の変更を促す警告表示の表示例を示した説明図である。 第3の実施形態による集音部120の位置の変更を促す警告表示の表示例を示した説明図である。 第3の実施形態による動作を示したシーケンス図である。 第4の実施形態による情報処理システムの構成例を示した説明図である。 第4の実施形態によるデバイス10‐4の構成例を示した機能ブロック図である。 第4の実施形態による動作を示したシーケンス図である。 第4の実施形態による「操作実行処理」の流れを示したフローチャートである。 「操作実行処理」の変形例1の流れを示したフローチャートである。 「操作実行処理」の変形例2の流れを示したフローチャートである。 「操作実行処理」の変形例3の流れを示したフローチャートである。 各実施形態に共通するデバイス10のハードウェア構成例を示した説明図である。 本開示の変形例による、ロボット10に対して複数のユーザが発話を行う場面の例を示した説明図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成を有する複数の構成要素を、必要に応じてデバイス10aおよびデバイス10bのように区別する。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。例えば、デバイス10aおよびデバイス10bを特に区別する必要が無い場合には、単にデバイス10と称する。
また、以下に示す項目順序に従って当該「発明を実施するための形態」を説明する。
1.第1の実施形態
2.第2の実施形態
3.第3の実施形態
4.第4の実施形態
5.ハードウェア構成
6.変形例
なお、本明細書及び図面において、後述する各実施形態によるデバイス10‐1、デバイス10‐2、デバイス10‐3、および、デバイス10‐4を総称して、デバイス10と称する場合がある。同様に、各実施形態によるサーバ20‐1、サーバ20‐2、サーバ20‐3、および、サーバ20‐4を総称して、サーバ20と称する場合がある。
<<1.第1の実施形態>>
<1−1.情報処理システムの構成>
まず、本開示の第1の実施形態について説明する。第1の実施形態では、集音部120に対してユーザが音声入力を行う場面を想定する。図1は、第1の実施形態による情報処理システムの構成を示した説明図である。図1に示すように、第1の実施形態による情報処理システムは、デバイス10‐1、サーバ20‐1、および、通信網30を含む。
{1−1−1.サーバ20‐1}
サーバ20‐1は、本開示における情報処理装置の一例である。サーバ20‐1は、音声認識機能を有する。例えば、サーバ20‐1は、後述する通信網30を介してデバイス10‐1から受信される音声データに対して音声認識(クラウド音声認識)を行う。そして、サーバ20‐1は、音声認識結果をデバイス10‐1へ送信する。
{1−1−2.デバイス10‐1}
デバイス10‐1は、本開示における情報処理装置の一例である。デバイス10‐1は、集音部120で集音された音声データをサーバ20‐1へ送信する。例えば、デバイス10‐1は、集音部120で集音されたユーザの発話の音声データをサーバ20‐1へ送信する。なお、集音部120は、デバイス10‐1に備えられてもよいし、または、デバイス10‐1と有線通信または無線通信により通信可能に接続されていてもよい。
また、デバイス10‐1は、集音部120の位置および/または姿勢の変更を制御することが可能である。
なお、図1では、デバイス10‐1がヘッドセットである例を示しているが、かかる例に限定されない。例えば、デバイス10‐1は、汎用PC(Personal Computer)、タブレット型端末、スマートフォンなどの携帯電話、ゲーム機、携帯型音楽プレーヤ、エージェント装置、ロボット、または、HMD(Head Mounted Display)などの眼鏡型デバイスや腕時計型デバイスなどの他のウェアラブルデバイスなどであってもよい。
{1−1−3.通信網30}
通信網30は、通信網30に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、通信網30は、電話回線網、インターネット、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、通信網30は、IP−VPN(Internet Protocol−Virtual Private Network)などの専用回線網を含んでもよい。
なお、第1の実施形態による情報処理システムの構成は、上述した例に限定されない。例えば、図1では、サーバ20‐1が一台だけ図示されているが、かかる例に限定されない。例えば、複数台のコンピュータが協同して動作することにより、後述するサーバ20‐1の機能が実現されてもよい。また、図1では、デバイス10‐1が一台だけ図示されているが、かかる例に限定されず、当該情報処理システムは、デバイス10‐1を複数台含み得る。
{1−1−4.課題の整理}
以上、第1の実施形態による情報処理システムの構成について説明した。ところで、集音部120とユーザとの位置関係が不適切であると、集音部120は、ユーザの音声を適切に集音することができない。その結果、集音部120で集音された音声をサーバ20‐1が音声認識する際に、音声認識の精度が低下し得る。例えば、ユーザの意図とは異なるテキストが音声認識結果として得られる。また、不適切に集音された音声をサーバ20‐1が音声認識する場合には、音声認識の処理量が増加し得る。
一方、音声認識の精度が高くなるように、集音部120の位置や姿勢を調整することは、ユーザの手間が大きい。また、音声認識の精度が高くなるような、ユーザに対する集音部120の位置や姿勢は、例えば集音部120の周囲の音の状況や集音部120の種類などによって異なる。従って、集音部120の適切な位置や姿勢をユーザが特定することは難しい。
そこで、上記事情を一着眼点にして、第1の実施形態によるデバイス10‐1およびサーバ20‐1を創作するに至った。第1の実施形態によれば、サーバ20‐1は、集音部120で集音されたユーザの音声をデバイス10‐1から受信し、そして、受信された音声に基づいて算出される適正度に応じて、集音部120の位置および/または姿勢を変更させるための制御情報をデバイス10‐1へ送信する。また、デバイス10‐1は、サーバ20‐1から受信される制御情報に基づいて、集音部120の位置および/または姿勢を変更する。これにより、集音部120で集音される音声の音声認識の精度が向上するように、集音部120の位置および/または姿勢を自動的に調整することができる。
<1−2.構成>
{1−2−1.サーバ20‐1}
次に、第1の実施形態による構成について詳細に説明する。図2は、第1の実施形態によるサーバ20‐1の構成例を示した機能ブロック図である。図2に示すように、サーバ20‐1は、制御部200、通信部220、および、記憶部222を有する。
(1−2−1−1.制御部200)
制御部200は、サーバ20‐1に内蔵される、例えばCPU(Central Processing Unit)や、RAM(Random Access Memory)などのハードウェアを用いて、サーバ20‐1の動作を全般的に制御する。また、図2に示すように、制御部200は、音声認識部202、適正度算出部204、制御情報生成部206、および、送信制御部208を有する。
(1−2−1−2.音声認識部202)
音声認識部202は、例えばデバイス10‐1から受信される音声データなどを認識する。また、音声認識部202は、音声認識の結果を適正度算出部204および送信制御部208に伝達する。
(1−2−1−3.適正度算出部204)
適正度算出部204は、音声認識部202による音声認識に基づいて適正度を算出する。ここで、適正度は、例えば、集音部120の位置および/または姿勢の適正度(以下、集音部の位置等の適正度と称する)であり得る。または、適正度は、集音された音声の適正度(例えば、当該音声の音声認識結果の信頼度など)であり得る。なお、以下では、適正度が、集音部の位置等の適正度である例を中心として説明を行う。
例えば、適正度算出部204は、デバイス10‐1から受信された音声データを音声認識部202が音声認識する際の計算量、当該音声データに含まれるノイズの情報(例えばノイズの量など)、および/または、音声認識結果の信頼度などに基づいて、集音部の位置等の適正度を算出する。例えば、適正度算出部204は、音声認識する際の計算量が少ないほど、当該音声データに含まれるノイズの量が少ないほど、および、音声認識結果の信頼度が高いほど、集音部の位置等の適正度がより高くなるように当該適正度を算出する。なお、例えば認識対象の音声データに含まれるノイズ量が多いほど、または、認識結果の候補となるテキストが多いほど、音声認識部202が音声認識する際の計算量は大きくなり得る。
なお、デバイス10‐1から受信される音声データは、基本的には、任意の発話の音声であり得る。但し、かかる例に限定されず、例えば、音声認識機能の利用の開始時(例えばデバイス10‐1に実装されている音声認識用アプリケーションの開始時など)には、所定の起動ワードの発話の音声データがデバイス10‐1から受信され得る。この所定の起動ワードは予め決められているテキストであるので、適正度算出部204は、任意の発話と比較して、集音部の位置等の適正度をより正確に算出することが可能である。
(1−2−1−4.制御情報生成部206)
制御情報生成部206は、適正度算出部204により算出された集音部の位置等の適正度と所定の閾値との比較に基づいて、集音部120の位置および/または姿勢をデバイス10‐1に変更させるための制御情報を生成する。例えば、算出された集音部の位置等の適正度が所定の閾値以下である場合には、制御情報生成部206は、当該制御情報を生成することを決定する。また、算出された集音部の位置等の適正度が所定の閾値よりも大きい場合には、制御情報生成部206は、当該制御情報を生成しないことを決定する。
また、制御情報を生成することを決定した際には、制御情報生成部206は、後述する位置変更履歴DB224に格納されている、集音部120の位置等の変更履歴に基づいて、制御情報を生成する。例えば、制御情報生成部206は、今回算出された集音部の位置等の適正度と、前回算出された集音部の位置等の適正度との比較、および、前回の集音部120の位置および/または姿勢の変更内容に基づいて、制御情報を生成する。一例として、今回算出された集音部の位置等の適正度が、前回算出された集音部の位置等の適正度以上である場合には、制御情報生成部206は、集音部120を前回の移動方向と同じ方向に移動させるための制御情報を生成する。また、今回算出された集音部の位置等の適正度が、前回算出された集音部の位置等の適正度未満である場合には、制御情報生成部206は、前回の移動方向とは反対の方向、または、所定の角度だけずらした方向へ集音部120を移動させるための制御情報を生成する。ここで、制御情報は、集音部120の相対的な移動方向、移動量、または、姿勢の変更量を示す値であり得る。
なお、集音部120を初めて移動させる際、すなわち変更履歴が存在しない場合には、制御情報生成部206は、予め定められた方向へ集音部120を移動させるための制御情報を生成してもよい。
また、制御情報生成部206は、さらに、デバイス10‐1から受信されるデバイス10‐1の識別情報に基づいて、制御情報を生成することも可能である。例えば、デバイス10‐1の識別情報と、集音部120の移動可能な条件(移動可能な方向や量など)とが対応付けられたテーブルが予め用意され得る。そして、制御情報生成部206は、受信されたデバイス10‐1の識別情報、および、当該テーブルの登録内容に基づいて、集音部120の移動可能な条件を特定することにより制御情報を生成する。
‐位置変更履歴DB224
位置変更履歴DB224は、集音部120ごとの、過去に算出された適正度、および、過去の制御情報の内容が格納されるデータベースである。図3は、位置変更履歴DB224の構成例を示した説明図である。図3に示したように、位置変更履歴DB224では、例えば、デバイスID2240、日時2242、適正度2244、および、制御情報2246が対応付けられている。ここで、デバイスID2240には、音声データの送信元であるデバイス10‐1に予め割り当てられている識別情報が記録される。また、日時2242には、該当のデバイス10‐1に関して、集音部の位置等の適正度が算出された際の日時が記録される。また、適正度2244には、該当のデバイス10‐1に関して、該当の日時に算出された集音部の位置等の適正度の値が記録される。また、制御情報2246には、該当のデバイス10‐1に関して、該当の日時に生成された制御情報の内容が記録される。なお、図3では、制御情報が、二種類の回転角度(θ、φ)の組により集音部の位置を変更させる情報である例を示している。但し、かかる例に限定されず、制御情報は、例えば、直交する3軸の方向の移動量(x、y、z)の組により集音部の位置を変更させる情報であってもよい。
(1−2−1−5.送信制御部208)
送信制御部208は、本開示における処理部の一例である。送信制御部208は、他の装置に対する各種の情報の送信を制御する。例えば、送信制御部208は、音声認識部202による音声認識結果を該当のデバイス10‐1へ通信部220に送信させる。また、送信制御部208は、制御情報生成部206により生成された制御情報を該当のデバイス10‐1へ通信部220に送信させる。なお、送信制御部208は、制御情報を音声認識結果と一緒にデバイス10‐1へ通信部220に送信させてもよい。または、音声認識部202による音声認識の途中に制御情報が生成される度に、送信制御部208は、生成された制御情報だけをデバイス10‐1へ通信部220に逐次的に送信させてもよい。
(1−2−1−6.通信部220)
通信部220は、本開示における取得部の一例である。通信部220は、例えば通信網30を介して他の装置との間で情報の送受信を行う。例えば、通信部220は、音声データをデバイス10‐1から受信する。また、通信部220は、送信制御部208の制御に従って、制御情報や音声認識結果をデバイス10‐1へ送信する。
(1−2−1−7.記憶部222)
記憶部222は、各種のデータや各種のソフトウェアを記憶する。例えば、記憶部222は、位置変更履歴DB224などを記憶する。
なお、第1の実施形態によるサーバ20‐1の構成は、上述した例に限定されない。例えば、位置変更履歴DB224は、サーバ20‐1に備えられる代わりに、サーバ20‐1と通信可能な他の装置(図示省略)に備えられてもよい。
{1−2−2.デバイス10‐1}
次に、第1の実施形態によるデバイス10‐1の構成について詳細に説明する。図4は、第1の実施形態によるデバイス10‐1の構成例を示した機能ブロック図である。図4に示すように、デバイス10‐1は、制御部100、集音部120、駆動部122、通信部124、および、記憶部126を有する。
(1−2−2−1.制御部100)
制御部100は、デバイス10‐1に内蔵される、後述するCPU150や、RAM154などのハードウェアを用いて、デバイス10‐1の動作を全般的に制御する。また、図4に示すように、制御部100は、送信制御部102、および、駆動制御部104を有する。
(1−2−2−2.送信制御部102)
送信制御部102は、他の装置に対する各種の情報の送信を制御する。例えば、送信制御部102は、集音部120により集音された音声データ、および、デバイス10‐1の識別情報をサーバ20‐1へ通信部124に送信させる。
(1−2−2−3.駆動制御部104)
駆動制御部104は、本開示における処理部の一例である。駆動制御部104は、サーバ20‐1から受信される制御情報に従って、集音部120の位置および/または姿勢を駆動部122に変更させる。
図5は、集音部120の位置の変更例を示した説明図である。なお、図5では、サーバ20‐1から制御情報32が受信された場合における集音部120の位置の変更例を示している。図5に示したように、駆動制御部104は、制御情報32に従って、現在の集音部120の位置を基準として、θに関して「+3」、φに関して「−2」だけ集音部120の位置を変化させるように、駆動部122を制御する。
(1−2−2−4.集音部120)
集音部120は、外部の音(空気振動)を検出し、そして、電気信号に変換する。また、集音部120は、集音した音声を制御部100へ伝達する。
(1−2−2−5.駆動部122)
駆動部122は、駆動制御部104の制御に従って、集音部120の位置および/または姿勢を変更する。この駆動部122は、例えば、集音部120の位置および/または姿勢を変更可能なアクチュエータを含む。
(1−2−2−6.通信部124)
通信部124は、本開示における取得部の一例である。通信部124は、例えば通信網30を介して他の装置との間で情報の送受信を行う。例えば、通信部124は、制御情報および音声認識結果をサーバ20‐1から受信する。また、通信部124は、送信制御部102の制御に従って、音声データ、および、デバイス10‐1の識別情報をサーバ20‐1へ送信する。
(1−2−2−7.記憶部126)
記憶部126は、各種のデータや各種のソフトウェアを記憶する。
<1−3.適用例>
以上、第1の実施形態による構成について説明した。次に、第1の実施形態の適用例について説明する。本適用例では、デバイス10‐1が、集音部120を備えたヘッドセット10‐1aである例について説明する。なお、集音部120は上下方向(垂直方向)にのみ移動可能であるものとする。
ヘッドセット10‐1aをユーザが装着した場合、ユーザの口と集音部120との位置関係は、ユーザによって異なる。従って、ユーザによっては、ヘッドセット10‐1aの装着時に、音声認識の精度の観点で不適切な位置に集音部120が位置づけられ得る。本適用例によれば、集音部120の位置を、ヘッドセット10‐1aを装着中のユーザに最適な位置に自動的に調整することが可能である。
具体的には、まず、ユーザが集音部120に対して任意の発話をすると、ヘッドセット10‐1aは、集音部120により集音された音声データ、および、ヘッドセット10‐1aの識別情報をサーバ20‐1へ送信する。
その後、サーバ20‐1は、受信した音声データに対して音声認識を行うとともに、当該音声認識に基づいて、集音部の位置等の適正度を算出する。また、サーバ20‐1は、受信したヘッドセット10‐1aの識別情報に基づいて、集音部120が上下方向にのみ移動可能であることを認識する。そして、算出された適正度が所定の閾値よりも大きい場合には、サーバ20‐1は、制御情報を生成しないことを決定し、そして、音声認識結果だけを該当のヘッドセット10‐1aへ送信する。
一方、算出された適正度が所定の閾値以下である場合には、サーバ20‐1は、位置変更履歴DB224に格納されている、該当のヘッドセット10‐1aに関する集音部120の位置等の変更履歴に基づいて、上下いずれかの方向へ集音部120を移動させるための制御情報を生成する。例えば、今回算出された集音部の位置等の適正度が、前回算出された集音部の位置等の適正度以上である場合には、サーバ20‐1は、前回の移動方向と同じ方向へ集音部120を移動させるための制御情報を生成する。また、今回算出された集音部の位置等の適正度が、前回算出された集音部の位置等の適正度未満である場合には、制御情報生成部206は、前回の移動方向とは反対の方向へ集音部120を移動させるための制御情報を生成する。
その後、サーバ20‐1は、生成した制御情報および音声認識結果を該当のヘッドセット10‐1aへ送信する。その後、ヘッドセット10‐1aは、受信した制御情報に従って、集音部120の位置を変更する。
なお、ユーザが発話する度に、サーバ20‐1およびヘッドセット10‐1aは、上述した処理を繰り返す。従って、ユーザが発話を繰り返すことにより、ヘッドセット10‐1aは、集音部120の位置がユーザにとって最適な位置になるように、集音部120の位置を徐々に調整していくことができる。
<1−4.動作>
{1−4−1.動作の全体的な流れ}
以上、第1の実施形態の適用例について説明した。次に、第1の実施形態による動作について、図6および図7を参照して説明する。図6は、第1の実施形態による動作の全体的な流れを示したシーケンス図である。なお、図6に示した動作は、基本的に、集音部120に対してユーザが発話する度に実行される。
図6に示したように、まず、デバイス10‐1の集音部120は、ユーザにより発せられた音声を集音する(S101)。
続いて、通信部124は、送信制御部102の制御に従って、S101で集音された音声データ、および、デバイス10‐1の識別情報をサーバ20‐1へ送信する(S103)。
その後、サーバ20‐1の音声認識部202は、受信された音声データに対して音声認識を行う(S105)。続いて、適正度算出部204は、S105における音声認識および所定の計算式に基づいて、集音部の位置等の適正度を算出する(S107)。なお、適正度算出部204は、S105の途中において、集音部の位置等の適正度を算出することも可能である。
続いて、制御情報生成部206は、S107で算出された適正度が所定の閾値よりも大きいか否かを判定する(S109)。算出された適正度が所定の閾値よりも大きい場合には(S109:Yes)、通信部220は、送信制御部208の制御に従って、S105における音声認識結果のみをデバイス10‐1へ送信する(S111)。その後、本動作は終了する。
一方、算出された適正度が所定の閾値以下である場合には(S109:No)、制御情報生成部206は、後述する「制御情報生成処理」を行う(S113)。
続いて、通信部220は、送信制御部208の制御に従って、S105における音声認識結果、および、S113で生成された制御情報をデバイス10‐1へ送信する(S115)。
その後、デバイス10‐1の駆動制御部104は、受信した制御情報に従って、集音部120の位置および/または姿勢を駆動部122に変更させる(S117)。
{1−4−2.制御情報生成処理}
ここで、S113における「制御情報生成処理」の流れについて、図7を参照して説明する。図7に示したように、まず、制御情報生成部206は、位置変更履歴DB224を参照することにより、該当のデバイス10‐1に関する前回の適正度を特定する。そして、制御情報生成部206は、S107で算出された適正度が、前回算出された適正度以上であるか否かを判定する(S151)。S107で算出された適正度が、前回算出された適正度以上である場合には(S151:Yes)、制御情報生成部206は、集音部120の位置を前回の移動方向と同じ方向に移動させるための制御情報を生成する(S153)。そして、制御情報生成部206は、該当のデバイス10‐1の識別情報、S107で算出された適正度、および、生成された制御情報を対応付けて位置変更履歴DB224に保存する(S155)。
一方、S151において、S107で算出された適正度が、前回算出された適正度未満である場合には(S151:No)、制御情報生成部206は、前回の移動方向とは反対の方向、または、所定の角度だけずらした方向へ集音部120を移動させるための制御情報を生成する(S157)。その後、制御情報生成部206は、上述したS155の処理を行う。
<1−5.効果>
以上説明したように、第1の実施形態によれば、サーバ20‐1は、集音部120で集音されたユーザの音声をデバイス10‐1から受信し、そして、受信された音声に基づいて算出される適正度に応じて、集音部120の位置および/または姿勢を変更させるための制御情報をデバイス10‐1へ送信する。また、デバイス10‐1は、サーバ20‐1から受信される制御情報に従って、集音部120の位置および/または姿勢を変更する。このため、集音部120で集音される音声の音声認識の精度が向上するように、集音部120の位置および/または姿勢を自動的に調整することができる。例えば、ユーザは発話を繰り返すだけで、集音部120の位置および/または姿勢を適切に調整することができる。
また、第1の実施形態によれば、デバイス10‐1は、サーバ20‐1から受信される制御情報を利用するだけで、集音部120の位置および/または姿勢を適切に変更することが可能である。従って、例えばデバイス10‐1が変更方向を自ら判断するなどの特別な処理が不要になる。その結果、デバイス10‐1の消費電力の節約につながる。
また、第1の実施形態によれば、集音部120で集音される音声の音声認識の精度が向上するので、サーバ20‐1による音声認識の処理量が減少することが期待できる。
また、第1の実施形態によれば、一台の集音部120で集音される音声のみを用いて当該集音部120の位置および/または姿勢を適切に変更することができる。例えば、公知の技術のような、複数の集音部120による集音結果を用いて、発話するユーザの方向を判定する処理などが不要となる。従って、公知の技術と比較して、シンプルなハードウェア構成により、集音部120の位置および/または姿勢を適切に変更することができる。
<<2.第2の実施形態>>
以上、第1の実施形態について説明した。第1の実施形態では、サーバ20‐1が、集音部120の位置および/または姿勢を変更させるための制御情報を生成し、そして、デバイス10‐1へ送信する例について説明した。
次に、第2の実施形態について説明する。後述するように、第2の実施形態によるデバイス10‐2は、第2の実施形態によるサーバ20‐2から受信される集音部の位置等の適正度に応じて、集音部120の位置および/または姿勢を変更することが可能である。なお、以下では、第1の実施形態と異なる内容についてのみ説明を行うこととし、重複する内容については説明を省略する。
<2−1.構成>
{2−1−1.サーバ20‐2}
まず、第2の実施形態による構成について詳細に説明する。図8は、第2の実施形態によるサーバ20‐2の構成例を示した機能ブロック図である。図8に示すように、サーバ20‐2は、(図2に示した)サーバ20‐1と比較して、制御情報生成部206を有しない。また、第2の実施形態では、第1の実施形態と異なり、基本的には、位置変更履歴DB224は設けられない。
(2−1−1−1.送信制御部208)
第2の実施形態による送信制御部208は、適正度算出部204により算出された集音部の位置等の適正度を該当のデバイス10‐2へ通信部220に送信させる。なお、送信制御部208は、集音部の位置等の適正度を音声認識結果と一緒に該当のデバイス10‐1へ通信部220に送信させてもよいし、または、音声認識部202による音声認識の処理中に、集音部の位置等の適正度だけを該当のデバイス10‐1へ通信部220に逐次的に送信させてもよい。
{2−1−2.デバイス10‐2}
また、図9は、第2の実施形態によるデバイス10‐2の構成例を示した機能ブロック図である。なお、図9に示したように、デバイス10‐2に含まれる構成要素は、(図4に示した)デバイス10‐1と同様である。
(2−1−2−1.送信制御部102)
第2の実施形態による送信制御部102は、基本的に、集音部120により集音された音声データのみをサーバ20‐2へ通信部124に送信させる。すなわち、基本的に、デバイス10‐2の識別情報はサーバ20‐2へ送信されない。
(2−1−2−2.駆動制御部104)
第2の実施形態による駆動制御部104は、サーバ20‐2から受信された、集音部の位置等の適正度と所定の閾値との比較に基づいて、集音部120の位置および/または姿勢を駆動部122に変更させる。例えば、受信された集音部の位置等の適正度が所定の閾値以下である場合には、駆動制御部104は、集音部120の位置および/または姿勢を駆動部122に変更させることを決定する。また、受信された集音部の位置等の適正度が所定の閾値よりも大きい場合には、駆動制御部104は、集音部120の位置および/または姿勢を駆動部122に変更させないことを決定する。
また、集音部120の位置等を変更することを決定した際には、駆動制御部104は、後述する位置変更履歴DB128に格納されている、集音部120の位置等の変更履歴に基づいて、集音部120の位置および/または姿勢を駆動部122に変更させる。例えば、駆動制御部104は、今回受信された集音部の位置等の適正度と、前回受信された集音部の位置等の適正度との比較、および、前回の集音部120の位置および/または姿勢の変更内容に基づいて、集音部120の位置および/または姿勢を駆動部122に変更させる。一例として、今回受信された集音部の位置等の適正度が、前回受信された集音部の位置等の適正度以上である場合には、駆動制御部104は、集音部120を前回の移動方向と同じ方向に駆動部122に移動させる。また、今回受信された集音部の位置等の適正度が、前回受信された集音部の位置等の適正度未満である場合には、駆動制御部104は、前回の移動方向とは反対の方向、または、所定の角度だけずらした方向へ集音部120を駆動部122に移動させる。
なお、集音部120を初めて移動させる際、すなわち変更履歴が存在しない場合には、駆動制御部104は、予め定められた方向へ集音部120を駆動部122に移動させてもよい。
‐位置変更履歴DB128
位置変更履歴DB128は、過去に受信された集音部の位置等の適正度、および、集音部120の位置等の変更内容が格納されるデータベースである。図10は、位置変更履歴DB128の構成例を示した説明図である。図10に示したように、位置変更履歴DB128では、例えば、日時1280、適正度1282、および、制御内容1284が対応付けられている。ここで、日時1280には、集音部の位置等の適正度が受信された日時が記録される。また、適正度1282には、該当の日時に受信された集音部の位置等の適正度の値が記録される。また、制御内容1284には、該当の日時において駆動制御部104により実行された制御内容が記録される。なお、制御内容1284に記録される内容は、図3に示した制御情報2246と同様であり得る。
<2−2.適用例>
以上、第2の実施形態による構成について説明した。次に、第2の実施形態の適用例について説明する。本適用例では、(第1の実施形態の適用例と同様に)デバイス10‐2が、集音部120を備えたヘッドセット10‐2aであり、かつ、集音部120が上下方向にのみ移動可能である例について説明する。
具体的には、まず、ユーザが集音部120に対して任意の発話をすると、ヘッドセット10‐2aは、集音部120により集音された音声データのみをサーバ20‐2へ送信する。
その後、サーバ20‐2は、受信した音声データに対して音声認識を行うとともに、当該音声認識に基づいて、集音部の位置等の適正度を算出する。そして、サーバ20‐2は、算出した適正度および音声認識結果を該当のヘッドセット10‐2aへ送信する。
その後、受信された適正度が所定の閾値よりも大きい場合には、ヘッドセット10‐2aは、集音部120の位置および/または姿勢を駆動部122に変更させないことを決定する。一方、受信された適正度が所定の閾値以下である場合には、ヘッドセット10‐2aは、位置変更履歴DB128に格納されている、集音部120の位置等の変更履歴に基づいて、上下いずれかの方向へ集音部120を移動させる。例えば、今回受信された集音部の位置等の適正度が、前回受信された集音部の位置等の適正度以上である場合には、ヘッドセット10‐2aは、前回の移動方向と同じ方向へ集音部120を移動させる。また、今回受信された集音部の位置等の適正度が、前回受信された集音部の位置等の適正度未満である場合には、ヘッドセット10‐2aは、前回の移動方向とは反対の方向へ集音部120を移動させる。
なお、ユーザが発話する度に、サーバ20‐2およびヘッドセット10‐2aは、上述した処理を繰り返す。従って、ユーザが発話を繰り返すことにより、ヘッドセット10‐2aは、集音部120の位置がユーザにとって最適な位置になるように、集音部120の位置を徐々に調整していくことができる。
<2−3.動作>
{2−3−1.動作の全体的な流れ}
以上、第2の実施形態の適用例について説明した。次に、第2の実施形態による動作について、図11および図12を参照して説明する。図11は、第2の実施形態による動作の全体的な流れを示したシーケンス図である。なお、図11に示した動作は、基本的に、集音部120に対してユーザが発話する度に実行される。また、図11に示したS201は、(図6に示した)第1の実施形態によるS101と同様である。
S201の後、デバイス10‐1の通信部124は、送信制御部102の制御に従って、S201で集音された音声データのみをサーバ20‐2へ送信する(S203)。なお、図11に示したS205〜S207は、(図6に示した)S105〜S107と同様である。
S207の後、サーバ20‐2の通信部220は、送信制御部208の制御に従って、S205における音声認識結果、および、S207で算出された、集音部の位置等の適正度をデバイス10‐2へ送信する(S209)。
その後、デバイス10‐2の駆動制御部104は、受信された適正度が所定の閾値よりも大きいか否かを判定する(S211)。受信された適正度が所定の閾値よりも大きい場合には(S211:Yes)、デバイス10‐2は本動作を終了する。
一方、受信された適正度が所定の閾値以下である場合には(S211:No)、駆動制御部104は、後述する「集音部の位置等変更処理」を行う(S213)。
{2−3−2.集音部の位置等変更処理}
ここで、S213における「集音部の位置等変更処理」の流れについて、図12を参照して説明する。図12に示したように、まず、駆動制御部104は、位置変更履歴DB128を参照することにより、前回受信された適正度を特定する。そして、駆動制御部104は、S209で受信された適正度が、前回受信された適正度以上であるか否かを判定する(S251)。S209で受信された適正度が、前回受信された適正度以上である場合には(S251:Yes)、駆動制御部104は、集音部120の位置を前回の移動方向と同じ方向に駆動部122に移動させる(S253)。そして、駆動制御部104は、S209で受信された適正度、および、集音部120の位置等の変更内容を対応付けて位置変更履歴DB128に保存する(S255)。
一方、S209で受信された適正度が、前回受信された適正度未満である場合には(S251:No)、駆動制御部104は、前回の移動方向とは反対の方向、または、所定の角度だけずらした方向へ集音部120を駆動部122に移動させる(S257)。その後、駆動制御部104は、上述したS255の処理を行う。
<2−4.効果>
以上説明したように、第2の実施形態によれば、サーバ20‐2は、集音部120で集音されたユーザの音声をデバイス10‐2から受信し、そして、受信された音声に基づいて算出される適正度をデバイス10‐2へ送信する。また、デバイス10‐2は、サーバ20‐2から受信される適正度に応じて、集音部120の位置および/または姿勢を変更する。このため、集音部120で集音される音声の音声認識の精度が向上するように、集音部120の位置および/または姿勢を自動的に調整することができる。
また、第2の実施形態によれば、第1と実施形態と異なり、サーバ20‐2がデバイス10‐2の種類を認識すること、および、算出した集音部の位置等の適正度を保存することが不要である。従って、サーバ20‐2の処理量が軽減される。
<<3.第3の実施形態>>
以上、第2の実施形態について説明した。上述したように、第1の実施形態および第2の実施形態では、デバイス10‐1またはデバイス10‐2が集音部120の位置および/または姿勢を自動的に調整する例について説明した。
次に、第3の実施形態について説明する。後述するように、第3の実施形態によるデバイス10‐3は、第3の実施形態によるサーバ20‐3から受信される集音部の位置等の適正度に応じて、集音部120の位置および/または姿勢の変更をユーザに促す警告表示を表示させたり、警告音を出力させることが可能である。これにより、集音部120で集音される音声の音声認識の精度が向上するように、集音部120の位置および/または姿勢をユーザは適切に調整することができる。なお、以下では、第2の実施形態と異なる内容についてのみ説明を行う。
<3−1.構成>
{3−1−1.サーバ20‐3}
まず、第3の実施形態による構成について詳細に説明する。なお、第3の実施形態によるサーバ20‐3の構成は、第2の実施形態によるサーバ20‐2と概略同様である。
{3−1−2.デバイス10‐3}
図13は、第3の実施形態によるデバイス10‐3の構成例を示した機能ブロック図である。図13に示したように、デバイス10‐3は、図9に示したデバイス10‐2と比較して、出力部130をさらに含み、かつ、駆動部122を含まない。
(3−1−2−1.制御部100)
第3の実施形態による制御部100は、(図9に示した)第2の実施形態と比較して、出力制御部106をさらに含み、かつ、駆動制御部104を含まない。
(3−1−2−2.出力制御部106)
出力制御部106は、本開示における処理部の一例である。出力制御部106は、例えばテキスト、画像、音などの各種の情報を、後述する出力部130に出力させる。例えば、集音部の位置等の適正度がサーバ20‐3から受信された場合には、出力制御部106は、受信された適正度に応じた情報を出力部130に出力させる。
‐表示例1
一例として、出力制御部106は、受信された集音部の位置等の適正度を表示画面に表示させたり、当該適正度を読み上げる音声を出力部130に出力させる。例えば、図14Aに示したように、出力制御部106は、当該適正度を示すテキストを表示画面に表示させてもよい。なお、出力制御部106は、当該適正度が所定の閾値以下である場合にのみ、当該適正度を示すテキストを表示画面に表示させてもよい。
または、出力制御部106は、受信された集音部の位置等の適正度の程度を示す表示を表示画面に表示させてもよい。例えば、当該適正度が所定の閾値よりも大きい場合には、図14Bに示したように、出力制御部106は、「マイク位置が良好であること」を示すテキストを表示画面に表示させてもよい。また、当該適正度が所定の閾値以下である場合には、出力制御部106は、「マイク位置が不良であること」を示すテキストを表示画面に表示させてもよい。
‐表示例2
または、出力制御部106は、受信された集音部の位置等の適正度と所定の閾値との比較に基づいて、警告表示を表示画面に表示させたり、または、警告音を出力部130に出力させることも可能である。例えば、当該適正度が所定の閾値以下である場合には、図14Cに示したように、出力制御部106は、集音部120の位置および/または姿勢の変更をユーザに促すテキストを表示画面に表示させる。また、当該適正度が所定の閾値よりも大きい場合には、出力制御部106は、当該テキストを表示画面に表示させない。
‐表示例3
なお、変形例として、出力制御部106は、デバイス10‐3の姿勢(または集音部120が向いている方向)の測定結果、および、集音部120の位置等の変更履歴に基づいて、(デバイス10‐3の現在の位置および姿勢を基準とした)集音部120の移動推奨方向を示す表示を表示画面に表示させることも可能である。ここで、デバイス10‐3の姿勢は、例えばデバイス10‐3に内蔵されるジャイロセンサー、3軸加速度センサー、または、地磁気センサーなどにより測定され得る。また、集音部120の位置等の変更履歴は、例えば記憶部126に格納される位置変更履歴DB128に格納され得る。
より具体的には、まず、今回受信された集音部の位置等の適正度が、前回受信された集音部の位置等の適正度以上である場合には、出力制御部106は、集音部120の前回の移動方向を集音部120の移動推奨方向として決定する。また、今回受信された集音部の位置等の適正度が、前回受信された集音部の位置等の適正度未満である場合には、出力制御部106は、前回の移動方向とは反対の方向、または、所定の角度だけずらした方向を集音部120の移動推奨方向として決定する。そして、出力制御部106は、決定した移動推奨方向を示す表示を表示画面に表示させる。
例えば、集音部120の移動推奨方向を「右」に決定した場合には、出力制御部106は、「マイクを右へ20cm動かして下さい」のようなテキストを表示画面に表示させてもよい。または、例えば図14Dに示したように、出力制御部106は、(デバイス10‐3の現在の位置および姿勢を基準とした)集音部120の移動推奨方向を示す矢印の画像を表示画面に表示させてもよい。
(3−1−2−3.出力部130)
出力部130は、出力制御部106の制御に従って、表示画面を表示したり、音声を出力する。この出力部130は、表示を行う表示部、および、音声を出力する音声出力部を含む。ここで、表示部は、例えばLCD(Liquid Crystal Display)やOLED(Organic Light Emitting Diode)などから構成されるディスプレイや、LED(Light Emitting Diode)などを含む。また、音声出力部は、スピーカなどを含む。
<3−2.適用例>
以上、第3の実施形態による構成について説明した。次に、第3の実施形態の適用例について説明する。本適用例では、デバイス10‐3が、スマートフォン10‐3aである例について説明する。
ところで、スマートフォン10‐3aを使用して音声認識を利用する場面では、通常、ユーザは、スマートフォン10‐3aを把持した状態で発話したり、机の上に置いた状態で発話を行う。このため、音声認識の精度の観点で不適切な位置に集音部120が配置される場合がある。本適用例によれば、集音部120の位置が音声認識に適した位置であるか否かをユーザに知らせることができる。
具体的には、まず、ユーザが集音部120に対して任意の発話をすると、スマートフォン10‐3aは、集音部120により集音された音声データのみをサーバ20‐3へ送信する。
その後、サーバ20‐3は、受信した音声データに対して音声認識を行うとともに、当該音声認識に基づいて、集音部の位置等の適正度を算出する。そして、サーバ20‐3は、算出した適正度および音声認識結果を該当のスマートフォン10‐3aへ送信する。
その後、スマートフォン10‐3aは、受信された適正度と所定の閾値とを比較する。そして、当該適正度が所定の閾値以下である場合には、スマートフォン10‐3aは、集音部120の位置および/または姿勢の変更をユーザに促す警告表示を表示画面に表示する。
なお、ユーザが発話する度に、サーバ20‐3およびスマートフォン10‐3aは、上述した処理を繰り返す。従って、発話とスマートフォン10‐3aの位置の調整とを繰り返すことにより、ユーザは、集音部120の位置がユーザにとって最適な位置になるように、集音部120の位置を徐々に調整していくことができる。
<3−3.動作>
以上、第3の実施形態の適用例について説明した。次に、第3の実施形態による動作について、図15を参照して説明する。図15は、第3の実施形態による動作の全体的な流れを示したシーケンス図である。なお、図15に示した動作は、基本的に、集音部120に対してユーザが発話する度に実行される。また、図15に示したS301〜S309は、(図11に示した)第2の実施形態によるS201〜S209と同様である。
S309の後、デバイス10‐3の出力制御部106は、S309で受信された、集音部の位置等の適正度が所定の閾値よりも大きいか否かを判定する(S311)。受信された適正度が所定の閾値よりも大きい場合には(S311:Yes)、デバイス10‐3は本動作を終了する。
一方、受信された適正度が所定の閾値以下である場合には(S311:No)、出力制御部106は、集音部120の位置および/または姿勢の変更をユーザに促す警告表示や警告音を出力部130に出力させる(S313)。
<3−4.効果>
以上説明したように、第3の実施形態によれば、デバイス10‐3は、サーバ20‐3から受信される適正度に応じて、集音部120の位置および/または姿勢の変更をユーザに促す警告表示を表示させたり、警告音を出力させる。このため、集音部120で集音される音声の音声認識の精度が向上するように、集音部120の位置および/または姿勢をユーザは適切に調整することができる。
<<4.第4の実施形態>>
以上、第3の実施形態について説明した。ところで、上述したように、集音部の位置等の適正度が低い場合には、集音部120で集音される音声の音声認識の精度が低下し得る。従って、集音部の位置等の適正度が低い場合に、音声認識に基づく操作をユーザが行おうとすると、ユーザの意図とは異なる操作が実行される恐れがある。
次に、第4の実施形態について説明する。後述するように、第4の実施形態によるデバイス10‐4は、第4の実施形態によるサーバ20‐4から受信される集音部の位置等の適正度に応じて、音声認識結果に対応する操作を許可するか否かを決定することが可能である。これにより、集音部の位置等の適正度が低い場合、つまり、ユーザの音声が誤認識される恐れが高い場合には、音声認識に基づく操作を適切に制限することができる。なお、以下では、第2の実施形態と異なる内容についてのみ説明を行う。
<4−1.情報処理システムの構成>
図16は、第4の実施形態による情報処理システムの構成を示した説明図である。図16に示すように、第4の実施形態による情報処理システムは、(図1に示した)第1の実施形態と比較して、外部機器50をさらに含む。
{4−1−1.外部機器50}
外部機器50は、例えば通信網30を介して、デバイス10‐4と通信可能な機器である。この外部機器50は、デバイス10‐4から指示情報を受信し、そして、受信した指示情報に従って処理を行うことが可能である。例えば、外部機器50は、受信した指示情報に従って電源をONとOFFの間で切り替えたり、または、指示情報が指示する機能を実行する。
なお、図16では、外部機器50が車である例を示しているが、かかる例に限定されない。例えば、外部機器50は、ロボット(ドローンなど)、家電機器(エア・コンディショナー、照明機器、電子錠、給湯器、コンロなど)、サーバ(メールサーバなど)、汎用PC、タブレット型端末、スマートフォンなどの携帯電話、ゲーム機、または、テレビジョン受信機などであってもよい。
なお、図16では、集音部120がデバイス10‐4に含まれる例を示しているが、かかる例に限定されず、集音部120は、外部機器50(内部または外部)に配置されてもよい。また、図16では、(デバイス10‐4を使用する)ユーザ2が外部機器50と離れて位置する例を示しているが、かかる例に限定されず、ユーザ2は、外部機器50の内部に位置することも可能である。
<4−2.構成>
{4−2−1.デバイス10‐4}
以上、第4の実施形態による情報処理システムの構成について説明した。次に、第4の実施形態による構成について詳細に説明する。なお、第4の実施形態によるサーバ20‐4の構成は、第2の実施形態によるサーバ20‐2と概略同様である。
{4−2−2.デバイス10‐4}
図17は、第4の実施形態によるデバイス10‐4の構成例を示した機能ブロック図である。図17に示したように、第4の実施形態による制御部100は、(図9に示した)第2の実施形態と比較して、操作許可部108をさらに含む。
(4−2−2−1.操作許可部108)
操作許可部108は、本開示における処理部の一例である。操作許可部108は、サーバ20‐4から受信される音声認識結果から特定される操作を所定の条件に基づいて許可するか否かを決定する。例えば、操作許可部108は、まず、サーバ20‐4から受信された音声認識結果が命令のテキストを含むか否かを判定する。当該音声認識結果が命令のテキストを含む場合には、操作許可部108は、当該音声認識結果に対応する操作を特定する。そして、操作許可部108は、サーバ20‐2から受信された、集音部の位置等の適正度と所定の閾値との比較に基づいて、特定した操作の実行を許可するか否かを決定する。
‐判定例1
例えば、操作許可部108は、特定した操作が外部機器50に対する操作であるか否かに基づいて、当該操作の実行を許可するか否かを決定する。一例として、特定した操作が外部機器50に対する操作であり、かつ、受信された集音部の位置等の適正度が所定の閾値以下である場合には、操作許可部108は、当該操作を許可しない。また、受信された集音部の位置等の適正度が所定の閾値よりも大きい場合、および、特定した操作が外部機器50に対する操作ではない場合(例えば、デバイス10‐4に対する操作である場合)には、操作許可部108は、当該操作を許可する。この判定例によれば、集音部の位置等の適正度が低い場合には、外部機器50に対する操作が実行されない。従って、ユーザの音声が誤認識される恐れが高い場合には、外部機器50に対する、音声認識に基づく操作を制限することができる。
‐判定例2
または、操作許可部108は、特定した操作が、外部機器50またはデバイス10‐4の挙動に関する操作(以下、制御系の操作と称する場合がある)であるか否かに基づいて、当該操作の実行を許可するか否かを決定する。ここで、制御系の操作は、例えば、加速、操舵、および、制動に関する操作を含み得る。例えば、特定した操作が制御系の操作であり、かつ、受信された集音部の位置等の適正度が所定の閾値以下である場合には、操作許可部108は、当該操作を許可しない。また、受信された集音部の位置等の適正度が所定の閾値よりも大きい場合、および、特定した操作が制御系以外の操作である場合には、操作許可部108は、当該操作を許可する。
例えば、外部機器50が車50aである場合には、制御系の操作を誤れば事故の発生につながり得る。一方、例えば音楽の再生やカーナビゲーションの操作などに関しては、仮にユーザの意図しない操作が実行されたとしても、危険性はなく、また、元の状態にすぐに戻すこともできる。上記の判定例によれば、集音部の位置等の適正度が低い場合には、音声認識に基づく制御系の操作は実行されない。従って、車50aの走行時における安全性の低下を防止することができる。また、制御系以外の操作に関しては、集音部の位置等の適正度が低い場合でも制限されない。従って、安全性を確保しつつ、ユーザの利便性を維持することができる。
‐判定例3
または、操作許可部108は、特定した操作が他のユーザ宛ての情報(例えば、電子メール、SMS(Short Message Service)、または、SNS(Social Networking Service)でのメッセージなど)の送信操作であるか否かに基づいて、当該操作の実行を許可するか否かを決定する。なお、例えば、音声認識結果が「メール送信!」といったテキストである場合などに、操作許可部108は、当該音声認識結果に対応する操作がメール送信操作であると特定する。
例えば、特定した操作が他のユーザ宛ての情報の送信操作であり、かつ、受信された集音部の位置等の適正度が所定の閾値以下である場合には、操作許可部108は、当該操作を許可しない。また、受信された集音部の位置等の適正度が所定の閾値よりも大きい場合、および、特定した操作が他のユーザ宛ての情報の送信操作以外の操作である場合には、操作許可部108は、当該操作を許可する。
一般的に、電子メール等の情報が一度送信されると、送信を取り消すことができない。この判定例によれば、集音部の位置等の適正度が低い場合には、他のユーザ宛ての情報が送信されない。従って、ユーザの音声が誤認識される恐れが高い場合には、音声認識に基づく、他のユーザ宛ての情報の送信操作を制限することができる。例えば、ユーザが意図せずに電子メール等が送信されてしまうことや、ユーザの意図する送信先とは異なる送信先に電子メール等が送信されてしまうことを防止することができる。
‐‐変形例
なお、変形例として、操作許可部108は、受信された集音部の位置等の適正度、第1の閾値、および、(第1の閾値よりも小さい)第2の閾値の比較に基づいて、特定した操作の実行を許可するか否かを決定することも可能である。例えば、受信された集音部の位置等の適正度が第1の閾値以上であり、かつ、第2の閾値よりも大きい場合には、操作許可部108は、特定した操作の実行の可否をユーザに問い合わせ、かつ、当該問い合わせに対するユーザの回答に基づいて、操作を許可するか否かを決定してもよい。一例として、操作許可部108は、該当の操作の実行に関する問い合わせ用のUIを表示画面に表示させることにより、ユーザに問い合わせを行う。そして、当該UIに対して、操作の実行を承諾する旨の回答が入力された場合には、操作許可部108は、該当の操作を許可する。また、当該UIに対して、操作の実行を承諾しない旨の回答が入力された場合には、操作許可部108は、該当の操作を許可しない。
この変形例によれば、集音部の位置等の適正度が第2の閾値以下である場合には、音声認識結果に対応する操作は実行されない。また、当該適正度が第1の閾値以上であり、かつ、第2の閾値よりも大きい場合には、音声認識結果に対応する操作の実行の可否がユーザに確認される。また、当該適正度が第2の閾値以上である場合には、音声認識結果に対応する操作がユーザに確認せずに実行される。従って、音声が誤認識される可能性の高さに応じて、音声認識に基づく操作を適切に制限することができる。
(4−2−2−2.送信制御部102)
第4の実施形態による送信制御部102は、操作許可部108により特定された操作が、外部機器50に対する操作である場合には、当該操作の実行を指示する指示情報を外部機器50へ通信部124に送信させることが可能である。例えば、送信制御部102は、操作許可部108により該当の操作が許可された場合にのみ、当該指示情報を外部機器50へ通信部124に送信させてもよい。
<4−3.動作>
{4−3−1.動作の全体の流れ}
以上、第4の実施形態の構成について説明した。次に、第4の実施形態による動作について、図18を参照して説明する。図18は、第4の実施形態による動作の全体的な流れを示したシーケンス図である。なお、図18に示した動作は、基本的に、集音部120に対してユーザが発話する度に実行される。また、図18に示したS401〜S409は、(図11に示した)第2の実施形態によるS201〜S209と同様である。
S409の後、デバイス10‐4は、後述する「操作実行処理」を行う(S411)。
なお、図18に示したS413〜S415は、(図11に示した)第2の実施形態によるS211〜S213の処理と同様である。
{4−3−2.操作実行処理}
ここで、S411における「操作実行処理」の流れについて、図19を参照して説明する。図19に示したように、まず、操作許可部108は、S409で受信された適正度が、所定の閾値よりも大きいか否かを判定する(S451)。受信された適正度が所定の閾値よりも大きい場合には(S451:Yes)、操作許可部108は、受信された音声認識結果に対応する操作を実行する(S453)。一方、受信された適正度が所定の閾値以下である場合には(S451:No)、操作許可部108は、受信された音声認識結果に対応する操作を実行しない(S455)。
{4−3−3.変形例}
なお、第4の実施形態による動作は、上述した例に限定されない。例えば、S413〜S415の処理は実行されなくてもよい。また、S411における「操作実行処理」は、上述した例に限定されず、以下で述べる変形例(変形例1〜変形例3)のうちのいずれかが代わりに実行されてもよい。
(4−3−3−1.変形例1)
まず、「操作実行処理」の変形例1について、図20を参照して説明する。図20に示したように、まず、操作許可部108は、受信された音声認識結果に対応する操作を特定する。そして、操作許可部108は、特定した操作が外部機器50に対する操作であるか否かを判定する(S501)。特定した操作が外部機器50に対する操作ではない場合には(S501:No)、操作許可部108は、特定した操作を実行する(S503)。そして、当該「操作実行処理」は終了する。
一方、特定した操作が外部機器50に対する操作である場合には(S501:Yes)、次に、操作許可部108は、S409で受信された適正度が、所定の閾値よりも大きいか否かを判定する(S505)。受信された適正度が所定の閾値よりも大きい場合には(S505:Yes)、操作許可部108は、特定した操作を許可する。そして、通信部124は、送信制御部102の制御に従って、当該操作の実行を指示する指示情報を外部機器50へ送信する。その後、外部機器50は、受信された指示情報に従って、該当の操作を実行する(S507)。そして、当該「操作実行処理」は終了する。
一方、受信された適正度が所定の閾値以下である場合には(S505:No)、操作許可部108は、特定した操作を許可しない(S509)。そして、当該「操作実行処理」は終了する。
(4−3−3−2.変形例2)
次に、「操作実行処理」の変形例2について、図21を参照して説明する。図21に示したように、まず、操作許可部108は、受信された音声認識結果に対応する操作を特定する。そして、操作許可部108は、特定した操作が、外部機器50またはデバイス10‐4に対する制御系の操作であるか否かを判定する(S601)。特定した操作が制御系の操作ではない場合には(S601:No)、操作許可部108は、特定した操作を実行する(S603)。そして、当該「操作実行処理」は終了する。
一方、特定した操作が制御系の操作である場合には(S601:Yes)、次に、操作許可部108は、S409で受信された適正度が、所定の閾値よりも大きいか否かを判定する(S605)。受信された適正度が所定の閾値よりも大きい場合には(S605:Yes)、操作許可部108は、特定した操作を許可する。例えば該当の操作が外部機器50に対する操作である場合には、デバイス10‐4は、当該操作の実行を指示する指示情報を外部機器50へ送信し、そして、外部機器50は、受信した指示情報に従って該当の操作を実行する。また、該当の操作がデバイス10‐4に対する操作である場合には、デバイス10‐4は、該当の操作を実行する(S607)。そして、当該「操作実行処理」は終了する。
一方、受信された適正度が所定の閾値以下である場合には(S605:No)、操作許可部108は、特定した操作を許可しない(S609)。そして、当該「操作実行処理」は終了する。
(4−3−3−3.変形例3)
次に、「操作実行処理」の変形例3について、図22を参照して説明する。図22に示したように、まず、操作許可部108は、受信された音声認識結果に対応する操作を特定する。そして、操作許可部108は、特定した操作が、電子メールの送信操作であるか否かを判定する(S701)。特定した操作が電子メールの送信操作ではない場合には(S701:No)、操作許可部108は、特定した操作を実行する(S703)。そして、当該「操作実行処理」は終了する。
一方、特定した操作が電子メールの送信操作である場合には(S701:Yes)、次に、操作許可部108は、S409で受信された適正度が第1の閾値よりも大きいか否かを判定する(S705)。受信された適正度が第1の閾値よりも大きい場合には(S705:Yes)、操作許可部108は、特定した操作を許可する。そして、送信制御部102は、当該操作が指定する電子メールを、当該操作が指定する送信先へ通信部124に送信させる(S707)。そして、当該「操作実行処理」は終了する。
一方、受信された適正度が第1の閾値以下である場合には(S705:No)、操作許可部108は、次に、受信された適正度が第2の閾値よりも大きいか否かを判定する(S709)。受信された適正度が第2の閾値よりも大きい場合には(S709:Yes)、操作許可部108は、特定した操作の実行の可否をユーザに問い合わせる(S711)。そして、当該問い合わせに対して、操作の実行を承諾する旨の回答が入力された場合には(S713:Yes)、操作許可部108は、上述したS707以降の処理を行う。
一方、当該問い合わせに対して、操作の実行を承諾しない旨の回答が入力された場合には(S713:No)、操作許可部108は、特定した操作を許可しない(S715)。そして、当該「操作実行処理」は終了する。
また、S709において、受信された適正度が第2の閾値以下である場合には(S709:No)、操作許可部108は、上述したS715以降の処理を行う。
<4−4.効果>
以上説明したように、第4の実施形態によれば、デバイス10‐4は、サーバ20‐4から受信される集音部の位置等の適正度と所定の閾値との比較に応じて、音声認識結果に対応する操作を許可するか否かを決定する。例えば、集音部の位置等の適正度が所定の閾値以下である場合には、デバイス10‐4は、外部機器50に対する、音声認識に基づく操作、音声認識に基づく制御系の操作、または、他のユーザ宛ての情報の送信操作などの実行を許可しない。従って、集音部の位置等の適正度が低い場合、つまり、ユーザの音声が誤認識される恐れが高い場合には、音声認識に基づく操作を適切に制限することができる。
また、デバイス10‐4は、第2の実施形態と同様に、集音部の位置等の適正度が向上するように、集音部120の位置および/または姿勢を自動的に調整することも可能である。従って、ユーザが発話を繰り返すことにより、集音部120の位置および/または姿勢が適切に調整され、そして、制限されていた音声認識に基づく操作を実行可能とすることもできる。
<<5.ハードウェア構成>>
次に、各実施形態に共通するデバイス10のハードウェア構成について、図23を参照して説明する。図23に示すように、デバイス10は、CPU150、ROM(Read Only Memory)152、RAM154、バス156、インターフェース158、ストレージ装置160、および通信装置162を備える。
CPU150は、演算処理装置および制御装置として機能し、各種プログラムに従ってデバイス10内の動作全般を制御する。また、CPU150は、デバイス10において制御部100の機能を実現する。なお、CPU150は、マイクロプロセッサなどのプロセッサにより構成される。
ROM152は、CPU150が使用するプログラムや演算パラメータなどの制御用データなどを記憶する。
RAM154は、例えば、CPU150により実行されるプログラムなどを一時的に記憶する。
バス156は、CPUバスなどから構成される。このバス156は、CPU150、ROM152、およびRAM154を相互に接続する。
インターフェース158は、ストレージ装置160、および通信装置162を、バス156と接続する。
ストレージ装置160は、記憶部126として機能する、データ格納用の装置である。ストレージ装置160は、例えば、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置、または記憶媒体に記録されたデータを削除する削除装置などを含む。
通信装置162は、例えば通信網30などに接続するための通信デバイス等で構成された通信インターフェースである。また、通信装置162は、無線LAN対応通信装置、LTE(Long Term Evolution)対応通信装置、または有線による通信を行うワイヤー通信装置であってもよい。この通信装置162は、通信部124として機能する。
なお、各実施形態によるサーバ20のハードウェア構成に関しても、上記のハードウェア構成と同様であってもよい。
<<6.変形例>>
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
<6−1.変形例1>
例えば、第1の実施形態および第2の実施形態では、基本的に、一台のデバイス10を一人のユーザが利用する例について説明したが、かかる例に限定されない。例えば、一台のデバイス10を複数のユーザが利用する場面に関しても、各実施形態は同様に適用可能である。例えば、複数のユーザのうちのいずれか(以下、発話ユーザと称する)が発話する度に、サーバ20は、発話ユーザの音声に基づいて集音部の位置等の適正度を算出し、そして、算出した適正度をデバイス10へ送信する。そして、デバイス10は、受信された適正度に応じて、集音部120の位置および/または姿勢を逐次変更する。
{6−1−1.適用例}
ここで、本変形例の適用例について説明する。この適用例では、例えば図24に示したように、対話を行うことが可能なロボット10a(デバイス10)を複数のユーザ2が利用する場面を想定する。ロボット10aは、ユーザ2の発話の音声認識結果に基づいて、当該発話に対して返事を行うことが可能である。
このような場合、ロボット10aの集音部120と各ユーザとの位置関係はそれぞれ異なるので、集音部120の位置が固定されたままでは、一部のユーザの音声を適切に集音することができない。本適用例によれば、異なるユーザが発話する度に、発話したユーザの音声を適切に集音可能なように、集音部120の位置および/または姿勢を逐次調整することができる。
具体的には、まず、一人目のユーザ2aが発話すると、ロボット10aは、当該発話の音声データをサーバ20へ送信する。そして、サーバ20は、受信した音声データに対して音声認識を行うとともに、当該音声認識に基づいて、集音部の位置等の適正度を算出する。そして、サーバ20‐2は、算出した適正度および音声認識結果をロボット10aへ送信する。そして、ロボット10aは、受信された適正度と所定の閾値との比較に基づいて、集音部120の位置および/または姿勢を変更する。
そして、ユーザ2aの対話が終了し、次に、二人目のユーザ2bが発話すると、ロボット10aは、同様の処理により、当該ユーザ2bの方向を基準として、集音部120の位置および/または姿勢を変更する。このように、ロボット10aは、各ユーザの発話の状況に応じて、集音部120の位置および/または姿勢をリアルタイムに、かつ、適切に調整することができる。
<6−2.変形例2>
また、上述した各実施形態の動作における各ステップは、必ずしも記載された順序に沿って処理されなくてもよい。例えば、各ステップは、適宜順序が変更されて処理されてもよい。また、各ステップは、時系列的に処理される代わりに、一部並列的に又は個別的に処理されてもよい。また、記載されたステップのうちの一部が省略されたり、または、別のステップがさらに追加されてもよい。
また、上述した各実施形態によれば、例えばCPU150、ROM152、およびRAM154などのハードウェアを、上述した各実施形態によるデバイス10および/またはサーバ20の各構成と同等の機能を発揮させるためのコンピュータプログラムも提供可能である。また、該コンピュータプログラムが記録された記録媒体も提供される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
集音部で集音された音声に基づいて算出される適正度を取得する取得部と、
前記取得部により取得された適正度に基づいて処理を行う処理部と、
を備える、情報処理装置。
(2)
前記適正度は、前記集音部の位置の適正度を含む、前記(1)に記載の情報処理装置。
(3)
前記適正度は、前記集音部の姿勢の適正度を含む、前記(1)または(2)に記載の情報処理装置。
(4)
前記処理部は、前記適正度と所定の閾値との比較に基づいて、前記処理を行うか否かを決定する、前記(2)または(3)に記載の情報処理装置。
(5)
前記処理は、前記集音部の位置の変更に関する制御を行うことである、前記(4)に記載の情報処理装置。
(6)
前記処理は、前記集音部の位置の変更をユーザに促す情報の出力を制御することである、前記(4)に記載の情報処理装置。
(7)
前記取得部は、前記集音部で集音されたユーザの音声の音声認識結果をさらに取得し、
前記処理部は、前記音声認識結果から特定される操作を、前記適正度に基づいて許可するか否かを決定する、前記(1)〜(3)のいずれか一項に記載の情報処理装置。
(8)
前記情報処理装置は、前記集音部をさらに備え、
前記処理部は、前記音声認識結果から特定される、外部の機器に対する操作を、前記適正度に基づいて許可するか否かを決定する、前記(7)に記載の情報処理装置。
(9)
前記処理部は、前記音声認識結果から特定される、前記情報処理装置または外部の機器の挙動に関する操作を、前記適正度に基づいて許可するか否かを決定する、前記(7)または(8)に記載の情報処理装置。
(10)
前記処理部は、前記音声認識結果から特定される、他のユーザ宛ての情報の送信操作を、前記適正度に基づいて許可するか否かを決定する、前記(7)に記載の情報処理装置。
(11)
前記適正度が第1の閾値以下であり、かつ、第2の閾値よりも大きい場合には、前記処理部は、前記音声認識結果から特定される操作の実行の可否を前記ユーザに対して問合せ、かつ、
前記処理部は、前記問合せに対する前記ユーザの回答に基づいて、前記操作を許可するか否かを決定する、前記(7)〜(10)のいずれか一項に記載の情報処理装置。
(12)
集音部で集音された音声を取得する取得部と、
前記取得部により取得された音声に基づいて算出される適正度に応じた処理を行う処理部と、
を備える、情報処理装置。
(13)
前記情報処理装置は、前記取得部により取得された音声の音声認識に基づいて前記適正度を算出する適正度算出部をさらに備え、
前記処理部は、前記適正度算出部により算出された適正度に応じた処理を行う、前記(12)に記載の情報処理装置。
(14)
前記情報処理装置は、前記集音部の位置を変更させるための制御情報を前記適正度に基づいて生成する制御情報生成部をさらに備え、
前記処理部は、前記制御情報生成部により生成された前記制御情報を出力する、前記(13)に記載の情報処理装置。
(15)
前記制御情報生成部は、前記適正度と所定の閾値との比較に基づいて、前記制御情報を生成するか否かを決定する、前記(14)に記載の情報処理装置。
(16)
前記制御情報生成部は、さらに、前記集音部の位置の変更履歴に基づいて、前記制御情報を生成する、前記(14)または(15)に記載の情報処理装置。
(17)
前記取得部は、さらに、前記集音部を含む機器に関する情報を取得し、
前記制御情報生成部は、さらに、前記取得部により取得された機器に関する情報に基づいて、前記制御情報を生成する、前記(14)〜(16)のいずれか一項に記載の情報処理装置。
(18)
前記処理部は、前記集音部を含む機器へ前記適正度を通信部に送信させる、前記(13)に記載の情報処理装置。
(19)
集音部で集音された音声に基づいて算出される適正度を取得することと、
取得された適正度に基づいて、プロセッサが処理を行うことと、
を含む、情報処理方法。
(20)
コンピュータを、
集音部で集音された音声に基づいて算出される適正度を取得する取得部と、
前記取得部により取得された適正度に基づいて処理を行う処理部と、
として機能させるための、プログラム。
10‐1、10‐2、10‐3、10‐4 デバイス
20‐1、20‐2、20‐3、20‐4 サーバ
30 通信網
50 外部機器
100、200 制御部
102、208 送信制御部
104 認識結果実行部
106 駆動制御部
108 出力制御部
110 操作許可部
120 集音部
122 駆動部
124、220 通信部
126、222 記憶部
128、224 位置変更履歴DB
130 出力部
202 音声認識部
204 適正度算出部
206 制御情報生成部

Claims (6)

  1. 集音部で集音された音声を取得する取得部と、
    前記取得部により取得された音声に基づいて算出される適正度に応じた処理を行う処理部と、
    前記取得部により取得された音声の音声認識に基づいて前記適正度を算出する適正度算出部と、
    前記集音部の位置を変更させるための制御情報を前記適正度に基づいて生成する制御情報生成部と、
    を備え、
    前記処理部は、前記制御情報生成部により生成された前記制御情報を出力する、
    情報処理装置。
  2. 前記制御情報生成部は、前記適正度と所定の閾値との比較に基づいて、前記制御情報を生成するか否かを決定する、請求項に記載の情報処理装置。
  3. 前記制御情報生成部は、さらに、前記集音部の位置の変更履歴に基づいて、前記制御情報を生成する、請求項またはに記載の情報処理装置。
  4. 前記取得部は、さらに、前記集音部を含む機器に関する情報を取得し、
    前記制御情報生成部は、さらに、前記取得部により取得された機器に関する情報に基づいて、前記制御情報を生成する、請求項のいずれか一項に記載の情報処理装置。
  5. 集音部で集音された音声を取得することと、
    取得された前記音声の音声認識に基づいて適正度を算出することと、
    前記集音部の位置を変更させるための制御情報を前記適正度に基づいて生成することと、
    前記適正度に応じて、プロセッサが処理を行うことと、
    生成された前記制御情報を出力することと、
    を含む、情報処理方法。
  6. コンピュータを、
    集音部で集音された音声を取得する取得部と、
    前記取得部により取得された音声に基づいて算出される適正度に応じた処理を行う処理部と、
    前記取得部により取得された音声の音声認識に基づいて前記適正度を算出する適正度算出部と、
    前記集音部の位置を変更させるための制御情報を前記適正度に基づいて生成する制御情報生成部と、
    として機能させるための、プログラムであって、
    前記処理部は、前記制御情報生成部により生成された前記制御情報を出力する、
    プログラム。
JP2018516344A 2016-05-13 2017-02-03 情報処理装置、情報処理方法、およびプログラム Active JP6872134B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016097003 2016-05-13
JP2016097003 2016-05-13
PCT/JP2017/004063 WO2017195412A1 (ja) 2016-05-13 2017-02-03 情報処理装置、情報処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2017195412A1 JPWO2017195412A1 (ja) 2019-03-14
JP6872134B2 true JP6872134B2 (ja) 2021-05-19

Family

ID=60267539

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018516344A Active JP6872134B2 (ja) 2016-05-13 2017-02-03 情報処理装置、情報処理方法、およびプログラム

Country Status (3)

Country Link
EP (1) EP3457399A4 (ja)
JP (1) JP6872134B2 (ja)
WO (1) WO2017195412A1 (ja)

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03131198A (ja) * 1989-10-16 1991-06-04 Sharp Corp 音声認識装置
AU2001276904A1 (en) * 2000-07-14 2002-01-30 Syvox Corporation Apparatus and methods for sound reproduction and recording
WO2003052737A1 (fr) * 2001-12-17 2003-06-26 Asahi Kasei Kabushiki Kaisha Procede de reconnaissance vocale, controleur a distance, terminal d'information, terminal de communication telephonique et systeme de reconnaissance vocale
US7242765B2 (en) * 2002-06-28 2007-07-10 Tommy Lee Hairston Headset cellular telephones
JP2005140860A (ja) * 2003-11-04 2005-06-02 Canon Inc 音声認識装置およびその制御方法
JP2007135008A (ja) * 2005-11-10 2007-05-31 Sony Ericsson Mobilecommunications Japan Inc 携帯端末装置
WO2012096072A1 (ja) * 2011-01-13 2012-07-19 日本電気株式会社 音声処理装置及びその制御方法とその制御プログラムを格納した記憶媒体、該音声処理装置を備えた車両、情報処理装置及び情報処理システム
US10382509B2 (en) 2011-01-28 2019-08-13 Amazon Technologies, Inc. Audio-based application architecture
JP5408810B2 (ja) * 2011-06-24 2014-02-05 アイシン・エィ・ダブリュ株式会社 音声認識制御システム、音声認識制御方法、及び音声認識制御プログラム
JP2014081441A (ja) * 2012-10-15 2014-05-08 Sharp Corp コマンド判定装置およびその制御方法、コマンド判定プログラム
US9236050B2 (en) * 2013-03-14 2016-01-12 Vocollect Inc. System and method for improving speech recognition accuracy in a work environment

Also Published As

Publication number Publication date
WO2017195412A1 (ja) 2017-11-16
EP3457399A1 (en) 2019-03-20
EP3457399A4 (en) 2019-10-16
JPWO2017195412A1 (ja) 2019-03-14

Similar Documents

Publication Publication Date Title
JP6739907B2 (ja) 機器特定方法、機器特定装置及びプログラム
CN110291576B (zh) 基于触摸的操作系统的免提导航
EP3321928B1 (en) Operation of a virtual assistant on an electronic device
EP3101652A1 (en) Electronic device for outputting messages and method for controlling the same
US10969763B2 (en) Systems and methods to adapt and optimize human-machine interaction using multimodal user-feedback
KR20220098808A (ko) 컴퓨팅 디바이스 근처의 가상 어시스턴트 식별
KR102561572B1 (ko) 센서 활용 방법 및 이를 구현한 전자 장치
US20240078798A1 (en) Information processing device, information processing method, and program
CN106325228B (zh) 机器人的控制数据的生成方法及装置
US11367443B2 (en) Electronic device and method for controlling electronic device
US10983751B2 (en) Multi-application augmented reality audio with contextually aware notifications
WO2017002488A1 (ja) 情報処理装置、情報処理方法、及びプログラム
TWI801629B (zh) 用於與智慧型工業輔助及工業機器通訊的方法、系統、及電腦程式產品
CN106325065A (zh) 机器人交互行为的控制方法、装置及机器人
KR20200101221A (ko) 사용자 입력 처리 방법 및 이를 지원하는 전자 장치
WO2016206642A1 (zh) 机器人的控制数据的生成方法及装置
JP5206151B2 (ja) 音声入力ロボット、遠隔会議支援システム、遠隔会議支援方法
US20240075944A1 (en) Localized voice recognition assistant
JP6872134B2 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2017053000A1 (en) Technologies for physical programming
JP2018075657A (ja) 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム
CN113810814B (zh) 耳机模式切换的控制方法及装置、电子设备和存储介质
KR20200077936A (ko) 사용자 상태에 기초하여 반응을 제공하는 전자 장치 및 그의 동작 방법
CN111344117A (zh) 用于控制机械臂的用户交互电子系统和方法
US11809630B1 (en) Using a haptic effects library to determine whether to provide predefined or parametrically-defined haptic responses, and systems and methods of use thereof

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190208

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20190214

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190222

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20190515

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190522

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200115

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210316

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210329

R151 Written notification of patent or utility model registration

Ref document number: 6872134

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151