JP2018148539A

JP2018148539A - 情報処理装置およびその制御方法、ならびに制御プログラム

Info

Publication number: JP2018148539A
Application number: JP2017045118A
Authority: JP
Inventors: 西畑　実; Minoru Nishihata; 実西畑
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2017-03-09
Filing date: 2017-03-09
Publication date: 2018-09-20

Abstract

【課題】ノイズ音源となる電子機器と音声入力部との配置関係に応じて音声入力部の感度を制御する。
【解決手段】ＴＶを制御してＴＶの電源のオンおよびオフを制御するか、またはＴＶが発する音の音量を制御するＩＲ出力制御部（５３）と、ＴＶが発する音の音量の変化と、複数の指向性マイク（１ａ，１ｂ）のそれぞれに入力された音声の音量の変化との相関関係に基づき、複数の指向性マイク（１ａ，１ｂ）のうちの少なくとも１つの感度を制御するマイク感度制御部（５４）と、を備える。
【選択図】図１

Description

本発明は、複数の音声入力部により音声の入力を受付ける情報処理装置などに関する。

従来、ユーザが発話した音声を認識し、認識した結果に基づき、テレビジョン受信機（ＴＶ）やエアーコンディショナー（エアコン）等の電子機器を制御するリモートコントローラ（以下、単に「リモコン」という）が存在している。この種のリモコンの中には、複数のマイクロフォン（以下、単に「マイク」という）を備えたものがあり、これらのマイクに収音された音声を認識し、認識した結果に基づき、電子機器を制御するようになっているものもある。

ところで、マイクには指向性を有するものが存在しており、指向性を有するマイクのうち単一指向性を有するマイクは、マイクの正面など所定の指向方向から来る音に対して最も感度が良くなるように設計されている。このような単一指向性を有するマイクが音源からの音を一定の音質で収音するためには、常にマイクの指向方向に音源が位置する必要がある。

特許文献１には、音源との位置に関わらずに一定の音質で収音することのできる複数のマイクを備えたマイクロフォンシステムが開示されている。このマイクロフォンシステムは、立体的に配置された複数のマイクと、音源の方向を検出する検出手段と、この検出手段の検出結果に基づいて上記マイクからの出力を個別に制御する制御手段と、を有している。また、上記マイクロフォンシステムは、上記検出手段により検出された音源が収音対象となる音源か否かを判別する判別手段をさらに備えている。

例えば、上記判別手段としての非話者方向判別部は、センサにより検出された音源が収音対象ではない音源を判別する。この判別は、センサの信号出力から音源の位置や方向を分析することにより行われる。より具体的には、センサの信号出力から分析した音源の位置または方向が、収音対象となる音源として想定し得ない所定の位置または方向にある場合、非話者方向判別部は、その音源を収音対象ではない音源として判別する。

特開２００６‐２４５７２５号公報（２００６年９月１４日公開）

上記マイクロフォンシステムでは、非話者方向判別部が、収音対象ではない音源を判別する判別条件として、その音源が、音源として想定し得ない所定の位置または方向にある場合が例示されている。しかしながら、マイクの設置位置が不定で頻繁に移動したりする場合など、そもそも音源として想定し得ない所定の位置または方向を決定できない場合が多い。

換言すれば、上記マイクロフォンシステムでは、ノイズ音源（ＴＶその他の家電など）がどの（マイクに近い）方向にあるかを判別できず、結局ノイズ音源とマイクとの配置関係に応じて個々のマイクの感度または方向を調整することができないという問題点がある。また、このため、個々のマイクの感度または方向の調整によるＳ／Ｎ比（信号対雑音比）の向上が困難であるという問題点もある。

本発明は、以上の問題点に鑑みて為されたものであって、その目的は、ノイズ音源となる電子機器と音声入力部との配置関係に応じて音声入力部の感度または電子機器に対する音声入力部の向きを制御することが可能な情報処理装置などを提供することにある。

上記の課題を解決するために、本発明の一態様に係る情報処理装置は、複数の音声入力部により音声の入力を受付ける情報処理装置であって、電子機器を制御して当該電子機器の電源のオンおよびオフを制御するか、または当該電子機器が発する音の音量を制御する電子機器制御部と、上記電子機器が発する音の音量の変化と、上記複数の音声入力部のそれぞれに入力された音声の音量の変化との相関関係に基づき、上記複数の音声入力部のうちの少なくとも１つの感度を制御する感度制御部と、を備えた構成である。

上記の課題を解決するために、本発明の一態様に係る情報処理装置の制御方法は、複数の音声入力部により音声の入力を受付ける情報処理装置の制御方法であって、電子機器を制御して当該電子機器の電源のオンおよびオフを制御するか、または当該電子機器が発する音の音量を制御する電子機器制御ステップと、上記電子機器が発する音の音量の変化と、上記複数の音声入力部のそれぞれに入力された音声の音量の変化との相関関係に基づき、上記複数の音声入力部のうちの少なくとも１つの感度を制御する感度制御ステップと、を含む方法である。

上記の課題を解決するために、本発明の一態様に係る情報処理装置は、音声入力部により音声の入力を受付ける情報処理装置であって、電子機器を制御して当該電子機器が発する音の音量を制御する電子機器制御部と、上記電子機器が発する音の音量の変化と、上記音声入力部に入力された音声の音量の変化との相関関係に基づき、上記電子機器に対する上記音声入力部の向きを制御する方向制御部と、を備えた構成である。

本発明の一態様に係る情報処理装置（またはその制御方法）によれば、ノイズ音源となる電子機器と音声入力部との配置関係に応じて音声入力部の感度または電子機器に対する音声入力部の向きを制御することが可能になるという効果を奏する。

本発明の実施形態１に係る音声認識端末の構成を示すブロック図、ならびにノイズ音源（ＴＶ）、音声認識端末および話者の位置関係を示す図である。上記音声認識端末の動作の一例を示すフローチャートである。（ａ）は、一方の指向性マイクが捉えた音量レベルの変化を示すグラフであり、（ｂ）は、他方の指向性マイクが捉えた音量レベルの変化を示すグラフである。（ａ）は、一方の指向性マイクが捉えた音量レベルの変化を示すグラフであり、（ｂ）は、他方の指向性マイクが捉えた音量レベルの変化を示すグラフであり、（ｃ）は、（ａ）に示すグラフを拡大した図である。（ａ）は、コサイン関数の変化パターンを有する音量制御信号を用いた場合における指向性マイクが捉えた音量レベルの変化を示すグラフであり、（ｂ）は、ノイズ音源がブザーの場合における指向性マイクが捉えた音量レベルの変化を示すグラフであり、（ｃ）は、所定の音楽と音量制御信号とを同期させた場合における指向性マイクが捉えた音量レベルの変化を示すグラフである。（ａ）は、ノイズ音源をＴＶからエアコンに変更した場合におけるエアコン、音声認識端末および話者の位置関係を示す図であり、（ｂ）は、エアコンをＯＮ／ＯＦＦさせた場合における、複数の指向性マイクのそれぞれが捉えた音量レベルの変化を示すグラフである。本発明の実施形態２に係る音声認識端末が備える４つの指向性マイクのそれぞれのマイク感度の係数を示す図である。（ａ）は、本発明の実施形態３に係る音声認識端末の概要構成を示す図であり、（ｂ）および（ｃ）は、上記音声認識端末の動作を説明するための図であり、（ｄ）は、話者の位置を感度の調整に用いる場合における音声認識端末の動作を説明するための図である。本発明の実施形態４に係る音声認識端末の動作を説明するための図である。

本発明の実施の形態について図１〜図９に基づいて説明すれば、次の通りである。以下、説明の便宜上、ある実施形態にて説明した構成と同一の機能を有する構成については、他の実施形態においても同一の符号を付記し、その説明を省略する場合がある。

〔実施形態１〕
図１は、本発明の実施形態１に係る音声認識端末（情報処理装置）１０の構成を示すブロック図、ならびにノイズ音源Ｎ（ＴＶ）、音声認識端末１０および話者Ｐの位置関係を示す図である。

ＴＶ（電子機器）は、収音対象（音声認識の対象）でない音を発するノイズ音源Ｎの一例である。本明細書において、「ノイズ音」とは、ノイズ音源Ｎが発生する音全体を意味するものとする。例えば、ＴＶからは、番組出演者の音声と番組に係る音楽と効果音等の音が発生するが、ＴＶからのノイズ音はこれらの様々な音を含む音を意味するものとする。同様に後述するエアコンは作動音や送風音等の音が発生するが、エアコンからのノイズ音とは、それらエアコンが発生する作動音や送風音などの様々な音を含む音を意味する。

音声認識端末１０は発話による家電制御を目的とした、ポータブルな卓上端末である。例えば、音声認識端末１０は「テレビの音量を上げて」などのユーザの発話を検出して、遠隔操作でＴＶの音量を制御したりすることもできる。音声認識端末１０は、音声認識機能付きの端末、あるいは外部の音声認識サービスを利用することによる音声認識が可能な端末であればよく、例えばロボット型携帯電話機やロボット、または携帯電話機等であり得る。

図１に示すように、音声認識端末１０は、指向性マイク（音声入力部）１ａ，１ｂ、感度調整部２ａ，２ｂ、音量レベル測定部（音量測定部）３、音声認識部４（音声認識端末１０の外部に設けられていても良い）、制御部５、ＩＲ（赤外線信号）出力部６、コマンド入力部７、底面モーメンタリスイッチ８、および記憶部９を備える。

指向性マイク１ａ，１ｂは、それぞれ外部の音を電気信号に変換する単一指向性を有するマイクロフォンである。本実施形態では、指向性マイク１ａ，１ｂのそれぞれは、音声認識端末１０において空間的に異なる位置に配置されており、指向性マイク１ａ，１ｂが指向性を有する方向はそれぞれ異なっている。また、本実施形態では、音声認識端末１０が備えるマイクの数が２つである場合を想定しているが、音声認識端末１０が備えるマイクの数はこれに限定されず、音声認識端末１０は、３つ以上のマイクを備えても良い。

感度調整部２ａ，２ｂは、それぞれ指向性マイク１ａ，１ｂの感度を調整するものである。音量レベル測定部３は、指向性マイク１ａ，１ｂのそれぞれに入力された音声の音量（レベル）を測定するものである。

音声認識部４は、指向性マイク１ａ，１ｂから入力された音声の音声認識を行い、認識した結果を制御部５に通知するものである。なお、音声認識処理そのものは従来技術を用いて可能であるので、説明は省略する。制御部５は、音声認識端末１０の全体を統括的に制御するものである。制御部５を構成する機能ブロックの詳細については後述する。

ＩＲ出力部６は、赤外線通信によりＴＶの動作を制御するための制御信号を出力するものである。例えば、ＩＲ出力部６は、赤外線通信によりＴＶの電源のＯＮ／ＯＦＦやＴＶが発する音の音量を制御する制御信号を送信（出力）する。

コマンド入力部７は、ユーザの入力操作を入力信号に変換して制御部５に通知するものであり、音声認識端末１０を動作させるための各種コマンド（ユーザによる指令）が入力される。

底面モーメンタリスイッチ８は、音声認識端末１０の底面に設けられたモーメンタリスイッチであり、スイッチＯＦＦ→ＯＮの変化で、音声認識端末１０の移動が完了したことを検知するようになっている。

記憶部９は、音声認識端末１０の動作に必要な各種情報が予め記録され、または、音声認識端末１０にて生成された各種情報が記録されるものである。制御部５は、主としてコマンド受付部５１、移動検知部５２、ＩＲ出力制御部（電子機器制御部）５３、マイク感度制御部（感度制御部）５４、および記録制御部５５の各機能ブロックで構成される。

コマンド受付部５１は、コマンド入力部７から入力信号を受け取って、ユーザが指示したコマンドを特定するものである。制御部５は、コマンドが特定されるとそのコマンドに応じて音声認識端末１０の動作を制御する。

移動検知部５２は、底面モーメンタリスイッチ８のスイッチＯＮ／ＯＦＦの状態を検知し、音声認識端末１０の設置場所からの移動タイミングや、音声認識端末１０の移動の完了タイミングを検知するものである。

ＩＲ出力制御部５３は、ＩＲ出力部６を制御して、ＴＶに制御信号を送ることにより、ＴＶの動作を制御する。例えば、ＩＲ出力制御部５３は、ＩＲ出力部６を制御して、ＴＶに制御信号を送ることにより、ＴＶの電源のＯＮ／ＯＦＦを制御する。また、ＩＲ出力制御部５３は、ＩＲ出力部６を制御して、ＴＶに音量制御信号を送ることにより、ＴＶが発する音の音量を制御する。

マイク感度制御部５４は、ＴＶが発する音の音量の変化と、指向性マイク１ａ，１ｂのそれぞれに入力された音声の音量の変化との相関関係に基づき、指向性マイク１ａ，１ｂのうちの少なくとも１つの感度を制御するものである。

より具体的には、マイク感度制御部５４は、指向性マイク１ａ，１ｂのうちの他のマイクと比較してＴＶが発する音の音量の変化との相関がより強い音声の音量の変化が測定されたマイクの感度を、他のマイクの感度よりも低くする。これにより、ＴＶに近い位置に配置されたマイクの感度が、他のマイクよりも低くなるため、収音対象（音声認識の対象）となる音声のＳ／Ｎ比（信号対雑音比）を向上させることができる。記録制御部５５は、記憶部９に対して音声認識端末１０にて生成された各種情報を記録する制御を行うものである。

上述した音声認識端末１０によれば、ＩＲ出力制御部５３は、ＴＶを制御してＴＶの電源のオンおよびオフを制御するか、またはＴＶが発する音の音量を制御し、音量レベル測定部３は、指向性マイク１ａ，１ｂのそれぞれに入力された音声の音量を測定し、マイク感度制御部５４は、ＴＶが発する音の音量の変化と、指向性マイク１ａ，１ｂのそれぞれに入力された音声の音量の変化との相関関係に基づき、指向性マイク１ａ，１ｂのうちの少なくとも１つの感度を制御する。これにより、ＴＶと指向性マイク１ａ，１ｂとの配置関係に応じて指向性マイク１ａ，１ｂの感度を制御することができる。

次に、図２は、音声認識端末１０の動作の一例を示すフローチャートである。ここではノイズ音源がＴＶである例を説明する。あるタイミング（たとえばテレビＯＮや音声認識端末１０の設置場所移動）で、目的である話者Ｐの発話音声認識に先立って次の調整動作（一種のキャリブレーション）を行う。

Ｓ１０１では、ＩＲ出力制御部５３が、ＩＲ出力部６を介してＴＶが発する音の音量を制御する音量制御信号を送信する（ＩＲ出力制御）。これによりＴＶが発する音の音量が所定のパターンにより変化する。Ｓ１０２では、音量レベル測定部３が、指向性マイク１ａ，１ｂのそれぞれの音量（または音量レベル）を測定する。

Ｓ１０３では、マイク感度制御部５４が、指向性マイク１ａ，１ｂのそれぞれの音量レベルの変化に応じて指向性マイク１ａ，１ｂの感度を決定する。Ｓ１０４では、マイク感度制御部５４が、感度調整部２ａ，２ｂを介して指向性マイク１ａ，１ｂのそれぞれの感度を、決定した感度に調整する。

（動作例１）
次に、図３に基づき、音声認識端末１０の動作例１について説明する。本動作例では、ＩＲ出力制御部５３がＩＲ出力部６を介してＴＶの電源のＯＮ／ＯＦＦを制御する制御信号を出力し、ＴＶ（ノイズ音源Ｎ）の電源を制御する。本動作例では、音声認識端末１０のリモコン機能を利用して、ＴＶをＯＦＦ状態からＯＮ状態に変化させたり、逆にＯＮ状態からＯＦＦ状態に変化させたりすることによりＴＶの音量レベルを０か否かで変化させる。または、ＴＶの電源のＯＮ／ＯＦＦを切り替える代わりに、ＴＶの電源はＯＮのままで、ＩＲ出力制御部５３がＩＲ出力部６を介してＴＶが発する音の音量を制御する音量制御信号を出力することにより、ＴＶが発する音のみをＯＦＦ（ミュート）したり、ＯＮ（ミュート解除）したりする制御を行っても良い。

この場合、マイク感度制御部５４は、音量レベル測定部３が測定した音量レベルの変動率が大きい指向性マイクがＴＶの方向を向いている（ＴＶに近い位置にある）と判断し、その指向性マイクの感度を下げる。なお、ここでは、ＴＶの音量を高く調整したときに指向性マイク１ａ，１ｂが収音する音の平均レベルをピーク時の平均レベルとし、ＴＶの音量を低く調整したときに指向性マイク１ａ，１ｂが収音する音の平均レベルをボトム時の平均レベルとするとき、（ピーク時の平均レベル）／（ボトム時の平均レベル）を音量レベルの変動率と定義する。音量レベルの変動率の大きさは、指向性マイク１ａ，１ｂが収音した音の音量の変化と、ＴＶが発する音の音量の変化との相関の強さを示している。

コマンド受付部５１は、コマンド入力部７を介してＴＶをＯＮ状態とするコマンドを受け付けると、ＩＲ出力制御部５３がＩＲ出力部６を介して実際にＴＶをＯＮ状態にする制御信号を送信する前に以下の処理を行う。

まず、マイク感度制御部５４は、感度調整部２ａ，２ｂのそれぞれの初期値を同一のレベルにする。次に、マイク感度制御部５４は、指向性マイク１ａ，１ｂの両方が収音した音声の信号について、同時または交互に、一定区間（例えば２００ｍｓｅｃ）音量レベルの区間平均をとり、これらを「それぞれのマイクのボトム状態の平均レベル」とし、記録制御部５５は、上記の音量レベルの区間平均に関するデータを記憶部９に記録する。

次に、ＩＲ出力制御部５３がＩＲ出力部６を介してＴＶをＯＮ状態にする制御信号をＴＶに送信する。次に、指向性マイク１ａ，１ｂの両方が収音した音声の信号について、同時または交互に、一定区間（例えば３０００ｍｓｅｃ）音量レベルの区間平均をとり、これらを「それぞれのマイクのピーク状態の平均レベル」とし、記録制御部５５は、上記の音量レベルの区間平均に関するデータを記憶部９に記録する。

図３の（ａ）は、指向性マイク１ａが捉えた音量レベルの変化を示すグラフである。また、図３の（ｂ）は、指向性マイク１ｂが捉えた音量レベルの変化を示すグラフである。Ｐ１は、指向性マイク１ａが収音したピーク状態の音量の平均レベルを示す。Ｂ１は、指向性マイク１ａが収音したボトム状態の音量の平均レベルを示す。Ｐ２は、指向性マイク１ｂが収音したピーク状態の音量の平均レベルを示す。Ｂ２は、指向性マイク１ｂが収音したボトム状態の音量の平均レベルを示す。なお、Ｂ１およびＢ２はＴＶがＯＦＦの状態、またはＴＶが発する音がＯＦＦ状態のものなので、ＴＶに由来するものではなく、周囲の環境やマイクに接続された電子部品に由来するノイズの平均レベルとなる。

このとき、Ｐ１／Ｂ１＞Ｐ２／Ｂ２であれば、マイク感度制御部５４は、指向性マイク１ａが指向性マイク１ｂよりもＴＶの方向を向いている（またはＴＶに近い位置にある）と判断し、感度調整部２ａを介して指向性マイク１ａの感度を下げる。または、感度調整部２ａはスイッチのＯＮ／ＯＦＦを用い、指向性マイク１ａからの信号を切断してもよい。これにより、話者Ｐからの音声信号のＳ／Ｎ比を向上させることができる。

なお、Ｐ１／Ｂ１およびＰ２／Ｂ２は、それぞれ、指向性マイク１ａ，１ｂが収音した音の音量の変化と、ＴＶが発する音の音量の変化との相関の強さを示している。また、一般に音量レベルに関しては、信号の電圧を対数変換してｄＢ（デシベル）単位で扱うことが多いが、本実施形態では、電圧の単位Ｖ（ボルト）で扱う。なぜなら、電圧の単位で扱うほうが、ピーク／ボトム比の差異が明確に出やすいと考えられるからである。

（動作例２）
次に、図４に基づき、音声認識端末１０の動作例２について説明する。本動作例では、ＩＲ出力制御部５３がＩＲ出力部６を介してＴＶが発する音の音量を制御する音量制御信号を出力し、ＴＶ（ノイズ音源Ｎ）の音量を制御する。マイク感度制御部５４は、音量レベル測定部３が測定した音量レベルの変動率が大きい指向性マイクがＴＶの方向を向いている（ＴＶに近い位置にある）とみなし、その指向性マイクの感度を下げる。

本動作例では、音声認識端末１０のリモコン機能を利用して、ＴＶが発する音の音量を特定のパターン（例えばＶ字型）に変化させる。マイク感度制御部５４は、指向性マイク１ａ，１ｂのそれぞれに入力された音量の変化が上述した特定のパターンにより合致したマイクほど、ＴＶの方を向いている（ＴＶに近い位置にある）と判断し、その合致度に応じて指向性マイク１ａ，１ｂのそれぞれの感度を抑制する。

ここで、合致度とは、指向性マイク１ａ，１ｂが収音した音の音量の変化と、ＴＶが発する音の音量の変化との相関の強さの度合いを示すものであれば良く、例えば、上述したピーク／ボトム比を例示することができる。

次に、例えば、音量レベルを複数回Ｖ字型に変化させ（または複数回Ｗ字型に変化させ）、ピーク時点とボトム時点の音量差の平均が大きい（言い換えれば、ある指向性マイクが捉えた音量変化が音量制御信号とより強く相関している）指向性マイクほど、ＴＶの方を向いている（ＴＶに近い位置にある）と判断し、指向性マイクの感度を調整する制御を行って、Ｓ／Ｎ比を向上させる。より具体的には、複数の指向性マイクがある場合、相関がより強い指向性マイク個別の感度を下げる。あるいは、後述するように、指向性マイクの方向が制御可能の場合、ピーク時の信号レベルが最少になるように指向性マイクの向きを変えるなどの方法が考えられる。

以上の動作によれば、ノイズ音源Ｎ（ＴＶその他の家電）がどの（指向性マイクに近い）方向にあるかを判別することが可能となり、個別の指向性マイクの感度や方向の調整によるＳ／Ｎ比向上が容易となる。

本動作例では、（１）ＴＶのＯＦＦ→ＯＮ検知、または（２）底面モーメンタリスイッチ８のＯＦＦ→ＯＮ検知により音声認識端末１０の設置場所の移動が完了したとみなし、上記（１）または（２）を契機として、以下の調整フローを開始する。

まず、マイク感度制御部５４は、感度調整部２ａ，２ｂのそれぞれの初期値を同一のレベルにする。次に、ＩＲ出力制御部５３は、ＩＲ出力部６を介してＴＶが発する音の音量を、複数回Ｗ字型に変化させる。便宜的に、このときの音量制御信号が最大値となった状態をピーク状態、最小値となった状態をボトム状態と呼ぶ。例えば、ピークから次のピークまでの周期を１０００ｍｓｅｃとする。

指向性マイク１ａ，１ｂの両方で、同時または交互に、収音した音量変化（例えばピークとボトムそれぞれ付近の区間２００ｍｓｅｃの音量レベルの平均値のデータ）を検知し、記録制御部５５は、上記音量の変化に関するデータを記憶部９に記録する。ピークが３回あれば、３回分のピーク付近の区間平均値の計測回数平均値をとる。ボトムも同様である。

図４の（ａ）は、指向性マイク１ａが捉えた音量レベルの変化を示すグラフである。また、図４の（ｂ）は、指向性マイク１ｂが捉えた音量レベルの変化を示すグラフである。

Ｐ１は、指向性マイク１ａが収音したピーク前後の音量レベルの区間平均値の計測回数平均値である。Ｂ１は、指向性マイク１ａが収音したボトム前後の音量レベルの区間平均値の計測回数平均値である。Ｐ２は、指向性マイク１ｂが収音したピーク前後の音量レベルの区間平均値の計測回数平均値である。Ｂ２は、指向性マイク１ｂが収音したボトム前後の音量レベルの区間平均値の計測回数平均値である。

このとき、Ｐ１／Ｂ１＞Ｐ２／Ｂ２であれば、マイク感度制御部５４は、指向性マイク１ａが指向性マイク１ｂよりもＴＶの方向を向いている（またはＴＶに近い位置にある）と判断し、感度調整部２ａを介して指向性マイク１ａの感度を下げる。または、感度調整部２ａはスイッチのＯＮ／ＯＦＦを用い、指向性マイク１ａからの信号を切断してもよい。これにより、話者Ｐからの音声信号のＳ／Ｎ比を向上させることができる。なお、Ｐ１／Ｂ１およびＰ２／Ｂ２は、それぞれ、指向性マイク１ａ，１ｂが収音した音の音量の変化と、ＴＶが発する音の音量の変化との相関の強さを示している。

上述した判断式に替えて、Ｐ１−Ｂ１＞Ｐ２−Ｂ２のようにピークとボトムとの差を用いる判断式を用いても良い。このとき、Ｐ１−Ｂ１およびＰ２−Ｂ２は、それぞれ、指向性マイク１ａ，１ｂが収音した音の音量の変化と、ＴＶが発する音の音量の変化との相関の強さを示す。

次に、図４の（ｃ）は、図４の（ａ）に示すグラフを拡大した図である。以下に、ピーク付近の音量レベルの区間平均値の計測回数平均値の計算方法の例を示す。区間平均値の計測回数平均値＝（３．２＋３．３＋３．４）／３回＝３．３（Ｖ）のように算出することができる。ＴＶ音声のランダムな音量変化（実線のグラフ）により、たとえば制御信号（破線のグラフ）がピーク時でも区間平均値が小さくなってしまう場合が考えられる。区間平均値の計測回数平均値をとることで、このような誤差を緩和させることができる。

（副次的課題とその解決策について）
次に、感度調整で音声認識端末１０としてＴＶリモコンを用いる場合の副次的課題について説明し、その解決策を幾つか示す。まず、第１の課題として、音量制御のボトムでＴＶの音が途切れると不便または不自然な聞こえ方となってしまうという課題がある。

この課題に対しては、以下の（１）および（２）に示す解決策が考えられる。
（１）一組のＴＶとリモコン双方が、いわゆるイコライザ（音声信号の周波数特性の調整機能）を備える場合、特定の音域（例：３ＫＨｚ付近）のレベルだけを（Ｖ字型などに）操作する。音声認識端末１０側での音声レベルの測定は、その音域だけをバンドパスフィルタで通過させて行う。これにより、聴感上、ボトム時での極端な音の途切れは無くなり、不自然さを緩和することができる。
（２）Ｖ字型ではなく、例えば、図５の（ａ）に示すように、コサイン関数などの滑らかなパターンを用いて音量変化を緩やかにしても良い。これにより、ピークあるいはボトム付近での音量変化の変化率を小さくし、不自然さを緩和することができる。

次に、第２の課題として、ＴＶの音量変化が不規則なため、リモコンによる音量設定と実際に出る音量が正確に比例せず、ピーク／ボトム比の計算に多少の誤差が出るという課題がある（例えば、ピーク時に偶然ＴＶ音量が低かった場合など）。

この課題に対しては、ＴＶがインターネットアクセス機能を備え、リモコンでアクセス操作と音データの再生操作が可能な場合、調整時は通常の放送でなく、ＣＰＵによるリモコン操作によって特定の音データが関連付けられているＷｅｂページを再生させる方法が考えられる。そのＷｅｂページに関連付けられている音データは、既知の音量変化で再生される。例えば、図５の（ｂ）に示すような一定音量のブザー音や、音声認識端末１０の設計側で既知の音楽などである。ブザー音の場合の音量変化＝音量制御信号（破線）と、正確に比例するので、ピーク／ボトム比の計算に誤差が出にくい。

既知の音楽を用いる場合は、例えば各計測区間内〔図５の（ｃ）に示す矩形参照〕で元の音が途切れていないように、音量制御信号（破線）と音楽（実線）とを同期させることが好ましい。

（動作例３）
次に、図６の（ａ）は、ノイズ音源ＮをＴＶからエアコンに変更した場合におけるエアコン、音声認識端末１０および話者Ｐの位置関係を示す図である。図６の（ａ）に示すように、ノイズ音源Ｎがエアコンの場合も、上述したＴＶに準じた調整を行うことができる。この場合、リモコンによる音量制御の代わりにエアコンのＯＮ／ＯＦＦ制御を用いる。

図６の（ｂ）は、エアコンをＯＮ／ＯＦＦさせた場合における、指向性マイク１ａおよび１ｂが捉えた音量レベルの変化を示すグラフである。ここで、Ｐ１を、指向性マイク１ａが収音したＯＮ時の平均音量レベルとする。Ｂ１を、指向性マイク１ａが収音したＯＦＦ時の平均音量レベルとする。Ｐ２を、指向性マイク１ｂが収音したＯＮ時の平均音量レベルとする。Ｂ２を、指向性マイク１ｂが収音したＯＦＦ時の平均音量レベルとする。

このとき、Ｐ１／Ｂ１＞Ｐ２／Ｂ２であれば、マイク感度制御部５４は、指向性マイク１ａがエアコンを向いている（エアコンに近い位置にある）と判断し、感度調整部２ａを介して指向性マイク１ａの感度を下げる。これにより、話者Ｐによる音声のＳ／Ｎ比を向上させることができる。なお、Ｐ１／Ｂ１およびＰ２／Ｂ２は、それぞれ、指向性マイク１ａ，１ｂが収音した音の音量の変化と、ＴＶが発する音の音量の変化との相関の強さを示している。

なお、エアコンのＯＮ／ＯＦＦの代わりに、風量の大小の調整を用いてもよい（一般に風量が大きいほどノイズレベルが高くなるので、これを利用する）。

〔実施形態２〕
次に、図７に基づき、本発明の実施形態２に係る音声認識端末（情報処理装置）２０について説明する。本実施形態の音声認識端末２０は、上述した音声認識端末１０と比較して、指向性マイクを４つ備えている点で異なっている（指向性マイク１ａ〜１ｄ）。なお、本実施形態では、指向性マイクを４つ備えているものとして説明するが、音声認識端末が備える指向性マイクの数は、４つに限定されず、３つまたは５つ以上であっても良い。

本実施形態のように指向性マイクを多数備えている場合、ノイズ音源Ｎの位置と各指向性マイクの位置との位置関係に応じて各マイクの感度を適切に制御する。例えば、ピーク／ボトム比が高いマイクほど感度を下げる。より具体的には、ピーク／ボトム比の逆数、すなわちボトム／ピークを用いて各マイクの感度の係数を求めればよい。例えば、図３（ａ）に示すグラフが指向性マイク１ａからの測定データを示すグラフであるとした場合、次のような計算式を用いることができる。
ｋ＝α＋β×（Ｂ１／Ｐ１）
但し、ｋは感度の係数、すなわち感度調整部２ａの制御信号であり、１．０を標準とする。また、αおよびβは適切に設定した定数である。

また、ピーク／ボトム比は、指向性マイク１ａ，１ｂが収音した音の音量の変化と、ＴＶが発する音の音量の変化との相関の強さを示している。

図７に示す例では、ノイズ音源Ｎ（ＴＶ）と各マイクとの距離に応じて、指向性マイク１ａの感度の係数が０．２、指向性マイク１ｂの感度の係数が０．７、指向性マイク１ｃの感度の係数が０．８、および指向性マイク１ｄの感度の係数が０．１に設定されている。ここでは、ＴＶから発せられるノイズ音を各マイクで収音し、ＴＶの位置を推定したデータを基に、各マイクの感度の係数の調整を行う。なお、ＴＶが発する音の音量の変化と、指向性マイクに入力された音声の音量の変化との相関が強い程、マイクがＴＶの方向を向いている傾向がある。一方、ＴＶが発する音の音量の変化と、指向性マイクに入力された音声の音量の変化との相関が弱い程、マイクがＴＶに対して逆方向を向いている傾向がある。ＴＶの位置の推定は、以上のようにＴＶが発する音の音量の変化と、指向性マイクに入力された音声の音量の変化との相関の強弱によって行う。

（変形例）
逆に、話者Ｐが特定のキーワード（例えば「タマコ！」）を発話し、音声認識端末２０の各マイクが、その音量レベルを測定することで話者の位置（または方向）の推定が可能となる。

話者Ｐの位置特定は、話者Ｐの音声の位置を推定して各マイクの感度調整を行い、さらに上述したノイズ音源Ｎからのノイズ音に基づく感度調整のパラメータと合成して感度調整を行うことで、さらにＳ／Ｎ比向上（音声認識率向上）に寄与する。

より具体的には、各マイクの感度を、ＴＶの推定位置および話者Ｐの推定位置に基づいて感度を調整する。例えば、話者Ｐの推定位置に基づいて感度を調整する場合は、話者Ｐに近いマイクほど感度の下げる度合いを小さくするなどし、Ｓ／Ｎ比の最適化（最大化）を図る。

ここで、Ｓ／Ｎ比の算出方法の例について説明する。信号レベルＳ＝上記特定キーワードの測定音量レベルとし、ノイズレベルＮ＝上記動作例１の「ピーク」時の測定音量の平均レベルとすると、Ｓ／Ｎ比＝Ｓ／Ｎとなる。

〔実施形態３〕
次に、図８に基づき、本発明の実施形態３に係る音声認識端末（情報処理装置）３０について説明する。図８の（ａ）に示すように、本実施形態の音声認識端末３０は、水平方向に沿って回転することで、指向性の向きを変更可能な指向性マイク（音声入力部）１を１つ備えており、ＴＶが発する音の音量の変化と、指向性マイク１に入力された音声の音量の変化との相関関係に基づいて、ＴＶに対する指向性マイク１の向きを、サーボモータ３１を介して制御するサーボモータ制御部（方向制御部）５６を制御部５ａが備えている点で、上述した音声認識端末１０と異なっている。

本実施形態では、サーボモータ制御部５６は、ＴＶが発する音の音量の変化と、指向性マイク１に入力された音声の音量の変化との相関が向きの制御前よりも弱くなるように、ＴＶに対する指向性マイク１の向きを制御する。これにより、指向性マイク１の向きを、ノイズ音源Ｎ（ＴＶ）のある方向に向かないようにすることができるため、収音対象となる音声のＳ／Ｎ比（信号対雑音比）を向上させることができる。

例えば、図８の（ｂ）に示すように、上面から見て指向性マイク１の向きを３０°ずつ変化させながら、音量レベル測定部３が、全方位のピーク／ボトム比を測定する。次に、音量レベル測定部３が、ピーク／ボトム比が最大となる方向（この場合、左）を検知し、サーボモータ制御部５６は、図８の（ｃ）に示すように、サーボモータ３１を介して指向性マイク１の向きを、図８の（ｂ）に示す状態から１８０°反対側（この場合、右）に指向性マイク１の向きを変え、音声認識に備える。

次に、話者Ｐの位置（話者Ｐと指向性マイク１との配置関係）を、上述した指向性マイク１の向きの調整に加味する場合、サーボモータ制御部５６は、サーボモータ３１を介してＳ／Ｎ比が最大となる向きに指向性マイク１の向きを調整する（実施形態２の変形例参照）。信号レベルＳ＝特定キーワードの測定音量レベルとし、ノイズレベルＮ＝実施例１の「ピーク」時の測定音量の平均レベルとすると、Ｓ／Ｎ比＝Ｓ／Ｎとなる。

但し、この場合、図８の（ｄ）に示すように、信号レベルＳの測定のため、指向性マイク１の向きを変えるごとに話者Ｐは特定キーワード「タマコ！」を発する必要がある。この手間を軽減するため、話者Ｐの代わりに特定の周波数の音を連続的に発するテストオシレータＴを用い、音声認識端末３０は、テストオシレータＴの周波数を測定・判別して、テストオシレータＴの位置を推定しても良い。なお、テストオシレータＴはスマートフォンのアプリケーションなどでも実現可能である。

〔実施形態４〕
次に、図９に基づき、本発明の実施形態４に係る音声認識端末（情報処理装置）４０について説明する。本実施形態では、音声認識端末として自走式ロボットを用いることで、指向性マイク１の方向だけでなく、音声認識端末４０の位置も変化させることが可能になっている点で、上述した形態と異なっている。音声認識端末４０の位置は、歩行することにより変化させることが可能になっている。

例えば、図９に示すように、音声認識端末４０（自走式ロボット）は、指向性マイク１の向きを変えつつ部屋の中を歩き回り、Ｓ／Ｎ比が最大となる位置と向きを検出して静止する。ここで、話者Ｐの位置の検出は、実施形態２の変形例と同様の方法を用いることができる。

〔ソフトウェアによる実現例〕
音声認識端末１０〜４０の制御ブロック（特にＩＲ出力制御部５３、マイク感度制御部５４およびサーボモータ制御部５６）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。

後者の場合、音声認識端末１０〜４０は、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

〔まとめ〕
本発明の態様１に係る情報処理装置（音声認識端末１０など）は、複数の音声入力部（指向性マイク１ａ，１ｂなど）により音声の入力を受付ける情報処理装置であって、電子機器を制御して当該電子機器の電源のオンおよびオフを制御するか、または当該電子機器が発する音の音量を制御する電子機器制御部（ＩＲ出力制御部５３）と、上記電子機器が発する音の音量の変化と、上記複数の音声入力部のそれぞれに入力された音声の音量の変化との相関関係に基づき、上記複数の音声入力部のうちの少なくとも１つの感度を制御する感度制御部（マイク感度制御部５４）と、を備えた構成である。

上記構成によれば、電子機器制御部は、電子機器を制御して当該電子機器の電源のオンおよびオフを制御するか、または電子機器が発する音の音量を制御し、感度制御部は、電子機器が発する音の音量の変化と、複数の音声入力部のそれぞれに入力された音声の音量の変化との相関関係に基づき、複数の音声入力部のうちの少なくとも１つの感度を制御する。これにより、ノイズ音源となる電子機器と音声入力部との配置関係に応じて音声入力部の感度を制御することができる。

本発明の態様２に係る情報処理装置は、上記態様１において、上記感度制御部は、上記複数の音声入力部のうちの他の音声入力部と比較して上記電子機器が発する音の音量の変化との相関がより強い上記音声の音量の変化が測定された音声入力部の感度を、上記他の音声入力部の感度よりも低くすることが好ましい。上記構成によれば、電子機器により近い位置に配置された音声入力部の感度が、他の音声入力部よりも低くなるため、収音対象となる音声のＳ／Ｎ比（信号対雑音比）を向上させることができる。

本発明の態様３に係る情報処理装置の制御方法は、複数の音声入力部により音声の入力を受付ける情報処理装置の制御方法であって、電子機器を制御して当該電子機器の電源のオンおよびオフを制御するか、または当該電子機器が発する音の音量を制御する電子機器制御ステップと、上記電子機器が発する音の音量の変化と、上記複数の音声入力部のそれぞれに入力された音声の音量の変化との相関関係に基づき、上記複数の音声入力部のうちの少なくとも１つの感度を制御する感度制御ステップと、を含む方法である。上記方法によれば、ノイズ音源となる電子機器と音声入力部との配置関係に応じて音声入力部の感度を制御することができる方法を実現することができる。

本発明の各態様に係る情報処理装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記情報処理装置が備える各部（ソフトウェア要素）として動作させることにより上記情報処理装置をコンピュータにて実現させる情報処理装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明の態様４に係る情報処理装置（音声認識端末３０）は、音声入力部（指向性マイク１）により音声の入力を受付ける情報処理装置であって、電子機器を制御して当該電子機器が発する音の音量を制御する電子機器制御部（ＩＲ出力制御部５３）と、上記音声入力部に入力された音声の音量を測定する音量測定部（音量レベル測定部３）と、上記電子機器が発する音の音量の変化と、上記音声入力部に入力された音声の音量の変化との相関関係に基づき、上記電子機器に対する上記音声入力部の向きを制御する方向制御部（サーボモータ制御部５６）と、を備えた構成である。

上記構成によれば、電子機器制御部は、電子機器を制御して当該電子機器が発する音の音量を制御し、方向制御部は、電子機器が発する音の音量の変化と、音声入力部に入力された音声の音量の変化との相関関係に基づき、電子機器に対する音声入力部の向きを制御する。これにより、ノイズ音源となる電子機器と音声入力部との配置関係に応じて電子機器に対する音声入力部の向きを制御することができる。

本発明の態様５に係る情報処理装置は、上記態様４において、上記方向制御部は、上記電子機器が発する音の音量の変化と、上記音声入力部に入力された音声の音量の変化との相関が向きの制御前よりも弱くなるように、上記電子機器に対する上記音声入力部の向きを制御することが好ましい。上記構成によれば、音声入力部の向きを、ノイズ音源である電子機器のある方向に向かないようにすることができるため、収音対象となる音声のＳ／Ｎ比（信号対雑音比）を向上させることができる。

〔付記事項〕
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

１指向性マイク（音声入力部）
１ａ指向性マイク（音声入力部）
１ｂ指向性マイク（音声入力部）
１ｃ指向性マイク（音声入力部）
１ｄ指向性マイク（音声入力部）
３音量レベル測定部（音量測定部）
１０音声認識端末（情報処理装置）
２０音声認識端末（情報処理装置）
３０音声認識端末（情報処理装置）
４０音声認識端末（情報処理装置）
５３ＩＲ出力制御部（電子機器制御部）
５４マイク感度制御部（感度制御部）
５６サーボモータ制御部（方向制御部）
Ｎノイズ音源

Claims

複数の音声入力部により音声の入力を受付ける情報処理装置であって、
電子機器を制御して当該電子機器の電源のオンおよびオフを制御するか、または当該電子機器が発する音の音量を制御する電子機器制御部と、
上記電子機器が発する音の音量の変化と、上記複数の音声入力部のそれぞれに入力された音声の音量の変化との相関関係に基づき、上記複数の音声入力部のうちの少なくとも１つの感度を制御する感度制御部と、を備えたことを特徴とする情報処理装置。
上記感度制御部は、上記複数の音声入力部のうちの他の音声入力部と比較して上記電子機器が発する音の音量の変化との相関がより強い上記音声の音量の変化が測定された音声入力部の感度を、上記他の音声入力部の感度よりも低くすることを特徴とする請求項１に記載の情報処理装置。
複数の音声入力部により音声の入力を受付ける情報処理装置の制御方法であって、
電子機器を制御して当該電子機器の電源のオンおよびオフを制御するか、または当該電子機器が発する音の音量を制御する電子機器制御ステップと、
上記電子機器が発する音の音量の変化と、上記複数の音声入力部のそれぞれに入力された音声の音量の変化との相関関係に基づき、上記複数の音声入力部のうちの少なくとも１つの感度を制御する感度制御ステップと、を含むことを特徴とする情報処理装置の制御方法。
請求項１に記載の情報処理装置としてコンピュータを機能させるための制御プログラムであって、上記電子機器制御部および上記感度制御部としてコンピュータを機能させるための制御プログラム。
音声入力部により音声の入力を受付ける情報処理装置であって、
電子機器を制御して当該電子機器が発する音の音量を制御する電子機器制御部と、
上記電子機器が発する音の音量の変化と、上記音声入力部に入力された音声の音量の変化との相関関係に基づき、上記電子機器に対する上記音声入力部の向きを制御する方向制御部と、を備えたことを特徴とする情報処理装置。
上記方向制御部は、上記電子機器が発する音の音量の変化と、上記音声入力部に入力された音声の音量の変化との相関が向きの制御前よりも弱くなるように、上記電子機器に対する上記音声入力部の向きを制御することを特徴とする請求項５に記載の情報処理装置。