JP2018148539A - 情報処理装置およびその制御方法、ならびに制御プログラム - Google Patents

情報処理装置およびその制御方法、ならびに制御プログラム Download PDF

Info

Publication number
JP2018148539A
JP2018148539A JP2017045118A JP2017045118A JP2018148539A JP 2018148539 A JP2018148539 A JP 2018148539A JP 2017045118 A JP2017045118 A JP 2017045118A JP 2017045118 A JP2017045118 A JP 2017045118A JP 2018148539 A JP2018148539 A JP 2018148539A
Authority
JP
Japan
Prior art keywords
volume
sound
electronic device
sensitivity
change
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017045118A
Other languages
English (en)
Inventor
西畑 実
Minoru Nishihata
実 西畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2017045118A priority Critical patent/JP2018148539A/ja
Publication of JP2018148539A publication Critical patent/JP2018148539A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】ノイズ音源となる電子機器と音声入力部との配置関係に応じて音声入力部の感度を制御する。
【解決手段】TVを制御してTVの電源のオンおよびオフを制御するか、またはTVが発する音の音量を制御するIR出力制御部(53)と、TVが発する音の音量の変化と、複数の指向性マイク(1a,1b)のそれぞれに入力された音声の音量の変化との相関関係に基づき、複数の指向性マイク(1a,1b)のうちの少なくとも1つの感度を制御するマイク感度制御部(54)と、を備える。
【選択図】図1

Description

本発明は、複数の音声入力部により音声の入力を受付ける情報処理装置などに関する。
従来、ユーザが発話した音声を認識し、認識した結果に基づき、テレビジョン受信機(TV)やエアーコンディショナー(エアコン)等の電子機器を制御するリモートコントローラ(以下、単に「リモコン」という)が存在している。この種のリモコンの中には、複数のマイクロフォン(以下、単に「マイク」という)を備えたものがあり、これらのマイクに収音された音声を認識し、認識した結果に基づき、電子機器を制御するようになっているものもある。
ところで、マイクには指向性を有するものが存在しており、指向性を有するマイクのうち単一指向性を有するマイクは、マイクの正面など所定の指向方向から来る音に対して最も感度が良くなるように設計されている。このような単一指向性を有するマイクが音源からの音を一定の音質で収音するためには、常にマイクの指向方向に音源が位置する必要がある。
特許文献1には、音源との位置に関わらずに一定の音質で収音することのできる複数のマイクを備えたマイクロフォンシステムが開示されている。このマイクロフォンシステムは、立体的に配置された複数のマイクと、音源の方向を検出する検出手段と、この検出手段の検出結果に基づいて上記マイクからの出力を個別に制御する制御手段と、を有している。また、上記マイクロフォンシステムは、上記検出手段により検出された音源が収音対象となる音源か否かを判別する判別手段をさらに備えている。
例えば、上記判別手段としての非話者方向判別部は、センサにより検出された音源が収音対象ではない音源を判別する。この判別は、センサの信号出力から音源の位置や方向を分析することにより行われる。より具体的には、センサの信号出力から分析した音源の位置または方向が、収音対象となる音源として想定し得ない所定の位置または方向にある場合、非話者方向判別部は、その音源を収音対象ではない音源として判別する。
特開2006‐245725号公報(2006年9月14日公開)
上記マイクロフォンシステムでは、非話者方向判別部が、収音対象ではない音源を判別する判別条件として、その音源が、音源として想定し得ない所定の位置または方向にある場合が例示されている。しかしながら、マイクの設置位置が不定で頻繁に移動したりする場合など、そもそも音源として想定し得ない所定の位置または方向を決定できない場合が多い。
換言すれば、上記マイクロフォンシステムでは、ノイズ音源(TVその他の家電など)がどの(マイクに近い)方向にあるかを判別できず、結局ノイズ音源とマイクとの配置関係に応じて個々のマイクの感度または方向を調整することができないという問題点がある。また、このため、個々のマイクの感度または方向の調整によるS/N比(信号対雑音比)の向上が困難であるという問題点もある。
本発明は、以上の問題点に鑑みて為されたものであって、その目的は、ノイズ音源となる電子機器と音声入力部との配置関係に応じて音声入力部の感度または電子機器に対する音声入力部の向きを制御することが可能な情報処理装置などを提供することにある。
上記の課題を解決するために、本発明の一態様に係る情報処理装置は、複数の音声入力部により音声の入力を受付ける情報処理装置であって、電子機器を制御して当該電子機器の電源のオンおよびオフを制御するか、または当該電子機器が発する音の音量を制御する電子機器制御部と、上記電子機器が発する音の音量の変化と、上記複数の音声入力部のそれぞれに入力された音声の音量の変化との相関関係に基づき、上記複数の音声入力部のうちの少なくとも1つの感度を制御する感度制御部と、を備えた構成である。
上記の課題を解決するために、本発明の一態様に係る情報処理装置の制御方法は、複数の音声入力部により音声の入力を受付ける情報処理装置の制御方法であって、電子機器を制御して当該電子機器の電源のオンおよびオフを制御するか、または当該電子機器が発する音の音量を制御する電子機器制御ステップと、上記電子機器が発する音の音量の変化と、上記複数の音声入力部のそれぞれに入力された音声の音量の変化との相関関係に基づき、上記複数の音声入力部のうちの少なくとも1つの感度を制御する感度制御ステップと、を含む方法である。
上記の課題を解決するために、本発明の一態様に係る情報処理装置は、音声入力部により音声の入力を受付ける情報処理装置であって、電子機器を制御して当該電子機器が発する音の音量を制御する電子機器制御部と、上記電子機器が発する音の音量の変化と、上記音声入力部に入力された音声の音量の変化との相関関係に基づき、上記電子機器に対する上記音声入力部の向きを制御する方向制御部と、を備えた構成である。
本発明の一態様に係る情報処理装置(またはその制御方法)によれば、ノイズ音源となる電子機器と音声入力部との配置関係に応じて音声入力部の感度または電子機器に対する音声入力部の向きを制御することが可能になるという効果を奏する。
本発明の実施形態1に係る音声認識端末の構成を示すブロック図、ならびにノイズ音源(TV)、音声認識端末および話者の位置関係を示す図である。 上記音声認識端末の動作の一例を示すフローチャートである。 (a)は、一方の指向性マイクが捉えた音量レベルの変化を示すグラフであり、(b)は、他方の指向性マイクが捉えた音量レベルの変化を示すグラフである。 (a)は、一方の指向性マイクが捉えた音量レベルの変化を示すグラフであり、(b)は、他方の指向性マイクが捉えた音量レベルの変化を示すグラフであり、(c)は、(a)に示すグラフを拡大した図である。 (a)は、コサイン関数の変化パターンを有する音量制御信号を用いた場合における指向性マイクが捉えた音量レベルの変化を示すグラフであり、(b)は、ノイズ音源がブザーの場合における指向性マイクが捉えた音量レベルの変化を示すグラフであり、(c)は、所定の音楽と音量制御信号とを同期させた場合における指向性マイクが捉えた音量レベルの変化を示すグラフである。 (a)は、ノイズ音源をTVからエアコンに変更した場合におけるエアコン、音声認識端末および話者の位置関係を示す図であり、(b)は、エアコンをON/OFFさせた場合における、複数の指向性マイクのそれぞれが捉えた音量レベルの変化を示すグラフである。 本発明の実施形態2に係る音声認識端末が備える4つの指向性マイクのそれぞれのマイク感度の係数を示す図である。 (a)は、本発明の実施形態3に係る音声認識端末の概要構成を示す図であり、(b)および(c)は、上記音声認識端末の動作を説明するための図であり、(d)は、話者の位置を感度の調整に用いる場合における音声認識端末の動作を説明するための図である。 本発明の実施形態4に係る音声認識端末の動作を説明するための図である。
本発明の実施の形態について図1〜図9に基づいて説明すれば、次の通りである。以下、説明の便宜上、ある実施形態にて説明した構成と同一の機能を有する構成については、他の実施形態においても同一の符号を付記し、その説明を省略する場合がある。
〔実施形態1〕
図1は、本発明の実施形態1に係る音声認識端末(情報処理装置)10の構成を示すブロック図、ならびにノイズ音源N(TV)、音声認識端末10および話者Pの位置関係を示す図である。
TV(電子機器)は、収音対象(音声認識の対象)でない音を発するノイズ音源Nの一例である。本明細書において、「ノイズ音」とは、ノイズ音源Nが発生する音全体を意味するものとする。例えば、TVからは、番組出演者の音声と番組に係る音楽と効果音等の音が発生するが、TVからのノイズ音はこれらの様々な音を含む音を意味するものとする。同様に後述するエアコンは作動音や送風音等の音が発生するが、エアコンからのノイズ音とは、それらエアコンが発生する作動音や送風音などの様々な音を含む音を意味する。
音声認識端末10は発話による家電制御を目的とした、ポータブルな卓上端末である。例えば、音声認識端末10は「テレビの音量を上げて」などのユーザの発話を検出して、遠隔操作でTVの音量を制御したりすることもできる。音声認識端末10は、音声認識機能付きの端末、あるいは外部の音声認識サービスを利用することによる音声認識が可能な端末であればよく、例えばロボット型携帯電話機やロボット、または携帯電話機等であり得る。
図1に示すように、音声認識端末10は、指向性マイク(音声入力部)1a,1b、感度調整部2a,2b、音量レベル測定部(音量測定部)3、音声認識部4(音声認識端末10の外部に設けられていても良い)、制御部5、IR(赤外線信号)出力部6、コマンド入力部7、底面モーメンタリスイッチ8、および記憶部9を備える。
指向性マイク1a,1bは、それぞれ外部の音を電気信号に変換する単一指向性を有するマイクロフォンである。本実施形態では、指向性マイク1a,1bのそれぞれは、音声認識端末10において空間的に異なる位置に配置されており、指向性マイク1a,1bが指向性を有する方向はそれぞれ異なっている。また、本実施形態では、音声認識端末10が備えるマイクの数が2つである場合を想定しているが、音声認識端末10が備えるマイクの数はこれに限定されず、音声認識端末10は、3つ以上のマイクを備えても良い。
感度調整部2a,2bは、それぞれ指向性マイク1a,1bの感度を調整するものである。音量レベル測定部3は、指向性マイク1a,1bのそれぞれに入力された音声の音量(レベル)を測定するものである。
音声認識部4は、指向性マイク1a,1bから入力された音声の音声認識を行い、認識した結果を制御部5に通知するものである。なお、音声認識処理そのものは従来技術を用いて可能であるので、説明は省略する。制御部5は、音声認識端末10の全体を統括的に制御するものである。制御部5を構成する機能ブロックの詳細については後述する。
IR出力部6は、赤外線通信によりTVの動作を制御するための制御信号を出力するものである。例えば、IR出力部6は、赤外線通信によりTVの電源のON/OFFやTVが発する音の音量を制御する制御信号を送信(出力)する。
コマンド入力部7は、ユーザの入力操作を入力信号に変換して制御部5に通知するものであり、音声認識端末10を動作させるための各種コマンド(ユーザによる指令)が入力される。
底面モーメンタリスイッチ8は、音声認識端末10の底面に設けられたモーメンタリスイッチであり、スイッチOFF→ONの変化で、音声認識端末10の移動が完了したことを検知するようになっている。
記憶部9は、音声認識端末10の動作に必要な各種情報が予め記録され、または、音声認識端末10にて生成された各種情報が記録されるものである。制御部5は、主としてコマンド受付部51、移動検知部52、IR出力制御部(電子機器制御部)53、マイク感度制御部(感度制御部)54、および記録制御部55の各機能ブロックで構成される。
コマンド受付部51は、コマンド入力部7から入力信号を受け取って、ユーザが指示したコマンドを特定するものである。制御部5は、コマンドが特定されるとそのコマンドに応じて音声認識端末10の動作を制御する。
移動検知部52は、底面モーメンタリスイッチ8のスイッチON/OFFの状態を検知し、音声認識端末10の設置場所からの移動タイミングや、音声認識端末10の移動の完了タイミングを検知するものである。
IR出力制御部53は、IR出力部6を制御して、TVに制御信号を送ることにより、TVの動作を制御する。例えば、IR出力制御部53は、IR出力部6を制御して、TVに制御信号を送ることにより、TVの電源のON/OFFを制御する。また、IR出力制御部53は、IR出力部6を制御して、TVに音量制御信号を送ることにより、TVが発する音の音量を制御する。
マイク感度制御部54は、TVが発する音の音量の変化と、指向性マイク1a,1bのそれぞれに入力された音声の音量の変化との相関関係に基づき、指向性マイク1a,1bのうちの少なくとも1つの感度を制御するものである。
より具体的には、マイク感度制御部54は、指向性マイク1a,1bのうちの他のマイクと比較してTVが発する音の音量の変化との相関がより強い音声の音量の変化が測定されたマイクの感度を、他のマイクの感度よりも低くする。これにより、TVに近い位置に配置されたマイクの感度が、他のマイクよりも低くなるため、収音対象(音声認識の対象)となる音声のS/N比(信号対雑音比)を向上させることができる。記録制御部55は、記憶部9に対して音声認識端末10にて生成された各種情報を記録する制御を行うものである。
上述した音声認識端末10によれば、IR出力制御部53は、TVを制御してTVの電源のオンおよびオフを制御するか、またはTVが発する音の音量を制御し、音量レベル測定部3は、指向性マイク1a,1bのそれぞれに入力された音声の音量を測定し、マイク感度制御部54は、TVが発する音の音量の変化と、指向性マイク1a,1bのそれぞれに入力された音声の音量の変化との相関関係に基づき、指向性マイク1a,1bのうちの少なくとも1つの感度を制御する。これにより、TVと指向性マイク1a,1bとの配置関係に応じて指向性マイク1a,1bの感度を制御することができる。
次に、図2は、音声認識端末10の動作の一例を示すフローチャートである。ここではノイズ音源がTVである例を説明する。あるタイミング(たとえばテレビONや音声認識端末10の設置場所移動)で、目的である話者Pの発話音声認識に先立って次の調整動作(一種のキャリブレーション)を行う。
S101では、IR出力制御部53が、IR出力部6を介してTVが発する音の音量を制御する音量制御信号を送信する(IR出力制御)。これによりTVが発する音の音量が所定のパターンにより変化する。S102では、音量レベル測定部3が、指向性マイク1a,1bのそれぞれの音量(または音量レベル)を測定する。
S103では、マイク感度制御部54が、指向性マイク1a,1bのそれぞれの音量レベルの変化に応じて指向性マイク1a,1bの感度を決定する。S104では、マイク感度制御部54が、感度調整部2a,2bを介して指向性マイク1a,1bのそれぞれの感度を、決定した感度に調整する。
(動作例1)
次に、図3に基づき、音声認識端末10の動作例1について説明する。本動作例では、IR出力制御部53がIR出力部6を介してTVの電源のON/OFFを制御する制御信号を出力し、TV(ノイズ音源N)の電源を制御する。本動作例では、音声認識端末10のリモコン機能を利用して、TVをOFF状態からON状態に変化させたり、逆にON状態からOFF状態に変化させたりすることによりTVの音量レベルを0か否かで変化させる。または、TVの電源のON/OFFを切り替える代わりに、TVの電源はONのままで、IR出力制御部53がIR出力部6を介してTVが発する音の音量を制御する音量制御信号を出力することにより、TVが発する音のみをOFF(ミュート)したり、ON(ミュート解除)したりする制御を行っても良い。
この場合、マイク感度制御部54は、音量レベル測定部3が測定した音量レベルの変動率が大きい指向性マイクがTVの方向を向いている(TVに近い位置にある)と判断し、その指向性マイクの感度を下げる。なお、ここでは、TVの音量を高く調整したときに指向性マイク1a,1bが収音する音の平均レベルをピーク時の平均レベルとし、TVの音量を低く調整したときに指向性マイク1a,1bが収音する音の平均レベルをボトム時の平均レベルとするとき、(ピーク時の平均レベル)/(ボトム時の平均レベル)を音量レベルの変動率と定義する。音量レベルの変動率の大きさは、指向性マイク1a,1bが収音した音の音量の変化と、TVが発する音の音量の変化との相関の強さを示している。
コマンド受付部51は、コマンド入力部7を介してTVをON状態とするコマンドを受け付けると、IR出力制御部53がIR出力部6を介して実際にTVをON状態にする制御信号を送信する前に以下の処理を行う。
まず、マイク感度制御部54は、感度調整部2a,2bのそれぞれの初期値を同一のレベルにする。次に、マイク感度制御部54は、指向性マイク1a,1bの両方が収音した音声の信号について、同時または交互に、一定区間(例えば200msec)音量レベルの区間平均をとり、これらを「それぞれのマイクのボトム状態の平均レベル」とし、記録制御部55は、上記の音量レベルの区間平均に関するデータを記憶部9に記録する。
次に、IR出力制御部53がIR出力部6を介してTVをON状態にする制御信号をTVに送信する。次に、指向性マイク1a,1bの両方が収音した音声の信号について、同時または交互に、一定区間(例えば3000msec)音量レベルの区間平均をとり、これらを「それぞれのマイクのピーク状態の平均レベル」とし、記録制御部55は、上記の音量レベルの区間平均に関するデータを記憶部9に記録する。
図3の(a)は、指向性マイク1aが捉えた音量レベルの変化を示すグラフである。また、図3の(b)は、指向性マイク1bが捉えた音量レベルの変化を示すグラフである。P1は、指向性マイク1aが収音したピーク状態の音量の平均レベルを示す。B1は、指向性マイク1aが収音したボトム状態の音量の平均レベルを示す。P2は、指向性マイク1bが収音したピーク状態の音量の平均レベルを示す。B2は、指向性マイク1bが収音したボトム状態の音量の平均レベルを示す。なお、B1およびB2はTVがOFFの状態、またはTVが発する音がOFF状態のものなので、TVに由来するものではなく、周囲の環境やマイクに接続された電子部品に由来するノイズの平均レベルとなる。
このとき、P1/B1>P2/B2であれば、マイク感度制御部54は、指向性マイク1aが指向性マイク1bよりもTVの方向を向いている(またはTVに近い位置にある)と判断し、感度調整部2aを介して指向性マイク1aの感度を下げる。または、感度調整部2aはスイッチのON/OFFを用い、指向性マイク1aからの信号を切断してもよい。これにより、話者Pからの音声信号のS/N比を向上させることができる。
なお、P1/B1およびP2/B2は、それぞれ、指向性マイク1a,1bが収音した音の音量の変化と、TVが発する音の音量の変化との相関の強さを示している。また、一般に音量レベルに関しては、信号の電圧を対数変換してdB(デシベル)単位で扱うことが多いが、本実施形態では、電圧の単位V(ボルト)で扱う。なぜなら、電圧の単位で扱うほうが、ピーク/ボトム比の差異が明確に出やすいと考えられるからである。
(動作例2)
次に、図4に基づき、音声認識端末10の動作例2について説明する。本動作例では、IR出力制御部53がIR出力部6を介してTVが発する音の音量を制御する音量制御信号を出力し、TV(ノイズ音源N)の音量を制御する。マイク感度制御部54は、音量レベル測定部3が測定した音量レベルの変動率が大きい指向性マイクがTVの方向を向いている(TVに近い位置にある)とみなし、その指向性マイクの感度を下げる。
本動作例では、音声認識端末10のリモコン機能を利用して、TVが発する音の音量を特定のパターン(例えばV字型)に変化させる。マイク感度制御部54は、指向性マイク1a,1bのそれぞれに入力された音量の変化が上述した特定のパターンにより合致したマイクほど、TVの方を向いている(TVに近い位置にある)と判断し、その合致度に応じて指向性マイク1a,1bのそれぞれの感度を抑制する。
ここで、合致度とは、指向性マイク1a,1bが収音した音の音量の変化と、TVが発する音の音量の変化との相関の強さの度合いを示すものであれば良く、例えば、上述したピーク/ボトム比を例示することができる。
次に、例えば、音量レベルを複数回V字型に変化させ(または複数回W字型に変化させ)、ピーク時点とボトム時点の音量差の平均が大きい(言い換えれば、ある指向性マイクが捉えた音量変化が音量制御信号とより強く相関している)指向性マイクほど、TVの方を向いている(TVに近い位置にある)と判断し、指向性マイクの感度を調整する制御を行って、S/N比を向上させる。より具体的には、複数の指向性マイクがある場合、相関がより強い指向性マイク個別の感度を下げる。あるいは、後述するように、指向性マイクの方向が制御可能の場合、ピーク時の信号レベルが最少になるように指向性マイクの向きを変えるなどの方法が考えられる。
以上の動作によれば、ノイズ音源N(TVその他の家電)がどの(指向性マイクに近い)方向にあるかを判別することが可能となり、個別の指向性マイクの感度や方向の調整によるS/N比向上が容易となる。
本動作例では、(1)TVのOFF→ON検知、または(2)底面モーメンタリスイッチ8のOFF→ON検知により音声認識端末10の設置場所の移動が完了したとみなし、上記(1)または(2)を契機として、以下の調整フローを開始する。
まず、マイク感度制御部54は、感度調整部2a,2bのそれぞれの初期値を同一のレベルにする。次に、IR出力制御部53は、IR出力部6を介してTVが発する音の音量を、複数回W字型に変化させる。便宜的に、このときの音量制御信号が最大値となった状態をピーク状態、最小値となった状態をボトム状態と呼ぶ。例えば、ピークから次のピークまでの周期を1000msecとする。
指向性マイク1a,1bの両方で、同時または交互に、収音した音量変化(例えばピークとボトムそれぞれ付近の区間200msecの音量レベルの平均値のデータ)を検知し、記録制御部55は、上記音量の変化に関するデータを記憶部9に記録する。ピークが3回あれば、3回分のピーク付近の区間平均値の計測回数平均値をとる。ボトムも同様である。
図4の(a)は、指向性マイク1aが捉えた音量レベルの変化を示すグラフである。また、図4の(b)は、指向性マイク1bが捉えた音量レベルの変化を示すグラフである。
P1は、指向性マイク1aが収音したピーク前後の音量レベルの区間平均値の計測回数平均値である。B1は、指向性マイク1aが収音したボトム前後の音量レベルの区間平均値の計測回数平均値である。P2は、指向性マイク1bが収音したピーク前後の音量レベルの区間平均値の計測回数平均値である。B2は、指向性マイク1bが収音したボトム前後の音量レベルの区間平均値の計測回数平均値である。
このとき、P1/B1>P2/B2であれば、マイク感度制御部54は、指向性マイク1aが指向性マイク1bよりもTVの方向を向いている(またはTVに近い位置にある)と判断し、感度調整部2aを介して指向性マイク1aの感度を下げる。または、感度調整部2aはスイッチのON/OFFを用い、指向性マイク1aからの信号を切断してもよい。これにより、話者Pからの音声信号のS/N比を向上させることができる。なお、P1/B1およびP2/B2は、それぞれ、指向性マイク1a,1bが収音した音の音量の変化と、TVが発する音の音量の変化との相関の強さを示している。
上述した判断式に替えて、P1−B1>P2−B2のようにピークとボトムとの差を用いる判断式を用いても良い。このとき、P1−B1およびP2−B2は、それぞれ、指向性マイク1a,1bが収音した音の音量の変化と、TVが発する音の音量の変化との相関の強さを示す。
次に、図4の(c)は、図4の(a)に示すグラフを拡大した図である。以下に、ピーク付近の音量レベルの区間平均値の計測回数平均値の計算方法の例を示す。区間平均値の計測回数平均値=(3.2+3.3+3.4)/3回=3.3(V)のように算出することができる。TV音声のランダムな音量変化(実線のグラフ)により、たとえば制御信号(破線のグラフ)がピーク時でも区間平均値が小さくなってしまう場合が考えられる。区間平均値の計測回数平均値をとることで、このような誤差を緩和させることができる。
(副次的課題とその解決策について)
次に、感度調整で音声認識端末10としてTVリモコンを用いる場合の副次的課題について説明し、その解決策を幾つか示す。まず、第1の課題として、音量制御のボトムでTVの音が途切れると不便または不自然な聞こえ方となってしまうという課題がある。
この課題に対しては、以下の(1)および(2)に示す解決策が考えられる。
(1)一組のTVとリモコン双方が、いわゆるイコライザ(音声信号の周波数特性の調整機能)を備える場合、特定の音域(例:3KHz付近)のレベルだけを(V字型などに)操作する。音声認識端末10側での音声レベルの測定は、その音域だけをバンドパスフィルタで通過させて行う。これにより、聴感上、ボトム時での極端な音の途切れは無くなり、不自然さを緩和することができる。
(2)V字型ではなく、例えば、図5の(a)に示すように、コサイン関数などの滑らかなパターンを用いて音量変化を緩やかにしても良い。これにより、ピークあるいはボトム付近での音量変化の変化率を小さくし、不自然さを緩和することができる。
次に、第2の課題として、TVの音量変化が不規則なため、リモコンによる音量設定と実際に出る音量が正確に比例せず、ピーク/ボトム比の計算に多少の誤差が出るという課題がある(例えば、ピーク時に偶然TV音量が低かった場合など)。
この課題に対しては、TVがインターネットアクセス機能を備え、リモコンでアクセス操作と音データの再生操作が可能な場合、調整時は通常の放送でなく、CPUによるリモコン操作によって特定の音データが関連付けられているWebページを再生させる方法が考えられる。そのWebページに関連付けられている音データは、既知の音量変化で再生される。例えば、図5の(b)に示すような一定音量のブザー音や、音声認識端末10の設計側で既知の音楽などである。ブザー音の場合の音量変化=音量制御信号(破線)と、正確に比例するので、ピーク/ボトム比の計算に誤差が出にくい。
既知の音楽を用いる場合は、例えば各計測区間内〔図5の(c)に示す矩形参照〕で元の音が途切れていないように、音量制御信号(破線)と音楽(実線)とを同期させることが好ましい。
(動作例3)
次に、図6の(a)は、ノイズ音源NをTVからエアコンに変更した場合におけるエアコン、音声認識端末10および話者Pの位置関係を示す図である。図6の(a)に示すように、ノイズ音源Nがエアコンの場合も、上述したTVに準じた調整を行うことができる。この場合、リモコンによる音量制御の代わりにエアコンのON/OFF制御を用いる。
図6の(b)は、エアコンをON/OFFさせた場合における、指向性マイク1aおよび1bが捉えた音量レベルの変化を示すグラフである。ここで、P1を、指向性マイク1aが収音したON時の平均音量レベルとする。B1を、指向性マイク1aが収音したOFF時の平均音量レベルとする。P2を、指向性マイク1bが収音したON時の平均音量レベルとする。B2を、指向性マイク1bが収音したOFF時の平均音量レベルとする。
このとき、P1/B1>P2/B2であれば、マイク感度制御部54は、指向性マイク1aがエアコンを向いている(エアコンに近い位置にある)と判断し、感度調整部2aを介して指向性マイク1aの感度を下げる。これにより、話者Pによる音声のS/N比を向上させることができる。なお、P1/B1およびP2/B2は、それぞれ、指向性マイク1a,1bが収音した音の音量の変化と、TVが発する音の音量の変化との相関の強さを示している。
なお、エアコンのON/OFFの代わりに、風量の大小の調整を用いてもよい(一般に風量が大きいほどノイズレベルが高くなるので、これを利用する)。
〔実施形態2〕
次に、図7に基づき、本発明の実施形態2に係る音声認識端末(情報処理装置)20について説明する。本実施形態の音声認識端末20は、上述した音声認識端末10と比較して、指向性マイクを4つ備えている点で異なっている(指向性マイク1a〜1d)。なお、本実施形態では、指向性マイクを4つ備えているものとして説明するが、音声認識端末が備える指向性マイクの数は、4つに限定されず、3つまたは5つ以上であっても良い。
本実施形態のように指向性マイクを多数備えている場合、ノイズ音源Nの位置と各指向性マイクの位置との位置関係に応じて各マイクの感度を適切に制御する。例えば、ピーク/ボトム比が高いマイクほど感度を下げる。より具体的には、ピーク/ボトム比の逆数、すなわちボトム/ピークを用いて各マイクの感度の係数を求めればよい。例えば、図3(a)に示すグラフが指向性マイク1aからの測定データを示すグラフであるとした場合、次のような計算式を用いることができる。
k=α+β×(B1/P1)
但し、kは感度の係数、すなわち感度調整部2aの制御信号であり、1.0を標準とする。また、αおよびβは適切に設定した定数である。
また、ピーク/ボトム比は、指向性マイク1a,1bが収音した音の音量の変化と、TVが発する音の音量の変化との相関の強さを示している。
図7に示す例では、ノイズ音源N(TV)と各マイクとの距離に応じて、指向性マイク1aの感度の係数が0.2、指向性マイク1bの感度の係数が0.7、指向性マイク1cの感度の係数が0.8、および指向性マイク1dの感度の係数が0.1に設定されている。ここでは、TVから発せられるノイズ音を各マイクで収音し、TVの位置を推定したデータを基に、各マイクの感度の係数の調整を行う。なお、TVが発する音の音量の変化と、指向性マイクに入力された音声の音量の変化との相関が強い程、マイクがTVの方向を向いている傾向がある。一方、TVが発する音の音量の変化と、指向性マイクに入力された音声の音量の変化との相関が弱い程、マイクがTVに対して逆方向を向いている傾向がある。TVの位置の推定は、以上のようにTVが発する音の音量の変化と、指向性マイクに入力された音声の音量の変化との相関の強弱によって行う。
(変形例)
逆に、話者Pが特定のキーワード(例えば「タマコ!」)を発話し、音声認識端末20の各マイクが、その音量レベルを測定することで話者の位置(または方向)の推定が可能となる。
話者Pの位置特定は、話者Pの音声の位置を推定して各マイクの感度調整を行い、さらに上述したノイズ音源Nからのノイズ音に基づく感度調整のパラメータと合成して感度調整を行うことで、さらにS/N比向上(音声認識率向上)に寄与する。
より具体的には、各マイクの感度を、TVの推定位置および話者Pの推定位置に基づいて感度を調整する。例えば、話者Pの推定位置に基づいて感度を調整する場合は、話者Pに近いマイクほど感度の下げる度合いを小さくするなどし、S/N比の最適化(最大化)を図る。
ここで、S/N比の算出方法の例について説明する。信号レベルS=上記特定キーワードの測定音量レベルとし、ノイズレベルN=上記動作例1の「ピーク」時の測定音量の平均レベルとすると、S/N比=S/Nとなる。
〔実施形態3〕
次に、図8に基づき、本発明の実施形態3に係る音声認識端末(情報処理装置)30について説明する。図8の(a)に示すように、本実施形態の音声認識端末30は、水平方向に沿って回転することで、指向性の向きを変更可能な指向性マイク(音声入力部)1を1つ備えており、TVが発する音の音量の変化と、指向性マイク1に入力された音声の音量の変化との相関関係に基づいて、TVに対する指向性マイク1の向きを、サーボモータ31を介して制御するサーボモータ制御部(方向制御部)56を制御部5aが備えている点で、上述した音声認識端末10と異なっている。
本実施形態では、サーボモータ制御部56は、TVが発する音の音量の変化と、指向性マイク1に入力された音声の音量の変化との相関が向きの制御前よりも弱くなるように、TVに対する指向性マイク1の向きを制御する。これにより、指向性マイク1の向きを、ノイズ音源N(TV)のある方向に向かないようにすることができるため、収音対象となる音声のS/N比(信号対雑音比)を向上させることができる。
例えば、図8の(b)に示すように、上面から見て指向性マイク1の向きを30°ずつ変化させながら、音量レベル測定部3が、全方位のピーク/ボトム比を測定する。次に、音量レベル測定部3が、ピーク/ボトム比が最大となる方向(この場合、左)を検知し、サーボモータ制御部56は、図8の(c)に示すように、サーボモータ31を介して指向性マイク1の向きを、図8の(b)に示す状態から180°反対側(この場合、右)に指向性マイク1の向きを変え、音声認識に備える。
次に、話者Pの位置(話者Pと指向性マイク1との配置関係)を、上述した指向性マイク1の向きの調整に加味する場合、サーボモータ制御部56は、サーボモータ31を介してS/N比が最大となる向きに指向性マイク1の向きを調整する(実施形態2の変形例参照)。信号レベルS=特定キーワードの測定音量レベルとし、ノイズレベルN=実施例1の「ピーク」時の測定音量の平均レベルとすると、S/N比=S/Nとなる。
但し、この場合、図8の(d)に示すように、信号レベルSの測定のため、指向性マイク1の向きを変えるごとに話者Pは特定キーワード「タマコ!」を発する必要がある。この手間を軽減するため、話者Pの代わりに特定の周波数の音を連続的に発するテストオシレータTを用い、音声認識端末30は、テストオシレータTの周波数を測定・判別して、テストオシレータTの位置を推定しても良い。なお、テストオシレータTはスマートフォンのアプリケーションなどでも実現可能である。
〔実施形態4〕
次に、図9に基づき、本発明の実施形態4に係る音声認識端末(情報処理装置)40について説明する。本実施形態では、音声認識端末として自走式ロボットを用いることで、指向性マイク1の方向だけでなく、音声認識端末40の位置も変化させることが可能になっている点で、上述した形態と異なっている。音声認識端末40の位置は、歩行することにより変化させることが可能になっている。
例えば、図9に示すように、音声認識端末40(自走式ロボット)は、指向性マイク1の向きを変えつつ部屋の中を歩き回り、S/N比が最大となる位置と向きを検出して静止する。ここで、話者Pの位置の検出は、実施形態2の変形例と同様の方法を用いることができる。
〔ソフトウェアによる実現例〕
音声認識端末10〜40の制御ブロック(特にIR出力制御部53、マイク感度制御部54およびサーボモータ制御部56)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
後者の場合、音声認識端末10〜40は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
〔まとめ〕
本発明の態様1に係る情報処理装置(音声認識端末10など)は、複数の音声入力部(指向性マイク1a,1bなど)により音声の入力を受付ける情報処理装置であって、電子機器を制御して当該電子機器の電源のオンおよびオフを制御するか、または当該電子機器が発する音の音量を制御する電子機器制御部(IR出力制御部53)と、上記電子機器が発する音の音量の変化と、上記複数の音声入力部のそれぞれに入力された音声の音量の変化との相関関係に基づき、上記複数の音声入力部のうちの少なくとも1つの感度を制御する感度制御部(マイク感度制御部54)と、を備えた構成である。
上記構成によれば、電子機器制御部は、電子機器を制御して当該電子機器の電源のオンおよびオフを制御するか、または電子機器が発する音の音量を制御し、感度制御部は、電子機器が発する音の音量の変化と、複数の音声入力部のそれぞれに入力された音声の音量の変化との相関関係に基づき、複数の音声入力部のうちの少なくとも1つの感度を制御する。これにより、ノイズ音源となる電子機器と音声入力部との配置関係に応じて音声入力部の感度を制御することができる。
本発明の態様2に係る情報処理装置は、上記態様1において、上記感度制御部は、上記複数の音声入力部のうちの他の音声入力部と比較して上記電子機器が発する音の音量の変化との相関がより強い上記音声の音量の変化が測定された音声入力部の感度を、上記他の音声入力部の感度よりも低くすることが好ましい。上記構成によれば、電子機器により近い位置に配置された音声入力部の感度が、他の音声入力部よりも低くなるため、収音対象となる音声のS/N比(信号対雑音比)を向上させることができる。
本発明の態様3に係る情報処理装置の制御方法は、複数の音声入力部により音声の入力を受付ける情報処理装置の制御方法であって、電子機器を制御して当該電子機器の電源のオンおよびオフを制御するか、または当該電子機器が発する音の音量を制御する電子機器制御ステップと、上記電子機器が発する音の音量の変化と、上記複数の音声入力部のそれぞれに入力された音声の音量の変化との相関関係に基づき、上記複数の音声入力部のうちの少なくとも1つの感度を制御する感度制御ステップと、を含む方法である。上記方法によれば、ノイズ音源となる電子機器と音声入力部との配置関係に応じて音声入力部の感度を制御することができる方法を実現することができる。
本発明の各態様に係る情報処理装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記情報処理装置が備える各部(ソフトウェア要素)として動作させることにより上記情報処理装置をコンピュータにて実現させる情報処理装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明の態様4に係る情報処理装置(音声認識端末30)は、音声入力部(指向性マイク1)により音声の入力を受付ける情報処理装置であって、電子機器を制御して当該電子機器が発する音の音量を制御する電子機器制御部(IR出力制御部53)と、上記音声入力部に入力された音声の音量を測定する音量測定部(音量レベル測定部3)と、上記電子機器が発する音の音量の変化と、上記音声入力部に入力された音声の音量の変化との相関関係に基づき、上記電子機器に対する上記音声入力部の向きを制御する方向制御部(サーボモータ制御部56)と、を備えた構成である。
上記構成によれば、電子機器制御部は、電子機器を制御して当該電子機器が発する音の音量を制御し、方向制御部は、電子機器が発する音の音量の変化と、音声入力部に入力された音声の音量の変化との相関関係に基づき、電子機器に対する音声入力部の向きを制御する。これにより、ノイズ音源となる電子機器と音声入力部との配置関係に応じて電子機器に対する音声入力部の向きを制御することができる。
本発明の態様5に係る情報処理装置は、上記態様4において、上記方向制御部は、上記電子機器が発する音の音量の変化と、上記音声入力部に入力された音声の音量の変化との相関が向きの制御前よりも弱くなるように、上記電子機器に対する上記音声入力部の向きを制御することが好ましい。上記構成によれば、音声入力部の向きを、ノイズ音源である電子機器のある方向に向かないようにすることができるため、収音対象となる音声のS/N比(信号対雑音比)を向上させることができる。
〔付記事項〕
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
1 指向性マイク(音声入力部)
1a 指向性マイク(音声入力部)
1b 指向性マイク(音声入力部)
1c 指向性マイク(音声入力部)
1d 指向性マイク(音声入力部)
3 音量レベル測定部(音量測定部)
10 音声認識端末(情報処理装置)
20 音声認識端末(情報処理装置)
30 音声認識端末(情報処理装置)
40 音声認識端末(情報処理装置)
53 IR出力制御部(電子機器制御部)
54 マイク感度制御部(感度制御部)
56 サーボモータ制御部(方向制御部)
N ノイズ音源

Claims (6)

  1. 複数の音声入力部により音声の入力を受付ける情報処理装置であって、
    電子機器を制御して当該電子機器の電源のオンおよびオフを制御するか、または当該電子機器が発する音の音量を制御する電子機器制御部と、
    上記電子機器が発する音の音量の変化と、上記複数の音声入力部のそれぞれに入力された音声の音量の変化との相関関係に基づき、上記複数の音声入力部のうちの少なくとも1つの感度を制御する感度制御部と、を備えたことを特徴とする情報処理装置。
  2. 上記感度制御部は、上記複数の音声入力部のうちの他の音声入力部と比較して上記電子機器が発する音の音量の変化との相関がより強い上記音声の音量の変化が測定された音声入力部の感度を、上記他の音声入力部の感度よりも低くすることを特徴とする請求項1に記載の情報処理装置。
  3. 複数の音声入力部により音声の入力を受付ける情報処理装置の制御方法であって、
    電子機器を制御して当該電子機器の電源のオンおよびオフを制御するか、または当該電子機器が発する音の音量を制御する電子機器制御ステップと、
    上記電子機器が発する音の音量の変化と、上記複数の音声入力部のそれぞれに入力された音声の音量の変化との相関関係に基づき、上記複数の音声入力部のうちの少なくとも1つの感度を制御する感度制御ステップと、を含むことを特徴とする情報処理装置の制御方法。
  4. 請求項1に記載の情報処理装置としてコンピュータを機能させるための制御プログラムであって、上記電子機器制御部および上記感度制御部としてコンピュータを機能させるための制御プログラム。
  5. 音声入力部により音声の入力を受付ける情報処理装置であって、
    電子機器を制御して当該電子機器が発する音の音量を制御する電子機器制御部と、
    上記電子機器が発する音の音量の変化と、上記音声入力部に入力された音声の音量の変化との相関関係に基づき、上記電子機器に対する上記音声入力部の向きを制御する方向制御部と、を備えたことを特徴とする情報処理装置。
  6. 上記方向制御部は、上記電子機器が発する音の音量の変化と、上記音声入力部に入力された音声の音量の変化との相関が向きの制御前よりも弱くなるように、上記電子機器に対する上記音声入力部の向きを制御することを特徴とする請求項5に記載の情報処理装置。
JP2017045118A 2017-03-09 2017-03-09 情報処理装置およびその制御方法、ならびに制御プログラム Pending JP2018148539A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017045118A JP2018148539A (ja) 2017-03-09 2017-03-09 情報処理装置およびその制御方法、ならびに制御プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017045118A JP2018148539A (ja) 2017-03-09 2017-03-09 情報処理装置およびその制御方法、ならびに制御プログラム

Publications (1)

Publication Number Publication Date
JP2018148539A true JP2018148539A (ja) 2018-09-20

Family

ID=63591696

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017045118A Pending JP2018148539A (ja) 2017-03-09 2017-03-09 情報処理装置およびその制御方法、ならびに制御プログラム

Country Status (1)

Country Link
JP (1) JP2018148539A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020207889A1 (de) * 2019-04-11 2020-10-15 BSH Hausgeräte GmbH Interaktionseinrichtung
JP7464927B2 (ja) 2022-09-12 2024-04-10 公立大学法人公立はこだて未来大学 通信システム、通信装置、プログラム、及び制御方法
JP7558417B2 (ja) 2021-08-06 2024-09-30 三菱電機ビルソリューションズ株式会社 設置位置特定システム及び設置位置特定方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020207889A1 (de) * 2019-04-11 2020-10-15 BSH Hausgeräte GmbH Interaktionseinrichtung
JP7558417B2 (ja) 2021-08-06 2024-09-30 三菱電機ビルソリューションズ株式会社 設置位置特定システム及び設置位置特定方法
JP7464927B2 (ja) 2022-09-12 2024-04-10 公立大学法人公立はこだて未来大学 通信システム、通信装置、プログラム、及び制御方法

Similar Documents

Publication Publication Date Title
US9699556B2 (en) Enhancing audio using a mobile device
US9859858B2 (en) Correction of unknown audio content
CN102045618B (zh) 自动调整的麦克风阵列、方法和携带麦克风阵列的装置
TWI607373B (zh) 協作音訊處理
US20090196428A1 (en) Method of compensating for audio frequency characteristics and audio/video apparatus using the method
EP3350804B1 (en) Collaborative audio processing
WO2014173069A1 (zh) 一种音效调节方法、装置和设备
US20070172083A1 (en) Method and apparatus for controlling a gain of a voice signal
WO2017173046A1 (en) Audio system equalizing
CN112235688B (zh) 一种调节声场的方法和装置
TW201640920A (zh) 用於控制多個音訊輸出裝置之輸出之系統及方法
US20200296534A1 (en) Sound playback device and output sound adjusting method thereof
US20230026347A1 (en) Methods for reducing error in environmental noise compensation systems
JP2018148539A (ja) 情報処理装置およびその制御方法、ならびに制御プログラム
KR101551665B1 (ko) 환경프로파일의 적용이 가능한 보청기, 이를 이용한 환경프로파일 적용 시스템 및 방법
KR20170058320A (ko) 오디오 신호 처리 장치 및 방법
CN113553022A (zh) 设备调整方法、装置、移动终端及存储介质
US11882412B2 (en) Audition of hearing device settings, associated system and hearing device
US11405735B2 (en) System and method for dynamically adjusting settings of audio output devices to reduce noise in adjacent spaces
WO2021043414A1 (en) Microphone blocking detection control
KR102113572B1 (ko) 소리 제거 시스템 및 이를 이용한 소리 제거 방법
KR20200054923A (ko) 소리 제거 시스템 및 이를 이용한 소리 제거 방법
US20230076871A1 (en) Method, hearing system, and computer program for improving a listening experience of a user wearing a hearing device
US12136432B2 (en) Methods for reducing error in environmental noise compensation systems
US20240281202A1 (en) Electronic Device Audio Adjustment