JP6977768B2 - 情報処理装置、情報処理方法、音声出力装置、および音声出力方法 - Google Patents

情報処理装置、情報処理方法、音声出力装置、および音声出力方法 Download PDF

Info

Publication number
JP6977768B2
JP6977768B2 JP2019513538A JP2019513538A JP6977768B2 JP 6977768 B2 JP6977768 B2 JP 6977768B2 JP 2019513538 A JP2019513538 A JP 2019513538A JP 2019513538 A JP2019513538 A JP 2019513538A JP 6977768 B2 JP6977768 B2 JP 6977768B2
Authority
JP
Japan
Prior art keywords
user
voice
noise
difficulty
noise source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019513538A
Other languages
English (en)
Other versions
JPWO2018193826A1 (ja
Inventor
広 岩瀬
真里 斎藤
真一 河野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2018193826A1 publication Critical patent/JPWO2018193826A1/ja
Application granted granted Critical
Publication of JP6977768B2 publication Critical patent/JP6977768B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/005Tone control or bandwidth control in amplifiers of digital signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q9/00Arrangements in telecontrol or telemetry systems for selectively calling a substation from a main station, in which substation desired apparatus is selected for applying a control signal thereto or for obtaining measured values therefrom
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本技術は、情報処理装置、情報処理方法、音声出力装置、および音声出力方法に関し、特に、ユーザがホームエージェント機器からの発話を聞き取ることができるようにする情報処理装置、情報処理方法、音声出力装置、および音声出力方法に関する。
従来、周囲の環境に応じて、出力する音声の音量を制御する機器がある。例えば、特許文献1には、マイクロホンから取得した周囲音量に基づいて、スピーカの音量を決定する電子機器が開示されている。
また近年、ユーザに対して発話を行う家庭用の音声アシスタントデバイス(ホームエージェント機器)が提供されている。
特開2009−226169号公報
しかしながら、家庭内には、人が生活する上での様々な環境音が存在する。これらの環境音の発生状況およびユーザの居場所によっては、ユーザは、ホームエージェント機器からの発話を聞き取れなかったり、聞き逃したりする可能性があった。
本技術は、このような状況に鑑みてなされたものであり、ユーザがどこにいてもホームエージェント機器からの発話を聞き取ることができるようにするものである。
本技術の第1の側面の情報処理装置は、ユーザに向けて音声出力可能な機器において取得された画像と所定の騒音源からの騒音とに基づいて、前記ユーザの位置での前記機器からの音声の聞き取り難さを示す情報として、前記ユーザの位置での騒音レベル、前記ユーザからみた前記機器と前記騒音源との角度差、および、前記機器と前記ユーザとの距離それぞれを表すパラメータ、並びに、それらを用いて算出される聞き取り難さスコアの少なくともいずれかを出力する処理部を備える。
本技術の第1の側面の情報処理方法は、ユーザに向けて音声出力可能な機器において取得された画像と所定の騒音源からの騒音とに基づいて、前記ユーザの位置での前記機器からの音声の聞き取り難さを示す情報として、前記ユーザの位置での騒音レベル、前記ユーザからみた前記機器と前記騒音源との角度差、および、前記機器と前記ユーザとの距離それぞれを表すパラメータ、並びに、それらを用いて算出される聞き取り難さスコアの少なくともいずれかを出力するステップを含む。
本技術の第1の側面においては、ユーザに向けて音声出力可能な機器において取得された画像と所定の騒音源からの騒音とに基づいて、前記ユーザの位置での前記機器からの音声の聞き取り難さを示す情報として、前記ユーザの位置での騒音レベル、前記ユーザからみた前記機器と前記騒音源との角度差、および、前記機器と前記ユーザとの距離それぞれを表すパラメータ、並びに、それらを用いて算出される聞き取り難さスコアの少なくともいずれかが出力される。
本技術の第2の側面の音声出力装置は、自装置において取得された画像と所定の騒音源からの騒音とに基づいて生成された、ユーザの位置での前記自装置からの音声の聞き取り難さを示す情報として、前記ユーザの位置での騒音レベル、前記ユーザからみた前記自装置と前記騒音源との角度差、および、前記自装置と前記ユーザとの距離それぞれを表すパラメータ、並びに、それらを用いて算出される聞き取り難さスコアの少なくともいずれかを用いて、前記ユーザに向けて出力される音声の特性を決定するパラメータを生成することで、前記音声の出力を制御する音声出力制御部を備える。
本技術の第2の側面の音声出力方法は、自装置において取得された画像と所定の騒音源からの騒音とに基づいて生成された、ユーザの位置での前記自装置からの音声の聞き取り難さを示す情報として、前記ユーザの位置での騒音レベル、前記ユーザからみた前記自装置と前記騒音源との角度差、および、前記自装置と前記ユーザとの距離それぞれを表すパラメータ、並びに、それらを用いて算出される聞き取り難さスコアの少なくともいずれかを用いて、前記ユーザに向けて出力される前記音声の特性を決定するパラメータを生成することで、前記音声の出力を制御するステップを含む。
本技術の第2の側面においては、自装置において取得された画像と所定の騒音源からの騒音とに基づいて生成された、ユーザの位置での前記自装置からの音声の聞き取り難さを示す情報として、前記ユーザの位置での騒音レベル、前記ユーザからみた前記自装置と前記騒音源との角度差、および、前記自装置と前記ユーザとの距離それぞれを表すパラメータ、並びに、それらを用いて算出される聞き取り難さスコアの少なくともいずれかを用いて、前記ユーザに向けて出力される前記音声の特性を決定するパラメータを生成することで、前記音声の出力が制御される。
本技術によれば、ユーザがどこにいてもホームエージェント機器からの発話を聞き取ることが可能となる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
家庭内での環境音について説明する図である。 本技術を適用した音声出力装置の機能構成例を示すブロック図である。 音声出力処理について説明するフローチャートである。 ユーザ、音声出力装置、および騒音源の位置関係を示す図である。 聞き取り難さスコアの角度成分項について説明する図である。 外部機器との連携について説明する図である。 音声出力装置および外部機器の機能構成例を示すブロック図である。 ユーザ、音声出力装置、騒音源、および外部機器の位置関係を示す図である。 ユーザ、音声出力装置、騒音源、および外部機器の位置関係を示す図である。 音声出力機器決定処理について説明するフローチャートである。 音声出力機器の切り替えの一例を示す図である。 音声出力機器の切り替えの一例を示す図である。 音声出力機器の切り替えの一例を示す図である。 クラウドコンピューティングへの適用について説明する図である。 本技術を適用したサーバの機能構成例を示すブロック図である。 WebAPI処理結果の例を示す図である。
以下、本開示を実施するための形態(以下、実施の形態とする)について説明する。なお、説明は以下の順序で行う。
1.家庭内での環境音について
2.第1の実施の形態(ホームエージェント機器単体)
3.第2の実施の形態(ホームエージェント機器と外部機器との連携)
4.第3の実施の形態(クラウドコンピューティングへの適用)
5.その他(屋外で利用される機器への適用)
<1.家庭内での環境音について>
図1には、ユーザ10と、ユーザ10に対して発話を行う音声出力装置20が示されている。音声出力装置20は、家庭用の音声アシスタントデバイス(ホームエージェント機器)として構成される。
図1に示されるように、家庭内には、人が生活する上での様々な環境音(テレビの音声、他者の会話、赤ん坊の泣き声、音楽、航空機の騒音など)が存在する。これらの環境音の発生状況およびユーザの居場所によっては、ユーザ10は、音声出力装置20からの発話を聞き取れなかったり、聞き逃したりする可能性があった。
従来のホームエージェント機器においては、ダイヤルを回したりタッチするなど、ユーザがその機器を直接触れるか、または、ユーザの発話による音声コマンドにより、出力される音量がマニュアルで調整されていた。ユーザがホームエージェント機器に触れられない場所にいる場合や、騒音によりユーザの発話がホームエージェント機器に認識されない場合には、このようなマニュアルでの音量調整は困難となる。
一方で、マニュアルでの音量調整で音量を上げた場合、家庭内では、ホームエージェント機器の発話自体が騒音となるおそれがある。特に、ユーザの位置や環境音の状況が変化した場合には、必要以上に大きな音が出力されてしまうことがある。
また、騒音量とユーザの位置との関係によっては、ホームエージェント機器の出力音量を最大にしても、出力デバイスの性能限界により、ユーザが発話を聞き取ることができない場合がある。
さらに、ユーザが、家事などの作業に集中している場合、ホームエージェント機器からの発話に意識が向かず、発話自体に気づかないこともある。
そこで、以下においては、ユーザがどこにいてもホームエージェント機器からの発話を聞き取ることができるようにする実施の形態について説明する。
<2.第1の実施の形態>
(音声出力装置の機能構成例)
図2は、本技術を適用した第1の実施の形態の音声出力装置20の機能構成例を示している。
音声出力装置20は、ユーザ10および騒音源30の位置を認識し、ユーザ10、音声出力装置20、および騒音源30の位置関係に基づいて、ユーザ10の位置での音声の聞き取り難さを推定する。そして、音声出力装置20は、推定した聞き取り難さに適応するようにその特性を調整した音声を出力する。
なお、音声出力装置20は、上述したホームエージェント機器として構成されるものとするが、マイクロホンおよびカメラを備え、ユーザ10に向けて音声を出力する機器全般として構成することが可能である。
音声出力装置20は、音声入力デバイス51、騒音検出処理部52、センサデバイス53、画像認識エンジン54、聞き取り難さ推定部55、音声出力制御部56、通知発話テキスト57、音声合成エンジン58、出力音声信号処理部59、および音声再生デバイス60を備えている。
音声入力デバイス51は、複数のマイクロホン(マイクロホンアレイ)により構成される。音声入力デバイス51には、騒音源30から発せられる音が入力される。音声入力デバイス51は、入力された音に対応する入力音声データを、騒音検出処理部52に供給する。
騒音検出処理部52は、音声入力デバイス51からの入力音声データに基づいて、騒音源30の方向と、その方向からの騒音の音量を検出する。騒音検出処理部52は、検出した騒音源30の方向および騒音の音量それぞれを示す情報を、聞き取り難さ推定部55に供給する。また、騒音検出処理部52は、検出した騒音源30の方向を示す情報を、画像認識エンジン54に供給する。
センサデバイス53は、ステレオカメラおよびデプスセンサにより構成される。センサデバイス53により撮像された画像と、その画像内の被写体の深度情報(距離情報)とが、画像認識エンジン54に供給される。
画像認識エンジン54は、センサデバイス53からの画像および深度情報に基づいて、発話対象となるユーザ10の方向およびユーザ10との距離を検出する。また、画像認識エンジン54は、センサデバイス53からの画像および深度情報と、騒音検出処理部52からの騒音源30の方向を示す情報とに基づいて、その方向にある物体(騒音源30)との距離を検出する。ユーザ10の方向、ユーザ10との距離、騒音源30との距離それぞれを示す情報は、聞き取り難さ推定部55に供給される。
聞き取り難さ推定部55は、騒音検出処理部52からの情報と、画像認識エンジン54からの情報とに基づいて、ユーザの位置での音声出力装置20からの音声の聞き取り難さを推定する。聞き取り難さ推定部55は、その聞き取り難さを示す情報を、音声出力制御部56に供給する。
音声出力制御部56は、聞き取り難さ推定部55からの聞き取り難さを示す情報を用いて、ユーザ10に向けて出力する音声の特性を決定する音声パラメータを生成し、音声合成エンジン58、出力音声信号処理部59、および音声再生デバイス60に供給する。なお、一部の音声パラメータは、発話内容を示す通知発話テキスト57とともに、音声合成エンジン58に供給される。
音声合成エンジン58は、音声出力制御部56からの音声パラメータおよび通知発話テキスト57を用いて音声合成を行うことで音声信号を生成する。音声合成エンジン58は、生成した音声信号を出力音声信号処理部59に供給する。
出力音声信号処理部59は、音声出力制御部56からの音声パラメータを用いて、音声合成エンジン58からの音声信号に信号処理を施し、音声再生デバイス60に供給する。
音声再生デバイス60は、スピーカを含むようにして構成される。音声再生デバイス60は、音声出力制御部56からの音声パラメータに基づいた音量で、出力音声信号処理部59からの音声信号に従った音声を出力する。
(音声出力処理の流れ)
次に、図3のフローチャートを参照して、音声出力装置20による音声出力処理の流れについて説明する。
ステップS11において、騒音検出処理部52は、音声入力デバイス51からの入力音声データに基づいて、騒音源30の方向を検出し、また、検出された方向の音声成分だけを取得する音源分離を行うことで、その方向からの騒音の音量を検出する。
音声入力デバイス51のような複数のマイクロホンを用いて音源の方向を検出する手法としては、例えば相互相関関数を用いた手法が一般的に用いられている。詳細な説明は省略するが、この相互相関関数の最大値をとる2つのマイクロホンの到達時間差(遅延)を検出し、この時間差に基づいて音波の到達方向を推定することができる。
また、検出された方向の音声成分だけを取得する音源分離には、ビームフォーミングの技術を適用することができる。
そして、取得された音声成分のレベルから騒音量が算出される。騒音量の算出には、所定の単位時間(例えば、センサデバイス53を構成するカメラが撮像する画像の1フレーム時間)での音声信号の振幅値の二乗平均平方根(RMS)が用いられる。
なお、騒音源は1つに限らず、複数あってもよい。この場合、音源の方向の検出の際には、相互相関関数の最大値だけではなく所定の閾値を超える複数のピークをとる時間差を用いるようにする。また、音源分離により細分化された各方向の音声成分のレベルを算出し、閾値を超える複数のピークを用いて騒音量を算出するようにしてもよい。
ステップS12において、画像認識エンジン54は、センサデバイス53から供給されてくる画像および深度情報に基づいて、顔認識を用いて、発話対象となるユーザ10の方向およびユーザ10との距離を検出する。
具体的には、画像認識エンジン54は、あらかじめ登録されているユーザ10の顔に基づいて、センサデバイス53からの画像からユーザ10の顔を検出する。また、画像認識エンジン54は、画像内における検出された顔の位置からユーザ10の方向(角度)を算出するとともに、画像内における検出された顔の位置における深度情報からユーザ10との距離を算出する。
なお、ユーザ10との距離は、検出された顔の大きさに基づいて算出されるようにしてもよい。
続いて、ステップS13において、画像認識エンジン54は、騒音検出処理部52からの騒音源30の方向を示す情報に基づいて、騒音源30との距離を検出する。
具体的には、画像認識エンジン54は、騒音源となり得る物体(人、テレビ、オーディオ機器、スピーカ、エアーコンディショナ、窓など)をあらかじめ学習している。そして、画像認識エンジン54は、センサデバイス53からの画像において、騒音検出処理部52からの情報で示される方向に、上述した物体を認識した場合、画像内でのその物体の位置における深度情報から騒音源30との距離を算出する。
なお、騒音検出処理部52において、騒音源30の方向として、水平方向の角度に加えて、垂直方向の角度が検出されるようにしてもよい。この場合、画像認識エンジン54は、騒音源30の水平方向の角度と垂直方向の角度で決まる画像内での座標における深度情報から、騒音源30との距離を算出する。
また、騒音源の方向に物体を認識できず、垂直方向の角度も検出されない場合には、騒音源の水平方向の角度で決まる画像内での座標における深度情報の代表値(最大値、最小値、平均値など)を用いて、騒音源30との距離を算出するようにしてもよい。
ステップS14において、聞き取り難さ推定部55は、ユーザ10および騒音源30との位置関係に基づいて、ユーザ10の位置での聞き取り難さを示す聞き取り難さスコアを算出する。
ここで、図4に示されるように、騒音検出処理部52により検出された、ホームエージェント機器(音声出力装置20)の位置での騒音の音量(騒音レベル)をN、画像認識エンジン54により検出されたユーザ10との距離をDsu、騒音源30との距離をDnsとする。
また、騒音検出処理部52により検出された騒音源30の方向と、画像認識エンジン54により検出されたユーザ10の方向とから算出される、音声出力装置20からみたユーザ10と騒音源30との角度差をθとする。
まず、聞き取り難さ推定部55は、余弦定理により、以下の式を用いて、騒音源30とユーザ10との距離Dnuを算出する。
Figure 0006977768
次に、聞き取り難さ推定部55は、余弦定理により、以下の式を用いて、ユーザ10からみた音声出力装置20と騒音源30との角度差θを算出する。
Figure 0006977768
そして、聞き取り難さ推定部55は、距離による点音源の音圧減衰特性に基づいて、以下の式を用いて、ユーザ10の位置での騒音レベルNを算出する。
Figure 0006977768
以上のように算出された、ユーザ10の位置での騒音レベルN、ユーザ10からみた音声出力装置20と騒音源30との角度差θ、および、音声出力装置20とユーザ10との距離Dsuは、それぞれ個々に、ユーザ10の位置での音声出力装置20からの音声の聞き取り難さを示す聞き取り難さスコアとみなすことができる。
ユーザ10の位置での騒音レベルNは、その値が大きくなるほど、騒音によるエージェント機器からの音声のマスキングによって、聞き取り難さが増す。
ユーザ10からみた音声出力装置20と騒音源30との角度差θは、0°乃至180°の値をとり、その値が大きくなるほど、音像分離によるカクテルパーティ効果によって、聞き取りやすくなる。すなわち、角度差θの値が小さくなるほど、聞き取り難さが増す。
音声出力装置20とユーザ10との距離Dsuは、その値が大きくなるほど、距離による音の減衰によって、聞き取り難さが増す。
ここではさらに、聞き取り難さ推定部55が、これら3つのパラメータを用いて、ユーザ10の位置での聞き取り難さを示す聞き取り難さスコアSを算出するものとする。
なお、図4に示されるように、騒音源30に加えて騒音源40が存在する場合、騒音検出処理部52は、騒音源30,40それぞれの方向と、それぞれの方向からの騒音の音量を検出する。この場合、ユーザ10の位置での騒音レベルNと、ユーザ10からみた音声出力装置20と騒音源との角度差θとは、騒音源毎に算出される。
したがって、n個の騒音源が存在する場合、騒音レベルNと角度差θとが騒音源毎に算出されることで、{Nu1,Nu2,Nu3,・・・,Nun,},{θu1,θu2,θu3,・・・,θun}が得られる。
この場合、聞き取り難さ推定部55は、以下の式を用いて、3つのパラメータそれぞれがユーザ10の位置での聞き取り難さに与える影響を考慮した聞き取り難さスコアSを算出する(i=1,2,3,・・・,n)。
Figure 0006977768
音声出力装置20からの音声は距離Dsuに比例して音圧が減衰するため、最初に距離Dsuが乗算される。なお、変数cは、騒音に関する項(平方根項)がない場合にも聞き取り難さスコアSを算出するための、距離Dsuに比例した変数である。
複数音源の音圧加算は二乗和平方根で求められることが一般的に知られている。そこで、騒音に関する項として、複数の騒音源の騒音レベルNuiに、角度差θuiに依存する角度成分項f(θui)を乗じて二乗和平方根をとったものを用いる。
なお、角度成分項f(θui)は、以下の式で示される。
Figure 0006977768
角度成分項f(θui)は、図5に示されるように、角度差θuiが0°で最大値をとり、180°で最小値をとる関数の一例である。
式中、変数aは、角度差θuiによる影響の重み係数であり、変数bは、角度差θuiによらない騒音による影響の重み係数である。変数a,bは、それぞれ0以上の値をとり、a+b≦1.0となることが望ましい。例えば、a=1.0,b=0とした場合、θui=0°でf(θui)=1.0となり、θui=180°でf(θui)=0となる。また、a=0,b=1.0とした場合、θuiによらずf(θui)=1.0となる。
なお、上述した変数a,b,cは、聞き取り難さ推定部55の設定パラメータとしてAPI(Application Programming Interface)化され、外部から制御可能な構成としてもよい。
このようにして算出された聞き取り難さスコアSは、音声出力制御部56に供給される。
ステップS15において、音声出力制御部56は、聞き取り難さ推定部55により算出された聞き取り難さスコアSを用いて、ユーザ10に向けて出力する音声の特性を決定する音声パラメータを生成する。ここでは、以下で説明する音声パラメータが生成されるものとする。
(1)音量V:聞き取り難さスコアSに比例して音量(出力音圧)が大きくなるようにして算出され、音声再生デバイス60に供給される。
音量Vは、例えば以下の式を用いて算出される。
Figure 0006977768
式中、変数kは、加算音量の比例係数である。また、音量Vは、音声再生デバイス60の制約により決まる音量Vmaxを上限とする。
なお、上述した変数k,Vmaxは、音声出力制御部56の設定パラメータとしてAPI化され、外部から制御可能な構成としてもよい。例えば、ユーザの年齢などの属性情報からユーザの聴覚特性を推定することで、変数k,Vmaxを設定するようにしてもよい。具体的には、年齢が高くなるにつれ可聴域(ダイナミックレンジ)が狭まるため、ユーザの年齢が高い程、kを大きく、Vmaxを小さくするように設定する。
(2)高さ(ピッチ)P:基準となるピッチP(音声合成エンジン58の基準ピッチに対するオフセット)に対して、聞き取り難さスコアSに比例してピッチが高くなるようにして算出され、通知発話テキスト57とともに音声合成エンジン58に供給される。
ピッチPは、例えば以下の式を用いて算出される。
Figure 0006977768
式中、変数kは、加算ピッチの比例係数である。また、ピッチPは、音声合成エンジン58で自然な声質を維持できるピッチPmaxを上限とする。
騒音の大きい環境下では、人は相手に発話内容を聞き取りやすくするよう、自然に声を張り上げることが、ロンバード効果として知られている。ロンバード効果では、人は声の音量やピッチ(基本周波数、フォルマント周波数)を上げるとされる。そこで、ピッチPについては、音声合成エンジン58の設定ピッチを上げることで、ロンバード効果をシミュレートするようにする。
なお、上述した変数P,k,Pmaxは、音声出力制御部56の設定パラメータとしてAPI化され、外部から制御可能な構成としてもよい。
(3)発話速度R:基準となる発話速度R(音声合成エンジン58の基準発話速度に対するオフセット)に対して、聞き取り難さスコアSに比例して発話速度が高くなるようにして算出され、通知発話テキスト57とともに音声合成エンジン58に供給される。
発話速度Rは、例えば以下の式を用いて算出される。
Figure 0006977768
式中、変数kは、加算発話速度の比例係数である。また、発話速度Rは、音声合成エンジン58で聞き取ることができる発話速度Rmaxを上限とする。
騒音の大きい環境下では、発話速度を高めたほうが(やや早口のほうが)発話文全体のまとまりを認知しやすく、間延び感が解消されて内容を理解しやすくなる。ただし、発話速度が高すぎると、語句自体を聞き取れなくなるため、発話速度Rmaxで制限されるようにする。
なお、上述した変数R,k,Rmaxは、音声出力制御部56の設定パラメータとしてAPI化され、外部から制御可能な構成としてもよい。
(4)周波数F:音声合成された音声信号の高域を強調するためのパラメータであり、高域強調の信号処理の最低周波数として算出され、出力音声信号処理部59に供給される。高域強調の信号処理においては、周波数Fより上の帯域が強調される。
(5)ゲインG:周波数Fと同様、音声合成された音声信号の高域を強調するためのパラメータであり、聞き取り難さスコアSに比例してゲインが大きくなるようにして算出され、出力音声信号処理部59に供給される。
ゲインGは、例えば以下の式を用いて算出される。
Figure 0006977768
式中、変数kは、ゲインの比例係数である。また、ゲインGは、高域強調処理を欠けすぎて音声の声としての自然さが失われない程度のゲインGmaxを上限とする。
高域のレベルを上げることによって、マスキングされている子音が強調されて音韻を知覚しやすくなり、音声の明瞭度が高まることが一般的に知られている。また、音声の高域(子音)のエネルギーは低く、自然界の一般的な騒音はピンクノイズに似た低域が高く高域が低いスペクトルを有するため、音量を上げすぎずに声の明瞭度を高めるには、高域強調が効果的となる。
なお、上述した変数k,Gmaxは、周波数Fとともに、音声出力制御部56の設定パラメータとしてAPI化され、外部から制御可能な構成としてもよい。
また、高域強調の他の例として、騒音検出処理部52が、騒音のスペクトル情報を取得し、音声出力制御部56が、その騒音のスペクトル情報に基づいて、マスキングされる音声合成の音の帯域を推定し、出力音声信号処理部59が、その帯域のレベルを上げる処理を行うようにしてもよい。
(6)抑揚(イントネーション)I:基準となる抑揚I(音声合成エンジン58の基準抑揚に対するオフセット)に対して、聞き取り難さスコアSに比例して抑揚が小さくなるようにして算出され、通知発話テキスト57とともに音声合成エンジン58に供給される。
抑揚Iは、例えば以下の式を用いて算出される。
Figure 0006977768
式中、変数kは、抑揚の比例係数である。また、抑揚Iは、音声合成エンジン58で制約される抑揚Iminを下限とする。
音声合成エンジンの中には、発話の抑揚の大きさを設定できるものがある。騒音の大きい環境下では、抑揚が下がったときの語句がノイズにマスキングされ、発話文全体が聞き取り難くなる。そのため、騒音の音量が大きくなるほど平坦な発話にすることで、聞き取りやすさを改善することができる(一方で、騒音が小さく聞き取りやすい環境下では、抑揚がついていた方が発話内容を理解しやすい)。
なお、上述した変数I,k,Iminは、音声出力制御部56の設定パラメータとしてAPI化され、外部から制御可能な構成としてもよい。
(7)アクセントA:基準となるアクセントA(音声合成エンジン58の基準アクセントに対するオフセット)に対して、聞き取り難さスコアSに比例してアクセントが強くなるようにして算出され、通知発話テキスト57とともに音声合成エンジン58に供給される。
アクセントAは、例えば以下の式を用いて算出される。
Figure 0006977768
式中、変数kは、アクセントの比例係数である。また、アクセントAは、音声合成エンジン58で制約されるアクセントAmaxを上限とする。
音声合成エンジンの中には、発話のアクセントの強さを設定できるものがある。騒音の大きい環境下では、アクセントを強めることによりアクセント句単位での語句の了解度が高くなり、聞き取りやすさを改善することができる(一方で、アクセントを強めすぎると発話の不自然さが目立つようになるため、聞き取り難さスコアSに適応するようにする)。
なお、上述した変数A,k,Amaxは、音声出力制御部56の設定パラメータとしてAPI化され、外部から制御可能な構成としてもよい。
以上のようにして、音声パラメータが生成される。
なお、上述した音声パラメータの生成に用いられる各変数は、聞き取り難さスコアSとともに設定パラメータとしてAPI化され、騒音以外のユーザのコンテキスト(ユーザの年齢・性別・属性に合わせたパラメータなど)に音声出力特性を適応させる処理が行われるようにしてもよい。
さて、図3のフローチャートに戻り、ステップS16において、音声合成エンジン58は、音声出力制御部56から通知発話テキスト57とともに供給された音声パラメータ(ピッチP、発話速度R、抑揚I、およびアクセントA)を用いて音声合成を行うことで音声信号を生成する。
ステップS17において、出力音声信号処理部59は、音声出力制御部56からの音声パラメータ(周波数FおよびゲインG)を用いて、音声合成エンジン58により生成された音声信号に、高域強調の信号処理を施す。
ここでは、例えば、特定の周波数より上の帯域を増幅させるハイシェルフフィルタを用いた信号処理が行われる。また、高域強調の他の例として、上述したように、騒音検出処理部52が、騒音のスペクトル情報を取得し、音声出力制御部56が、騒音のスペクトル情報に基づいて、マスキングされる音声合成の音の帯域を推定し、出力音声信号処理部59が、その帯域のレベルを上げる処理を行うようにしてもよい。
そして、ステップS18において、音声再生デバイス60は、音声出力制御部56からの音声パラメータ(音量V)に基づいてスピーカの出力音量を調整し、出力音声信号処理部59からの音声信号に従った音声を出力する。
なお、音声再生デバイス60がアレイスピーカを含むように構成され、波面合成によってユーザ10に対して任意の音像を提示できる場合には、聞き取り難さ推定部55が、ユーザ10にとって最も騒音の少ない方向を検出し、音声再生デバイス60が、その方向に、音声信号に従った音声の音像を定位させるようにしてもよい。
以上の処理によれば、ユーザがどこにいてもホームエージェント機器からの発話を聞き取ることが可能となる。
特に、ユーザがスピーカから遠い位置にいて音量調整の操作を行えないときであっても、ホームエージェント機器が、そのときに伝えるべき通知などの発話を確実にユーザに伝えることができる。
また、ホームエージェント機器が発話対象となるユーザに適応した音声出力を行うので、ホームエージェント機器から出力される音声の音量が大きくなりすぎて、家庭内の他の環境音をマスクしてしまうことを防ぐことができる。
具体的には、ホームエージェント機器からの発話が、家庭内で人が聞いている音をマスクしたり、静かな環境の中で他の事に集中している人の意識を奪うなど、発話対象ではないユーザにとって騒音になることを防ぐことができる。例えば、ホームエージェント機器からの発話が、テレビの音声や音楽、人同士の会話をマスクする騒音となったり、子供の勉強や睡眠を阻害することを避けることができる。また、家庭内での個人のプライバシーを保護することもできる。
<3.第2の実施の形態>
近年、家電機器のIoT(Internet of Things)化や、家庭内におけるWi−Fiなどの無線LAN環境の普及により、ホームエージェント機器が、家電機器を一括してコントロールする方向にある。
また、DLNA(登録商標)(Digital Living Network Alliance)などの接続方式で音声コンテンツのストリーミングを行い、他の機器でその音声コンテンツを再生する家庭内ネットワークの環境が整いつつある。
そこで、以下においては、ホームエージェント機器と外部機器とが連携した実施の形態について説明する。
(ホームエージェント機器と外部機器との連携)
図6は、ホームエージェント機器と外部機器とが連携したシステムの構成例を示している。
図6においては、ホームエージェント機器としての音声出力装置120が、外部機器としての警報機130A、インターホン130B、固定電話130C、冷蔵庫130D、電子レンジ130E、掃除機130F、PC(パーソナルコンピュータ)130G、テレビジョン受像機130H、ゲーム機130I、スマートフォン130J、ヘッドホン130K、およびオーディオ機器130Lと、無線LANなどのネットワークを介して接続されている。
警報機130A乃至オーディオ機器130Lはそれぞれ、スピーカなどの音声出力が可能な音声再生デバイスが搭載された機器である。
警報機130A乃至オーディオ機器130Lは、ユーザによる操作や稼働状況、センシング結果など、自機器の状態を表す情報を、音声出力装置120に送信する。また、警報機130A乃至オーディオ機器130Lは、音声出力装置120から送信されてくる音声信号を受信することで、音声を出力する。
図6においては、オーディオ機器130Lからの音声が騒音となり、音声出力装置120からの発話がユーザ10に伝わらない様子が示されている。
このように、ユーザ10の位置での騒音(聞き取り難さ)が大きく、音声出力装置120から出力される音声の特性を、その聞き取り難さに最大限に適応してもユーザ10が聞き取ることができないと判断された場合、音声出力装置120が、警報機130A乃至オーディオ機器130Lのうち、ユーザ10への発話が可能な外部機器に対して音声信号を供給し、その外部機器が音声を出力する。
図6の例では、ユーザ10への発話が可能な外部機器は、その使用状況からユーザ10の行動(何に集中しているか)を推定し、ユーザ10の意識が向いていると判定されたテレビジョン受像機130H、ユーザ10との距離がより近い掃除機130F、騒音源と異なる方向にある冷蔵庫130Dとされている。
ここで以下において、警報機130A乃至オーディオ機器130Lを、それぞれ区別する必要がない場合、単に、外部機器130ということとする。なお、音声出力装置120と連携する外部機器130は、図6に示されるように複数であってもよいし、1つであってもよい。
(音声出力装置および外部機器の機能構成例)
図7は、本技術を適用した第2の実施の形態の音声出力装置120および外部機器130の機能構成例を示している。
音声出力装置120は、図2の音声出力装置20と同様の構成に加え、状態受信部151および音声送信部152を備えている。また、外部機器130は、状態取得部161、状態送信部162、音声受信部163、および音声再生デバイス164を備えている。
以下においては、第1の実施の形態と異なる構成および動作について説明する。
画像認識エンジン54は、複数の外部機器130それぞれの位置(距離および方向)を検出し、その情報を聞き取り難さ推定部55に供給する。
例えば、外部機器130は、その表面にそれぞれ固有のマーカが付されるようにする。画像認識エンジン54は、音声出力装置120と外部機器130とをリンクするセットアップの際にセンサデバイス53により撮像された画像に対して画像認識を行い、それぞれのマーカを検出する。画像認識エンジン54は、検出されたマーカの画像内の位置から外部機器130の方向(角度)を算出するとともに、その位置の深度情報から外部機器130との距離を算出する。この処理は、セットアップの際に限らず、音声出力装置120が通知発話を行う直前のタイミングで行われるようにしてもよい。
また、上述したようなマーカを用いない処理として、セットアップの際に、音声入力デバイス51が、騒音のない環境において外部機器130が出力した位置検出用の音を集音し、騒音検出処理部52が、位置検出用の音の方向を検出することで、画像認識エンジン54が、外部機器130の方向(角度)および外部機器130との距離を算出するようにしてもよい。
聞き取り難さ推定部55は、画像認識エンジン54からの、外部機器130それぞれとの距離および角度を示す情報を用いて、ユーザ10の位置での外部機器130それぞれからの音声の聞き取り難さを示す聞き取り難さスコアSを算出する。
ここで、図8に示されるように、外部機器130との距離をDse、音声出力装置120からみたユーザ10と外部機器130との角度差をθseとする。その他の値は、図4に示される値と同様である。
まず、聞き取り難さ推定部55は、余弦定理により、以下の式を用いて、外部機器130とユーザ10との距離Deuを算出する。
Figure 0006977768
次に、聞き取り難さ推定部55は、余弦定理により、以下の式を用いて、ユーザ10からみた音声出力装置20と外部機器130との角度差θueを算出する。
Figure 0006977768
さらに、聞き取り難さ推定部55は、ユーザ10からみた外部機器130と騒音源30との角度差θを算出する。
ここで、図8に示されるように、音声出力装置120からみたユーザ10と騒音源30との角度差θと、音声出力装置120からみたユーザ10と外部機器130との角度差θseの符号が異なる(音声出力装置120とユーザ10とを結ぶ線分に対して、騒音源30と外部機器130とが異なる側にある)場合、ユーザ10からみた外部機器130と騒音源30との角度差は、θ=θue+θで示される。
一方、図9に示されるように、音声出力装置120からみたユーザ10と騒音源30との角度差θと、音声出力装置120からみたユーザ10と外部機器130との角度差θseの符号が同じ(音声出力装置120とユーザ10とを結ぶ線分に対して、騒音源30と外部機器130とが同じ側にある)場合、ユーザ10からみた外部機器130と騒音源30との角度差は、θ=|θue−θ|で示される。
なお、n個の騒音源が存在する場合、ユーザ10の位置での騒音レベルNと、ユーザ10からみた外部機器130と騒音源30との角度差θとは、騒音源毎に算出され、{Nu1,Nu2,Nu3,・・・,Nun,},{θe1,θe2,θe3,・・・,θen}が得られる。
この場合、聞き取り難さ推定部55は、以下の式を用いて、聞き取り難さスコアSを算出する(i=1,2,3,・・・,n)。
Figure 0006977768
Figure 0006977768
聞き取り難さスコアSは、上述で説明したユーザ10の位置での音声出力装置20からの音声の聞き取り難さスコアSと同様の手法により算出される。聞き取り難さスコアSは、ユーザ10の位置と外部機器130との距離が近く、騒音源30と外部機器130の方向が異なるほど、小さい値をとる。
このようにして算出された聞き取り難さスコアSは、音声出力制御部56に供給される。
また、m個の外部機器130が音声出力装置120にリンクされている場合、聞き取り難さスコアSが外部機器130毎に算出されることで、{Se1,Se2,Se3,・・・,Sem}が得られ、音声出力制御部56に供給される。なお、音声出力装置120にリンクされているものの、画像認識エンジン54によってその位置が検出されなかった外部機器130についての聞き取り難さスコアSは、音声出力装置20についての聞き取り難さスコアSで代替されるようにしてもよい。
図7に戻り、外部機器130の状態取得部161は、外部機器130の使用状況などから、ユーザ10の意識が外部機器130に集中しているか否かを判定し、その度合いを示す意識レベルを状態送信部162に供給する。
意識レベルは、以下に示すように、レベル2,1,0の3段階に分けられ、数字が大きいほど、ユーザ10の意識が外部機器130に集中している度合いが高いものとする。
レベル2は、ユーザ10が外部機器130に近接して操作したり作業している最中の状態を示し、例えば、以下のような状態が考えらえる。
・PCにおいて、キーボードやマウスが操作されている。
・ゲーム機において、コントローラが操作されており、ユーザ10がプレイ中である。
・固定電話機やインターホンにおいて、ユーザ10が通話中である。
・冷蔵庫において、ドアが開かれている。
・炊飯器が稼働中で、そのふたが開けられている。
・ハンディ型の掃除機が稼働中である。
レベル1は、ユーザ10が外部機器130から受動的に音声を受けている状態を示し、例えば、以下のような状態が考えらえる。
・テレビにおいて、映像および音声が出力されている。
・ラジオにおいて、音声が出力されている。
・オーディオ機器において、音楽が再生されている。
レベル0は、ユーザ10の意識が外部機器130へ向いていない状態を示し、上述したような状態が検出されない状態とされる。
状態送信部162は、状態取得部161からの意識レベルを、無線LANなどのネットワークを介して、音声出力装置120に送信する。
一方、音声出力装置120の状態受信部151は、外部機器130からネットワークを介して送信されてくる意識レベルを受信し、音声出力制御部56に供給する。
なお、状態取得部161が外部機器130の使用状況を示す情報のみを取得して、状態送信部162がその情報を音声出力装置120に送信し、音声出力装置120(状態受信部151)側で、意識レベルの判定が行われるようにしてもよい。
さて、音声出力装置120の音声出力制御部56は、聞き取り難さ推定部55からの、ユーザ10の位置での音声出力装置120からの音声の聞き取り難さスコアS、および、ユーザ10の位置での外部機器130それぞれからの音声の聞き取り難さスコア{Se1,Se2,Se3,・・・,Sem}と、状態受信部151からの意識レベルとに基づいて、通知発話を行う機器(以下、音声出力機器という)を決定する。
そして、音声出力制御部56によって、外部機器130が音声出力機器に決定された場合、出力音声信号処理部59において信号処理が施された音声信号が、音声出力制御部56において生成された音声パラメータ(音量V)とともに、音声送信部152に供給される。
音声送信部152は、出力音声信号処理部59からの音声信号を、音声出力制御部56からの音声パラメータとともに、無線LANなどのネットワークを介して、音声出力機器に決定された外部機器130に送信する。
外部機器130の音声受信部163は、音声出力装置120からの音声信号および音声パラメータを受信し、音声再生デバイス164に供給する。
音声再生デバイス164は、音声再生デバイス60と同様にして構成され、音声出力装置120からの音声パラメータ(音量V)に基づいた音量で、音声出力装置120からの音声信号に従った音声を出力する。
(音声出力機器決定処理)
ここで、図10のフローチャートを参照して、音声出力制御部56によって実行される音声出力機器決定処理の詳細について説明する。図10の処理は、通知発話が行われるタイミング(直前)で開始される。
ステップS51において、音声出力制御部56は、聞き取り難さスコアSを用いて算出した音量Vと、音声再生デバイス60の制約により決まる音量Vmaxとを比較し、音量Vが音声再生デバイス60の出力音量の上限(音量Vmax)を超えるか否かを判定する。音量Vが上限を超えると判定された場合、処理はステップS52に進む。
ステップS52において、音声出力制御部56は、状態受信部151から供給された、外部機器130それぞれの意識レベルに基づいて、意識レベル2の外部機器130が存在するか否かを判定する。意識レベル2の外部機器130が存在すると判定された場合、処理はステップS53に進む。
ステップS53において、音声出力制御部56は、意識レベル2の外部機器130の中から、聞き取り難さスコアSが最小となる外部機器130を選択し、処理はステップS59に進む。
一方、ステップS53において、意識レベル2の外部機器130が存在しないと判定された場合、処理はステップS54に進む。
ステップS54において、音声出力制御部56は、状態受信部151から供給された、外部機器130それぞれの意識レベルに基づいて、意識レベル1の外部機器130が存在するか否かを判定する。意識レベル1の外部機器130が存在すると判定された場合、処理はステップS55に進む。
ステップS55において、音声出力制御部56は、意識レベル1の外部機器130の中から、聞き取り難さスコアSが最小となる外部機器130を選択する。
ステップS56において、音声出力制御部56は、選択された外部機器130の聞き取り難さスコアSと自装置(音声出力装置120)の聞き取り難さスコアSとを比較し、その外部機器130の聞き取り難さスコアSが自装置の聞き取り難さスコアSより小さいか否かを判定する。聞き取り難さスコアSが聞き取り難さスコアSより小さいと判定された場合、処理はステップS59に進む。
さて、ステップS54において、意識レベル1の外部機器130が存在しないと判定された場合、または、ステップS56において、聞き取り難さスコアSが聞き取り難さスコアSより小さくない(大きい)と判定された場合、処理はステップS57に進む。
ステップS57において、音声出力制御部56は、音声出力装置120にリンクされている全外部機器130から、聞き取り難さスコアSが最小となる外部機器130を選択する。
ステップS58において、音声出力制御部56は、選択された外部機器130の聞き取り難さスコアSと自装置(音声出力装置120)の聞き取り難さスコアSとを比較し、その外部機器130の聞き取り難さスコアSが自装置の聞き取り難さスコアSより小さいか否かを判定する。聞き取り難さスコアSが聞き取り難さスコアSより小さいと判定された場合、処理はステップS59に進む。
ステップS59において、音声出力制御部56は、ステップS53,S55,またはS57において選択された外部機器130を音声出力機器に決定する。
一方、ステップS51において、音量Vが上限を超えないと判定された場合、または、ステップS58において、聞き取り難さスコアSが聞き取り難さスコアSより小さくない(大きい)と判定された場合、処理はステップS60に進む。
ステップS60において、音声出力制御部56は、自装置(音声出力装置120)を音声出力機器に決定する。
このようにして、自装置の聞き取り難さスコアSと、外部機器130それぞれの聞き取り難さスコアSおよび意識レベルとに基づいて、通知発話を行う音声出力機器が決定される。
以上の構成および処理によれば、出力すべき音声の音量が、ホームエージェント機器の音声再生デバイス(スピーカ)の性能限界を超えた場合であっても、ユーザの居場所に応じて、リンクされている外部機器を介して、通知発話を確実にユーザに伝えることができる。
また、ユーザが他の事に集中していて、ホームエージェント機器からの発話に気づきにくい状況であっても、ユーザの意識が向いている外部機器から音声を出力することにより、通知発話を確実にユーザに伝えることができる。
さらに、緊急性の高い通知発話を、騒音レベルが低くなったり、ユーザがホームエージェント機器からの発話に気づきやすい状況になるまで待つことなく、通知発話を確実にユーザに伝えることができる。
(ホームエージェント機器の発話中にユーザが移動する場合の例)
本実施の形態においては、音声出力機器(ホームエージェント機器または外部機器)の発話中にユーザが移動する場合、ユーザの位置の変化に追従して音声出力機器を動的に切り替えるようにすることもできる。
この場合、音声入力デバイス51およびセンサデバイス53によるセンシングから、音声出力装置120の聞き取り難さスコアSおよびm個の外部機器130毎の聞き取り難さスコア{Se1,Se2,Se3,・・・,Sem}の算出までの処理が、音声出力機器の発話開始のタイミングのみではなく、発話中もリアルタイムに行われ、算出された聞き取り難さスコアSおよび{Se1,Se2,Se3,・・・,Sem}が音声出力制御部56に供給される。
音声出力機器の発話中にリアルタイムに行われる処理の時間粒度は、例えば、センサデバイス53を構成するカメラの撮像フレームレート(すなわち、画像認識エンジン54の認識処理の時間粒度)とされる。フレームレートが例えば30fpsである場合、音声出力機器が発話中の1/30秒毎に、聞き取り難さスコアSおよび{Se1,Se2,Se3,・・・,Sem}が算出され、音声出力制御部56に供給される。
音声出力制御部56は、音声出力機器の発話開始のタイミングのみではなく、発話中もリアルタイムに更新される音声出力装置120の聞き取り難さスコアSおよび外部機器130毎の聞き取り難さスコア{Se1,Se2,Se3,・・・,Sem}を用いて、図10を参照して説明した音声出力機器決定処理を実行する。
音声出力機器に決定された機器の発話中にユーザ10が移動することによって、聞き取り難さスコアSおよび{Se1,Se2,Se3,・・・,Sem}が変化すると、音声出力機器決定処理により決定される機器が切り替わる。
ここで、図11乃至図13を参照して、音声出力機器が、外部機器Aから外部機器Bに切り替わる例について説明する。
図11は、音声出力装置120から音声出力機器へ発話音声のファイルが送信される場合の音声出力機器の切り替えの例を示している。
音声出力装置120は、外部機器Aに対して音声出力停止(中断)を指示する。外部機器Aは、音声出力停止指示を受けたタイミングから、音声出力のフェードアウトを開始し、数秒にかけてフェードアウトを完了することで、音声出力を停止する。
一方で、音声出力装置120は、外部機器Aに対する音声出力停止指示と同時に、外部機器Bに発話音声のファイルとファイル内の出力開始時間オフセット(外部機器Aに音声出力停止を指示した時刻)とを送信することで、外部機器Bに対して音声出力開始を指示する。外部機器Bは、発話音声のファイルの、出力開始時間オフセットで指定される位置からフェードインを開始し、数秒にかけてフェードインを完了することで、音声出力を開始する。
図12は、音声出力装置120から音声出力機器へ発話音声のストリーミングを行う場合の音声出力機器の切り替えの例を示している。
音声出力装置120は、外部機器Aへの音声ストリーミングのフェードアウトを開始すると同時に、外部機器Bへの音声ストリーミングのフェードインを開始する。音声出力装置120は、数秒にかけて、外部機器Aへの音声ストリーミングのフェードアウトと、外部機器Bへの音声ストリーミングのフェードインとを完了することで、音声出力機器の切り替えが完了する。
図13は、音声出力装置120から全ての外部機器へ発話音声をブロードキャストする場合の音声出力機器の切り替えの例を示している。
外部機器A,Bの両方に発話音声がブロードキャストされている状態で、音声出力装置120は、外部機器Aに対する音声出力停止と、外部機器Bに対する音声出力開始を同時に指示する。指示を受けたタイミングから、外部機器Aは音声出力のフェードアウトを開始し、外部機器Bは音声出力のフェードインを開始する。数秒にかけて、外部機器Aがフェードアウトを、外部機器Bがフェードインを、それぞれ完了することで、音声出力機器の切り替えが完了する。
(ホームエージェント機器がユーザを検出できない場合の例)
本実施の形態においては、ユーザがホームエージェント機器周辺に存在しないため、ホームエージェント機器がユーザを検出できず、ユーザの近傍に位置する外部機器がユーザを検出した場合、その外部機器を音声出力機器に決定するようにすることもできる。
ホームエージェント機器がユーザを検出できない場合、ユーザの位置が不明となるので、ユーザの位置での聞き取り難さスコアS,Sを算出することができない。
そこで、聞き取り難さスコア算出の例外処理として、音声出力装置120についての聞き取り難さスコアS、および、ユーザを検出していない外部機器130についての聞き取り難さスコアSを、V>Vmaxとなる大きい値に設定する。さらに、ユーザを検出した外部機器130についての聞き取り難さスコアSを、音声出力装置120についての聞き取り難さスコアS、および、ユーザを検出していない外部機器130についての聞き取り難さスコアSより小さい値に設定する。すなわち、ユーザを検出した外部機器130についての聞き取り難さスコアを、それ以外の機器についての聞き取り難さスコアより小さくする。
このような聞き取り難さスコアの設定により、図10を参照して説明した音声出力機器決定処理において、ユーザを検出した外部機器130が音声出力機器に決定されるようになり、その外部機器130から発話音声が出力される。
例えば、1階のリビングにホームエージェント機器が設置されているものの、リビングには誰もおらず、2階の寝室にユーザがおり、その寝室に設置されているPC(外部機器)に設けられているカメラがユーザを検出したとする。この場合、そのPCが音声出力機器に決定され、ホームエージェント機器からは発話音声が出力されず、そのPCから発話音声が出力される。これにより、2階の寝室にいるユーザに、通知発話を確実に伝えることができる。
(その他の変形例)
本実施の形態において、ホームエージェント機器(音声出力装置120)が、音声出力機器に決定された外部機器にヘッドホンやイヤホンが接続されていることを検知できるようにしてもよい。この場合、その外部機器とホームエージェント機器の両方から発話音声が出力されるようにする。
ヘッドホンやイヤホンは外部に音声を放射できないので、ユーザが、その外部機器に接続されているヘッドホンやイヤホンを装着していない場合であっても、上述した構成により、通知発話を確実にユーザに伝えることができる。
発話の冒頭に効果音を付与するようにしてもよい。この場合、外部機器からもその効果音が出力されるようにして、ホームエージェント機器の通知発話が出力されることをユーザに認識させるようにする。
ホームエージェント機器からの音声出力時と、外部機器からの音声出力時とで、通知発話テキストの内容を変えるようにしてもよい。
例えば、ホームエージェント機器本体の状態を通知する場合、ホームエージェント機器本体から出力される発話を「アップデートを行います」とし、外部機器から出力される発話を「ホームエージェント機器のアップデートを行います」とする。
また、ユーザの位置に応じて追加の情報を提供する場合、ホームエージェント機器本体から出力される発話を「画面を見てください」とし、外部機器から出力される発話を「ホームエージェント機器の前にある画面を見てください」とする。このとき、ホームエージェント機器が備えるプロジェクタで追加の情報が投影されるようにする。
外部機器が備えるカメラにより撮像された画像からユーザの位置が検出されなかった場合、その外部機器全てから発話音声が出力されるようにしてもよい。
騒音レベルが非常に大きく、聞き取り難さスコアが一定の値を超える場合、音声以外の手段で通知情報の提示が行われるようにしてもよい。例えば、ホームエージェント機器が備える視覚提示デバイスや、外部機器としてのテレビジョン受像機などの画面に、通知メッセージのテキストが表示されるようにする。また、外部機器がスマートフォンである場合には、そのバイブレーション機能により通知が行われるようにしてもよい。
特に緊急性の高い通知は、ユーザの声やジェスチャーによる了解行動が検知されるまで、音声出力装置120の聞き取り難さスコアSを高くして決定された特性の音声で、発話が繰り返し行われるようにしてもよい。さらに、了解行動が検知されない場合には、聞き取り難さスコアSの低い外部機器から順番に、発話が行われるようにしてもよい。
<4.第3の実施の形態>
本技術は、クラウドコンピューティングへ適用することもできる。
例えば、図14に示されるように、音声出力装置120は、自装置や外部機器130のセンシングにより得られた音声データおよび画像データを、クラウド200上のサーバに送信する。
クラウド200上のサーバにおいては、上述した実施の形態と同様にして、聞き取り難さスコア(聞き取り難さを示す情報)が算出される。算出された聞き取り難さスコアは、音声出力装置120に送信される。
音声出力装置120は、クラウド200上のサーバからの聞き取り難さスコアを用いて、上述した実施の形態と同様にして、音声パラメータの生成以降の処理を行う。
(サーバの機能構成例)
図15は、本技術を適用した第3の実施の形態のサーバの機能構成例を示している。
図15に示されるように、音声出力装置120は、ネットワーク210を介して、サーバ220と接続される。
サーバ220は、騒音検出処理部52、画像認識エンジン54、聞き取り難さ推定部55、および通信部251を備えている。
通信部251は、音声出力装置120からネットワーク210を介して送信されてくる音声データおよび画像データを受信する。
騒音検出処理部52、画像認識エンジン54、および聞き取り難さ推定部55によって行われる処理は、いわゆるWebAPI化された処理となる。この処理により、音声出力装置120からの音声データおよび画像データに基づいて、音声出力装置120および外部機器130の聞き取り難さを示す情報が算出され、出力される。
通信部251は、聞き取り難さを示す情報を、ネットワーク210を介して音声出力装置120に送信する。
ここで、聞き取り難さを示す情報は、各機器の聞き取り難さスコアの他、ユーザの位置での騒音レベル、ユーザからみた各機器と騒音源との角度差、および、各機器とユーザとの距離それぞれを表すパラメータの少なくともいずれかを含むものとする。
図16は、WebAPI処理結果として得られる聞き取り難さを示す情報の例を示している。
図16の例では、2つの騒音源と2つの外部機器が存在する場合の聞き取り難さを示す情報が、JSON(JavaScript Object Notation)形式で記述されている。
データ311乃至314は、ホームエージェント機器からの音声の聞き取り難さを示す情報を表している。
データ311は、ホームエージェント機器の聞き取り難さスコアSを示しており、その値は4.05とされる。
データ312は、ホームエージェント機器とユーザとの距離Dsuを示しており、その値は5(m)とされる。
データ313は、ユーザの位置での第1の騒音源の騒音レベルNu1、および、ユーザからみたホームエージェント機器と第1の騒音源との角度差θu1を示しており、その値はそれぞれ0.8および20(°)とされる。
データ314は、ユーザの位置での第2の騒音源の騒音レベルNu2、および、ユーザからみたホームエージェント機器と第2の騒音源との角度差θu2を示しており、その値はそれぞれ0.5および130(°)とされる。
データ321乃至324は、第1の外部機器からの音声の聞き取り難さを示す情報を表している。
データ321は、第1の外部機器の聞き取り難さスコアSe1を示しており、その値は1.35とされる。
データ322は、第1の外部機器とユーザとの距離Deuを示しており、その値は3(m)とされる。
データ323は、ユーザの位置での第1の騒音源の騒音レベルNu1、および、ユーザからみた第1の外部機器と第1の騒音源との角度差θe1を示しており、その値はそれぞれ0.8および30(°)とされる。
データ324は、ユーザの位置での第2の騒音源の騒音レベルNu2、および、ユーザからみた第1の外部機器と第2の騒音源との角度差θe2を示しており、その値はそれぞれ0.5および110(°)とされる。
データ331乃至334は、第2の外部機器からの音声の聞き取り難さを示す情報を表している。
データ331は、第2の外部機器の聞き取り難さスコアSe2を示しており、その値は6.28とされる。
データ332は、第2の外部機器とユーザとの距離Deuを示しており、その値は8(m)とされる。
データ333は、ユーザの位置での第1の騒音源の騒音レベルNu1、および、ユーザからみた第2の外部機器と第1の騒音源との角度差θe2を示しており、その値はそれぞれ0.8および70(°)とされる。
データ334は、ユーザの位置での第2の騒音源の騒音レベルNu2、および、ユーザからみた第2の外部機器と第2の騒音源との角度差θe2を示しており、その値はそれぞれ0.5および10(°)とされる。
以上のような処理結果が、音声出力装置120に返されることで、音声出力装置120または外部機器130のいずれかが、音声出力機器に決定されて音声を出力する。
図16の例においては、ユーザとの距離が最も近く、聞き取り難さスコアが最も小さい第1の外部機器が、音声出力機器に決定されると考えられる。
<5.その他>
以上においては、本技術を、家庭内で利用されるホームエージェント機器に適用した例について説明したが、屋外で利用される機器に適用されるようにしてもよい。
具体的には、本技術を、屋外において特定の人に対して音声を出力する機器に適用することができる。
例えば、本技術をデジタルサイネージに適用した場合、その周囲の騒音状況と、通行人やそのデジタルサイネージを立ち止まって見ている人の位置とに応じて、合成音声の特性を適応的に制御することできる。
また、本技術を携帯型の自動翻訳機に適用した場合、相手に確実に聞こえるように、翻訳された合成音声を出力することができる。
さらに、本技術をインターホンの室外機に適用した場合、音声合成は用いないものの、相手の周囲の騒音状況と、相手の位置とに応じて、高域強調と音量とを適応的に調整することができる。
なお、屋内においては、特定の方向からの入力音声ではない、雑踏による騒音が大きい。このため、仮想的な騒音源として、ユーザの位置での騒音レベルを、騒音検出処理部52による音源分離により細分化された各方向の音声成分のレベルの最小値とし、騒音源の方向を、音声出力機器本体と同じ方向としたものを追加する。これにより、雑踏の騒音による聞き取り難さを考慮した音声出力制御を行うことができる。
具体的には、図4において、角度差θを0°とし、騒音レベルNを音声出力機器の位置で観測された各方向の騒音レベルの最小値とした騒音源を、雑踏による騒音の騒音源として追加することで、ユーザの位置での聞き取り難さスコアSを算出する。
また、屋外においては、緊急車両のサイレンや、街頭での宣伝・演説など、特定の方向からの騒音も存在する。屋外では、家庭内と比較して、カメラが撮像した画像によって騒音源までの距離を検出することが難しいことが想定される。そこで、屋外では、家庭内と比較して、騒音源が遠い位置にあることを踏まえて、音声出力機器から騒音源までの距離Dnsが検出されなかった場合、騒音源までの距離Dnsを無限遠と仮定する。この場合、図4において、θ=180°−θ,N=Nとして、ユーザの位置での聞き取り難さスコアSを算出する。
なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
さらに、本技術は以下のような構成をとることができる。
(1)
ユーザに向けて音声出力可能な機器において取得された画像と所定の騒音源からの騒音とに基づいて、前記ユーザの位置での前記機器からの音声の聞き取り難さを示す情報を出力する処理部
を備える情報処理装置。
(2)
前記処理部は、前記情報として、前記ユーザの位置での騒音レベル、前記ユーザからみた前記機器と前記騒音源との角度差、および、前記機器と前記ユーザとの距離を用いて算出される聞き取り難さスコアを出力する
(1)に記載の情報処理装置。
(3)
前記処理部は、前記情報として、前記ユーザの位置での騒音レベル、前記ユーザからみた前記機器と前記騒音源との角度差、および、前記機器と前記ユーザとの距離それぞれを表すパラメータを出力する
(1)に記載の情報処理装置。
(4)
前記処理部は、前記情報として、前記ユーザの位置での騒音レベル、前記ユーザからみた前記機器と前記騒音源との角度差、および、前記機器と前記ユーザとの距離それぞれを表すパラメータ、並びに、それらを用いて算出される聞き取り難さスコアの少なくともいずれかを出力する
(1)に記載の情報処理装置。
(5)
前記処理部は、前記騒音源が複数ある場合、前記騒音源毎に、前記ユーザの位置での騒音レベル、および、前記ユーザからみた前記機器と前記騒音源との角度差を算出する
(2)乃至(4)のいずれかに記載の情報処理装置。
(6)
前記処理部は、前記機器に接続された音声出力可能な他の機器の位置に基づいて、前記ユーザの位置での前記他の機器からの音声の聞き取り難さを示す他の情報をさらに出力する
(1)乃至(5)のいずれかに記載の情報処理装置。
(7)
前記機器として、前記ユーザに向けて音声を出力するように構成される
(1)乃至(6)のいずれかに記載の情報処理装置。
(8)
前記ユーザの位置での音声の聞き取り難さを示す前記情報を用いて、前記ユーザに向けて出力される音声の特性を決定するパラメータを生成することで、前記音声の出力を制御する音声出力制御部をさらに備える
(7)に記載の情報処理装置。
(9)
前記音声出力制御部は、前記パラメータにより決定される前記音声の音量が、出力可能な音量の上限を超える場合、前記機器に接続された音声出力可能な他の機器を、前記音声を出力する音声出力機器に決定する
(8)に記載の情報処理装置。
(10)
前記音声出力制御部は、前記ユーザによる前記他の機器の使用状況に基づいて、前記他の機器を、前記音声出力機器に決定する
(9)に記載の情報処理装置。
(11)
前記音声出力制御部は、前記ユーザとの距離がより近い前記他の機器を、前記音声出力機器に決定する
(9)に記載の情報処理装置。
(12)
前記音声出力制御部は、前記ユーザからみた前記騒音源との角度差がより大きい前記他の機器を、前記音声出力機器に決定する
(9)に記載の情報処理装置。
(13)
ユーザに向けて音声出力可能な機器において取得された画像と所定の騒音源からの騒音とに基づいて、前記ユーザの位置での前記機器からの音声の聞き取り難さを示す情報を出力する
ステップを含む情報処理方法。
(14)
自装置において取得された画像と所定の騒音源からの騒音とに基づいて生成された、ユーザの位置での前記自装置からの音声の聞き取り難さを示す情報を用いて、前記ユーザに向けて出力される音声の特性を決定するパラメータを生成することで、前記音声の出力を制御する音声出力制御部
を備える音声出力装置。
(15)
前記情報は、前記ユーザの位置での騒音レベル、前記ユーザからみた前記自装置と前記騒音源との角度差、および前記自装置と前記ユーザとの距離を用いて算出される聞き取り難さスコアである
(14)に記載の音声出力装置。
(16)
前記情報は、前記ユーザの位置での騒音レベル、前記ユーザからみた前記自装置と前記騒音源との角度差、および、前記自装置と前記ユーザとの距離それぞれを表すパラメータである
(14)に記載の音声出力装置。
(17)
前記情報は、前記ユーザの位置での騒音レベル、前記ユーザからみた前記自装置と前記騒音源との角度差、および、前記自装置と前記ユーザとの距離それぞれを表すパラメータ、並びに、それらを用いて算出される聞き取り難さスコアの少なくともいずれかである
(14)に記載の音声出力装置。
(18)
自装置において取得された画像と所定の騒音源からの騒音とに基づいて生成された、ユーザの位置での前記自装置からの音声の聞き取り難さを示す情報を用いて、前記ユーザに向けて出力される前記音声の特性を決定するパラメータを生成することで、前記音声の出力を制御する
ステップを含む音声出力方法。
20 音声出力装置, 51 音声入力デバイス, 52 騒音検出処理部, 53 センサデバイス, 54 画像認識エンジン, 55 聞き取り難さ推定部, 56 音声出力制御部, 57 通知発話テキスト, 58 音声合成エンジン, 59 出力音声信号処理部, 60 音声再生デバイス, 120 音声出力装置, 130 外部機器, 200 クラウド, 210 ネットワーク, 220 サーバ

Claims (16)

  1. ユーザに向けて音声出力可能な機器において取得された画像と所定の騒音源からの騒音とに基づいて、前記ユーザの位置での前記機器からの音声の聞き取り難さを示す情報として、前記ユーザの位置での騒音レベル、前記ユーザからみた前記機器と前記騒音源との角度差、および、前記機器と前記ユーザとの距離それぞれを表すパラメータ、並びに、それらを用いて算出される聞き取り難さスコアの少なくともいずれかを出力する処理部
    を備える情報処理装置。
  2. 前記処理部は、前記情報として、前記ユーザの位置での騒音レベル、前記ユーザからみた前記機器と前記騒音源との角度差、および、前記機器と前記ユーザとの距離を用いて算出される聞き取り難さスコアを出力する
    請求項1に記載の情報処理装置。
  3. 前記処理部は、前記情報として、前記ユーザの位置での騒音レベル、前記ユーザからみた前記機器と前記騒音源との角度差、および、前記機器と前記ユーザとの距離それぞれを表すパラメータを出力する
    請求項1に記載の情報処理装置。
  4. 前記処理部は、前記騒音源が複数ある場合、前記騒音源毎に、前記ユーザの位置での騒音レベル、および、前記ユーザからみた前記機器と前記騒音源との角度差を算出する
    請求項2に記載の情報処理装置。
  5. 前記処理部は、前記機器に接続された音声出力可能な他の機器の位置に基づいて、前記ユーザの位置での前記他の機器からの音声の聞き取り難さを示す他の情報をさらに出力する
    請求項1乃至4のいずれかに記載の情報処理装置。
  6. 前記機器として、前記ユーザに向けて音声を出力するように構成される
    請求項1乃至5のいずれかに記載の情報処理装置。
  7. 前記ユーザの位置での音声の聞き取り難さを示す前記情報を用いて、前記ユーザに向けて出力される音声の特性を決定するパラメータを生成することで、前記音声の出力を制御する音声出力制御部をさらに備える
    請求項に記載の情報処理装置。
  8. 前記音声出力制御部は、前記パラメータにより決定される前記音声の音量が、出力可能な音量の上限を超える場合、前記機器に接続された音声出力可能な他の機器を、前記音声を出力する音声出力機器に決定する
    請求項に記載の情報処理装置。
  9. 前記音声出力制御部は、前記ユーザによる前記他の機器の使用状況に基づいて、前記他の機器を、前記音声出力機器に決定する
    請求項に記載の情報処理装置。
  10. 前記音声出力制御部は、前記ユーザとの距離がより近い前記他の機器を、前記音声出力機器に決定する
    請求項に記載の情報処理装置。
  11. 前記音声出力制御部は、前記ユーザからみた前記騒音源との角度差がより大きい前記他の機器を、前記音声出力機器に決定する
    請求項に記載の情報処理装置。
  12. ユーザに向けて音声出力可能な機器において取得された画像と所定の騒音源からの騒音とに基づいて、前記ユーザの位置での前記機器からの音声の聞き取り難さを示す情報として、前記ユーザの位置での騒音レベル、前記ユーザからみた前記機器と前記騒音源との角度差、および、前記機器と前記ユーザとの距離それぞれを表すパラメータ、並びに、それらを用いて算出される聞き取り難さスコアの少なくともいずれかを出力する
    ステップを含む情報処理方法。
  13. 自装置において取得された画像と所定の騒音源からの騒音とに基づいて生成された、ユーザの位置での前記自装置からの音声の聞き取り難さを示す情報として、前記ユーザの位置での騒音レベル、前記ユーザからみた前記自装置と前記騒音源との角度差、および、前記自装置と前記ユーザとの距離それぞれを表すパラメータ、並びに、それらを用いて算出される聞き取り難さスコアの少なくともいずれかを用いて、前記ユーザに向けて出力される音声の特性を決定するパラメータを生成することで、前記音声の出力を制御する音声出力制御部
    を備える音声出力装置。
  14. 前記情報は、前記ユーザの位置での騒音レベル、前記ユーザからみた前記自装置と前記騒音源との角度差、および前記自装置と前記ユーザとの距離を用いて算出される聞き取り難さスコアである
    請求項13に記載の音声出力装置。
  15. 前記情報は、前記ユーザの位置での騒音レベル、前記ユーザからみた前記自装置と前記騒音源との角度差、および、前記自装置と前記ユーザとの距離それぞれを表すパラメータである
    請求項13に記載の音声出力装置。
  16. 自装置において取得された画像と所定の騒音源からの騒音とに基づいて生成された、ユーザの位置での前記自装置からの音声の聞き取り難さを示す情報として、前記ユーザの位置での騒音レベル、前記ユーザからみた前記自装置と前記騒音源との角度差、および、前記自装置と前記ユーザとの距離それぞれを表すパラメータ、並びに、それらを用いて算出される聞き取り難さスコアの少なくともいずれかを用いて、前記ユーザに向けて出力される前記音声の特性を決定するパラメータを生成することで、前記音声の出力を制御する
    ステップを含む音声出力方法。
JP2019513538A 2017-04-17 2018-04-03 情報処理装置、情報処理方法、音声出力装置、および音声出力方法 Active JP6977768B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017081035 2017-04-17
JP2017081035 2017-04-17
PCT/JP2018/014200 WO2018193826A1 (ja) 2017-04-17 2018-04-03 情報処理装置、情報処理方法、音声出力装置、および音声出力方法

Publications (2)

Publication Number Publication Date
JPWO2018193826A1 JPWO2018193826A1 (ja) 2020-02-27
JP6977768B2 true JP6977768B2 (ja) 2021-12-08

Family

ID=63855785

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019513538A Active JP6977768B2 (ja) 2017-04-17 2018-04-03 情報処理装置、情報処理方法、音声出力装置、および音声出力方法

Country Status (4)

Country Link
US (1) US11232781B2 (ja)
EP (1) EP3614692A4 (ja)
JP (1) JP6977768B2 (ja)
WO (1) WO2018193826A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102420567B1 (ko) * 2017-12-19 2022-07-13 삼성전자주식회사 음성 인식 장치 및 방법
JP7194897B2 (ja) * 2018-12-06 2022-12-23 パナソニックIpマネジメント株式会社 信号処理装置及び信号処理方法
US11043204B2 (en) * 2019-03-18 2021-06-22 Servicenow, Inc. Adaptable audio notifications

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4161490B2 (ja) 1999-11-30 2008-10-08 ソニー株式会社 音響信号出力制御装置および音響信号出力制御方法、並びに記録媒体
JP5464815B2 (ja) 2008-03-25 2014-04-09 オリンパスメディカルシステムズ株式会社 撮像システムおよび撮像システムのセルフチェック処理の動作方法
US9224395B2 (en) * 2008-07-02 2015-12-29 Franklin S. Felber Voice detection for automatic volume controls and voice sensors
JP2010200280A (ja) 2009-02-27 2010-09-09 Canon Inc 出力システム、出力制御装置、出力制御方法、及びプログラム
JP2012255852A (ja) 2011-06-08 2012-12-27 Panasonic Corp テレビジョン装置
US9692380B2 (en) 2015-04-08 2017-06-27 Google Inc. Dynamic volume adjustment
US10147439B1 (en) * 2017-03-30 2018-12-04 Amazon Technologies, Inc. Volume adjustment for listening environment

Also Published As

Publication number Publication date
US20200051546A1 (en) 2020-02-13
EP3614692A1 (en) 2020-02-26
EP3614692A4 (en) 2020-04-29
WO2018193826A1 (ja) 2018-10-25
JPWO2018193826A1 (ja) 2020-02-27
US11232781B2 (en) 2022-01-25

Similar Documents

Publication Publication Date Title
Launer et al. Hearing aid signal processing
JP6977768B2 (ja) 情報処理装置、情報処理方法、音声出力装置、および音声出力方法
CN108235181B (zh) 在音频处理装置中降噪的方法
CN109410973B (zh) 变声处理方法、装置和计算机可读存储介质
CN114902688B (zh) 内容流处理方法和装置、计算机系统和介质
CN113905320B (zh) 为考虑语音检测而调节声音回放的方法和系统
EP3777114B1 (en) Dynamically adjustable sidetone generation
CN115482830B (zh) 语音增强方法及相关设备
KR20220044204A (ko) 분산형 오디오 디바이스들을 위한 음향 반향 소거 제어
US20240096343A1 (en) Voice quality enhancement method and related device
US11211080B2 (en) Conversation dependent volume control
JP6849054B2 (ja) 会話装置、音声処理システム、音声処理方法、および音声処理プログラム
CN109841223B (zh) 一种音频信号处理方法、智能终端及存储介质
RU2818982C2 (ru) Управление акустической эхокомпенсацией для распределенных аудиоустройств
JP2020201337A (ja) 音声処理装置及び音声処理方法
US12003673B2 (en) Acoustic echo cancellation control for distributed audio devices
JP7459391B2 (ja) オーディオソース指向性に基づく心理音響的強調
CN113314121B (zh) 无声语音识别方法、装置、介质、耳机及电子设备
US20240087597A1 (en) Source speech modification based on an input speech characteristic
US20220360899A1 (en) Dynamics processing across devices with differing playback capabilities
EP4158625A1 (en) A own voice detector of a hearing device
CN116783900A (zh) 基于子带域声学回声消除器的声学状态估计器
CN115580678A (zh) 一种数据处理方法、装置和设备
JP6409378B2 (ja) 音声通信装置およびプログラム
TWI566240B (zh) 音訊處理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210824

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210917

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211012

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211025

R151 Written notification of patent or utility model registration

Ref document number: 6977768

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151