JP7151724B2 - 制御処理装置および制御処理方法、並びにプログラム - Google Patents

制御処理装置および制御処理方法、並びにプログラム Download PDF

Info

Publication number
JP7151724B2
JP7151724B2 JP2019562968A JP2019562968A JP7151724B2 JP 7151724 B2 JP7151724 B2 JP 7151724B2 JP 2019562968 A JP2019562968 A JP 2019562968A JP 2019562968 A JP2019562968 A JP 2019562968A JP 7151724 B2 JP7151724 B2 JP 7151724B2
Authority
JP
Japan
Prior art keywords
volume
unit
user
reproduction
element data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019562968A
Other languages
English (en)
Other versions
JPWO2019131159A1 (ja
Inventor
和也 立石
裕一郎 小山
典子 戸塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2019131159A1 publication Critical patent/JPWO2019131159A1/ja
Application granted granted Critical
Publication of JP7151724B2 publication Critical patent/JP7151724B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Receiver Circuits (AREA)

Description

本開示は、制御処理装置および制御処理方法、並びにプログラムに関し、特に、コンテンツの再生音量が最適となるように迅速に制御することができるようにした制御処理装置および制御処理方法、並びにプログラムに関する。
近年、コンテンツを再生する再生装置において、音声認識を利用してコンテンツの再生を制御する技術が普及している。例えば、再生装置は、ユーザが「ボリュームアップ」と発話するのに応じて再生中のコンテンツの音量を上昇させたり、ユーザが「ボリュームダウン」と発話するのに応じて再生中のコンテンツの音量を低下させたりすることができる。また、ユーザが「ボリューム12」や「ボリューム5」などのように音量を指定する発話を行うと、再生装置は、その音量となるように、再生中のコンテンツの音量を調整することができる。
ところで、「ボリュームアップ」または「ボリュームダウン」の発話に応じて、音量を調整可能な音量ステップの1ステップずつ音量を変化させるような制御が行われる場合、ユーザは、所望の音量となるまで、同じ発話を繰り返して行う必要があった。
そこで、例えば、特許文献1に開示されているように、一回の発話で機器の制御が繰り返し実行され、かつ、繰り返し実行される機器の制御を中止するタイミングを取り易い音声認識制御装置が開発されている。
特開2000-104025号公報
ところで、上述した特許文献1の音声認識制御装置では、ユーザの声の大きさに基づいて音量変更ステップの大きさを制御することができ、車やモバイル機器のようなユーザと機器との位置が一意に決まる使用環境では、そのような制御は有効であると考えられる。これに対し、近年普及が進んでいるAI(Artificial Intelligence)スピーカのようなホームエージェント機器においては、ユーザと機器との位置や距離などが毎回異なることより、コンテンツの再生音量を正常に制御することができない可能性があると懸念されている。
また、上述したように、発話により音量の調整を行うときに、周囲の雑音環境や、再生中のコンテンツの種類、緊迫度などの各種の状況に応じて、ユーザが最適と思う音量が異なることがある。そのため、ユーザが最適と思う音量となるように、コンテンツの再生音量を迅速に制御することが困難となる状況があった。
本開示は、このような状況に鑑みてなされたものであり、コンテンツの再生音量が最適となるように迅速に制御することができるようにするものである。
本開示の一側面の制御処理装置は、ユーザがコンテンツの再生音量の変更を指示するコマンドを発話したときに取得された要素データに基づいて、再生中のコンテンツの再生音量を調整する第1の音量ステップを仮決定する仮決定部と、前記コマンドを発話したときのユーザの視聴環境を表すユーザモデル情報に基づいて、過去に類似する視聴状況であったときの最適再生音量となるように、再生中のコンテンツの再生音量を調整する第2の音量ステップを取得するユーザモデル音量ステップ取得部と、前記第1の音量ステップ、および、前記第2の音量ステップを用いた演算を行って、第3の音量ステップを最終的に決定する最終決定部とを備える。
本開示の一側面の制御処理方法は、再生音量を制御する制御処理装置が、ユーザがコンテンツの再生音量の変更を指示するコマンドを発話したときに取得された要素データに基づいて、再生中のコンテンツの再生音量を調整する第1の音量ステップを仮決定することと、前記コマンドを発話したときのユーザの視聴環境を表すユーザモデル情報に基づいて、過去に類似する視聴状況であったときの最適再生音量となるように、再生中のコンテンツの再生音量を調整する第2の音量ステップを取得することと、前記第1の音量ステップ、および、前記第2の音量ステップを用いた演算を行って、第3の音量ステップを最終的に決定することとを含む。
本開示の一側面のプログラムは、再生音量を制御する制御処理装置のコンピュータに、ユーザがコンテンツの再生音量の変更を指示するコマンドを発話したときに取得された要素データに基づいて、再生中のコンテンツの再生音量を調整する第1の音量ステップを仮決定することと、前記コマンドを発話したときのユーザの視聴環境を表すユーザモデル情報に基づいて、過去に類似する視聴状況であったときの最適再生音量となるように、再生中のコンテンツの再生音量を調整する第2の音量ステップを取得することと、前記第1の音量ステップ、および、前記第2の音量ステップを用いた演算を行って、第3の音量ステップを最終的に決定することとを含む制御処理を実行させる。
本開示の一側面においては、ユーザがコンテンツの再生音量の変更を指示するコマンドを発話したときに取得された要素データに基づいて、再生中のコンテンツの再生音量を調整する第1の音量ステップが仮決定され、コマンドを発話したときのユーザの視聴環境を表すユーザモデル情報に基づいて、過去に類似する視聴状況であったときの最適再生音量となるように、再生中のコンテンツの再生音量を調整する第2の音量ステップが取得され、第1の音量ステップ、および、第2の音量ステップを用いた演算が行われて、第3の音量ステップが最終的に決定される。
本開示の一側面によれば、コンテンツの再生音量が最適となるように迅速に制御することができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術を適用した音声コンテンツ再生装置の一実施の形態の構成例を示すブロック図である。 スコア算出用の要素データの一例を示す図である。 ユーザモデル情報の一例を示す図である。 最適音量決定処理部の構成例を示すブロック図である。 シグモイド関数の一例を示す図である。 統合スコアを音量ステップに変換する変換テーブルの一例を示す図である。 再生音量の制御例を説明する図である。 シグモイド関数のセンター値をシフトさせる例を説明する図である。 シグモイド関数のセンター値をシフトさせる例を説明する図である。 最適音量決定処理を説明するフローチャートである。 再生音量仮決定処理を説明するフローチャートである。 ユーザモデル参照処理を説明するフローチャートである。 補正係数更新処理を説明するフローチャートである。 本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
<音量制御処理装置の構成例>
図1は、本技術を適用した音声コンテンツ再生装置の一実施の形態の構成例を示すブロック図である。
図1に示すように、音声コンテンツ再生装置11は、収音部12、撮像部13、人感センサ14、出力部15、および再生音量制御部16を備えて構成される。例えば、音声コンテンツ再生装置11は、図示しないストレージに蓄積されている音声コンテンツや、ネットワークを介して配信される音声コンテンツなどの再生中に、ユーザの発話に従って、再生音量が最適なものとなるように制御することができる。
収音部12は、例えば、複数のマイクロホンを有して構成され、音声コンテンツ再生装置11の周囲の雑音や、音声コンテンツ再生装置11に対するユーザの発話などを、それぞれのマイクロホンにより収音する。そして、収音部12は、周囲の雑音やユーザの発話などを示す音声信号を、再生音量制御部16に供給する。
撮像部13は、例えば、CMOS(Complementary Metal Oxide Semiconductor)イメージセンサなどの撮像素子を有して構成され、音声コンテンツ再生装置11の周囲を撮像して得られる画像を表す画像信号を、再生音量制御部16に供給する。
人感センサ14は、例えば、赤外線を検出する赤外線センサを有して構成され、音声コンテンツ再生装置11に近接するユーザを検出し、ユーザの検出結果を示すセンサ信号を再生音量制御部16に供給する。
出力部15は、例えば、音声を出力するためのスピーカを有して構成され、音声コンテンツ再生装置11において再生される音声コンテンツを出力する。
再生音量制御部16は、収音部12から供給される音声信号、撮像部13から供給される画像信号、および、人感センサ14から供給されるセンサ信号に基づいて、出力部15から出力される音声コンテンツの再生音量を、ユーザの発話に従って制御する。図示するように、再生音量制御部16は、信号処理部21、メモリ22、音声処理部23、最適音量決定処理部24、および再生音量制御部25が、バス26を介して接続されて構成される。
信号処理部21は、ユーザ位置推定部31、発話音量算出部32、および雑音環境学習部33を備えて構成され、再生音量制御部16に供給される音声信号、画像信号、およびセンサ信号に対する信号処理を行う。
ユーザ位置推定部31は、人感センサ14から供給されるセンサ信号に従ってユーザの近接を検出すると、撮像部13から供給される画像信号により表される画像に写されているユーザから、音声コンテンツ再生装置11に対するユーザの位置を推定する。または、ユーザ位置推定部31は、収音部12が有する複数のマイクロホンにより収音される音声の時間差などに基づいて、ユーザの位置を推定してもよい。このとき、ユーザ位置推定部31は、ユーザの位置に対する方向の推定をマイクロホンを利用して行い、ユーザの位置までの距離の推定を1台以上のカメラや、その他の測距可能なセンサなどを利用して行うというように、複数の機器を組み合わせて利用することで効率的にユーザの位置を推定することができる。そして、ユーザ位置推定部31は、推定したユーザ位置を、バス26を介して最適音量決定処理部24に供給する。
発話音量算出部32は、収音部12から供給される音声信号に従って、音声コンテンツ再生装置11に対してユーザが発話した際の音声の大きさを示す発話音量を算出し、バス26を介して最適音量決定処理部24に供給する。
雑音環境学習部33は、収音部12から供給される音声信号に従って、音声コンテンツ再生装置11の周囲の雑音の大きさを求め、音声コンテンツ再生装置11の周囲における定常的な雑音環境を学習する。そして、雑音環境学習部33は、その学習を行うことで求めた音声コンテンツ再生装置11の周囲の雑音環境を、バス26を介して最適音量決定処理部24に供給する。
メモリ22には、再生音量制御部16において音声コンテンツの再生音量を制御するのに必要となる情報を記憶する各種の記憶部が設けられ、図1に示す例では、再生コンテンツ情報記憶部41、ユーザモデル記憶部42、および設定記憶部43が設けられている。再生コンテンツ情報記憶部41は、再生中の音声コンテンツの種類を示す再生コンテンツ情報を記憶する。ユーザモデル記憶部42は、後述するようなユーザモデル情報に従って特定されるユーザの視聴環境に対応付けて最適再生音量を記憶する。設定記憶部43は、再生中の音声コンテンツの音量などの設定を記憶する。
音声処理部23には、音声コンテンツ再生装置11に対して発話したユーザの音声を示す音声信号が信号処理部21を介して供給される。そして、音声処理部23は、ユーザの音声に対する音声処理を行って得られる音声処理結果を、バス26を介して最適音量決定処理部24に供給する。
例えば、音声処理部23は、ユーザの音声に基づいた発話内容を認識して文字列に変換する音声認識処理を行って、その文字列により表される発話内容を音声処理結果として最適音量決定処理部24に供給する。また、音声処理部23は、ユーザの音声の特徴を推定する音声特徴推定処理を行って、その特徴により求められる話し方(緊迫度)を音声処理結果として最適音量決定処理部24に供給する。なお、音声処理部23が行う音声処理は、例えば、ネットワークを介して接続される高性能な情報処理装置で行ってもよく、音声処理部23は、その情報処理装置で音声処理された音声処理結果を取得するようにしてもよい。
最適音量決定処理部24は、ユーザ位置推定部31により推定されるユーザ位置、発話音量算出部32により算出される発話音量、雑音環境学習部33により学習された雑音環境、メモリ22に記憶されている各種の情報、および、音声処理部23による音声処理結果に基づいて、音声コンテンツの最適な再生音量を決定する。
例えば、最適音量決定処理部24は、ユーザがコマンドを発話した際の音量または話し方や、そのユーザまでの距離、音声コンテンツ再生装置11の周囲の雑音環境などの要素データから、最適な再生音量に調整するための音量ステップを仮決定する。そして、最適音量決定処理部24は、仮決定された音量ステップに対して、ユーザモデル情報に基づく過去の類似の視聴環境における最適再生音量から求められる音量ステップを統合し、最適な再生音量に調整するための音量ステップを最終的に決定する。
再生音量制御部25は、最適音量決定処理部24により最終的に決定された音量ステップに従って、再生中のコンテンツの再生音量を調整する制御を行う。
このように音声コンテンツ再生装置11は構成されており、ユーザの発話に従って、再生中の音声コンテンツの再生音量が最適となるように迅速に制御することができる。
ここで、最適音量決定処理部24が、最適な再生音量に調整するための音量ステップを仮決定するのに用いる要素データ、および、仮決定された音量ステップから、音量ステップを最終的に決定するのに用いるユーザモデル情報について説明する。
図2には、各種の要素データと、それぞれの要素データを表す状況例の一例が示されている。例えば、要素データ「雑音環境」は状況例「静か、普通、うるさい」により表され、要素データ「発話音量」は状況例「静か、普通、うるさい」により表される。また、要素データ「話者距離」は状況例「近い、普通、遠い」により表され、要素データ「話し方」は状況例「普通、緊迫」により表され、要素データ「再生音量」は状況例「無音、小さい、普通、大きい」により表される。
図3には、各種のユーザモデル情報と、それぞれのユーザモデル情報を表す状況例の一例が示されている。例えば、ユーザモデル情報「視聴位置」は状況例「ソファやキッチンなど、実際にはユーザごとの角度情報」により表され、ユーザモデル情報「再生コンテンツ」は状況例「無音、ラジオ、ニュース、音楽、システム会話」により表される。また、ユーザモデル情報「視聴時間」は状況例「平日帰宅後や、週末昼など」により表される。そして、これらのユーザモデル情報の状況例の組み合わせが、ユーザの視聴環境として用いられる。また、撮像部13により撮像された画像に写されているユーザの顔認証処理や、音声処理部23による音声に基づくユーザ認識処理などを利用して、複数のユーザの識別することができ、それぞれのユーザごとのユーザモデル情報が取得される。
図4を参照して、最適音量決定処理部24の構成例について説明する。
図4に示すように、最適音量決定処理部24は、コマンド検出部51、要素データ取得部52、ユーザモデル取得部53、要素データ正規化部54、スコア統合部55、緊迫度設定部56、類似度算出部57、優先度補正部58、類似度重み変換部59、音量ステップ変換部60、再生音量仮決定部61、最終再生音量決定部62、音量ステップ制御部63、補正係数更新部64、およびユーザモデル更新部65を備えて構成される。
コマンド検出部51は、音声処理部23から音声処理結果として供給される発話内容に基づいてユーザが発話したコマンドのうち、音声コンテンツの再生音量の変更を指示するコマンドを検出する。そして、コマンド検出部51は、音声コンテンツの再生音量の変更を指示するコマンドを検出したことをユーザモデル取得部53に通知する。
さらに、コマンド検出部51は、検出したコマンドに応じて、再生音量仮決定部61が再生音量を仮決定する際に参照する変換テーブルの有効領域を限定するように、再生音量仮決定部61に対する指示を行う。例えば、コマンド検出部51は、「ボリュームアップ」や「音量上げて」などのように、コンテンツの再生音量の上昇を指示するコマンドを検出した場合、変換テーブルの有効領域を音量アップゾーンに限定するように、再生音量仮決定部61に対する指示を行う。一方、コマンド検出部51は、「ボリュームダウン」や「音量下げて」などのように、コンテンツの再生音量の低下を指示するコマンドを検出した場合、変換テーブルの有効領域を音量ダウンゾーンに限定するように、再生音量仮決定部61に対する指示を行う。
要素データ取得部52は、ユーザ位置推定部31により推定されるユーザ位置、発話音量算出部32により算出される発話音量、雑音環境学習部33により学習された雑音環境、メモリ22に記憶されている各種の情報、および、音声処理部23による音声処理結果から、図2を参照して上述したような要素データを取得し、要素データ正規化部54に供給する。例えば、要素データ取得部52は、要素データとして、音声コンテンツ再生装置11の周囲の雑音の大きさを示す雑音レベル、ユーザがコマンドを発話したときの音声の大きさを示す発話レベル、音声コンテンツ再生装置11からユーザまでの距離を示す話者距離、および、ユーザがコマンドを発話した際の話し方を取得する。
ユーザモデル取得部53は、音声コンテンツの再生音量の変更を指示するコマンドを検出したことがコマンド検出部51により通知されると、そのコマンドを発話したユーザの現在のユーザモデル情報を取得して、類似度算出部57に供給する。例えば、ユーザモデル取得部53は、ユーザ位置推定部31により推定されるユーザ位置をユーザの現在の視聴位置として取得し、再生コンテンツ情報記憶部41から再生中の音声コンテンツの種類を取得し、現在の時間を視聴時間として取得する。
要素データ正規化部54は、要素データ取得部52から供給される単位の異なる複数の要素データを、所定のスコア算出式に従って正規化することによって、複数の要素データのスコアを求め、スコア統合部55に供給する。例えば、要素データ正規化部54は、図5に示すようなシグモイド関数を利用して、要素データを0から1までの値に正規化することにより、要素データのスコアを求めることができる。また、要素データ正規化部54は、要素データ取得部52から供給される複数の要素データのうち、話し方を正規化したスコアを、緊迫度設定部56に供給する。
例えば、要素データ正規化部54は、要素データの雑音レベルについて、-40dBAの雑音レベルをスコアのセンター値(0.5)とし、雑音レベルが-40dBAより大きくなるとスコアが1に近づき、雑音レベルが-40dBAより小さくなるとスコアが0に近づくように雑音レベルを正規化する。また、要素データ正規化部54は、要素データの話者距離について、2mの話者距離をスコアのセンター値(0.5)とし、話者距離が2mより大きくなるとスコアが1に近づき、話者距離が2mより小さくなるとスコアが0に近づくように話者距離を正規化する。
このような正規化には、図5に示すシグモイド関数を利用することができ、要素データ正規化部54には、初期値として、例えば、上述の例における-40dBAや2mなどのセンター値c(n)が要素データごとに与えられる。例えば、センター値c(n)は、個々の音声コンテンツ再生装置11の挙動に合わせて、設計者が設定する必要がある。従って、全ての要素データがセンター値c(n)となるような環境では、最適な再生音量は設計者のポリシーにより決定される。そして、要素データがセンター値c(n)から離れているズレ量が、再生音量を変化させたい変化量となる。
スコア統合部55は、要素データ正規化部54により要素データから求められたスコアを統合することにより求められる統合スコア、例えば、全てのスコアの平均を算出することにより求められる統合スコアを、優先度補正部58に供給する。
具体的には、雑音レベル、発話レベル、話者距離などの要素データの観測値を、f(1),f(2),f(3)とすると、それぞれ単位が異なることより、要素データ正規化部54により、各要素データのターゲットとなるセンター値c(n)からどれだけ離れているかが正規化される。即ち、要素データが正規化されたスコアであるシグモイド関数の出力fNRM(n)は、各要素データの観測値(f(1),f(2),f(3),・・・,f(N))、各要素データのセンター値(c(1),c(2),c(3),・・・,c(N))、および反応感度調整パラメータaを用いて、次の式(1)で表される。
Figure 0007151724000001
そして、スコア統合部55は、要素データ正規化部54が各要素データを正規化して求めたスコアであるシグモイド関数の出力fNRM(n)を、要素データの個数Nで平均することによって統合スコアScoreを取得する。即ち、統合スコアScoreは、要素データの個数Nを用いて、次の式(2)で表される。
Figure 0007151724000002
例えば、雑音レベルのセンター値cを-40dBAと設定したときに、雑音レベルの観測値fが-40dBAであった場合、要素データ正規化部54によりスコアとして求められるシグモイド関数に基づいた正規化後の要素データfNRMは、0.5となる。一方、雑音レベルの観測値fが-30dBAであった場合、正規化後の要素データfNRMは、1に近い値が出力され、雑音レベルに起因して音量を上昇させる音量ステップが大きくなる。これに従って、音声コンテンツ再生装置11の周囲の雑音環境がうるさいときには、大きな音量ステップで音声コンテンツの再生音量を大きく調整するような制御が行われる。
さらに、総和が1になるような要素データの個数分の重み係数wnを、それぞれ対応する要素データを正規化したシグモイド関数の出力fNRM(n)に掛けることで、要素データごとの重要度を調整することができる。つまり、次の式(3)に示すように、重み係数wnを用いて重み付けされた統合スコアScoreweightを求めることができる。
Figure 0007151724000003
例えば、撮像部13により撮像された画像に基づいて、話者距離が十分に近いと精度良く判断された場合、発話レベルを正規化したスコアが音量アップ大(即ち、1に近い値)を示していても、実際には、それほど音量を大きくしなくてよい。つまり、ユーザが近くで発話したために発話レベルのスコアが1に近い値になったのであって、音声コンテンツの再生音量を大きくしたいために大きな声で発話したのではないと判断することができる。従って、スコア統合部55は、話者距離を示す要素データの重み係数wを大きくするとともに、発話レベルを示す要素データの重み係数wを小さくするような重み調整を行うことができる。なお、重み係数wは、予め決められた値を用いてもよいし、動的に制御してもよい。
緊迫度設定部56は、要素データ正規化部54が、話し方の要素データを正規化して求めたスコアを、ユーザがコマンドを発話した際の緊迫度として、優先度補正部58に対して設定する。
類似度算出部57は、ユーザモデル取得部53から供給される現在のユーザのユーザモデル情報と最も類似するものを、ユーザモデル記憶部42に記憶されている過去のユーザモデル情報の中から検索して読み出す。そして、類似度算出部57は、現在のユーザのユーザモデル情報により示される視聴環境と、過去のユーザモデル情報により示される視聴環境との類似度を算出して、類似度重み変換部59に供給する。さらに、類似度算出部57は、類似度の算出に用いた過去のユーザモデル情報に対応付けられている最適再生音量をユーザモデル記憶部42から読み出して音量ステップ変換部60に供給する。
優先度補正部58は、緊迫度設定部56により設定された緊迫度に基づいて、スコア統合部55から供給される統合スコアに対する補正を行い、補正後の統合スコアを類似度重み変換部59および再生音量仮決定部61に供給する。例えば、優先度補正部58は、緊迫度が高い場合には、ユーザの意思が強く反映されているものとして、緊迫度以外から得られるスコアの優先度を低くする一方で、緊迫度から得られるスコアの優先度を高くするように、統合スコアに対する補正を行う。
例えば、再生中の音声コンテンツの再生音量はそれほど大きくないが、周囲の雑音環境が静かとなっていて子供が寝ているような状況において、ユーザが「ボリュームダウン」と発話したとする。このとき、優先度補正部58は、緊迫度が高い場合、再生音量を低下させる音量ステップが大きくなるように、統合スコアに対する補正を行う。
ここで、緊迫度以外から得られるスコアには、雑音レベルや、ユーザ発話、距離情報などを、正規化した後に総合した0~1の範囲の値が用いられる。また、緊迫度から得られるスコアには、例えば、音声処理部23によって、ユーザ発話の信号を解析することにより緊迫しているかを推定することや、クラウド上に存在する専用の機器によって話速やピッチ成分などの情報を基に解析を行ったり機械学習をベースとしたりすることで緊迫しているかを推定することなどにより、0~1の範囲に正規化した値が用いられる。
そして、優先度補正部58は、緊迫度以外から得られるスコアと挙動を合わせるために、例えば、緊迫度から得られるスコアが0に近ければ「音量ダウン」の緊迫度が高い、緊迫度から得られるスコアが1に近ければ「音量アップ」の緊迫度が高い、または、緊迫度から得られるスコアが0.5付近にくれば通常の発話とみなして、統合スコアに対する補正を行うことができる。その一例として、優先度補正部58は、「音量ダウン」の場合、緊迫度が0.2を下回ったときには音量を下げる緊迫度が高いとして、類似度重みは1にして過去のユーザモデル情報は参照しないことで、かつ、緊迫度以外の総合スコアが0.2より大きいときには緊迫度スコアをそのまま音量ステップに採用することで、急な音量調整に対応可能とするような補正を行うことができる。
類似度重み変換部59は、類似度算出部57から供給される類似度を、要素データに基づいて求められる音量ステップと、ユーザモデル情報に基づいて求められる音量ステップとの重要度を調整する重みαに変換して、最終再生音量決定部62に供給する。例えば、重みαは、ユーザモデル情報から参照できる過去の類似した視聴環境と、現在の視聴環境とが類似している割合を信頼度として算出し、その信頼度の大きさに応じて随時変化するような値である。このとき、類似度重み変換部59は、優先度補正部58が統合スコアに対する補正を行うのに用いた緊迫度に従って重みαを調整することができ、例えば、緊迫度が高い場合には、重みαを大きな値(非常に緊迫している状況ではα=1)に調整することができる。
音量ステップ変換部60は、類似度算出部57から供給される過去のユーザモデル情報に対応付けられている最適再生音量と、設定記憶部43に記憶されている再生中の音声コンテンツの音量との差分を求める。これにより、音量ステップ変換部60は、再生中の音声コンテンツの音量を、過去のユーザモデル情報に対応付けられている最適再生音量に調整するための音量ステップを取得し、最終再生音量決定部62に供給する。即ち、過去のユーザモデル情報に対応付けられている最適再生音量は、過去の類似環境における収束音量設定値であるので、この値と、再生中の音声コンテンツの音量との差分は、ユーザモデル情報から得られるユーザ個人の通常使用時の音量ステップとみなすことができる。従って、音量ステップ変換部60は、コマンドを発話したときのユーザの視聴環境を表すユーザモデル情報に基づいて、過去に類似する視聴状況であったときの最適再生音量となるように、再生中の音声コンテンツの再生音量を調整する音量ステップを求めることができる。
再生音量仮決定部61は、図6に示すような変換テーブルを参照して、優先度補正部58において補正された統合スコアを音量ステップに変換することで、音声コンテンツを最適な再生音量に調整するための音量ステップを仮決定して、最終再生音量決定部62に供給する。即ち、再生音量仮決定部61は、ユーザが音声コンテンツの再生音量の変更を指示するコマンドを発話したときに取得された要素データ(例えば、雑音レベル、発話レベル、話者距離)に基づいて、再生中のコンテンツの再生音量を調整する音量ステップを仮決定することができる。このとき、再生音量仮決定部61は、コマンド検出部51による指示に従って、コンテンツの再生音量の上昇を指示するコマンドが検出されていた場合には、変換テーブルの有効領域を音量アップゾーンに限定して統合スコアを音量ステップに変換する。同様に、再生音量仮決定部61は、コマンド検出部51による指示に従って、コンテンツの再生音量の低下を指示するコマンドが検出されていた場合には、変換テーブルの有効領域を音量ダウンゾーンに限定して統合スコアを音量ステップに変換する。
ここで、図6の変換テーブルは、0から1までの値に正規化された統合スコアから、音声コンテンツ再生装置11のボリュームをどれだけ制御するかを示す対応カーブにより表される。この対応カーブは、音声コンテンツ再生装置11などの製品ごとに予め設定されている。例えば、音量ステップの最大値および最小値は、音声コンテンツ再生装置11のボリュームの最大および最小に設定することができる。また、音声コンテンツ再生装置11の安全性を考慮して、音量ステップの最大値は、ある程度の音量ステップ分に留まるように設定することができる。
また、変換テーブルは、総合スコアが0.5であるときに音量ステップが0付近になり、音声コンテンツ再生装置11ごとの音量ステップの分解能に合わせて設定される。ここで、音量ステップが0付近という表現を用いるのは、ユーザの発話コマンドがボリュームアップかボリュームダウンかで音声コンテンツ再生装置11の音量の制御方法が異なるためである。例えば、実際に変換テーブルを作成する際は、ボリュームアップと発話されたときに総合スコアが0・5であった場合、音量ステップを0とするのではなく、音声コンテンツ再生装置11のユーザインタフェース上で設定可能な最小の1ステップとすることで、より自然に音量を変化させることができる。
最終再生音量決定部62は、再生音量仮決定部61から供給される仮決定された音量ステップに対して、類似度重み変換部59から供給される重みα、および、音量ステップ変換部60から供給される音量ステップを用いた演算を行って、最終的な音量ステップを決定する。即ち、最終再生音量決定部62は、総合スコアにより仮決定された音量ステップと、ユーザモデル情報から得られるユーザ個人の通常使用時の音量ステップとを、重みαに従って統合して、最適音量決定処理部24により最適な再生音量として実際に制御するための音量ステップを決定する。
図示するように、最終再生音量決定部62は、重み平均乗算部71、補数乗算部72、および加算部73を備えて構成される。重み平均乗算部71は、仮決定された音量ステップに重みαを乗算して加算部73に出力し、補数乗算部72は、ユーザモデル情報から取得された音量ステップに重みαの補数(1-α)を乗算して、加算部73に出力する。そして、加算部73は、重み平均乗算部71の出力と、補数乗算部72の出力とを加算することで、それぞれの音量ステップを重みαに従って統合して、最終的に決定した音量ステップとして音量ステップ制御部63に供給する。
音量ステップ制御部63は、最終再生音量決定部62により最終的に決定された音量ステップに従って音声コンテンツの再生音量を調整するように、図1の再生音量制御部25に対する制御を行う。また、音量ステップ制御部63は、最終的に決定された音量ステップを、補正係数更新部64およびユーザモデル更新部65に供給する。
補正係数更新部64は、要素データ正規化部54が要素データを正規化する際に用いるスコア算出式の係数を補正して更新することができ、例えば、シグモイド関数(図5参照)のセンター値をシフトさせる。
例えば、初期設定の自動調整用の音量ステップが仮にユーザにとって所望するステップ幅でなかった場合、ユーザは連続して、音声コンテンツの再生音量の変更を指示するコマンドを発話することになる。このとき、ユーザは、ボリュームアップを発話するのに続けて、ボリュームアップを発話する場合だけでなく、ボリュームアップを発話するのに続けて、ボリュームダウンを発話することもある。この場合、補正係数更新部64は、設定されている各スコア算出式の係数がユーザの環境、あるいはユーザの嗜好に則していないと判断し、スコア算出式の係数を補正して更新する。
例えば、ユーザが2回目以降に発話したボリュームアップまたはボリュームダウンを不要とする向きに、補正係数更新部64は、シグモイド関数のセンター値をシフトすることで対応する。例えば、ユーザがボリュームアップを連続して発話した場合は、そのユーザにとって1回目の音量ステップではステップ幅が小さい、つまり、総合スコアの値が小さいということになる。そこで、補正係数更新部64は、各要素データのスコアが大きくなるようにシグモイド関数のセンター値をシフトさせる。そのシフトの度合いは、スコアが小さかった要素データのセンター値は大きく修正され、スコアが大きかった要素データはそれほど変わらないように修正される。
ユーザモデル更新部65は、ユーザモデル取得部53が取得した現在のユーザモデル情報に、最終再生音量決定部62により最終的に決定された音量ステップに従って調整される最適再生音量を対応付けて、ユーザモデル記憶部42に記憶させる。これにより、ユーザモデル記憶部42に記憶される最適再生音量は、例えば、ユーザの視聴位置や、再生コンテンツの種類、再生時間などのように、音声コンテンツ再生装置11が長時間使用されるなかで、個々のユーザの嗜好に合わせて更新されることになる。
例えば、ユーザモデル更新部65は、あるユーザが、週末に音楽を再生するときはいつも音量を大きくする場合、そのような視聴環境を、そのユーザのユーザモデル情報として更新する。
以上のように最適音量決定処理部24は構成されており、ユーザの視聴環境に応じて、再生中の音声コンテンツが最適な再生音量になるとなるように、迅速に制御することができる。
例えば、最適音量決定処理部24は、ユーザがボリュームアップを連続して発話した場合には、音声コンテンツ再生装置11の再生音量が既に大きくなっているため、再生音量を上昇させる音量ステップのステップ幅が小さくなるような制御を行うことができる。
また、ユーザがボリュームアップを発話した後にボリュームダウンを発話した場合には、音量ステップの最適値は、ユーザがボリュームアップを発話する前の再生音量と、発話した後の再生音量との間にあると推測される。そこで、最適音量決定処理部24では、ユーザが発話を終了したときの再生音量から各要素データのセンター値を更新することで、ユーザがボリュームアップを発話する前の再生音量と、発話した後の再生音量との間となるような最適なステップ幅の音量ステップで再生音量を低下させることができる。
そして、最適音量決定処理部24は、ユーザの視聴環境に応じて、どのぐらいの音量ステップでボリュームをコントロールすべきかを自動で判定することができるので、ユーザが、ボリュームアップまたはボリュームダウンを一回だけ発話することで、ユーザの所望の再生音量となるような制御を行うことができる。
図7を参照して、音声コンテンツ再生装置11における再生音量の制御例について説明する。
例えば、図7のAには、音声コンテンツ再生装置11の近傍に雑音源がない状況が示されており、図7のBには、音声コンテンツ再生装置11の近傍に雑音源がある状況が示されている。そして、それぞれの状況において、音声コンテンツの音量を上昇させるとき、ユーザの所望の音量ステップは、音声コンテンツ再生装置11の周囲の雑音レベルによって異なるものとなる。
例えば、図7のAに示すように音声コンテンツ再生装置11の近傍に雑音源がなく、その周囲のSNRが20dBの状況であるとき、ユーザの所望の音量ステップは3dB上昇であるとする。一方、図7のBに示すように音声コンテンツ再生装置11の近傍に雑音源があり、その周囲のSNRが5dBの状況であるとき、ユーザの所望の音量ステップは6dB上昇であるとする。
そして、それぞれの状況において、ユーザが「ボリュームアップ」と1回の発話を行うだけで、音声コンテンツ再生装置11は、ユーザの所望の音量ステップで再生音量を制御することができる。即ち、図7のAに示す状況では、音声コンテンツ再生装置11は、周囲の雑音環境が静かであることに基づいて、音声コンテンツの再生音量を3dB上昇させることができる。一方、図7のBに示す状況では、音声コンテンツ再生装置11は、周囲の雑音環境がうるさいことに基づいて、音声コンテンツの再生音量を6dB上昇させることができる。このように、音声コンテンツ再生装置11は、ユーザが同一の発話を行っても、それぞれ適切な再生音量となるように制御を行うことができる。
なお、従来、1dBのステップごとに音量が制御される場合、図7のAに示す状況では、ユーザは「ボリュームアップ」と3回の発話を行う必要があり、図7のBに示す状況では、ユーザは「ボリュームアップ」と6回の発話を行う必要があった。これに対して、音声コンテンツ再生装置11は、上述したように、ユーザは「ボリュームアップ」と1回の発話を行うだけでよく、より迅速に再生音量が最適となるように制御することができる。
また、従来、図7のBに示す状況において、ユーザは「ボリュームアップ6」というように音量を指定する発話を行うことで、所望の音量に調整することができると考えられる。しかしながら、この場合、SNRが低いため、音声認識処理における認識ミス率が上昇し、ユーザが発話した数値を認識できないことが想定され、音声認識に失敗した場合には大きな再生音量に急激に変更される恐れがある。これに対して、音声コンテンツ再生装置11は、上述したように、ユーザは「ボリュームアップ」と1回の発話を行うだけでよく、数値を音声認識させる場合と比較して、より確実に再生音量が最適となるように制御することができる。
同様に、ユーザが、音声コンテンツの音量を低下させたい場合にも、図7のCに示すように、ユーザは「ボリュームダウン」と1回の発話を行うだけでよく、より迅速に再生音量が最適となるように、例えば、音声コンテンツの再生音量を3dB低下させるような制御を行うことができる。なお、従来、1dBのステップごとに音量が制御される場合、図7のCに示す状況では、ユーザは「ボリュームダウン」と3回の発話を行う必要があった。
さらに、図7のDに示すように、音声コンテンツ再生装置11の近くで子供が寝ている状況で、音声コンテンツ再生装置11が、大音量での音声コンテンツの再生を突然行った場合、ユーザは、例えば、音声コンテンツの再生音量を10dB低下させることを所望する。このような状況において、ユーザが「ボリュームダウン!」と緊迫した声で1回の発話を行うだけで、音声コンテンツ再生装置11は音声コンテンツの再生音量を10dB低下させることができる。
なお、従来、1dBのステップごとに音量が制御される場合、図7のDに示す状況では、ユーザは「ボリュームダウン」と10回の発話を行う必要があった。または、ユーザは、消音させるためのコマンド「ミュート」を覚える必要があった。これに対して、音声コンテンツ再生装置11は、上述したように緊迫度に従って優先度を補正することができるので、ユーザは「ボリュームダウン!」と1回の発話を行うだけでよく、より迅速に再生音量が最適となるように制御することができる。
このように、音声コンテンツ再生装置11は、図7のCに示すような状況や、図7のDに示すような状況などのように、それぞれの状況に応じて、ユーザが同一の発話を行っても、適切な再生音量となるように制御を行うことができる。
その他、音声コンテンツ再生装置11は、周囲が静かでユーザの距離が近いような状況や、周囲が騒がしくユーザが標準的な距離にいる状況、周囲が静かでユーザの距離が遠いような状況など、それぞれの状況に応じて、ユーザが同一の発話を行っても、適切な再生音量となるように制御を行うことができる。
図8および図9を参照して、補正係数更新部64が、要素データ正規化部54が要素データを正規化する際に用いるスコア算出式の補正係数を更新する一例として、シグモイド関数のセンター値をシフトさせる例について説明する。ここでは、ユーザが、再生音量を25に変更することを所望している例について説明する。また、図8および図9に示す発話レベルのシグモイド関数は、発話レベルが小さい方が音量を大きくしたいことより、右に向かうほど小さな値となっている。
図8に示すように、雑音レベルが45dBAであり、再生中のコンテンツの再生音量が20であり、話者距離が3mであるときに、ユーザがボリュームアップと発話した発話音量が50dBAであったとする。このとき、雑音レベルのシグモイド関数のセンター値が45dBAに設定され、発話レベルのシグモイド関数のセンター値が55dBAに設定され、話者距離のシグモイド関数のセンター値が2mに設定されているとする。このとき、ユーザが1回目のボリュームアップを発話すると、音声コンテンツ再生装置11は、総合スコアに基づいて、最適な再生音量は23であると推定して再生音量を上昇させる制御を行う。
このような音声コンテンツ再生装置11による再生音量の制御に対し、ユーザが、再生音量がまだ小さいと感じ、その後、ボリュームアップやボリュームダウンを繰り返して、再生音量が25になったところで発話が終了したとする。
これに応じて音声コンテンツ再生装置11は、最初のユーザの発話の時から取得している雑音レベルや発話レベル、話者距離などから決定した最適な再生音量23と、最終的にユーザが再生音量の調整を終了した実際の再生音量25との差が埋まるように、それぞれのシグモイド関数のセンター値をシフトすることができる。
つまり、図9に示すように、雑音レベルのシグモイド関数のセンター値が38dBAに更新され、発話レベルのシグモイド関数のセンター値が56dBAに更新される。従って、次回、ユーザが類似した視聴環境でボリュームアップと発話すると、音声コンテンツ再生装置11は、総合スコアに基づいて、最適な再生音量は25であると推定して再生音量を上昇させる制御を行い、1回で再生音量25となるように制御することができる。
<最適音量決定処理>
図10乃至図13に示すフローチャートを参照して、最適音量決定処理部24において実行される最適音量決定処理について説明する。
例えば、音声コンテンツ再生装置11が起動すると処理が開始され、ステップS11において、要素データ取得部52は、各種の要素データを取得して、要素データ正規化部54に供給する。例えば、要素データ取得部52は、ユーザ位置推定部31により推定されるユーザ位置や、発話音量算出部32により算出される発話音量、雑音環境学習部33により学習された雑音環境などから、要素データを取得する。
ステップS12において、要素データ正規化部54は、ステップS11で要素データ取得部52から供給される各種の要素データを、図5に示したようなシグモイド関数を利用して正規化し、各種の要素データのスコアを取得する。
ステップS13において、コマンド検出部51は、音声処理部23による音声認識結果に基づいて、コンテンツの再生音量の変更を指示するコマンドが検出されたか否かを判定する。
ステップS13において、コマンド検出部51が、コンテンツの再生音量の変更を指示するコマンドが検出されなかったと判定した場合、処理はステップS11に戻る。そして、コマンド検出部51が、コンテンツの再生音量の変更を指示するコマンドが検出されたと判定するまで、取得された要素データの正規化が繰り返して行われ、各種の要素データのスコアが蓄積される。
一方、ステップS13において、コマンド検出部51が、コンテンツの再生音量の変更を指示するコマンドが検出されたと判定した場合、処理はステップS14に進む。
ステップS14において、要素データに基づいて求められる音量ステップを仮決定する再生音量仮決定処理(図11参照)が行われる。
ステップS15において、ユーザモデル情報を参照して求められる重みαおよび音量ステップを取得するユーザモデル参照処理(図12参照)が行われる。
ステップS16において、最終再生音量決定部62は、ステップS14の再生音量仮決定処理で仮決定された音量ステップと、ステップS15のユーザモデル参照処理で取得された重みαおよび音量ステップを用いた演算を行って、最終的な音量ステップを決定する。そして、最終再生音量決定部62は、音量ステップを音量ステップ制御部63に供給し、音量ステップ制御部63は、その音量ステップに従って音声コンテンツの再生音量を調整するように、図1の再生音量制御部25に対する制御を行う。また、最終再生音量決定部62は、最終的に決定された音量ステップを、補正係数更新部64およびユーザモデル更新部65に供給する。
ステップS17において、補正係数更新部64は、図8および図9を参照して上述したように、要素データ正規化部54が要素データを正規化するのに利用するシグモイド関数のセンター値をシフトさせる補正係数更新処理(図13参照)を行う。
ステップS18において、ユーザモデル更新部65は、ステップS16で最終再生音量決定部62から供給された音量ステップに従って調整される最適再生音量を、ユーザモデル情報に対応付けてユーザモデル記憶部42に記憶させる。その後、処理はステップS11に戻り、以下、同様の処理が繰り返して行われる。
図11のフローチャートを参照して、図10のステップS14で行われる再生音量仮決定処理について説明する。
ステップS21において、要素データ正規化部54は、音声コンテンツの再生音量の変更を指示するコマンドが検出されたときに取得された各種の要素データのスコアをスコア統合部55に供給する。即ち、ユーザがコンテンツの再生音量の変更を指示する発話を行ったときの状況を示す各要素データが正規化されたスコアがスコア統合部55に供給される。そして、スコア統合部55は、例えば、上述した式(2)または式(3)を用いて、それらの要素データを統合して統合スコアを算出し、優先度補正部58に供給する。
ステップS22において、要素データ正規化部54は、コンテンツの再生音量の変更を指示するコマンドが検出されたときに取得された各要素データのうち、話し方の要素データを正規化したスコアを、緊迫度設定部56に供給する。そして、緊迫度設定部56は、そのスコアを、ユーザがコマンドを発話した際の緊迫度として、優先度補正部58に対して設定する。
ステップS23において、コマンド検出部51は、図10のステップS13で検出されたコマンドによる指示が、再生中の音声コンテンツの再生音量の上昇および低下のどちらであるかを判定する。
ステップS23において、コマンド検出部51が、コマンドによる指示が再生音量の低下であると判定した場合、処理はステップS24に進む。このとき、コマンド検出部51は、再生音量仮決定部61に対して、変換テーブルの有効領域を音量ダウンゾーンに限定するように指示を行う。
ステップS24において、優先度補正部58は、ステップS22で緊迫度設定部56により設定された緊迫度が高いか否かを判定し、緊迫度が高いと判定した場合、処理はステップS25に進む。
ステップS25において、優先度補正部58は、ステップS22で緊迫度設定部56により設定された緊迫度に従って、ステップS21でスコア統合部55から供給された統合スコアを補正する。即ち、この場合、緊迫度が高いので、優先度補正部58は、緊迫度以外から得られるスコアの優先度を低くする一方で、緊迫度から得られるスコアの優先度を高くするように、統合スコアに対する補正を行う。
一方、ステップS23においてコマンドによる指示が再生音量の上昇であると判定された場合、処理はステップS26に進む。このとき、コマンド検出部51は、再生音量仮決定部61に対して、変換テーブルの有効領域を音量アップゾーンに限定するように指示を行う。また、ステップS24において緊迫度が高くない(低い)と判定された場合、または、ステップS25の処理後、処理はステップS26に進む。
ステップS26において、再生音量仮決定部61は、上述した図6の変換テーブルを参照して、統合スコアを音量ステップに変換することで、音声コンテンツを最適な再生音量に調整するための音量ステップを仮決定する。例えば、再生音量仮決定部61は、ステップS21でスコア統合部55により算出された統合スコア、または、ステップS25で優先度補正部58により補正された統合スコアを音量ステップに変換する。そして、再生音量仮決定部61が、仮決定した音量ステップを最終再生音量決定部62に供給した後、再生音量仮決定処理は終了される。
図12のフローチャートを参照して、図10のステップS15で行われるユーザモデル参照処理について説明する。
ステップS31において、ユーザモデル取得部53は、図10のステップS13で検出されたコマンドを発話したユーザの現在のユーザモデル情報を取得して、類似度算出部57に供給する。
ステップS32において、類似度算出部57は、ステップS31でユーザモデル取得部53から供給された現在のユーザのユーザモデル情報と最も類似するものを、ユーザモデル記憶部42に記憶されている過去のユーザモデル情報の中から検索して読み出す。そして、類似度算出部57は、現在のユーザのユーザモデル情報により示される視聴環境と、過去のユーザモデル情報により示される視聴環境との視聴環境の類似度を算出して、類似度重み変換部59に供給し、処理はステップS33に進む。
ステップS33において、類似度重み変換部59は、ステップS32で類似度算出部57から供給される類似度を重みαに変換して、最終再生音量決定部62に供給する。
ステップS34において、類似度算出部57は、ステップS32で類似度の算出に用いた過去のユーザモデル情報に対応付けられている最適再生音量を、ユーザモデル記憶部42から読み出して音量ステップ変換部60に供給する。これに応じ、音量ステップ変換部60は、類似度算出部57から供給された最適再生音量と、設定記憶部43に記憶されている再生中の音声コンテンツの音量との差分を、ユーザモデル情報に基づいた音量ステップとして変換する。そして、音量ステップ変換部60が、ユーザモデル情報に基づいた音量ステップを最終再生音量決定部62に供給した後、ユーザモデル参照処理は終了される。
図13のフローチャートを参照して、図10のステップS17で行われる補正係数更新処理について説明する。
ステップS41において、音量ステップ制御部63は、一定時間内に連続的に再生音量の変更が指示されたか否かを判定する。例えば、音量ステップ制御部63は、一定時間内に連続的に、最終再生音量決定部62により決定された音量ステップが供給されたとき、一定時間内に連続的に再生音量の変更が指示されたと判定し、処理はステップS42に進む。
ステップS42において、補正係数更新部64は、音量ステップ制御部63が音量ステップに従って調整した設定後の音声コンテンツの再生音量と、要素データ正規化部54が各要素データを正規化して取得したスコアとを比較する。
ステップS43において、補正係数更新部64は、ステップS42で比較を行った比較結果に基づいて、誤差の大きさに応じて、各要素データのスコアが大きくなるようにシグモイド関数のセンター値をシフトさせる。このように、補正係数更新部64が、センター値を更新した後、または、ステップS41において一定時間内に連続的に再生音量の変更が指示されていないと判定された場合、ユーザモデル参照処理は終了される。
以上のように、最適音量決定処理部24が最適音量決定処理を実行することによって、音声コンテンツ再生装置11は、ユーザの発話に従って、再生中の音声コンテンツの再生音量が最適となるように迅速に制御することができる。また、音声コンテンツ再生装置11は、より少ない発話で、ユーザの所望の再生音量に調整するように制御することができるので、例えば、ユーザが音量を変更したいと思ったときに、より簡易に所望の再生音量にすることができる。また、ユーザの視聴環境に応じて、音声ステップが自動的に調整されるので、ユーザに音量を変更したいと思わせないようにすることができる。
また、音声コンテンツ再生装置11は、再生中の音声コンテンツの種類をユーザモデル情報として用いて、そのユーザモデル情報から得られる音量ステップを用いた演算を行って、最終的な音量ステップを決定する。これにより、例えば、音声コンテンツの種類によって音量を変更したいというユーザの要求に応じて、適切な再生音量となるように制御することができる。
なお、音声コンテンツ再生装置11は、複数のユーザにより使用される場合には、収音部12により集音される音声や、撮像部13により撮像された画像などを使用して話者を識別することで、ユーザごとに適切な音量調整を行うことができる。また、音声コンテンツ再生装置11では、同じ発話でも再生音量を調整する音量ステップが異なるのに起因してユーザが混乱することが懸念される。そこで、そのような懸念を回避するために、音声コンテンツ再生装置11は、必要に応じて、表示デバイスなどで再生音量の変化の様子や要因などを表示してもよい。
また、音声コンテンツ再生装置11は、例えば、ユーザが身体に装着することが可能なウエアラブル機器と連携し、ウエアラブル機器のマイクロホンにより集音されるユーザの周囲の雑音などを利用して、より高精度に再生音量を制御することができる。また、音声コンテンツ再生装置11は、補正係数更新部64によるシグモイド関数のセンター値のシフトに、例えば、機械学習による最適値の事前学習を利用し、その事前学習に基づいてセンター値のシフトするようにしてもよい。さらに、音声コンテンツ再生装置11は、雑音環境や、ユーザ発話レベル、再生コンテンツ、再生中の音声コンテンツの音量などを入力として、最適な音量ステップを決定することそのものを機械学習によって行うことができる。
<コンピュータの構成例>
なお、上述のフローチャートを参照して説明した各処理は、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。また、プログラムは、1のCPUにより処理されるものであっても良いし、複数のCPUによって分散処理されるものであっても良い。
また、上述した一連の処理(制御処理方法)は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラムが記録されたプログラム記録媒体からインストールされる。
図14は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)101,ROM(Read Only Memory)102,RAM(Random Access Memory)103は、バス104により相互に接続されている。
バス104には、さらに、入出力インタフェース105が接続されている。入出力インタフェース105には、キーボード、マウス、マイクロホンなどよりなる入力部106、ディスプレイ、スピーカなどよりなる出力部107、ハードディスクや不揮発性のメモリなどよりなる記憶部108、ネットワークインタフェースなどよりなる通信部109、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア111を駆動するドライブ110が接続されている。
以上のように構成されるコンピュータでは、CPU101が、例えば、記憶部108に記憶されているプログラムを、入出力インタフェース105及びバス104を介して、RAM103にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU101)が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア111に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
そして、プログラムは、リムーバブルメディア111をドライブ110に装着することにより、入出力インタフェース105を介して、記憶部108にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部109で受信し、記憶部108にインストールすることができる。その他、プログラムは、ROM102や記憶部108に、あらかじめインストールしておくことができる。
<構成の組み合わせ例>
なお、本技術は以下のような構成も取ることができる。
(1)
ユーザがコンテンツの再生音量の変更を指示するコマンドを発話したときに取得された要素データに基づいて、再生中のコンテンツの再生音量を調整する第1の音量ステップを仮決定する仮決定部と、
前記コマンドを発話したときのユーザの視聴環境を表すユーザモデル情報に基づいて、過去に類似する視聴状況であったときの最適再生音量となるように、再生中のコンテンツの再生音量を調整する第2の音量ステップを取得するユーザモデル音量ステップ取得部と、
前記第1の音量ステップ、および、前記第2の音量ステップを用いた演算を行って、第3の音量ステップを最終的に決定する最終決定部と
を備える制御処理装置。
(2)
前記要素データとして、周囲の雑音の大きさを示す雑音レベル、ユーザが前記コマンドを発話したときの音声の大きさを示す発話レベル、および、ユーザまでの距離を示す話者距離が少なくとも用いられる
上記(1)に記載の制御処理装置。
(3)
複数の前記要素データを正規化することによって、複数の前記要素データのスコアを求める正規化部と、
前記正規化部により求められた複数の前記スコアを統合するスコア統合部と
をさらに備え、
前記仮決定部は、前記スコア統合部により統合された統合スコアに基づいて、前記第1の音量ステップを仮決定する
上記(1)または(2)に記載の制御処理装置。
(4)
前記要素データとして、ユーザが前記コマンドを発話したときの話し方が用いられ、
前記正規化部が、前記話し方を正規化して求めたスコアを緊迫度として設定する緊迫度設定部と、
前記緊迫度に基づいて、前記統合スコアに対する補正を行い、補正後の前記統合スコアを前記仮決定部に供給する補正部と
をさらに備える上記(3)に記載の制御処理装置。
(5)
前記正規化部が前記要素データを正規化する際に用いるシグモイド関数のセンター値をシフトして更新するセンター値更新部
上記(3)または(4)に記載の制御処理装置。
(6)
前記コマンドを発話したときに取得された現在のユーザの視聴環境と、前記現在のユーザの視聴環境と類似するものとして過去の視聴環境の中から検索された視聴環境との類似度を算出する類似度算出部と、
前記類似度を、前記第1の音量ステップと前記第2の音量ステップとの重要度を調整する重みに変換する重み変換部と
をさらに備え、
前記最終決定部は、前記重みに応じて前記第1の音量ステップと前記第2の音量ステップとを加算することで、前記第3の音量ステップを決定する
上記(1)から(5)までのいずれかに記載の制御処理装置。
(7)
再生音量を制御する制御処理装置が、
ユーザがコンテンツの再生音量の変更を指示するコマンドを発話したときに取得された要素データに基づいて、再生中のコンテンツの再生音量を調整する第1の音量ステップを仮決定することと、
前記コマンドを発話したときのユーザの視聴環境を表すユーザモデル情報に基づいて、過去に類似する視聴状況であったときの最適再生音量となるように、再生中のコンテンツの再生音量を調整する第2の音量ステップを取得することと、
前記第1の音量ステップ、および、前記第2の音量ステップを用いた演算を行って、第3の音量ステップを最終的に決定することと
を含む制御処理方法。
(8)
再生音量を制御する制御処理装置のコンピュータに、
ユーザがコンテンツの再生音量の変更を指示するコマンドを発話したときに取得された要素データに基づいて、再生中のコンテンツの再生音量を調整する第1の音量ステップを仮決定することと、
前記コマンドを発話したときのユーザの視聴環境を表すユーザモデル情報に基づいて、過去に類似する視聴状況であったときの最適再生音量となるように、再生中のコンテンツの再生音量を調整する第2の音量ステップを取得することと、
前記第1の音量ステップ、および、前記第2の音量ステップを用いた演算を行って、第3の音量ステップを最終的に決定することと
を含む制御処理を実行させるためのプログラム。
なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
11 音声コンテンツ再生装置, 12 収音部, 13 撮像部, 14 人感センサ, 15 出力部, 16 再生音量制御部, 21 信号処理部, 22 メモリ, 23 音声処理部, 24 最適音量決定処理部, 25 再生音量制御部, 26 バス, 31 ユーザ位置推定部, 32 発話音量算出部, 33 雑音環境学習部, 41 再生コンテンツ情報記憶部, 42 ユーザモデル記憶部, 43 設定記憶部, 51 コマンド検出部, 52 要素データ取得部, 53 ユーザモデル取得部, 54 要素データ正規化部, 55 スコア統合部, 56 緊迫度設定部, 57 類似度算出部, 58 優先度補正部, 59 類似度重み変換部, 60 音量ステップ変換部, 61 再生音量仮決定部, 62 最終再生音量決定部, 63 音量ステップ制御部, 64 補正係数更新部, 65 ユーザモデル更新部, 71 重み平均乗算部, 72 補数乗算部, 73 加算部

Claims (8)

  1. ユーザがコンテンツの再生音量の変更を指示するコマンドを発話したときに取得された要素データに基づいて、再生中のコンテンツの再生音量を調整する第1の音量ステップを仮決定する仮決定部と、
    前記コマンドを発話したときのユーザの視聴環境を表すユーザモデル情報に基づいて、過去に類似する視聴状況であったときの最適再生音量となるように、再生中のコンテンツの再生音量を調整する第2の音量ステップを取得するユーザモデル音量ステップ取得部と、
    前記第1の音量ステップ、および、前記第2の音量ステップを用いた演算を行って、第3の音量ステップを最終的に決定する最終決定部と
    を備える制御処理装置。
  2. 前記要素データとして、周囲の雑音の大きさを示す雑音レベル、ユーザが前記コマンドを発話したときの音声の大きさを示す発話レベル、および、ユーザまでの距離を示す話者距離が少なくとも用いられる
    請求項1に記載の制御処理装置。
  3. 複数の前記要素データを正規化することによって、複数の前記要素データのスコアを求める正規化部と、
    前記正規化部により求められた複数の前記スコアを統合するスコア統合部と
    をさらに備え、
    前記仮決定部は、前記スコア統合部により統合された統合スコアに基づいて、前記第1の音量ステップを仮決定する
    請求項1に記載の制御処理装置。
  4. 前記要素データとして、ユーザが前記コマンドを発話したときの話し方が用いられ、
    前記正規化部が、前記話し方を正規化して求めたスコアを緊迫度として設定する緊迫度設定部と、
    前記緊迫度に基づいて、前記統合スコアに対する補正を行い、補正後の前記統合スコアを前記仮決定部に供給する補正部と
    をさらに備える請求項3に記載の制御処理装置。
  5. 前記正規化部が前記要素データを正規化する際に用いるシグモイド関数のセンター値をシフトして更新するセンター値更新部
    をさらに備える請求項3に記載の制御処理装置。
  6. 前記コマンドを発話したときに取得された現在のユーザの視聴環境と、前記現在のユーザの視聴環境と類似するものとして過去の視聴環境の中から検索された視聴環境との類似度を算出する類似度算出部と、
    前記類似度を、前記第1の音量ステップと前記第2の音量ステップとの重要度を調整する重みに変換する重み変換部と
    をさらに備え、
    前記最終決定部は、前記重みに応じて前記第1の音量ステップと前記第2の音量ステップとを加算することで、前記第3の音量ステップを決定する
    請求項1に記載の制御処理装置。
  7. 再生音量を制御する制御処理装置が、
    ユーザがコンテンツの再生音量の変更を指示するコマンドを発話したときに取得された要素データに基づいて、再生中のコンテンツの再生音量を調整する第1の音量ステップを仮決定することと、
    前記コマンドを発話したときのユーザの視聴環境を表すユーザモデル情報に基づいて、過去に類似する視聴状況であったときの最適再生音量となるように、再生中のコンテンツの再生音量を調整する第2の音量ステップを取得することと、
    前記第1の音量ステップ、および、前記第2の音量ステップを用いた演算を行って、第3の音量ステップを最終的に決定することと
    を含む制御処理方法。
  8. 再生音量を制御する制御処理装置のコンピュータに、
    ユーザがコンテンツの再生音量の変更を指示するコマンドを発話したときに取得された要素データに基づいて、再生中のコンテンツの再生音量を調整する第1の音量ステップを仮決定することと、
    前記コマンドを発話したときのユーザの視聴環境を表すユーザモデル情報に基づいて、過去に類似する視聴状況であったときの最適再生音量となるように、再生中のコンテンツの再生音量を調整する第2の音量ステップを取得することと、
    前記第1の音量ステップ、および、前記第2の音量ステップを用いた演算を行って、第3の音量ステップを最終的に決定することと
    を含む制御処理を実行させるためのプログラム。
JP2019562968A 2017-12-27 2018-12-13 制御処理装置および制御処理方法、並びにプログラム Active JP7151724B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017252001 2017-12-27
JP2017252001 2017-12-27
PCT/JP2018/045815 WO2019131159A1 (ja) 2017-12-27 2018-12-13 制御処理装置および制御処理方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JPWO2019131159A1 JPWO2019131159A1 (ja) 2021-01-14
JP7151724B2 true JP7151724B2 (ja) 2022-10-12

Family

ID=67063508

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019562968A Active JP7151724B2 (ja) 2017-12-27 2018-12-13 制御処理装置および制御処理方法、並びにプログラム

Country Status (2)

Country Link
JP (1) JP7151724B2 (ja)
WO (1) WO2019131159A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7423156B2 (ja) 2020-04-28 2024-01-29 アルプスアルパイン株式会社 音声処理装置および音声処理方法
CN114707560B (zh) * 2022-05-19 2024-02-09 北京闪马智建科技有限公司 数据信号的处理方法及装置、存储介质、电子装置
KR102654712B1 (ko) * 2024-01-10 2024-04-12 주식회사 진진 사용자의 음성을 인식하는 레이더 디텍터 및 이의 제어 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003283956A (ja) 2002-03-26 2003-10-03 Mitsubishi Electric Corp 初期音量自動設定機能付き放送受信機
JP2006019770A (ja) 2004-05-31 2006-01-19 Toshiba Corp 放送受信装置及び放送受信方法、音声再生装置及び音声再生方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11242497A (ja) * 1998-02-25 1999-09-07 Clarion Co Ltd 音声認識による制御装置及び方法並びに音声認識による制御用プログラムを記録した記録媒体
JP4028076B2 (ja) * 1998-04-14 2007-12-26 富士通テン株式会社 機器制御システム、及び車載用機器

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003283956A (ja) 2002-03-26 2003-10-03 Mitsubishi Electric Corp 初期音量自動設定機能付き放送受信機
JP2006019770A (ja) 2004-05-31 2006-01-19 Toshiba Corp 放送受信装置及び放送受信方法、音声再生装置及び音声再生方法

Also Published As

Publication number Publication date
JPWO2019131159A1 (ja) 2021-01-14
WO2019131159A1 (ja) 2019-07-04

Similar Documents

Publication Publication Date Title
US20240064455A1 (en) Signal processing apparatus and signal processing method
JP7151724B2 (ja) 制御処理装置および制御処理方法、並びにプログラム
US20210035563A1 (en) Per-epoch data augmentation for training acoustic models
EP2860730B1 (en) Speech processing
US11404073B1 (en) Methods for detecting double-talk
JP6844608B2 (ja) 音声処理装置および音声処理方法
JPWO2010131470A1 (ja) ゲイン制御装置及びゲイン制御方法、音声出力装置
JP2021015265A (ja) 音量調整方法、端末装置、記憶媒体及び電子機器
JP2009021834A (ja) 音量調整装置
US20210192244A1 (en) Biometric identification
KR20220044204A (ko) 분산형 오디오 디바이스들을 위한 음향 반향 소거 제어
CA2869884C (en) A processing apparatus and method for estimating a noise amplitude spectrum of noise included in a sound signal
JP6902049B2 (ja) 発話信号を含むオーディオ信号のラウドネスレベル自動修正
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
JP6878776B2 (ja) 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
WO2002005266A1 (fr) Systeme de reconnaissance de la parole, procede de reconnaissance de la parole et programme de reconnaissance de la parole
WO2019207912A1 (ja) 情報処理装置及び情報処理方法
JP7010136B2 (ja) 発声方向判定プログラム、発声方向判定方法、及び、発声方向判定装置
JP5961530B2 (ja) 音響モデル生成装置とその方法とプログラム
JP2005157086A (ja) 音声認識装置
JP4143487B2 (ja) 時系列情報制御システム及びその方法並びに時系列情報制御プログラム
KR102562180B1 (ko) 웨어러블 음향 변환 장치
US11600275B2 (en) Electronic device and control method thereof
WO2023228785A1 (ja) 音響信号処理装置、音響信号処理方法及びプログラム
CN117859176A (zh) 检测用户生成内容中的环境噪声

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220830

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220912

R151 Written notification of patent or utility model registration

Ref document number: 7151724

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151