JP7151724B2

JP7151724B2 - 制御処理装置および制御処理方法、並びにプログラム

Info

Publication number: JP7151724B2
Application number: JP2019562968A
Authority: JP
Inventors: 和也立石; 裕一郎小山; 典子戸塚
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2017-12-27
Filing date: 2018-12-13
Publication date: 2022-10-12
Anticipated expiration: 2038-12-13
Also published as: JPWO2019131159A1; WO2019131159A1

Description

本開示は、制御処理装置および制御処理方法、並びにプログラムに関し、特に、コンテンツの再生音量が最適となるように迅速に制御することができるようにした制御処理装置および制御処理方法、並びにプログラムに関する。

近年、コンテンツを再生する再生装置において、音声認識を利用してコンテンツの再生を制御する技術が普及している。例えば、再生装置は、ユーザが「ボリュームアップ」と発話するのに応じて再生中のコンテンツの音量を上昇させたり、ユーザが「ボリュームダウン」と発話するのに応じて再生中のコンテンツの音量を低下させたりすることができる。また、ユーザが「ボリューム１２」や「ボリューム５」などのように音量を指定する発話を行うと、再生装置は、その音量となるように、再生中のコンテンツの音量を調整することができる。

ところで、「ボリュームアップ」または「ボリュームダウン」の発話に応じて、音量を調整可能な音量ステップの１ステップずつ音量を変化させるような制御が行われる場合、ユーザは、所望の音量となるまで、同じ発話を繰り返して行う必要があった。

そこで、例えば、特許文献１に開示されているように、一回の発話で機器の制御が繰り返し実行され、かつ、繰り返し実行される機器の制御を中止するタイミングを取り易い音声認識制御装置が開発されている。

特開２０００－１０４０２５号公報

ところで、上述した特許文献１の音声認識制御装置では、ユーザの声の大きさに基づいて音量変更ステップの大きさを制御することができ、車やモバイル機器のようなユーザと機器との位置が一意に決まる使用環境では、そのような制御は有効であると考えられる。これに対し、近年普及が進んでいるAI（Artificial Intelligence）スピーカのようなホームエージェント機器においては、ユーザと機器との位置や距離などが毎回異なることより、コンテンツの再生音量を正常に制御することができない可能性があると懸念されている。

また、上述したように、発話により音量の調整を行うときに、周囲の雑音環境や、再生中のコンテンツの種類、緊迫度などの各種の状況に応じて、ユーザが最適と思う音量が異なることがある。そのため、ユーザが最適と思う音量となるように、コンテンツの再生音量を迅速に制御することが困難となる状況があった。

本開示は、このような状況に鑑みてなされたものであり、コンテンツの再生音量が最適となるように迅速に制御することができるようにするものである。

本開示の一側面の制御処理装置は、ユーザがコンテンツの再生音量の変更を指示するコマンドを発話したときに取得された要素データに基づいて、再生中のコンテンツの再生音量を調整する第１の音量ステップを仮決定する仮決定部と、前記コマンドを発話したときのユーザの視聴環境を表すユーザモデル情報に基づいて、過去に類似する視聴状況であったときの最適再生音量となるように、再生中のコンテンツの再生音量を調整する第２の音量ステップを取得するユーザモデル音量ステップ取得部と、前記第１の音量ステップ、および、前記第２の音量ステップを用いた演算を行って、第３の音量ステップを最終的に決定する最終決定部とを備える。

本開示の一側面の制御処理方法は、再生音量を制御する制御処理装置が、ユーザがコンテンツの再生音量の変更を指示するコマンドを発話したときに取得された要素データに基づいて、再生中のコンテンツの再生音量を調整する第１の音量ステップを仮決定することと、前記コマンドを発話したときのユーザの視聴環境を表すユーザモデル情報に基づいて、過去に類似する視聴状況であったときの最適再生音量となるように、再生中のコンテンツの再生音量を調整する第２の音量ステップを取得することと、前記第１の音量ステップ、および、前記第２の音量ステップを用いた演算を行って、第３の音量ステップを最終的に決定することとを含む。

本開示の一側面のプログラムは、再生音量を制御する制御処理装置のコンピュータに、ユーザがコンテンツの再生音量の変更を指示するコマンドを発話したときに取得された要素データに基づいて、再生中のコンテンツの再生音量を調整する第１の音量ステップを仮決定することと、前記コマンドを発話したときのユーザの視聴環境を表すユーザモデル情報に基づいて、過去に類似する視聴状況であったときの最適再生音量となるように、再生中のコンテンツの再生音量を調整する第２の音量ステップを取得することと、前記第１の音量ステップ、および、前記第２の音量ステップを用いた演算を行って、第３の音量ステップを最終的に決定することとを含む制御処理を実行させる。

本開示の一側面においては、ユーザがコンテンツの再生音量の変更を指示するコマンドを発話したときに取得された要素データに基づいて、再生中のコンテンツの再生音量を調整する第１の音量ステップが仮決定され、コマンドを発話したときのユーザの視聴環境を表すユーザモデル情報に基づいて、過去に類似する視聴状況であったときの最適再生音量となるように、再生中のコンテンツの再生音量を調整する第２の音量ステップが取得され、第１の音量ステップ、および、第２の音量ステップを用いた演算が行われて、第３の音量ステップが最終的に決定される。

本開示の一側面によれば、コンテンツの再生音量が最適となるように迅速に制御することができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術を適用した音声コンテンツ再生装置の一実施の形態の構成例を示すブロック図である。スコア算出用の要素データの一例を示す図である。ユーザモデル情報の一例を示す図である。最適音量決定処理部の構成例を示すブロック図である。シグモイド関数の一例を示す図である。統合スコアを音量ステップに変換する変換テーブルの一例を示す図である。再生音量の制御例を説明する図である。シグモイド関数のセンター値をシフトさせる例を説明する図である。シグモイド関数のセンター値をシフトさせる例を説明する図である。最適音量決定処理を説明するフローチャートである。再生音量仮決定処理を説明するフローチャートである。ユーザモデル参照処理を説明するフローチャートである。補正係数更新処理を説明するフローチャートである。本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。

＜音量制御処理装置の構成例＞
図１は、本技術を適用した音声コンテンツ再生装置の一実施の形態の構成例を示すブロック図である。

図１に示すように、音声コンテンツ再生装置１１は、収音部１２、撮像部１３、人感センサ１４、出力部１５、および再生音量制御部１６を備えて構成される。例えば、音声コンテンツ再生装置１１は、図示しないストレージに蓄積されている音声コンテンツや、ネットワークを介して配信される音声コンテンツなどの再生中に、ユーザの発話に従って、再生音量が最適なものとなるように制御することができる。

収音部１２は、例えば、複数のマイクロホンを有して構成され、音声コンテンツ再生装置１１の周囲の雑音や、音声コンテンツ再生装置１１に対するユーザの発話などを、それぞれのマイクロホンにより収音する。そして、収音部１２は、周囲の雑音やユーザの発話などを示す音声信号を、再生音量制御部１６に供給する。

撮像部１３は、例えば、CMOS（Complementary Metal Oxide Semiconductor）イメージセンサなどの撮像素子を有して構成され、音声コンテンツ再生装置１１の周囲を撮像して得られる画像を表す画像信号を、再生音量制御部１６に供給する。

人感センサ１４は、例えば、赤外線を検出する赤外線センサを有して構成され、音声コンテンツ再生装置１１に近接するユーザを検出し、ユーザの検出結果を示すセンサ信号を再生音量制御部１６に供給する。

出力部１５は、例えば、音声を出力するためのスピーカを有して構成され、音声コンテンツ再生装置１１において再生される音声コンテンツを出力する。

再生音量制御部１６は、収音部１２から供給される音声信号、撮像部１３から供給される画像信号、および、人感センサ１４から供給されるセンサ信号に基づいて、出力部１５から出力される音声コンテンツの再生音量を、ユーザの発話に従って制御する。図示するように、再生音量制御部１６は、信号処理部２１、メモリ２２、音声処理部２３、最適音量決定処理部２４、および再生音量制御部２５が、バス２６を介して接続されて構成される。

信号処理部２１は、ユーザ位置推定部３１、発話音量算出部３２、および雑音環境学習部３３を備えて構成され、再生音量制御部１６に供給される音声信号、画像信号、およびセンサ信号に対する信号処理を行う。

ユーザ位置推定部３１は、人感センサ１４から供給されるセンサ信号に従ってユーザの近接を検出すると、撮像部１３から供給される画像信号により表される画像に写されているユーザから、音声コンテンツ再生装置１１に対するユーザの位置を推定する。または、ユーザ位置推定部３１は、収音部１２が有する複数のマイクロホンにより収音される音声の時間差などに基づいて、ユーザの位置を推定してもよい。このとき、ユーザ位置推定部３１は、ユーザの位置に対する方向の推定をマイクロホンを利用して行い、ユーザの位置までの距離の推定を１台以上のカメラや、その他の測距可能なセンサなどを利用して行うというように、複数の機器を組み合わせて利用することで効率的にユーザの位置を推定することができる。そして、ユーザ位置推定部３１は、推定したユーザ位置を、バス２６を介して最適音量決定処理部２４に供給する。

発話音量算出部３２は、収音部１２から供給される音声信号に従って、音声コンテンツ再生装置１１に対してユーザが発話した際の音声の大きさを示す発話音量を算出し、バス２６を介して最適音量決定処理部２４に供給する。

雑音環境学習部３３は、収音部１２から供給される音声信号に従って、音声コンテンツ再生装置１１の周囲の雑音の大きさを求め、音声コンテンツ再生装置１１の周囲における定常的な雑音環境を学習する。そして、雑音環境学習部３３は、その学習を行うことで求めた音声コンテンツ再生装置１１の周囲の雑音環境を、バス２６を介して最適音量決定処理部２４に供給する。

メモリ２２には、再生音量制御部１６において音声コンテンツの再生音量を制御するのに必要となる情報を記憶する各種の記憶部が設けられ、図１に示す例では、再生コンテンツ情報記憶部４１、ユーザモデル記憶部４２、および設定記憶部４３が設けられている。再生コンテンツ情報記憶部４１は、再生中の音声コンテンツの種類を示す再生コンテンツ情報を記憶する。ユーザモデル記憶部４２は、後述するようなユーザモデル情報に従って特定されるユーザの視聴環境に対応付けて最適再生音量を記憶する。設定記憶部４３は、再生中の音声コンテンツの音量などの設定を記憶する。

音声処理部２３には、音声コンテンツ再生装置１１に対して発話したユーザの音声を示す音声信号が信号処理部２１を介して供給される。そして、音声処理部２３は、ユーザの音声に対する音声処理を行って得られる音声処理結果を、バス２６を介して最適音量決定処理部２４に供給する。

例えば、音声処理部２３は、ユーザの音声に基づいた発話内容を認識して文字列に変換する音声認識処理を行って、その文字列により表される発話内容を音声処理結果として最適音量決定処理部２４に供給する。また、音声処理部２３は、ユーザの音声の特徴を推定する音声特徴推定処理を行って、その特徴により求められる話し方（緊迫度）を音声処理結果として最適音量決定処理部２４に供給する。なお、音声処理部２３が行う音声処理は、例えば、ネットワークを介して接続される高性能な情報処理装置で行ってもよく、音声処理部２３は、その情報処理装置で音声処理された音声処理結果を取得するようにしてもよい。

最適音量決定処理部２４は、ユーザ位置推定部３１により推定されるユーザ位置、発話音量算出部３２により算出される発話音量、雑音環境学習部３３により学習された雑音環境、メモリ２２に記憶されている各種の情報、および、音声処理部２３による音声処理結果に基づいて、音声コンテンツの最適な再生音量を決定する。

例えば、最適音量決定処理部２４は、ユーザがコマンドを発話した際の音量または話し方や、そのユーザまでの距離、音声コンテンツ再生装置１１の周囲の雑音環境などの要素データから、最適な再生音量に調整するための音量ステップを仮決定する。そして、最適音量決定処理部２４は、仮決定された音量ステップに対して、ユーザモデル情報に基づく過去の類似の視聴環境における最適再生音量から求められる音量ステップを統合し、最適な再生音量に調整するための音量ステップを最終的に決定する。

再生音量制御部２５は、最適音量決定処理部２４により最終的に決定された音量ステップに従って、再生中のコンテンツの再生音量を調整する制御を行う。

このように音声コンテンツ再生装置１１は構成されており、ユーザの発話に従って、再生中の音声コンテンツの再生音量が最適となるように迅速に制御することができる。

ここで、最適音量決定処理部２４が、最適な再生音量に調整するための音量ステップを仮決定するのに用いる要素データ、および、仮決定された音量ステップから、音量ステップを最終的に決定するのに用いるユーザモデル情報について説明する。

図２には、各種の要素データと、それぞれの要素データを表す状況例の一例が示されている。例えば、要素データ「雑音環境」は状況例「静か、普通、うるさい」により表され、要素データ「発話音量」は状況例「静か、普通、うるさい」により表される。また、要素データ「話者距離」は状況例「近い、普通、遠い」により表され、要素データ「話し方」は状況例「普通、緊迫」により表され、要素データ「再生音量」は状況例「無音、小さい、普通、大きい」により表される。

図３には、各種のユーザモデル情報と、それぞれのユーザモデル情報を表す状況例の一例が示されている。例えば、ユーザモデル情報「視聴位置」は状況例「ソファやキッチンなど、実際にはユーザごとの角度情報」により表され、ユーザモデル情報「再生コンテンツ」は状況例「無音、ラジオ、ニュース、音楽、システム会話」により表される。また、ユーザモデル情報「視聴時間」は状況例「平日帰宅後や、週末昼など」により表される。そして、これらのユーザモデル情報の状況例の組み合わせが、ユーザの視聴環境として用いられる。また、撮像部１３により撮像された画像に写されているユーザの顔認証処理や、音声処理部２３による音声に基づくユーザ認識処理などを利用して、複数のユーザの識別することができ、それぞれのユーザごとのユーザモデル情報が取得される。

図４を参照して、最適音量決定処理部２４の構成例について説明する。

図４に示すように、最適音量決定処理部２４は、コマンド検出部５１、要素データ取得部５２、ユーザモデル取得部５３、要素データ正規化部５４、スコア統合部５５、緊迫度設定部５６、類似度算出部５７、優先度補正部５８、類似度重み変換部５９、音量ステップ変換部６０、再生音量仮決定部６１、最終再生音量決定部６２、音量ステップ制御部６３、補正係数更新部６４、およびユーザモデル更新部６５を備えて構成される。

コマンド検出部５１は、音声処理部２３から音声処理結果として供給される発話内容に基づいてユーザが発話したコマンドのうち、音声コンテンツの再生音量の変更を指示するコマンドを検出する。そして、コマンド検出部５１は、音声コンテンツの再生音量の変更を指示するコマンドを検出したことをユーザモデル取得部５３に通知する。

さらに、コマンド検出部５１は、検出したコマンドに応じて、再生音量仮決定部６１が再生音量を仮決定する際に参照する変換テーブルの有効領域を限定するように、再生音量仮決定部６１に対する指示を行う。例えば、コマンド検出部５１は、「ボリュームアップ」や「音量上げて」などのように、コンテンツの再生音量の上昇を指示するコマンドを検出した場合、変換テーブルの有効領域を音量アップゾーンに限定するように、再生音量仮決定部６１に対する指示を行う。一方、コマンド検出部５１は、「ボリュームダウン」や「音量下げて」などのように、コンテンツの再生音量の低下を指示するコマンドを検出した場合、変換テーブルの有効領域を音量ダウンゾーンに限定するように、再生音量仮決定部６１に対する指示を行う。

要素データ取得部５２は、ユーザ位置推定部３１により推定されるユーザ位置、発話音量算出部３２により算出される発話音量、雑音環境学習部３３により学習された雑音環境、メモリ２２に記憶されている各種の情報、および、音声処理部２３による音声処理結果から、図２を参照して上述したような要素データを取得し、要素データ正規化部５４に供給する。例えば、要素データ取得部５２は、要素データとして、音声コンテンツ再生装置１１の周囲の雑音の大きさを示す雑音レベル、ユーザがコマンドを発話したときの音声の大きさを示す発話レベル、音声コンテンツ再生装置１１からユーザまでの距離を示す話者距離、および、ユーザがコマンドを発話した際の話し方を取得する。

ユーザモデル取得部５３は、音声コンテンツの再生音量の変更を指示するコマンドを検出したことがコマンド検出部５１により通知されると、そのコマンドを発話したユーザの現在のユーザモデル情報を取得して、類似度算出部５７に供給する。例えば、ユーザモデル取得部５３は、ユーザ位置推定部３１により推定されるユーザ位置をユーザの現在の視聴位置として取得し、再生コンテンツ情報記憶部４１から再生中の音声コンテンツの種類を取得し、現在の時間を視聴時間として取得する。

要素データ正規化部５４は、要素データ取得部５２から供給される単位の異なる複数の要素データを、所定のスコア算出式に従って正規化することによって、複数の要素データのスコアを求め、スコア統合部５５に供給する。例えば、要素データ正規化部５４は、図５に示すようなシグモイド関数を利用して、要素データを０から１までの値に正規化することにより、要素データのスコアを求めることができる。また、要素データ正規化部５４は、要素データ取得部５２から供給される複数の要素データのうち、話し方を正規化したスコアを、緊迫度設定部５６に供給する。

例えば、要素データ正規化部５４は、要素データの雑音レベルについて、－４０ｄＢＡの雑音レベルをスコアのセンター値（０．５）とし、雑音レベルが－４０ｄＢＡより大きくなるとスコアが１に近づき、雑音レベルが－４０ｄＢＡより小さくなるとスコアが０に近づくように雑音レベルを正規化する。また、要素データ正規化部５４は、要素データの話者距離について、２ｍの話者距離をスコアのセンター値（０．５）とし、話者距離が２ｍより大きくなるとスコアが１に近づき、話者距離が２ｍより小さくなるとスコアが０に近づくように話者距離を正規化する。

このような正規化には、図５に示すシグモイド関数を利用することができ、要素データ正規化部５４には、初期値として、例えば、上述の例における－４０ｄＢＡや２ｍなどのセンター値ｃ_(n)が要素データごとに与えられる。例えば、センター値ｃ_(n)は、個々の音声コンテンツ再生装置１１の挙動に合わせて、設計者が設定する必要がある。従って、全ての要素データがセンター値ｃ_(n)となるような環境では、最適な再生音量は設計者のポリシーにより決定される。そして、要素データがセンター値ｃ_(n)から離れているズレ量が、再生音量を変化させたい変化量となる。

スコア統合部５５は、要素データ正規化部５４により要素データから求められたスコアを統合することにより求められる統合スコア、例えば、全てのスコアの平均を算出することにより求められる統合スコアを、優先度補正部５８に供給する。

具体的には、雑音レベル、発話レベル、話者距離などの要素データの観測値を、ｆ₍₁₎，ｆ₍₂₎，ｆ₍₃₎とすると、それぞれ単位が異なることより、要素データ正規化部５４により、各要素データのターゲットとなるセンター値ｃ_(n)からどれだけ離れているかが正規化される。即ち、要素データが正規化されたスコアであるシグモイド関数の出力ｆ_NRM(n)は、各要素データの観測値（ｆ₍₁₎，ｆ₍₂₎，ｆ₍₃₎，・・・，ｆ_(N)）、各要素データのセンター値（ｃ₍₁₎，ｃ₍₂₎，ｃ₍₃₎，・・・，ｃ_(N)）、および反応感度調整パラメータａを用いて、次の式（１）で表される。

そして、スコア統合部５５は、要素データ正規化部５４が各要素データを正規化して求めたスコアであるシグモイド関数の出力ｆ_NRM(n)を、要素データの個数Ｎで平均することによって統合スコアＳｃｏｒｅを取得する。即ち、統合スコアＳｃｏｒｅは、要素データの個数Ｎを用いて、次の式（２）で表される。

例えば、雑音レベルのセンター値ｃを－４０ｄＢＡと設定したときに、雑音レベルの観測値ｆが－４０ｄＢＡであった場合、要素データ正規化部５４によりスコアとして求められるシグモイド関数に基づいた正規化後の要素データｆ_NRMは、０．５となる。一方、雑音レベルの観測値ｆが－３０ｄＢＡであった場合、正規化後の要素データｆ_NRMは、１に近い値が出力され、雑音レベルに起因して音量を上昇させる音量ステップが大きくなる。これに従って、音声コンテンツ再生装置１１の周囲の雑音環境がうるさいときには、大きな音量ステップで音声コンテンツの再生音量を大きく調整するような制御が行われる。

さらに、総和が１になるような要素データの個数分の重み係数ｗ_nを、それぞれ対応する要素データを正規化したシグモイド関数の出力ｆ_NRM(n)に掛けることで、要素データごとの重要度を調整することができる。つまり、次の式（３）に示すように、重み係数ｗ_nを用いて重み付けされた統合スコアＳｃｏｒｅ_weightを求めることができる。

例えば、撮像部１３により撮像された画像に基づいて、話者距離が十分に近いと精度良く判断された場合、発話レベルを正規化したスコアが音量アップ大（即ち、１に近い値）を示していても、実際には、それほど音量を大きくしなくてよい。つまり、ユーザが近くで発話したために発話レベルのスコアが１に近い値になったのであって、音声コンテンツの再生音量を大きくしたいために大きな声で発話したのではないと判断することができる。従って、スコア統合部５５は、話者距離を示す要素データの重み係数ｗを大きくするとともに、発話レベルを示す要素データの重み係数ｗを小さくするような重み調整を行うことができる。なお、重み係数ｗは、予め決められた値を用いてもよいし、動的に制御してもよい。

緊迫度設定部５６は、要素データ正規化部５４が、話し方の要素データを正規化して求めたスコアを、ユーザがコマンドを発話した際の緊迫度として、優先度補正部５８に対して設定する。

類似度算出部５７は、ユーザモデル取得部５３から供給される現在のユーザのユーザモデル情報と最も類似するものを、ユーザモデル記憶部４２に記憶されている過去のユーザモデル情報の中から検索して読み出す。そして、類似度算出部５７は、現在のユーザのユーザモデル情報により示される視聴環境と、過去のユーザモデル情報により示される視聴環境との類似度を算出して、類似度重み変換部５９に供給する。さらに、類似度算出部５７は、類似度の算出に用いた過去のユーザモデル情報に対応付けられている最適再生音量をユーザモデル記憶部４２から読み出して音量ステップ変換部６０に供給する。

優先度補正部５８は、緊迫度設定部５６により設定された緊迫度に基づいて、スコア統合部５５から供給される統合スコアに対する補正を行い、補正後の統合スコアを類似度重み変換部５９および再生音量仮決定部６１に供給する。例えば、優先度補正部５８は、緊迫度が高い場合には、ユーザの意思が強く反映されているものとして、緊迫度以外から得られるスコアの優先度を低くする一方で、緊迫度から得られるスコアの優先度を高くするように、統合スコアに対する補正を行う。

例えば、再生中の音声コンテンツの再生音量はそれほど大きくないが、周囲の雑音環境が静かとなっていて子供が寝ているような状況において、ユーザが「ボリュームダウン」と発話したとする。このとき、優先度補正部５８は、緊迫度が高い場合、再生音量を低下させる音量ステップが大きくなるように、統合スコアに対する補正を行う。

ここで、緊迫度以外から得られるスコアには、雑音レベルや、ユーザ発話、距離情報などを、正規化した後に総合した０～１の範囲の値が用いられる。また、緊迫度から得られるスコアには、例えば、音声処理部２３によって、ユーザ発話の信号を解析することにより緊迫しているかを推定することや、クラウド上に存在する専用の機器によって話速やピッチ成分などの情報を基に解析を行ったり機械学習をベースとしたりすることで緊迫しているかを推定することなどにより、０～１の範囲に正規化した値が用いられる。

そして、優先度補正部５８は、緊迫度以外から得られるスコアと挙動を合わせるために、例えば、緊迫度から得られるスコアが０に近ければ「音量ダウン」の緊迫度が高い、緊迫度から得られるスコアが１に近ければ「音量アップ」の緊迫度が高い、または、緊迫度から得られるスコアが0.5付近にくれば通常の発話とみなして、統合スコアに対する補正を行うことができる。その一例として、優先度補正部５８は、「音量ダウン」の場合、緊迫度が0.2を下回ったときには音量を下げる緊迫度が高いとして、類似度重みは１にして過去のユーザモデル情報は参照しないことで、かつ、緊迫度以外の総合スコアが0.2より大きいときには緊迫度スコアをそのまま音量ステップに採用することで、急な音量調整に対応可能とするような補正を行うことができる。

類似度重み変換部５９は、類似度算出部５７から供給される類似度を、要素データに基づいて求められる音量ステップと、ユーザモデル情報に基づいて求められる音量ステップとの重要度を調整する重みαに変換して、最終再生音量決定部６２に供給する。例えば、重みαは、ユーザモデル情報から参照できる過去の類似した視聴環境と、現在の視聴環境とが類似している割合を信頼度として算出し、その信頼度の大きさに応じて随時変化するような値である。このとき、類似度重み変換部５９は、優先度補正部５８が統合スコアに対する補正を行うのに用いた緊迫度に従って重みαを調整することができ、例えば、緊迫度が高い場合には、重みαを大きな値（非常に緊迫している状況ではα＝１）に調整することができる。

音量ステップ変換部６０は、類似度算出部５７から供給される過去のユーザモデル情報に対応付けられている最適再生音量と、設定記憶部４３に記憶されている再生中の音声コンテンツの音量との差分を求める。これにより、音量ステップ変換部６０は、再生中の音声コンテンツの音量を、過去のユーザモデル情報に対応付けられている最適再生音量に調整するための音量ステップを取得し、最終再生音量決定部６２に供給する。即ち、過去のユーザモデル情報に対応付けられている最適再生音量は、過去の類似環境における収束音量設定値であるので、この値と、再生中の音声コンテンツの音量との差分は、ユーザモデル情報から得られるユーザ個人の通常使用時の音量ステップとみなすことができる。従って、音量ステップ変換部６０は、コマンドを発話したときのユーザの視聴環境を表すユーザモデル情報に基づいて、過去に類似する視聴状況であったときの最適再生音量となるように、再生中の音声コンテンツの再生音量を調整する音量ステップを求めることができる。

再生音量仮決定部６１は、図６に示すような変換テーブルを参照して、優先度補正部５８において補正された統合スコアを音量ステップに変換することで、音声コンテンツを最適な再生音量に調整するための音量ステップを仮決定して、最終再生音量決定部６２に供給する。即ち、再生音量仮決定部６１は、ユーザが音声コンテンツの再生音量の変更を指示するコマンドを発話したときに取得された要素データ（例えば、雑音レベル、発話レベル、話者距離）に基づいて、再生中のコンテンツの再生音量を調整する音量ステップを仮決定することができる。このとき、再生音量仮決定部６１は、コマンド検出部５１による指示に従って、コンテンツの再生音量の上昇を指示するコマンドが検出されていた場合には、変換テーブルの有効領域を音量アップゾーンに限定して統合スコアを音量ステップに変換する。同様に、再生音量仮決定部６１は、コマンド検出部５１による指示に従って、コンテンツの再生音量の低下を指示するコマンドが検出されていた場合には、変換テーブルの有効領域を音量ダウンゾーンに限定して統合スコアを音量ステップに変換する。

ここで、図６の変換テーブルは、０から１までの値に正規化された統合スコアから、音声コンテンツ再生装置１１のボリュームをどれだけ制御するかを示す対応カーブにより表される。この対応カーブは、音声コンテンツ再生装置１１などの製品ごとに予め設定されている。例えば、音量ステップの最大値および最小値は、音声コンテンツ再生装置１１のボリュームの最大および最小に設定することができる。また、音声コンテンツ再生装置１１の安全性を考慮して、音量ステップの最大値は、ある程度の音量ステップ分に留まるように設定することができる。

また、変換テーブルは、総合スコアが０．５であるときに音量ステップが０付近になり、音声コンテンツ再生装置１１ごとの音量ステップの分解能に合わせて設定される。ここで、音量ステップが０付近という表現を用いるのは、ユーザの発話コマンドがボリュームアップかボリュームダウンかで音声コンテンツ再生装置１１の音量の制御方法が異なるためである。例えば、実際に変換テーブルを作成する際は、ボリュームアップと発話されたときに総合スコアが０・５であった場合、音量ステップを０とするのではなく、音声コンテンツ再生装置１１のユーザインタフェース上で設定可能な最小の１ステップとすることで、より自然に音量を変化させることができる。

最終再生音量決定部６２は、再生音量仮決定部６１から供給される仮決定された音量ステップに対して、類似度重み変換部５９から供給される重みα、および、音量ステップ変換部６０から供給される音量ステップを用いた演算を行って、最終的な音量ステップを決定する。即ち、最終再生音量決定部６２は、総合スコアにより仮決定された音量ステップと、ユーザモデル情報から得られるユーザ個人の通常使用時の音量ステップとを、重みαに従って統合して、最適音量決定処理部２４により最適な再生音量として実際に制御するための音量ステップを決定する。

図示するように、最終再生音量決定部６２は、重み平均乗算部７１、補数乗算部７２、および加算部７３を備えて構成される。重み平均乗算部７１は、仮決定された音量ステップに重みαを乗算して加算部７３に出力し、補数乗算部７２は、ユーザモデル情報から取得された音量ステップに重みαの補数（１－α）を乗算して、加算部７３に出力する。そして、加算部７３は、重み平均乗算部７１の出力と、補数乗算部７２の出力とを加算することで、それぞれの音量ステップを重みαに従って統合して、最終的に決定した音量ステップとして音量ステップ制御部６３に供給する。

音量ステップ制御部６３は、最終再生音量決定部６２により最終的に決定された音量ステップに従って音声コンテンツの再生音量を調整するように、図１の再生音量制御部２５に対する制御を行う。また、音量ステップ制御部６３は、最終的に決定された音量ステップを、補正係数更新部６４およびユーザモデル更新部６５に供給する。

補正係数更新部６４は、要素データ正規化部５４が要素データを正規化する際に用いるスコア算出式の係数を補正して更新することができ、例えば、シグモイド関数（図５参照）のセンター値をシフトさせる。

例えば、初期設定の自動調整用の音量ステップが仮にユーザにとって所望するステップ幅でなかった場合、ユーザは連続して、音声コンテンツの再生音量の変更を指示するコマンドを発話することになる。このとき、ユーザは、ボリュームアップを発話するのに続けて、ボリュームアップを発話する場合だけでなく、ボリュームアップを発話するのに続けて、ボリュームダウンを発話することもある。この場合、補正係数更新部６４は、設定されている各スコア算出式の係数がユーザの環境、あるいはユーザの嗜好に則していないと判断し、スコア算出式の係数を補正して更新する。

例えば、ユーザが２回目以降に発話したボリュームアップまたはボリュームダウンを不要とする向きに、補正係数更新部６４は、シグモイド関数のセンター値をシフトすることで対応する。例えば、ユーザがボリュームアップを連続して発話した場合は、そのユーザにとって１回目の音量ステップではステップ幅が小さい、つまり、総合スコアの値が小さいということになる。そこで、補正係数更新部６４は、各要素データのスコアが大きくなるようにシグモイド関数のセンター値をシフトさせる。そのシフトの度合いは、スコアが小さかった要素データのセンター値は大きく修正され、スコアが大きかった要素データはそれほど変わらないように修正される。

ユーザモデル更新部６５は、ユーザモデル取得部５３が取得した現在のユーザモデル情報に、最終再生音量決定部６２により最終的に決定された音量ステップに従って調整される最適再生音量を対応付けて、ユーザモデル記憶部４２に記憶させる。これにより、ユーザモデル記憶部４２に記憶される最適再生音量は、例えば、ユーザの視聴位置や、再生コンテンツの種類、再生時間などのように、音声コンテンツ再生装置１１が長時間使用されるなかで、個々のユーザの嗜好に合わせて更新されることになる。

例えば、ユーザモデル更新部６５は、あるユーザが、週末に音楽を再生するときはいつも音量を大きくする場合、そのような視聴環境を、そのユーザのユーザモデル情報として更新する。

以上のように最適音量決定処理部２４は構成されており、ユーザの視聴環境に応じて、再生中の音声コンテンツが最適な再生音量になるとなるように、迅速に制御することができる。

例えば、最適音量決定処理部２４は、ユーザがボリュームアップを連続して発話した場合には、音声コンテンツ再生装置１１の再生音量が既に大きくなっているため、再生音量を上昇させる音量ステップのステップ幅が小さくなるような制御を行うことができる。

また、ユーザがボリュームアップを発話した後にボリュームダウンを発話した場合には、音量ステップの最適値は、ユーザがボリュームアップを発話する前の再生音量と、発話した後の再生音量との間にあると推測される。そこで、最適音量決定処理部２４では、ユーザが発話を終了したときの再生音量から各要素データのセンター値を更新することで、ユーザがボリュームアップを発話する前の再生音量と、発話した後の再生音量との間となるような最適なステップ幅の音量ステップで再生音量を低下させることができる。

そして、最適音量決定処理部２４は、ユーザの視聴環境に応じて、どのぐらいの音量ステップでボリュームをコントロールすべきかを自動で判定することができるので、ユーザが、ボリュームアップまたはボリュームダウンを一回だけ発話することで、ユーザの所望の再生音量となるような制御を行うことができる。

図７を参照して、音声コンテンツ再生装置１１における再生音量の制御例について説明する。

例えば、図７のＡには、音声コンテンツ再生装置１１の近傍に雑音源がない状況が示されており、図７のＢには、音声コンテンツ再生装置１１の近傍に雑音源がある状況が示されている。そして、それぞれの状況において、音声コンテンツの音量を上昇させるとき、ユーザの所望の音量ステップは、音声コンテンツ再生装置１１の周囲の雑音レベルによって異なるものとなる。

例えば、図７のＡに示すように音声コンテンツ再生装置１１の近傍に雑音源がなく、その周囲のＳＮＲが２０ｄＢの状況であるとき、ユーザの所望の音量ステップは３ｄＢ上昇であるとする。一方、図７のＢに示すように音声コンテンツ再生装置１１の近傍に雑音源があり、その周囲のＳＮＲが５ｄＢの状況であるとき、ユーザの所望の音量ステップは６ｄＢ上昇であるとする。

そして、それぞれの状況において、ユーザが「ボリュームアップ」と１回の発話を行うだけで、音声コンテンツ再生装置１１は、ユーザの所望の音量ステップで再生音量を制御することができる。即ち、図７のＡに示す状況では、音声コンテンツ再生装置１１は、周囲の雑音環境が静かであることに基づいて、音声コンテンツの再生音量を３ｄＢ上昇させることができる。一方、図７のＢに示す状況では、音声コンテンツ再生装置１１は、周囲の雑音環境がうるさいことに基づいて、音声コンテンツの再生音量を６ｄＢ上昇させることができる。このように、音声コンテンツ再生装置１１は、ユーザが同一の発話を行っても、それぞれ適切な再生音量となるように制御を行うことができる。

なお、従来、１ｄＢのステップごとに音量が制御される場合、図７のＡに示す状況では、ユーザは「ボリュームアップ」と３回の発話を行う必要があり、図７のＢに示す状況では、ユーザは「ボリュームアップ」と６回の発話を行う必要があった。これに対して、音声コンテンツ再生装置１１は、上述したように、ユーザは「ボリュームアップ」と１回の発話を行うだけでよく、より迅速に再生音量が最適となるように制御することができる。

また、従来、図７のＢに示す状況において、ユーザは「ボリュームアップ６」というように音量を指定する発話を行うことで、所望の音量に調整することができると考えられる。しかしながら、この場合、ＳＮＲが低いため、音声認識処理における認識ミス率が上昇し、ユーザが発話した数値を認識できないことが想定され、音声認識に失敗した場合には大きな再生音量に急激に変更される恐れがある。これに対して、音声コンテンツ再生装置１１は、上述したように、ユーザは「ボリュームアップ」と１回の発話を行うだけでよく、数値を音声認識させる場合と比較して、より確実に再生音量が最適となるように制御することができる。

同様に、ユーザが、音声コンテンツの音量を低下させたい場合にも、図７のＣに示すように、ユーザは「ボリュームダウン」と１回の発話を行うだけでよく、より迅速に再生音量が最適となるように、例えば、音声コンテンツの再生音量を３ｄＢ低下させるような制御を行うことができる。なお、従来、１ｄＢのステップごとに音量が制御される場合、図７のＣに示す状況では、ユーザは「ボリュームダウン」と３回の発話を行う必要があった。

さらに、図７のＤに示すように、音声コンテンツ再生装置１１の近くで子供が寝ている状況で、音声コンテンツ再生装置１１が、大音量での音声コンテンツの再生を突然行った場合、ユーザは、例えば、音声コンテンツの再生音量を１０ｄＢ低下させることを所望する。このような状況において、ユーザが「ボリュームダウン！」と緊迫した声で１回の発話を行うだけで、音声コンテンツ再生装置１１は音声コンテンツの再生音量を１０ｄＢ低下させることができる。

なお、従来、１ｄＢのステップごとに音量が制御される場合、図７のＤに示す状況では、ユーザは「ボリュームダウン」と１０回の発話を行う必要があった。または、ユーザは、消音させるためのコマンド「ミュート」を覚える必要があった。これに対して、音声コンテンツ再生装置１１は、上述したように緊迫度に従って優先度を補正することができるので、ユーザは「ボリュームダウン！」と１回の発話を行うだけでよく、より迅速に再生音量が最適となるように制御することができる。

このように、音声コンテンツ再生装置１１は、図７のＣに示すような状況や、図７のＤに示すような状況などのように、それぞれの状況に応じて、ユーザが同一の発話を行っても、適切な再生音量となるように制御を行うことができる。

その他、音声コンテンツ再生装置１１は、周囲が静かでユーザの距離が近いような状況や、周囲が騒がしくユーザが標準的な距離にいる状況、周囲が静かでユーザの距離が遠いような状況など、それぞれの状況に応じて、ユーザが同一の発話を行っても、適切な再生音量となるように制御を行うことができる。

図８および図９を参照して、補正係数更新部６４が、要素データ正規化部５４が要素データを正規化する際に用いるスコア算出式の補正係数を更新する一例として、シグモイド関数のセンター値をシフトさせる例について説明する。ここでは、ユーザが、再生音量を２５に変更することを所望している例について説明する。また、図８および図９に示す発話レベルのシグモイド関数は、発話レベルが小さい方が音量を大きくしたいことより、右に向かうほど小さな値となっている。

図８に示すように、雑音レベルが４５ｄＢＡであり、再生中のコンテンツの再生音量が２０であり、話者距離が３ｍであるときに、ユーザがボリュームアップと発話した発話音量が５０ｄＢＡであったとする。このとき、雑音レベルのシグモイド関数のセンター値が４５ｄＢＡに設定され、発話レベルのシグモイド関数のセンター値が５５ｄＢＡに設定され、話者距離のシグモイド関数のセンター値が２ｍに設定されているとする。このとき、ユーザが１回目のボリュームアップを発話すると、音声コンテンツ再生装置１１は、総合スコアに基づいて、最適な再生音量は２３であると推定して再生音量を上昇させる制御を行う。

このような音声コンテンツ再生装置１１による再生音量の制御に対し、ユーザが、再生音量がまだ小さいと感じ、その後、ボリュームアップやボリュームダウンを繰り返して、再生音量が２５になったところで発話が終了したとする。

これに応じて音声コンテンツ再生装置１１は、最初のユーザの発話の時から取得している雑音レベルや発話レベル、話者距離などから決定した最適な再生音量２３と、最終的にユーザが再生音量の調整を終了した実際の再生音量２５との差が埋まるように、それぞれのシグモイド関数のセンター値をシフトすることができる。

つまり、図９に示すように、雑音レベルのシグモイド関数のセンター値が３８ｄＢＡに更新され、発話レベルのシグモイド関数のセンター値が５６ｄＢＡに更新される。従って、次回、ユーザが類似した視聴環境でボリュームアップと発話すると、音声コンテンツ再生装置１１は、総合スコアに基づいて、最適な再生音量は２５であると推定して再生音量を上昇させる制御を行い、１回で再生音量２５となるように制御することができる。

＜最適音量決定処理＞
図１０乃至図１３に示すフローチャートを参照して、最適音量決定処理部２４において実行される最適音量決定処理について説明する。

例えば、音声コンテンツ再生装置１１が起動すると処理が開始され、ステップＳ１１において、要素データ取得部５２は、各種の要素データを取得して、要素データ正規化部５４に供給する。例えば、要素データ取得部５２は、ユーザ位置推定部３１により推定されるユーザ位置や、発話音量算出部３２により算出される発話音量、雑音環境学習部３３により学習された雑音環境などから、要素データを取得する。

ステップＳ１２において、要素データ正規化部５４は、ステップＳ１１で要素データ取得部５２から供給される各種の要素データを、図５に示したようなシグモイド関数を利用して正規化し、各種の要素データのスコアを取得する。

ステップＳ１３において、コマンド検出部５１は、音声処理部２３による音声認識結果に基づいて、コンテンツの再生音量の変更を指示するコマンドが検出されたか否かを判定する。

ステップＳ１３において、コマンド検出部５１が、コンテンツの再生音量の変更を指示するコマンドが検出されなかったと判定した場合、処理はステップＳ１１に戻る。そして、コマンド検出部５１が、コンテンツの再生音量の変更を指示するコマンドが検出されたと判定するまで、取得された要素データの正規化が繰り返して行われ、各種の要素データのスコアが蓄積される。

一方、ステップＳ１３において、コマンド検出部５１が、コンテンツの再生音量の変更を指示するコマンドが検出されたと判定した場合、処理はステップＳ１４に進む。

ステップＳ１４において、要素データに基づいて求められる音量ステップを仮決定する再生音量仮決定処理（図１１参照）が行われる。

ステップＳ１５において、ユーザモデル情報を参照して求められる重みαおよび音量ステップを取得するユーザモデル参照処理（図１２参照）が行われる。

ステップＳ１６において、最終再生音量決定部６２は、ステップＳ１４の再生音量仮決定処理で仮決定された音量ステップと、ステップＳ１５のユーザモデル参照処理で取得された重みαおよび音量ステップを用いた演算を行って、最終的な音量ステップを決定する。そして、最終再生音量決定部６２は、音量ステップを音量ステップ制御部６３に供給し、音量ステップ制御部６３は、その音量ステップに従って音声コンテンツの再生音量を調整するように、図１の再生音量制御部２５に対する制御を行う。また、最終再生音量決定部６２は、最終的に決定された音量ステップを、補正係数更新部６４およびユーザモデル更新部６５に供給する。

ステップＳ１７において、補正係数更新部６４は、図８および図９を参照して上述したように、要素データ正規化部５４が要素データを正規化するのに利用するシグモイド関数のセンター値をシフトさせる補正係数更新処理（図１３参照）を行う。

ステップＳ１８において、ユーザモデル更新部６５は、ステップＳ１６で最終再生音量決定部６２から供給された音量ステップに従って調整される最適再生音量を、ユーザモデル情報に対応付けてユーザモデル記憶部４２に記憶させる。その後、処理はステップＳ１１に戻り、以下、同様の処理が繰り返して行われる。

図１１のフローチャートを参照して、図１０のステップＳ１４で行われる再生音量仮決定処理について説明する。

ステップＳ２１において、要素データ正規化部５４は、音声コンテンツの再生音量の変更を指示するコマンドが検出されたときに取得された各種の要素データのスコアをスコア統合部５５に供給する。即ち、ユーザがコンテンツの再生音量の変更を指示する発話を行ったときの状況を示す各要素データが正規化されたスコアがスコア統合部５５に供給される。そして、スコア統合部５５は、例えば、上述した式（２）または式（３）を用いて、それらの要素データを統合して統合スコアを算出し、優先度補正部５８に供給する。

ステップＳ２２において、要素データ正規化部５４は、コンテンツの再生音量の変更を指示するコマンドが検出されたときに取得された各要素データのうち、話し方の要素データを正規化したスコアを、緊迫度設定部５６に供給する。そして、緊迫度設定部５６は、そのスコアを、ユーザがコマンドを発話した際の緊迫度として、優先度補正部５８に対して設定する。

ステップＳ２３において、コマンド検出部５１は、図１０のステップＳ１３で検出されたコマンドによる指示が、再生中の音声コンテンツの再生音量の上昇および低下のどちらであるかを判定する。

ステップＳ２３において、コマンド検出部５１が、コマンドによる指示が再生音量の低下であると判定した場合、処理はステップＳ２４に進む。このとき、コマンド検出部５１は、再生音量仮決定部６１に対して、変換テーブルの有効領域を音量ダウンゾーンに限定するように指示を行う。

ステップＳ２４において、優先度補正部５８は、ステップＳ２２で緊迫度設定部５６により設定された緊迫度が高いか否かを判定し、緊迫度が高いと判定した場合、処理はステップＳ２５に進む。

ステップＳ２５において、優先度補正部５８は、ステップＳ２２で緊迫度設定部５６により設定された緊迫度に従って、ステップＳ２１でスコア統合部５５から供給された統合スコアを補正する。即ち、この場合、緊迫度が高いので、優先度補正部５８は、緊迫度以外から得られるスコアの優先度を低くする一方で、緊迫度から得られるスコアの優先度を高くするように、統合スコアに対する補正を行う。

一方、ステップＳ２３においてコマンドによる指示が再生音量の上昇であると判定された場合、処理はステップＳ２６に進む。このとき、コマンド検出部５１は、再生音量仮決定部６１に対して、変換テーブルの有効領域を音量アップゾーンに限定するように指示を行う。また、ステップＳ２４において緊迫度が高くない（低い）と判定された場合、または、ステップＳ２５の処理後、処理はステップＳ２６に進む。

ステップＳ２６において、再生音量仮決定部６１は、上述した図６の変換テーブルを参照して、統合スコアを音量ステップに変換することで、音声コンテンツを最適な再生音量に調整するための音量ステップを仮決定する。例えば、再生音量仮決定部６１は、ステップＳ２１でスコア統合部５５により算出された統合スコア、または、ステップＳ２５で優先度補正部５８により補正された統合スコアを音量ステップに変換する。そして、再生音量仮決定部６１が、仮決定した音量ステップを最終再生音量決定部６２に供給した後、再生音量仮決定処理は終了される。

図１２のフローチャートを参照して、図１０のステップＳ１５で行われるユーザモデル参照処理について説明する。

ステップＳ３１において、ユーザモデル取得部５３は、図１０のステップＳ１３で検出されたコマンドを発話したユーザの現在のユーザモデル情報を取得して、類似度算出部５７に供給する。

ステップＳ３２において、類似度算出部５７は、ステップＳ３１でユーザモデル取得部５３から供給された現在のユーザのユーザモデル情報と最も類似するものを、ユーザモデル記憶部４２に記憶されている過去のユーザモデル情報の中から検索して読み出す。そして、類似度算出部５７は、現在のユーザのユーザモデル情報により示される視聴環境と、過去のユーザモデル情報により示される視聴環境との視聴環境の類似度を算出して、類似度重み変換部５９に供給し、処理はステップＳ３３に進む。

ステップＳ３３において、類似度重み変換部５９は、ステップＳ３２で類似度算出部５７から供給される類似度を重みαに変換して、最終再生音量決定部６２に供給する。

ステップＳ３４において、類似度算出部５７は、ステップＳ３２で類似度の算出に用いた過去のユーザモデル情報に対応付けられている最適再生音量を、ユーザモデル記憶部４２から読み出して音量ステップ変換部６０に供給する。これに応じ、音量ステップ変換部６０は、類似度算出部５７から供給された最適再生音量と、設定記憶部４３に記憶されている再生中の音声コンテンツの音量との差分を、ユーザモデル情報に基づいた音量ステップとして変換する。そして、音量ステップ変換部６０が、ユーザモデル情報に基づいた音量ステップを最終再生音量決定部６２に供給した後、ユーザモデル参照処理は終了される。

図１３のフローチャートを参照して、図１０のステップＳ１７で行われる補正係数更新処理について説明する。

ステップＳ４１において、音量ステップ制御部６３は、一定時間内に連続的に再生音量の変更が指示されたか否かを判定する。例えば、音量ステップ制御部６３は、一定時間内に連続的に、最終再生音量決定部６２により決定された音量ステップが供給されたとき、一定時間内に連続的に再生音量の変更が指示されたと判定し、処理はステップＳ４２に進む。

ステップＳ４２において、補正係数更新部６４は、音量ステップ制御部６３が音量ステップに従って調整した設定後の音声コンテンツの再生音量と、要素データ正規化部５４が各要素データを正規化して取得したスコアとを比較する。

ステップＳ４３において、補正係数更新部６４は、ステップＳ４２で比較を行った比較結果に基づいて、誤差の大きさに応じて、各要素データのスコアが大きくなるようにシグモイド関数のセンター値をシフトさせる。このように、補正係数更新部６４が、センター値を更新した後、または、ステップＳ４１において一定時間内に連続的に再生音量の変更が指示されていないと判定された場合、ユーザモデル参照処理は終了される。

以上のように、最適音量決定処理部２４が最適音量決定処理を実行することによって、音声コンテンツ再生装置１１は、ユーザの発話に従って、再生中の音声コンテンツの再生音量が最適となるように迅速に制御することができる。また、音声コンテンツ再生装置１１は、より少ない発話で、ユーザの所望の再生音量に調整するように制御することができるので、例えば、ユーザが音量を変更したいと思ったときに、より簡易に所望の再生音量にすることができる。また、ユーザの視聴環境に応じて、音声ステップが自動的に調整されるので、ユーザに音量を変更したいと思わせないようにすることができる。

また、音声コンテンツ再生装置１１は、再生中の音声コンテンツの種類をユーザモデル情報として用いて、そのユーザモデル情報から得られる音量ステップを用いた演算を行って、最終的な音量ステップを決定する。これにより、例えば、音声コンテンツの種類によって音量を変更したいというユーザの要求に応じて、適切な再生音量となるように制御することができる。

なお、音声コンテンツ再生装置１１は、複数のユーザにより使用される場合には、収音部１２により集音される音声や、撮像部１３により撮像された画像などを使用して話者を識別することで、ユーザごとに適切な音量調整を行うことができる。また、音声コンテンツ再生装置１１では、同じ発話でも再生音量を調整する音量ステップが異なるのに起因してユーザが混乱することが懸念される。そこで、そのような懸念を回避するために、音声コンテンツ再生装置１１は、必要に応じて、表示デバイスなどで再生音量の変化の様子や要因などを表示してもよい。

また、音声コンテンツ再生装置１１は、例えば、ユーザが身体に装着することが可能なウエアラブル機器と連携し、ウエアラブル機器のマイクロホンにより集音されるユーザの周囲の雑音などを利用して、より高精度に再生音量を制御することができる。また、音声コンテンツ再生装置１１は、補正係数更新部６４によるシグモイド関数のセンター値のシフトに、例えば、機械学習による最適値の事前学習を利用し、その事前学習に基づいてセンター値のシフトするようにしてもよい。さらに、音声コンテンツ再生装置１１は、雑音環境や、ユーザ発話レベル、再生コンテンツ、再生中の音声コンテンツの音量などを入力として、最適な音量ステップを決定することそのものを機械学習によって行うことができる。

＜コンピュータの構成例＞
なお、上述のフローチャートを参照して説明した各処理は、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含むものである。また、プログラムは、１のCPUにより処理されるものであっても良いし、複数のCPUによって分散処理されるものであっても良い。

また、上述した一連の処理（制御処理方法）は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラムが記録されたプログラム記録媒体からインストールされる。

図１４は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）１０１，ROM（Read Only Memory）１０２，RAM（Random Access Memory）１０３は、バス１０４により相互に接続されている。

バス１０４には、さらに、入出力インタフェース１０５が接続されている。入出力インタフェース１０５には、キーボード、マウス、マイクロホンなどよりなる入力部１０６、ディスプレイ、スピーカなどよりなる出力部１０７、ハードディスクや不揮発性のメモリなどよりなる記憶部１０８、ネットワークインタフェースなどよりなる通信部１０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア１１１を駆動するドライブ１１０が接続されている。

以上のように構成されるコンピュータでは、CPU１０１が、例えば、記憶部１０８に記憶されているプログラムを、入出力インタフェース１０５及びバス１０４を介して、RAM１０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU１０１）が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア１１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。

そして、プログラムは、リムーバブルメディア１１１をドライブ１１０に装着することにより、入出力インタフェース１０５を介して、記憶部１０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部１０９で受信し、記憶部１０８にインストールすることができる。その他、プログラムは、ROM１０２や記憶部１０８に、あらかじめインストールしておくことができる。

＜構成の組み合わせ例＞
なお、本技術は以下のような構成も取ることができる。
（１）
ユーザがコンテンツの再生音量の変更を指示するコマンドを発話したときに取得された要素データに基づいて、再生中のコンテンツの再生音量を調整する第１の音量ステップを仮決定する仮決定部と、
前記コマンドを発話したときのユーザの視聴環境を表すユーザモデル情報に基づいて、過去に類似する視聴状況であったときの最適再生音量となるように、再生中のコンテンツの再生音量を調整する第２の音量ステップを取得するユーザモデル音量ステップ取得部と、
前記第１の音量ステップ、および、前記第２の音量ステップを用いた演算を行って、第３の音量ステップを最終的に決定する最終決定部と
を備える制御処理装置。
（２）
前記要素データとして、周囲の雑音の大きさを示す雑音レベル、ユーザが前記コマンドを発話したときの音声の大きさを示す発話レベル、および、ユーザまでの距離を示す話者距離が少なくとも用いられる
上記（１）に記載の制御処理装置。
（３）
複数の前記要素データを正規化することによって、複数の前記要素データのスコアを求める正規化部と、
前記正規化部により求められた複数の前記スコアを統合するスコア統合部と
をさらに備え、
前記仮決定部は、前記スコア統合部により統合された統合スコアに基づいて、前記第１の音量ステップを仮決定する
上記（１）または（２）に記載の制御処理装置。
（４）
前記要素データとして、ユーザが前記コマンドを発話したときの話し方が用いられ、
前記正規化部が、前記話し方を正規化して求めたスコアを緊迫度として設定する緊迫度設定部と、
前記緊迫度に基づいて、前記統合スコアに対する補正を行い、補正後の前記統合スコアを前記仮決定部に供給する補正部と
をさらに備える上記（３）に記載の制御処理装置。
（５）
前記正規化部が前記要素データを正規化する際に用いるシグモイド関数のセンター値をシフトして更新するセンター値更新部
上記（３）または（４）に記載の制御処理装置。
（６）
前記コマンドを発話したときに取得された現在のユーザの視聴環境と、前記現在のユーザの視聴環境と類似するものとして過去の視聴環境の中から検索された視聴環境との類似度を算出する類似度算出部と、
前記類似度を、前記第１の音量ステップと前記第２の音量ステップとの重要度を調整する重みに変換する重み変換部と
をさらに備え、
前記最終決定部は、前記重みに応じて前記第１の音量ステップと前記第２の音量ステップとを加算することで、前記第３の音量ステップを決定する
上記（１）から（５）までのいずれかに記載の制御処理装置。
（７）
再生音量を制御する制御処理装置が、
ユーザがコンテンツの再生音量の変更を指示するコマンドを発話したときに取得された要素データに基づいて、再生中のコンテンツの再生音量を調整する第１の音量ステップを仮決定することと、
前記コマンドを発話したときのユーザの視聴環境を表すユーザモデル情報に基づいて、過去に類似する視聴状況であったときの最適再生音量となるように、再生中のコンテンツの再生音量を調整する第２の音量ステップを取得することと、
前記第１の音量ステップ、および、前記第２の音量ステップを用いた演算を行って、第３の音量ステップを最終的に決定することと
を含む制御処理方法。
（８）
再生音量を制御する制御処理装置のコンピュータに、
ユーザがコンテンツの再生音量の変更を指示するコマンドを発話したときに取得された要素データに基づいて、再生中のコンテンツの再生音量を調整する第１の音量ステップを仮決定することと、
前記コマンドを発話したときのユーザの視聴環境を表すユーザモデル情報に基づいて、過去に類似する視聴状況であったときの最適再生音量となるように、再生中のコンテンツの再生音量を調整する第２の音量ステップを取得することと、
前記第１の音量ステップ、および、前記第２の音量ステップを用いた演算を行って、第３の音量ステップを最終的に決定することと
を含む制御処理を実行させるためのプログラム。

なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

１１音声コンテンツ再生装置，１２収音部，１３撮像部，１４人感センサ，１５出力部，１６再生音量制御部，２１信号処理部，２２メモリ，２３音声処理部，２４最適音量決定処理部，２５再生音量制御部，２６バス，３１ユーザ位置推定部，３２発話音量算出部，３３雑音環境学習部，４１再生コンテンツ情報記憶部，４２ユーザモデル記憶部，４３設定記憶部，５１コマンド検出部，５２要素データ取得部，５３ユーザモデル取得部，５４要素データ正規化部，５５スコア統合部，５６緊迫度設定部，５７類似度算出部，５８優先度補正部，５９類似度重み変換部，６０音量ステップ変換部，６１再生音量仮決定部，６２最終再生音量決定部，６３音量ステップ制御部，６４補正係数更新部，６５ユーザモデル更新部，７１重み平均乗算部，７２補数乗算部，７３加算部

Claims

ユーザがコンテンツの再生音量の変更を指示するコマンドを発話したときに取得された要素データに基づいて、再生中のコンテンツの再生音量を調整する第１の音量ステップを仮決定する仮決定部と、
前記コマンドを発話したときのユーザの視聴環境を表すユーザモデル情報に基づいて、過去に類似する視聴状況であったときの最適再生音量となるように、再生中のコンテンツの再生音量を調整する第２の音量ステップを取得するユーザモデル音量ステップ取得部と、
前記第１の音量ステップ、および、前記第２の音量ステップを用いた演算を行って、第３の音量ステップを最終的に決定する最終決定部と
を備える制御処理装置。
前記要素データとして、周囲の雑音の大きさを示す雑音レベル、ユーザが前記コマンドを発話したときの音声の大きさを示す発話レベル、および、ユーザまでの距離を示す話者距離が少なくとも用いられる
請求項１に記載の制御処理装置。
複数の前記要素データを正規化することによって、複数の前記要素データのスコアを求める正規化部と、
前記正規化部により求められた複数の前記スコアを統合するスコア統合部と
をさらに備え、
前記仮決定部は、前記スコア統合部により統合された統合スコアに基づいて、前記第１の音量ステップを仮決定する
請求項１に記載の制御処理装置。
前記要素データとして、ユーザが前記コマンドを発話したときの話し方が用いられ、
前記正規化部が、前記話し方を正規化して求めたスコアを緊迫度として設定する緊迫度設定部と、
前記緊迫度に基づいて、前記統合スコアに対する補正を行い、補正後の前記統合スコアを前記仮決定部に供給する補正部と
をさらに備える請求項３に記載の制御処理装置。
前記正規化部が前記要素データを正規化する際に用いるシグモイド関数のセンター値をシフトして更新するセンター値更新部
をさらに備える請求項３に記載の制御処理装置。
前記コマンドを発話したときに取得された現在のユーザの視聴環境と、前記現在のユーザの視聴環境と類似するものとして過去の視聴環境の中から検索された視聴環境との類似度を算出する類似度算出部と、
前記類似度を、前記第１の音量ステップと前記第２の音量ステップとの重要度を調整する重みに変換する重み変換部と
をさらに備え、
前記最終決定部は、前記重みに応じて前記第１の音量ステップと前記第２の音量ステップとを加算することで、前記第３の音量ステップを決定する
請求項１に記載の制御処理装置。
再生音量を制御する制御処理装置が、
ユーザがコンテンツの再生音量の変更を指示するコマンドを発話したときに取得された要素データに基づいて、再生中のコンテンツの再生音量を調整する第１の音量ステップを仮決定することと、
前記コマンドを発話したときのユーザの視聴環境を表すユーザモデル情報に基づいて、過去に類似する視聴状況であったときの最適再生音量となるように、再生中のコンテンツの再生音量を調整する第２の音量ステップを取得することと、
前記第１の音量ステップ、および、前記第２の音量ステップを用いた演算を行って、第３の音量ステップを最終的に決定することと
を含む制御処理方法。
再生音量を制御する制御処理装置のコンピュータに、
ユーザがコンテンツの再生音量の変更を指示するコマンドを発話したときに取得された要素データに基づいて、再生中のコンテンツの再生音量を調整する第１の音量ステップを仮決定することと、
前記コマンドを発話したときのユーザの視聴環境を表すユーザモデル情報に基づいて、過去に類似する視聴状況であったときの最適再生音量となるように、再生中のコンテンツの再生音量を調整する第２の音量ステップを取得することと、
前記第１の音量ステップ、および、前記第２の音量ステップを用いた演算を行って、第３の音量ステップを最終的に決定することと
を含む制御処理を実行させるためのプログラム。