JP7423156B2

JP7423156B2 - 音声処理装置および音声処理方法

Info

Publication number: JP7423156B2
Application number: JP2020078914A
Authority: JP
Inventors: 信範工藤
Original assignee: Alps Electric Co Ltd; Alps Alpine Co Ltd
Current assignee: Alps Alpine Co Ltd
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2024-01-29
Anticipated expiration: 2040-04-28
Also published as: JP2021173910A

Description

本発明は、音声処理装置および音声処理方法に関し、特に、放音される音声の音量レベルの調整を指示する指示音声に基づいて当該音量レベルを調整する音声処理装置および音声処理方法に用いて好適なものである。

従来、所定の機器（自機であってもよい）の制御を指示する音声をユーザから受け付けて音声認識し、音声が示す指示に基づいて当該所定の機器を制御する音声処理装置が存在する（ただし、音声認識自体は音声処理装置が行う場合も行わない場合もある）。この種の音声処理装置では、ユーザから受け付けた音声に基づいて、自機や自機に接続された装置（例えばオーディオ装置やテレビ、ラジオ等）が放音する音声の音量レベルを調整可能に構成された装置が存在する。例えば、車両に設けられ、車両の搭乗者の発話音声に従って、車載オーディオ装置や車載テレビ等の音量レベルを調整する音声処理装置が従来から存在しており、また例えば、室内に設けられ、ユーザの発話音声に従って、室内に設けられたオーディオ装置やテレビ等の音量レベルを調整するする音声処理装置（いわゆるスマートスピーカは、この種の音声処理装置の１つ）が近年、普及してきている。

なお、特許文献１には、車両に設けられた装置であって、車両用オーディオ装置に設定可能な音量の範囲を、車両（自動二輪車）の速度のレベル（低／中／高）によって動的に変更する設定音量調節装置が記載されている。

特開２００５－２７１６６５号公報

ユーザの発話音声により音声出力機器の音量レベルが調整される際に、調整の内容は、通常、「音量を‘３０’にして」や「音量を‘５’だけ上げて」のように音量レベル或いは音量レベルの変化量を示す具体値が用いられて表されるか、「音量をちょっとだけ上げて」「音量をかなり上げて」のように現時点の音量レベルからの相対的な変化を定性的に表す表現が用いられて表される。

具体値が用いられる場合、以下の問題がある。すなわち、音量レベルがとり得る値の範囲は、機器によってまちまちである。例えば、０～３５の範囲で値をとる機器もあれば、０～１００の範囲で値をとる機器もある。従って、音量レベルがある具体値となるように或いはある具体値だけ変化するように調整することを指示する音声をユーザが発話したときに、ユーザ想定している機器の音量レベルの範囲と、音量レベルの調整の対象となっている機器の実際の音量レベルの範囲との相違に起因して、ユーザが想定している調整後の音声の大きさに比して、音量レベルが調整された後に機器から出力される音声の大きさが非常に大きくなってしまう場合が生じ得る。ユーザの意図を超えて機器が出力する音声の音が大きくなってしまった場合、ユーザを驚かせてしまったり、機器が出力する音声がノイズとなって音声認識を阻害したりする等の悪影響が発生する可能性がある。

また、相対的な変化を定性的に表す表現が用いられる場合、以下の問題がある。すなわち、この場合、変化が定性的な表現で表される関係上、音量レベルをどの程度大きくするのかについて一種の曖昧さがあり、ユーザが想定した音の大きさに比して、指示に基づいて音量レベルが調整された後の実際の音の大きさが非常に大きくなってしまう場合が生じ得る。このことが悪影響をもたらし得ることは上述の通りである。

以上のような「ユーザが想定した音の大きさに比して、指示に基づいて音量レベルが調整された後の実際の音の大きさが非常に大きくなる」という事態が発生し得るという問題は、ユーザが驚かず、かつ、音声認識を阻害するノイズとならない程度に十分に低い固定的な上限値を設け、ユーザから音声により音量レベルの調整の指示があった場合に、いかなる場合にも音量レベルがこの上限値を超えないようにすることによって解決可能である。しかしながら、この場合、仮にユーザの指示に応じて音量レベルを調整したとしたときに、ユーザの指示に基づく調整後の音の大きさが、ユーザが想定していた音の大きさであったのにもかかわらず、音量レベルが上限値に留められてしまい、機器が出力する音の大きさが、ユーザが想定した音の大きさよりも相当に小さくなるという事態が発生する可能性が高くなる。このような事態は、ユーザの快適性が損なわれる原因となり得る。

本発明は、このような問題を解決するために成されたものであり、ユーザから発話音声によって音量レベルの調整が指示されたときに、音量レベルの上昇を過剰に制限することを抑制し、更にユーザが想定した音の大きさに比して、指示に基づいて音量レベルが調整された後の実際の音の大きさが、ユーザに対して悪影響を生じさせる程に大きくなるという事態が発生することを防止することを目的としている。

上記した課題を解決するために、本発明は、新たに指示音声を入力した場合、仮に指示音声が示す指示に応じて音量レベルを調整したとした場合に設定される仮音量レベルが、ユーザの発話音声の音圧レベルに基づいて設定される音量レベル閾値を超える場合、音量レベル閾値を超えて音量レベルが設定されることを禁止し、超えない場合、当該指示に応じて音量レベルを調整するようにしている。

上記のように構成した本発明によれば、以下の効果を奏する。すなわち、音量レベル閾値は、ユーザが実際に発話した音声の音圧レベルに由来して定められる値であり、放音される音声の音量レベルがこの閾値を超えると、放音される音声の大きさがユーザによる発話音声の大きさを不必要に上回り、ユーザが指示音声を発した場合に、その指示音声に基づく音声認識を阻害することが想定される。逆に言えば、音量レベルがこの閾値を超えない場合、放音される音声が指示音声の音声認識を阻害しないことが想定されるため、音量レベル閾値は、指示音声の音声認識を阻害しないような音量レベルの最大値と考えることができる。

これを踏まえ本発明によれば、仮音量レベルが、指示音声の音声認識を阻害しないような音量レベルの最大値である音量レベル閾値以下であれば、ユーザの指示通りに音量レベルが調整される。このため、あらゆるケースにおいて不必要に小さい上限値に音量レベルの上昇が制限され、音量レベルの上昇が過剰に制限される、といったことがない。更に本発明によれば、音量レベルが音量レベル閾値を超えて設定されることが防止されるため、放音される音声の音の大きさが、ユーザの予想を遥かに上回るような大きさとなったり、指示音声の音声認識を阻害する程度に大きくなったりすることを防止できる。すなわち、ユーザが想定した音の大きさに比して、指示に基づいて音量レベルが調整された後の実際の音の大きさが、ユーザに対する悪影響を生じさせる程に大きくなるという事態が発生することを防止できる。

本発明の第１実施形態に係る音声認識システムの構成例を示す図である。本発明の第１実施形態に係る音声処理装置の機能構成例を示すブロック図である。本発明の第１実施形態に係る音声処理装置の動作例を示すフローチャートである。本発明の第１実施形態の第２変形例に係る音量レベル閾値設定部の処理の説明に利用する図である。本発明の第２実施形態に係る音声処理装置の機能構成例を示すブロック図である。本発明の第３実施形態に係る音声処理装置の機能構成例を示すブロック図である。本発明の第４実施形態に係る音声処理装置の機能構成例を示すブロック図である。

以下、本発明の一実施形態を図面に基づいて説明する。図１は、本実施形態に係る音声処理装置１を含んで構成される音声認識システム２の構成を示す図である。図１で示すように、音声処理装置１は、インターネットや電話網等の通信網を含んで構成されたネットワークＮにアクセス可能であり、ネットワークＮを介してサービス提供サーバ３と通信可能である。

サービス提供サーバ３は、クライアント端末で収集された音声の音声認識に関するサービスを提供するクラウドサーバである。以下、サービス提供サーバ３により提供されるサービスを「音声認識サービス」という。音声認識サービスの１つは、クライアント端末で収集された音声を音声認識して、その音声の内容を理解し、その音声の内容に対応する処理を実行するというものである。一例として、サービス提供サーバ３は、ユーザがクライアント端末に対して何らかの質問を内容とする音声を発話した場合に、その音声を音声認識し、その音声の意図を解釈し、質問に対する回答を生成し、クライアント端末に音声として出力させ、これによりユーザとクライアント端末との間で音声対話を実現する。

本実施形態に係る音声処理装置１は、その筐体が車両に設けられた車載装置である。そして音声処理装置１は、サービス提供サーバ３に対するクライアント端末として機能し、ユーザは、音声処理装置１を介して音声認識サービスを利用することができる。ユーザは、音声認識サービスの利用に際し、ウェイクワードと呼ばれる予め定められた特定のワードを音声として発話し、ウェイクワードの音声の発話に続けて、何らかの質問や、要求を行うための文言（以下、「リクエスト」という）の音声を発話する。以下、ユーザが発話するウェイクワードの音声を「ウェイクワード音声」といい、リクエストの音声を「リクエスト音声」という。

音声処理装置１は、ユーザによるウェイクワード音声およびリクエスト音声の発話に応じて処理要求データを生成し、サービス提供サーバ３に送信する。処理要求データは、ユーザが発話したウェイクワード音声に対応する音声データ、および、ユーザが発話したリクエスト音声に対応する音声データを含む音声データ（以下「発話音声データ」という）と、発話音声データに関する必要な参照情報が所定のフォーマット（例えばＪＳＯＮ）に従って記述された制御情報データとを含んでいる。

図２は、本実施形態に係る音声処理装置１の機能構成例を示すブロック図である。図２で示すように、音声処理装置１には、マイク５、スピーカ６およびタッチスクリーン７が接続されている。マイク５は、音声を収音し音声信号として音声処理装置１に出力する。マイク５は、車両に搭乗する搭乗者（以下単に「ユーザ」という）の発話音声を収音可能である。スピーカ６は、車両の車内空間に設けられており、音声処理装置１から入力した音声信号に基づいて車内空間に音声を放音する。タッチスクリーン７は、液晶表示パネルなどの表示パネルと、表示装置に重ねて配置されたタッチパネルとを備え、音声処理装置１の制御の下、タッチスクリーン７に各種映像を表示し、また、ユーザによるタッチ操作を検出する。

図２で示すように、音声処理装置１は、機能構成として、音声入力部１０、音声出力部１１、コンテンツ再生部１２、音声認識処理部１３、音量レベル調整部１４および音量レベル閾値設定部１５を備えている。上記各機能ブロック１０～１５は、ハードウェア、ＤＳＰ（Digital Signal Processor）、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック１０～１５は、実際にはコンピュータのＣＰＵ、ＲＡＭ、ＲＯＭなどを備えて構成され、ＲＡＭやＲＯＭ、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。また図２で示すように音声処理装置１は、記憶部として設定ファイル記憶部１７を備えている。設定ファイル記憶部１７に記憶されたデータの内容については後述する。

音声入力部１０は、マイク５によって収音された音声に標本化、量子化、符号化処理を含むアナログ／デジタル変換処理を行って音声データを生成し、音声バッファ１８にバッファリングする。音声バッファ１８はＲＡＭ等のワークエリアに形成された一時記憶領域である。音声入力部１０により上記処理が実行される結果、現時点から遡って所定期間の間にマイク５により収音された音声に基づく音声データが音声バッファ１８に記憶された状態となる。以下、音声バッファ１８に記憶された音声データの集合を「入力音声データ」という。また以下の説明では、マイク５により音声が収音され、音声信号が音声入力部１０に入力されることを、単に「音声が音声入力部１０に入力される」或いは「音声入力部１０が音声を入力する」のように表現する場合がある。

音声出力部１１は、Ｄ／Ａコンバータ、ボリューム回路およびアンプ回路等を備え、コンテンツ再生部１２等から入力した音声信号をＤ／Ａコンバータによりデジタル／アナログ変換し、ボリューム回路により音量レベルを調整し、アンプ回路により増幅して、スピーカ６から音声として出力する。

コンテンツ再生部１２は、ユーザの指示に応じてコンテンツを再生する。コンテンツは、図示しないメディアドライブに挿入されたＣＤやＤＶＤに記録された楽曲や動画（映画等の動画）、所定の記憶領域に記憶されたデータに記録された楽曲や動画、音声処理装置１に接続された外部装置に記憶された楽曲や動画等である。コンテンツ再生部１２は、コンテンツの再生中、音声信号を音声出力部１１に出力し、スピーカ６から音声を放音させる。以下コンテンツの再生に応じて出力される音声を「コンテンツ音声」という。

その際、コンテンツ再生部１２は、設定ファイル記憶部１７に記憶された設定ファイルを参照し、音声出力部１１のボリューム回路を制御することによってコンテンツ音声の音量を調整する。設定ファイルは、各種設定項目について設定値が記録されたファイルであり、少なくとも、スピーカ６により放音される音声の音量レベルに係る項目の設定値（以下「設定音量レベル」という）が記録されている。コンテンツ再生部１２は、コンテンツ音声の音量レベルが、設定ファイルに記録された設定音量レベルとなるように音量を調整する。本実施形態では、設定音量レベルは、「０」～「３５」の範囲の整数値により表される。

以上のように本実施形態に係る音声処理装置１は、コンテンツを再生し、コンテンツ音声を出力する機能を有している。そして音声処理装置１は、ユーザからスピーカ６から放音されるコンテンツ音声の音量レベル（＝設定音量レベル）の調整を指示するリクエストの音声の発話があった場合に、そのリクエストの内容に応じて、設定音量レベルを調整する機能を有している。以下、設定音量レベルの調整を指示するリクエストを特に「音量調整リクエスト」といい、その音声を「音量調整リクエスト音声」という。音量調整リクエスト音声は、特許請求の範囲の「指示音声」に相当する。以下、音量調整リクエストに応じて設定音量レベルを調整するときの音声処理装置１の動作について詳述する。

音声認識処理部１３は、音声バッファ１８に累積的に記憶される入力音声データを継続的に分析し、ウェイクワード音声の発話がなされたか否かを監視する。ウェイクワードの発話がなされたか否かの監視は、例えば、入力音声データに記録された音声の音声波形と、予め登録されたウェイクワード音声の音声パターンの類似度が閾値以上となったか否かが随時、判定されることにより実行される。

ウェイクワード音声の発話がなされたことを検出した場合、音声認識処理部１３は、リクエスト音声の音声データが音声バッファ１８に記憶されるまで待機し、リクエスト音声の音声データが記憶されると、上述した処理要求データを生成し、サービス提供サーバ３に送信する。音声認識処理部１３により以上の処理が実行されるため、ユーザがウェイクワード音声に続けて音量調整リクエスト音声を発話した場合には、音量調整リクエスト音声に対応する音声データが含まれる処理要求データが音声認識処理部１３からサービス提供サーバ３へ送信される。以下では、音量調整リクエスト音絵に対応する音声データが含まれる処理要求データがサービス提供サーバ３へ送信されたものとして、音声処理装置１およびサービス提供サーバ３の処理について説明する。

サービス提供サーバ３は、処理要求データを受信し、受信した処理要求データに基づいて、リクエストの内容を認識すると共に、当該内容に対応する処理を実行する。以下、音量調整リクエスト音声に対応する音声データが含まれる処理要求データに基づいてサービス提供サーバ３が実行する処理について詳述する。

ここで音量調整リクエストの内容には、２つのパターンがあると想定される。１つ目のパターンは、「音量を‘３０’にして」や「音量を‘５’だけ上げて」のように音量レベル或いは音量レベルの変化量を示す具体値が用いられて、どのように音量を調整すべきかが表されたパターンである。以下このパターンを「具体値パターン」という。２つ目のパターンは、「音量をちょっとだけ上げて」「音量をかなり上げて」のように現時点の音量レベルからの相対的な変化を定性的に表す表現が用いられて、どのように音量を調整すべきかが表されたパターンである。以下このパターンを「相対値パターン」という。

音量調整リクエストの内容が具体値パターンの場合、サービス提供サーバ３は、音量調整リクエストの内容を既存の自然言語処理技術によって認識し、音量レベルをどのように変化させるかが音量レベル或いは音量レベルの変化量を示す具体値を用いて表された情報を含む音量調整制御データを生成する。例えばサービス提供サーバ３は、音量調整リクエストの文言が「音量を‘３０’にして」というものである場合、音量レベルを「３０」とすることを指示する情報を含む音量調整制御データを生成し、また、音量調整リクエストの文言が「音量を‘５’だけ上げて」というものである場合、設定音量レベルを「５」だけ上昇させることを指示する情報を含む音量調整制御データを生成する。

一方、音量調整リクエストの内容が相対値パターンの場合、サービス提供サーバ３は、音声調整リクエストの内容を既存の自然言語処理技術によって認識し、「現時点の音量レベルからの相対的な変化を定性的に表す表現」を「音量レベルの変化量を示す具体値」に変換した上で、音量レベルをどのように変化させるかが当該具体値を用いて表された情報を含む音量調整制御データを生成する。例えば、音量調整リクエストの文言が「音量をちょっとだけ上げて」というものである場合、サービス提供サーバ３は、「ちょっと」との表現を「３」という具体値に変換した上で、設定音量レベルを「３」上昇させることを指示する情報を含む音量調整制御データを生成する。また例えば、音量調整リクエストの文言が「音量をかなり上げて」というものである場合、サービス提供サーバ３は、「かなり」との表現を「１０」という具体値に変換した上で、設定音量レベルを「１０」上昇させることを指示する情報を含む音量調整制御データを生成する。

サービス提供サーバ３は、生成した音量調整制御データを音声処理装置１の音声認識処理部１３に応答する。

音声認識処理部１３は、サービス提供サーバ３から音量調整制御データを受信する。音声認識処理部１３は、音量調整制御データを受信すると、受信した音量調整制御データを音量レベル調整部１４に出力する。なお詳細は省略するが、音声認識処理部１３は、音量調整制御データ以外の制御データをサービス提供サーバ３から受信した場合は、その制御データの内容に応じた処理を実行する。

音量レベル調整部１４は、音声認識処理部１３から音量調整制御データを入力する。音量レベル調整部１４は、音量調整制御データを入力すると、音量レベル閾値設定部１５に音量レベル閾値の応答を要求する。

音量レベル閾値設定部１５は、音量レベル調整部１４から音量レベル閾値の応答要求を受け付けると、音声バッファ１８に記憶された音量調整リクエスト音声（今回、音声入力部１０が入力した音量調整リクエスト音声）の音声データを分析し、音量調整リクエスト音声の最大の音圧レベルを認識する。以下ここで認識された音圧レベルを「リクエスト音圧レベル」という。そして、音量レベル閾値設定部１５は、リクエスト音圧レベルを音量レベルに換算した値を音量レベル閾値として設定する。例えば、音圧レベルの範囲毎に各音圧レベルの範囲とそれに対応する音量レベルとが対応付けられたテーブルが事前に登録されており、音量レベル閾値設定部１５は、このテーブルを用いてリクエスト音圧レベルを音量レベルに換算する。音量レベル閾値設定部１５は、設定した音量レベル閾値を音量レベル調整部１４に応答する。なお、音量レベル閾値設定部１５が、リクエスト音圧レベルを音量レベルに換算した値を音量レベル閾値として設定する処理は、特許請求の範囲の「指示音声の音圧レベルに応じて、当該音圧レベルと音量レベル閾値とが同等となるように音量レベル閾値を設定する」処理に相当する。

なお本実施形態では、音量レベル閾値設定部１５は、音量調整リクエスト音声の最大の音圧レベルをリクエスト音圧レベルとしているが、これは最大の音圧レベルが、音量調整リクエスト音声がどの程度の音圧レベルで発話されたかを表す指標となるからである。ただし必ずしも音量調整リクエスト音声の最大の音圧レベルをリクエスト音圧レベルとする必要はなく、リクエスト音圧レベルが、音量調整リクエスト音声がどの程度の音圧レベルで発話されたかを表す値となるような方法であれば、どのような方法でリクエスト音圧レベルを設定してもよい。例えば、音量調整リクエスト音声の音声波形の最大のピークの周辺の音圧レベルの平均値をリクエスト音圧レベルとしてもよい。また例えば、音量調整リクエスト音声の音圧レベルの最大値に対してマージンを加味した値をリクエスト音圧レベルとしてもよい。

音量レベル調整部１４は、音量レベル閾値設定部１５から音量レベル閾値を入力する。次いで音量レベル調整部１４は、音量調整制御データに基づいて、必要に応じて設定ファイル記憶部１７に記憶された設定ファイルを参照した上で、仮音量レベルを導出する。仮音量レベルとは、仮に音声調整リクエスト（＝音声入力部１０が入力した指示音声）が示す指示に応じて設定音量レベルを調整したとした場合に設定される仮の設定音量レベルのことである。

例えば音量調整制御データが、設置音量レベルを特定の具体値（例えば「２５」）に設定することを指示する制御データの場合、音量レベル調整部１４は、その具体値を仮音量レベルとする。また例えば音量調整制御データが現時点の設定音量レベルから特定の具体値（例えば「５」）だけ変動させることを指示する制御データの場合、音量レベル調整部１４は、以下の処理を実行する。すなわち音量レベル調整部１４は、設定ファイルを参照して現時点の設定音量レベルを認識し、現時点の設定音量レベルから特定の具体値だけ変動させた値を仮音量レベルとする。

音量レベル閾値設定部１５から音量レベル閾値を入力し、かつ、仮音量レベルを導出した後、音量レベル調整部１４は、音量レベル閾値と仮音量レベルとを比較する。仮音量レベルが音量レベル閾値以下の場合、音量レベル調整部１４は、変更後の設定音量レベルを仮音量レベルに決定する。つまり音量レベル調整部１４は、ユーザの指示通りに設定音量レベルを調整することを決定する。一方、仮音量レベルが音量レベル閾値を超える場合、音量レベル調整部１４は、音量レベル閾値を超えて設定音量レベルが設定されることを禁止し、変更後の設定音量レベルを音量レベル閾値とすることを決定する。音量レベル調整部１４は、以上のようにして変更後の設定音量レベルを決定した後、設定ファイルに記録されている設定音量レベルの値を、決定した変更後の設定音量レベルの値によって書き換える。この結果、コンテンツ音声は、書き換えられた後の設定音量レベルでスピーカ６から放音される。

仮音量レベルが音量レベル閾値を超えており、設定音量レベルを音量レベル閾値に設定した場合、音量レベル調整部１４は、更に以下の処理を実行する。すなわち、音量レベル調整部１４は、タッチスクリーン７を制御して、設定音量レベルの上昇を音量レベル閾値に制限した旨の情報をタッチスクリーン７に表示する。なお、タッチスクリーン７に表示される情報は、音声処理装置１による意図的な処理により、設定音量レベルが、ユーザが望むより小さく設定された可能性があることがユーザに伝わるような表現であれば、どのような表現であってもよい。このような内容の情報をユーザに伝えることにより、ユーザの想定より音量が小さかったときに、ユーザが故障やエラー（例えば音声認識の失敗）等を疑うことを防止できる。

更に音量レベル調整部１４は、タッチスクリーン７に設定音量レベルの変更を指示するためのボタンを表示する。ユーザは、設定音量レベルの上昇が音量レベル閾値に制限された中、調整後の音量が想定していた音量よりも小さい場合には、タッチスクリーン７に表示されたボタンを操作して、設定音量レベルを上げることを指示する。音量レベル調整部１４は、タッチスクリーン７に表示されたボタンの操作により設定音量レベルの変更が指示された場合には、指示通りに設定音量レベルを変更する。従って音量レベル調整部１４は、設定音量レベルを、音量レベル閾値を超える音量レベルに変更する旨の指示があった場合、指示通りに設定音量レベルを、音量レベル閾値を超える音量レベルとする。

以上のように本実施形態に係る音声処理装置１は、新たに音量調整リクエスト音声（指示音声）を入力した場合、仮に音量調整リクエストが示す指示に応じて音量を調整したとした場合に設定される仮音量レベルが、音量調整リクエスト音声の音圧レベルに基づいて設定される音量レベル閾値を超える場合、音量レベル閾値を超えて設定音量レベルが設定されることを禁止し、超えない場合、音量調整リクエストに応じて設定音量レベルを調整するようにしている。

この構成によれば、以下の効果を奏する。すなわち、音量レベル閾値は、ユーザが実際に発話した音量調整リクエスト音声の音圧レベルに基づいて設定される値であり、スピーカ６から放音されるコンテンツ音声の音量レベルがこの閾値を超えると、コンテンツ音声の大きさがユーザによる音量調整リクエスト音声の大きさを不必要に上回り、音量調整リクエスト音声の音声認識を阻害することが想定される。逆に言えば、放音されるコンテンツ音声の音量レベルがこの閾値を超えない場合、コンテンツ音声が音量調整リクエスト音声の音声認識を阻害しないことが想定されるため、音量レベル閾値は、音量調整リクエスト音声の音声認識を阻害しないような音量レベルの最大値と考えることができる。

これを踏まえ本実施形態の構成によれば、仮音量レベルが、音量調整リクエスト音声の音声認識を阻害しないような音量レベルの最大値である音量レベル閾値以下であれば、ユーザの指示通りに設定音量レベルが調整される。このため、あらゆるケースにおいて不必要に小さい上限値に音量レベルの上昇が制限され、音量レベルの上昇が過剰に制限される、といったことがない。更に本実施形態の構成によれば、設定音量レベルが音量レベル閾値を超えて設定されることが防止されるため、コンテンツ音声の音の大きさが、ユーザの予想を遥かに上回るような大きさとなったり、音量調整リクエスト音声の音声認識を阻害する程度に大きくなったりすることを防止できる。すなわち、ユーザが想定した音の大きさに比して、音量調整リクエスト音声に基づいて音量レベルが調整された後の実際の音の大きさが、ユーザに対する悪影響を生じさせる程に大きくなるという事態が発生することを防止できる。

また本実施形態では、音量レベル調整部１４は、仮音量レベルが音量レベル閾値を超える場合、設定音量レベル（放音される音声の音量レベル）を音量レベル閾値とする。この構成によれば、仮音量レベルが音量レベル閾値を超える場合には、設定音量レベルの上昇が音量レベル閾値に制限されるものの、ユーザの音量調整リクエスト音声の発話に応じてすぐに設定音量レベルの調整がなされるため、後述する第１実施形態の変形例と比較して、ユーザの利便性が高い。

また、本実施形態では、音量レベル調整部１４は、設定音量レベルが音量レベル閾値を超えることを禁止した後、ユーザから設定音量レベルを上げることについての明示的な指示があった場合には、当該指示に従って音量レベルを上げる。この構成のため、音量調整リクエスト音声が発話されたときにユーザを驚かせる程の大音量となることを的確に防止した上で、ユーザは最終的には自信が望む音量をコンテンツ音声が放音されるようにすることができ、ユーザの満足度の低下を抑制できる。

次に第１実施形態に係る音声処理装置１の動作例についてフローチャートを用いて説明する。図３は、音声処理装置１による音声処理方法を示すフローチャートである。図３で示すように、音声入力部１０は、音量調整リクエスト音声（放音される音声の音量レベルの調整を指示する指示音声）を入力する（ステップＳＡ１）。音声入力部１０により入力された音声調整リクエスト音声の音声データは音声バッファ１８に格納される。

音量レベル閾値設定部１５は、音声入力部１０により入力された音量調整リクエスト音声の音圧レベルに基づいて音量レベル閾値を設定する（ステップＳＡ２）。本実施形態では、音量レベル閾値設定部１５は、リクエスト音圧レベルを音量レベルに換算した値を音量レベル閾値とする。

音量レベル調整部１４は、音声入力部１０が入力した音量調整リクエストについての認識結果に基づいて設定音量レベルを調整する（ステップＳＡ３）。ステップＳＡ３において、音量レベル調整部１４は、音声入力部１０が新たに音量調整リクエスト音声を入力した場合、仮に音声入力部１０が入力した音量調整リクエスト音声が示す指示に応じて音量レベルを調整したとした場合に設定される仮音量レベルが、音量レベル閾値設定部１５により設定された音量レベル閾値を超える場合、音量レベル閾値を超えて音量レベルが設定されることを禁止し、超えない場合、当該指示に応じて音量レベルを調整する。

＜第１実施形態の第１変形例＞
次に第１実施形態の第１変形例について説明する。上述した第１実施形態では、音量レベル調整部１４は、仮音量レベルが音量レベル閾値を超える場合、設定音量レベルを音量レベル閾値とした。一方、本変形例では、音量レベル調整部１４は、仮音量レベルが音量レベル閾値を超える場合、放音される音声の音量レベルを調整することなく、その旨警告する。具体的には、音量レベル調整部１４は、指示通りに設定音量レベルを上げると、ユーザの想定以上の大音量となる可能性がある旨の情報をタッチスクリーン７に表示する。更に音量レベル調整部１４は、上記情報と共に、指示通りに設定音量レベルを上げることを指示する第１ボタンと、別途、設定音量レベルの変更を指示するための第２ボタンを表示する。音量レベル調整部１４は、第１ボタンが操作された場合には、設定音量レベルを仮音量レベル（＞音量レベル閾値）とする。また音量レベル調整部１４は、第２ボタンが操作された場合には、操作に応じて設定音量レベルを調整する。なお、警告を行った後、所定時間の間、ユーザにより何ら操作がなった場合（＝ユーザから音量レベルの調整に関する指示がなかった場合）、音量レベル調整部１４が指示通りに設定音量レベルを上げる構成としてもよい。その際に、音量レベル調整部１４が、タッチスクリーン７に、操作が一定時間以上ない場合に、指示通りに音量レベルを調整する旨表示する構成としてもよい。

本変形例の構成によれば、第１実施形態と同様、仮音量レベルが音量レベル閾値以下であれば、ユーザの指示通りに設定音量レベルが調整される。このため、あらゆるケースにおいて不必要に小さい上限値に音量レベルの上昇が制限され、音量レベルの上昇が過剰に制限される、といったことがない。その上で設定音量レベルが音量レベル閾値を超えて設定されることが防止されるため、放音される音声の音の大きさがユーザの予想を遥かに上回るような大きさとなったり、音量調整リクエスト音声の音声認識を阻害する程度に大きくなったりすることを防止できる。更に、ユーザが、自身の想定以上の大音量となる可能性があることを認識した上で、音量調整リクエスト音声の指示通りに設定音量レベルを上げることを指示した場合には、設定音量レベルを仮音量レベル（＞音量レベル閾値）に設定するため、ユーザの希望に反して設定音量レベルが音量レベル閾値に留められることがない。

＜第１実施形態の第２変形例＞
次に第１実施形態の第２変形例について説明する。上記第１実施形態では、音量レベル閾値設定部１５は、音声入力部１０が音量調整リクエスト音声を入力した時点での設定音量レベルにかかわらず、音量調整リクエスト音声の音圧レベルだけに着目して音量レベル閾値を設定した。この点に関し、本変形例に係る音量レベル閾値設定部１５は、上記時点での設定音量レベルを加味して音量レベル閾値を設定する。以下、本変形例に係る音量レベル閾値設定部１５の動作について詳述する。

音量レベル閾値設定部１５は、音量レベル調整部１４から音量レベル閾値の応答要求があると、設定ファイル記憶部１７に記憶された設定ファイルを参照し、その時点（≒音声入力部１０が音量調整リクエスト音声を入力した時点）の設定音量レベルを認識する。以下ここで認識した設定音量レベルを「入力時設定音量レベル」という。次いで音量レベル閾値設定部１５は、入力時設定音量レベルが予め定められた第１閾値（一定値）より小さいか否かを判定する。次いで音量レベル閾値設定部１５は、音声バッファ１８に記憶されている音量調整リクエスト音声の音声データに基づいて、リクエスト音圧レベルを検出する。次いで音量レベル閾値設定部１５は、リクエスト音圧レベルを音量レベルに換算した値（以下「音圧レベル換算値」という）が第２閾値（一定値）より小さいか否かを判定する。

ここで上述した第１実施形態では、音量レベル閾値設定部１５は、音量レベル換算値を音量レベル閾値として設定していた。一方、本変形例に係る音量レベル閾値設定部１５は、入力時設定音量レベルが第１閾値より小さく、かつ、音圧レベル換算値が第２閾値よりも小さい場合は、音量レベル閾値を、音圧レベル換算値よりも高くする。

図４は、本変形例に係る音量レベル閾値設定部１５の処理の説明に利用するため、設定音量レベルの範囲を上下方向に延びる棒線によって表した図である。図４を参照し、例えば、設定音量レベルが「０」～「３５」の範囲で値をとる中、第１閾値が「５」であり、第２閾値が「１０」であったとする。この場合、音量レベル閾値設定部１５は、入力時設定音量レベルが「５」より小さく、かつ、音圧レベル換算値が「１０」より小さい場合には、音量レベル閾値を「１０」とせずに（第１実施形態の場合「１０」となる）、「１０」に予め定められた所定値（例えば「５」）を加算した値を音量レベル閾値とする。

本変形例に係る音量レベル閾値設定部１５が以上の処理を行う理由は以下である。すなわち、ユーザは、コンテンツ音声が出力されている環境で音量調整リクエスト音声を発話する場合、コンテンツ音声よりも大きな声で音量調整リクエスト音声を発話するとの意識が働き、コンテンツ音声が小さい場合には小さい声で、また、コンテンツ音声が大きい場合には大きな声で音量調整リクエスト音声を発話することが想定される。つまり、ユーザが発する音量調整リクエスト音声の大きさは、その時点の設定音量レベルの大きさに影響を受ける。従って入力時設定音量レベルが十分に小さく、かつ、音圧レベル換算値が十分に小さい場合に、音圧レベル換算値をそのまま音量レベル閾値としてしまうと、音量レベル閾値が不必要に小さくなってしまう可能性がある。音量レベル閾値が不必要に小さくなると、設定音量レベルの上昇が過剰に制限される原因となり、ユーザの満足度の低下につながる可能性がある。

これを踏まえ、本変形例に係る音量レベル閾値設定部１５は、入力時設定音量レベルが第１閾値よりも小さく、かつ、音圧レベル換算値が第２閾値よりも小さい場合には、第１実施形態のように音圧レベル換算値をそのまま音量レベル閾値とせずに、音圧レベルに加算値を加算した値を音量レベル閾値とし、コンテンツ音声が小さい場合には小さい声で、また、コンテンツ音声が大きい場合には大きな声で音量調整リクエスト音声を発話するという特有の事情の下、音量レベル閾値が不必要に小さくなることを防止している。なお、本変形例において、音圧レベル換算値の値が小さいほど、加算値が大きくなるように加算値を動的に変更する構成でもよい。

＜第２実施形態＞
次に第２実施形態について説明する。図５は、本実施形態に係る音声処理装置１Ａの機能構成例を示すブロック図である。図１と図５との比較で明らかな通り、音声処理装置１Ａは、第１実施形態に係る音量レベル閾値設定部１５に代えて、音量レベル閾値設定部１５Ａを備えている。また図５で示すように、音声処理装置１Ａは、記憶部として履歴情報記憶部２０を備えている。履歴情報記憶部２０には履歴情報データが記憶される。履歴情報データの内容については後述する。

本実施形態に係る音量レベル閾値設定部１５Ａは、以下の処理を実行する。すなわち、音量レベル調整部１４から音量レベル閾値の応答要求があった場合、音量レベル閾値設定部１５Ａは、第１実施形態と同様、音声バッファ１８に格納された音量調整リクエスト音声の音声データを分析し、リクエスト音圧レベルを検出する。そして、音量レベル閾値設定部１５Ａは、履歴情報記憶部２０に記憶された履歴情報データに、その時点の日時（日付＋時刻）を示す情報と、検出したリクエスト音圧レベルとを対応付けて記録する。この結果、履歴情報データは、過去に音声入力部１０が入力した音量調整リクエスト音声のそれぞれについて、日時を示す情報とリクエスト音圧レベルとが対応付けて記録された状態となる。

そして音量レベル閾値設定部１５Ａは、音量レベル調整部１４からの応答要求に応じて、以下の方法で音量レベル閾値を設定する。すなわち、音量レベル閾値設定部１５Ａは、履歴情報データを参照する。次いで音量レベル閾値設定部１５Ａは、履歴情報データに記録されたリクエスト音圧レベルのそれぞれを対象として平均値を算出し、この平均値を音量レベル閾値とする。平均値の算出に際し、直近で音声入力部１０が入力した音量調整リクエスト音声のリクエスト音圧レベルを、平均値を算出するときの要素に加えてもよく、加えなくてもよい。音量レベル閾値設定部１５Ａは、設定した音量レベル閾値を音量レベル調整部１４に応答する。

本実施形態の構成によれば以下の効果を奏する。すなわち、第１実施形態は、直近でユーザにより発話された音量調整リクエスト音声のみが用いられて音量レベル閾値が設定されるため、何らかの理由で音量調整リクエスト音声が異常に大きな或いは小さな声で発話された場合に、音量レベル閾値が異常値となってしまう。一方で本実施形態では、音量レベル閾値は、過去に発話された音量調整リクエスト音声のリクエスト音圧レベルの平均値に基づいて定められるため、音量レベル閾値が異常値となる可能性を低減できる。

なお、本実施形態では、音量レベル閾値設定部１５Ａは、履歴情報データに記録された全てのリクエスト音圧レベルの単純な平均値を音量レベル閾値としたが、以下の構成でもよい。すなわち、現時点から遡って２０個分のリクエスト音圧レベルというように、平均値の算出に利用するリクエスト音圧レベルの個数を限定してもよい。また、現時点に近いほど算出される値に影響を与えるような重み付けをした加重平均によって音量レベル閾値を算出する構成でもよい。

＜第３実施形態＞
次に第３実施形態について説明する。図６は第３実施形態に係る音声処理装置１Ｂの機能構成例を示すブロック図である。図６で示すように、音声処理装置１Ｂは、第１実施形態に係る音量レベル閾値設定部１５に代えて音量レベル閾値設定部１５Ｂを備え、また、記憶部として履歴情報記憶部２０Ｂを備えている。

ここで、マイク５は、ユーザが発話した音声のみならず、様々な環境音を収音する。環境音は、例えば、車両のサイドウインドウが開いているときに発生する風切り音や、車両が舗装されていない道路を走行しているときに発生する走行音、車両の周辺の環境が発生する音等、様々なものが存在する。コンテンツ音声も環境音の１つである。そして、音量調整リクエスト音声の大きさは、環境音の状態に影響を受ける。一般に、ユーザは、環境音が大きいとより大きな声で音量調整リクエスト音声を発話するよう意識するからである。以上を踏まえ、本変形例に係る音量レベル閾値設定部１５Ｂは、以下の処理を実行する。

音量レベル閾値設定部１５Ｂは、音量レベル調整部１４から音量レベル閾値の応答要求があると、第１実施形態と同様、音声バッファ１８に格納された音量調整リクエスト音声の音声データに基づいて、音量調整リクエスト音声のリクエスト音圧レベルを検出する。次いで、音量レベル閾値設定部１５Ｂは、第１～第Ｎ環境音関連状況のうち、現時点で車両が何れの状況にあるかを判定する。第１～第Ｎ環境音関連状況は、音声入力部１０に入力される環境音の大きさの相違という観点で分けられた複数の状況である。以下、第１～第Ｎ環境音関連状況を総称して「環境音関連状況」という。

単純化した一例を示すと、サイドウインドウの開閉状態は環境音の大きさに影響を与える。これを踏まえ、全てのサイドウインドウが閉まっている第１環境音関連状況と、１つでもサイドウインドウが開いている（つまり第１環境音関連状況ではない）第２環境音関連状況とが事前に定義される。また例えば、車両が舗装されていない道路を走行しているか否かは環境音の大きさに影響を与えることを踏まえ、サイドウインドウの状態にかかわらず、車両が舗装されていない道路を走行している第１環境音関連状況と、車両が舗装されている道路を走行し、かつ、何れかのサイドウインドウが開いている第２環境音関連状況と、車両が舗装されている道路を走行し、かつ、全てのサイドウインドウが閉じている第３環境音関連状況とが事前に定義される。

このように、第１～第Ｎ環境音関連状況のそれぞれは、環境音の大きさに影響を与える１つ以上の要素について、各要素の状態の組み合わせ（着目される要素が１つの場合は、その要素の状態）によって、第１～第Ｎ環境音関連状況の何れに属するかが判定されるようなものとされる。なお、環境音の大きさに影響を与える要素は、例示したものの他、例えば、車両が多車線道路を走行しているか否かや、車両が閑静な住宅街を走行しているか否か、時間帯（日中、夕方、夜）、車両の乗員人数等がある。

音量レベル閾値設定部１５Ｂは、第１～第Ｎ環境音関連状況のうち、現時点で車両が何れの状況にあるかを判定する際、環境音関連状況の判定に用いる全ての要素の状態を認識した上で、状況を判定する。例えば、上記で単純化した一例として示したように、全てのサイドウインドウが閉まっている第１環境音関連状況と、それ以外の第２環境音関連状況とが定義されている場合、音量レベル閾値設定部１５Ｂは、サイドウインドウを制御する制御ユニットに対して問い合わせることによって、全てのサイドウインドウの状態を認識した上で、車両が第１環境音関連状況と第２環境音関連状況とのうち、いずれの状況にあるかを判定する。

リクエスト音圧レベルを検出し、かつ、車両が第１～第Ｎ環境音関連状況のうち何れの状況にあるかを判定した後、音量レベル閾値設定部１５Ｂは、現時点の日時を示す情報と、車両の現時点の状況（第１環境音関連状況～第Ｎ状況の何れか）を識別する状況ＩＤと、音量調整リクエストのリクエスト音圧レベルとを対応付けて履歴情報記憶部２０Ｂに記憶された履歴情報データに記録する。この結果、履歴情報データは、過去に音声入力部１０が入力した音量調整リクエストのそれぞれについて、日時を示す情報と、状況ＩＤと、リクエスト音圧レベルとが対応付けて記録された状態となる。

そして音量レベル閾値設定部１５Ｂは、音量レベル調整部１４からの応答要求に応じて、以下の方法で音量レベル閾値を設定する。すなわち、音量レベル閾値設定部１５Ｂは、履歴情報データを参照する。次いで音量レベル閾値設定部１５Ｂは、履歴情報データに記録されたリクエスト音圧レベルのうち、現時点の環境音関連状況を示す状況ＩＤと対応付けられたリクエスト音圧レベルのそれぞれを対象として平均値を算出し、この平均値を音量レベル閾値とする。現時点の環境音関連状況を示す状況ＩＤと対応付けられたリクエスト音圧レベルはそれぞれ、過去において現時点の環境音関連状況と同じ環境音関連状況で発話された音量調整リクエスト音声のリクエスト音圧レベルである。音量レベル閾値設定部１５Ｂは、設定した音量レベル閾値を音量レベル調整部１４に応答する。

なお、平均値の算出に際し、直近で音声入力部１０が入力した音量調整リクエスト音声のリクエスト音圧レベルについては平均値を算出する要素としてもしなくてもよい点や、要素の個数を限定してもよい点、加重平均を求めるようにしてもよい点は第２実施形態と同様である。

本実施形態の構成によれば以下の効果を奏する。すなわち、第２実施形態と同様、音量レベル閾値は、過去に発話された音量調整リクエスト音声のリクエスト音圧レベルの平均値に基づいて定められるため、音量レベル閾値が異常値となる可能性を低減できる。その上で、本実施形態によれば、音量調整リクエスト音声の音圧レベルの大きさは、環境音の状態に影響を受けるという特性を鑑みて、音量レベル閾値の値を、環境音の状態を反映した適切な値とすることができる。

＜第４実施形態＞
次に第４実施形態について説明する。図７は第４実施形態に係る音声処理装置１Ｃの機能構成例を示すブロック図である。図７で示すように、音声処理装置１Ｃは、第１実施形態に係る音量レベル閾値設定部１５に代えて音量レベル閾値設定部１５Ｃを備えている。また音声処理装置１Ｃは、機能構成としてユーザ特徴登録部２１を備えている。また音声処理装置１Ｃは、記憶部として、履歴情報記憶部２０Ｃおよびユーザ特徴記憶部２２を備えている。

ここで、通常、車両には特定の人間だけでなく、様々な人間が搭乗する。そして、音量調整リクエスト音声のリクエスト音圧レベルの大きさの傾向は、人間によって異なると想定される。人によって普段の発話音声の大きさが異なるからである。以上を踏まえ、本変形例に係る音声処理装置１Ｃは、以下の処理を実行する。

ユーザ特徴登録部２１は、ユーザ特徴記憶部２２に記憶されたユーザ特徴テーブルにユーザに関する情報を登録する。詳述すると、本実施形態では自車両に搭乗する可能性があり、かつ、音声処理装置１Ｃを介してサービス提供サーバ３のサービスを受ける可能性があるユーザは、事前に、以下の特徴登録作業を行うことになっている。すなわち、特徴登録作業において、各ユーザは、音声処理装置１Ｃの動作モードを登録モードに移行させた後、ウェイクワードを発話する。ユーザ特徴登録部２１は、登録モードモードにおいて各ユーザにより発話されたウェイクワードを分析し、ユーザ毎にウェイクワードの発話音声の特徴を分析する。

本実施形態ではウェイクワードの発話音声の特徴は、ウェイクワードの発話音声を構成する周波数のうち、音圧レベルが最も高い周波数（以下「ユーザ特有周波数」という）と、ウェイクワードの発話音声の長さ（以下「ユーザ特有時間長」という）とである。なお、ユーザ特有周波数は、ユーザの発話音声に特有の周波数、換言すれば、ユーザの発話音声についての特徴が最も現れやすい支配的な周波数ということができる。

ユーザ特徴登録部２１は、ユーザ毎にユーザＩＤを生成し、ユーザＩＤとユーザ特有周波数とユーザ特有時間長とを対応付けて、ユーザ特徴記憶部２２に記憶されたユーザ特徴テーブルに登録する。ユーザ特徴登録部２１により以上の処理が行われる結果、ユーザ特徴記憶部２２に記憶されたユーザ特徴テーブルには、自車両に搭乗し、音声認識サービスを利用する可能性がある人物毎に、ユーザＩＤとユーザ特有周波数とユーザ特有時間長とが登録された状態となる。なお、上記例では、ユーザの１回の発話に基づいて「ユーザ特有時間長」を測定する構成であったが、ユーザにウェイクワード対応音声を複数回発話させ、各サンプルの測定値から平均、その他の統計学的手法によってユーザ特有周波数およびユーザ特有時間長を測定する構成でもよい。

音量レベル閾値設定部１５Ｃは、音量レベル調整部１４から音量レベル閾値の応答要求があると、第１実施形態と同様、音声バッファ１８に格納された音量調整リクエスト音声の音声データに基づいて、音量調整リクエスト音声のリクエスト音圧レベルを検出する。更に音量レベル閾値設定部１５Ｃは、ユーザ特徴記憶部２２に記憶された情報を参照した上で、音量調整リクエスト音声に先立って発話されたウェイクワード音声の音声データを分析し、ウェイクワード音声および音量調整リクエスト音声を発話したユーザのユーザＩＤを特定する。ユーザＩＤの特定は、ウェイクワード音声の音声データについて、音圧レベルが最も高い周波数とウェイクワードの発話音声の長さとが特定された上で、ユーザ特徴テーブルに登録されたユーザ特有周波数およびユーザ特有時間長との比較に基づいて行われる。

次いで音量レベル閾値設定部１５Ｃは、現時点の日時を示す情報と、特定したユーザＩＤと、音量調整リクエスト音声のリクエスト音圧レベルとを対応付けて履歴情報記憶部２０Ｃに記憶された履歴情報データに記録する。この結果、履歴情報データは、過去に音声入力部１０が入力した音量調整リクエスト音声のそれぞれについて、日時を示す情報と、発話したユーザのユーザＩＤと、リクエスト音圧レベルとが対応付けて記録された状態となる。

そして音量レベル閾値設定部１５Ｃは、音量レベル調整部１４からの応答要求に応じて、以下の方法で音量レベル閾値を設定する。すなわち、音量レベル閾値設定部１５Ｃは、履歴情報データを参照する。次いで音量レベル閾値設定部１５Ｃは、履歴情報データに記録されたリクエスト音圧レベルのうち、上述した手段で特定したユーザＩＤ（音量調整リクエストを発話したユーザのユーザＩＤ）と対応付けられたリクエスト音圧レベルのそれぞれを対象として平均値を算出し、この平均値を音量レベル閾値とする。特定したユーザＩＤと対応付けられたリクエスト音圧レベルはそれぞれ、過去においてそのユーザＩＤのユーザが発話した音量調整リクエスト音声のリクエスト音圧レベルである。音量レベル閾値設定部１５Ｃは、設定した音量レベル閾値を音量レベル調整部１４に応答する。

なお、平均値の算出に際し、直近で音声入力部１０が入力した音量調整リクエスト音声のリクエスト音圧レベルについては平均値を算出する要素としてもよく、しなくてもよい点や、要素の個数を限定してもよい点、加重平均を求めるようにしてもよい点は第２実施形態と同様である。

本変形例の構成によれば以下の効果を奏する。すなわち、第２実施形態と同様、音量レベル閾値は、過去に発話された音量調整リクエスト音声のリクエスト音圧レベルの平均値に基づいて定められるため、音量レベル閾値が異常値となる可能性を低減できる。その上で本変形例によれば、音量調整リクエスト音声のリクエスト音圧レベルの大きさの傾向は、人間によって異なるという特性を鑑みて、音量レベル閾値の値を、ユーザによって区分された適切な値とすることができる。

なお、第４実施形態では、事前に登録したユーザ特有周波数およびユーザ特有時間長に基づいて、音量調整リクエスト音声を発話したユーザを特定する構成であったが、ユーザを特定する方法は例示した方法に限られない。一例として、車内空間を撮影装置によって撮影し、撮影画像データを分析して、ユーザを特定する構成でもよい。

＜第４実施形態の変形例＞
次に第4実施形態の変形例について説明する。上記第４実施形態では、音量レベル閾値設定部１５Ｃは、音量調整リクエスト音声を発話したユーザを特定し、そのユーザが過去に発話した音量調整リクエスト音声のリクエスト音圧レベルに基づいて音量レベル閾値を設定した。この点に関し、第３実施形態の技術を応用し、音量レベル閾値設定部１５Ｃが以下の処理を実行する構成でもよい。

すなわち音量レベル閾値設定部１５Ｃは、ユーザによる音量調整リクエストの発話があったときに、車両環境音関連状況とユーザＩＤとを特定する。次いで音量レベル閾値設定部１５Ｃは、状況ＩＤとユーザＩＤとの組み合わせと対応付けて、日時を示す情報とリクエスト音圧レベルとを履歴情報データに記録する。そして、音量レベル閾値設定部１５Ｃは、履歴情報データにおいて特定した状況ＩＤとユーザＩＤとの組み合わせと対応付けて記憶された最大音量レベルの平均値を求め、これを音量レベル閾値とする。

本変形例の構成によれば、第２実施形態と同様、音量レベル閾値は、過去に発話された音量調整リクエストのリクエスト音圧レベルの平均値に基づいて定められるため、音量レベル閾値が異常値となる可能性を低減できる。その上で本変形例によれば、環境音の状態に影響を受けるという特性、および、音量調整リクエストのリクエスト音圧レベルの大きさの傾向は、人間によって異なるという特性を鑑みて、音量レベル閾値の値を、環境音の状態を反映し、かつ、ユーザによって区分された適切な値とすることができる。

以上、本発明の実施形態（変形例を含む）を説明したが、上記各実施形態は、本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。

例えば、上記第１実施形態では、音量レベルが調整される対象は、音声処理装置１自体が出力する音声であったが、音声処理装置１と通信可能に接続された他の装置が出力する音声の音量レベルが調整される対象であってもよい。他の装置は、例えばオーディオ装置や、テレビ、ラジオ等である。以上のことは他の実施形態についても同様である。

また上記第１実施形態で、サービス提供サーバ３が実行していた処理の一部または全部を音声処理装置１が実行する構成としてもよい。また音声処理装置１が実行していた処理の一部または全部をサービス提供サーバ３（サービス提供サーバ３以外の外部装置であってもよい）が実行する構成としてもよい。特に上記第１実施形態では、サービス提供サーバ３が音声認識の全部を実行する構成であったが、音声処理装置１が音声認識の一部または全部の処理を実行する構成でもよい。以上のことは他の実施形態についても同様である。

また上記第１実施形態では、音声処理装置１は車内空間に設けられていたが、音声処理装置１が設けられる空間は車内空間に限られない。一例として音声処理装置１は、オフィスや住宅の一室に設けられていてもよい。以上のことは、第２、第４実施形態についても同様である。

また上記第２実施形態では、音量レベル閾値設定部１５Ａは、音量レベル調整部１４から応答要求があったときに、履歴情報記憶部２０に記憶された履歴情報データに記録された情報を参照し、音量レベル閾値を導出する構成であった。この点に関し、音量レベル閾値設定部１５Ａが履歴情報記憶部２０に記憶された履歴情報データの内容に基づいて事前に音量レベル閾値を導出しておき、音量レベル調整部１４から応答要求がたったときに、事前に導出した音量レベル閾値を応答する構成でもよい。以上のことは第３実施形態および第４実施形態についても同様である。

また、第２実施形態では、音量レベル閾値設定部１５Ａは、ユーザの「リクエスト音声」に基づいて音量レベル閾値を設定した。この点に関し、音量レベル閾値設定部１５Ａが、リクエスト音声以外のユーザの発話音声を用いて音量レベル閾値を設定する構成でもよい。ユーザの発話音声は、例えば、音声認識サービスの利用時にユーザが発話したリクエスト音声（音量レベルの調整を指示する音声に限られない）である。リクエスト音声は例えば、車載に搭載された機器（空気調和装置や、オーディオ装置、カーナビゲーション装置）に対する制御を指示する指示であり、また例えば、音声対話においてユーザが発話した音声である。当然、ウェイクワード音声を含めるようにしてもよい。この場合、音量レベル閾値設定部１５Ａは、対象とする音声が入力されたときに、その音圧レベルを検出すると共に、履歴情報データに、その時点の日時を示す情報と、検出した音圧レベルとを対応付けて記録する。以上のことは、第３、第４実施形態についても同様である。

１、１Ａ、１Ｂ、１Ｃ音声処理装置
１０音声入力部
１４音量レベル調整部１４
１５、１５Ａ、１５Ｂ、１５Ｃ音量レベル閾値設定部

Claims

ユーザの発話音声を入力する音声入力部と、
前記音声入力部が入力した発話音声の音圧レベルに基づいて音量レベル閾値を設定する音量レベル閾値設定部と、
放音される音声の音量レベルの調整を指示する指示音声を前記音声入力部が入力した場合、前記音声入力部が入力した指示音声についての認識結果に基づいて前記放音される音声の音量レベルを調整する音量レベル調整部とを備え、
前記音量レベル調整部は、
前記音声入力部が新たに指示音声を入力した場合、仮に前記音声入力部が入力した指示音声が示す指示に応じて音量レベルを調整したとした場合に設定される仮音量レベルが、前記音量レベル閾値設定部により設定された前記音量レベル閾値を超える場合、前記音量レベル閾値を超えて音量レベルが設定されることを禁止し、超えない場合、当該指示に応じて音量レベルを調整する
ことを特徴とする音声処理装置。
前記音量レベル調整部は、前記仮音量レベルが前記音量レベル閾値を超える場合、前記放音される音声の音量レベルを前記音量レベル閾値とすることを特徴とする請求項１に記載の音声処理装置。
前記音量レベル調整部は、前記仮音量レベルが前記音量レベル閾値を超える場合、前記放音される音声の音量レベルを調整することなく、その旨警告することを特徴とする請求項１に記載の音声処理装置。
前記音量レベル調整部は、警告後、所定時間の間、前記放音される音声の音量レベルの調整に関する指示がユーザからない場合、前記音声入力部が入力した指示音声が示す指示に基づいて前記放音される音声の音量レベルを調整することを特徴とする請求項３に記載の音声処理装置。
前記音量レベル調整部は、前記音量レベル閾値を超えて前記放音される音声の音量レベルが設定されることを禁止した後、前記放音される音声の音量レベルを上げることについての明示的な指示があった場合には、当該指示に従って音量レベルを上げることを特徴とする請求項１から３の何れか１項に記載の音声処理装置。
前記音量レベル閾値設定部は、前記音声入力部が指示音声を入力したときに、その指示音声の音圧レベルに応じて、当該音圧レベルと前記音量レベル閾値とが同等となるように前記音量レベル閾値を設定することを特徴とする請求項１から５の何れか１項に記載の音声処理装置。
前記音量レベル閾値設定部は、前記音声入力部が指示音声を入力したときに、その指示音声の音圧レベルに応じて、当該音圧レベルと前記音量レベル閾値とが同等となるように前記音量レベル閾値を設定する一方、前記音声入力部が指示音声を入力したときに放音されている音声の音量レベルが一定値より小さく、かつ、指示音声の音圧レベルが一定値よりも小さい場合は、前記音量レベル閾値を、当該音圧レベルと同等の値よりも高くすることを特徴とする請求項６に記載の音声処理装置。
前記音量レベル閾値設定部は、前記音声入力部が過去に入力した１つ以上のユーザの発話音声の音圧レベルに基づいて、前記音量レベル閾値を設定することを特徴とする請求項１に記載の音声処理装置。
前記音量レベル閾値設定部は、前記音声入力部が過去に入力した１つ以上の指示音声の音圧レベルに基づいて、前記音量レベル閾値を設定することを特徴とする請求項８に記載の音声処理装置。
前記音量レベル閾値設定部は、前記音声入力部が過去に入力した複数の指示音声の音圧レベルの平均値と前記音量レベル閾値とが同等となるように、前記音量レベル閾値を設定することを特徴とする請求項９に記載の音声処理装置。
筐体が車両に設けられており、
前記音量レベル閾値設定部は、
前記音声入力部が指示音声を入力したときに、前記音声入力部に入力される環境音の大きさの相違という観点で分けられた複数の状況のうち、現時点で前記車両が何れの状況にあるかを判定し、状況を示す情報と、指示音声の音圧レベルとを対応付けて記憶する一方、過去に前記車両が現時点の状況と同じ状況であったときに前記音声入力部が入力した１つ以上の指示音声の音圧レベルに基づいて、前記音量レベル閾値を設定することを特徴とする請求項９に記載の音声処理装置。
前記音量レベル調整部は、過去に前記車両が現時点の状況と同じ状況であったときに前記音声入力部が入力した複数の指示音声の音圧レベルの平均値と前記音量レベル閾値とが同等となるように、前記音量レベル閾値を調整することを特徴とする請求項１１に記載の音声処理装置。
前記音量レベル閾値設定部は、
前記音声入力部が指示音声を入力したときに、指示音声を発話したユーザを特定し、ユーザを示す情報と、指示音声の音圧レベルとを対応付けて記憶する一方、特定したユーザの過去の１つ以上の指示音声の音圧レベルに基づいて、前記音量レベル閾値を設定することを特徴とする請求項９に記載の音声処理装置。
前記音量レベル調整部は、特定したユーザの過去の複数の指示音声の音圧レベルの平均値と前記音量レベル閾値とが同等となるように、前記音量レベル閾値を設定することを特徴とする請求項１３に記載の音声処理装置。
音声処理装置の音声入力部が、放音される音声の音量レベルの調整を指示する指示音声を入力する第１ステップと、
前記音声処理装置の音量レベル閾値設定部が、前記音声入力部が今回或いは過去に入力したユーザの発話音声の音圧レベルに基づいて音量レベル閾値を設定する第２ステップと、
前記音声処理装置の音量レベル調整部が、前記音声入力部が入力した指示音声についての認識結果に基づいて前記放音される音声の音量レベルを調整する第３ステップとを含み、
第３ステップにおいて前記音量レベル調整部は、前記音声入力部が新たに指示音声を入力した場合、仮に前記音声入力部が入力した指示音声が示す指示に応じて音量レベルを調整したとした場合に設定される仮音量レベルが、前記音量レベル閾値設定部により設定された前記音量レベル閾値を超える場合、前記音量レベル閾値を超えて音量レベルが設定されることを禁止し、超えない場合、当該指示に応じて音量レベルを調整する
ことを特徴とする音声処理方法。