JP7423156B2 - 音声処理装置および音声処理方法 - Google Patents

音声処理装置および音声処理方法 Download PDF

Info

Publication number
JP7423156B2
JP7423156B2 JP2020078914A JP2020078914A JP7423156B2 JP 7423156 B2 JP7423156 B2 JP 7423156B2 JP 2020078914 A JP2020078914 A JP 2020078914A JP 2020078914 A JP2020078914 A JP 2020078914A JP 7423156 B2 JP7423156 B2 JP 7423156B2
Authority
JP
Japan
Prior art keywords
volume level
volume
audio
voice
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020078914A
Other languages
English (en)
Other versions
JP2021173910A (ja
Inventor
信範 工藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alps Alpine Co Ltd
Original Assignee
Alps Electric Co Ltd
Alps Alpine Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alps Electric Co Ltd, Alps Alpine Co Ltd filed Critical Alps Electric Co Ltd
Priority to JP2020078914A priority Critical patent/JP7423156B2/ja
Publication of JP2021173910A publication Critical patent/JP2021173910A/ja
Application granted granted Critical
Publication of JP7423156B2 publication Critical patent/JP7423156B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音声処理装置および音声処理方法に関し、特に、放音される音声の音量レベルの調整を指示する指示音声に基づいて当該音量レベルを調整する音声処理装置および音声処理方法に用いて好適なものである。
従来、所定の機器(自機であってもよい)の制御を指示する音声をユーザから受け付けて音声認識し、音声が示す指示に基づいて当該所定の機器を制御する音声処理装置が存在する(ただし、音声認識自体は音声処理装置が行う場合も行わない場合もある)。この種の音声処理装置では、ユーザから受け付けた音声に基づいて、自機や自機に接続された装置(例えばオーディオ装置やテレビ、ラジオ等)が放音する音声の音量レベルを調整可能に構成された装置が存在する。例えば、車両に設けられ、車両の搭乗者の発話音声に従って、車載オーディオ装置や車載テレビ等の音量レベルを調整する音声処理装置が従来から存在しており、また例えば、室内に設けられ、ユーザの発話音声に従って、室内に設けられたオーディオ装置やテレビ等の音量レベルを調整するする音声処理装置(いわゆるスマートスピーカは、この種の音声処理装置の1つ)が近年、普及してきている。
なお、特許文献1には、車両に設けられた装置であって、車両用オーディオ装置に設定可能な音量の範囲を、車両(自動二輪車)の速度のレベル(低/中/高)によって動的に変更する設定音量調節装置が記載されている。
特開2005-271665号公報
ユーザの発話音声により音声出力機器の音量レベルが調整される際に、調整の内容は、通常、「音量を‘30’にして」や「音量を‘5’だけ上げて」のように音量レベル或いは音量レベルの変化量を示す具体値が用いられて表されるか、「音量をちょっとだけ上げて」「音量をかなり上げて」のように現時点の音量レベルからの相対的な変化を定性的に表す表現が用いられて表される。
具体値が用いられる場合、以下の問題がある。すなわち、音量レベルがとり得る値の範囲は、機器によってまちまちである。例えば、0~35の範囲で値をとる機器もあれば、0~100の範囲で値をとる機器もある。従って、音量レベルがある具体値となるように或いはある具体値だけ変化するように調整することを指示する音声をユーザが発話したときに、ユーザ想定している機器の音量レベルの範囲と、音量レベルの調整の対象となっている機器の実際の音量レベルの範囲との相違に起因して、ユーザが想定している調整後の音声の大きさに比して、音量レベルが調整された後に機器から出力される音声の大きさが非常に大きくなってしまう場合が生じ得る。ユーザの意図を超えて機器が出力する音声の音が大きくなってしまった場合、ユーザを驚かせてしまったり、機器が出力する音声がノイズとなって音声認識を阻害したりする等の悪影響が発生する可能性がある。
また、相対的な変化を定性的に表す表現が用いられる場合、以下の問題がある。すなわち、この場合、変化が定性的な表現で表される関係上、音量レベルをどの程度大きくするのかについて一種の曖昧さがあり、ユーザが想定した音の大きさに比して、指示に基づいて音量レベルが調整された後の実際の音の大きさが非常に大きくなってしまう場合が生じ得る。このことが悪影響をもたらし得ることは上述の通りである。
以上のような「ユーザが想定した音の大きさに比して、指示に基づいて音量レベルが調整された後の実際の音の大きさが非常に大きくなる」という事態が発生し得るという問題は、ユーザが驚かず、かつ、音声認識を阻害するノイズとならない程度に十分に低い固定的な上限値を設け、ユーザから音声により音量レベルの調整の指示があった場合に、いかなる場合にも音量レベルがこの上限値を超えないようにすることによって解決可能である。しかしながら、この場合、仮にユーザの指示に応じて音量レベルを調整したとしたときに、ユーザの指示に基づく調整後の音の大きさが、ユーザが想定していた音の大きさであったのにもかかわらず、音量レベルが上限値に留められてしまい、機器が出力する音の大きさが、ユーザが想定した音の大きさよりも相当に小さくなるという事態が発生する可能性が高くなる。このような事態は、ユーザの快適性が損なわれる原因となり得る。
本発明は、このような問題を解決するために成されたものであり、ユーザから発話音声によって音量レベルの調整が指示されたときに、音量レベルの上昇を過剰に制限することを抑制し、更にユーザが想定した音の大きさに比して、指示に基づいて音量レベルが調整された後の実際の音の大きさが、ユーザに対して悪影響を生じさせる程に大きくなるという事態が発生することを防止することを目的としている。
上記した課題を解決するために、本発明は、新たに指示音声を入力した場合、仮に指示音声が示す指示に応じて音量レベルを調整したとした場合に設定される仮音量レベルが、ユーザの発話音声の音圧レベルに基づいて設定される音量レベル閾値を超える場合、音量レベル閾値を超えて音量レベルが設定されることを禁止し、超えない場合、当該指示に応じて音量レベルを調整するようにしている。
上記のように構成した本発明によれば、以下の効果を奏する。すなわち、音量レベル閾値は、ユーザが実際に発話した音声の音圧レベルに由来して定められる値であり、放音される音声の音量レベルがこの閾値を超えると、放音される音声の大きさがユーザによる発話音声の大きさを不必要に上回り、ユーザが指示音声を発した場合に、その指示音声に基づく音声認識を阻害することが想定される。逆に言えば、音量レベルがこの閾値を超えない場合、放音される音声が指示音声の音声認識を阻害しないことが想定されるため、音量レベル閾値は、指示音声の音声認識を阻害しないような音量レベルの最大値と考えることができる。
これを踏まえ本発明によれば、仮音量レベルが、指示音声の音声認識を阻害しないような音量レベルの最大値である音量レベル閾値以下であれば、ユーザの指示通りに音量レベルが調整される。このため、あらゆるケースにおいて不必要に小さい上限値に音量レベルの上昇が制限され、音量レベルの上昇が過剰に制限される、といったことがない。更に本発明によれば、音量レベルが音量レベル閾値を超えて設定されることが防止されるため、放音される音声の音の大きさが、ユーザの予想を遥かに上回るような大きさとなったり、指示音声の音声認識を阻害する程度に大きくなったりすることを防止できる。すなわち、ユーザが想定した音の大きさに比して、指示に基づいて音量レベルが調整された後の実際の音の大きさが、ユーザに対する悪影響を生じさせる程に大きくなるという事態が発生することを防止できる。
本発明の第1実施形態に係る音声認識システムの構成例を示す図である。 本発明の第1実施形態に係る音声処理装置の機能構成例を示すブロック図である。 本発明の第1実施形態に係る音声処理装置の動作例を示すフローチャートである。 本発明の第1実施形態の第2変形例に係る音量レベル閾値設定部の処理の説明に利用する図である。 本発明の第2実施形態に係る音声処理装置の機能構成例を示すブロック図である。 本発明の第3実施形態に係る音声処理装置の機能構成例を示すブロック図である。 本発明の第4実施形態に係る音声処理装置の機能構成例を示すブロック図である。
以下、本発明の一実施形態を図面に基づいて説明する。図1は、本実施形態に係る音声処理装置1を含んで構成される音声認識システム2の構成を示す図である。図1で示すように、音声処理装置1は、インターネットや電話網等の通信網を含んで構成されたネットワークNにアクセス可能であり、ネットワークNを介してサービス提供サーバ3と通信可能である。
サービス提供サーバ3は、クライアント端末で収集された音声の音声認識に関するサービスを提供するクラウドサーバである。以下、サービス提供サーバ3により提供されるサービスを「音声認識サービス」という。音声認識サービスの1つは、クライアント端末で収集された音声を音声認識して、その音声の内容を理解し、その音声の内容に対応する処理を実行するというものである。一例として、サービス提供サーバ3は、ユーザがクライアント端末に対して何らかの質問を内容とする音声を発話した場合に、その音声を音声認識し、その音声の意図を解釈し、質問に対する回答を生成し、クライアント端末に音声として出力させ、これによりユーザとクライアント端末との間で音声対話を実現する。
本実施形態に係る音声処理装置1は、その筐体が車両に設けられた車載装置である。そして音声処理装置1は、サービス提供サーバ3に対するクライアント端末として機能し、ユーザは、音声処理装置1を介して音声認識サービスを利用することができる。ユーザは、音声認識サービスの利用に際し、ウェイクワードと呼ばれる予め定められた特定のワードを音声として発話し、ウェイクワードの音声の発話に続けて、何らかの質問や、要求を行うための文言(以下、「リクエスト」という)の音声を発話する。以下、ユーザが発話するウェイクワードの音声を「ウェイクワード音声」といい、リクエストの音声を「リクエスト音声」という。
音声処理装置1は、ユーザによるウェイクワード音声およびリクエスト音声の発話に応じて処理要求データを生成し、サービス提供サーバ3に送信する。処理要求データは、ユーザが発話したウェイクワード音声に対応する音声データ、および、ユーザが発話したリクエスト音声に対応する音声データを含む音声データ(以下「発話音声データ」という)と、発話音声データに関する必要な参照情報が所定のフォーマット(例えばJSON)に従って記述された制御情報データとを含んでいる。
図2は、本実施形態に係る音声処理装置1の機能構成例を示すブロック図である。図2で示すように、音声処理装置1には、マイク5、スピーカ6およびタッチスクリーン7が接続されている。マイク5は、音声を収音し音声信号として音声処理装置1に出力する。マイク5は、車両に搭乗する搭乗者(以下単に「ユーザ」という)の発話音声を収音可能である。スピーカ6は、車両の車内空間に設けられており、音声処理装置1から入力した音声信号に基づいて車内空間に音声を放音する。タッチスクリーン7は、液晶表示パネルなどの表示パネルと、表示装置に重ねて配置されたタッチパネルとを備え、音声処理装置1の制御の下、タッチスクリーン7に各種映像を表示し、また、ユーザによるタッチ操作を検出する。
図2で示すように、音声処理装置1は、機能構成として、音声入力部10、音声出力部11、コンテンツ再生部12、音声認識処理部13、音量レベル調整部14および音量レベル閾値設定部15を備えている。上記各機能ブロック10~15は、ハードウェア、DSP(Digital Signal Processor)、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック10~15は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。また図2で示すように音声処理装置1は、記憶部として設定ファイル記憶部17を備えている。設定ファイル記憶部17に記憶されたデータの内容については後述する。
音声入力部10は、マイク5によって収音された音声に標本化、量子化、符号化処理を含むアナログ/デジタル変換処理を行って音声データを生成し、音声バッファ18にバッファリングする。音声バッファ18はRAM等のワークエリアに形成された一時記憶領域である。音声入力部10により上記処理が実行される結果、現時点から遡って所定期間の間にマイク5により収音された音声に基づく音声データが音声バッファ18に記憶された状態となる。以下、音声バッファ18に記憶された音声データの集合を「入力音声データ」という。また以下の説明では、マイク5により音声が収音され、音声信号が音声入力部10に入力されることを、単に「音声が音声入力部10に入力される」或いは「音声入力部10が音声を入力する」のように表現する場合がある。
音声出力部11は、D/Aコンバータ、ボリューム回路およびアンプ回路等を備え、コンテンツ再生部12等から入力した音声信号をD/Aコンバータによりデジタル/アナログ変換し、ボリューム回路により音量レベルを調整し、アンプ回路により増幅して、スピーカ6から音声として出力する。
コンテンツ再生部12は、ユーザの指示に応じてコンテンツを再生する。コンテンツは、図示しないメディアドライブに挿入されたCDやDVDに記録された楽曲や動画(映画等の動画)、所定の記憶領域に記憶されたデータに記録された楽曲や動画、音声処理装置1に接続された外部装置に記憶された楽曲や動画等である。コンテンツ再生部12は、コンテンツの再生中、音声信号を音声出力部11に出力し、スピーカ6から音声を放音させる。以下コンテンツの再生に応じて出力される音声を「コンテンツ音声」という。
その際、コンテンツ再生部12は、設定ファイル記憶部17に記憶された設定ファイルを参照し、音声出力部11のボリューム回路を制御することによってコンテンツ音声の音量を調整する。設定ファイルは、各種設定項目について設定値が記録されたファイルであり、少なくとも、スピーカ6により放音される音声の音量レベルに係る項目の設定値(以下「設定音量レベル」という)が記録されている。コンテンツ再生部12は、コンテンツ音声の音量レベルが、設定ファイルに記録された設定音量レベルとなるように音量を調整する。本実施形態では、設定音量レベルは、「0」~「35」の範囲の整数値により表される。
以上のように本実施形態に係る音声処理装置1は、コンテンツを再生し、コンテンツ音声を出力する機能を有している。そして音声処理装置1は、ユーザからスピーカ6から放音されるコンテンツ音声の音量レベル(=設定音量レベル)の調整を指示するリクエストの音声の発話があった場合に、そのリクエストの内容に応じて、設定音量レベルを調整する機能を有している。以下、設定音量レベルの調整を指示するリクエストを特に「音量調整リクエスト」といい、その音声を「音量調整リクエスト音声」という。音量調整リクエスト音声は、特許請求の範囲の「指示音声」に相当する。以下、音量調整リクエストに応じて設定音量レベルを調整するときの音声処理装置1の動作について詳述する。
音声認識処理部13は、音声バッファ18に累積的に記憶される入力音声データを継続的に分析し、ウェイクワード音声の発話がなされたか否かを監視する。ウェイクワードの発話がなされたか否かの監視は、例えば、入力音声データに記録された音声の音声波形と、予め登録されたウェイクワード音声の音声パターンの類似度が閾値以上となったか否かが随時、判定されることにより実行される。
ウェイクワード音声の発話がなされたことを検出した場合、音声認識処理部13は、リクエスト音声の音声データが音声バッファ18に記憶されるまで待機し、リクエスト音声の音声データが記憶されると、上述した処理要求データを生成し、サービス提供サーバ3に送信する。音声認識処理部13により以上の処理が実行されるため、ユーザがウェイクワード音声に続けて音量調整リクエスト音声を発話した場合には、音量調整リクエスト音声に対応する音声データが含まれる処理要求データが音声認識処理部13からサービス提供サーバ3へ送信される。以下では、音量調整リクエスト音絵に対応する音声データが含まれる処理要求データがサービス提供サーバ3へ送信されたものとして、音声処理装置1およびサービス提供サーバ3の処理について説明する。
サービス提供サーバ3は、処理要求データを受信し、受信した処理要求データに基づいて、リクエストの内容を認識すると共に、当該内容に対応する処理を実行する。以下、音量調整リクエスト音声に対応する音声データが含まれる処理要求データに基づいてサービス提供サーバ3が実行する処理について詳述する。
ここで音量調整リクエストの内容には、2つのパターンがあると想定される。1つ目のパターンは、「音量を‘30’にして」や「音量を‘5’だけ上げて」のように音量レベル或いは音量レベルの変化量を示す具体値が用いられて、どのように音量を調整すべきかが表されたパターンである。以下このパターンを「具体値パターン」という。2つ目のパターンは、「音量をちょっとだけ上げて」「音量をかなり上げて」のように現時点の音量レベルからの相対的な変化を定性的に表す表現が用いられて、どのように音量を調整すべきかが表されたパターンである。以下このパターンを「相対値パターン」という。
音量調整リクエストの内容が具体値パターンの場合、サービス提供サーバ3は、音量調整リクエストの内容を既存の自然言語処理技術によって認識し、音量レベルをどのように変化させるかが音量レベル或いは音量レベルの変化量を示す具体値を用いて表された情報を含む音量調整制御データを生成する。例えばサービス提供サーバ3は、音量調整リクエストの文言が「音量を‘30’にして」というものである場合、音量レベルを「30」とすることを指示する情報を含む音量調整制御データを生成し、また、音量調整リクエストの文言が「音量を‘5’だけ上げて」というものである場合、設定音量レベルを「5」だけ上昇させることを指示する情報を含む音量調整制御データを生成する。
一方、音量調整リクエストの内容が相対値パターンの場合、サービス提供サーバ3は、音声調整リクエストの内容を既存の自然言語処理技術によって認識し、「現時点の音量レベルからの相対的な変化を定性的に表す表現」を「音量レベルの変化量を示す具体値」に変換した上で、音量レベルをどのように変化させるかが当該具体値を用いて表された情報を含む音量調整制御データを生成する。例えば、音量調整リクエストの文言が「音量をちょっとだけ上げて」というものである場合、サービス提供サーバ3は、「ちょっと」との表現を「3」という具体値に変換した上で、設定音量レベルを「3」上昇させることを指示する情報を含む音量調整制御データを生成する。また例えば、音量調整リクエストの文言が「音量をかなり上げて」というものである場合、サービス提供サーバ3は、「かなり」との表現を「10」という具体値に変換した上で、設定音量レベルを「10」上昇させることを指示する情報を含む音量調整制御データを生成する。
サービス提供サーバ3は、生成した音量調整制御データを音声処理装置1の音声認識処理部13に応答する。
音声認識処理部13は、サービス提供サーバ3から音量調整制御データを受信する。音声認識処理部13は、音量調整制御データを受信すると、受信した音量調整制御データを音量レベル調整部14に出力する。なお詳細は省略するが、音声認識処理部13は、音量調整制御データ以外の制御データをサービス提供サーバ3から受信した場合は、その制御データの内容に応じた処理を実行する。
音量レベル調整部14は、音声認識処理部13から音量調整制御データを入力する。音量レベル調整部14は、音量調整制御データを入力すると、音量レベル閾値設定部15に音量レベル閾値の応答を要求する。
音量レベル閾値設定部15は、音量レベル調整部14から音量レベル閾値の応答要求を受け付けると、音声バッファ18に記憶された音量調整リクエスト音声(今回、音声入力部10が入力した音量調整リクエスト音声)の音声データを分析し、音量調整リクエスト音声の最大の音圧レベルを認識する。以下ここで認識された音圧レベルを「リクエスト音圧レベル」という。そして、音量レベル閾値設定部15は、リクエスト音圧レベルを音量レベルに換算した値を音量レベル閾値として設定する。例えば、音圧レベルの範囲毎に各音圧レベルの範囲とそれに対応する音量レベルとが対応付けられたテーブルが事前に登録されており、音量レベル閾値設定部15は、このテーブルを用いてリクエスト音圧レベルを音量レベルに換算する。音量レベル閾値設定部15は、設定した音量レベル閾値を音量レベル調整部14に応答する。なお、音量レベル閾値設定部15が、リクエスト音圧レベルを音量レベルに換算した値を音量レベル閾値として設定する処理は、特許請求の範囲の「指示音声の音圧レベルに応じて、当該音圧レベルと音量レベル閾値とが同等となるように音量レベル閾値を設定する」処理に相当する。
なお本実施形態では、音量レベル閾値設定部15は、音量調整リクエスト音声の最大の音圧レベルをリクエスト音圧レベルとしているが、これは最大の音圧レベルが、音量調整リクエスト音声がどの程度の音圧レベルで発話されたかを表す指標となるからである。ただし必ずしも音量調整リクエスト音声の最大の音圧レベルをリクエスト音圧レベルとする必要はなく、リクエスト音圧レベルが、音量調整リクエスト音声がどの程度の音圧レベルで発話されたかを表す値となるような方法であれば、どのような方法でリクエスト音圧レベルを設定してもよい。例えば、音量調整リクエスト音声の音声波形の最大のピークの周辺の音圧レベルの平均値をリクエスト音圧レベルとしてもよい。また例えば、音量調整リクエスト音声の音圧レベルの最大値に対してマージンを加味した値をリクエスト音圧レベルとしてもよい。
音量レベル調整部14は、音量レベル閾値設定部15から音量レベル閾値を入力する。次いで音量レベル調整部14は、音量調整制御データに基づいて、必要に応じて設定ファイル記憶部17に記憶された設定ファイルを参照した上で、仮音量レベルを導出する。仮音量レベルとは、仮に音声調整リクエスト(=音声入力部10が入力した指示音声)が示す指示に応じて設定音量レベルを調整したとした場合に設定される仮の設定音量レベルのことである。
例えば音量調整制御データが、設置音量レベルを特定の具体値(例えば「25」)に設定することを指示する制御データの場合、音量レベル調整部14は、その具体値を仮音量レベルとする。また例えば音量調整制御データが現時点の設定音量レベルから特定の具体値(例えば「5」)だけ変動させることを指示する制御データの場合、音量レベル調整部14は、以下の処理を実行する。すなわち音量レベル調整部14は、設定ファイルを参照して現時点の設定音量レベルを認識し、現時点の設定音量レベルから特定の具体値だけ変動させた値を仮音量レベルとする。
音量レベル閾値設定部15から音量レベル閾値を入力し、かつ、仮音量レベルを導出した後、音量レベル調整部14は、音量レベル閾値と仮音量レベルとを比較する。仮音量レベルが音量レベル閾値以下の場合、音量レベル調整部14は、変更後の設定音量レベルを仮音量レベルに決定する。つまり音量レベル調整部14は、ユーザの指示通りに設定音量レベルを調整することを決定する。一方、仮音量レベルが音量レベル閾値を超える場合、音量レベル調整部14は、音量レベル閾値を超えて設定音量レベルが設定されることを禁止し、変更後の設定音量レベルを音量レベル閾値とすることを決定する。音量レベル調整部14は、以上のようにして変更後の設定音量レベルを決定した後、設定ファイルに記録されている設定音量レベルの値を、決定した変更後の設定音量レベルの値によって書き換える。この結果、コンテンツ音声は、書き換えられた後の設定音量レベルでスピーカ6から放音される。
仮音量レベルが音量レベル閾値を超えており、設定音量レベルを音量レベル閾値に設定した場合、音量レベル調整部14は、更に以下の処理を実行する。すなわち、音量レベル調整部14は、タッチスクリーン7を制御して、設定音量レベルの上昇を音量レベル閾値に制限した旨の情報をタッチスクリーン7に表示する。なお、タッチスクリーン7に表示される情報は、音声処理装置1による意図的な処理により、設定音量レベルが、ユーザが望むより小さく設定された可能性があることがユーザに伝わるような表現であれば、どのような表現であってもよい。このような内容の情報をユーザに伝えることにより、ユーザの想定より音量が小さかったときに、ユーザが故障やエラー(例えば音声認識の失敗)等を疑うことを防止できる。
更に音量レベル調整部14は、タッチスクリーン7に設定音量レベルの変更を指示するためのボタンを表示する。ユーザは、設定音量レベルの上昇が音量レベル閾値に制限された中、調整後の音量が想定していた音量よりも小さい場合には、タッチスクリーン7に表示されたボタンを操作して、設定音量レベルを上げることを指示する。音量レベル調整部14は、タッチスクリーン7に表示されたボタンの操作により設定音量レベルの変更が指示された場合には、指示通りに設定音量レベルを変更する。従って音量レベル調整部14は、設定音量レベルを、音量レベル閾値を超える音量レベルに変更する旨の指示があった場合、指示通りに設定音量レベルを、音量レベル閾値を超える音量レベルとする。
以上のように本実施形態に係る音声処理装置1は、新たに音量調整リクエスト音声(指示音声)を入力した場合、仮に音量調整リクエストが示す指示に応じて音量を調整したとした場合に設定される仮音量レベルが、音量調整リクエスト音声の音圧レベルに基づいて設定される音量レベル閾値を超える場合、音量レベル閾値を超えて設定音量レベルが設定されることを禁止し、超えない場合、音量調整リクエストに応じて設定音量レベルを調整するようにしている。
この構成によれば、以下の効果を奏する。すなわち、音量レベル閾値は、ユーザが実際に発話した音量調整リクエスト音声の音圧レベルに基づいて設定される値であり、スピーカ6から放音されるコンテンツ音声の音量レベルがこの閾値を超えると、コンテンツ音声の大きさがユーザによる音量調整リクエスト音声の大きさを不必要に上回り、音量調整リクエスト音声の音声認識を阻害することが想定される。逆に言えば、放音されるコンテンツ音声の音量レベルがこの閾値を超えない場合、コンテンツ音声が音量調整リクエスト音声の音声認識を阻害しないことが想定されるため、音量レベル閾値は、音量調整リクエスト音声の音声認識を阻害しないような音量レベルの最大値と考えることができる。
これを踏まえ本実施形態の構成によれば、仮音量レベルが、音量調整リクエスト音声の音声認識を阻害しないような音量レベルの最大値である音量レベル閾値以下であれば、ユーザの指示通りに設定音量レベルが調整される。このため、あらゆるケースにおいて不必要に小さい上限値に音量レベルの上昇が制限され、音量レベルの上昇が過剰に制限される、といったことがない。更に本実施形態の構成によれば、設定音量レベルが音量レベル閾値を超えて設定されることが防止されるため、コンテンツ音声の音の大きさが、ユーザの予想を遥かに上回るような大きさとなったり、音量調整リクエスト音声の音声認識を阻害する程度に大きくなったりすることを防止できる。すなわち、ユーザが想定した音の大きさに比して、音量調整リクエスト音声に基づいて音量レベルが調整された後の実際の音の大きさが、ユーザに対する悪影響を生じさせる程に大きくなるという事態が発生することを防止できる。
また本実施形態では、音量レベル調整部14は、仮音量レベルが音量レベル閾値を超える場合、設定音量レベル(放音される音声の音量レベル)を音量レベル閾値とする。この構成によれば、仮音量レベルが音量レベル閾値を超える場合には、設定音量レベルの上昇が音量レベル閾値に制限されるものの、ユーザの音量調整リクエスト音声の発話に応じてすぐに設定音量レベルの調整がなされるため、後述する第1実施形態の変形例と比較して、ユーザの利便性が高い。
また、本実施形態では、音量レベル調整部14は、設定音量レベルが音量レベル閾値を超えることを禁止した後、ユーザから設定音量レベルを上げることについての明示的な指示があった場合には、当該指示に従って音量レベルを上げる。この構成のため、音量調整リクエスト音声が発話されたときにユーザを驚かせる程の大音量となることを的確に防止した上で、ユーザは最終的には自信が望む音量をコンテンツ音声が放音されるようにすることができ、ユーザの満足度の低下を抑制できる。
次に第1実施形態に係る音声処理装置1の動作例についてフローチャートを用いて説明する。図3は、音声処理装置1による音声処理方法を示すフローチャートである。図3で示すように、音声入力部10は、音量調整リクエスト音声(放音される音声の音量レベルの調整を指示する指示音声)を入力する(ステップSA1)。音声入力部10により入力された音声調整リクエスト音声の音声データは音声バッファ18に格納される。
音量レベル閾値設定部15は、音声入力部10により入力された音量調整リクエスト音声の音圧レベルに基づいて音量レベル閾値を設定する(ステップSA2)。本実施形態では、音量レベル閾値設定部15は、リクエスト音圧レベルを音量レベルに換算した値を音量レベル閾値とする。
音量レベル調整部14は、音声入力部10が入力した音量調整リクエストについての認識結果に基づいて設定音量レベルを調整する(ステップSA3)。ステップSA3において、音量レベル調整部14は、音声入力部10が新たに音量調整リクエスト音声を入力した場合、仮に音声入力部10が入力した音量調整リクエスト音声が示す指示に応じて音量レベルを調整したとした場合に設定される仮音量レベルが、音量レベル閾値設定部15により設定された音量レベル閾値を超える場合、音量レベル閾値を超えて音量レベルが設定されることを禁止し、超えない場合、当該指示に応じて音量レベルを調整する。
<第1実施形態の第1変形例>
次に第1実施形態の第1変形例について説明する。上述した第1実施形態では、音量レベル調整部14は、仮音量レベルが音量レベル閾値を超える場合、設定音量レベルを音量レベル閾値とした。一方、本変形例では、音量レベル調整部14は、仮音量レベルが音量レベル閾値を超える場合、放音される音声の音量レベルを調整することなく、その旨警告する。具体的には、音量レベル調整部14は、指示通りに設定音量レベルを上げると、ユーザの想定以上の大音量となる可能性がある旨の情報をタッチスクリーン7に表示する。更に音量レベル調整部14は、上記情報と共に、指示通りに設定音量レベルを上げることを指示する第1ボタンと、別途、設定音量レベルの変更を指示するための第2ボタンを表示する。音量レベル調整部14は、第1ボタンが操作された場合には、設定音量レベルを仮音量レベル(>音量レベル閾値)とする。また音量レベル調整部14は、第2ボタンが操作された場合には、操作に応じて設定音量レベルを調整する。なお、警告を行った後、所定時間の間、ユーザにより何ら操作がなった場合(=ユーザから音量レベルの調整に関する指示がなかった場合)、音量レベル調整部14が指示通りに設定音量レベルを上げる構成としてもよい。その際に、音量レベル調整部14が、タッチスクリーン7に、操作が一定時間以上ない場合に、指示通りに音量レベルを調整する旨表示する構成としてもよい。
本変形例の構成によれば、第1実施形態と同様、仮音量レベルが音量レベル閾値以下であれば、ユーザの指示通りに設定音量レベルが調整される。このため、あらゆるケースにおいて不必要に小さい上限値に音量レベルの上昇が制限され、音量レベルの上昇が過剰に制限される、といったことがない。その上で設定音量レベルが音量レベル閾値を超えて設定されることが防止されるため、放音される音声の音の大きさがユーザの予想を遥かに上回るような大きさとなったり、音量調整リクエスト音声の音声認識を阻害する程度に大きくなったりすることを防止できる。更に、ユーザが、自身の想定以上の大音量となる可能性があることを認識した上で、音量調整リクエスト音声の指示通りに設定音量レベルを上げることを指示した場合には、設定音量レベルを仮音量レベル(>音量レベル閾値)に設定するため、ユーザの希望に反して設定音量レベルが音量レベル閾値に留められることがない。
<第1実施形態の第2変形例>
次に第1実施形態の第2変形例について説明する。上記第1実施形態では、音量レベル閾値設定部15は、音声入力部10が音量調整リクエスト音声を入力した時点での設定音量レベルにかかわらず、音量調整リクエスト音声の音圧レベルだけに着目して音量レベル閾値を設定した。この点に関し、本変形例に係る音量レベル閾値設定部15は、上記時点での設定音量レベルを加味して音量レベル閾値を設定する。以下、本変形例に係る音量レベル閾値設定部15の動作について詳述する。
音量レベル閾値設定部15は、音量レベル調整部14から音量レベル閾値の応答要求があると、設定ファイル記憶部17に記憶された設定ファイルを参照し、その時点(≒音声入力部10が音量調整リクエスト音声を入力した時点)の設定音量レベルを認識する。以下ここで認識した設定音量レベルを「入力時設定音量レベル」という。次いで音量レベル閾値設定部15は、入力時設定音量レベルが予め定められた第1閾値(一定値)より小さいか否かを判定する。次いで音量レベル閾値設定部15は、音声バッファ18に記憶されている音量調整リクエスト音声の音声データに基づいて、リクエスト音圧レベルを検出する。次いで音量レベル閾値設定部15は、リクエスト音圧レベルを音量レベルに換算した値(以下「音圧レベル換算値」という)が第2閾値(一定値)より小さいか否かを判定する。
ここで上述した第1実施形態では、音量レベル閾値設定部15は、音量レベル換算値を音量レベル閾値として設定していた。一方、本変形例に係る音量レベル閾値設定部15は、入力時設定音量レベルが第1閾値より小さく、かつ、音圧レベル換算値が第2閾値よりも小さい場合は、音量レベル閾値を、音圧レベル換算値よりも高くする。
図4は、本変形例に係る音量レベル閾値設定部15の処理の説明に利用するため、設定音量レベルの範囲を上下方向に延びる棒線によって表した図である。図4を参照し、例えば、設定音量レベルが「0」~「35」の範囲で値をとる中、第1閾値が「5」であり、第2閾値が「10」であったとする。この場合、音量レベル閾値設定部15は、入力時設定音量レベルが「5」より小さく、かつ、音圧レベル換算値が「10」より小さい場合には、音量レベル閾値を「10」とせずに(第1実施形態の場合「10」となる)、「10」に予め定められた所定値(例えば「5」)を加算した値を音量レベル閾値とする。
本変形例に係る音量レベル閾値設定部15が以上の処理を行う理由は以下である。すなわち、ユーザは、コンテンツ音声が出力されている環境で音量調整リクエスト音声を発話する場合、コンテンツ音声よりも大きな声で音量調整リクエスト音声を発話するとの意識が働き、コンテンツ音声が小さい場合には小さい声で、また、コンテンツ音声が大きい場合には大きな声で音量調整リクエスト音声を発話することが想定される。つまり、ユーザが発する音量調整リクエスト音声の大きさは、その時点の設定音量レベルの大きさに影響を受ける。従って入力時設定音量レベルが十分に小さく、かつ、音圧レベル換算値が十分に小さい場合に、音圧レベル換算値をそのまま音量レベル閾値としてしまうと、音量レベル閾値が不必要に小さくなってしまう可能性がある。音量レベル閾値が不必要に小さくなると、設定音量レベルの上昇が過剰に制限される原因となり、ユーザの満足度の低下につながる可能性がある。
これを踏まえ、本変形例に係る音量レベル閾値設定部15は、入力時設定音量レベルが第1閾値よりも小さく、かつ、音圧レベル換算値が第2閾値よりも小さい場合には、第1実施形態のように音圧レベル換算値をそのまま音量レベル閾値とせずに、音圧レベルに加算値を加算した値を音量レベル閾値とし、コンテンツ音声が小さい場合には小さい声で、また、コンテンツ音声が大きい場合には大きな声で音量調整リクエスト音声を発話するという特有の事情の下、音量レベル閾値が不必要に小さくなることを防止している。なお、本変形例において、音圧レベル換算値の値が小さいほど、加算値が大きくなるように加算値を動的に変更する構成でもよい。
<第2実施形態>
次に第2実施形態について説明する。図5は、本実施形態に係る音声処理装置1Aの機能構成例を示すブロック図である。図1と図5との比較で明らかな通り、音声処理装置1Aは、第1実施形態に係る音量レベル閾値設定部15に代えて、音量レベル閾値設定部15Aを備えている。また図5で示すように、音声処理装置1Aは、記憶部として履歴情報記憶部20を備えている。履歴情報記憶部20には履歴情報データが記憶される。履歴情報データの内容については後述する。
本実施形態に係る音量レベル閾値設定部15Aは、以下の処理を実行する。すなわち、音量レベル調整部14から音量レベル閾値の応答要求があった場合、音量レベル閾値設定部15Aは、第1実施形態と同様、音声バッファ18に格納された音量調整リクエスト音声の音声データを分析し、リクエスト音圧レベルを検出する。そして、音量レベル閾値設定部15Aは、履歴情報記憶部20に記憶された履歴情報データに、その時点の日時(日付+時刻)を示す情報と、検出したリクエスト音圧レベルとを対応付けて記録する。この結果、履歴情報データは、過去に音声入力部10が入力した音量調整リクエスト音声のそれぞれについて、日時を示す情報とリクエスト音圧レベルとが対応付けて記録された状態となる。
そして音量レベル閾値設定部15Aは、音量レベル調整部14からの応答要求に応じて、以下の方法で音量レベル閾値を設定する。すなわち、音量レベル閾値設定部15Aは、履歴情報データを参照する。次いで音量レベル閾値設定部15Aは、履歴情報データに記録されたリクエスト音圧レベルのそれぞれを対象として平均値を算出し、この平均値を音量レベル閾値とする。平均値の算出に際し、直近で音声入力部10が入力した音量調整リクエスト音声のリクエスト音圧レベルを、平均値を算出するときの要素に加えてもよく、加えなくてもよい。音量レベル閾値設定部15Aは、設定した音量レベル閾値を音量レベル調整部14に応答する。
本実施形態の構成によれば以下の効果を奏する。すなわち、第1実施形態は、直近でユーザにより発話された音量調整リクエスト音声のみが用いられて音量レベル閾値が設定されるため、何らかの理由で音量調整リクエスト音声が異常に大きな或いは小さな声で発話された場合に、音量レベル閾値が異常値となってしまう。一方で本実施形態では、音量レベル閾値は、過去に発話された音量調整リクエスト音声のリクエスト音圧レベルの平均値に基づいて定められるため、音量レベル閾値が異常値となる可能性を低減できる。
なお、本実施形態では、音量レベル閾値設定部15Aは、履歴情報データに記録された全てのリクエスト音圧レベルの単純な平均値を音量レベル閾値としたが、以下の構成でもよい。すなわち、現時点から遡って20個分のリクエスト音圧レベルというように、平均値の算出に利用するリクエスト音圧レベルの個数を限定してもよい。また、現時点に近いほど算出される値に影響を与えるような重み付けをした加重平均によって音量レベル閾値を算出する構成でもよい。
<第3実施形態>
次に第3実施形態について説明する。図6は第3実施形態に係る音声処理装置1Bの機能構成例を示すブロック図である。図6で示すように、音声処理装置1Bは、第1実施形態に係る音量レベル閾値設定部15に代えて音量レベル閾値設定部15Bを備え、また、記憶部として履歴情報記憶部20Bを備えている。
ここで、マイク5は、ユーザが発話した音声のみならず、様々な環境音を収音する。環境音は、例えば、車両のサイドウインドウが開いているときに発生する風切り音や、車両が舗装されていない道路を走行しているときに発生する走行音、車両の周辺の環境が発生する音等、様々なものが存在する。コンテンツ音声も環境音の1つである。そして、音量調整リクエスト音声の大きさは、環境音の状態に影響を受ける。一般に、ユーザは、環境音が大きいとより大きな声で音量調整リクエスト音声を発話するよう意識するからである。以上を踏まえ、本変形例に係る音量レベル閾値設定部15Bは、以下の処理を実行する。
音量レベル閾値設定部15Bは、音量レベル調整部14から音量レベル閾値の応答要求があると、第1実施形態と同様、音声バッファ18に格納された音量調整リクエスト音声の音声データに基づいて、音量調整リクエスト音声のリクエスト音圧レベルを検出する。次いで、音量レベル閾値設定部15Bは、第1~第N環境音関連状況のうち、現時点で車両が何れの状況にあるかを判定する。第1~第N環境音関連状況は、音声入力部10に入力される環境音の大きさの相違という観点で分けられた複数の状況である。以下、第1~第N環境音関連状況を総称して「環境音関連状況」という。
単純化した一例を示すと、サイドウインドウの開閉状態は環境音の大きさに影響を与える。これを踏まえ、全てのサイドウインドウが閉まっている第1環境音関連状況と、1つでもサイドウインドウが開いている(つまり第1環境音関連状況ではない)第2環境音関連状況とが事前に定義される。また例えば、車両が舗装されていない道路を走行しているか否かは環境音の大きさに影響を与えることを踏まえ、サイドウインドウの状態にかかわらず、車両が舗装されていない道路を走行している第1環境音関連状況と、車両が舗装されている道路を走行し、かつ、何れかのサイドウインドウが開いている第2環境音関連状況と、車両が舗装されている道路を走行し、かつ、全てのサイドウインドウが閉じている第3環境音関連状況とが事前に定義される。
このように、第1~第N環境音関連状況のそれぞれは、環境音の大きさに影響を与える1つ以上の要素について、各要素の状態の組み合わせ(着目される要素が1つの場合は、その要素の状態)によって、第1~第N環境音関連状況の何れに属するかが判定されるようなものとされる。なお、環境音の大きさに影響を与える要素は、例示したものの他、例えば、車両が多車線道路を走行しているか否かや、車両が閑静な住宅街を走行しているか否か、時間帯(日中、夕方、夜)、車両の乗員人数等がある。
音量レベル閾値設定部15Bは、第1~第N環境音関連状況のうち、現時点で車両が何れの状況にあるかを判定する際、環境音関連状況の判定に用いる全ての要素の状態を認識した上で、状況を判定する。例えば、上記で単純化した一例として示したように、全てのサイドウインドウが閉まっている第1環境音関連状況と、それ以外の第2環境音関連状況とが定義されている場合、音量レベル閾値設定部15Bは、サイドウインドウを制御する制御ユニットに対して問い合わせることによって、全てのサイドウインドウの状態を認識した上で、車両が第1環境音関連状況と第2環境音関連状況とのうち、いずれの状況にあるかを判定する。
リクエスト音圧レベルを検出し、かつ、車両が第1~第N環境音関連状況のうち何れの状況にあるかを判定した後、音量レベル閾値設定部15Bは、現時点の日時を示す情報と、車両の現時点の状況(第1環境音関連状況~第N状況の何れか)を識別する状況IDと、音量調整リクエストのリクエスト音圧レベルとを対応付けて履歴情報記憶部20Bに記憶された履歴情報データに記録する。この結果、履歴情報データは、過去に音声入力部10が入力した音量調整リクエストのそれぞれについて、日時を示す情報と、状況IDと、リクエスト音圧レベルとが対応付けて記録された状態となる。
そして音量レベル閾値設定部15Bは、音量レベル調整部14からの応答要求に応じて、以下の方法で音量レベル閾値を設定する。すなわち、音量レベル閾値設定部15Bは、履歴情報データを参照する。次いで音量レベル閾値設定部15Bは、履歴情報データに記録されたリクエスト音圧レベルのうち、現時点の環境音関連状況を示す状況IDと対応付けられたリクエスト音圧レベルのそれぞれを対象として平均値を算出し、この平均値を音量レベル閾値とする。現時点の環境音関連状況を示す状況IDと対応付けられたリクエスト音圧レベルはそれぞれ、過去において現時点の環境音関連状況と同じ環境音関連状況で発話された音量調整リクエスト音声のリクエスト音圧レベルである。音量レベル閾値設定部15Bは、設定した音量レベル閾値を音量レベル調整部14に応答する。
なお、平均値の算出に際し、直近で音声入力部10が入力した音量調整リクエスト音声のリクエスト音圧レベルについては平均値を算出する要素としてもしなくてもよい点や、要素の個数を限定してもよい点、加重平均を求めるようにしてもよい点は第2実施形態と同様である。
本実施形態の構成によれば以下の効果を奏する。すなわち、第2実施形態と同様、音量レベル閾値は、過去に発話された音量調整リクエスト音声のリクエスト音圧レベルの平均値に基づいて定められるため、音量レベル閾値が異常値となる可能性を低減できる。その上で、本実施形態によれば、音量調整リクエスト音声の音圧レベルの大きさは、環境音の状態に影響を受けるという特性を鑑みて、音量レベル閾値の値を、環境音の状態を反映した適切な値とすることができる。
<第4実施形態>
次に第4実施形態について説明する。図7は第4実施形態に係る音声処理装置1Cの機能構成例を示すブロック図である。図7で示すように、音声処理装置1Cは、第1実施形態に係る音量レベル閾値設定部15に代えて音量レベル閾値設定部15Cを備えている。また音声処理装置1Cは、機能構成としてユーザ特徴登録部21を備えている。また音声処理装置1Cは、記憶部として、履歴情報記憶部20Cおよびユーザ特徴記憶部22を備えている。
ここで、通常、車両には特定の人間だけでなく、様々な人間が搭乗する。そして、音量調整リクエスト音声のリクエスト音圧レベルの大きさの傾向は、人間によって異なると想定される。人によって普段の発話音声の大きさが異なるからである。以上を踏まえ、本変形例に係る音声処理装置1Cは、以下の処理を実行する。
ユーザ特徴登録部21は、ユーザ特徴記憶部22に記憶されたユーザ特徴テーブルにユーザに関する情報を登録する。詳述すると、本実施形態では自車両に搭乗する可能性があり、かつ、音声処理装置1Cを介してサービス提供サーバ3のサービスを受ける可能性があるユーザは、事前に、以下の特徴登録作業を行うことになっている。すなわち、特徴登録作業において、各ユーザは、音声処理装置1Cの動作モードを登録モードに移行させた後、ウェイクワードを発話する。ユーザ特徴登録部21は、登録モードモードにおいて各ユーザにより発話されたウェイクワードを分析し、ユーザ毎にウェイクワードの発話音声の特徴を分析する。
本実施形態ではウェイクワードの発話音声の特徴は、ウェイクワードの発話音声を構成する周波数のうち、音圧レベルが最も高い周波数(以下「ユーザ特有周波数」という)と、ウェイクワードの発話音声の長さ(以下「ユーザ特有時間長」という)とである。なお、ユーザ特有周波数は、ユーザの発話音声に特有の周波数、換言すれば、ユーザの発話音声についての特徴が最も現れやすい支配的な周波数ということができる。
ユーザ特徴登録部21は、ユーザ毎にユーザIDを生成し、ユーザIDとユーザ特有周波数とユーザ特有時間長とを対応付けて、ユーザ特徴記憶部22に記憶されたユーザ特徴テーブルに登録する。ユーザ特徴登録部21により以上の処理が行われる結果、ユーザ特徴記憶部22に記憶されたユーザ特徴テーブルには、自車両に搭乗し、音声認識サービスを利用する可能性がある人物毎に、ユーザIDとユーザ特有周波数とユーザ特有時間長とが登録された状態となる。なお、上記例では、ユーザの1回の発話に基づいて「ユーザ特有時間長」を測定する構成であったが、ユーザにウェイクワード対応音声を複数回発話させ、各サンプルの測定値から平均、その他の統計学的手法によってユーザ特有周波数およびユーザ特有時間長を測定する構成でもよい。
音量レベル閾値設定部15Cは、音量レベル調整部14から音量レベル閾値の応答要求があると、第1実施形態と同様、音声バッファ18に格納された音量調整リクエスト音声の音声データに基づいて、音量調整リクエスト音声のリクエスト音圧レベルを検出する。更に音量レベル閾値設定部15Cは、ユーザ特徴記憶部22に記憶された情報を参照した上で、音量調整リクエスト音声に先立って発話されたウェイクワード音声の音声データを分析し、ウェイクワード音声および音量調整リクエスト音声を発話したユーザのユーザIDを特定する。ユーザIDの特定は、ウェイクワード音声の音声データについて、音圧レベルが最も高い周波数とウェイクワードの発話音声の長さとが特定された上で、ユーザ特徴テーブルに登録されたユーザ特有周波数およびユーザ特有時間長との比較に基づいて行われる。
次いで音量レベル閾値設定部15Cは、現時点の日時を示す情報と、特定したユーザIDと、音量調整リクエスト音声のリクエスト音圧レベルとを対応付けて履歴情報記憶部20Cに記憶された履歴情報データに記録する。この結果、履歴情報データは、過去に音声入力部10が入力した音量調整リクエスト音声のそれぞれについて、日時を示す情報と、発話したユーザのユーザIDと、リクエスト音圧レベルとが対応付けて記録された状態となる。
そして音量レベル閾値設定部15Cは、音量レベル調整部14からの応答要求に応じて、以下の方法で音量レベル閾値を設定する。すなわち、音量レベル閾値設定部15Cは、履歴情報データを参照する。次いで音量レベル閾値設定部15Cは、履歴情報データに記録されたリクエスト音圧レベルのうち、上述した手段で特定したユーザID(音量調整リクエストを発話したユーザのユーザID)と対応付けられたリクエスト音圧レベルのそれぞれを対象として平均値を算出し、この平均値を音量レベル閾値とする。特定したユーザIDと対応付けられたリクエスト音圧レベルはそれぞれ、過去においてそのユーザIDのユーザが発話した音量調整リクエスト音声のリクエスト音圧レベルである。音量レベル閾値設定部15Cは、設定した音量レベル閾値を音量レベル調整部14に応答する。
なお、平均値の算出に際し、直近で音声入力部10が入力した音量調整リクエスト音声のリクエスト音圧レベルについては平均値を算出する要素としてもよく、しなくてもよい点や、要素の個数を限定してもよい点、加重平均を求めるようにしてもよい点は第2実施形態と同様である。
本変形例の構成によれば以下の効果を奏する。すなわち、第2実施形態と同様、音量レベル閾値は、過去に発話された音量調整リクエスト音声のリクエスト音圧レベルの平均値に基づいて定められるため、音量レベル閾値が異常値となる可能性を低減できる。その上で本変形例によれば、音量調整リクエスト音声のリクエスト音圧レベルの大きさの傾向は、人間によって異なるという特性を鑑みて、音量レベル閾値の値を、ユーザによって区分された適切な値とすることができる。
なお、第4実施形態では、事前に登録したユーザ特有周波数およびユーザ特有時間長に基づいて、音量調整リクエスト音声を発話したユーザを特定する構成であったが、ユーザを特定する方法は例示した方法に限られない。一例として、車内空間を撮影装置によって撮影し、撮影画像データを分析して、ユーザを特定する構成でもよい。
<第4実施形態の変形例>
次に第4実施形態の変形例について説明する。上記第4実施形態では、音量レベル閾値設定部15Cは、音量調整リクエスト音声を発話したユーザを特定し、そのユーザが過去に発話した音量調整リクエスト音声のリクエスト音圧レベルに基づいて音量レベル閾値を設定した。この点に関し、第3実施形態の技術を応用し、音量レベル閾値設定部15Cが以下の処理を実行する構成でもよい。
すなわち音量レベル閾値設定部15Cは、ユーザによる音量調整リクエストの発話があったときに、車両環境音関連状況とユーザIDとを特定する。次いで音量レベル閾値設定部15Cは、状況IDとユーザIDとの組み合わせと対応付けて、日時を示す情報とリクエスト音圧レベルとを履歴情報データに記録する。そして、音量レベル閾値設定部15Cは、履歴情報データにおいて特定した状況IDとユーザIDとの組み合わせと対応付けて記憶された最大音量レベルの平均値を求め、これを音量レベル閾値とする。
本変形例の構成によれば、第2実施形態と同様、音量レベル閾値は、過去に発話された音量調整リクエストのリクエスト音圧レベルの平均値に基づいて定められるため、音量レベル閾値が異常値となる可能性を低減できる。その上で本変形例によれば、環境音の状態に影響を受けるという特性、および、音量調整リクエストのリクエスト音圧レベルの大きさの傾向は、人間によって異なるという特性を鑑みて、音量レベル閾値の値を、環境音の状態を反映し、かつ、ユーザによって区分された適切な値とすることができる。
以上、本発明の実施形態(変形例を含む)を説明したが、上記各実施形態は、本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
例えば、上記第1実施形態では、音量レベルが調整される対象は、音声処理装置1自体が出力する音声であったが、音声処理装置1と通信可能に接続された他の装置が出力する音声の音量レベルが調整される対象であってもよい。他の装置は、例えばオーディオ装置や、テレビ、ラジオ等である。以上のことは他の実施形態についても同様である。
また上記第1実施形態で、サービス提供サーバ3が実行していた処理の一部または全部を音声処理装置1が実行する構成としてもよい。また音声処理装置1が実行していた処理の一部または全部をサービス提供サーバ3(サービス提供サーバ3以外の外部装置であってもよい)が実行する構成としてもよい。特に上記第1実施形態では、サービス提供サーバ3が音声認識の全部を実行する構成であったが、音声処理装置1が音声認識の一部または全部の処理を実行する構成でもよい。以上のことは他の実施形態についても同様である。
また上記第1実施形態では、音声処理装置1は車内空間に設けられていたが、音声処理装置1が設けられる空間は車内空間に限られない。一例として音声処理装置1は、オフィスや住宅の一室に設けられていてもよい。以上のことは、第2、第4実施形態についても同様である。
また上記第2実施形態では、音量レベル閾値設定部15Aは、音量レベル調整部14から応答要求があったときに、履歴情報記憶部20に記憶された履歴情報データに記録された情報を参照し、音量レベル閾値を導出する構成であった。この点に関し、音量レベル閾値設定部15Aが履歴情報記憶部20に記憶された履歴情報データの内容に基づいて事前に音量レベル閾値を導出しておき、音量レベル調整部14から応答要求がたったときに、事前に導出した音量レベル閾値を応答する構成でもよい。以上のことは第3実施形態および第4実施形態についても同様である。
また、第2実施形態では、音量レベル閾値設定部15Aは、ユーザの「リクエスト音声」に基づいて音量レベル閾値を設定した。この点に関し、音量レベル閾値設定部15Aが、リクエスト音声以外のユーザの発話音声を用いて音量レベル閾値を設定する構成でもよい。ユーザの発話音声は、例えば、音声認識サービスの利用時にユーザが発話したリクエスト音声(音量レベルの調整を指示する音声に限られない)である。リクエスト音声は例えば、車載に搭載された機器(空気調和装置や、オーディオ装置、カーナビゲーション装置)に対する制御を指示する指示であり、また例えば、音声対話においてユーザが発話した音声である。当然、ウェイクワード音声を含めるようにしてもよい。この場合、音量レベル閾値設定部15Aは、対象とする音声が入力されたときに、その音圧レベルを検出すると共に、履歴情報データに、その時点の日時を示す情報と、検出した音圧レベルとを対応付けて記録する。以上のことは、第3、第4実施形態についても同様である。
1、1A、1B、1C 音声処理装置
10 音声入力部
14 音量レベル調整部14
15、15A、15B、15C 音量レベル閾値設定部

Claims (15)

  1. ユーザの発話音声を入力する音声入力部と、
    前記音声入力部が入力した発話音声の音圧レベルに基づいて音量レベル閾値を設定する音量レベル閾値設定部と、
    放音される音声の音量レベルの調整を指示する指示音声を前記音声入力部が入力した場合、前記音声入力部が入力した指示音声についての認識結果に基づいて前記放音される音声の音量レベルを調整する音量レベル調整部とを備え、
    前記音量レベル調整部は、
    前記音声入力部が新たに指示音声を入力した場合、仮に前記音声入力部が入力した指示音声が示す指示に応じて音量レベルを調整したとした場合に設定される仮音量レベルが、前記音量レベル閾値設定部により設定された前記音量レベル閾値を超える場合、前記音量レベル閾値を超えて音量レベルが設定されることを禁止し、超えない場合、当該指示に応じて音量レベルを調整する
    ことを特徴とする音声処理装置。
  2. 前記音量レベル調整部は、前記仮音量レベルが前記音量レベル閾値を超える場合、前記放音される音声の音量レベルを前記音量レベル閾値とすることを特徴とする請求項1に記載の音声処理装置。
  3. 前記音量レベル調整部は、前記仮音量レベルが前記音量レベル閾値を超える場合、前記放音される音声の音量レベルを調整することなく、その旨警告することを特徴とする請求項1に記載の音声処理装置。
  4. 前記音量レベル調整部は、警告後、所定時間の間、前記放音される音声の音量レベルの調整に関する指示がユーザからない場合、前記音声入力部が入力した指示音声が示す指示に基づいて前記放音される音声の音量レベルを調整することを特徴とする請求項3に記載の音声処理装置。
  5. 前記音量レベル調整部は、前記音量レベル閾値を超えて前記放音される音声の音量レベルが設定されることを禁止した後、前記放音される音声の音量レベルを上げることについての明示的な指示があった場合には、当該指示に従って音量レベルを上げることを特徴とする請求項1から3の何れか1項に記載の音声処理装置。
  6. 前記音量レベル閾値設定部は、前記音声入力部が指示音声を入力したときに、その指示音声の音圧レベルに応じて、当該音圧レベルと前記音量レベル閾値とが同等となるように前記音量レベル閾値を設定することを特徴とする請求項1から5の何れか1項に記載の音声処理装置。
  7. 前記音量レベル閾値設定部は、前記音声入力部が指示音声を入力したときに、その指示音声の音圧レベルに応じて、当該音圧レベルと前記音量レベル閾値とが同等となるように前記音量レベル閾値を設定する一方、前記音声入力部が指示音声を入力したときに放音されている音声の音量レベルが一定値より小さく、かつ、指示音声の音圧レベルが一定値よりも小さい場合は、前記音量レベル閾値を、当該音圧レベルと同等の値よりも高くすることを特徴とする請求項6に記載の音声処理装置。
  8. 前記音量レベル閾値設定部は、前記音声入力部が過去に入力した1つ以上のユーザの発話音声の音圧レベルに基づいて、前記音量レベル閾値を設定することを特徴とする請求項1に記載の音声処理装置。
  9. 前記音量レベル閾値設定部は、前記音声入力部が過去に入力した1つ以上の指示音声の音圧レベルに基づいて、前記音量レベル閾値を設定することを特徴とする請求項8に記載の音声処理装置。
  10. 前記音量レベル閾値設定部は、前記音声入力部が過去に入力した複数の指示音声の音圧レベルの平均値と前記音量レベル閾値とが同等となるように、前記音量レベル閾値を設定することを特徴とする請求項9に記載の音声処理装置。
  11. 筐体が車両に設けられており、
    前記音量レベル閾値設定部は、
    前記音声入力部が指示音声を入力したときに、前記音声入力部に入力される環境音の大きさの相違という観点で分けられた複数の状況のうち、現時点で前記車両が何れの状況にあるかを判定し、状況を示す情報と、指示音声の音圧レベルとを対応付けて記憶する一方、過去に前記車両が現時点の状況と同じ状況であったときに前記音声入力部が入力した1つ以上の指示音声の音圧レベルに基づいて、前記音量レベル閾値を設定することを特徴とする請求項9に記載の音声処理装置。
  12. 前記音量レベル調整部は、過去に前記車両が現時点の状況と同じ状況であったときに前記音声入力部が入力した複数の指示音声の音圧レベルの平均値と前記音量レベル閾値とが同等となるように、前記音量レベル閾値を調整することを特徴とする請求項11に記載の音声処理装置。
  13. 前記音量レベル閾値設定部は、
    前記音声入力部が指示音声を入力したときに、指示音声を発話したユーザを特定し、ユーザを示す情報と、指示音声の音圧レベルとを対応付けて記憶する一方、特定したユーザの過去の1つ以上の指示音声の音圧レベルに基づいて、前記音量レベル閾値を設定することを特徴とする請求項9に記載の音声処理装置。
  14. 前記音量レベル調整部は、特定したユーザの過去の複数の指示音声の音圧レベルの平均値と前記音量レベル閾値とが同等となるように、前記音量レベル閾値を設定することを特徴とする請求項13に記載の音声処理装置。
  15. 音声処理装置の音声入力部が、放音される音声の音量レベルの調整を指示する指示音声を入力する第1ステップと、
    前記音声処理装置の音量レベル閾値設定部が、前記音声入力部が今回或いは過去に入力したユーザの発話音声の音圧レベルに基づいて音量レベル閾値を設定する第2ステップと、
    前記音声処理装置の音量レベル調整部が、前記音声入力部が入力した指示音声についての認識結果に基づいて前記放音される音声の音量レベルを調整する第3ステップとを含み、
    第3ステップにおいて前記音量レベル調整部は、前記音声入力部が新たに指示音声を入力した場合、仮に前記音声入力部が入力した指示音声が示す指示に応じて音量レベルを調整したとした場合に設定される仮音量レベルが、前記音量レベル閾値設定部により設定された前記音量レベル閾値を超える場合、前記音量レベル閾値を超えて音量レベルが設定されることを禁止し、超えない場合、当該指示に応じて音量レベルを調整する
    ことを特徴とする音声処理方法。
JP2020078914A 2020-04-28 2020-04-28 音声処理装置および音声処理方法 Active JP7423156B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020078914A JP7423156B2 (ja) 2020-04-28 2020-04-28 音声処理装置および音声処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020078914A JP7423156B2 (ja) 2020-04-28 2020-04-28 音声処理装置および音声処理方法

Publications (2)

Publication Number Publication Date
JP2021173910A JP2021173910A (ja) 2021-11-01
JP7423156B2 true JP7423156B2 (ja) 2024-01-29

Family

ID=78281702

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020078914A Active JP7423156B2 (ja) 2020-04-28 2020-04-28 音声処理装置および音声処理方法

Country Status (1)

Country Link
JP (1) JP7423156B2 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019131159A1 (ja) 2017-12-27 2019-07-04 ソニー株式会社 制御処理装置および制御処理方法、並びにプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019131159A1 (ja) 2017-12-27 2019-07-04 ソニー株式会社 制御処理装置および制御処理方法、並びにプログラム

Also Published As

Publication number Publication date
JP2021173910A (ja) 2021-11-01

Similar Documents

Publication Publication Date Title
US10672387B2 (en) Systems and methods for recognizing user speech
US7706551B2 (en) Dynamic volume control
JP5256190B2 (ja) オーディオ再生機器において使用される自動騒音補償のための方法および装置
US8150044B2 (en) Method and device configured for sound signature detection
CN114902688B (zh) 内容流处理方法和装置、计算机系统和介质
JP6290429B2 (ja) 音声処理システム
WO2010131470A1 (ja) ゲイン制御装置及びゲイン制御方法、音声出力装置
CN112118485B (zh) 音量自适应调整方法、系统、设备及存储介质
WO2012097150A1 (en) Automotive sound recognition system for enhanced situation awareness
US10461712B1 (en) Automatic volume leveling
EP3792918A1 (en) Digital automatic gain control method and apparatus
JP3322140B2 (ja) 車両用音声案内装置
JP4940887B2 (ja) 音声入力支援プログラム、音声入力支援装置、音声入力支援方法
KR20140060187A (ko) 음성인식시스템의 증폭율 조정장치 및 방법
US20120259441A1 (en) Dynamic setting of increments on an amplitude scale
WO2019131159A1 (ja) 制御処理装置および制御処理方法、並びにプログラム
JP7423156B2 (ja) 音声処理装置および音声処理方法
JP2002369281A (ja) 音質音量制御装置
JP2009296297A (ja) 音声信号処理装置および方法
WO2019138652A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
WO2008075305A1 (en) Method and apparatus to address source of lombard speech
JP7493875B2 (ja) 音声処理装置および音声処理方法
JP6501223B2 (ja) 電子装置、電子システム、音声出力プログラムおよび音声出力方法
JP4736837B2 (ja) 音響機器及びプログラム
US20230421125A1 (en) Adaptive sound control system and method of active sound design system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230302

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240116

R150 Certificate of patent or registration of utility model

Ref document number: 7423156

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150