JP2009246870A

JP2009246870A - 通信端末、通信端末の音声出力調整方法

Info

Publication number: JP2009246870A
Application number: JP2008093763A
Authority: JP
Inventors: Kaori Endo; 香緒里遠藤; Takashi Ota; 恭士大田; Takeshi Otani; 猛大谷; Taro Togawa; 太郎外川
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-03-31
Filing date: 2008-03-31
Publication date: 2009-10-22
Anticipated expiration: 2028-03-31
Also published as: US8751221B2; JP4968147B2; EP2107558A1; US20090248409A1

Abstract

【課題】本発明に係る通信端末は、周囲騒音の影響を反映し、かつ利用者に合わせて受話音を調整することを目的とする。
【解決手段】本実施例に係る通信端末によれば、音声入力信号を送信し、周囲雑音に応じて受話音声信号を調整し出力する通信端末において、入力される音声及び周囲雑音のレベルに応じた音声入力信号を出力するマイクと、該受話音声信号を受信する受信部と、該音声入力信号中の周囲雑音に応じた信号成分と該受話音声の信号成分との比が、所定の閾値よりも大きい場合と小さい場合のそれぞれにおける該音声入力信号を特徴づけるパラメータの統計量を求め、該統計量の差に応じて該受話音声信号を調整する音声処理部と、該調整した受話音声信号を出力するスピーカとを有することを特徴とする。

【選択図】図１

Description

通信端末において、周囲雑音を考慮して受話音声を調整する技術に関する。

携帯電話、ＩＰ電話は、周囲雑音が大きい場所においてもしばしば使用される。そのためこれら通信端末は、利用者の使用環境（端的には周囲雑音）を考慮して受話音を調整する必要がある。受話音を調整する技術として、例えば利用者の周囲雑音に応じて、受話音の音量を変える技術（ＡＧＣ：ＡｕｔｏＧａｉｎＣｏｎｔｒｏｌ）や受話音のフォルマントを強調する技術がある。

しかしながら受話音の聞きやすさは利用者の聴覚特性に依存する。そのため周囲雑音に応じて一律に受話音の音量を変えたりすることは、必ずしも利用者にとって受話音が聞きやすくなることとはならない。つまり従来の通信端末では、利用者が聞き取りにくいと感じているときにだけ受話音を調整するということができなかった。

通信端末において受話音を調整する技術を開示する文献として以下のものがある。
特開平０４−３２８７９８号公報特開２００２−１８５５７２号公報特開２００４−１６５８６５号公報

本発明に係る通信端末は、周囲雑音の影響を反映し、かつ利用者に合わせて受話音を調整することを目的とする。

本実施例に係る通信端末の一側面によれば、音声入力信号を送信し、周囲雑音に応じて受話音声信号を調整し出力する通信端末において、入力される音声及び周囲雑音のレベルに応じた音声入力信号を出力するマイクと、該受話音声信号を受信する受信部と、該音声入力信号中の周囲雑音に応じた信号成分と該受話音声の信号成分との比が、所定の閾値よりも大きい場合と小さい場合のそれぞれにおける該音声入力信号を特徴づけるパラメータの統計量を求め、該統計量の差に応じて該受話音声信号を調整する音声処理部と、該調整した受話音声信号を出力するスピーカとを有することを特徴とする。

本発明に係る通信端末によれば、周囲雑音の影響を反映し、かつ利用者の聴覚特性に合わせて受話音声の出力を調整することができる。

（第一の実施例）
［１．本実施例に係る音声伝送システムの概要］
まず図１及び図４を用いて、本実施例に係る音声伝送システム１００の概要について説明する。音声伝送システム１００は、図１２に示す通信端末１２００に実装して実現するシステムである。

通信端末１２００として、例えば携帯電話機がある。携帯電話機は周囲雑音の多い場所でも使用されることがあり、しばしば周囲雑音によって受話音が劣化する。携帯電話機（通信端末１２００）は、受話音が劣化したら一律に受話音を強調せず、利用者の聴覚特性に合わせて受話音を調整する。具体的には携帯電話機は、受話音に対する周囲雑音の割合が大きくて、それに起因して利用者が聞き取りにくいと感じている（送話音声が大きくなっている）と判定する場合には受話音を強調し、利用者が聞き取りにくいと感じていない（送話音声がほとんど変化していない）と判定する場合には受話音をそのまま出力する。これにより携帯電話機の利用者は、従来の携帯電話機に比して、より快適に通話を行うことができる。

より詳細に述べると、音声伝送システム１００における各機能（発話制御効果算出機能１０１、発話制御効果適用機能１０２）は次の処理を実行している。図１が本実施例に係る音声伝送システム１００の概要を示すブロック図である。図４に音声伝送システム１００の処理フローを示す。音声伝送システム１００は発話制御効果算出機能１０１、発話制御効果適用機能１０２、マイク１０３、受信部１０４、及びスピーカ１０５を備えている。発話制御効果算出機能１０１が発話制御効果に起因する送話音声の変化量１１１を算出し、発話制御効果適用機能１０２がその変化量１１１を適用して受話音声信号１１０を調整する。ここで発話制御効果とは、会話している人が周囲雑音などによって相手方の声を聞き取りにくい場合に、自身の発する声を変化させる現象のことをいう。そのため本実施例では受話音声に対する周囲雑音の割合に応じて、どれくらい送話音声が変化したか否かを算出する機能を発話制御効果算出機能１０１と称する。

まずマイク１０３が音１０６を受信する。マイク１０３は音信号１０７を発話制御効果算出機能１０１に出力する。音信号１０７は、音信号１０６に対応する電気信号である。また音信号１０７は周囲雑音１０８と送話音声信号１０９により構成されている。受信部１０４が受話音声信号１１０を受信する。発話制御効果算出機能１０１には、マイク１０３で受信した音１０６の音信号１０７、及び受信部１０４で受信した受話音声信号１１０が入力され、それらの信号を用いて発話制御効果によって送話音声信号１０９が変化した量（変化量）１１１を算出する（ステップＳ４０１）。発話制御効果適用機能１０２には、受信部１０４で受信した受話音声信号１１０が入力される。発話制御効果適用機能１０２が受話音声信号１１０に該変化量１１１を適用して（ステップＳ４０２）、スピーカ１０５が調整した受話音声信号１１２を出力する（ステップＳ４０３）。

以上のように音声伝送システム１００は、周囲雑音１０８に起因する送話音声信号１０９の変化量１１１を受話音声信号１１０に適用するため、受話音声を利用者にとって聞き取りやすい音声に変形することができ、従来の音声伝送システムよりも聞きやすい受話音を生成できる。

［１．１．通信端末１２００］
次に音声伝送システム１００を実装した通信端末１２００について説明する。図１２は本実施例に係る通信端末１２００のハードブロック図である。通信端末１２００は、送受信アンテナ１２０１、ベースバンド処理部１２０２、ＣＰＵ１２０３、入力部１２０４、表示部１２０５、受信部１０４、送信部１２０６、デュプレクサ１２０７、マイク１０３、およびスピーカ１０５を有している。ベースバンド処理部１２０２は復調器１２０８、通信制御部１２０９、変調器１２１０、音声処理部１２１１、インタフェース部１２１２を有している。

通信端末１２００は、送受信アンテナ１２０１を介して、他の通信端末から受話音声信号１０４を受信する。また通信端末１２００は、送受信アンテナ１２０１を介して、他の通信端末に送話音声信号１０５を送信する。そして通信端末１２００に搭載するデュプレクサ１２０７は信号の送信経路と受信経路を電気的に分離するものである。デュプレクサ１２０７は、送受信アンテナ１２０１が受信する受話音声信号１１０と送信する送話音声信号１０９を分離する。

通信端末１２００は、送受信アンテナ１２０１を介して、受信部１０４で受話音声信号１１０を受信する。受信部１０４は受話音声信号１１０をベースバンド処理部１２０２の復調器１２０８に転送する。復調器１２０８は受話音声信号１１０を復調し、通信制御部１２０９に転送する。通信制御部１２０９は復調した受話音声信号１１０を復号する。そして通信制御部１２０９は復号した受話音声信号１１０を音声処理部１２１１に転送する。

音声処理部１２１１は、発話制御効果算出機能１０１の処理と発話制御効果適用機能１０２の処理を実現するものである。図１３に音声処理部１２１１の機能ブロック図を示す。音声処理部１２１１は発話制御効果算出機能１０１と発話制御効果適用機能１０２を有している。そして発話制御効果算出機能１０１は周囲雑音分離機能３０１、特徴量算出機能３０２、受話音声算出機能３０３、通常統計量算出機能３０４、劣化統計量算出機能３０５、変化量算出機能３０６を有している。音声処理部１２１１が有するこれらの機能は図１、図３に示すように連携して受話音声信号１１０を調整する。概略的には音声処理１２１１は以下の処理を実行する。まず音声処理部１２１１は、インタフェース部１２１２を介してマイク１０３が出力する音信号１０７を受信し、また受信部１０４で受信した受話音声信号１１０を受信する。そして音声処理部１２１１は発話制御効果算出機能１０１、発話制御効果適用機能１０２の処理を実行し、通信端末１２００はスピーカ１０５より調整した受話音声信号１１２を出力する。発話制御効果算出機能１０１、発話制御効果適用機能１０２の詳細な処理については、図３、図６、図７を用いて後述する。

ＣＰＵ１２０３は通信プロトコルの制御や通信端末１２００に搭載するアプリケーションの実行制御を行う。

入力部１０４は通信端末１２００のユーザがキー入力を操作するユニットである。また表示部１２０５は通信端末１２００の操作画面やコンテンツを表示するディスプレイである。

［２．通信端末１２００の利点］
本実施例に係る通信端末１２００は、上記に示すような利用者の聴覚特性に合わせて受話音声を調整できるといった従来の通信端末と比較して有利な効果を有している。この有利な効果は音声処理部１２１１が有する機能によって実現している。従い以下、その機能である発話制御効果算出機能１０１、発話制御効果適用機能１０２の構成及び実行する処理について説明する。

［３．発話制御効果算出機能１０１］
図３は、本実施例に係る発話制御効果算出機能１０１の構成を示す機能ブロック図である。発話制御効果算出機能１０１はハード的に音声処理部１２１１が実現する機能であり、発話制御効果算出機能１０１を構成する機能も音声処理部１２１１が実現する機能である。発話制御効果算出機能１０１は、周囲雑音分離機能３０１、特徴量算出機能３０２、受話音声劣化度算出機能３０３、通常統計量算出機能３０４、劣化統計量算出機能３０５、変化量算出機能３０６を有している。また図６は発話制御効果算出機能１０１が実行する処理を示すフローチャートである。

周囲雑音分離機能３０１に音信号１０７が入力される。音信号１０７は周囲雑音１０８と送話音声信号１０９より構成されている。周囲雑音分離機能３０１は、音信号１０７を送話音声信号１０９と周囲雑音１０８に分離する。本実施例において周囲雑音分離機能３０１は、周囲雑音１０８と送話音声信号１０９のＳＮＲを推定する。そして周囲雑音分離機能３０１はＳＮＲに応じて送話音声信号１０９のパワースペクトルにゲインをかけて周囲雑音１０８と分離する（ステップＳ６０１）。より具体的には、周囲雑音分離機能３０１は、受信する音信号１０７のフレームを時間分割する。周囲雑音分離機能３０１は送話音声信号１０９が有する周期性から送話音声信号１０９を推定する。周囲雑音分離機能３０１は送話音声信号１０９を含まない時間分割フレームの情報から周囲雑音１０８を推定する。そして周囲雑音分離機能３０１は受信した音信号１０７を周囲雑音１０８と送話音声信号１０９に分離する。

特徴量算出機能３０２には、送話音声信号１０９を入力され、その入力された送話音声信号１０９の特徴量３０７を算出する（ステップ６０２）。

受話音声劣化度算出機能３０３は、周囲雑音１０８と受話音声信号１１０が入力される。そして受話音声劣化度算出機能３０３は、劣化度を算出する（ステップＳ６０３）。劣化度は受話音声信号１１０が周囲雑音１０８の影響で聞こえにくくなった程度を示すものである。例えば劣化度は、受話音声信号１１０と周囲雑音１０８とのパワー（音量）の比である。この劣化度は、ユーザが聞き取る受話音声信号１１０と周囲雑音１０８との割合を示すものである。受話音声劣化度算出機能３０３は受話音声信号１１０の劣化度を受話音声信号１１０と周囲雑音１０８のＳＮＲが小さいほど受話音声信号１１０の劣化度が大きくなるように算出する。たとえば劣化度＝―ＳＮＲ、ＳＮＲ＝受話音声信号１１０のパワー（ｄＢ）―周囲雑音１０８のパワー（ｄＢ）とする。また受話音声劣化度算出機能３０３は、劣化度を受話音声信号１１０と周囲雑音１０８をフーリエ変換等の時間周波数変換を行い、帯域毎に算出したＳＮＲの平均値から算出してもよい。受話音声劣化度算出機能３０３は受話音声信号１１０の劣化度に応じて、通常統計量算出機能３０４か劣化統計量算出機能３０５のいずれかを実行する。換言すれば受話音声劣化度算出機能３０３は、受話音声信号１１０に対する周囲雑音１０８の割合が予め定めた閾値以上か否かを判別する。受話音声劣化度算出機能３０３は、受話音声信号１１０に対する周囲雑音１０８の割合が予め定めた閾値以上か否かの結果に応じて、通常統計量算出機能３０４か劣化統計量算出機能３０５のいずれかを実行する。受話音声劣化度算出機能３０３は、受話音声信号１１０の劣化度が所定の閾値以上であるか否かを判別する（Ｓ６０４）。閾値は予め与えておくものとする。

受話音声劣化度算出機能３０３が受話音声信号１１０の劣化度は閾値以上と判別する場合（ステップＳ６０４ＹＥＳ）、劣化統計量算出機能３０５を実行し、特徴量算出機能３０２が送話音声信号１０９の特徴量３０７を劣化統計量算出機能３０５に入力する。そして劣化統計量算出機能３０５は現フレームの送話音声信号１０９の該特徴量３０７の統計量を算出する（ステップＳ６０５）。劣化統計量算出機能３０５は、現フレームの該特徴量３０７を劣化統計量算出機能３０５が現フレームの送話音声信号１０９の該特徴量３０７を受信する前に算出した統計量に新たに追加し、平均、分散、平均の標準誤差、平均値の９５％信頼区間を算出する。送話音声信号１０９の特徴量が複数種類ある場合には、劣化統計量算出機能３０５はそれぞれについて同様の処理を行う。劣化統計量算出機能３０５が算出する統計量は、受話音声信号１１０が劣化した場合における送信音声信号１０４の特徴量３０７の統計量であり、以下劣化統計量３０８と呼ぶ。受話音声劣化度算出機能３０３が受話音声信号１１０の劣化度は閾値未満と判別する場合（ステップＳ６０４ＮＯ）、通常統計量算出機能３０４を実行し、特徴量算出機能３０２が送話音声信号１０９の特徴量３０７を通常統計量算出機能３０４に入力する。そして通常統計量算出機能３０４は該特徴量３０７の統計量を算出する（ステップＳ６０６）。通常統計量算出機能３０４は、現フレームの該特徴量３０７を通常統計量算出機能３０４が現フレームの送話音声信号１０９の該特徴量３０７を受信する前に算出した統計量に新たに追加し、平均、分散、平均の標準誤差、平均値の９５％信頼区間を算出する。送話音声信号１０９の特徴量が複数種類ある場合には、通常統計量算出機能３０４はそれぞれについて同様の処理を行う。通常統計量算出機能３０４が算出する統計量は、受話音声信号１１０が劣化していない判別される場合における送信音声信号１０４の特徴量３０７の統計量であり、以下通常統計量３０９と呼ぶ。

変化量算出機能３０６は該特徴量３０７の変化量１１１を算出する（ステップＳ６０７）。通常統計量算出機能３０４は通常統計量３０８を変化量算出機能３０６に入力する。劣化統計量算出機能３０５は劣化統計量３０９を変化量算出機能３０６に入力する。変化量算出機能３０６は通常統計量３０８と劣化統計量３０９を比較して変化量３１０を算出する。

本実施例では送話音声信号１０９の特徴量３０７の統計量（通常統計量３０８、劣化統計量３０９）は、平均・分散・標本数、平均の標準誤差、標準偏差、９５％信頼区間とする。変化量算出機能３０６は、通常統計量３０８と劣化統計量３０９を比較し、通常統計量３０８と劣化統計量３０９に差があるかどうかを判定する。変化量算出機能３０６が通常統計量３０８と劣化統計量３０９の９５％信頼区間が互いに交わると判定した場合は、統計的に有意な差がないと判定し、変化量１１１を「０」として送話音声信号１０９を出力する。変化量算出機能３０６が通常統計量３０８と劣化統計量３０９の９５％信頼区間が互いに交わらないと判定した場合は、受話音声信号１１０の劣化に関連して送話音声信号１０９の特徴量３０７が変化したと判定して、受話音声信号１１０の劣化時における特徴量３０７の平均値と受話音声信号１１０の劣化していないときにおける（通常時）の特徴量３０７の平均値の差を変化量１１１として出力する（ステップＳ６０８）。
なお平均の９５％信頼区間の代わりに平均の９９％信頼区間を使用するなどとしても良い。９５％信頼区間は（１）式で算出する。９５％信頼区間を示す（１）式に含まれるＳＥ、ｍはそれぞれ（２）、（３）、（４）式で算出する。

ｍは平均値、ｋは標本数によって決まる定数(標本数が∞の場合、１．９６)、ＳＥは平均の標準誤差、ＳＤは標準偏差、ｎは標本数である。

［４．特徴量３０７］
次に特徴量算出機能３０２が算出する特徴量３０７についてより具体的に説明する。本実施例に係る特徴量３０７は以下の送話音声信号１０９のパワー、パワーのダイナミックレンジ、パワースペクトルの傾き、話速、間の長さ、ピッチ周波数、ピッチ周波数のダイナミックレンジ、母音の長さより構成される。

［４．１．送話音声信号１０９のパワー］
特徴量３０７の送話音声信号１０９のパワーについて説明する。

特徴量３０７は送話音声信号１０９のパワーを（５）式で算出する。

ｐはフレーム電力（ｄＢ）、Ｎはフレームのサンプル数、ｘｉはｉ番目のサンプルの振幅である。

［４．２．送話音声信号１０９のパワーのダイナミックレンジ］
特徴量３０７の送話音声信号１０９のパワーのダイナミックレンジついて説明する。

特徴量３０７は送話音声信号１０９のパワーのダイナミックレンジ（ｐ＿ｒａｎｇｅ）を（６）式で算出する。

ｐｊはｊ番目のフレームパワー（ｄＢ）である。ｔは現フレームＭはダイナミックレンジの観測区間のフレーム数である。ｍａｘ（）は区間内の最大値を出力する関数、ｍｉｎ（）は区間内の最小値を出力する関数である。

［４．３．送話音声信号１０９のパワースペクトルの傾き］
特徴量３０７の送話音声信号１０９のパワースペクトルの傾きついて説明する。

（１）特徴量算出機能３０２は周囲雑音１０８を除去した送話音声信号１０９を時間周波数変換してパワースペクトルを算出する。時間周波数変換はフーリエ変換等の方法である。

（２）特徴量算出機能３０２はパワースペクトルの傾きを算出する。

特徴量算出機能３０２は各周波数毎のパワースペクトルを(ｘｉ,ｙｉ)で表わし、最小二乗法で一次関数を当てはめた際の傾きとしてパワースペクトルの傾きを算出する。

ｘｉはｉ番目のパワースペクトルの周波数（Ｈｚ）であり、ｙｉはｉ番目のパワースペクトルの大きさ（ｄＢ）である。

［４．４．送話音声信号１０９の話速］
特徴量３０７の送話音声信号１０９の話速について説明する。

特徴量算出機能３０２は入力音声の母音を検出し、所定時間内の母音の数をカウントして、その母音の数より話速を算出する。

［４．５．送話音声信号１０９の間の長さ］
特徴量３０７の送話音声信号１０９の間の長さについて説明する。

（１）特徴量算出機能３０２は周囲雑音１０８を除去した送話音声信号１０９の音声検出処理を行う。特徴量算出機能３０２はフレームパワーを閾値と比較して検出する。閾値はフレームパワーの長期平均である。

（２）特徴量算出機能３０２は無音区間の連続長を間の長さとして算出する。

［４．６．送話音声信号１０９のピッチ周波数］
特徴量３０７の送話音声信号１０９の間のピッチ周波数について説明する。

特徴量算出機能３０２はピッチ周波数を（８）式によって算出する。また特徴量算出機能３０２はずらし位置がａの場合の相関係数を（７）式によって算出する。

Ｘは入力信号、Ｍは相関係数を算出する区間の長さ（サンプル）、ａは相関係数を算出する信号の開始位置、ｐｉｔｃｈはピッチ周波数（Ｈｚ）、ｃｏｒｒ(ａ)はずらし位置がaの場合の相関係数、ａ＿ｍａｘは最大相関係数に対応するa、ｉは信号のインデックス(サンプル)、ｆｒｅｑはサンプリング周波数（Ｈｚ）である。

［４．７．送話音声信号１０９のピッチ周波数のダイナミックレンジ］
特徴量３０７の送話音声信号１０９のピッチ周波数のダイナミックレンジについて説明する。

特徴量算出機能３０２はピッチ周波数のダイナミックレンジを（９）式によって算出する。

p_rangeはピッチ周波数のダイナミックレンジ（Ｈｚ）、pjはｊ番目のピッチ周波数（Ｈｚ）である。ｔは現フレーム、Ｍはダイナミックレンジの観測区間のフレーム数、max()は区間内の最大値を出力する関数であり、min()は区間内の最小値を出力する関数である。

［４．８．送話音声信号１０９の母音の長さ］
特徴量３０７の送話音声信号１０９の母音の長さについて説明する。

特徴量算出機能３０２は送話音声信号１０９の母音の長さを算出する。入力（周囲雑音を除去した送話音）の母音検出処理を行う。

（１）特徴量算出機能３０２はピッチ相関（corr(a_max))を算出し、予め与えた閾値と比較し、閾値以上大きい場合に現フレームを母音と判定する。

（２）特徴量算出機能３０２は母音の長さ（フレーム）を母音区間の連続長として算出する。

［５．発話制御効果適用機能１０２］
次に発話制御効果適用機能１０２の処理について説明する。図７は本実施例に係る発話制御効果適用機能１０２が実行する処理のフローチャートである。図７に示すように本実施例において、発話制御効果適用機能１０２が受話音声信号１１０に適用する変化量１１１は、パワーの変形量７１、パワーのダイナミックレンジ７２、スペクトルの傾き７３、話速の変形量７４、間の長さ７５、ピッチ周波数の変形量７６、ピッチ周波数のダイナミックレンジ７７、及び母音の長さの変形量７８より構成される。

発話制御効果適用機能１０２は変化量１１１を構成するこれら変形量７１〜７８を図７に示す処理フローに従い受信音声信号１０５に適用する。

発話制御効果算出機能１０１が変化量１１１を発話制御効果適用機能１０２に入力する。本実施例において発話制御効果算出機能１０１は変化量１１１を構成する変形量７１〜７８を順に発話制御効果適用機能１０２に入力する。

発話制御効果適用機能１０２はパワーの変形量７１を受信する（ステップＳ７０１）。

発話制御効果適用機能１０２はパワーの変形量７１が閾値以上か否かを判別する（ステップＳ７０２）。閾値７９は予め定めておくものとする。発話制御効果適用機能１０２がパワーの変形量７１が閾値７９以上と判別する場合（ステップＳ７０２ＹＥＳ）、発話制御効果適用機能１０２はパワーの変形量７１を受信音声信号１０５に適用する（ステップＳ７０３）。発話制御効果適用機能１０２がパワーの変形量７１が閾値７９よりも小さいと判別する場合（ステップＳ７０２ＮＯ）、発話制御効果適用機能１０２はパワーのダイナミックレンジの変形量７２を受信する（ステップＳ７０４）。

発話制御効果適用機能１０２はパワーのダイナミックレンジの変形量７２が閾値８０以上であるか否かを判別する（ステップＳ７０５）。閾値８０は予め定めておくものとする。発話制御効果適用機能１０２がパワーのダイナミックレンジの変形量７２が閾値８０以上であると判別する場合（ステップＳ７０５ＹＥＳ）、発話制御効果適用機能１０２はパワーのダイナミックレンジの変形量７２を受信音声信号１０５に適用する（ステップＳ７０６）。発話制御効果適用機能１０２がパワーのダイナミックレンジの変形量７２が閾値８０よりも小さいと判別する場合（ステップＳ７０５ＮＯ）、発話制御効果適用機能１０２はスペクトルの傾きの変形量７３を受信する（ステップＳ７０７）。

発話制御効果適用機能１０２はスペクトルの傾きの変形量７３が閾値８１以上であるか否かを判別する（ステップＳ７０８）。閾値８１は予め定めておくものとする。発話制御効果適用機能１０２がスペクトルの傾きの変形量７３が閾値８１以上であると判別する場合（ステップＳ７０８ＹＥＳ）、発話制御効果適用機能１０２はスペクトルの傾きの変形量７３を受信音声信号１０５に適用する（ステップＳ７０９）。発話制御効果適用機能１０２はスペクトルの傾きの変形量７３が閾値８１よりも小さいと判別する場合（ステップＳ７０８ＮＯ）、発話制御効果適用機能１０２は話速の変形量７４を受信する（ステップＳ７１０）。発話制御効果適用機能１０２は話速の変形量７４が閾値８２以上であるか否かを判別する（ステップＳ７１１）。閾値８２は予め定めておくものとする。発話制御効果適用機能１０２が話速の変形量７４が閾値８２以上であると判別する場合（ステップＳ７１１ＹＥＳ）、発話制御効果適用機能１０２は話速の変形量７４を受信音声信号１０５に適用する（ステップＳ７１２）。発話制御効果適用機能１０２は話速の変形量７４が閾値８２よりも小さいと判別する場合（ステップＳ７１１ＮＯ）、発話制御効果適用機能１０２は間の長さの変形量７５を受信する（ステップＳ７１３）。

発話制御効果適用機能１０２は間の長さの変形量７５が閾値８３以上であるか否かを判別する（ステップＳ７１４）。閾値８３は予め定めておくものとする。発話制御効果適用機能１０２が間の長さの変形量７５が閾値８３以上であると判別する場合（ステップＳ７１４ＹＥＳ）、発話制御効果適用機能１０２は間の長さの変形量７５を受信音声信号１０５に適用する（ステップＳ７１５）。発話制御効果適用機能１０２は間の長さの変形量７５が閾値８３よりも小さいと判別する場合（ステップＳ７１４ＮＯ）、発話制御効果適用機能１０２はピッチ周波数の変形量７６を受信する（ステップＳ７１６）。

発話制御効果適用機能１０２はピッチ周波数の変形量７６が閾値８４以上であるか否かを判別する（ステップＳ７１７）。閾値８４は予め定めておくものとする。発話制御効果適用機能１０２がピッチ周波数の変形量７６が閾値８４以上であると判別する場合（ステップＳ７１７ＹＥＳ）、発話制御効果適用機能１０２はピッチ周波数の変形量７６を受信音声信号１０５に適用する（ステップＳ７１８）。発話制御効果適用機能１０２はピッチ周波数の変形量７６が閾値８４よりも小さいと判別する場合（ステップＳ７１７ＮＯ）、発話制御効果適用機能１０２はピッチ周波数のダイナミックレンジの変形量７７を受信する（ステップＳ７１９）。

発話制御効果適用機能１０２はピッチ周波数のダイナミックレンジの変形量７７が閾値８５以上であるか否かを判別する（ステップＳ７２０）。閾値８５は予め定めておくものとする。発話制御効果適用機能１０２がピッチ周波数のダイナミックレンジの変形量７７が閾値８５以上であると判別する場合（ステップＳ７２０ＹＥＳ）、発話制御効果適用機能１０２はピッチ周波数のダイナミックレンジの変形量７７を受信音声信号１０５に適用する（ステップＳ７２１）。発話制御効果適用機能１０２はピッチ周波数のダイナミックレンジの変形量７７が閾値８５よりも小さいと判別する場合（ステップＳ７２０ＮＯ）、発話制御効果適用機能１０２は母音の長さの変形量７８を受信する（ステップＳ７２２）。

発話制御効果適用機能１０２は母音の長さの変形量７８が閾値８６以上であるか否かを判別する（ステップＳ７２３）。閾値８６は予め定めておくものとする。発話制御効果適用機能１０２が母音の長さの変形量７８が閾値８６以上であると判別する場合（ステップＳ７２３ＹＥＳ）、発話制御効果適用機能１０２は母音の長さの変形量７８を受信音声信号１０５に適用し（ステップＳ７２４）、処理を終了する。発話制御効果適用機能１０２は母音の長さの変形量７８が閾値８６よりも小さいと判別する場合（ステップＳ７２３ＮＯ）、処理を終了する。
［６．発話制御効果適用機能１０２の実施形態］
次に発話制御効果適用機能１０２の各変形量７１〜７８の受話音声信号１１０への具体的な適用について説明する。

まず発話制御効果適用機能１０２が実行するパワーの変形量７１の適用処理について説明する。
（１）発話制御効果適用機能１０２は受話音声信号１１０のパワーを算出する。本実施例では、発話制御効果適用機能１０２はｄＢ値で計算する。
（２）発話制御効果適用機能１０２は受話音声信号１１０のパワーにパワー変形量７１を加える。発話制御効果適用機能１０２は送話音声信号１０９の変形量７１の分だけ受話音声信号１１０のパワーを増減する。発話制御効果適用機能１０２は変形量７１に所定の係数値を掛け、所定の割合で受話音声信号１１０のパワーを増減してもよい。

具体的には発話制御効果適用機能１０２は受話音声信号１１０の振幅pr’（１０）式を用いて算出する。

pr’は変形量７１を適用した受話音声信号１１０のパワー（ｄＢ）、prは受話音声信号１１０のパワー（ｄＢ）、Δpはパワーの変化量７１（ｄＢ）である。

発話制御効果適用機能１０２は、受話音声信号１１０に変形量７１を加算して受話音声信号１１０を調整する。

次に発話制御効果適用機能１０２が実行するパワーのダイナミックレンジの変形量７２の適用処理について説明する。
（１）発話制御効果適用機能１０２は受話音声信号１１０のパワーのダイナミックレンジpr_rangeを（１１）式を用いて算出する。

pr_rangeはパワーのダイナミックレンジ、prjは受話音声信号１１０のj番目のフレームパワー、tは現フレーム、Mはダイナミックレンジの観測区間のフレーム数、max()は区間内の最大値を出力する関数、min()は区間内の最小値を出力する関数である。
（２）発話制御効果適用機能１０２は受話音声信号１１０のパワーのダイナミックレンジをパワーのダイナミックレンジの変形量７２を適用する。図８はパワーのダイナミックレンジの変形量７２の適用処理を模式的に示した図である。パワーのダイナミックレンジは、所定の観測区間におけるパワーの最大値からパワーの最小値を減じたものである。パワーのダイナミックレンジは、パワーが示す音のメリハリを示す。図８はパワーのダイナミックレンジ内における現フレームのパワーの大きさを示している。

発話制御効果適用機能１０２は（１２）式を用いて、受話音声信号１１０の現フレームのパワーにパワーのダイナミックレンジの変形量７２を適用して、受話音声信号１１０のパワーpr’（ｄＢ）を算出する。

pr’は変形量７２を適用後の受話音声信号１１０のパワー（ｄＢ）、minは受話音声信号１１０の最小パワー（ｄＢ）、prは受話音声信号１１０のパワー（ｄＢ）、Δpはパワーの変化量７２（ｄＢ）である。図８に示すように、発話制御効果適用機能１０２は、パワーのダイナミックレンジに変形量７２を適用する前における現フレームの大きさ８０１とパワーのダイナミックレンジに変形量７２を適用した後における現フレームの大きさ８０２が相対的に同じになるように（１２）式により調整する。つまり変形量７２を適用前のパワーのダイナミックレンジ内での現フレームの大きさ８０１の位置と変形量７２を適用後のパワーのダイナミックレンジ内での現フレームの大きさ８０２の位置とが相対的に同じになるように、発話制御効果適用機能１０２は調整する。

次に発話制御効果適用機能１０２が実行するスペクトル傾きの変形量７３の適用処理について説明する。図９はスペクトル傾きの変形量７３の適用処理を模式的に示した図である。スペクトル傾きとは、受話音声信号１１０はパワースペクトルの時間周波数に対する傾きである。一般に人間は時間周波数が高域のパワーが大きいほど聞きやすい。そのため発話制御効果適用機能１０２はスペクトル傾きを調整し高域のパワーを大きくすることによって、受話音声信号１１０を聞きやすく調整することができる。
（１）発話制御効果適用機能１０２は受話音声信号１１０のパワースペクトルを算出する。パワースペクトルはパワーのそれぞれにおける周波数成分である。発話制御効果適用機能１０２は受話音声信号１１０のパワースペクトルを時間周波数変換する。
（２）発話制御効果適用機能１０２は受話音声信号１１０のパワースペクトルの傾きを算出する。
（３）発話制御効果適用機能１０２は受話音声信号１１０のパワースペクトルpr_i’を（１３）式に示すように修正する。

pr_i’は受話音声信号１１０のパワースペクトルの傾きの変化量７３を適用後のi番目の帯域のパワースペクトル、Δaはパワースペクトルの傾きの変形量７３（ｄＢ）、iはパワースペクトルの帯域のインデックスである。
（４）発話制御効果適用機能１０２は（１３）式により算出し修正した受話音声信号１１０のパワースペクトルを周波数時間変換する。

次に発話制御効果適用機能１０２が実行する話速の変形量７４の適用処理について説明する。
（１）発話制御効果適用機能１０２は受話音声信号１１０の話速を算出する。たとえば話速は以下のように算出する。発話制御効果適用機能１０２は受話音声信号１１０中の母音を検出する。例えば通信端末１２００は、母音と子音の標準パターンをメモリ（図１２には図示せず）などに記憶しておく。そして発話制御効果適用機能１０２は検出した音とメモリに記憶している標準パターンを比較する。発話制御効果適用機能１０２は標準パターンの中から、検出した音と最もユークリッド距離が短い音を選択することによって検出した音が母音か否か判定し、これより母音を検出する。発話制御効果適用機能１０２は所望の時間区間内における母音の数を所望の時間区間内における音節数に置き替える。発話制御効果適用機能１０２はその置き替えた所望の時間区間内における音節数を所望の時間区間における受話音声信号１０２から除して話速（speed）を算出する。
（２）発話制御効果適用機能１０２は受話音声信号１１０の話速speed’を（１４）式を用いて調整する。

speedは変形量７４を適用前の受話音声信号１１０の話速、Δspeedは話速（speed）の変形量７４、speed’は変形量７４を適用後の受話音声信号１１０の話速である。発話制御効果適用機能１０２は受話音声信号１１０の話速（speed）の周期性を判定する。そして発話制御効果適用機能１０２は受話音声信号１１０の一周期を多く繰り返したり少なく繰り返したりすることによって、受話音声信号１１０の話速（speed）を調整する。

次に発話制御効果適用機能１０２が実行する間の長さの変形量７５の適用処理について説明する。図１０は間の長さの変形量７５の適用処理について模式的に示した図である。
（１）発話制御効果適用機能１０２は受話音声信号１１０の間の長さ（図１０に記載のＴ１,Ｔ２,Ｔ３,Ｔ４,Ｔ５）を算出する。例えば発話制御効果適用機能１０２は受話音声信号１１０のフレームパワーを閾値（例えばフレームパワーの長期平均）と比較する。そして発話制御効果適用機能１０２が受話音声信号１１０のフレームパワーが閾値以下と判定する区間の長さを間の長さとして算出する。また発話制御効果適用機能１０２は受話音声信号１１０に含まれる周期性がない区間を無音声区間として算出してもよい。発話制御効果適用機能１０２が受話音声信号１１０のフレームパワーが閾値よりも大きいと判定する区間は、図１０に記載の受話音声信号１１０の有音声区間１００１〜１０１２である。有音声区間１００７〜１０１２はそれぞれ、有音声区間１００１〜１００６に対応する有音声区間である。
（２）受話音声信号１１０の間の長さを（１５）式を用いて算出する。

pauseは変形量７５の適用前の受話音声信号１１０の間の長さ、Δpauseは間の長さの変形量７５、pause’は変形量７５の適用後の受話音声信号１１０の間の長さである。

発話制御効果適用機能１０２は受話音声信号１１０の間が終了した後にΔpause７５を追加して間の長さを調整する。発話制御効果適用機能１０２が調整した間の長さは、図１０に記載のＴ’１,Ｔ’２,Ｔ’３,Ｔ’４,Ｔ’５である。発話制御効果適用機能１０２が、変形量７５を間の長さＴ１,Ｔ２,Ｔ３,Ｔ４,Ｔ５に適用して、間の長さＴ’１,Ｔ’２,Ｔ’３,Ｔ’４,Ｔ’５を算出する。なお発話制御効果適用機能１０２は無音区間が一定の長さより長くならないように調整する。発話制御効果適用機能１０２が間の長さを調整して無音区間が長くなると元の受話音声信号１１０からの時間遅れが大きくなり、その遅延が著しく大きくならないようにするためである。発話制御効果適用機能１０２は無音区間が一定の長さ以上になるか否かを判定し、無音区間が一定の長さ以上と判定した場合はその無音区間を短縮して時間遅延を解消する。例えば図１０の記載の間の長さＴ３が、発話制御効果適用機能１０２が一定の長さ以上と判定した間の長さ（無音区間）である。発話制御効果適用機能１０２は間の長さＴ３を間の長さＴ’３に短縮する。

次に発話制御効果適用機能１０２が実行するピッチ周波数の変形量７６の適用処理について説明する。

（１）発話制御効果適用機能１０２は受話音声信号１１０のピッチ周波数を算出する。ピッチ周波数は音の抑揚を示す物理量である。発話制御効果適用機能１０２は、（７）、（８）式より算出する。つまり（７）式で示す相関係数が最大になる周波数がピッチ周波数である。

（２）発話制御効果適用機能１０２は受話音声信号１１０のピッチ周波数pitch’を（１６）式を用いて算出する。

pitchは変形量７６を適用前の受話音声信号１１０のピッチ周波数、Δpitchはピッチ周波数の変化量７６、pitch’は適用後の受話音声信号１１０のピッチ周波数である。受話音声信号１１０のピッチ周波数にピッチ周波数の変化量７６を加算してピッチ周波数を調整する。ピッチが高くなるほど受話音声信号１１０の音は高くなる。

次に発話制御効果適用機能１０２が実行するピッチ周波数のダイナミックレンジpitch_r_rangeの変形量７７の適用処理について説明する。図１１はピッチ周波数のダイナミックレンジの変形量７７の適用処理について模式的に示した図である。

（１）受話音声信号１１０のピッチ周波数のダイナミックレンジを（１７）式を用いて算出する。

pitch_r_rangeは受話音声信号１１０のピッチ周波数のダイナミックレンジ、pitch_rjは受話音声信号１１０のｊ番目のフレームのピッチ周波数、tは現フレーム、Ｍはダイナミックレンジの観測区間のフレーム数、max()は区間内の最大値を出力する関数、min()は区間内の最小値を出力する関数である。

（２）発話制御効果適用機能１０２は受話音声信号１１０のピッチ周波数のダイナミックレンジをピッチ周波数のダイナミックレンジの変化量７７だけ修正する。

発話制御効果適用機能１０２は受話音声信号１１０の現フレームのピッチ周波数にピッチ周波数のダイナミックレンジの変形量７７を適用する。発話制御効果適用機能１０２はpitch_r’となるように受話音声信号１１０のピッチ周波数を（１８）式を用いて算出する。

pitch_r’は適用後の受話音声信号１１０のピッチ周波数（Ｈｚ）、 pitch_minは受話音声信号１１０の最小ピッチ周波数（Ｈｚ）、pitch_rは受話音声信号１１０のピッチ周波数（Ｈｚ）、Δpitch_rangeはピッチ周波数のダイナミックレンジの変化量７７（Ｈｚ）である。図１１に示すように、発話制御効果適用機能１０２は、ピッチ周波数のダイナミックレンジに変形量７７を適用する前における現フレームのピッチ周波数１１０１とピッチ周波数のダイナミックレンジに変形量７７を適用した後における現フレームのピッチ周波数１１０２が相対的に同じになるように（１８）式により調整する。つまり変形量７７を適用前のピッチ周波数のダイナミックレンジ内での現フレームのピッチ周波数１１０１の位置と変形量７７を適用後のピッチ周波数のダイナミックレンジ内での現フレームのピッチ周波数１１０２の位置とが相対的に同じになるように、発話制御効果適用機能１０２は調整する。

次に発話制御効果適用機能１０２が実行する母音の変形量７８の適用処理について説明する。
（１）発話制御効果適用機能１０２は受話音声信号１１０の母音長を算出する。
（２）発話制御効果適用機能１０２は受話音声信号１１０の母音長に母音長の変形量７８を加算する。発話制御効果適用機能１０２は受話音声信号１１０の母音の長さvl’を（１９）式を用いて算出する。

vlは適用前の受話音声信号１１０の母音長(フレーム)、vl’は適用後の受話音声信号１１０の母音長(フレーム)、Δvlは母音長の変化量(フレーム)である。

発話制御効果適用機能１０２は母音の長さを、母音区間と判定された区間で、話速がvl’/ vl 倍となるように変換する。

（第二の実施形態）
［７．音声伝送システム２００の概要］
次に発話制御効果を反映した音声出力の調整の他の実施形態について説明する。図２本実施例に係る音声伝送システム２００の概要を示すブロックである。

音声伝送システム２００は発話制御効果算出機能２０１、発話制御効果適用機能２０２、発話制御効果判定機能２０８、マイク（ＭＩＫＥ）２１１、受信部２０５、及びスピーカ（ＳＰＥＡＫＥＲ）２１２を備えている。音声伝送システム２００も通信端末１２００に相当する通信端末において実現可能な処理システムである。音声処理部１２１１に相当する音声処理部２０７が発話制御効果算出機能２０１、発話制御効果適用機能２０２、発話制御効果判定機能２０８の処理を実現するユニットである。

発話制御効果算出機能２０１、発話制御効果適用機能２０２は実施例１の発話制御効果算出機能２０１、発話制御効果適用機能１０２と同等の構成である。

本実施例における音声伝送システム２００は、発話制御効果判定機能２０８を有している点において音声伝送システム１００と異なる。従い以下発話制御効果判定機能２０８に重点をおいて説明する。

発話制御効果算出機能２０１が発話制御効果に起因する送話音声の変化量を算出し、発話制御効果適用機能２０２がその変化量を適用して受話音声１０２を調整する。

さらに本実施例に係る音声伝送システム２００では、発話制御効果判定機能２０８が現在の送話音声が発話制御効果に起因して変化しているかどうかを判定する。発話制御効果判定機能２０８が、現在の送話音声信号２１１が発話制御効果に起因して変化していると判定する場合に、発話制御効果適用機能２０２は受話音声信号２１２に発話制御効果による受話音声信号２１２の特徴量の変化量２１３を適用して調整する。つまり本実施例に係る音声伝送システム２００では、発話制御効果の有無を判定して、発話制御効果がある場合に受話音声を調整する。
［８．音声伝送システム２００の処理フローチャート］
図５は音声伝送システム２００が実行する処理フローである。音声伝送システム２００が実行する処理について図５を用いて詳細に説明する。

マイク２０４が音２０８を受信し、受信部２０５が受話音声信号２１２を音声伝送システム２００の外部より受信する。発話制御効果算出機能２０１には、音信号２０９及び受話音声信号２１２が入力される。発話制御効果算出機能２０１はそれらの信号を用いて発話制御効果によって送話音声信号２１１が変化した量（変化量）２０６と送話音声信号２１１の現フレームであって周囲雑音２１０を除去した送話音声信号２１１の特徴量２１４を算出する（ステップＳ５０１）。なお音信号２０９はマイク２０４に入力された音２０８に対応する電気信号である。

発話制御効果判定機能２０８は、現フレームの音信号２０９に含まれる送話音声信号２１１の特徴量２１４を発話制御効果算出機能２０１より受信する。そして発話制御効果判定機能２０８は現在（現フレーム）の送話音声信号２１１が発話制御効果に起因して変化しているかどうかを判定する（ステップＳ５０２）。発話制御効果判定機能２０８が送話音声信号２１１は発話制御効果によって変化していると判別する場合（ステップＳ５０２ＹＥＳ）、発話制御効果適用機能２０２は受話音声信号２１２に発話制御効果による受話音声信号２１２の特徴量の変化量２１３を適用する（ステップＳ５０３）。発話制御効果適用機能２０２は変化量２１３を適用した受話音声信号２１６を出力する（ステップＳ５０４）。発話制御効果判定機能２０８が送話音声信号２１１は発話制御効果によって変化していないと判別する場合（ステップＳ５０２ＮＯ）、発話制御効果適用機能２０２は受話音声信号２１２を出力する（ステップＳ５０５）。ステップＳ５０２において、送話音声信号２１１が発話制御効果に起因して変化しているか否かの判定は、発話制御効果算出機能２０１が出力する特徴量２１４から判定する。発話制御効果判定機能２０８は現フレームの送話音声信号２１１の特徴量２１４が発話制御効果によって変化したか否かの判定結果２１５を以下の処理で算出する。

発話制御効果判定機能２０８は、送話音声信号２１１の現フレームの特徴量と受話音声信号２１２が周囲雑音２１０に対して所定の比率以上のときの送話音声信号２１１の距離S1、及び送話音声信号２１１の現フレームの特徴量と受話音声信号２１２が劣化していないときの送話音声信号２１１の距離S2を算出する。S1、S2は（２０）、（２１）式により表すことができる。

Mnは受話音声信号２１２が劣化していない場合の送話音声信号２１１の平均、Mdは受話音声信号２１２が劣化している場合の送話音声信号２１１の平均、Mcは現フレームの送話音声信号２１１の平均である。

発話制御効果判定機能２０８がS1<S2と判定する場合、現フレームの送話音声信号２１１が発話制御効果の影響で変化していると判定する。発話制御効果判定機能２０８がS1>S2と判定する場合、現フレームの送話音声信号２１１が発話制御効果の影響なく変化していないと判定する。つまり発話制御効果判定機能２０８はS1とS2を比較して値が小さい方に送話音声信号２１１の現フレームが属すると判定する。なお送話音声信号２１１の特徴量が複数ある場合は、それぞれの特徴量ごとにS1、S2を算出し比較する。また発話制御効果判定機能２０８が特徴量を平均する際にして、特徴量に応じて重みを変えても良い。

本実施例における音声伝送システムによれば以下の効果を得ることができる。本実施例に係る音声伝送システムは、発話制御効果による送話音声の変形量を算出する。該音声伝送システムはその変形量を受話音声信号に適用するため、利用者の聴覚特性に応じて受話音声信号を強調可能となる。したがって本実施例に係る音声伝送システムは従来の音声伝送システムよりも利用者に聞きやすい受話音声を生成することができる。

（付記１）音声入力信号を送信し、周囲雑音に応じて受話音声信号を調整し出力する通信端末において、
入力される音声及び周囲雑音のレベルに応じた音声入力信号を出力するマイクと、
該受話音声信号を受信する受信部と、
該音声入力信号中の周囲雑音に応じた信号成分と該受話音声の信号成分との比が、所定の閾値よりも大きい場合と小さい場合のそれぞれにおける該音声入力信号を特徴づけるパラメータの統計量を求め、該統計量の差に応じて該受話音声信号を調整する音声処理部と、
該調整した受話音声信号を出力するスピーカと、
を有することを特徴とする通信端末。

（付記２）付記１に記載の通信端末において、
該音声処理部は、該統計量の平均に差の有無を判定し、該統計量の平均に差の有無によって該統計量の差を算出することを特徴とする通信端末。

（付記３）付記２に記載の通信端末において、
該音声処理部は、それぞれの該統計量の信頼区間を算出し、それぞれにおける該信頼区間が重複するか否かによって該特徴量の統計量の平均に差の有無を判定することを特徴とする通信端末。

（付記４）付記３に記載の通信端末において、
該音声処理部は、それぞれの該統計量の信頼区間が重複しない場合に、それぞれにおける該統計量の差を算出することを特徴とする通信端末。

（付記５）付記１に記載の音声処理部において、該送話音声信号のパワースペクトルの傾きの統計量を算出する特徴とする通信端末。

（付記６）付記１に記載の音声処理部において、該送話音声信号のパワーのダイナミックレンジの統計量を算出することを特徴とする通信端末。

（付記７）付記１に記載の音声処理部において、該送話音声信号の話速を算出することを特徴とする通信端末。

（付記８）付記１に記載の音声処理部において、該送話音声信号の間の長さを算出することを特徴とする通信端末。

（付記９）付記１に記載の音声処理部において、該送話音声信号のピッチ周波数を算出することを特徴とする通信端末。

（付記１０）付記１に記載の音声処理部において、該送話音声信号のピッチ周波数のダイナミックレンジを算出することを特徴とする通信端末。

（付記１１）音声入力信号を送信し、周囲雑音に応じて受話音声信号を調整し出力する通信端末の音声出力調整方法において、
入力される音声及び周囲雑音のレベルに応じた音声入力信号を出力し、
該受話音声信号を受信し、
該音声入力信号中の周囲雑音に応じた信号成分と該受話音声の信号成分との比が、所定の閾値よりも大きい場合と小さい場合のそれぞれにおける該音声入力信号を特徴づけるパラメータの統計量を求め、
該統計量の差に応じて該受話音声信号を調整し、
該調整した受話音声信号を出力する、
ことを特徴とする通信端末の音声出力調整方法。

本実施例に係る音声伝送システム１００の概要を示すブロック図である。本実施例に係る音声伝送システム２００の概要を示すブロックである。本実施例に係る発話制御効果算出機能１０１の構成を示すブロック図である。本実施例に係る音声伝送システム１００が実行する処理を示すフローチャートである。本実施例に係る音声伝送システム２００が処理するフローチャートである。本実施例に係る発話制御効果算出機能１０１が実行する処理を示すフローチャートである。本実施例に係る発話制御効果適用機能２０２が処理するフローチャートである。本実施例に係るパワーのダイナミックレンジの変形量７２の適用処理を模式的に示した図である。本実施例に係るスペクトル傾きの変形量７３の適用処理を模式的に示した図である。本実施例に係る間の長さの変形量７５の適用処理について模式的に示した図である。本実施例に係るピッチ周波数のダイナミックレンジの変形量７７の適用処理について模式的に示した図である。本実施例に係る通信端末１２００のハードブロック図である。本実施例に係る音声処理部１２１１の機能ブロック図である。

符号の説明

１００…音声伝送システム
１０１…発話制御効果算出機能
１０２…発話制御効果適用機能
１０３…マイク
１０４…受信部
１０５…スピーカ
２００…音声伝送システム
２０１…発話制御効果算出機能
２０２…発話制御効果適用機能
２０３…発話制御効果判定機能
２０４…マイク
２０５…受信部
２０６…スピーカ
３０１…周囲雑音分離機能
３０２…特徴量算出機能
３０３…受話音声劣化度算出機能
３０４…通常統計量算出機能
３０５…劣化統計量算出機能
３０６…変化量算出機能
１２００…通信端末
１２０１…アンテナ
１２０２…ベースバンド処理部
１２１１…音声処理部

Claims

音声入力信号を送信し、周囲雑音に応じて受話音声信号を調整し出力する通信端末において、
入力される音声及び周囲雑音のレベルに応じた音声入力信号を出力するマイクと、
該受話音声信号を受信する受信部と、
該音声入力信号中の周囲雑音に応じた信号成分と該受話音声の信号成分との比が、所定の閾値よりも大きい場合と小さい場合のそれぞれにおける該音声入力信号を特徴づけるパラメータの統計量を求め、該統計量の差に応じて該受話音声信号を調整する音声処理部と、
該調整した受話音声信号を出力するスピーカと、
を有することを特徴とする通信端末。
請求項１に記載の通信端末において、
該音声処理部は、該統計量の平均に差の有無を判定し、該統計量の平均に差の有無によって該統計量の差を算出することを特徴とする通信端末。
請求項２に記載の通信端末において、
該音声処理部は、それぞれの該統計量の信頼区間を算出し、それぞれにおける該信頼区間が重複するか否かによって該特徴量の統計量の平均に差の有無を判定することを特徴とする通信端末。
請求項３に記載の通信端末において、
該音声処理部は、それぞれの該統計量の信頼区間が重複しない場合に、それぞれにおける該統計量の差を算出することを特徴とする通信端末。
音声入力信号を送信し、周囲雑音に応じて受話音声信号を調整し出力する通信端末の音声出力調整方法において、
入力される音声及び周囲雑音のレベルに応じた音声入力信号を出力し、
該受話音声信号を受信し、
該音声入力信号中の周囲雑音に応じた信号成分と該受話音声の信号成分との比が、所定の閾値よりも大きい場合と小さい場合のそれぞれにおける該音声入力信号を特徴づけるパラメータの統計量を求め、
該統計量の差に応じて該受話音声信号を調整し、
該調整した受話音声信号を出力する、
ことを特徴とする通信端末の音声出力調整方法。