JP2009246870A - 通信端末、通信端末の音声出力調整方法 - Google Patents

通信端末、通信端末の音声出力調整方法 Download PDF

Info

Publication number
JP2009246870A
JP2009246870A JP2008093763A JP2008093763A JP2009246870A JP 2009246870 A JP2009246870 A JP 2009246870A JP 2008093763 A JP2008093763 A JP 2008093763A JP 2008093763 A JP2008093763 A JP 2008093763A JP 2009246870 A JP2009246870 A JP 2009246870A
Authority
JP
Japan
Prior art keywords
control effect
function
voice signal
signal
communication terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008093763A
Other languages
English (en)
Other versions
JP4968147B2 (ja
Inventor
Kaori Endo
香緒里 遠藤
Takashi Ota
恭士 大田
Takeshi Otani
猛 大谷
Taro Togawa
太郎 外川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2008093763A priority Critical patent/JP4968147B2/ja
Priority to US12/408,812 priority patent/US8751221B2/en
Priority to EP09004486A priority patent/EP2107558A1/en
Publication of JP2009246870A publication Critical patent/JP2009246870A/ja
Application granted granted Critical
Publication of JP4968147B2 publication Critical patent/JP4968147B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract


【課題】 本発明に係る通信端末は、周囲騒音の影響を反映し、かつ利用者に合わせて受話音を調整することを目的とする。
【解決手段】 本実施例に係る通信端末によれば、音声入力信号を送信し、周囲雑音に応じて受話音声信号を調整し出力する通信端末において、入力される音声及び周囲雑音のレベルに応じた音声入力信号を出力するマイクと、該受話音声信号を受信する受信部と、該音声入力信号中の周囲雑音に応じた信号成分と該受話音声の信号成分との比が、所定の閾値よりも大きい場合と小さい場合のそれぞれにおける該音声入力信号を特徴づけるパラメータの統計量を求め、該統計量の差に応じて該受話音声信号を調整する音声処理部と、該調整した受話音声信号を出力するスピーカとを有することを特徴とする。

【選択図】 図1

Description

通信端末において、周囲雑音を考慮して受話音声を調整する技術に関する。
携帯電話、IP電話は、周囲雑音が大きい場所においてもしばしば使用される。そのためこれら通信端末は、利用者の使用環境(端的には周囲雑音)を考慮して受話音を調整する必要がある。受話音を調整する技術として、例えば利用者の周囲雑音に応じて、受話音の音量を変える技術(AGC:Auto Gain Control)や受話音のフォルマントを強調する技術がある。
しかしながら受話音の聞きやすさは利用者の聴覚特性に依存する。そのため周囲雑音に応じて一律に受話音の音量を変えたりすることは、必ずしも利用者にとって受話音が聞きやすくなることとはならない。つまり従来の通信端末では、利用者が聞き取りにくいと感じているときにだけ受話音を調整するということができなかった。
通信端末において受話音を調整する技術を開示する文献として以下のものがある。
特開平04−328798号公報 特開2002−185572号公報 特開2004−165865号公報
本発明に係る通信端末は、周囲雑音の影響を反映し、かつ利用者に合わせて受話音を調整することを目的とする。
本実施例に係る通信端末の一側面によれば、音声入力信号を送信し、周囲雑音に応じて受話音声信号を調整し出力する通信端末において、入力される音声及び周囲雑音のレベルに応じた音声入力信号を出力するマイクと、該受話音声信号を受信する受信部と、該音声入力信号中の周囲雑音に応じた信号成分と該受話音声の信号成分との比が、所定の閾値よりも大きい場合と小さい場合のそれぞれにおける該音声入力信号を特徴づけるパラメータの統計量を求め、該統計量の差に応じて該受話音声信号を調整する音声処理部と、該調整した受話音声信号を出力するスピーカとを有することを特徴とする。
本発明に係る通信端末によれば、周囲雑音の影響を反映し、かつ利用者の聴覚特性に合わせて受話音声の出力を調整することができる。
(第一の実施例)
[1.本実施例に係る音声伝送システムの概要]
まず図1及び図4を用いて、本実施例に係る音声伝送システム100の概要について説明する。音声伝送システム100は、図12に示す通信端末1200に実装して実現するシステムである。
通信端末1200として、例えば携帯電話機がある。携帯電話機は周囲雑音の多い場所でも使用されることがあり、しばしば周囲雑音によって受話音が劣化する。携帯電話機(通信端末1200)は、受話音が劣化したら一律に受話音を強調せず、利用者の聴覚特性に合わせて受話音を調整する。具体的には携帯電話機は、受話音に対する周囲雑音の割合が大きくて、それに起因して利用者が聞き取りにくいと感じている(送話音声が大きくなっている)と判定する場合には受話音を強調し、利用者が聞き取りにくいと感じていない(送話音声がほとんど変化していない)と判定する場合には受話音をそのまま出力する。これにより携帯電話機の利用者は、従来の携帯電話機に比して、より快適に通話を行うことができる。
より詳細に述べると、音声伝送システム100における各機能(発話制御効果算出機能101、発話制御効果適用機能102)は次の処理を実行している。図1が本実施例に係る音声伝送システム100の概要を示すブロック図である。図4に音声伝送システム100の処理フローを示す。音声伝送システム100は発話制御効果算出機能101、発話制御効果適用機能102、マイク103、受信部104、及びスピーカ105を備えている。発話制御効果算出機能101が発話制御効果に起因する送話音声の変化量111を算出し、発話制御効果適用機能102がその変化量111を適用して受話音声信号110を調整する。ここで発話制御効果とは、会話している人が周囲雑音などによって相手方の声を聞き取りにくい場合に、自身の発する声を変化させる現象のことをいう。そのため本実施例では受話音声に対する周囲雑音の割合に応じて、どれくらい送話音声が変化したか否かを算出する機能を発話制御効果算出機能101と称する。
まずマイク103が音106を受信する。マイク103は音信号107を発話制御効果算出機能101に出力する。音信号107は、音信号106に対応する電気信号である。また音信号107は周囲雑音108と送話音声信号109により構成されている。受信部104が受話音声信号110を受信する。発話制御効果算出機能101には、マイク103で受信した音106の音信号107、及び受信部104で受信した受話音声信号110が入力され、それらの信号を用いて発話制御効果によって送話音声信号109が変化した量(変化量)111を算出する(ステップS401)。発話制御効果適用機能102には、受信部104で受信した受話音声信号110が入力される。発話制御効果適用機能102が受話音声信号110に該変化量111を適用して(ステップS402)、スピーカ105が調整した受話音声信号112を出力する(ステップS403)。
以上のように音声伝送システム100は、周囲雑音108に起因する送話音声信号109の変化量111を受話音声信号110に適用するため、受話音声を利用者にとって聞き取りやすい音声に変形することができ、従来の音声伝送システムよりも聞きやすい受話音を生成できる。
[1.1.通信端末1200]
次に音声伝送システム100を実装した通信端末1200について説明する。図12は本実施例に係る通信端末1200のハードブロック図である。通信端末1200は、送受信アンテナ1201、ベースバンド処理部1202、CPU1203、入力部1204、表示部1205、受信部104、送信部1206、デュプレクサ1207、マイク103、およびスピーカ105を有している。ベースバンド処理部1202は復調器1208、通信制御部1209、変調器1210、音声処理部1211、インタフェース部1212を有している。
通信端末1200は、送受信アンテナ1201を介して、他の通信端末から受話音声信号104を受信する。また通信端末1200は、送受信アンテナ1201を介して、他の通信端末に送話音声信号105を送信する。そして通信端末1200に搭載するデュプレクサ1207は信号の送信経路と受信経路を電気的に分離するものである。デュプレクサ1207は、送受信アンテナ1201が受信する受話音声信号110と送信する送話音声信号109を分離する。
通信端末1200は、送受信アンテナ1201を介して、受信部104で受話音声信号110を受信する。受信部104は受話音声信号110をベースバンド処理部1202の復調器1208に転送する。復調器1208は受話音声信号110を復調し、通信制御部1209に転送する。通信制御部1209は復調した受話音声信号110を復号する。そして通信制御部1209は復号した受話音声信号110を音声処理部1211に転送する。
音声処理部1211は、発話制御効果算出機能101の処理と発話制御効果適用機能102の処理を実現するものである。図13に音声処理部1211の機能ブロック図を示す。音声処理部1211は発話制御効果算出機能101と発話制御効果適用機能102を有している。そして発話制御効果算出機能101は周囲雑音分離機能301、特徴量算出機能302、受話音声算出機能303、通常統計量算出機能304、劣化統計量算出機能305、変化量算出機能306を有している。音声処理部1211が有するこれらの機能は図1、図3に示すように連携して受話音声信号110を調整する。概略的には音声処理1211は以下の処理を実行する。まず音声処理部1211は、インタフェース部1212を介してマイク103が出力する音信号107を受信し、また受信部104で受信した受話音声信号110を受信する。そして音声処理部1211は発話制御効果算出機能101、発話制御効果適用機能102の処理を実行し、通信端末1200はスピーカ105より調整した受話音声信号112を出力する。発話制御効果算出機能101、発話制御効果適用機能102の詳細な処理については、図3、図6、図7を用いて後述する。
CPU1203は通信プロトコルの制御や通信端末1200に搭載するアプリケーションの実行制御を行う。
入力部104は通信端末1200のユーザがキー入力を操作するユニットである。また表示部1205は通信端末1200の操作画面やコンテンツを表示するディスプレイである。
[2.通信端末1200の利点]
本実施例に係る通信端末1200は、上記に示すような利用者の聴覚特性に合わせて受話音声を調整できるといった従来の通信端末と比較して有利な効果を有している。この有利な効果は音声処理部1211が有する機能によって実現している。従い以下、その機能である発話制御効果算出機能101、発話制御効果適用機能102の構成及び実行する処理について説明する。
[3.発話制御効果算出機能101]
図3は、本実施例に係る発話制御効果算出機能101の構成を示す機能ブロック図である。発話制御効果算出機能101はハード的に音声処理部1211が実現する機能であり、発話制御効果算出機能101を構成する機能も音声処理部1211が実現する機能である。発話制御効果算出機能101は、周囲雑音分離機能301、特徴量算出機能302、受話音声劣化度算出機能303、通常統計量算出機能304、劣化統計量算出機能305、変化量算出機能306を有している。また図6は発話制御効果算出機能101が実行する処理を示すフローチャートである。
周囲雑音分離機能301に音信号107が入力される。音信号107は周囲雑音108と送話音声信号109より構成されている。周囲雑音分離機能301は、音信号107を送話音声信号109と周囲雑音108に分離する。本実施例において周囲雑音分離機能301は、周囲雑音108と送話音声信号109のSNRを推定する。そして周囲雑音分離機能301はSNRに応じて送話音声信号109のパワースペクトルにゲインをかけて周囲雑音108と分離する(ステップS601)。より具体的には、周囲雑音分離機能301は、受信する音信号107のフレームを時間分割する。周囲雑音分離機能301は送話音声信号109が有する周期性から送話音声信号109を推定する。周囲雑音分離機能301は送話音声信号109を含まない時間分割フレームの情報から周囲雑音108を推定する。そして周囲雑音分離機能301は受信した音信号107を周囲雑音108と送話音声信号109に分離する。
特徴量算出機能302には、送話音声信号109を入力され、その入力された送話音声信号109の特徴量307を算出する(ステップ602)。
受話音声劣化度算出機能303は、周囲雑音108と受話音声信号110が入力される。そして受話音声劣化度算出機能303は、劣化度を算出する(ステップS603)。劣化度は受話音声信号110が周囲雑音108の影響で聞こえにくくなった程度を示すものである。例えば劣化度は、受話音声信号110と周囲雑音108とのパワー(音量)の比である。この劣化度は、ユーザが聞き取る受話音声信号110と周囲雑音108との割合を示すものである。受話音声劣化度算出機能303は受話音声信号110の劣化度を受話音声信号110と周囲雑音108のSNRが小さいほど受話音声信号110の劣化度が大きくなるように算出する。たとえば劣化度=―SNR、SNR=受話音声信号110のパワー(dB)―周囲雑音108のパワー(dB)とする。また受話音声劣化度算出機能303は、劣化度を受話音声信号110と周囲雑音108をフーリエ変換等の時間周波数変換を行い、帯域毎に算出したSNRの平均値から算出してもよい。受話音声劣化度算出機能303は受話音声信号110の劣化度に応じて、通常統計量算出機能304か劣化統計量算出機能305のいずれかを実行する。換言すれば受話音声劣化度算出機能303は、受話音声信号110に対する周囲雑音108の割合が予め定めた閾値以上か否かを判別する。受話音声劣化度算出機能303は、受話音声信号110に対する周囲雑音108の割合が予め定めた閾値以上か否かの結果に応じて、通常統計量算出機能304か劣化統計量算出機能305のいずれかを実行する。受話音声劣化度算出機能303は、受話音声信号110の劣化度が所定の閾値以上であるか否かを判別する(S604)。閾値は予め与えておくものとする。
受話音声劣化度算出機能303が受話音声信号110の劣化度は閾値以上と判別する場合(ステップS604 YES)、劣化統計量算出機能305を実行し、特徴量算出機能302が送話音声信号109の特徴量307を劣化統計量算出機能305に入力する。そして劣化統計量算出機能305は現フレームの送話音声信号109の該特徴量307の統計量を算出する(ステップS605)。劣化統計量算出機能305は、現フレームの該特徴量307を劣化統計量算出機能305が現フレームの送話音声信号109の該特徴量307を受信する前に算出した統計量に新たに追加し、平均、分散、平均の標準誤差、平均値の95%信頼区間を算出する。送話音声信号109の特徴量が複数種類ある場合には、劣化統計量算出機能305はそれぞれについて同様の処理を行う。劣化統計量算出機能305が算出する統計量は、受話音声信号110が劣化した場合における送信音声信号104の特徴量307の統計量であり、以下劣化統計量308と呼ぶ。受話音声劣化度算出機能303が受話音声信号110の劣化度は閾値未満と判別する場合(ステップS604 NO)、通常統計量算出機能304を実行し、特徴量算出機能302が送話音声信号109の特徴量307を通常統計量算出機能304に入力する。そして通常統計量算出機能304は該特徴量307の統計量を算出する(ステップS606)。通常統計量算出機能304は、現フレームの該特徴量307を通常統計量算出機能304が現フレームの送話音声信号109の該特徴量307を受信する前に算出した統計量に新たに追加し、平均、分散、平均の標準誤差、平均値の95%信頼区間を算出する。送話音声信号109の特徴量が複数種類ある場合には、通常統計量算出機能304はそれぞれについて同様の処理を行う。通常統計量算出機能304が算出する統計量は、受話音声信号110が劣化していない判別される場合における送信音声信号104の特徴量307の統計量であり、以下通常統計量309と呼ぶ。
変化量算出機能306は該特徴量307の変化量111を算出する(ステップS607)。通常統計量算出機能304は通常統計量308を変化量算出機能306に入力する。劣化統計量算出機能305は劣化統計量309を変化量算出機能306に入力する。変化量算出機能306は通常統計量308と劣化統計量309を比較して変化量310を算出する。
本実施例では送話音声信号109の特徴量307の統計量(通常統計量308、劣化統計量309)は、平均・分散・標本数、平均の標準誤差、標準偏差、95%信頼区間とする。変化量算出機能306は、通常統計量308と劣化統計量309を比較し、通常統計量308と劣化統計量309に差があるかどうかを判定する。変化量算出機能306が通常統計量308と劣化統計量309の95%信頼区間が互いに交わると判定した場合は、統計的に有意な差がないと判定し、変化量111を「0」として送話音声信号109を出力する。変化量算出機能306が通常統計量308と劣化統計量309の95%信頼区間が互いに交わらないと判定した場合は、受話音声信号110の劣化に関連して送話音声信号109の特徴量307が変化したと判定して、受話音声信号110の劣化時における特徴量307の平均値と受話音声信号110の劣化していないときにおける(通常時)の特徴量307の平均値の差を変化量111として出力する(ステップS608)。
なお平均の95%信頼区間の代わりに平均の99%信頼区間を使用するなどとしても良い。95%信頼区間は(1)式で算出する。95%信頼区間を示す(1)式に含まれるSE、mはそれぞれ(2)、(3)、(4)式で算出する。
Figure 2009246870
Figure 2009246870
Figure 2009246870
Figure 2009246870
mは平均値、kは標本数によって決まる定数(標本数が∞の場合、1.96)、SEは平均の標準誤差、SDは標準偏差、nは標本数である。
[4.特徴量307]
次に特徴量算出機能302が算出する特徴量307についてより具体的に説明する。本実施例に係る特徴量307は以下の送話音声信号109のパワー、パワーのダイナミックレンジ、パワースペクトルの傾き、話速、間の長さ、ピッチ周波数、ピッチ周波数のダイナミックレンジ、母音の長さより構成される。
[4.1.送話音声信号109のパワー]
特徴量307の送話音声信号109のパワーについて説明する。
特徴量307は送話音声信号109のパワーを(5)式で算出する。
Figure 2009246870
pはフレーム電力(dB)、Nはフレームのサンプル数、xiはi番目のサンプルの振幅である。
[4.2.送話音声信号109のパワーのダイナミックレンジ]
特徴量307の送話音声信号109のパワーのダイナミックレンジついて説明する。
特徴量307は送話音声信号109のパワーのダイナミックレンジ(p_range)を(6)式で算出する。
Figure 2009246870
pjはj番目のフレームパワー(dB)である。tは現フレーム Mはダイナミックレンジの観測区間のフレーム数である。max()は 区間内の最大値を出力する関数、min()は 区間内の最小値を出力する関数である。
[4.3.送話音声信号109のパワースペクトルの傾き]
特徴量307の送話音声信号109のパワースペクトルの傾きついて説明する。
(1)特徴量算出機能302は周囲雑音108を除去した送話音声信号109を時間周波数変換してパワースペクトルを算出する。時間周波数変換はフーリエ変換等の方法である。
(2)特徴量算出機能302はパワースペクトルの傾きを算出する。
特徴量算出機能302は各周波数毎のパワースペクトルを(xi,yi)で表わし、最小二乗法で一次関数を当てはめた際の傾きとしてパワースペクトルの傾きを算出する。
xiはi番目のパワースペクトルの周波数(Hz)であり、yiはi番目のパワースペクトルの大きさ(dB)である。
[4.4.送話音声信号109の話速]
特徴量307の送話音声信号109の話速について説明する。
特徴量算出機能302は入力音声の母音を検出し、所定時間内の母音の数をカウントして、その母音の数より話速を算出する。
[4.5.送話音声信号109の間の長さ]
特徴量307の送話音声信号109の間の長さについて説明する。
(1)特徴量算出機能302は周囲雑音108を除去した送話音声信号109の音声検出処理を行う。特徴量算出機能302はフレームパワーを閾値と比較して検出する。閾値はフレームパワーの長期平均である。
(2)特徴量算出機能302は無音区間の連続長を間の長さとして算出する。
[4.6.送話音声信号109のピッチ周波数]
特徴量307の送話音声信号109の間のピッチ周波数について説明する。
特徴量算出機能302はピッチ周波数を(8)式によって算出する。また特徴量算出機能302はずらし位置がaの場合の相関係数を(7)式によって算出する。
Figure 2009246870
Figure 2009246870
Xは入力信号、Mは相関係数を算出する区間の長さ(サンプル)、aは相関係数を算出する信号の開始位置、pitchはピッチ周波数(Hz)、corr(a)はずらし位置がaの場合の相関係数、a_maxは最大相関係数に対応するa、iは信号のインデックス(サンプル)、freqはサンプリング周波数(Hz)である。
[4.7.送話音声信号109のピッチ周波数のダイナミックレンジ]
特徴量307の送話音声信号109のピッチ周波数のダイナミックレンジについて説明する。
特徴量算出機能302はピッチ周波数のダイナミックレンジを(9)式によって算出する。
Figure 2009246870
p_rangeはピッチ周波数のダイナミックレンジ(Hz)、pjはj番目のピッチ周波数(Hz)である。tは現フレーム、Mはダイナミックレンジの観測区間のフレーム数、max()は区間内の最大値を出力する関数であり、min()は区間内の最小値を出力する関数である。
[4.8.送話音声信号109の母音の長さ]
特徴量307の送話音声信号109の母音の長さについて説明する。
特徴量算出機能302は送話音声信号109の母音の長さを算出する。入力(周囲雑音を除去した送話音)の母音検出処理を行う。
(1)特徴量算出機能302はピッチ相関(corr(a_max))を算出し、予め与えた閾値と比較し、閾値以上大きい場合に現フレームを母音と判定する。
(2)特徴量算出機能302は母音の長さ(フレーム)を母音区間の連続長として算出する。
[5.発話制御効果適用機能102]
次に発話制御効果適用機能102の処理について説明する。図7は本実施例に係る発話制御効果適用機能102が実行する処理のフローチャートである。図7に示すように本実施例において、発話制御効果適用機能102が受話音声信号110に適用する変化量111は、パワーの変形量71、パワーのダイナミックレンジ72、スペクトルの傾き73、話速の変形量74、間の長さ75、ピッチ周波数の変形量76、ピッチ周波数のダイナミックレンジ77、及び母音の長さの変形量78より構成される。
発話制御効果適用機能102は変化量111を構成するこれら変形量71〜78を図7に示す処理フローに従い受信音声信号105に適用する。
発話制御効果算出機能101が変化量111を発話制御効果適用機能102に入力する。本実施例において発話制御効果算出機能101は変化量111を構成する変形量71〜78を順に発話制御効果適用機能102に入力する。
発話制御効果適用機能102はパワーの変形量71を受信する(ステップS701)。
発話制御効果適用機能102はパワーの変形量71が閾値以上か否かを判別する(ステップS702)。閾値79は予め定めておくものとする。発話制御効果適用機能102がパワーの変形量71が閾値79以上と判別する場合(ステップS702 YES)、発話制御効果適用機能102はパワーの変形量71を受信音声信号105に適用する(ステップS703)。発話制御効果適用機能102がパワーの変形量71が閾値79よりも小さいと判別する場合(ステップS702 NO)、発話制御効果適用機能102はパワーのダイナミックレンジの変形量72を受信する(ステップS704)。
発話制御効果適用機能102はパワーのダイナミックレンジの変形量72が閾値80以上であるか否かを判別する(ステップS705)。閾値80は予め定めておくものとする。発話制御効果適用機能102がパワーのダイナミックレンジの変形量72が閾値80以上であると判別する場合(ステップS705 YES)、発話制御効果適用機能102はパワーのダイナミックレンジの変形量72を受信音声信号105に適用する(ステップS706)。発話制御効果適用機能102がパワーのダイナミックレンジの変形量72が閾値80よりも小さいと判別する場合(ステップS705 NO)、発話制御効果適用機能102はスペクトルの傾きの変形量73を受信する(ステップS707)。
発話制御効果適用機能102はスペクトルの傾きの変形量73が閾値81以上であるか否かを判別する(ステップS708)。閾値81は予め定めておくものとする。発話制御効果適用機能102がスペクトルの傾きの変形量73が閾値81以上であると判別する場合(ステップS708 YES)、発話制御効果適用機能102はスペクトルの傾きの変形量73を受信音声信号105に適用する(ステップS709)。発話制御効果適用機能102はスペクトルの傾きの変形量73が閾値81よりも小さいと判別する場合(ステップS708 NO)、発話制御効果適用機能102は話速の変形量74を受信する(ステップS710)。発話制御効果適用機能102は話速の変形量74が閾値82以上であるか否かを判別する(ステップS711)。閾値82は予め定めておくものとする。発話制御効果適用機能102が話速の変形量74が閾値82以上であると判別する場合(ステップS711 YES)、発話制御効果適用機能102は話速の変形量74を受信音声信号105に適用する(ステップS712)。発話制御効果適用機能102は話速の変形量74が閾値82よりも小さいと判別する場合(ステップS711 NO)、発話制御効果適用機能102は間の長さの変形量75を受信する(ステップS713)。
発話制御効果適用機能102は間の長さの変形量75が閾値83以上であるか否かを判別する(ステップS714)。閾値83は予め定めておくものとする。発話制御効果適用機能102が間の長さの変形量75が閾値83以上であると判別する場合(ステップS714 YES)、発話制御効果適用機能102は間の長さの変形量75を受信音声信号105に適用する(ステップS715)。発話制御効果適用機能102は間の長さの変形量75が閾値83よりも小さいと判別する場合(ステップS714 NO)、発話制御効果適用機能102はピッチ周波数の変形量76を受信する(ステップS716)。
発話制御効果適用機能102はピッチ周波数の変形量76が閾値84以上であるか否かを判別する(ステップS717)。閾値84は予め定めておくものとする。発話制御効果適用機能102がピッチ周波数の変形量76が閾値84以上であると判別する場合(ステップS717 YES)、発話制御効果適用機能102はピッチ周波数の変形量76を受信音声信号105に適用する(ステップS718)。発話制御効果適用機能102はピッチ周波数の変形量76が閾値84よりも小さいと判別する場合(ステップS717 NO)、発話制御効果適用機能102はピッチ周波数のダイナミックレンジの変形量77を受信する(ステップS719)。
発話制御効果適用機能102はピッチ周波数のダイナミックレンジの変形量77が閾値85以上であるか否かを判別する(ステップS720)。閾値85は予め定めておくものとする。発話制御効果適用機能102がピッチ周波数のダイナミックレンジの変形量77が閾値85以上であると判別する場合(ステップS720 YES)、発話制御効果適用機能102はピッチ周波数のダイナミックレンジの変形量77を受信音声信号105に適用する(ステップS721)。発話制御効果適用機能102はピッチ周波数のダイナミックレンジの変形量77が閾値85よりも小さいと判別する場合(ステップS720 NO)、発話制御効果適用機能102は母音の長さの変形量78を受信する(ステップS722)。
発話制御効果適用機能102は母音の長さの変形量78が閾値86以上であるか否かを判別する(ステップS723)。閾値86は予め定めておくものとする。発話制御効果適用機能102が母音の長さの変形量78が閾値86以上であると判別する場合(ステップS723 YES)、発話制御効果適用機能102は母音の長さの変形量78を受信音声信号105に適用し(ステップS724)、処理を終了する。発話制御効果適用機能102は母音の長さの変形量78が閾値86よりも小さいと判別する場合(ステップS723 NO)、処理を終了する。
[6.発話制御効果適用機能102の実施形態]
次に発話制御効果適用機能102の各変形量71〜78の受話音声信号110への具体的な適用について説明する。
まず発話制御効果適用機能102が実行するパワーの変形量71の適用処理について説明する。
(1)発話制御効果適用機能102は受話音声信号110のパワーを算出する。本実施例では、発話制御効果適用機能102はdB値で計算する。
(2)発話制御効果適用機能102は受話音声信号110のパワーにパワー変形量71を加える。発話制御効果適用機能102は送話音声信号109の変形量71の分だけ受話音声信号110のパワーを増減する。発話制御効果適用機能102は変形量71に所定の係数値を掛け、所定の割合で受話音声信号110のパワーを増減してもよい。
具体的には発話制御効果適用機能102は受話音声信号110の振幅pr’(10)式を用いて算出する。
Figure 2009246870
pr’は変形量71を適用した受話音声信号110のパワー(dB)、prは受話音声信号110のパワー(dB)、Δpはパワーの変化量71(dB)である。
発話制御効果適用機能102は、受話音声信号110に変形量71を加算して受話音声信号110を調整する。
次に発話制御効果適用機能102が実行するパワーのダイナミックレンジの変形量72の適用処理について説明する。
(1) 発話制御効果適用機能102は受話音声信号110のパワーのダイナミックレンジpr_rangeを(11)式を用いて算出する。
Figure 2009246870
pr_rangeはパワーのダイナミックレンジ、prjは受話音声信号110のj番目のフレームパワー、tは現フレーム、Mはダイナミックレンジの観測区間のフレーム数、max()は区間内の最大値を出力する関数、min()は区間内の最小値を出力する関数である。
(2)発話制御効果適用機能102は受話音声信号110のパワーのダイナミックレンジをパワーのダイナミックレンジの変形量72を適用する。図8はパワーのダイナミックレンジの変形量72の適用処理を模式的に示した図である。パワーのダイナミックレンジは、所定の観測区間におけるパワーの最大値からパワーの最小値を減じたものである。パワーのダイナミックレンジは、パワーが示す音のメリハリを示す。図8はパワーのダイナミックレンジ内における現フレームのパワーの大きさを示している。
発話制御効果適用機能102は(12)式を用いて、受話音声信号110の現フレームのパワーにパワーのダイナミックレンジの変形量72を適用して、受話音声信号110のパワーpr’(dB)を算出する。
Figure 2009246870
pr’は変形量72を適用後の受話音声信号110のパワー(dB)、minは受話音声信号110の最小パワー(dB)、prは受話音声信号110のパワー(dB)、Δpはパワーの変化量72(dB)である。図8に示すように、発話制御効果適用機能102は、パワーのダイナミックレンジに変形量72を適用する前における現フレームの大きさ801とパワーのダイナミックレンジに変形量72を適用した後における現フレームの大きさ802が相対的に同じになるように(12)式により調整する。つまり変形量72を適用前のパワーのダイナミックレンジ内での現フレームの大きさ801の位置と変形量72を適用後のパワーのダイナミックレンジ内での現フレームの大きさ802の位置とが相対的に同じになるように、発話制御効果適用機能102は調整する。
次に発話制御効果適用機能102が実行するスペクトル傾きの変形量73の適用処理について説明する。図9はスペクトル傾きの変形量73の適用処理を模式的に示した図である。スペクトル傾きとは、受話音声信号110はパワースペクトルの時間周波数に対する傾きである。一般に人間は時間周波数が高域のパワーが大きいほど聞きやすい。そのため発話制御効果適用機能102はスペクトル傾きを調整し高域のパワーを大きくすることによって、受話音声信号110を聞きやすく調整することができる。
(1)発話制御効果適用機能102は受話音声信号110のパワースペクトルを算出する。パワースペクトルはパワーのそれぞれにおける周波数成分である。発話制御効果適用機能102は受話音声信号110のパワースペクトルを時間周波数変換する。
(2)発話制御効果適用機能102は受話音声信号110のパワースペクトルの傾きを算出する。
(3)発話制御効果適用機能102は受話音声信号110のパワースペクトルpri’を(13)式に示すように修正する。
Figure 2009246870
pri’は受話音声信号110のパワースペクトルの傾きの変化量73を適用後のi番目の帯域のパワースペクトル、Δaはパワースペクトルの傾きの変形量73(dB)、iはパワースペクトルの帯域のインデックスである。
(4)発話制御効果適用機能102は(13)式により算出し修正した受話音声信号110のパワースペクトルを周波数時間変換する。
次に発話制御効果適用機能102が実行する話速の変形量74の適用処理について説明する。
(1)発話制御効果適用機能102は受話音声信号110の話速を算出する。たとえば話速は以下のように算出する。発話制御効果適用機能102は受話音声信号110中の母音を検出する。例えば通信端末1200は、母音と子音の標準パターンをメモリ(図12には図示せず)などに記憶しておく。そして発話制御効果適用機能102は検出した音とメモリに記憶している標準パターンを比較する。発話制御効果適用機能102は標準パターンの中から、検出した音と最もユークリッド距離が短い音を選択することによって検出した音が母音か否か判定し、これより母音を検出する。発話制御効果適用機能102は所望の時間区間内における母音の数を所望の時間区間内における音節数に置き替える。発話制御効果適用機能102はその置き替えた所望の時間区間内における音節数を所望の時間区間における受話音声信号102から除して話速(speed)を算出する。
(2)発話制御効果適用機能102は受話音声信号110の話速speed’を(14)式を用いて調整する。
Figure 2009246870
speedは変形量74を適用前の受話音声信号110の話速、Δspeedは話速(speed)の変形量74、speed’は変形量74を適用後の受話音声信号110の話速である。発話制御効果適用機能102は受話音声信号110の話速(speed)の周期性を判定する。そして発話制御効果適用機能102は受話音声信号110の一周期を多く繰り返したり少なく繰り返したりすることによって、受話音声信号110の話速(speed)を調整する。
次に発話制御効果適用機能102が実行する間の長さの変形量75の適用処理について説明する。図10は間の長さの変形量75の適用処理について模式的に示した図である。
(1)発話制御効果適用機能102は受話音声信号110の間の長さ(図10に記載のT1,T2,T3,T4,T5)を算出する。例えば発話制御効果適用機能102は受話音声信号110のフレームパワーを閾値(例えばフレームパワーの長期平均)と比較する。そして発話制御効果適用機能102が受話音声信号110のフレームパワーが閾値以下と判定する区間の長さを間の長さとして算出する。また発話制御効果適用機能102は受話音声信号110に含まれる周期性がない区間を無音声区間として算出してもよい。発話制御効果適用機能102が受話音声信号110のフレームパワーが閾値よりも大きいと判定する区間は、図10に記載の受話音声信号110の有音声区間1001〜1012である。有音声区間1007〜1012はそれぞれ、有音声区間1001〜1006に対応する有音声区間である。
(2)受話音声信号110の間の長さを(15)式を用いて算出する。
Figure 2009246870
pauseは変形量75の適用前の受話音声信号110の間の長さ、Δpauseは 間の長さの変形量75、pause’は変形量75の適用後の受話音声信号110の間の長さである。
発話制御効果適用機能102は受話音声信号110の間が終了した後にΔpause75を追加して間の長さを調整する。発話制御効果適用機能102が調整した間の長さは、図10に記載のT’1,T’2,T’3,T’4,T’5である。発話制御効果適用機能102が、変形量75を間の長さT1,T2,T3,T4,T5に適用して、間の長さT’1,T’2,T’3,T’4,T’5を算出する。なお発話制御効果適用機能102は無音区間が一定の長さより長くならないように調整する。発話制御効果適用機能102が間の長さを調整して無音区間が長くなると元の受話音声信号110からの時間遅れが大きくなり、その遅延が著しく大きくならないようにするためである。発話制御効果適用機能102は無音区間が一定の長さ以上になるか否かを判定し、無音区間が一定の長さ以上と判定した場合はその無音区間を短縮して時間遅延を解消する。例えば図10の記載の間の長さT3が、発話制御効果適用機能102が一定の長さ以上と判定した間の長さ(無音区間)である。発話制御効果適用機能102は間の長さT3を間の長さT’3に短縮する。
次に発話制御効果適用機能102が実行するピッチ周波数の変形量76の適用処理について説明する。
(1) 発話制御効果適用機能102は受話音声信号110のピッチ周波数を算出する。ピッチ周波数は音の抑揚を示す物理量である。発話制御効果適用機能102は、(7)、(8)式より算出する。つまり(7)式で示す相関係数が最大になる周波数がピッチ周波数である。
(2)発話制御効果適用機能102は受話音声信号110のピッチ周波数pitch’を(16)式を用いて算出する。
Figure 2009246870
pitchは変形量76を適用前の受話音声信号110のピッチ周波数、Δpitchはピッチ周波数の変化量76、pitch’は適用後の受話音声信号110のピッチ周波数である。受話音声信号110のピッチ周波数にピッチ周波数の変化量76を加算してピッチ周波数を調整する。ピッチが高くなるほど受話音声信号110の音は高くなる。
次に発話制御効果適用機能102が実行するピッチ周波数のダイナミックレンジpitch_r_rangeの変形量77の適用処理について説明する。図11はピッチ周波数のダイナミックレンジの変形量77の適用処理について模式的に示した図である。
(1) 受話音声信号110のピッチ周波数のダイナミックレンジを(17)式を用いて算出する。
Figure 2009246870
pitch_r_rangeは受話音声信号110のピッチ周波数のダイナミックレンジ、pitch_rjは受話音声信号110のj番目のフレームのピッチ周波数、tは現フレーム、Mはダイナミックレンジの観測区間のフレーム数、max()は区間内の最大値を出力する関数、min()は区間内の最小値を出力する関数である。
(2)発話制御効果適用機能102は受話音声信号110のピッチ周波数のダイナミックレンジをピッチ周波数のダイナミックレンジの変化量77だけ修正する。
発話制御効果適用機能102は受話音声信号110の現フレームのピッチ周波数にピッチ周波数のダイナミックレンジの変形量77を適用する。発話制御効果適用機能102はpitch_r’となるように受話音声信号110のピッチ周波数を(18)式を用いて算出する。
Figure 2009246870
pitch_r’は適用後の受話音声信号110のピッチ周波数(Hz)、 pitch_minは受話音声信号110の最小ピッチ周波数(Hz)、pitch_rは受話音声信号110のピッチ周波数(Hz)、Δpitch_rangeはピッチ周波数のダイナミックレンジの変化量77(Hz)である。図11に示すように、発話制御効果適用機能102は、ピッチ周波数のダイナミックレンジに変形量77を適用する前における現フレームのピッチ周波数1101とピッチ周波数のダイナミックレンジに変形量77を適用した後における現フレームのピッチ周波数1102が相対的に同じになるように(18)式により調整する。つまり変形量77を適用前のピッチ周波数のダイナミックレンジ内での現フレームのピッチ周波数1101の位置と変形量77を適用後のピッチ周波数のダイナミックレンジ内での現フレームのピッチ周波数1102の位置とが相対的に同じになるように、発話制御効果適用機能102は調整する。
次に発話制御効果適用機能102が実行する母音の変形量78の適用処理について説明する。
(1)発話制御効果適用機能102は受話音声信号110の母音長を算出する。
(2)発話制御効果適用機能102は受話音声信号110の母音長に母音長の変形量78を加算する。発話制御効果適用機能102は受話音声信号110の母音の長さvl’を(19)式を用いて算出する。
Figure 2009246870
vlは適用前の受話音声信号110の母音長(フレーム)、vl’は適用後の受話音声信号110の母音長(フレーム)、Δvlは母音長の変化量(フレーム)である。
発話制御効果適用機能102は母音の長さを、母音区間と判定された区間で、話速がvl’/ vl 倍となるように変換する。
(第二の実施形態)
[7.音声伝送システム200の概要]
次に発話制御効果を反映した音声出力の調整の他の実施形態について説明する。図2本実施例に係る音声伝送システム200の概要を示すブロックである。
音声伝送システム200は発話制御効果算出機能201、発話制御効果適用機能202、発話制御効果判定機能208、マイク(MIKE)211、受信部205、及びスピーカ(SPEAKER)212を備えている。音声伝送システム200も通信端末1200に相当する通信端末において実現可能な処理システムである。音声処理部1211に相当する音声処理部207が発話制御効果算出機能201、発話制御効果適用機能202、発話制御効果判定機能208の処理を実現するユニットである。
発話制御効果算出機能201、発話制御効果適用機能202は実施例1の発話制御効果算出機能201、発話制御効果適用機能102と同等の構成である。
本実施例における音声伝送システム200は、発話制御効果判定機能208を有している点において音声伝送システム100と異なる。従い以下発話制御効果判定機能208に重点をおいて説明する。
発話制御効果算出機能201が発話制御効果に起因する送話音声の変化量を算出し、発話制御効果適用機能202がその変化量を適用して受話音声102を調整する。
さらに本実施例に係る音声伝送システム200では、発話制御効果判定機能208が現在の送話音声が発話制御効果に起因して変化しているかどうかを判定する。発話制御効果判定機能208が、現在の送話音声信号211が発話制御効果に起因して変化していると判定する場合に、発話制御効果適用機能202は受話音声信号212に発話制御効果による受話音声信号212の特徴量の変化量213を適用して調整する。つまり本実施例に係る音声伝送システム200では、発話制御効果の有無を判定して、発話制御効果がある場合に受話音声を調整する。
[8.音声伝送システム200の処理フローチャート]
図5は音声伝送システム200が実行する処理フローである。音声伝送システム200が実行する処理について図5を用いて詳細に説明する。
マイク204が音208を受信し、受信部205が受話音声信号212を音声伝送システム200の外部より受信する。発話制御効果算出機能201には、音信号209及び受話音声信号212が入力される。発話制御効果算出機能201はそれらの信号を用いて発話制御効果によって送話音声信号211が変化した量(変化量)206と送話音声信号211の現フレームであって周囲雑音210を除去した送話音声信号211の特徴量214を算出する(ステップS501)。なお音信号209はマイク204に入力された音208に対応する電気信号である。
発話制御効果判定機能208は、現フレームの音信号209に含まれる送話音声信号211の特徴量214を発話制御効果算出機能201より受信する。そして発話制御効果判定機能208は現在(現フレーム)の送話音声信号211が発話制御効果に起因して変化しているかどうかを判定する(ステップS502)。発話制御効果判定機能208が送話音声信号211は発話制御効果によって変化していると判別する場合(ステップS502 YES)、発話制御効果適用機能202は受話音声信号212に発話制御効果による受話音声信号212の特徴量の変化量213を適用する(ステップS503)。発話制御効果適用機能202は変化量213を適用した受話音声信号216を出力する(ステップS504)。発話制御効果判定機能208が送話音声信号211は発話制御効果によって変化していないと判別する場合(ステップS502 NO)、発話制御効果適用機能202は受話音声信号212を出力する(ステップS505)。ステップS502において、送話音声信号211が発話制御効果に起因して変化しているか否かの判定は、発話制御効果算出機能201が出力する特徴量214から判定する。発話制御効果判定機能208は現フレームの送話音声信号211の特徴量214が発話制御効果によって変化したか否かの判定結果215を以下の処理で算出する。
発話制御効果判定機能208は、送話音声信号211の現フレームの特徴量と受話音声信号212が周囲雑音210に対して所定の比率以上のときの送話音声信号211の距離S1、及び送話音声信号211の現フレームの特徴量と受話音声信号212が劣化していないときの送話音声信号211の距離S2を算出する。S1、S2は(20)、(21)式により表すことができる。
Figure 2009246870
Figure 2009246870
Mnは受話音声信号212が劣化していない場合の送話音声信号211の平均、Mdは受話音声信号212が劣化している場合の送話音声信号211の平均、Mcは現フレームの送話音声信号211の平均である。
発話制御効果判定機能208がS1<S2と判定する場合、現フレームの送話音声信号211が発話制御効果の影響で変化していると判定する。発話制御効果判定機能208がS1>S2と判定する場合、現フレームの送話音声信号211が発話制御効果の影響なく変化していないと判定する。つまり発話制御効果判定機能208はS1とS2を比較して値が小さい方に送話音声信号211の現フレームが属すると判定する。なお送話音声信号211の特徴量が複数ある場合は、それぞれの特徴量ごとにS1、S2を算出し比較する。また発話制御効果判定機能208が特徴量を平均する際にして、特徴量に応じて重みを変えても良い。
本実施例における音声伝送システムによれば以下の効果を得ることができる。本実施例に係る音声伝送システムは、発話制御効果による送話音声の変形量を算出する。該音声伝送システムはその変形量を受話音声信号に適用するため、利用者の聴覚特性に応じて受話音声信号を強調可能となる。したがって本実施例に係る音声伝送システムは従来の音声伝送システムよりも利用者に聞きやすい受話音声を生成することができる。
(付記1)音声入力信号を送信し、周囲雑音に応じて受話音声信号を調整し出力する通信端末において、
入力される音声及び周囲雑音のレベルに応じた音声入力信号を出力するマイクと、
該受話音声信号を受信する受信部と、
該音声入力信号中の周囲雑音に応じた信号成分と該受話音声の信号成分との比が、所定の閾値よりも大きい場合と小さい場合のそれぞれにおける該音声入力信号を特徴づけるパラメータの統計量を求め、該統計量の差に応じて該受話音声信号を調整する音声処理部と、
該調整した受話音声信号を出力するスピーカと、
を有することを特徴とする通信端末。
(付記2)付記1に記載の通信端末において、
該音声処理部は、該統計量の平均に差の有無を判定し、該統計量の平均に差の有無によって該統計量の差を算出することを特徴とする通信端末。
(付記3)付記2に記載の通信端末において、
該音声処理部は、それぞれの該統計量の信頼区間を算出し、それぞれにおける該信頼区間が重複するか否かによって該特徴量の統計量の平均に差の有無を判定することを特徴とする通信端末。
(付記4)付記3に記載の通信端末において、
該音声処理部は、それぞれの該統計量の信頼区間が重複しない場合に、それぞれにおける該統計量の差を算出することを特徴とする通信端末。
(付記5)付記1に記載の音声処理部において、該送話音声信号のパワースペクトルの傾きの統計量を算出する特徴とする通信端末。
(付記6)付記1に記載の音声処理部において、該送話音声信号のパワーのダイナミックレンジの統計量を算出することを特徴とする通信端末。
(付記7)付記1に記載の音声処理部において、該送話音声信号の話速を算出することを特徴とする通信端末。
(付記8)付記1に記載の音声処理部において、該送話音声信号の間の長さを算出することを特徴とする通信端末。
(付記9)付記1に記載の音声処理部において、該送話音声信号のピッチ周波数を算出することを特徴とする通信端末。
(付記10)付記1に記載の音声処理部において、該送話音声信号のピッチ周波数のダイナミックレンジを算出することを特徴とする通信端末。
(付記11)音声入力信号を送信し、周囲雑音に応じて受話音声信号を調整し出力する通信端末の音声出力調整方法において、
入力される音声及び周囲雑音のレベルに応じた音声入力信号を出力し、
該受話音声信号を受信し、
該音声入力信号中の周囲雑音に応じた信号成分と該受話音声の信号成分との比が、所定の閾値よりも大きい場合と小さい場合のそれぞれにおける該音声入力信号を特徴づけるパラメータの統計量を求め、
該統計量の差に応じて該受話音声信号を調整し、
該調整した受話音声信号を出力する、
ことを特徴とする通信端末の音声出力調整方法。
本実施例に係る音声伝送システム100の概要を示すブロック図である。 本実施例に係る音声伝送システム200の概要を示すブロックである。 本実施例に係る発話制御効果算出機能101の構成を示すブロック図である。 本実施例に係る音声伝送システム100が実行する処理を示すフローチャートである。 本実施例に係る音声伝送システム200が処理するフローチャートである。 本実施例に係る発話制御効果算出機能101が実行する処理を示すフローチャートである。 本実施例に係る発話制御効果適用機能202が処理するフローチャートである。 本実施例に係るパワーのダイナミックレンジの変形量72の適用処理を模式的に示した図である。 本実施例に係るスペクトル傾きの変形量73の適用処理を模式的に示した図である。 本実施例に係る間の長さの変形量75の適用処理について模式的に示した図である。 本実施例に係るピッチ周波数のダイナミックレンジの変形量77の適用処理について模式的に示した図である。 本実施例に係る通信端末1200のハードブロック図である。 本実施例に係る音声処理部1211の機能ブロック図である。
符号の説明
100…音声伝送システム
101…発話制御効果算出機能
102…発話制御効果適用機能
103…マイク
104…受信部
105…スピーカ
200…音声伝送システム
201…発話制御効果算出機能
202…発話制御効果適用機能
203…発話制御効果判定機能
204…マイク
205…受信部
206…スピーカ
301…周囲雑音分離機能
302…特徴量算出機能
303…受話音声劣化度算出機能
304…通常統計量算出機能
305…劣化統計量算出機能
306…変化量算出機能
1200…通信端末
1201…アンテナ
1202…ベースバンド処理部
1211…音声処理部

Claims (5)

  1. 音声入力信号を送信し、周囲雑音に応じて受話音声信号を調整し出力する通信端末において、
    入力される音声及び周囲雑音のレベルに応じた音声入力信号を出力するマイクと、
    該受話音声信号を受信する受信部と、
    該音声入力信号中の周囲雑音に応じた信号成分と該受話音声の信号成分との比が、所定の閾値よりも大きい場合と小さい場合のそれぞれにおける該音声入力信号を特徴づけるパラメータの統計量を求め、該統計量の差に応じて該受話音声信号を調整する音声処理部と、
    該調整した受話音声信号を出力するスピーカと、
    を有することを特徴とする通信端末。
  2. 請求項1に記載の通信端末において、
    該音声処理部は、該統計量の平均に差の有無を判定し、該統計量の平均に差の有無によって該統計量の差を算出することを特徴とする通信端末。
  3. 請求項2に記載の通信端末において、
    該音声処理部は、それぞれの該統計量の信頼区間を算出し、それぞれにおける該信頼区間が重複するか否かによって該特徴量の統計量の平均に差の有無を判定することを特徴とする通信端末。
  4. 請求項3に記載の通信端末において、
    該音声処理部は、それぞれの該統計量の信頼区間が重複しない場合に、それぞれにおける該統計量の差を算出することを特徴とする通信端末。
  5. 音声入力信号を送信し、周囲雑音に応じて受話音声信号を調整し出力する通信端末の音声出力調整方法において、
    入力される音声及び周囲雑音のレベルに応じた音声入力信号を出力し、
    該受話音声信号を受信し、
    該音声入力信号中の周囲雑音に応じた信号成分と該受話音声の信号成分との比が、所定の閾値よりも大きい場合と小さい場合のそれぞれにおける該音声入力信号を特徴づけるパラメータの統計量を求め、
    該統計量の差に応じて該受話音声信号を調整し、
    該調整した受話音声信号を出力する、
    ことを特徴とする通信端末の音声出力調整方法。
JP2008093763A 2008-03-31 2008-03-31 通信端末、通信端末の音声出力調整方法 Expired - Fee Related JP4968147B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2008093763A JP4968147B2 (ja) 2008-03-31 2008-03-31 通信端末、通信端末の音声出力調整方法
US12/408,812 US8751221B2 (en) 2008-03-31 2009-03-23 Communication apparatus for adjusting a voice signal
EP09004486A EP2107558A1 (en) 2008-03-31 2009-03-27 Communication apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008093763A JP4968147B2 (ja) 2008-03-31 2008-03-31 通信端末、通信端末の音声出力調整方法

Publications (2)

Publication Number Publication Date
JP2009246870A true JP2009246870A (ja) 2009-10-22
JP4968147B2 JP4968147B2 (ja) 2012-07-04

Family

ID=40794010

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008093763A Expired - Fee Related JP4968147B2 (ja) 2008-03-31 2008-03-31 通信端末、通信端末の音声出力調整方法

Country Status (3)

Country Link
US (1) US8751221B2 (ja)
EP (1) EP2107558A1 (ja)
JP (1) JP4968147B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011023959A (ja) * 2009-07-15 2011-02-03 Alpine Electronics Inc 音声明瞭度改善システムおよび音声明瞭度改善方法
WO2011077509A1 (ja) * 2009-12-21 2011-06-30 富士通株式会社 音声制御装置、及び音声制御方法
JP2014168228A (ja) * 2013-01-30 2014-09-11 Yamaha Corp 放音装置
JP2016197200A (ja) * 2015-04-06 2016-11-24 日本電信電話株式会社 不正音声入力判定装置、音声信号処理装置、方法及びプログラム

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2610865B1 (en) * 2010-08-23 2014-07-23 Panasonic Corporation Audio signal processing device and audio signal processing method
US8798278B2 (en) 2010-09-28 2014-08-05 Bose Corporation Dynamic gain adjustment based on signal to ambient noise level
KR20120034863A (ko) * 2010-10-04 2012-04-13 삼성전자주식회사 이동통신 단말기에서 오디오 신호 처리 방법 및 장치
CN102325218B (zh) * 2011-08-10 2013-12-25 深圳市无线开锋科技有限公司 声控变换手机应用动态显示效果的方法及装置
US8593948B1 (en) * 2012-12-04 2013-11-26 Hitachi, Ltd. Network device and method of controlling network device
JP6098149B2 (ja) * 2012-12-12 2017-03-22 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
US9961441B2 (en) * 2013-06-27 2018-05-01 Dsp Group Ltd. Near-end listening intelligibility enhancement
JP6206271B2 (ja) * 2014-03-17 2017-10-04 株式会社Jvcケンウッド 雑音低減装置、雑音低減方法及び雑音低減プログラム
JP6677614B2 (ja) * 2016-09-16 2020-04-08 株式会社東芝 会議支援システム、会議支援方法及びプログラム
JP6646001B2 (ja) * 2017-03-22 2020-02-14 株式会社東芝 音声処理装置、音声処理方法およびプログラム
JP2018159759A (ja) * 2017-03-22 2018-10-11 株式会社東芝 音声処理装置、音声処理方法およびプログラム
CN109671448B (zh) * 2018-12-29 2021-05-18 联想(北京)有限公司 一种数据处理方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11196174A (ja) * 1997-12-25 1999-07-21 Matsushita Electric Ind Co Ltd 音声信号送受話装置及び受話音量制御方法
JP2002185572A (ja) * 2000-12-12 2002-06-28 Hitachi Telecom Technol Ltd 音声通信端末装置
JP2002271482A (ja) * 2001-03-07 2002-09-20 Nec Access Technica Ltd 移動電話機
JP2004165865A (ja) * 2002-11-12 2004-06-10 Mitsubishi Electric Corp 電話機及び受話音量調整方法
JP2004242050A (ja) * 2003-02-06 2004-08-26 Nec Corp 無線端末及びその受話音量調節方法
JP2006519554A (ja) * 2003-02-27 2006-08-24 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 可聴性の改善

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4075435A (en) * 1976-01-30 1978-02-21 The Vsc Company Method and apparatus for automatic dictation playback control
CA2056110C (en) 1991-03-27 1997-02-04 Arnold I. Klayman Public address intelligibility system
US5432859A (en) 1993-02-23 1995-07-11 Novatel Communications Ltd. Noise-reduction system
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
US6944474B2 (en) * 2001-09-20 2005-09-13 Sound Id Sound enhancement for mobile phones and other products producing personalized audio for users
US7440900B2 (en) * 2002-03-15 2008-10-21 Microsoft Corporation Voice message processing system and method
JP4282317B2 (ja) * 2002-12-05 2009-06-17 アルパイン株式会社 音声通信装置
JP4583781B2 (ja) 2003-06-12 2010-11-17 アルパイン株式会社 音声補正装置
KR20060090821A (ko) * 2003-09-30 2006-08-16 코닌클리케 필립스 일렉트로닉스 엔.브이. 생체 측정 임계값을 적응적으로 설정하는 시스템 및 방법
US8428661B2 (en) * 2007-10-30 2013-04-23 Broadcom Corporation Speech intelligibility in telephones with multiple microphones

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11196174A (ja) * 1997-12-25 1999-07-21 Matsushita Electric Ind Co Ltd 音声信号送受話装置及び受話音量制御方法
JP2002185572A (ja) * 2000-12-12 2002-06-28 Hitachi Telecom Technol Ltd 音声通信端末装置
JP2002271482A (ja) * 2001-03-07 2002-09-20 Nec Access Technica Ltd 移動電話機
JP2004165865A (ja) * 2002-11-12 2004-06-10 Mitsubishi Electric Corp 電話機及び受話音量調整方法
JP2004242050A (ja) * 2003-02-06 2004-08-26 Nec Corp 無線端末及びその受話音量調節方法
JP2006519554A (ja) * 2003-02-27 2006-08-24 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 可聴性の改善

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011023959A (ja) * 2009-07-15 2011-02-03 Alpine Electronics Inc 音声明瞭度改善システムおよび音声明瞭度改善方法
WO2011077509A1 (ja) * 2009-12-21 2011-06-30 富士通株式会社 音声制御装置、及び音声制御方法
JP5331901B2 (ja) * 2009-12-21 2013-10-30 富士通株式会社 音声制御装置
JP2014168228A (ja) * 2013-01-30 2014-09-11 Yamaha Corp 放音装置
JP2016197200A (ja) * 2015-04-06 2016-11-24 日本電信電話株式会社 不正音声入力判定装置、音声信号処理装置、方法及びプログラム

Also Published As

Publication number Publication date
US8751221B2 (en) 2014-06-10
JP4968147B2 (ja) 2012-07-04
EP2107558A1 (en) 2009-10-07
US20090248409A1 (en) 2009-10-01

Similar Documents

Publication Publication Date Title
JP4968147B2 (ja) 通信端末、通信端末の音声出力調整方法
EP3815082B1 (en) Adaptive comfort noise parameter determination
WO2021012872A1 (zh) 一种编码参数调控方法、装置、设备及存储介质
JP5151762B2 (ja) 音声強調装置、携帯端末、音声強調方法および音声強調プログラム
CN109429147B (zh) 电子装置与电子装置的控制方法
US20060126865A1 (en) Method and apparatus for adaptive sound processing parameters
US20070055513A1 (en) Method, medium, and system masking audio signals using voice formant information
EP3471099B1 (en) Speech processing method and terminal
EP3605529B1 (en) Method and apparatus for processing speech signal adaptive to noise environment
US20080228473A1 (en) Method and apparatus for adjusting hearing intelligibility in mobile phones
US20130013304A1 (en) Method and Apparatus for Environmental Noise Compensation
EP2700161B1 (en) Processing audio signals
JP6073456B2 (ja) 音声強調装置
GB2375935A (en) Speech quality indication
JP2009020291A (ja) 音声処理装置および通信端末装置
EP2743923B1 (en) Voice processing device, voice processing method
JP2005534257A (ja) バックグラウンドノイズの高速な動的推定用の方法
JP2008309955A (ja) ノイズサプレス装置
EP2663979B1 (en) Processing audio signals
JP2003514264A (ja) 雑音抑圧装置
JP6197367B2 (ja) 通話装置及びマスキング音生成プログラム
KR20070084312A (ko) 적응 시간-기반 잡음 억제
KR101581950B1 (ko) 이동 단말에서 수화 음성 신호 처리 장치 및 방법
JP2005331783A (ja) 音声強調装置,音声強調方法および通信端末
EP4362015A1 (en) Near-end speech intelligibility enhancement with minimal artifacts

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101216

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120306

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120319

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150413

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees