JP2016531332A - 音声処理システム - Google Patents

音声処理システム Download PDF

Info

Publication number
JP2016531332A
JP2016531332A JP2016543464A JP2016543464A JP2016531332A JP 2016531332 A JP2016531332 A JP 2016531332A JP 2016543464 A JP2016543464 A JP 2016543464A JP 2016543464 A JP2016543464 A JP 2016543464A JP 2016531332 A JP2016531332 A JP 2016531332A
Authority
JP
Japan
Prior art keywords
speech
voice
filter
dynamic range
input unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016543464A
Other languages
English (en)
Other versions
JP6290429B2 (ja
Inventor
イオアニス・スタイリアノウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JP2016531332A publication Critical patent/JP2016531332A/ja
Application granted granted Critical
Publication of JP6290429B2 publication Critical patent/JP6290429B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02085Periodic noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】騒音環境下において、視聴者が音声信号をより明瞭に視聴することが可能な音声処理システムを提供する。【解決手段】実施形態に係る音声処理システムは、騒音環境下で出力すべき音声の明瞭度を強調する。このシステムは、強調すべき音声を受信する音声入力部と、前記騒音環境に関するリアルタイム情報を受信する騒音入力部と、強調された音声を出力する強調音声出力部と、前記音声入力部から受信した音声を、前記強調音声出力部によって出力すべき強調音声に変換するプロセッサとを備える。前記プロセッサは、前記音声入力部から受信された前記音声にスペクトル整形フィルタを適用し、前記スペクトル整形フィルタの出力にダイナミックレンジ圧縮フィルタを適用し、前記騒音入力部でのSN比(信号対雑音比)を測定する。前記スペクトル整形フィルタ及び前記ダイナミックレンジ圧縮フィルタは、制御パラメータを夫々有する。前記スペクトル整形フィルタ及び前記ダイナミックレンジ圧縮フィルタの少なくとも1つの前記制御パラメータは、測定されたSN比に従ってリアルタイムで更新される。【選択図】図1

Description

本発明の実施形態は、音声処理システムに関する。
騒音環境の中で音声を理解する必要が度々生じる。例えば、人混みの多い場所で携帯電話を用いている時、携帯端末上でメディアファイルを聞いている時、駅等で館内放送を聞いている時、である。このような環境において、より明瞭に音声信号を強調することが望まれる。
US2009/0287496 A1 EP1286334 A2
JOKINEN EMMA ET AL: "Signal-to-noise ratio adaptive post-filtering method for intelligibility enhancement of telephone speech", THE JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, AMERICAN INSTITUTE OF PHYSICS FOR THE ACOUSTICAL SOCIETY OF AMERICA, NEW YORK, NY, US, vol.132, no.6, 1 December 2012, pages 3990-4001 ZORILA ET AL: "Speech-in-noise intelligibility improvement based on spectral shaping and dynamic range compression", PROCEEDINGS INTERSPEECH 2012, 9 September 2012, pages 635-638
騒音環境下において、視聴者が音声信号をより明瞭に視聴することが可能な音声処理システムを提供することを目的とする。
実施形態に係る音声処理システムは、騒音環境下で出力すべき音声の明瞭度を強調する。このシステムは、強調すべき音声を受信する音声入力部と、前記騒音環境に関するリアルタイム情報を受信する騒音入力部と、強調された音声を出力する強調音声出力部と、前記音声入力部から受信した音声を、前記強調音声出力部によって出力すべき強調音声に変換するプロセッサとを備える。前記プロセッサは、前記音声入力部から受信された前記音声にスペクトル整形フィルタを適用し、前記スペクトル整形フィルタの出力にダイナミックレンジ圧縮フィルタを適用し、前記騒音入力部でのSN比(信号対雑音比)を測定する。前記スペクトル整形フィルタ及び前記ダイナミックレンジ圧縮フィルタは、制御パラメータを夫々有する。前記スペクトル整形フィルタ及び前記ダイナミックレンジ圧縮フィルタの少なくとも1つの前記制御パラメータは、測定されたSN比に従ってリアルタイムで更新される。
1実施形態に係るシステムの概要図。 1実施形態に係るシステムであって、スペクトル整形フィルタとダイナミックレンジ圧縮ステージを共に示す構成図。 図2のスペクトル整形フィルタとダイナミックレンジ圧縮ステージの構成図。 スペクトル整形フィルタのより詳細な構成図。 ダイナミックレンジ圧縮ステージのより詳細な構成図。 入力・出力包絡特徴曲線を示すグラフ図。 音声信号と、ダイナミックレンジ圧縮ステージからの出力信号を示す波形図。 SN比に基づいて入力・出力包絡特徴曲線を適用したグラフ図。 他の実施例に係るシステムであって、複数出力と共に示す構成図。
以下、図面を参照しながら、発明を実施するための実施形態について説明する。
図1は音声明瞭度強調システムの構成図である。
システム1は、プログラム5を備えるプロセッサ3を有する。このプロセッサ3は、入力音声及びこの音声が出力される場所の騒音条件の情報を獲得し、騒音の存在下において音声明瞭度が増加するように音声を強調する。記憶部7はプログラム5によって用いられるデータを格納する。格納されたデータの詳細は後述する。
更にシステム1は入力モジュール11と出力モジュール13を備える。入力モジュール11は、強調すべき音声に関連したデータ入力、及び強調音声が出力されるべき場所のリアルタイム(実時間)雑音条件に関するデータの収集入力、に接続される。入力データのタイプとしては多くの形式を採ってよく、後程詳しく説明する。データ入力部15はユーザに直接データ入力を許容するためのインタフェースであってよい。又は、データ入力部15は外部記憶媒体やネットワークからデータを受信するための受信機であってもよい。
出力モジュール13の出力は音声出力部17に接続される。
使用上、システム1はデータ入力部15を介してデータを受信する。プロセッサ3で実行されるプログラム5は、図2〜8を参照して後述する手法で入力音声を強調する。
図2はプログラム5による処理ステップを示すフロー図である。本実施例においては、音声の明瞭度を強調するため又は高めるため、システム1はスペクトル整形ステージS21とダイナミックレンジ圧縮ステージS23を含む。これらのステージを図3に示す。スペクトル整形ステージS21の出力はダイナミックレンジ圧縮ステージS23へ供給される。
ステップS21は周波数領域において作用し、その目的は音声信号の明確さ及び鮮明さを増加させることにある。結果として、鮮明条件(非騒音)の下であっても音声の明瞭度を向上できる。これはフォルマント情報(鮮明音声における以下を参照)を整形することや、前強調フィルタ(ロンバルディア音声における以下を参照)を用いたスペクトル傾斜を減少することにより、実行できる。このサブシステムの特徴は、音声フレーム発声(有声)の度合に適用される。
ステップS21とS23を図3に詳細に示す。この目的の為に、いくつかのスペクトル演算が全て組み合わされて、2ステージを含むアルゴリズムへ適用される。
(i)(図4に示す)適応スペクトル整形ステージS31(音声セグメントの発声特徴に対する)
(ii)(図4に示す)固定スペクトル整形ステージS33
本実施例においては、スペクトル明瞭度の向上は適応スペクトル整形ステージS31内で適用される。本実施例においては、適応スペクトル整形ステージはフォルマント先鋭化である第1変形、及びスペクトル傾斜平坦化である第2変形から成る。第1変形及び第2変形の両方は、音声の発声特徴に適用され、音声フレーム毎の発声確率として与えられる。これらの適応フィルタステージは、処理済音声の人工的不自然さ(特に音声の摩擦音、無音、又は他の静寂領域)を抑圧するのに用いられる。
与えられた音声フレームにおいて、ステップS35で判定される発声確率は以下の式で定義される。
ここで、α=1/max(Pv(t))は正規化パラメータ、rms(t)とz(t)はRMS値と零交差率を夫々示す。
音声フレーム
は以下の式で定義される。
この音声フレームは、各解析時点tiを中心とする矩形ウィンドウwr(t)を用いた音声信号s(t)から抽出される。本実施例においてウィンドウは、話者の性別(男女夫々における8:3msと4:5ms)の平均周波数期間の2.5倍の長さである。本実施例において、解析フレームは各10ms長で抽出される。上記2変形は適応スペクトル整形を実行するために用いられる(発声局所確率への)適応フィルタである。
先ずフォルマント整形フィルタを適用する。このフィルタの入力は、ハニング窓(発声確率を計算するために特定されるものと同長である)を用いて音声フレーム
を抽出することで得られる。そして、ステップS37においてN点離散フーリエ変換(DFT)を適用する。
そして、各フレームiについて振幅スペクトル包絡線E(ωk;ti)を推定する。振幅スペクトル包絡線は(3)式の振幅スペクトルとステップS39のスペクトル包絡線推定ボコーダ(SEEVOC)アルゴリズムを用いて推定される。ケプストラム分析によるスペクトル包絡線のフィッティングのため、ケプストラム係数Cの1セットを準備する。
この式(4)はスペクトル傾斜T(ω,ti)を計算するのに用いられる。
こうして適応フォルマント整形フィルタは以下のように定義される。
式(6)で定義されたフィルタを用いて実行されたフォルマント強調は、発声局所確率Pv(ti)とβパラメータ(Hsの余分な騒音依存適応性を考慮する)によって制御される。
本実施例において、βは固定されている。他実施例において、βは音声信号が出力されるべき環境のSN比(信号対雑音比)に従って制御される。
例えば、βはβ0の固定値に設定してもよい。本実施例では、β0は0.25又は0.3である。もしβにノイズが適用されれば、例えばSN比(SNR)は以下となる。
if SNR<=0, β = β0
if 0<SNR<=15, β = β0*(1-SNR/15)
if SNR>15, β =0
上記の例では、βとSNRの間で線形関係を仮定するが、非線形関係を用いてもよい。
ステップS31で適用される(発声確率への)第2適応フィルタは、スペクトル傾斜を減少するのに用いられる。本実施例では、プレ強調フィルタは以下のように表される。
ここで16kHzのサンプル周波数に対して、ω0=0.125πである。本実施例において、gは固定されている。他実施例において、gは音声信号が出力されるべきSNR環境に依存する。
例えば、gはg0の固定値に設定してもよい。本実施例においてg0は0.3である。もしgにノイズが適用されれば以下の例となる。
if SNR<=0, g = g0
if 0<SNR<=15, g = g0*(1-SNR/15)
if SNR>15, g =0
上記の例では、gとSNRの間で線形関係を仮定するが、非線形関係を用いてもよい。
固定化スペクトル整形ステップ(S33)は、その再生中にローパス演算から音声信号を保護するために用いられるフィルタHr(ω;ti)である。周波数において、Hrは12dB/オクターブにより1000Hzと4000Hzの間のエネルギーを増加させ、6dB/オクターブにより500Hz未満の周波数を減少させる。有音セグメント及び無音セグメントの両方はローパス演算によって同等に影響される。本実施例において、このフィルタは発声確率とは関係しない。
最後に、振幅スペクトルは以下のように修正される。
その後、修正済スペクトル信号は、図4に示す原位相スペクトルを用いて、反転DFT(S41)手段と重複加算手段によって再構成される。
上記のスペクトル整形ステップにおいて、パラメータβとgは、音声が出力されるべき環境のSN比についてのリアルタイム(実時間)情報に従って制御してもよい。
図2に戻って、ダイナミックレンジ圧縮ステージS23を、図5を参照して詳細に説明する。
信号の時間包絡線は、解析信号の振幅を用いてS51において推定される。
式(9)において、
は音声信号s(n)のヒルベルト変換を表す。更に、式(9)の推定が高速変動を有するため、新たな推定e(n)が、話者の性別の平均ピッチで与えられた次数と、動き平均演算に基づいて計算される。1実施例では、平均周波数期間は男性の方が長い為、話者性別は男性であると仮定する。しかしながら上記したように他実施例では、システムは短い周波数期間を女性話者に特に適用できる。
次に、この信号はDRCダイナミックステージS53へ送られる。本実施例では、DRCダイナミックステージS53の間、信号の包絡線が2msリリースでほぼ同時のアタックタイム定数で動的に圧縮される。
式(10)において、ar=0.15、aa=0.0001、である。DRC動的ステージS53に続いて、入力・出力包絡線特徴(IOEC)で制御されるDRC静的(振幅圧縮)ステージS55が適用される。
図6に示すIOEC曲線は入力デシベルに対する所望の出力デシベルのグラフ図である。単一ゲインがまっすぐな点線として示され、DRCを実行するための所望のゲインが実線として示される。この曲線は、包絡線変動を減少するための時間変化ゲインを生成するのに用いられる。これを実行するため、先ず動的に圧縮された
がデシベルに置換される。
参照レベルe0を信号包絡線の最大レベル0.3に設定し、SNRの広レンジに対する良好な聴取結果を選択する。そして、IOECを式(11)へ適用することでeout(n)が生成され、時間変化ゲインが計算される。
式(12)により、図7(b)に示すDRC修正済の音声信号が生成される。図7(a)は修正前の音声を示す。
最終ステップとして、sg(n)の全パワーが未修正の音声信号の1つと一致するように変化させる。
本実施例においては、IOEC曲線が、音声を出力すべき環境のSNRによって制御される。
図8において、現在のSNRλが特定最小値λminから最大値λmaxに向かって増加するにつれて、IOECが図6に示す曲線から第1象限角の二等分線に向かって修正される。λmaxで非圧縮が続いている間、λminで信号包絡線が実線で示される基線DRCにより圧縮される。その間、異なる変形戦略がSNR適用IOECのために用いられてもよい。レベルλmaxとλminは、ノイズの各タイプ用の入力パラメータとして与えられる。例えば、ノイズのSSNタイプ用に、これらレベルを-9dBと9dBで選択してもよい。
区分線形IOEC(図8に示す1つ)は、M点
の離散セットを用いて得られる。更にxiとyiは、点iでのIOECの入力・出力レベルを夫々示す。又、図8で
として示されるM点の離散化グループは、与えられたSNRλに関して修正されたIOECをパラメータ化する。ここで、ノイズ適用IOECセグメント
は以下の解析式を有する。
式(14)において、a(λ)はセグメントの傾きである。
式(15)において、b(λ)はセグメントのオフセットである。
2実施例を以下説明する。ここで、効果的なモーフィング方法の2タイプ(λを越えた線形・非線形(戦略)傾き変化)が夫々IOECを制御するために選択される。本実施例において線形関係が導入されるが、以下の式をaに用いてもよい。
非線形(戦略的)形式においては、以下の式をaに用いてもよい。
式(18)において、λ0は戦略的オフセットであり、σ0は戦略的傾きである。
本実施例では、λ0とσ0はノイズの各タイプ(例えばノイズのSSNタイプについて、λ0とσ0を-6dBと2として夫々選んでもよい)について入力パラメータとして与えられる定数である。他実施例において、λ0とσ0は測定済のSNRに従って制御してもよい。例えば、SNR上の線形関係であるβとgについて上述したように、これらを制御してもよい。
最後に、
として、そのセグメント
の夫々の傾きとして式(17)又は(18)を考慮して、適応IOECを与えられたλについて計算する。そして(14)式を用いて、新たな区分線形IOECを生成する。
心理的測定は以下を指摘している。つまり音声明瞭度は、上記実施例で用いたタイプの論理関数に続いて起こるSNRで変化する。
上記実施例において、スペクトル整形ステージS21とダイナミックレンジ圧縮ステージS23は非常に高速な処理であり、知覚可能な高品質な修正音声ではリアルタイム実行を許容する。
上記実施例に基づくシステムでは、特に低SNR用の音声明瞭ゲインによって強調性能を示す。これらは高SNRで、修正済音声信号内の聴取可能な人工音を抑圧する。高SNRで、音声(無音など)の低エネルギーセグメントの振幅増加は、知覚特質と明瞭度の低下をもたらす。
上記実施例に基づくシステムと方法では、ノイズ条件へダイナミックレンジ圧縮を適用する軽佻・簡単な高速方法を提供する。ここでは、非適用DRCから低SNRでの高い音声明瞭ゲインを受け継いでいるため、高SNRでの知覚特質と明瞭度が向上される。
図2に戻る。図3〜8を参照してステージS21とS23が詳細説明されたところの、全システムを示す。
もし音声が存在しなければ、このシステムはオフ状態となる。音声検出ステージS61において、音活動検出モジュールが音声の存在を検出するために設けられる。音声が検出された時、その音声は強調される。音活動検出モジュールとして、標準音活動検出(VAD)アルゴリズムを用いてもよい。
その音声は音声出力部63で出力される。センサが音声出力部63に設けられ、この音声出力部でのノイズおよびSNRが測定される。音声出力部63で決定されたSNRはステージS21でβとgを計算するのに用いられる。同様に、SNRλは、図5に関連して上述したように、ステージS23を制御するのに用いられる。
現フレームtのSNRは、過去の時点(t-1, t-2, t-3...)で既に観測されたように、ノイズの過去フレームから推定される。本実施例において、このSNRは、ステージS21とS23の適用による高速変化を避けるため、長ウィンドウを用いて推定される。例として、ウィンドウ長は1sから3sとなる。
図2のシステムは、測定されたSNRに従って、ステージS21の適応フィルタとステップS23のIOEC曲線を更新するという点で適応性がある。しかしながら、図2のシステムは、信号出力部63のノイズに依存しない入力音声信号に依存して、ステージS21とS23を適合させる。例えばステージS23において、発声の最大確率はn秒毎に更新される。ここで、nは2から10までの値である。1実施例においては、nは3から5である。
上記実施例ではステージS23において、e0は信号包絡線の最大値の0.3倍に設定された。この包絡線は入力信号に依存して継続的に更新可能である。又、この包絡線はn秒毎に更新される。ここで、nは2から10までの値である。1実施例においては、nは3から5である。
発声確率の最大値と信号包絡線の最大値の各初期値はデータベース65から得られる。このデータベース65では、音声信号が事前に解析され、これらのパラメータが抽出されて格納される。これらのパラメータは音声信号と共にパラメータ更新ステージS67に送られる。パラメータ更新ステージS67では、これらのパラメータを更新する。
本実施例のダイナミックレンジ圧縮においては、エネルギーが時間外で分配される。このエネルギー修正は以下の条件で強制される。修正前後の全エネルギーが同じであるべきである(さもなければ信号(音量)のエネルギーを増加することで明瞭度を増加できる)。修正済信号は事前に未知のため、エネルギー貯蔵ボックス69が準備される。ボックス69において、音声の最大エネルギー部分からエネルギーが取得され、貯蔵され(あたかも銀行におけるように)、音声の少ないエネルギー部分に分配される。音声の少ないエネルギー部分はノイズの影響を非常に受けやすい。このようにエネルギー分配は、全ての修正済信号がノイズレベルを越えるのを手助けする。
本実施例において、これは式(13)を以下のように修正することで実行できる。
ここでα(n)は、全ての修正済信号がノイズレベルを越えるように、エネルギー貯蔵ボックスに蓄えられた値から計算される。
ここでE(sg(n))は、フレーム(n)に対する強調信号sg(n)のエネルギーであり、E(Noise(n))は同フレームのノイズのエネルギーである。
もしE(sg(n))≦E(Noise(n))であれば、信号の低エネルギー部分に対し、これらがノイズレベルを越えるように、システムがエネルギーを更に分配する。しかしながら、エネルギー貯蔵ボックスに格納されたエネルギーEbがある場合のみ、システムがエネルギーを更に分配してもよい。
もしゲインg(n)<1であれば、入力信号と強調信号のエネルギー差(E(s(n)-E(sg(n))がエネルギー貯蔵ボックスへ格納される。エネルギー貯蔵ボックスは、格納エネルギーEbを供給するため、g(n)<1であるエネルギー差の総和を格納する。
E(sg(n))≦E(Noise(n))の時のα(n)を計算するために、αの範囲をαiとして計算する。
α(n)に対する第2式α2(n)は、Ebを用いて計算される。
ここでγは、0<γ≦1が単一フレームに割り当てる貯蔵エネルギーの割合を表すように選ばれたパラメータである。本実施例では、γ=0.2であるが、他の値を用いることもできる。
しかしながら、以下でもよい。
エネルギーが上記のように分配される時、エネルギー貯蔵ボックスEbの新値が以下となるように、エネルギーがエネルギー貯蔵ボックスEbより移される。
α(n)が計算された時、それはステップS71における強調音声信号に適用される。
図2のシステムは、出力としての音声を生成する装置(携帯電話、テレビジョン、タブレット、カーナビゲーション等)、又は音声を受け取る装置(聴取補助等)となり得る。このシステムは館内放送装置にも適用可能である。このシステムにおいて、数多くの場所(例えば駅の構内・構外、空港やビジネスラウンジの主エリア)に複数の音声出力(例えばスピーカ)があってもよい。これらの環境間ではノイズ条件が大きく変動する。従って図2のシステムは、図9に示すように1または複数の音声出力を生成するように変形できる。
図9のシステムは音声入力部101を示して簡略化される。ここからの入力音声は第1サブシステム103と第2サブシステム105に供給するように分離される。第1サブシステム及び第2サブシステムの両方は、スペクトル整形ステージS21とダイナミックレンジ圧縮ステージS23を含む。スペクトル整形ステージS21とダイナミックレンジ圧縮ステージS23は、図2から図8を参照して説明したものと同じである。両方のサブシステムは、音声出力部63を含む。第1サブシステム103の音声出力部63でのSNRは、β・gを計算するため、及び第1サブシステム103のステージS21・S23用のIOEC曲線を計算するために用いられる。第2サブシステム105の音声出力部63でのSNRは、β・gを計算するため、及び第2サブシステム105のステージS21・S23用のIOEC曲線を計算するために用いられる。パラメータ更新ステージS67は、入力音声信号から計算されたパラメータを供給する時、両サブシステムに同じデータを供給するために用いられる。簡略化のため、音活動検出モジュールやエネルギー貯蔵ボックスは図9から省略したが、このシステム内に存在してもよい。
上述した各実施例に係るシステムにおいては、出力音声が騒音環境に適応される。更に出力音声が、変化する騒音環境にリアルタイムで適応するように、継続的に更新される。例えば、もし上記システムが携帯電話に組み込まれ、ユーザがノイズの多い部屋の外側に立っている場合、該部屋へのドアが開いているか閉まっているかに応じて音声を強調するように上記システムが適応する。同様に、上記システムが鉄道駅の拡声装置に用いられる場合、汽車が発着する時の変化する騒音条件に、上記システムがリアルタイムで適応する。
更に、上記システムによれば、スペクトル整形フィルタ及びダイナミックレンジ圧縮フィルタのいずれか、又は両方を騒音環境に適応できる。
上述した各実施例に係る方法は、ソフトウェアで実行できる。又、上記実施例は、汎用コンピュータに対して最適な搬送記憶媒体上で提供できるコンピュータコードを含む。該搬送記憶媒体は、フロッピーディスク、CD-ROM、磁気装置、プログラマブルメモリ装置、のような記憶媒体、又は任意信号(例えば、電気的信号、光学的信号、マイクロ波信号)のような過渡媒体、を含む。
これら実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、様々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同時に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
1・・・システム
3・・・プロセッサ
5・・・プログラム
7・・・記憶部
11・・・入力モジュール
13・・・出力モジュール
15・・・データ入力部
17・・・音声出力部
63・・・音声出力部
65・・・データベース
69・・・エネルギー貯蔵ボックス
101・・・音声入力部
103・・・第1サブシステム
105・・・第2サブシステム

Claims (23)

  1. 騒音環境下で出力すべき音声の明瞭度を強調するシステムであって、
    強調すべき音声を受信する音声入力部と、
    前記騒音環境に関するリアルタイム情報を受信する騒音入力部と、
    強調された音声を出力する強調音声出力部と、
    前記音声入力部から受信した音声を、前記強調音声出力部によって出力すべき強調音声に変換するプロセッサと、を備え、
    前記プロセッサは、
    前記音声入力部から受信された前記音声にスペクトル整形フィルタを適用し、
    前記スペクトル整形フィルタの出力にダイナミックレンジ圧縮フィルタを適用し、
    前記騒音入力部でのSN比(信号対雑音比)を測定するものであり、
    前記スペクトル整形フィルタ及び前記ダイナミックレンジ圧縮フィルタは、制御パラメータを夫々有し、
    前記スペクトル整形フィルタ及び前記ダイナミックレンジ圧縮フィルタの少なくとも1つの前記制御パラメータは、測定されたSN比に従ってリアルタイムで更新されることを特徴とする音声処理システム。
  2. 前記プロセッサは、前記ダイナミックレンジ圧縮フィルタの前記制御パラメータを更新する、請求項1に記載の音声処理システム。
  3. 前記ダイナミックレンジ圧縮フィルタの前記制御パラメータは、前記ダイナミックレンジ圧縮フィルタによって適用されるゲインを制御するのに用いられる、請求項2に記載の音声処理システム。
  4. 前記ダイナミックレンジ圧縮フィルタは、前記音声入力部で受信された音声のエネルギーを再分配し、
    前記制御パラメータは、前記SN比の増加に伴い、エネルギーの再分配を徐々に抑制するように更新されるものである、請求項3に記載の音声処理システム。
  5. 前記制御パラメータと前記SN比の間には線形関係が存在する、請求項3記載の音声処理システム。
  6. 前記制御パラメータと前記SN比の間には非線形関係が存在する、請求項3に記載の音声処理システム。
  7. 前記システムは更にエネルギー貯蔵ボックスを備え、
    前記エネルギー貯蔵ボックスは前記システム内に備えられたメモリであり、強調前に前記音声入力部で受信された前記音声の全エネルギーを格納するものであり、
    前記プロセッサは、前記エネルギー貯蔵ボックスを用いて、前記音声の高エネルギー部分から低エネルギー部分へエネルギーを再分配する、請求項1に記載の音声処理システム。
  8. 前記スペクトル整形フィルタは、適応スペクトル整形ステージと固定スペクトル整形ステージを有する、請求項7に記載の音声処理システム。
  9. 前記適応スペクトル整形ステージは、フォルマント整形フィルタと、スペクトル傾斜を減少するためのフィルタとを有する、請求項8に記載の音声処理システム。
  10. 第1制御パラメータが前記フォルマント整形フィルタを制御するために供給され、
    第2制御パラメータが前記スペクトル傾斜を減少するための前記フィルタを制御するために供給され、
    前記第1制御パラメータ及び第2制御パラメータは前記SN比に従って更新されるものである、請求項9に記載の音声処理システム。
  11. 前記第1制御パラメータ及び第2制御パラメータは前記SN比に依存した線形性を有する、請求項10に記載の音声処理システム。
  12. 前記システムは、騒音環境に依存しない前記入力音声に従って、前記スペクトル整形フィルタを修正する、請求項1に記載の音声処理システム。
  13. 前記プロセッサは、前記スペクトル整形フィルタの適用時に、発声最大確率を予測し、
    前記システムは、m秒毎に前記発声最大確率を更新し、
    mは2から10までの値である、請求項12に記載の音声処理システム。
  14. 前記システムは、騒音環境に依存しない前記入力音声に従って、前記ダイナミックレンジ圧縮フィルタを修正する、請求項1に記載の音声処理システム。
  15. 前記プロセッサは、前記ダイナミックレンジ圧縮フィルタの適用時に、前記音声入力部で受信された入力音声の信号包絡線の発声最大確率を予測し、
    前記システムは、m秒毎に前記入力音声の前記信号包絡線の前記発声最大確率を更新し、
    mは2から10までの値である、請求項14に記載の音声処理システム。
  16. 前記SN比は、フレーム毎に予測されるものであり、
    直前フレームの前記SN比が、現フレームの前記制御パラメータを更新するのに用いられる、請求項1に記載の音声処理システム。
  17. 前記SN比は、1から3秒の長さで各フレームに対して測定される、請求項16に記載の音声処理システム。
  18. 前記システムは複数の場所において強調音声を出力し、前記複数の場所に対応した複数の騒音入力部を備え、
    前記プロセッサは、各騒音入力部に対してスペクトル整形フィルタとダイナミックレンジ圧縮フィルタの組が存在するように、複数のスペクトル整形フィルタと、これに対応する複数のダイナミックレンジ圧縮フィルタを適用し、
    前記プロセッサは、対応する騒音入力部から測定されたSN比に従って、スペクトル整形フィルタとダイナミックレンジ圧縮フィルタの組の前記制御パラメータを更新する、請求項1に記載の音声処理システム。
  19. 出力すべき音声の明瞭度を強調するシステムであって、
    強調すべき音声を受信する音声入力部と、
    強調された音声を出力する強調音声出力部と、
    前記音声入力部から受信した音声を、前記強調音声出力部によって出力すべき強調音声に変換するプロセッサと、を備え、
    前記プロセッサは、
    前記音声入力部から受信された前記音声にスペクトル整形フィルタを適用し、
    前記スペクトル整形フィルタの出力にダイナミックレンジ圧縮フィルタを適用するものであり、
    前記スペクトル整形フィルタ及び前記ダイナミックレンジ圧縮フィルタは、制御パラメータを夫々有し、
    前記スペクトル整形フィルタ及び前記ダイナミックレンジ圧縮フィルタの少なくとも1つの前記制御パラメータは、前記音声入力部で受信された音声に従ってリアルタイムで更新されることを特徴とする音声処理システム。
  20. 騒音環境下で出力すべき音声の明瞭度を強調する方法であって、
    音声入力部から、強調すべき音声を受信するステップと、
    騒音入力部から、前記騒音環境に関するリアルタイム情報を受信するステップと、
    受信した前記音声を強調音声に変換するステップと、
    強調された音声を出力するステップと、を備え、
    前記受信するステップは、
    前記騒音入力部でのSN比を測定するステップと、
    前記音声入力部から受信された前記音声にスペクトル整形フィルタを適用するステップと、
    前記スペクトル整形フィルタの出力にダイナミックレンジ圧縮フィルタを適用するステップと、を備え、
    前記スペクトル整形フィルタ及び前記ダイナミックレンジ圧縮フィルタは、制御パラメータを夫々有し、
    前記スペクトル整形フィルタ及び前記ダイナミックレンジ圧縮フィルタの少なくとも1つの前記制御パラメータは、測定されたSN比に従ってリアルタイムで更新されることを特徴とする音声処理方法。
  21. 音声の明瞭度を強調する方法であって、
    音声入力部から、強調すべき音声を受信するステップと、
    前記音声入力部から受信した音声を、強調音声に変換するステップと、
    強調された音声を出力するステップと、を備え、
    前記変換するステップは、
    前記音声入力部から受信された前記音声にスペクトル整形フィルタを適用するステップと、
    前記スペクトル整形フィルタの出力にダイナミックレンジ圧縮フィルタを適用するステップと、を備え、
    前記スペクトル整形フィルタ及び前記ダイナミックレンジ圧縮フィルタは、制御パラメータを夫々有し、
    前記スペクトル整形フィルタ及び前記ダイナミックレンジ圧縮フィルタの少なくとも1つの前記制御パラメータは、前記音声入力部で受信された音声に従ってリアルタイムで更新されることを特徴とする音声処理方法。
  22. 請求項20の方法をコンピュータに実行させるためのコンピュータ読み取り可能コードを格納した搬送記憶媒体。
  23. 請求項21の方法をコンピュータに実行させるためのコンピュータ読み取り可能コードを格納した搬送記憶媒体。
JP2016543464A 2013-11-07 2014-11-07 音声処理システム Active JP6290429B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1319694.4A GB2520048B (en) 2013-11-07 2013-11-07 Speech processing system
GB1319694.4 2013-11-07
PCT/GB2014/053320 WO2015067958A1 (en) 2013-11-07 2014-11-07 Speech processing system

Publications (2)

Publication Number Publication Date
JP2016531332A true JP2016531332A (ja) 2016-10-06
JP6290429B2 JP6290429B2 (ja) 2018-03-07

Family

ID=49818293

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016543464A Active JP6290429B2 (ja) 2013-11-07 2014-11-07 音声処理システム

Country Status (6)

Country Link
US (1) US10636433B2 (ja)
EP (1) EP3066664A1 (ja)
JP (1) JP6290429B2 (ja)
CN (1) CN104823236B (ja)
GB (1) GB2520048B (ja)
WO (1) WO2015067958A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017003774A (ja) * 2015-06-10 2017-01-05 富士通株式会社 音声生成装置、音声生成方法、及びプログラム
JP2020064151A (ja) * 2018-10-16 2020-04-23 東京瓦斯株式会社 再生システムおよびプログラム

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2536727B (en) * 2015-03-27 2019-10-30 Toshiba Res Europe Limited A speech processing device
US9799349B2 (en) * 2015-04-24 2017-10-24 Cirrus Logic, Inc. Analog-to-digital converter (ADC) dynamic range enhancement for voice-activated systems
CN105913853A (zh) * 2016-06-13 2016-08-31 上海盛本智能科技股份有限公司 近场集群对讲回声消除的系统及实现方法
WO2017222356A1 (ko) * 2016-06-24 2017-12-28 삼성전자 주식회사 잡음 환경에 적응적인 신호 처리방법 및 장치와 이를 채용하는 단말장치
CN106971718B (zh) * 2017-04-06 2020-09-08 四川虹美智能科技有限公司 一种空调及空调的控制方法
GB2566760B (en) 2017-10-20 2019-10-23 Please Hold Uk Ltd Audio Signal
CN108806714B (zh) * 2018-07-19 2020-09-11 北京小米智能科技有限公司 调节音量的方法和装置
CN110085245B (zh) * 2019-04-09 2021-06-15 武汉大学 一种基于声学特征转换的语音清晰度增强方法
CN110660408B (zh) * 2019-09-11 2022-02-22 厦门亿联网络技术股份有限公司 一种数字自动控制增益的方法和装置
EP4134954B1 (de) * 2021-08-09 2023-08-02 OPTImic GmbH Verfahren und vorrichtung zur audiosignalverbesserung

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090287496A1 (en) * 2008-05-12 2009-11-19 Broadcom Corporation Loudness enhancement system and method

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7089181B2 (en) 2001-05-30 2006-08-08 Intel Corporation Enhancing the intelligibility of received speech in a noisy environment
DE10137348A1 (de) * 2001-07-31 2003-02-20 Alcatel Sa Verfahren und Schaltungsanordnung zur Geräuschreduktion bei der Sprachübertragung in Kommunikationssystemen
DE602006005684D1 (de) * 2006-10-31 2009-04-23 Harman Becker Automotive Sys Modellbasierte Verbesserung von Sprachsignalen
US20090281803A1 (en) * 2008-05-12 2009-11-12 Broadcom Corporation Dispersion filtering for speech intelligibility enhancement
US8538749B2 (en) * 2008-07-18 2013-09-17 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for enhanced intelligibility
US8515097B2 (en) * 2008-07-25 2013-08-20 Broadcom Corporation Single microphone wind noise suppression
WO2010046954A1 (ja) * 2008-10-24 2010-04-29 三菱電機株式会社 雑音抑圧装置および音声復号化装置
CN102246230B (zh) * 2008-12-19 2013-03-20 艾利森电话股份有限公司 用于提高噪声环境中话音的可理解性的系统和方法
US20130282373A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
DK2701145T3 (en) * 2012-08-24 2017-01-16 Retune DSP ApS Noise cancellation for use with noise reduction and echo cancellation in personal communication

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090287496A1 (en) * 2008-05-12 2009-11-19 Broadcom Corporation Loudness enhancement system and method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZORILA ET AL: "Speech-in-noise intelligibility improvement based on spectral shaping and dynamic range compression", PROC. INTERSPEECH 2012, JPN7017001843, 9 September 2012 (2012-09-09), US, pages pp. 635-638 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017003774A (ja) * 2015-06-10 2017-01-05 富士通株式会社 音声生成装置、音声生成方法、及びプログラム
JP2020064151A (ja) * 2018-10-16 2020-04-23 東京瓦斯株式会社 再生システムおよびプログラム
JP7218143B2 (ja) 2018-10-16 2023-02-06 東京瓦斯株式会社 再生システムおよびプログラム

Also Published As

Publication number Publication date
GB2520048A (en) 2015-05-13
JP6290429B2 (ja) 2018-03-07
US10636433B2 (en) 2020-04-28
CN104823236B (zh) 2018-04-06
CN104823236A (zh) 2015-08-05
US20160019905A1 (en) 2016-01-21
WO2015067958A1 (en) 2015-05-14
GB201319694D0 (en) 2013-12-25
EP3066664A1 (en) 2016-09-14
GB2520048B (en) 2018-07-11

Similar Documents

Publication Publication Date Title
JP6290429B2 (ja) 音声処理システム
US10523168B2 (en) Method and apparatus for processing an audio signal based on an estimated loudness
JP6147744B2 (ja) 適応音声了解度処理システムおよび方法
RU2467406C2 (ru) Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания
JP5542122B2 (ja) ダイナミックサウンド提供システム
US9530427B2 (en) Speech processing
US20170127181A1 (en) Addition of Virtual Bass in the Frequency Domain
JP2015050685A (ja) オーディオ信号処理装置および方法、並びにプログラム
US20200154202A1 (en) Method and electronic device for managing loudness of audio signal
US10319394B2 (en) Apparatus and method for improving speech intelligibility in background noise by amplification and compression
US20190156855A1 (en) Enhanced De-Esser For In-Car Communication Systems
CN112470219A (zh) 压缩机目标曲线以避免增强噪声
GB2536729A (en) A speech processing system and a speech processing method
EP3896998A1 (en) Systems and methods for providing content-specific, personalized audio replay on customer devices
JP5086442B2 (ja) 雑音抑圧方法及び装置
US9697848B2 (en) Noise suppression device and method of noise suppression
GB2536727B (en) A speech processing device
KR20200095370A (ko) 음성 신호에서의 마찰음의 검출
CN112437957A (zh) 用于全面收听的强加间隙插入
JP2015215528A (ja) 音声強調装置、音声強調方法及びプログラム
US20060104460A1 (en) Adaptive time-based noise suppression
US20210329387A1 (en) Systems and methods for a hearing assistive device
CN111145776B (zh) 音频处理方法和装置
CN115966214A (zh) 音频处理方法、装置、电子设备和计算机可读存储介质
CN115691542A (zh) 音频信号处理的方法、装置、可读存储介质及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160322

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20160715

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160715

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160906

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20161027

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20161027

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170613

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170714

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180207

R151 Written notification of patent or utility model registration

Ref document number: 6290429

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151