JP2022547860A - コンテキスト適応の音声了解度を向上させる方法 - Google Patents

コンテキスト適応の音声了解度を向上させる方法 Download PDF

Info

Publication number
JP2022547860A
JP2022547860A JP2022514501A JP2022514501A JP2022547860A JP 2022547860 A JP2022547860 A JP 2022547860A JP 2022514501 A JP2022514501 A JP 2022514501A JP 2022514501 A JP2022514501 A JP 2022514501A JP 2022547860 A JP2022547860 A JP 2022547860A
Authority
JP
Japan
Prior art keywords
speech
band
noise
signal
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022514501A
Other languages
English (en)
Inventor
ノ デキョン
パーベル チュバレフ
シャオユ グオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DTS Inc
Original Assignee
DTS Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DTS Inc filed Critical DTS Inc
Publication of JP2022547860A publication Critical patent/JP2022547860A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/02Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
    • H03G9/025Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers frequency-dependent volume compression or expansion, e.g. multiple-band systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

方法は、マイクロフォンを用いて環境内のノイズを検出してノイズ信号を生成するステップと、ラウドスピーカーを介して環境内に再生される音声信号を受信するステップと、マイクロフォンのマイクロフォン伝達関数に基づいてノイズ信号のマルチバンド補正を実行して、補正されたノイズ信号を生成するステップと、ラウドスピーカーのラウドスピーカー伝達関数に基づいて音声信号のマルチバンド補正を実行して、補正された音声信号を生成するステップと、補正されたノイズ信号及び補正された音声信号に基づいてマルチバンド音声了解度結果を計算するステップと、を含む。【選択図】図2

Description

(優先権の主張)
本出願は、2019年9月11日に出願された米国仮出願第62/898,977号に対する優先権を主張し、本仮出願は、その全体が引用により本明細書に組み込まれる。
(技術分野)
本開示は、音声了解度処理に関する。
人工知能(Al)スピーカー、携帯電話、テレカンファレンス、モノのインターネット(IoT)デバイス、及びその他などの音声再生デバイスは、多くの場合、高レベルの背景ノイズを含む音響環境で使用される。音声再生デバイスにより再生された音声は、背景ノイズによってマスクされ、音声了解度の低下をもたらす可能性がある。音声了解度を向上させる多くの技術が利用可能である。その技術の一部はまた、ノイズキャプチャーデバイスを用いてノイズでの音声了解度を向上させる。しかしながら、これらの技術は、再生デバイスの物理的限界、ノイズキャプチャーデバイスの物理的限界、音声了解度処理のための信号ヘッドルーム、長期にわたる音声特性など、実装上の特定の限界に関連する現実課題を明確にしてこれに対処するものではない。
上述の課題及び問題に対処することで、未処理の音声から処理済みの音声への自然な移行の最適なパフォーマンスを実現することができる。従って、本明細書に提示された実施形態は、ノイズ環境での音声了解度を向上させ、本明細書に記載された現実的な課題を克服する、音声了解度分析のための新規の特徴及び改善を導入するものである。本実施形態は、限定ではないが、(1)マルチバンド音声及びノイズ補正と組み合わせたデジタル-音響レベル変換、(2)ショートセグメントの音声了解度分析、(3)ロングセグメントの音声及びノイズプロファイリング、及び(4)グローバル及びバンド当たりのゲイン分析を含む。実施形態で実施された分析結果は、再生用音声信号の広バンド及び周波数当たりのバンド当たりの相対的なゲイン調整パラメータをもたらすものであるので、実施形態における処理は、特定のオーディオ信号処理に限定されるものではなく、コンプレッサー、エキスパンダー、フォルマント強調などの既知の動的処理の何れかの組み合わせを含むことができる。
音声了解度処理に向けられた実施形態を実施することができる例示的なシステムの高レベルブロック図である。 図1のシステムにおいて実装された例示的な音声了解度プロセッサ(VIP)並びに関連する音声及びノイズ処理のブロック図である。 音声了解度指数(SII)のバンド重要性関数の例示的なプロットである。 2つの異なるラウドスピーカーについての例示的なラウドスピーカー周波数応答を示す図である。 理想化された例示的なマイクロフォンの周波数応答及び理想化された例示的なラウドスピーカーの周波数応答と、2つの周波数応答の間の相互関係に基づいて決定された様々な周波数分析範囲についての周波数プロットである。 音声信号のショートセグメントと、それに対応する周波数スペクトルのプロットである。 音声信号の別のショートセグメントとその対応する周波数スペクトルのプロットである。 音声信号のロングセグメントとそれに対応する周波数スペクトルのプロットである。 VIPのボイスエンハンサーの一部の高レベルブロック/信号フロー図である。 VIPによって実行されるマルチバンド音声了解度分析/処理及び音声了解度強調の一例の方法のフローチャートである。
本明細書で使用される場合、用語「スピーチ」、「音声」、及び「音声/スピーチ」は同義語であり、置き換え可能に使用することができ、「フレーム」、「セグメント」、及び「時間セグメント」は同義語であり、置き換え可能に使用することができ、「スピーチ(又は音声)了解度」及び「了解度」は同義であり、置き換え可能に使用することができ、「ビン」及び「バンド」は同義語であり、置き換え可能に使用することができ、「バンド幅(BW)」及び「通過バンド」は同義語であり、置き換え可能に使用することができる。
図1は、本明細書に提示された実施形態を実施することができる例示的なシステム100である。システム100は一例であり、多くの変形が実施可能である。このような変形例は、オーディオ構成要素を省略又は追加することができる。システム100は、図示されていない遠隔通信デバイスとの音声通信、例えば音声通話をサポートする音声通信デバイスを表すことができる。また、システム100は、通信デバイスと結合されたマルチメディア再生デバイスを表すことができる。システム100の非限定的な例としては、電話(例えば、携帯電話、スマートフォン、ボイスオーバーインターネットプロトコル(IP)(VoIP)電話、及び同様のもの)、コンピュータ(例えば、卓上コンピュータ、ラップトップ、タブレット及び同様のもの)、音声通信デバイスを備えたホームシアターサウンドシステムが挙げられる。
システム100は、音響環境、例えば、部屋、オープンスペース又は同様の環境に展開される。システム100は、互いに結合された音声伝送経路、音声再生経路、及びメディア再生経路を含む。音声伝送は、互いに結合された音声/ノイズキャプチャーデバイス(単に「ノイズキャプチャーデバイス」とも呼ばれる)を表す、マイクロフォン104、音響エコーキャンセラ106、及びノイズプリプロセッサ108を含む。マイクロフォン104は、音響環境におけるサウンドを、このサウンドを表すサウンド信号に変換する。サウンド信号は、音響環境の背景ノイズ(単に「ノイズ」と呼ばれる)を表し、また、話し手からの音声を表すことができる。音響エコーキャンセラ106及びノイズプリプロセッサ108(以下、総称して「プリプロセッサ」)は、それぞれ、サウンド信号のエコーをキャンセルし、ノイズを低減して、例えばリモートステーションでの再生のために、処理されたサウンド信号(例えば、処理された音声)を送信する。
音声再生経路は、音声了解度プロセッサ(VIP)120、システム音量制御装置122、及びラウドスピーカー124(より一般的には、再生デバイス)を含む。音声再生経路において、VIP120は、スピーカー124を介して再生される音声信号(すなわち、音声再生信号)を受信する。例えば、音声信号は、再生のために上述の遠隔通信デバイス(例えば、遠隔の携帯電話)からシステム100に送信することができる。更に、VIP120は、音響環境のノイズを表すノイズ信号をマイクロフォン104から受信する。VIP120により受信されるノイズ信号は、VIPの自己アクティベーションを避けるために、音響エコーキャンセラ106によって生成されたエコーキャンセルノイズ信号とすることができる。本明細書に提示された実施形態によれば、VIP120は、音声信号の了解度を高めるために、ノイズ信号(例えば、マイクロフォン104によって感知されたノイズ)と共に再生のための音声信号を同時に処理して、了解度強化音声信号を生成する。VIP120は、音響環境へのスピーカーによる再生のために、了解度強化音声信号を(システム音量制御装置122を介して)ラウドスピーカー124に提供する。
メディア再生経路は、オーディオポストプロセッサ130、システムボリュームコントロール122、及びラウドスピーカー124を含む。オーディオポストプロセッサ130は、スピーカー124による再生のためのメディア信号を(システムボリュームコントロール122を介して)処理する。また、システム100は、音声再生又はメディア再生の何れかを選択的にラウドスピーカー124に向けるスイッチ140を含むことができる。
システム100はまた、マイクロフォン104及びラウドスピーカー124に結合されたコントローラ150を含む。コントローラ150は、例えば、音響エコーキャンセラ106、ノイズプリプロセッサ108、VIP120、オーディオポストプロセッサ130、スイッチ140、及びシステムボリュームコントロール122を実装するように構成することができる。コントローラ150は、プロセッサ150aとメモリ150bを含む。プロセッサ150aは、メモリ150bに格納されたソフトウェア命令を実行するように構成された、例えば、マイクロコントローラ又はマイクロプロセッサを含むことができる。メモリ150bは、リードオンリーメモリ(ROM)、ランダムアクセスメモリ(RAM)、又は他の物理的/有形(例えば、非一時的)のメモリ記憶装置を備えることができる。従って、一般に、メモリ150bは、コンピュータ実行可能命令を含むソフトウェアで符号化された1又は2以上のコンピュータ可読記憶媒体(例えば、メモリデバイス)を備えることができ、ソフトウェアが(プロセッサ150aによって)実行さたときに、本明細書に記載される動作を実行するように動作可能である。例えば、メモリ150bは、VIP120(例えば、図2-9に関連して後述するVIPのモジュール)及び上述したシステム100の他のモジュールを実装し、システム100の全体的な制御を実行するための制御ロジックの命令を格納又は符号化されている。
また、メモリ150bは、制御ロジックにより使用され生成される本明細書に記載の情報/データ150cを格納する。
図2は、一実施形態による、VIP120及びVIPによって実行される処理の例示的な高レベルブロック図である。VIPは、ボイスエンハンサー204に結合されたボイス及びノイズアナライザー202を含む。音声及びノイズアナライザー202は、マイクロフォン104からノイズ信号を受信する。また、音声及びノイズアナライザー202は、再生用の音声信号を受信する。一例において、ノイズ信号及び音声信号は、時間領域信号であり、各々がパルス符号変調(PCM)フォーマットとすることができるが、他のフォーマットも実施可能である。音声及びノイズアナライザー202は、ノイズ信号と音声信号を同時に分析/処理して、マルチバンド音声了解度結果205を生成し、ボイスエンハンサー204に提供する。音声エンハンサー204は、マルチバンド音声了解度結果205に基づいて音声信号を処理して、音声信号の了解度を強化又は向上させ、了解度強化音声信号を生成する。了解度強化音声信号は、システムボリュームコントロール122及びラウドスピーカー124を介して再生される。
音声及びノイズアナライザー202は、ノイズ補正経路206と、音声補正経路208と、2つの補正経路に続く音声了解度計算器210と、音声了解度計算器210に続くゲイン決定器212とを含む。ノイズ補正経路206は、ノイズデジタル音響コンバータ(DALC)222と、ノイズDALCに続くマルチバンドノイズ補正器224とを含む。音声補正経路208は、音声DALC226と、音声DALCに続くマルチバンド音声補正器228とを含む。音声了解度計算器210は、ショートセグメント分析器230、ロングセグメント分析器232、及び無音/ポーズ検出器234を含む。ノイズ補正経路206は、マイクロフォン104を特徴付ける又は関連付ける、事前に測定された及び/又は導出されたノイズピックアップデバイスパラメータ240(例えば、既知のマイクロフォンパラメータ)を受け取る。音声補正経路208は、ラウドスピーカー124を特徴付ける又は関連付ける、事前に測定された及び/又は導出された再生デバイスパラメータ242(例えば、既知のラウドスピーカーパラメータ)を受け取る。
ハイレベルでは、ノイズ補正経路206は、ノイズピックアップデバイスパラメータ240に基づいて、マルチバンドノイズ補正をノイズ信号に適用する。具体的には、ノイズピックアップデバイスパラメータ240に基づいて、ノイズDALC222は、ノイズ信号のデジタル-音響レベル変換(例えば、スケーリング)を行い、ノイズ補正器224が、変換又はスケーリングされたノイズ信号にマルチバンドノイズ補正を行い、補正されたノイズ信号を生成する。ノイズ補正経路206は、補正されたノイズ信号を音声了解度計算器210に提供する。同様に、音声補正経路208は、マルチバンド音声補正を音声信号に適用する。具体的には、再生デバイスパラメータ242に基づいて、音声DALC226が音声信号のデジタル-音響レベル変換(例えば、スケーリング)を行い、音声補正器228が、変換/スケーリングされた音声信号にマルチバンド補正を行い、補正された音声信号を生成する。音声補正経路208は、補正された音声信号を音声了解度計算器210に提供する。
音声了解度計算器210は、補正されたノイズ信号及び補正された音声信号に対してマルチバンド音声了解度分析を行い、マルチバンド音声了解度結果(MVIR)を生成し、ゲイン決定器212に提供する。より具体的には、ショートセグメントアナライザー230は、補正されたノイズ/音声のショート/ミディアム長さフレーム/セグメントに対してマルチバンド音声了解度分析を行い、ショート/ミディアム長さセグメントのマルチバンド音声了解度結果(「短期音声了解度結果」又は単に「短期結果」とも呼ばれる)を生成する。短期結果は、ノイズ/音声のショート/ミディアム長さセグメントのシーケンスに対応する、バンド当たりの音声了解度値、グローバル音声了解度値、バンド当たりのノイズパワー値、及びバンド当たりの音声パワー値のシーケンスを含む。
一方、ロングセグメントアナライザー232は、補正されたノイズ/ボイスのうち、ショート/ミディアム長さセグメントよりも長いロングフレーム/セグメントに対して長期ノイズ及び音声プロファイリング(音声了解度分析を含む)を行い、長期バンド当たりの音声了解度値及び長期グローバルゲイン値など、ロングセグメント音声了解度結果(「長期音声了解度結果」又は単に「長期結果」とも呼ばれる)を生成する。例えば、長期ノイズ及び音声プロファイリングは、短期結果のシーケンスにおいて値の移動平均(例えば、ロングセグメントと同じ長さの時間期間にわたって)を実行して、長期結果を生成することができる。また、長期ノイズ及び音声プロファイリングは、例えば、後述するように、複数のショート/ミディアム長さセグメントにわたるノイズ/音声パワー値のピークホールド及び再設定など、短期結果の他のタイプの長期処理を採用することができる。
無音/休止検出器234は、無音の間に了解度分析を中断するため、例えば、無音の間の了解度分析の起動を防止するなどのため、補正された音声信号の無音/休止を検出する。
ゲイン決定器212に提供される音声了解度結果は、短期結果と長期結果の組み合わせを含むことができる。ゲイン決定器212は、前述の音声了解度結果に基づいて、ショート/ミディアム長さセグメントのグローバル及びバンド当たりゲインを導出し、このゲインをボイスエンハンサー204に提供する。ボイスエンハンサー204は、ボイスコンプレッサー、ボイスエキスパンダー、フォルマント・エンハンサーなどを含むことができる。ボイスエンハンサー204は、分析結果205に一部基づいて、(補正されていない)音声信号に対してボイス強調処理を行う。例えば、ボイスエンハンサー204は、音声信号にゲインを適用して、了解度強化音声信号を生成し、これは、システムボリュームコントロール122及びラウドスピーカー124を介して再生される。
本明細書に示される実施形態は、限定ではないが、ノイズ及び音声補正経路206、208によって実行されるマルチバンドノイズ及び音声補正、ショートセグメントアナライザー230によって実行されるショート/ミディアム長さセグメント音声了解度分析、ロングセグメントアナライザー232によって実行される長期ノイズ及び音声プロファイリング、並びにゲイン決定器212によって実行されるグローバル及びバンド当たりのゲイン分析を含む。以下、実施形態についてより詳しく説明する。
(マルチバンドノイズ及び音声の補正)
マルチバンドのノイズ及び音声分析は知られている。このような分析の一形態は、音声了解度指数(SII)を含む。SII分析は、ラウドスピーカーを介して音響環境に再生されるマルチバンド音声信号と、マイクロフォンによって検出された音響環境のノイズを表すノイズ信号とを受け取る。SII分析は、(i)音声信号の周波数バンド当たりの音声信号とノイズ信号のレベルの差を計算し、例えば、音声信号の周波数バンド当たりの音声対ノイズ比(SNR)を計算し、バンド当たりのSNRと対応する周波数バンドのバンド重要性関数とを乗算して、その結果を合計する。
図3は、音声了解度指数のバンド重要性関数の異なるプロットを示す。バンド重要性関数は、基本的に、音声信号の周波数バンドに対して音声/スピーチ了解度への寄与/重要性に応じて異なる重みを付与する。バンド重要性関数と共に、人間のスピーチの基本及び第1フォルマントが、第2フォルマント及び他の要因に比べてスピーチ/音声了解度に影響を与えない場合があることが研究されている。これらは、音声の了解度を計算する際に考慮すべき重要な要因である。
了解度指数に基づく音声信号の周波数応答及び各周波数バンドの了解度寄与因子を直接的に操作すると、ラウドスピーカーを介した再生の際の音声品質が低下する可能性がある。例えば、このような操作は、周波数バランスの変更及び/又は時間的変化の変動の導入時に音声が不自然に聞こえる可能性がある。加えて、上記の了解度分析の前にトランスデューサの周波数応答(例えば、マイクロフォン及びラウドスピーカーの周波数応答)が補正されない場合、了解度分析(例えば、SII)の結果が正確には得られないことになる。更に、ラウドスピーカーの制約(例えば、その小さなサイズ又は小さなドライバ)により、ラウドスピーカーが音声の全周波数バンド幅を再生できない場合、ラウドスピーカーは更に、周波数バランスの変化における音声/スピーチ品質を劣化させ、音声了解度結果が不正確になる可能性がある。ラウドスピーカーが再生できない音声周波数のゲインを増大させることで問題は解決されず、非線形歪みを引き起こす可能性があり、及び/又はラウドスピーカーのドライバに負担をかける可能性がある。
図4は、2つの異なるラウドスピーカー(spk1及びspk2)の周波数応答を示している。変換器特性はラウドスピーカーごとに、及びマイクロフォンごとに異なるので、マルチバンド音声了解度を計算する際に、所与のシステムのラウドスピーカー補償及びマイクロフォン補償を考慮する必要がある。
従って、ノイズ及び音声補正経路206,208によって行われるマルチバンドノイズ及び音声補正は、周波数バンドの各々の了解度寄与因子に加えて、ラウドスピーカーとマイクロフォンのそれぞれの特性に基づいて、マルチバンド音声了解度結果の算出に用いるノイズ及び音声の周波数バンドを補正する。一例として、ノイズ補正経路206は、ノイズピックアップデバイスパラメータ240に基づいて、ノイズ信号(Hns)の周波数バンドを補正(例えば、周波数バンドのパワーレベルを調整)して、補正されたノイズ信号(HAn_ns)を生成し、音声補正経路208は、再生デバイスパラメータ242に基づいて、音声信号(Hspch)の周波数バンドを補正(例えば、周波数バンドのパワーレベルを調整)して、補正されたスピーチ信号(HAn_spch)を生成する。次いで、音声了解度計算器210は、補正されたノイズ信号(HAn_ns)及び補正された音声信号(HAn_spch)に対して、マルチバンド音声了解度分析を行う。
ノイズピックアップデバイスパラメータ240の例は、マイクロフォン伝達関数Hmic(例えば、既知のマイクロフォン伝達関数)、マイクロフォンに関連するゲインgmic(すなわち、ノイズ信号の出力ゲイン)、ノイズ信号の音響-デジタル変換ゲインcmic、及びマイクロフォンの感度を含む。再生デバイスパラメータ242の例は、ラウドスピーカーの伝達関数Hspk(すなわち、既知のラウドスピーカー伝達関数)、ラウドスピーカーに関連するゲインgspk(すなわち、音声信号の出力ゲイン)、及び音声信号の音響-デジタル変換ゲインcspk、及びラウドスピーカーの感度(これは別個に設けられてもよく、又は他のパラメータに組み込まれてもよい)を含む。伝達関数は、伝達関数をまたぐ複数の連続した周波数バンドにわたる振幅及び位相情報を含む、対応するトランスデューサ(例えば、マイクロフォン又はラウドスピーカー)の時間領域インパルス応答の周波数領域表現を含むことができる。一例として、音声補正経路208は、再生デバイスパラメータ242を使用して音声信号(Hspch)(例えば、音声信号の周波数スペクトル)を補正し、以下の式に従って、z領域で補正された音声信号(HAn_spch)を生成する。
An_spch(z)=Hspch(z)*Hspk(z)*gspk*cspk 式(1)
例えば、音声DALC226は、パラメータgspk及びcspkに基づいて音声信号をスケーリングし、音声補正器228は、ラウドスピーカー伝達関数Hspk(z)に基づいてスケーリングされた音声信号のマルチバンド補正を行う。
同様に、ノイズ補正経路206は、ノイズピックアップデバイスパラメータ240を用いてノイズ信号(Hns)を補正し、以下の式に従ってz領域の補正されたノイズ信号(HAn_ns)を生成する。
An_ns(z)=Hns(z)*Hmic(z)-1*gmic*cmic 式(2)
例えば、ノイズDALC222は、パラメータgmic及びcmicに基づいてノイズ信号をスケーリングし、ノイズ補正器224は、マイクロフォン伝達関数Hmic(z)に基づいて、スケーリングされたノイズ信号のマルチバンド補正を行う。これにより、音響環境におけるノイズの正確な推定値が得られる。
ノイズ信号及び音声信号の上述のスケーリングは、マイクロフォン感度及びスピーカー感度にそれぞれ一部基づいたスケーリングを含むことができる。一例では、スケーリングされたノイズ/音声値は、以下で与えられる。
Scale_val=10(A/20)/10(D/20)=10((A-D)/20)
ここで、A=音響レベル(dB)、D=等価デジタルレベル(dB)である。
このようなスケーリングは、それぞれの入力信号(すなわち、ノイズ又は音声)を対応する音響レベル(dB)に一致させるために、マイクロフォン104及びラウドスピーカー124に関して別々に実行される。或いは、スケーリングは、マイクロフォン及びラウドスピーカーの感度に対してノイズ及び音声レベルを整合するように行うことができる。スケーリングされた値に対して実行される後続の音声了解度計算は、同じ音響環境からの(補正された)音声信号と(補正された)ノイズ信号の比を使用するので、異なるマイクロフォンとラウドスピーカー感度によって引き起こされるデルタが調整される場合、了解度計算が正確になる。
この場合:
Scale_val_mic=10(Aspk/20)/10(Amic/20)
ここで、Aspk及びAmicは、同一レベルのデジタルレベル(dBFS)に基づいた測定/計算された音響レベル(dB)である。スケーリングによって相対デルタが調整されるので、スケーリングされた値は、ノイズ信号にのみ適用することができる。或いは、Scale_val_micの逆数を音声信号にのみ適用することができる。
式(1)及び式(2)の音声信号及びノイズ信号の補正は、後続のマルチバンド音声了解度分析を改善する。音声及びノイズ補正に加えて、本明細書に示される実施形態は、マイクロフォン104及びラウドスピーカー124の周波数応答に対してマルチバンド(周波数)領域分析を行う。マルチバンド領域分析は、ノイズ補正経路206、音声補正経路208、及び/又は音声了解度計算器210において、或いは音声及びノイズアナライザー202の別個のモジュールにより実行することができる。マルチバンド分析は、マイクロフォンの周波数バンドとラウドスピーカーの周波数バンドとの間の重なりと非重なりの相互関係を調査/決定して、その決定した相互関係に基づいて、マルチバンド音声了解度分析に用いる周波数バンドを異なる周波数分析領域/範囲に分割する。次に、マルチバンド領域分析によって設定された異なる周波数分析領域に基づいて(すなわち、考慮して)、マルチバンド音声了解度分析が行われる。例えば、マルチバンド音声了解度分析は、後述するように、異なる周波数分析範囲内の音声分析バンドに異なるタイプの了解度分析を適用することができる。
図5は、理想化された(ブリックウォール)マイクロフォン周波数応答502及び理想化されたラウドスピーカー周波数応答504と、2つの周波数応答の相互関係に基づいてマルチバンド領域分析によって決定された様々な周波数分析範囲(a)~(g)の周波数プロットを示す図である。マイクロフォン周波数特性502は、マイクロフォン周波数応答の最小値(「min」)/開始周波数fmic1から最大値(「max」)/停止周波数fmic2まで延びる有用/応答性マイクロフォン周波数範囲又はバンド幅(BW)/周波数通過バンド(例えば、3dB BWであるが、有用なマイクロフォン通過バンドと考えられる他の尺度を使用してもよい)を有する。同様に、ラウドスピーカー周波数応答504は、ラウドスピーカー周波数応答の最小/開始周波数fspk1から最大/停止周波数fspk2まで延びる有用/応答性ラウドスピーカー周波数範囲又はBW/周波数通過バンド(例えば、3dB BWであるが、有用なラウドスピーカー通過バンドと考えられる他の尺度を使用してもよい)を有する。
図5の例では、最小又は開始周波数fspk1,fmic1は、fspk1>fmic1の関係にあり、最大又は停止周波数fmic2,fspk2は、fmic2>fspk2の関係にある。従って、マイクロフォン通過バンドは、ラウドスピーカー通過バンドを上回り、完全に包含しており、つまり、ラウドスピーカー通過バンドは、完全にマイクロフォン通過バンド内にある。この場合、ラウドスピーカー通過バンドとマイクロフォン通過バンドは、ラウドスピーカー通過バンドにわたってのみ重なり合う。別の例では、この逆も当てはまることができ、すなわち、最小周波数がfmic1>fspk1、最大周波数がfspk2>fmic2の関係にあり、ラウドスピーカー通過バンドがマイクロフォン通過バンドを上回り、完全に包含するようになり、すなわち、マイクロフォン通過バンドが完全にラウドスピーカー通過バンド内にあるようになる。この場合、ラウドスピーカー通過バンドとマイクロフォン通過バンドは、マイクロフォン通過バンドのみで重なり合う。
図5の例では、マルチバンド領域分析は、周波数分析領域(a)~(g)(単に「領域(a)~(g)」と呼ぶ)を、この領域でマルチバンド音声了解度を実行することに関して、以下のように分類することができる。
a.領域(a)及び(b)は、音声了解度分析によって変化しない領域として、又はヘッドルーム保持のための減衰領域として、すなわちヘッドルームを保持するために定義することができる。
b.領域(c)及び(g)は、ノイズキャプチャーデバイス(例:マイクロフォン)が正確な分析結果を提供できないので、音声了解度分析に含めるべきではない。fmic1を下回り、fmic2を上回る周波数領域は、Hmicの逆数(Hmic -1)がノイズ補正のためにノイズ信号に適用するには十分に安定していない不安定なキャプチャー周波数領域/バンドを含む。
c.領域(d)及び(f)は、(グローバル)ノイズレベル及びマスキング閾値を計算するための音声了解度分析に含まれるべきであるが、バンド当たりの音声了解度分析には含まれず、例えば、音声了解度分析の結果として得られる領域(d)及び(f)における何れかのバンド当たりの音声レベルの増加は、これらの領域で応答応しない再生デバイスによって対応することができない。
d.ラウドスピーカーとマイクロフォン周波数応答の配置が図5と逆の場合、すなわちラウドスピーカー通過バンドが、マイクロフォン通過バンドを上回る場合には、領域(d)(すなわち、fspk1とfmic1の間)のノイズ信号レベルは、領域に隣接する周波数バンド(例えば、fmic1の上方/下方)のノイズ信号レベルを用いて近似することができる。この場合、補正されたノイズ信号は、以下のように計算することができる。
An_ns(k)=alpha*HAn_ns(k+1)
ここで、αは0~1.0の範囲の近似係数であるが、最小値は0より大きいことが好ましい。
マイクロフォン通過バンドがラウドスピーカー通過バンドよりも広く、ラウドスピーカー通過バンドを包含している図5の例では、ノイズ信号に式(2)の補正を適用した後のノイズ信号のレベルは、正確であるとみなされるので、領域(d)及び(f)は、グローバルノイズレベル及びマスキング閾値計算に含めるべきである。しかしながら、ラウドスピーカー通過バンドがマイクロフォン通過バンドよりも広くマイクロフォン通過バンドを包含している代替/逆の例では、スピーチ信号のレベルは正確であるが、領域内のノイズ信号のレベルは正確ではないので、領域(d)及び(f)の扱いが異なる。この場合、領域(d)及び(f)は、グローバル分析及びバンド当たり分析の両方から除外することができる。
上記のように周波数分析範囲を考慮することで、ノイズレベルが不正確な周波数バンドが分析から除外されるので、音声了解度分析の精度が向上する。また、音声了解度分析は、ラウドスピーカー及びマイクロフォンの周波数範囲/通過バンドの差異を処理することにより、最適なグローバル音声了解度結果及びバンド当たり音声了解度結果を提供する。
次いで、音声補正及びノイズ補正は、周波数バンドごと(すなわち、音声分析バンドごと)の了解度寄与因子と組み合わせることができる。例えば、音声/ノイズ補正を用いて、バンド当たりの(音声)了解度値Vidx(i)(周波数バンドi=1~Nについて)を以下のように計算することができる。
idx(i)=I(i)*A(i),i=from max(fmic1,fspk1) to min(fmic2,fspk2) Eq.(3)
ここで、
i=所与のバンドを識別するバンド指数(例えば、バンドi=1からバンドi=21)。
I=重要性
A=バンド聴取可能値、及び
関数max(fmic1,fspk1)~min(fmic2,fspk2)は、ラウドスピーカーとマイクロフォン通過バンド間の周波数オーバーラップ(例えば、ラウドスピーカーとマイクロフォン通過バンドがオーバーラップする「オーバーラップ通過バンド」)を決定/定義する。
音声及びノイズアナライザー202は、上記の関係を用いて、ラウドスピーカーとマイクロフォンの開始周波数及び停止周波数に基づいて、オーバーラップ通過バンドを決定する。
バンド可聴値Aは、式(1)及び式(2)からそれぞれ補正された音声信号及び補正されたノイズ信号音声に基づいている。例えば、バンド可聴値Aは、所与のバンドにおける補正音声信号のパワーと補正ノイズ信号のパワーの比に比例することができる。バンド当たりの周波数分析範囲は、上述したノイズピックアップデバイスパラメータ240及び再生デバイスパラメータ242に基づいて定義/補正される。
以上のことから、式(3)は、異なる周波数分析領域に基づいて音声分析バンド1~Nからの音声了解度結果を以下のように生成する。
a.バンド1(すなわち、最低周波数バンド)からmax(fmic1,fspk1)まで⇒了解度N/A。
b.fspk1からfspk2まで=>バンド当たりの音声了解度は式(1)及び(2)で与えられる。
c.min(fmic2,fspk2)からバンドN(すなわち、最高周波数バンド)まで⇒了解度N/A。
max(fmic1,fspk1)がfspk1の場合、図5に示す領域(a)を減衰させて、処理のヘッドルームを確保することができる。
max(fmic1,fspk1)がfmic1の場合、fspk1を下回る領域をヘッドルーム確保のために利用することができる。このヘッドルームは、音声信号がなどのシステム(例えば、ラウドスピーカー)の最大出力レベル(又はそれに近いレベル)に達する場合に重要とすることができる。この場合、音声了解度分析のためのヘッドルームがないので、了解度を向上させることはできない。或いは、音声信号のピーク値を維持しながら、二乗平均平方根(RMS)値を増大させるために、コンプレッサー/リミッターを導入することができるが、圧縮量がある一定レベルを超えた場合、不自然なサウンド及び「ポンピング」などの圧縮アーチファクトが発生する可能性がある。従って、ラウドスピーカーが、ある領域の一定の周波数範囲を完全には再生できない場合、当該領域の音声信号を減衰させて、ヘッドルームを確保することができる。
音声補正及びその分析領域計算を利用して、グローバル音声了解度値(グローバルスピーチ対ノイズ比(SNR)(Sg)とも呼ばれ、等価的にはグローバル音声対ノイズ比と呼ばれる)は、以下の式に従って計算することができる。
Figure 2022547860000002
ここで、C1=fmic1(fmic1≧fspk1の場合)、又はC1=fspk1(fmic1<fspk1の場合);
C2=fmic2(fmic2<fspk2の場合)、又はC2=fspk2(fmic2≧fspk2の場合);
∝は正規化係数;及び
spch(j)及びHnoise(i)は,それぞれj番目及びi番目の周波数バンドにおける補正された音声信号及びノイズ信号である。
上記の関係によれば、周波数C1=max(fmic1,fspk1)、周波数C2=min(fmic2,fspk2)、及び周波数範囲C1~C2は、マイクロフォン通過バンドとラウドスピーカー通過バンドとのオーバーラップ周波数範囲(すなわち、オーバーラップ通過バンド)である。式(4)の分子は、オーバーラップ周波数範囲のみの補正された音声パワーを累積/加算し、分母は、マイクロフォンの周波数範囲/通過バンドのみの補正されたノイズパワーを累積/加算する。
ショートセグメント分析器230は、式(3)に従って計算されたバンド当たりの音声了解度値のシーケンスと、式(4)に従って計算されたグローバル音声対ノイズ比(Sg)のシーケンスとを生成する。ロングセグメント分析器232は、ロングセグメントに等しい複数のショート/ミディアム長さセグメントにわたってショートセグメント分析器230からのノイズパワー及び音声パワーの格納された値(すなわち、値のシーケンス)を処理(例えば、平均化)して、ロングセグメントのバンド当たりの了解度値及びロングセグメントのグローバル了解度値を生成する。ロングセグメント分析器232は、以下に説明するように、ピークホールド及びリセットなど、短期保存された値に対して更なる動作を行うことができる。
図5に関連して上述した実施形態は、式(3)及び(4)のための周波数範囲設定又は限界として使用される分析領域を決定する。別の実施形態では、制限がそれぞれの重み係数に含まれているので、それぞれの重み係数は、範囲を制限することなく、本質的に式(3)及び(4)を計算するためにHAn_spch及びHAn_nsに直接適用することができる。この実施形態では、以下のように補正が適用される。
An_spch=Wsp*HAn_spch
An_ns=Wns*HAn_ns
ここで、Wsp及びWnsは、各周波数バンド(0~π)に適用される音声及びノイズの重み付け係数である。
要約すると、実施形態は、以下のようにノイズ/音声補正を用いてノイズ/音声了解度を計算する包括的方法を提供する。
a.再生デバイス及びノイズキャプチャーデバイスの特性を用いて、音声及びノイズ信号を補正し、分析のために音声及びノイズの周波数バンド又は範囲を定義する。
b.音声了解度寄与の重み付け係数とデバイスの周波数範囲を相互に検討する。
c.音声及びノイズアナライザー202への所与の音声及びノイズ入力により、各バンドの処理ゲインパラメータ及び/又はグローバル処理ゲイン値を有する音声了解度値を生成するための分析を行う。
なお、本明細書に記載されている分析では、周波数バンドは一定のバンドに限定されていない点に留意されたい。周波数バンドは、オクターブバンド、1/3オクターブバンド、臨界バンド、及び同様のものとすることができる。
(ショート/ミディアム長さセグメント音声了解度分析)
多くの音声再生のユースケースでは、最小のレイテンシーが求められる。従って、約1秒又はそれ以上のロングセグメント(例えば、すなわち音声/ノイズのロングセグメント)を音声了解度分析(「ロングセグメント分析」と呼ぶ)に使用することは、ロングセグメント分析が過剰なレイテンシーをもたらす可能性があるので、実用的ではない。これに対して、音声/ノイズ分析及び処理のためのショート/ミディアム長さセグメントは、通常は、約2~32msの時間期間である。また、ノイズは、静的なものではなく、例えば、犬の鳴き声、車の通過する大きな音など、動的な場合がある。従って、ロングセグメントよりも相対的に短いショート/ミディアム長さセグメントのマルチバンド音声了解度分析(ショート/ミディアム長さセグメント分析と呼ばれる)が好ましい。すなわち、ロングセグメントよりもショート/ミディアム長さセグメントの分析の方が好ましい。
ショート/ミディアム長さセグメント分析に関する問題点は、他の処理(例えば、ゲイン処理)と組み合わせると、ショート/ミディアム長さセグメント長さ分析は、不要なアーチファクトを生成する可能性があることである。例えば、処理ゲインの適応が速すぎると、音声の周波数バランスが頻繁に変化するだけでなく、不自然な音声変動が発生する可能性がある。このようなアーチファクトを軽減する一般的な方法は、アタック及び減衰時間を設定することにより、ゲインの変化に円滑さを加えることである。
しかしながら、このように音声了解度結果を平滑化すると、精度と安定性がトレードオフになる。安定したサウンドを維持しながら最適な精度を得るためには、より長期の音声ノイズプロファイリングを行うことで成果を向上させることができる。本明細書で提示される実施形態は、従来の方法とは異なり、以下に示すように、従来のショート/ミディアム長さセグメント分析と長期音声ノイズプロファイリングを組み合わせている。
(長期音声及びノイズプロファイリング)
2~32msのショート/ミディアム長さセグメントとは対照的に、長期音声及びノイズプロファイリングにより分析されるロングセグメントは、2ワード~数センテンス(例えば、約1~30秒)の長さとすることができる。長期音声及びノイズプロファイリングでは、ノイズ/音声信号を長期にわたり保存する必要はない。むしろ、長期音声及びノイズプロファイリングでは、スライディングウィンドウで時間経過と共に(すなわち、ロングセグメントにわたって)短期結果(すなわち、ショート/ミディアム長さセグメントの特性)を蓄積する。長期分析は、音声及びノイズの過去のサンプルを使用するので、長期音声及びノイズプロファイリングから得られる長期分析は、音声了解度結果のレイテンシーを増大しない。
図6、図7、図8は、音声信号の異なる時間セグメントと、これらに対応する周波数スペクトルを示す。図6は、音声信号の短い時間セグメント(すなわち、「ショートセグメント」)を示す上部プロットと、ショートセグメントの周波数スペクトルを示す下部プロットを含む。ショートセグメントは、約23msのショートセグメントにわたる1024個の音声サンプルを含む。同様に、図7は、音声信号の別のショートセグメントを示す上部プロットと、ショートセグメントの第2の周波数スペクトルを示す底部プロットとを含む。図6及び図7の上部プロットに示されたショートセグメントは、音声典型的であるように、それぞれ周期的である。異なる音素が異なるフォルマント周波数を有するので、図6及び図7の底部プロットに示された周波数スペクトルは異なる。
図8は、音声信号の長い時間セグメント(すなわち、「ロングセグメント」)を示す上部プロットと、ロングセグメントの周波数スペクトルを示す底部プロットとを含む。ロングセグメントは、約4.24秒にわたる1024個の音声サンプルを含む。図6及び図7のショートセグメントと図8のロングセグメントは、音声基本周波数を含む共通のデータを取り込むが、ロングセグメントは、より長い期間の音声のスペクトル特性を示している。従って、長期音声及びノイズプロファイリングを含む音声了解度分析は、より広い周波数バンド分析値から恩恵を受け、時間の経過と共に急激に変化する可能性がある、バンド当たりの分析に基づいて狭バンドの周波数ゲインを動的に割り当てようと試みるだけではなく、ロングセグメントにわたる音声信号の長期特性を取り込むことができる。加えて、長期音声及びノイズプロファイリングはまた、ロングセグメントにわたる音声の時間的特性を取り込む。
環境中の一貫したノイズの例は、犬の吠え声及び車の通過音など、時折発生する過渡的/動的なノイズと結合したファンノイズ又はハムを含む。この場合、長期音声及びノイズプロファイリングは、静的/一貫したノイズの特徴を識別することができ、他方、ショート/ミディアム長さセグメント分析は、動的ノイズを識別することができる。長期音声及びノイズプロファイリングは、ピークノイズを取り込むことができ、このピークノイズは、長期結果と短期的な結果を比較することでリセットされ、一貫した背景ノイズが変化したか除去されたかを特定することができる。例えば、長期音声及びノイズプロファイリングは、ロングセグメントの音声/ノイズをピークホールドすることを含むが、その後、短期結果を使用して、例えば、音声再生が別のスピーカー又は合成音声に変わったときに、ピークをリセットするかどうかを決定することができる。別の例は、分析に数語の長さセグメントを使用することであり、これにより、あるスピーカーから別のスピーカーへの遷移をスライディングウィンドウで緩慢に取り込むことができる。
(グローバル及びバンド当たりのゲイン分析)
ゲイン決定器212は、ショートセグメント分析器230によって生成された結果に基づいて、(補正されていない)音声信号に適用されるバンド当たりのゲイン(調整)及びグローバルゲイン(調整)を含むマルチバンドゲイン値を計算する。ゲイン決定器212は、ゲインをボイスエンハンサー204に提供し、ボイスエンハンサー204はゲインを音声信号に適用する。ゲインの計算は、了解度を高めるために適用される処理に応じて柔軟に行うことができる。計算器資源に制約がある場合、分析バンドをグループ化して、処理される分析バンドの数を効果的に減らすことができ、又は、分析バンドの一部を処理から除外することもできる。処理が、フォルマント位置強調又はスペクトルピーク強調など、特定のインテリジェンスが既に含む場合、処理は、インテリジェンスを使用して、上述の分析方法に基づいて、処理が選択的にゲイン及び適切なグローバルゲインパラメータを増加/減少させる周波数位置に関する了解度情報を提供することができる。
一例では、ゲインは、以下の又は類似の関係に従って計算することができる。
グローバルゲイン(g_Global)=Wg*St_g/Sc
バンド当たりのゲイン(g_perband(i))=Wpb*St_pb/Sc(i)
ここで、g_Global及びg_perbandは、音声出力信号に適用される。
Wg及びWpbは、グローバル及びバンド当たりの重み係数である。
St_g及びSt_pbは、バンドごと及びグローバルの短期/ミディアム長さセグメントの了解度値(例えば、スピーチ対ノイズ(SNR)値)であり;及び
Scは、現在のSNRである。
重みWg及びWpbは、現在の音声了解度値に対して重みが変化するように、了解度値の閾値に基づいて決定することができる(例えば、了解度値が比較的高い場合には、g_Globalに多くの重み(Wg)を適用し、g_perbandに少ない重み(Wpb)を適用し、その逆も同様である)。
図9は、一実施形態による、ボイスエンハンサー204の一部の高レベルブロック/信号フロー図である。例において、ボイスエンハンサー204は、バンド当たりのゲイン値g_pb(i)及びグローバルゲインg_Globalを音声信号に適用して、了解度強化音声信号を生成するマルチバンドコンプレッサー904を含む。
図10は、例えば、VIP120によって実行される音声了解度処理を実行する例示的な方法1000のフローチャートである。方法1000の動作は、上述の動作に基づいている。
1002において、マイクロフォンは、音響環境におけるノイズを検出して、ノイズ信号を生成する。
1004において、VIP120の入力は、ラウドスピーカーを介して音響環境に再生するための音声信号を受信する。
1006において、VIP120は、ノイズ信号のデジタル-音響レベル(DAL)変換を実行し、マイクロフォンの既知又は導出されたマイクロフォン伝達関数に基づいてノイズ信号のマルチバンド補正を実行し、補正されたノイズ信号を生成する。マルチバンド補正は、マイクロフォン伝達関数を補正するために、ノイズ信号のスペクトルを調整する。
1008において、VIP120は、音声信号のDAL変換を行い、ラウドスピーカーの既知又は導出されたラウドスピーカー伝達関数に基づいて音声信号のマルチバンド補正を行い、補正された音声信号を生成する。マルチバンド補正は、音声信号のスペクトルを調整し、ラウドスピーカーの伝達関数を補正する。
1010において、VIP120は、マイクロフォン伝達関数とラウドスピーカー伝達関数との間の関係に基づいて、マルチバンド音声了解度計算のための周波数分析領域を決定する。例えば、VIP120は、マイクロフォン伝達関数のマイクロフォン通過バンドとラウドスピーカー伝達関数のラウドスピーカー通過バンドとが重なり合うオーバーラップ通過バンドを通過バンドの開始周波数と停止周波数に基づいて決定する。所与の通過バンドの開始周波数及び停止周波数は,例えば、所与の通過バンドに対応する伝達関数の対向する3dBダウンポイント(又は 他の適切な「X」dBダウンポイント)に相当することができる。
1012において、VIP120は、複数の音声分析バンドにわたって、ノイズ信号に基づいて(例えば、補正されたノイズ信号に基づいて)及び音声信号に基づいて(例えば、補正された音声信号に基づいて)、マルチバンド音声了解度分析を実行し、マルチバンド音声了解度結果を計算する。分析は、例えば、オーバーラップ通過バンドの音声分析バンドに限定することができる。分析結果により、バンド当たりの音声了解度とグローバルスピーチ/音声対ノイズ比が得られる。マルチバンド音声了解度分析は、短期結果を得るためのショート/ミディアム長さセグメント/フレームに基づく分析と、長期結果を得るためのロングセグメントに基づく分析を含む。
1014において、VIP120は、バンド当たりの音声了解度値及びグローバルスピーチ/音声対ノイズ比に基づいて、バンド当たりのゲイン及びグローバルゲインを計算する。
1016において、VIPは、ゲインに基づいて音声信号の了解度を強化し、ラウドスピーカーを介して強化された音声信号を再生する。
様々な実施形態において、方法1000の動作の一部は省略されてもよく、及び/又は方法1000の動作を再順序付け/置き換えることができる。例えば、変換/補正動作1006及び1008は省略されてもよく、その結果、動作1012は、複数の音声分析バンドにわたるノイズ信号(補正なし)及び音声信号(補正なし)に基づいてマルチバンド音声了解度分析を実行し、マルチバンド音声了解度結果を計算する。別の例では、動作1006及び1008は、それぞれのマルチバンド補正を省略し、従って、それぞれのDAL変換のみを残すように変更することができる。
一実施形態において、方法は、マイクロフォンを用いて環境内のノイズを検出してノイズ信号を生成するステップと、ラウドスピーカーを介して環境内に再生される音声信号を受信するステップと、マイクロフォンのマイクロフォン伝達関数とラウドスピーカーのラウドスピーカー伝達関数との間の関係に基づいて、マルチバンド音声了解度計算のための周波数分析領域を決定するステップと、ノイズ信号及び音声信号に基づいて、周波数分析領域にわたるマルチバンド音声了解度結果を計算するステップとを含む。本方法は、マイクロフォン伝達関数に基づいてノイズ信号のマルチバンド補正を行い、補正されたノイズ信号を生成するステップと、ラウドスピーカー伝達関数に基づいて音声信号のマルチバンド補正を行い、補正された音声信号を生成するステップと、を更に含み、計算するステップは、補正されたノイズ信号及び補正された音声信号に基づいて、周波数分析領域にわたるマルチバンド音声了解度結果を計算するステップを含む。
別の実施形態では、装置は、環境中のノイズを検出してノイズ信号を生成するマイクロフォンと、ベースとなる環境内に音声信号を再生するラウドスピーカーと、マイクロフォン及びラウドスピーカーに結合されたコントローラと、を備え、コントローラは、マイクロフォンのマイクロフォン伝達関数に基づいてノイズ信号のマルチバンド補正を行い、補正されたノイズ信号を生成するステップと、ラウドスピーカーのラウドスピーカー伝達関数に基づいて音声信号のマルチバンド補正を行い、補正された音声信号を生成するステップと、補正されたノイズ信号及び補正された音声信号に基づいて、マルチバンド音声了解度結果を計算するステップと、マルチバンド音声了解度結果に基づいて、マルチバンドゲイン値を計算するステップと、マルチバンドゲイン値に基づいて音声信号を強調するステップと、を行うように構成されている。
更に別の実施形態では、非一時的コンピュータ可読媒体が提供される。非一時的コンピュータ可読媒体は、プロセッサによって実行されたときに、マイクロフォンから環境中のノイズを表すノイズ信号を受信するステップと、ラウドスピーカーを介して環境中に再生される音声信号を受信するステップと、ノイズ信号のデジタル-音響レベル変換と、マイクロフォン伝達関数に基づいてノイズ信号のマルチバンド補正とを行い、補正されたノイズ信号を生成するステップと、音声信号のデジタル-音響レベル変換と、ラウドスピーカー伝達関数に基づいて音声信号のマルチバンド補正とを行い、補正された音声信号を生成するステップと、補正されたノイズ信号及び補正された音声信号に基づいて、バンド当たりの音声了解度値及びグローバルスピーチ対ノイズ比を含むマルチバンド音声了解度結果を計算するステップと、をプロセッサに実行させる命令が符号化される。
本明細書では、1又は2以上の具体的な例で具現化された技術が例示され記載されているが、それにもかかわらず、様々な修正及び構造変更が特許請求の範囲の範囲及び等価物の範囲内でなされ得るので、図示の詳細に限定されるものではない。
以下に提示された各請求項は、別個の実施形態を表しており、異なる請求項及び/又は異なる実施形態を組み合わせた実施形態は、本開示の範囲内であり、本開示を検討した後に当業者には明らかになるであろう。
122 システムボリューム
202 音声及びノイズ分析
204 ボイスエンハンサー
206 ノイズ補正経路
208 音声補正経路
210 音声了解度計算
212 ゲイン決定器:各バンド及び/又はグローバルゲインのためのゲイン調整値を決定する
222 デジタル音響レベル変換
224 分析のためのマルチバンドノイズ補正器
226 デジタル音響レベル変換
228 分析のためのマルチバンド音声補正
230 ショートセグメント分析
232 ロングセグメント分析
234 無音/休止検出
240 事前に測定された及び/又は計算されたデバイス/システムデータ
242 事前に測定された及び/又は計算されたデバイス/システムデータ

Claims (21)

  1. マイクロフォンを用いて環境中のノイズを検出してノイズ信号を生成するステップと、
    ラウドスピーカーを介して前記環境内に再生される音声信号を受信するステップと、
    前記マイクロフォンのマイクロフォン伝達関数と前記ラウドスピーカーのラウドスピーカー伝達関数との間の関係に基づいて、マルチバンド音声了解度計算のための周波数分析領域を決定するステップと、
    前記ノイズ信号及び前記音声信号に基づいて、前記周波数分析領域にわたるマルチバンド音声了解度結果を計算するステップと、
    を含む、方法。
  2. 前記マルチバンド音声了解度結果を用いて、前記音声信号の了解度を向上させるステップを更に含む、請求項1に記載の方法。
  3. 前記決定するステップは、前記周波数分析領域として、前記マイクロフォン伝達関数のマイクロフォン通過バンドと前記ラウドスピーカー伝達関数のラウドスピーカー通過バンドとがオーバーラップするオーバーラップ通過バンドを決定するステップを含み、前記計算するステップは、前記オーバーラップ通過バンドに限定された音声分析バンドにわたってバンド当たりの音声了解度を計算するステップを含む、請求項1に記載の方法。
  4. 前記計算するステップは、(i)前記オーバーラップ通過バンドに限定された前記音声分析バンドにわたる前記音声信号に基づく音声パワーと、(ii)前記マイクロフォン通過バンドにわたる前記ノイズ信号に基づくノイズパワーとのグローバルスピーチ対ノイズ比を計算するステップを更に含む、請求項3に記載の方法。
  5. 前記ラウドスピーカー通過バンドの開始周波数が、前記マイクロフォン通過バンドの開始周波数を上回るかどうかを判定するステップと、
    前記ラウドスピーカー通過バンドの開始周波数が上回る場合、前記マイクロフォン通過バンドの開始周波数を下回るバンドに前記音声信号を減衰させるステップと、
    を含む。請求項3に記載の方法。
  6. 前記決定するステップは、
    マイクロフォン通過バンド及び前記ラウドスピーカー通過バンドをそれぞれ定める開始周波数及び停止周波数を特定するステップと、
    前記開始周波数の最大値から前記停止周波数の最小値までにわたる通過バンドとして前記オーバーラップ通過バンドを計算するステップと、
    を含む、請求項3に記載の方法。
  7. 前記マルチバンド音声了解度結果を計算するステップは、バンド当たりの音声了解度値及びグローバル音声対ノイズ比を計算するステップを含む、請求項1に記載の方法。
  8. 前記マルチバンド音声了解度結果を計算するステップは、
    前記音声信号及び前記ノイズ信号のショート/ミディアム長さセグメントに基づいて、マルチバンド音声了解度分析を行い、短期音声了解度結果を生成するステップと、
    前記音声信号及び前記ノイズ信号のショート/ミディアム長さセグメントよりも長い、前記音声信号及び前記ノイズ信号のロングセグメントに基づいて、マルチバンド音声了解度分析を行い、長期音声了解度結果を生成するステップと、
    を含む、請求項1に記載の方法。
  9. 前記マイクロフォン伝達関数に基づいて前記ノイズ信号のマルチバンド補正を行い、補正されたノイズ信号を生成するステップと、
    前記ラウドスピーカー伝達関数に基づいて前記音声信号のマルチバンド補正を行い、補正された音声信号を生成するステップと、
    を更に含み、
    前記計算するステップは、前記補正されたノイズ信号及び前記補正された音声信号に基づいて、前記周波数分析領域にわたる前記マルチバンド音声了解度結果を計算するステップを含む、請求項1に記載の方法。
  10. 前記ノイズ信号のマルチバンド補正を行う前に、前記マイクロフォンの感度に基づいて、前記ノイズ信号のデジタル-音響レベル変換を行うステップと、
    前記音声信号のマルチバンド補正を行う前に、前記ラウドスピーカーの感度に基づいて、前記音声信号のデジタル-音響レベル変換を行うステップと、
    を更に含む、請求項9に記載の方法。
  11. 装置であって、
    環境中のノイズを検出してノイズ信号を生成するマイクロフォンと、
    前記環境内に音声信号を再生するラウドスピーカーと、
    前記マイクロフォン及び前記ラウドスピーカーに結合されたコントローラと、
    を備え、
    前記コントローラが、
    前記マイクロフォンのマイクロフォン伝達関数に基づいて前記ノイズ信号のマルチバンド補正を行い、補正されたノイズ信号を生成するステップと、
    前記ラウドスピーカーのラウドスピーカー伝達関数に基づいて前記音声信号のマルチバンド補正を行い、補正された音声信号を生成するステップと、
    前記補正されたノイズ信号及び前記補正された音声信号に基づいて、マルチバンド音声了解度結果を計算するステップと、
    前記マルチバンド音声了解度結果に基づいて、マルチバンドゲイン値を計算するステップと、
    前記マルチバンドゲイン値に基づいて前記音声信号を強調するステップと、
    を行うように構成されている、装置。
  12. 前記コントローラは、前記マルチバンド音声了解度結果を用いて前記音声信号了解度を向上させるステップを行うように更に構成されている、請求項11に記載の装置。
  13. 前記コントローラが、
    前記マイクロフォン伝達関数のマイクロフォン通過バンドと前記ラウドスピーカー伝達関数のラウドスピーカー通過バンドがオーバーラップするオーバーラップ通過バンドを決定するステップを行うように更に構成され、
    前記コントローラが、前記オーバーラップ通過バンドに限定された音声分析バンドにわたってバンド当たりの音声了解度値を計算することにより前記計算を実行するように構成されている、請求項11に記載の装置。
  14. 前記コントローラが、(i)前記オーバーラップ通過バンドに限定された前記音声分析バンドにわたる前記補正された音声信号の音声パワーと、(ii)前記マイクロフォン通過バンドにわたる前記補正されたノイズ信号のノイズパワーとのグローバルスピーチ対ノイズ比を計算することによって、前記計算するステップを行うように更に構成される、請求項13に記載の装置。
  15. 前記コントローラは、
    前記ラウドスピーカー通過バンドの開始周波数が前記マイクロフォン通過バンドの開始周波数を上回るかどうかを判定するステップと、
    前記ラウドスピーカー通過バンドの開始周波数が上回る場合、前記マイクロフォン通過バンドの前記開始周波数を下回るバンドに前記音声信号を減衰させるステップと、
    を行うように更に構成される、請求項13に記載の装置。
  16. 前記コントローラは、バンド当たりの音声了解度値とグローバル音声対ノイズ比を計算することによって前記マルチバンド音声了解度結果の計算を行うように構成されている、請求項11に記載の装置。
  17. 前記マルチバンド音声了解度結果を計算するステップが、
    前記補正された音声信号及び前記補正されたノイズ信号のショート/ミディアム長さセグメントに対してマルチバンド音声了解度分析を行い、短期音声了解度結果を生成するステップと、
    前記補正された音声信号及び前記補正されたノイズ信号の前記ショート/ミディアム長さセグメントよりも長い、前記補正された音声信号及び前記補正されたノイズ信号のロングセグメントに対してマルチバンド音声了解度分析を行い、長期音声了解度結果を生成するステップと、
    を含む、請求項11に記載の装置。
  18. 前記ノイズ信号のマルチバンド補正の前に、前記マイクロフォンの感度に基づいて、前記ノイズ信号のデジタル-音響レベル変換を行うステップと、
    前記音声信号のマルチバンド補正の前に、前記音声信号のデジタル-音響レベル変換を行うステップと、
    を更に含む、請求項11に記載の装置。
  19. プロセッサによって実行されたときに、
    マイクロフォンから環境中のノイズを表すノイズ信号を受信するステップと、
    ラウドスピーカーを介して前記環境内に再生される音声信号を受信するステップと、
    前記ノイズ信号のデジタル-音響レベル変換と、マイクロフォン伝達関数に基づいて前記ノイズ信号のマルチバンド補正とを行い、補正されたノイズ信号を生成するステップと、
    前記音声信号のデジタル-音響レベル変換と、ラウドスピーカー伝達関数に基づいて前記音声信号のマルチバンド補正とを行い、補正された音声信号を生成するステップと、
    前記補正されたノイズ信号及び前記補正された音声信号に基づいて、バンド当たりの音声了解度値及びグローバルスピーチ対ノイズ比を含むマルチバンド音声了解度結果を計算するステップと、
    を前記プロセッサに実行させる命令が符号化された非一時的コンピュータ可読媒体。
  20. 前記プロセッサに前記計算するステップを行わせる前記命令は、前記プロセッサに、音声分析バンドにわたる前記補正されたノイズ信号及び前記補正された音声信号の音声了解度指数(SII)分析を行わせる命令を含む、請求項19に記載の非一時的コンピュータ可読媒体。
  21. 前記マイクロフォン伝達関数のマイクロフォン通過バンドと前記ラウドスピーカー伝達関数のラウドスピーカー通過バンドとがオーバーラップするオーバーラップ通過バンドを決定するステップを含み、前記プロセッサに前記計算するステップを実行させる前記命令は、前記オーバーラップ通過バンドに限定された音声分析バンドにわたってバンド当たりの音声了解度値を計算するステップを前記プロセッサに実行させる命令を更に含む、請求項19に記載の非一時的コンピュータ可読媒体。
JP2022514501A 2019-09-11 2020-09-09 コンテキスト適応の音声了解度を向上させる方法 Pending JP2022547860A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962898977P 2019-09-11 2019-09-11
US62/898,977 2019-09-11
PCT/US2020/049933 WO2021050542A1 (en) 2019-09-11 2020-09-09 Context-aware voice intelligibility enhancement

Publications (1)

Publication Number Publication Date
JP2022547860A true JP2022547860A (ja) 2022-11-16

Family

ID=72644921

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022514501A Pending JP2022547860A (ja) 2019-09-11 2020-09-09 コンテキスト適応の音声了解度を向上させる方法

Country Status (6)

Country Link
US (1) US20220165287A1 (ja)
EP (1) EP4029018B1 (ja)
JP (1) JP2022547860A (ja)
KR (1) KR20220062578A (ja)
CN (1) CN114402388A (ja)
WO (1) WO2021050542A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023191210A1 (ko) * 2022-03-30 2023-10-05 엘지전자 주식회사 소리 제어 장치를 구비하는 차량

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6249237B1 (en) * 1998-10-09 2001-06-19 Lsi Logic Corporation System and method for bandpass shaping in an oversampling converter
KR100860805B1 (ko) * 2000-08-14 2008-09-30 클리어 오디오 리미티드 음성 강화 시스템
JP4482247B2 (ja) * 2001-04-26 2010-06-16 パナソニック株式会社 自動音質音量調整音響システムおよびその音質音量調整方法
US20070112563A1 (en) * 2005-11-17 2007-05-17 Microsoft Corporation Determination of audio device quality
WO2008134647A1 (en) * 2007-04-27 2008-11-06 Personics Holdings Inc. Designer control devices
DE102007031677B4 (de) * 2007-07-06 2010-05-20 Sda Software Design Ahnert Gmbh Verfahren und Vorrichtung zum Ermitteln einer raumakustischen Impulsantwort in der Zeitdomäne
ATE521064T1 (de) * 2007-10-08 2011-09-15 Harman Becker Automotive Sys Verstärkung und spektralformenanpassung bei der verarbeitung von audiosignalen
EP2465200B1 (en) * 2009-08-11 2015-02-25 Dts Llc System for increasing perceived loudness of speakers
NO332437B1 (no) * 2010-01-18 2012-09-17 Cisco Systems Int Sarl Apparat og fremgangsmate for a supprimere et akustisk ekko
US9064497B2 (en) * 2012-02-22 2015-06-23 Htc Corporation Method and apparatus for audio intelligibility enhancement and computing apparatus
EP3462452A1 (en) * 2012-08-24 2019-04-03 Oticon A/s Noise estimation for use with noise reduction and echo cancellation in personal communication
CN105144754B (zh) * 2013-03-14 2017-03-15 苹果公司 扬声器与调节由房间中的扬声器发出的声音的方法和设备
EP2822263B1 (en) * 2013-07-05 2019-03-27 Sennheiser Communications A/S Communication device with echo suppression
US9443533B2 (en) * 2013-07-15 2016-09-13 Rajeev Conrad Nongpiur Measuring and improving speech intelligibility in an enclosure
JP6311197B2 (ja) * 2014-02-13 2018-04-18 本田技研工業株式会社 音響処理装置、及び音響処理方法
CN105489224B (zh) * 2014-09-15 2019-10-18 讯飞智元信息科技有限公司 一种基于麦克风阵列的语音降噪方法及系统
CN105702262A (zh) * 2014-11-28 2016-06-22 上海航空电器有限公司 一种头戴式双麦克风语音增强方法
DE102015204010B4 (de) * 2015-03-05 2016-12-15 Sivantos Pte. Ltd. Verfahren zur Unterdrückung eines Störgeräusches in einem akustischen System
DK3217399T3 (en) * 2016-03-11 2019-02-25 Gn Hearing As Kalman filtering based speech enhancement using a codebook based approach
JP6878776B2 (ja) * 2016-05-30 2021-06-02 富士通株式会社 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
US10433087B2 (en) * 2016-09-15 2019-10-01 Qualcomm Incorporated Systems and methods for reducing vibration noise
US9947337B1 (en) * 2017-03-21 2018-04-17 Omnivision Technologies, Inc. Echo cancellation system and method with reduced residual echo
JP7083576B2 (ja) * 2018-07-13 2022-06-13 アルパイン株式会社 能動型騒音制御システム及び車載オーディオシステム

Also Published As

Publication number Publication date
KR20220062578A (ko) 2022-05-17
WO2021050542A1 (en) 2021-03-18
EP4029018A1 (en) 2022-07-20
EP4029018B1 (en) 2023-07-26
US20220165287A1 (en) 2022-05-26
CN114402388A (zh) 2022-04-26

Similar Documents

Publication Publication Date Title
JP6147744B2 (ja) 適応音声了解度処理システムおよび方法
US9361901B2 (en) Integrated speech intelligibility enhancement system and acoustic echo canceller
US9197181B2 (en) Loudness enhancement system and method
EP1312162B1 (en) Voice enhancement system
EP2860730B1 (en) Speech processing
US9076456B1 (en) System and method for providing voice equalization
US20120263317A1 (en) Systems, methods, apparatus, and computer readable media for equalization
US11164592B1 (en) Responsive automatic gain control
US20100217606A1 (en) Signal bandwidth expanding apparatus
US20110054889A1 (en) Enhancing Receiver Intelligibility in Voice Communication Devices
JP4018571B2 (ja) 音声強調装置
JP2008309955A (ja) ノイズサプレス装置
US20220165287A1 (en) Context-aware voice intelligibility enhancement
RU2589298C1 (ru) Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220314

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230719

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240814

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240826