JP2021511755A - Speech recognition audio system and method - Google Patents
Speech recognition audio system and method Download PDFInfo
- Publication number
- JP2021511755A JP2021511755A JP2020550930A JP2020550930A JP2021511755A JP 2021511755 A JP2021511755 A JP 2021511755A JP 2020550930 A JP2020550930 A JP 2020550930A JP 2020550930 A JP2020550930 A JP 2020550930A JP 2021511755 A JP2021511755 A JP 2021511755A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- interest
- external
- audio
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000010355 oscillation Effects 0.000 claims abstract description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 37
- 230000009467 reduction Effects 0.000 claims description 27
- 239000000872 buffer Substances 0.000 claims description 15
- 230000003595 spectral effect Effects 0.000 claims description 12
- 206010019133 Hangover Diseases 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 11
- 230000004807 localization Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 3
- 230000008685 targeting Effects 0.000 claims 9
- 238000001514 detection method Methods 0.000 description 47
- 230000000694 effects Effects 0.000 description 30
- 238000010586 diagram Methods 0.000 description 19
- 238000012545 processing Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 10
- 230000003044 adaptive effect Effects 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 8
- 230000006835 compression Effects 0.000 description 7
- 238000007906 compression Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000001965 increasing effect Effects 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000009795 derivation Methods 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 241000269400 Sirenidae Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 206010011469 Crying Diseases 0.000 description 1
- 238000012896 Statistical algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- -1 electronic circuits Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000012464 large buffer Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Abstract
音声認識オーディオシステム、およびヘッドセットを装着しているユーザが音楽または任意の他のオーディオ源を聴いている間に外部音響環境を認識する方法。調節可能な音響認識ゾーンは、はるか遠くの音声を聞くことを回避する柔軟性をユーザに与える。周波数領域で外部音響を分析して、発振周波数候補を選択して、時間領域で、発振周波数候補が、関心のある信号であるかどうかを判断することができる。外部音響を対象とする信号を関心のある信号であると判断した場合、外部音響は、オーディオ源からのオーディオと混合される。Speech recognition A method of recognizing the external acoustic environment while the user wearing the audio system and headset is listening to music or any other audio source. Adjustable acoustic recognition zones give the user the flexibility to avoid hearing far away speech. External acoustics can be analyzed in the frequency domain, oscillation frequency candidates can be selected, and in the time domain it can be determined whether the oscillation frequency candidate is a signal of interest. If the signal intended for the external sound is determined to be the signal of interest, the external sound is mixed with the audio from the audio source.
Description
本発明は、ヘッドセットを装着したユーザが音楽または任意の他のオーディオ源を聴きながら外部音響環境を認識するためのシステムおよび方法に関する。 The present invention relates to a system and method for a user wearing a headset to recognize an external acoustic environment while listening to music or any other audio source.
発話活動検出または発話検出として公知の音声活動検出(voice activity detection、VAD)は、人間の発話のありまたはなしを検出する発話処理で使用される技法である。さまざまなVADアルゴリズムが公知である。VADで使用される従来のアルゴリズム解決手段は、入力信号に雑音があるときに検出スコアが劣るという問題を欠点として持つことが公知である。 Voice activity detection (VAD), known as speech activity detection or speech detection, is a technique used in speech processing to detect the presence or absence of human speech. Various VAD algorithms are known. Conventional algorithmic solutions used in VADs are known to have the drawback of inferior detection scores when the input signal is noisy.
VADは、発話認識システム、発話圧縮システム、および雑音低減システムを含む多くの発話処理アプリケーションで役割を果たす。図1では、フレーム化された入力信号からの特徴抽出、次いで最後の数フレームから取り込んだ情報に基づき多次元しきい値の採用、続けてフレームが発話かそれとも雑音かを判定するために特徴をこのしきい値と比較することから構成される、従来のVADの基本原理が描かれている。一般に、典型的には、文の中で出現する正常な短い無音期間を含む連続発話ストリームを確保することが目的である判定ハングオーバという最終段階が存在する。10ms〜40msの継続期間は、発話が統計的に定常的であると考えることができる時間窓に対応するので、一般に10ms〜40msの継続期間になるようにフレーム長を選ぶ。 VADs play a role in many speech processing applications, including speech recognition systems, speech compression systems, and noise reduction systems. In FIG. 1, features are extracted from a framed input signal, then a multidimensional threshold is adopted based on the information captured from the last few frames, and then features are used to determine whether the frame is utterance or noise. The basic principle of conventional VAD, which consists of comparing with this threshold, is drawn. In general, there is typically a final stage, a decision hangover, whose purpose is to ensure a continuous speech stream that includes a normal short silence period that appears in the sentence. Since the duration of 10 ms to 40 ms corresponds to a time window in which the utterance can be considered to be statistically stationary, the frame length is generally chosen to be a duration of 10 ms to 40 ms.
発話を検出する基準は、アルゴリズムで使用することができる明確に規定された数学的構造を有する、周期的であるような有声部分を探すことである。別の取り組み方法は、発話用統計モデルを使用し、取り込んだデータサンプルから発話パラメータを推定し、判定理論の古典的結果を使用して、フレーム発話/雑音分類に至ることである。 The criterion for detecting utterances is to look for a periodic voiced part with a well-defined mathematical structure that can be used in the algorithm. Another approach is to use a statistical model for speech, estimate speech parameters from captured data samples, and use the classical results of judgment theory to reach frame speech / noise classification.
図2は、発話を検出するために時間領域法で使用されてきた技法を例示する。技法は、短時間エネルギー、ゼロ交差率、相互相関、周期性測度、線形予測分析、およびピッチ推定を含む。図3は、発話を検出するために周波数領域法で使用されてきた技法を例示する。技法は、副帯域エネルギー、ウィーナー(Weiner)エントロピー、ケプストラム、エネルギーエントロピー、調和率、およびスペクトルピーク分析を含む。従来のVADアルゴリズムは、時間領域または周波数領域の特徴を使用する、または統計的アルゴリズムもしくは他の特定のアルゴリズムの仕組みを使用する。いくつかの従来のVADは、長期スペクトル発散、ケプストラムピーク、MELフィルタ処理スペクトル、および時間領域または周波数領域でのスペクトル−時間変調を含む特徴の集合体を使用する。 FIG. 2 illustrates techniques that have been used in the time domain method to detect utterances. Techniques include short-term energy, zero crossover, cross-correlation, periodic measures, linear prediction analysis, and pitch estimation. FIG. 3 illustrates techniques that have been used in the frequency domain method to detect utterances. Techniques include subband energy, Wiener entropy, cepstrum, energy entropy, harmonics, and spectral peak analysis. Traditional VAD algorithms use time domain or frequency domain features, or use statistical algorithms or other specific algorithmic mechanisms. Some conventional VADs use a collection of features including long-term spectral divergence, cepstrum peaks, MEL filtered spectra, and spectral-time modulation in the time domain or frequency domain.
雑音の量が増大するとき、VAD性能は低下することは公知である。従来の解決手段は、VADシステムの前に雑音低減(noise reduction、NR)モジュールを用いるべきである。雑音低減(NR)を用いて発話信号を処理するときの1つの公知の限界は、音楽雑音が潜在的に出現することであり、音楽雑音は、入力信号に追加されてVADモジュールを誤った方向に導くことがあり、誤検出を生み出す。 It is known that VAD performance decreases as the amount of noise increases. Conventional solutions should use a noise reduction (NR) module before the VAD system. One known limitation when processing speech signals with noise reduction (NR) is the potential appearance of music noise, which is added to the input signal and misdirects the VAD module. May lead to false positives.
従来のNRモジュールを使用することに伴う別の欠点は、異なる雑音レベルおよびカテゴリに対してシステムが正しく作動できるようにするために内部パラメータを設定することが困難なことであり、さらにはそうすることが不可能なことである。ある例として、雑音が非常に多い環境に取り組むために1組の内部パラメータを選ぶ場合、無音または静かな環境で、比較的重要な歪みが出現する。 Another drawback with using traditional NR modules is that it is difficult to set internal parameters to allow the system to operate properly for different noise levels and categories, and even so. Is impossible. As an example, when choosing a set of internal parameters to address a very noisy environment, relatively significant distortions appear in a silent or quiet environment.
オーディオ品質に影響を及ぼすだけではなく、VADモジュールの性能さえ害することがある上記の欠点を克服するために、雑音レベル環境を検出するための改善された仕組みを提供し、NR内部パラメータの動的設定を可能にすることが望ましい。 To overcome the above drawbacks that not only affect audio quality but can even compromise the performance of VAD modules, it provides an improved mechanism for detecting noise level environments and dynamics of NR internal parameters. It is desirable to be able to set.
改善された、雑音にロバストなVAD法、およびユーザが音楽または任意の他のオーディオ源を聴いている間に外部音響環境を認識できるようにするためのシステムを提供することが望ましい。 It is desirable to provide an improved, noise-robust VAD method, and a system that allows the user to recognize the external acoustic environment while listening to music or any other audio source.
本発明は、音声認識オーディオシステム、およびヘッドセットを装着しているユーザが音楽または任意の他のオーディオ源を聴いている間に外部音響環境を認識するための方法に関する。本発明は、ユーザに柔軟性を与えて、はるか遠くの音声を聞くことを回避する、調節可能な音響認識ゾーンの概念に関する。本発明のシステムは、本明細書により、参照により本出願の中に組み入れられる米国特許出願公開第2016/0241947号明細書で記述されているようなヘッドホンの特徴を使用する。一実施形態では、ヘッドホンは、4つの入力マイクロホンを有するマイクロホンアレイを含む。このマイクロホンアレイは、空間音響獲得選択性を提供し、関心のある方向へマイクロホンアレイを向けることを可能にする。ビーム形成法を使用し、雑音低減システム、分数遅延処理、および本発明の音声活動検出(VAD)アルゴリズムのような異なる技術と組み合わせて、雑音のある環境で、改善された性能を伴う新しいオーディオアーキテクチャを提供する。 The present invention relates to a speech recognition audio system and a method for a user wearing a headset to recognize an external acoustic environment while listening to music or any other audio source. The present invention relates to the concept of adjustable acoustic recognition zones that give the user flexibility and avoid hearing speech far away. The system of the present invention uses headphone features as described herein in US Patent Application Publication No. 2016/0241947, which is incorporated herein by reference. In one embodiment, the headphones include a microphone array with four input microphones. This microphone array provides spatial acoustic acquisition selectivity and allows the microphone array to be oriented in the direction of interest. A new audio architecture that uses beam forming methods and combines with different technologies such as noise reduction systems, fractional delay processing, and the voice activity detection (VAD) algorithm of the present invention, with improved performance in noisy environments. I will provide a.
本発明は、雑音低減およびアレイ処理を含む、異なる信号処理モジュールを含む。詳細には、雑音検知(Noise Sensing、NS)と呼ばれる、雑音レベルを推定する手順が提供される。この手順は、出力音響品質が最適化されるように、雑音低減パラメータを適合させる。音声が検出されると、ユーザは、聴いていた音楽または他のオーディオ源を乱すことなくヘッドホン信号を介して警報を受けることができる。これは、外部音声をヘッドホンリード信号と混合することにより行われる。心理音響学的特性を考慮し、了解度を同時に最大にしながら、音楽信号の音量を低減することなく最終混合を可能にする混合の仕組みを使用する。 The present invention includes different signal processing modules, including noise reduction and array processing. In particular, a procedure for estimating noise levels is provided, called Noise Sensing (NS). This procedure adapts the noise reduction parameters so that the output acoustic quality is optimized. When audio is detected, the user can be alerted via the headphone signal without disturbing the music or other audio source they are listening to. This is done by mixing the external audio with the headphone read signal. Considering psychoacoustic characteristics, use a mixing mechanism that allows final mixing without reducing the volume of the music signal while maximizing intelligibility at the same time.
本発明の音声認識オーディオシステムの典型的適用例は、以下のシナリオの範囲内で、すなわち、人の叫び声、会話または呼び声、赤ん坊の泣き声、公共輸送のアナウンスなどの音声、誰かが鳴らしているドアのベル、宅配便で活動化されたドアベル、家、自動車、および他の警報などのベルおよび警報、自動車の警笛、警察および救急車の空襲サイレン、ならびにホイッスルなどの他のシナリオで出現する可能性がある。以下の図面を参照して、本発明についてより完全に記述する。 Typical applications of the voice recognition audio system of the present invention are within the following scenarios: voices such as human screams, conversations or calls, baby crying, public transport announcements, doors that someone is ringing. Bells and warnings such as courier-activated doorbells, homes, cars, and other warnings, car horns, police and ambulance air raid sirens, and other scenarios such as whistles can appear. is there. The present invention will be described more fully with reference to the drawings below.
次に、本発明の好ましい実施形態をより詳細に参照し、好ましい実施形態のある例を添付図面に例示する。可能なときはいつでも、同じまたは類似する部分を指すために、図面および記述全体を通して同じ参照番号を使用する。 Next, the preferred embodiments of the present invention will be referred to in more detail, and some examples of the preferred embodiments will be illustrated in the accompanying drawings. Whenever possible, use the same reference numbers throughout drawings and descriptions to refer to the same or similar parts.
本発明の音声認識オーディオシステムは、ヘッドホンを装着している任意のユーザが音楽または任意の他のオーディオ源を聴いている間に外部音響環境を認識できるようにする。一実施形態では、音声認識オーディオシステムを、たとえば米国特許出願公開第2016−0241947号明細書で記述するような、入力マイクロホンを4つ有するヘッドホンとして実装することができる。ユーザは、ヘッドホンのマイクロホンから到来する信号が望ましい信号であると認識されたとき、音声または1組の規定された関心のある音響を聞くことにより刺激される。マイクロホンから到来する信号が音声または関心のある任意の信号であると分析されないとき、聞き手は、マイクロホン信号により混乱させられことはなく、リード信号を聞くだけである。 The voice recognition audio system of the present invention allows any user wearing headphones to recognize the external acoustic environment while listening to music or any other audio source. In one embodiment, the speech recognition audio system can be implemented as headphones with four input microphones, as described, for example, in US Patent Application Publication No. 2016-0241946. The user is stimulated by listening to a voice or a set of defined sounds of interest when the signal coming from the microphone of the headphones is recognized as the desired signal. When the signal coming from the microphone is not analyzed as voice or any signal of interest, the listener is not confused by the microphone signal, only hears the read signal.
図4は、ヘッドホン12を装着し、音楽を聴いている、またはオーディオ出力と共にテレビ画面などを注視している人Aに向かって人Bがやって来るときの音声認識オーディオシステム10に関する可能なシナリオを例示する。人Bが人Aに向かって話しかけるとすぐに、音声は、イヤーパッド14の中に配列された1つまたは複数のマイクロホン15を通して検出され、人Bが話した発話メッセージを人Aが認識するようにリード信号と混合される。かき乱すことのないように、外部音響は、人間の音声などの望ましいものであるときだけ音楽と混合される必要がある。音声認識システム10はまた、他の典型的な音響、たとえば警報、鳴る音、警笛、警報、サイレン、ベル、およびホイッスルも検出することができる。
FIG. 4 illustrates a possible scenario for a voice
図5に描くように、音声認識オーディオシステム10と共に調節可能な音響認識ゾーン(Adjustable Sound Awareness Zone、ASAZ)と呼ばれるサブシステムを使用することができる。ユーザは、音声認識システム10が、規定された球半径の内側にある、ささやきではない正常な音声だけに反応するように、ヘッドホン12に関連したアプリケーション・プログラム・インタフェース(Application Program Interface、API)を通してユーザの頭の周囲に可変の球半径を規定する能力を有する。規定された球の外側に位置する、叫び声ではない任意の他の正常な音声も検出されない。音声認識システム12を調節する3つのレベルを、広い、中程度、および狭いと規定することができる。広い調節は、大きな長さを有する半径RLに対応し、中程度の調節は、RLよりも小さな中程度の長さを有する半径RMに対応し、狭い調節は、半径RMよりも小さな、小さな長さを有する半径RSに対応する。たとえば、半径RLは、約75フィート〜約30フィートまでの範囲の長さを有することができ、半径RMは、約50フィート〜約20フィートまでの範囲の長さを有することができ、半径RSは、約25フィート〜約1フィートまでの範囲の長さを有することができる。
As depicted in FIG. 5, a subsystem called an adjustable Sound Awareness Zone (ASAZ) can be used with the speech
図4を参照すると、音声認識オーディオシステム10は、雑音低減(NR)アルゴリズムの内部パラメータのいずれにも迅速に調和することができるように、雑音レベルを推定するための雑音低減(NR)法または雑音低減(NR)アルゴリズムを含む。これにより、広範囲の雑音レベルに対して最良のオーディオ品質が提供される。さらにまた、雑音検知(Noise Sensing、NS)と呼ばれるこの手順を使用して、影響されやすいしきい値または他の内部パラメータを動的に調節して、良好な性能を達成する。
Referring to FIG. 4, the speech
一実施形態では、ヘッドホン12は、イヤーパッド14内に位置する1つまたは複数の無指向性マイクロホン15を有する。ヘッドホン12は、図6に示すように、4つの無指向性マイクロホン15を含むことができる。ヘッドホン12は、4つの無指向性マイクロホン15からなる長方形アレイまたは台形アレイを備えつける。この構成は、一直線になった、またはさらにまた対角線上に要素を組み合わせる対により、異なる仮想指向性/心臓形のマイクロホンを使用できるようにする。無指向性マイクロホン15は、ユーザの周囲環境の360°オーディオイメージを実現するために、特有の位置に搭載されたイヤーパッド14の下側部分16に位置する。アレイ処理アルゴリズムを使用して、話者の場所などの、関心のある局所化を決定する。局所化が遂行されると、ユーザは、その方向に向けて等価アンテナ放射パターンを容易に向けることができる。そうすれば、1つまたは複数の無指向性マイクロホン15での雑音エネルギーを低減することができ、外部音声は強化される。以下で記述するように、ビーム形成の影響は、雑音低減性能に決定的な影響を及ぼす。1つまたは複数のスピーカ17をマイクロホン15と関連づけることができる。代替実施形態では、ヘッドホン12は、あるタイプの構造に関連する任意のタイプのスピーカアレイを含むことができる。
In one embodiment, the
図7は、音声認識オーディオシステム10内に実装することができる音声活動検出20のための方法の概略図である。本発明の実装形態は、周波数領域と時間領域の両方を使用するためにある。ブロック22で、周期パターンを検出するために周波数領域を使用することができる。ブロック22を第1の推測ステップと呼ぶことができる。ブロック22は、潜在的発振周波数候補を選択することが目的の粗い判定処理である。ブロック22の後に、ブロック24を遂行することができる。ブロック24は、選択した発振周波数候補が確認されたか、されていないかを調べるために、時間領域手順とすることができる。ブロック22での周波数領推測ステップのために、および雑音耐性があるように、大規模バッファを、および偽陰性判定の割合を最小にするために比較的低いしきい値を使用することができる。検出した発振周波数候補が間違っている場合、周波数領域の第1のステップの分析のために使用したフレーム内部の副フレームに対して作動している時間領域アルゴリズム分析の結果を再帰的に使用して、ブロック24内の第2の、かつ最終の判定処理を時間領域で遂行する。
FIG. 7 is a schematic diagram of a method for
ブロック22のある実装形態では、2つの連続する手順に伴う計算上の負担を低減するために、ウィーナーエントロピーまたはスペクトル平坦度を使用する。また、以下で記述するように、雑音低減のために入力バッファのFFTを使用することができる。
In some implementations of
ブロック24のある実装形態では、ピッチ推定アルゴリズムを使用する。一実施形態では、ピッチ推定アルゴリズムは、ロバストなYINアルゴリズムに基づく。推定処理を簡略化して、検出だけの処理にすることができる、または完全なアルゴリズムを使用して、アルゴリズムを誤りに対してさらによりロバストにするために、連続するフレーム間で推定したピッチ値の連続性を確保できる。
Some implementations of
フレーム内の副フレームに加えて大きなフレーム間の重なりにわたり連続して判定することにより、WEYIN(Weiner Entropy YIN、ウィーナーエントロピーYIN)アルゴリズムと呼ばれるアルゴリズムの精度が高まる。 The accuracy of an algorithm called the Wiener Entropy YIN (Wiener Entropy YIN) algorithm is improved by continuously determining the overlap between large frames in addition to the subframes in the frame.
VADに関する一実施形態では、ブロック22で、周波数領域内の特徴の異なる組合せを用いて本方法を行って、ブロック24の時間領域で再分析される潜在的ピッチ有声フレーム候補を検出することができる。
In one embodiment of VAD, block 22 can perform this method with different combinations of features within the frequency domain to detect potential pitch voiced frame candidates that are reanalyzed in the time domain of
ウィーナーエントロピーは、次式のように得られ、 The Wiener entropy is obtained by the following equation,
上式は、次式を使用して計算することができる。 The above equation can be calculated using the following equation.
この式は、次式を導く。 This equation leads to the following equation.
ウィーナーエントロピーは、異なる帯域Bi、i=1,…,Lで計算することができる。その結果、候補選択処理は、L個のスカラー量を計算することによって行われる。 Wiener entropy can be calculated in different bands B i , i = 1, ..., L. As a result, the candidate selection process is performed by calculating the amount of L scalars.
これらは、しきい値判定ステップ後、選択処理に送られる。 These are sent to the selection process after the threshold determination step.
フレームが発話ありの候補として設計されると、ブロック24で時間領域の検査が開始される。次式のように、長さMのK個の副フレームにわたりYINアルゴリズムを使用することができ、
N=KM、
式中、
N=2L
は、FFTを使用することができるように、2のべき乗になるように選んだ、スペクトル領域で使用するフレーム長である。
When the frame is designed as an uttered candidate, time domain inspection is initiated at
N = KM,
During the ceremony
N = 2 L
Is the frame length used in the spectral region, chosen to be a power of 2 so that the FFT can be used.
YINアルゴリズムをピッチ推定アルゴリズムからピッチ検出アルゴリズムに変える。そのために、周波数帯域 Change the YIN algorithm from a pitch estimation algorithm to a pitch detection algorithm. Therefore, the frequency band
は次式の時間値間隔[τmin,τmax]を導く、期待される最小および最大のピッチ周波数値に対応するように規定され、 Is specified to correspond to the expected minimum and maximum pitch frequency values, which leads to the time interval [τ min , τ max] of the following equation.
式中FSは、周波数領域で処理するために使用する元のサンプリング周波数の分数とすることができるサンプリング周波数であり、 In the equation, F S is a sampling frequency that can be a fraction of the original sampling frequency used for processing in the frequency domain.
は、それぞれ床(floor)丸め演算子および天井(ceiling)丸め演算子である。ある例として、 Are the floor rounding operator and the ceiling rounding operator, respectively. As an example
である場合、[τmin,τmax]=[20,115]である。 If, then [τ min , τ max ] = [20,115].
時間遅延による遅れに関する以下の行列を規定する。 We specify the following matrix for delays due to time delays.
式中、<>は、最も近い整数への丸め演算子であり、(0;m)=(0 1 2 … m−1 m)である。上記の例を以下のように再考する。 In the equation, <> is a rounding operator to the nearest integer, and (0; m) = (0 1 2 ... m-1 m). Reconsider the above example as follows.
この選択を用いて、YIN差分関数の計算は、行列Δの第1行および第2行の遅れ値に従って行われる。この行列の第1列は、差分関数計算を開始する相対インデックスを与える。 Using this selection, the calculation of the YIN difference function is performed according to the lag values in the first and second rows of the matrix Δ. The first column of this matrix gives a relative index to start the difference function calculation.
このフレームにわたり、長さHの連続する間隔から引き継いだ1組の差分関数値を規定する。これらの値は、以下のように規定される行数および列数を伴う行列の形に構成される。 A set of difference function values inherited from continuous intervals of length H is defined over this frame. These values are organized in the form of a matrix with the number of rows and columns defined as follows.
YIN差分行列ddは、その一般要素により以下のように規定される。 The YIN difference matrix dd is defined by its general elements as follows.
次いで、次式について考えてみる。 Next, consider the following equation.
さらに、以下の量について考えてみる。 In addition, consider the following quantities.
次式を計算することによりアルゴリズムは再開する。 The algorithm restarts by calculating the following equation.
そして、最小を探す。
rr(i)=min(Dn(τmin:τmax))
上式をしきい値と比較する。
Then look for the smallest.
rr (i) = min (Dn (τ min : τ max ))
Compare the above equation with the threshold.
この最小がしきい値よりも小さい場合、副フレームiに関する発話あり判定βi=1が得られる。 When this minimum is smaller than the threshold value, the utterance determination βi = 1 regarding the subframe i is obtained.
本フレーム内の連続するK個の副フレームに対して判定が行われると、続けて多数決を行うことにより、全フレームにわたり発話ありに関する判定が行われる。 When the determination is made for K consecutive sub-frames in the present frame, the determination regarding the presence of utterance is made over all the frames by continuously making a majority vote.
式中、Qは(限定するわけではないが)K/2になるように選ばれてよい。 In the formula, Q may be chosen to be K / 2 (but not limited).
一実施形態では、ブロック22で、ウィーナーエントロピー簡略化を使用することができる。高くつく平方根ベクトル演算
In one embodiment, at
を回避するために、次式を選んで、使用する。 To avoid, choose and use the following equation:
図8Aは、発話信号を示す。図8Bは、ウィーナーエントロピーの対数を示す。図8Cは、簡略化ウィーナーエントロピーの対数を示す。結果は、簡略化ウィーナーエントロピーが有声発話の正しい指示であることを示す。 FIG. 8A shows an utterance signal. FIG. 8B shows the logarithm of Wiener entropy. FIG. 8C shows the logarithm of the simplified Wiener entropy. The results show that the simplified Wiener entropy is the correct instruction for voiced speech.
一実施形態では、ブロック24で、YIN簡略化を使用することができる。時間領域部分については、以下のYIN版を使用することができる。 In one embodiment, block 24 can use the YIN simplification. The following YIN version can be used for the time domain portion.
この最後の等式では、自乗差関数は、演算回数を低減するために、絶対値により置き換えられている。 In this last equation, the square difference function is replaced by an absolute value to reduce the number of operations.
2つの連続するフレーム間でJ個のサンプルの重なりが存在する(発話ありの判定は、最初のJ個のサンプルだけについて正しい)。 There is an overlap of J samples between two consecutive frames (the judgment of utterance is correct only for the first J samples).
rk(i+1)が、時間i+1で行列ddi+1のk番目の行である場合、以下が得られ、 If r k (i + 1) is the kth row of the matrix dd i + 1 at time i + 1, then
式中、rm(i+1)は、行列ddi+1のm番目の列であり、ddi(2:n列,:)は、列2からn列まで、本フレームiに関連づけられたddから抽出された行列である。
Wherein, r m (i + 1) is the m-th column of the matrix dd i + 1, dd i ( 2: n columns, :) from
前記の式から次式が容易に演繹される。 From the above equation, the following equation is easily deduced.
または、
Ddi+1=Ddi−ri(i)+rn列(i+1)
したがって、行列ddの行の和を計算する前に行列ddの要素をすべて計算する必要はない。代わりに、ベクトルDd(i)は、r番目のn列(i)およびn番目のn列(i)を計算することにより更新される。
Or
Dd i + 1 = Dd i − r i (i) + r n column (i + 1)
Therefore, it is not necessary to calculate all the elements of the matrix dd before calculating the sum of the rows of the matrix dd. Instead, the vector Dd (i) is updated by computing the r-th column (i) and the n-th column (i).
図9は、雑音検知アーキテクチャシステム50と組み合わせた音声活動検出アーキテクチャシステム30での、方法20のある実装形態の概略図である。図1に示すように、音声活動検出(VAD)アーキテクチャシステム30および雑音検知アーキテクチャシステム(NS)50を音声認識オーディオシステム10の中に実装して、雑音にロバストな音声活動検出(VAD)を提供することができる。図9を参照すると、入力バッファ31は、入力信号29を受信する。高速フーリエ変換(Fast Fourier Transformation FFT)、および入力バッファ31での入力信号29の連結は、フレーム32を決定する。ウィーナー・エントロピー・モジュール33でフレーム32を使用して、候補を検出することができる。ウィーナー・エントロピー・モジュール33は、図7に示すようなブロック22を遂行する。
FIG. 9 is a schematic diagram of an implementation of the
図9を参照すると、フレーム32はまた、連続するK個の副フレーム34に分割することができる。YINピッチ検出モジュール36の前に、副フレーム34に対してダウンサンプリング処理35を使用することができる。YINピッチ検出モジュール36は、図7に示すようなブロック24を遂行する。図9を参照すると、ウィーナー・エントロピー・モジュール33およびYIN検出モジュール36は、副フレーム判定37を決定する。発話ありを判断するモジュール40の前で、副フレーム判定37、および他の副フレーム38からの判定をハングオーバモジュール39の中に導入することができる。文の内部に低エネルギーの領域を見いだすことができ、本発明の方法20は、これらの領域を非発話フレームと考えてよい。中断が多すぎる場合、出力での聴取は、いらいらさせる可能性がある。ハングオーバモジュール39を使用することにより混乱を除去することができる。また、雑音検知(NS)アーキテクチャ50にフレーム32を転送することができる。
With reference to FIG. 9, the
図10は、ハングオーバモジュール39内で使用することができる状態機械60の概略図である。ハングオーバモジュール出力で発話ありを表す恒久的状態1を円61により描き、ハングオーバモジュール出力で発話なしを表す恒久的状態0を円63により描く。円61およびボックス64,ならびに円63およびボックス65から外に出る各判定矢印(0または1)は、フレーム処理後に得られる。判定が前の判定と同じである場合、XYまたはXNは、それぞれ発話ありまたは発話なしとして累積される。同じではない場合、XYおよびXNは、それらの初期値0にリセットされる。これらの変数の一方がNYまたはNNに等しくなると、一方の状態から別の状態への切替えが起動される。
FIG. 10 is a schematic view of a state machine 60 that can be used in the
この方法またはアルゴリズムでは、decVadは、図9に示す発話検出モジュール40から到来する判定入力を意味する。図10の状態機械で位置インデックスidx、およびそのインデックスの状態に関連する判定出力decHov値を規定する場合、その結果、状態[0]=0および状態[1]=1である。
In this method or algorithm, decVad means a determination input coming from the
図11〜図13は、ウィーナーエントロピー値に及ぼす入力バッファデータの影響を示す。図11A、図12A、および図13Aは、それぞれ128、256、および512のバッファ長での発話信号を示す。図11B、図12B、および図13Bは、それぞれ128、256、および512のバッファ長での対数ウィーナーエントロピーを示す。図11C,図12C、および図13Cは、それぞれ128、256、および512のバッファ長での簡略化対数ウィーナーエントロピーを示す。入力データバッファ長を増大させることにより、ウィーナーエントロピー曲線を滑らかにする効果があることが示されている。 11 to 13 show the influence of the input buffer data on the Wiener entropy value. 11A, 12A, and 13A show utterance signals at buffer lengths of 128, 256, and 512, respectively. 11B, 12B, and 13B show log Wiener entropy at buffer lengths of 128, 256, and 512, respectively. 11C, 12C, and 13C show simplified log Wiener entropy at buffer lengths of 128, 256, and 512, respectively. It has been shown that increasing the input data buffer length has the effect of smoothing the Wiener entropy curve.
一実施形態では、雑音検知(NS)アーキテクチャ50は、音楽雑音の出現をできるだけ回避しながら、すべての可能な雑音レベルについて、雑音低減(NR)オーディオ品質出力を提供するように最適化する。図14に描くように、適応雑音低減(NR)モジュール70で雑音検知(NS)の出力51を使用することができる。雑音エネルギー検知アーキテクチャシステム72を使用して、モジュール73、および合波器75と出力を組み合わせた雑音低減モジュール74を用いて雑音を推定する。雑音低減(NR)アルゴリズムパラメータの選択を導出する雑音低減モジュール74により、雑音の量を推定する。距離計算モジュール76は、検知した雑音とヘッドホン12の間の距離を決定することができる。
In one embodiment, the noise detection (NS)
距離計算モジュール76から得た出力を、ハングオーバ判定モジュール77で使用する。雑音レベル状態の間を切り替える頻度を制御するために、雑音、中間段階、および雑音なしとして3つの雑音レベル状態を規定し、これらの状態は、音声認識オーディオシステム10が突然の雑音またはインパルス性雑音に対して切り替えられないように、ハングオーバ判定モジュール77で決定される。適応雑音低減モジュール78は、ハングオーバ判定モジュール77から得られる信号を処理して、雑音を低減する。未加工の信号G1 80と処理済み信号82 G2の両方は、クリーンな信号85を提供するためにミキサ84で混合され、適応凸線形結合を用いて音声活動決定(voice activity determination、VAD)アーキテクチャシステム30に伝送され、
y=G1x1+(1−G1)x2
式中、x1は、未加工のマイクロホン入力であり、x2は、NRモジュール出力であり、yは、VADモジュールの入力である。
The output obtained from the
y = G1x1 + (1-G1) x2
In the equation, x1 is the raw microphone input, x2 is the NR module output, and y is the VAD module input.
G1は、時間領域または周波数領域で計算することができる2乗平均平方根(root mean square、RMS)値ξに依存する。 G1 depends on the root mean square (RMS) value ξ that can be calculated in the time domain or frequency domain.
環境雑音を最大まで低減しながら、音楽雑音およびオーディオアーチファクトを最小まで制限する目的で、NRアルゴリズムおよびそれらのアルゴリズムに対応する内部設定パラメータを調節することができる。 The NR algorithm and the internal configuration parameters corresponding to those algorithms can be adjusted to minimize music noise and audio artifacts while reducing environmental noise to the maximum.
一実施形態では、音声認識オーディオシステム10は、マイクロホンアレイおよびたとえば4チャネル手順を有するヘッドホン12を含むことができる。多重チャネル手順の利点は、多重チャネル手順が、効率を増大させる革新的特徴をもたらすことである。スピーカは、空間内に局所化するので、マイクロホンアレイへのスピーカ音声音響の伝播は、雑音拡散とは反対にコヒーレントなパスに従う。典型的には、1つのマイクロホンで拾い上げられた音声は、第2のマイクロホンで記録された音声の、遅延した複製である。図15A〜図15Cは、位相差パターンを例示する。信号は、タイミングが、前方にある1つのスピーカおよび後方にある1つのスピーカ(約2秒〜約6秒)、ならびに2つのスピーカ、すなわち前方に1つ、および後方に1つ(約6秒〜約10秒)を表す、描かれた4チャネル記録マイクロホンアレイの第1トラックである。雑音は、図15Aに示すように、入力信号に人工的に追加されている。MLFとMLB(ブロードサイド)の間の位相差を図15Bに示し、MRFとMRB(エンドファイア)Iの間の位相差を図15Cに示す。両方のアレイについて、発話がありまたはなしのときに、位相差パターンは類似して見えないことが示されている。
In one embodiment, the voice
マイクロホンアレイは、空間フィルタの役割を果たして、望ましくない方向から到来する音響を減衰させ、一方では、選択した1つまたは複数の方向から到来する音響を強化する。マイクロホンアレイを使用することにより、音響品質を改善するのに、ならびに/またはVAD雑音ロバスト性および検出精度を高めるのに役立つ可能性がある。 The microphone array acts as a spatial filter to attenuate sound coming from undesired directions, while enhancing sound coming from one or more selected directions. The use of microphone arrays can help improve acoustic quality and / or improve VAD noise robustness and detection accuracy.
図16は、雑音のある信号を受信して、クリーンな信号を決定する雑音検知アーキテクチャシステム50を含む音声認識オーディオシステム10のある実装形態を例示する。クリーンな信号は、音声活動検出アーキテクチャシステム30で使用される。マイクロホンアレイ100は、局所化モジュール102およびビーム形成モジュール104と共に使用することができる。
FIG. 16 illustrates an implementation of a speech
マイクロホンアレイ100内のマイクロホン15の1つで、1方向で音声を検出すると、局所化モジュール102は、スピーカ到来方向を局所化する。ビーム形成モジュール104は、音声を検出しているマイクロホンを、決定した方向に向けて、その結果として、他の方向から到来する雑音を減衰させる。ビーム形成モジュール104は、外部雑音を統計的および空間的に減衰させて、図6に示すように、強化された音声信号をヘッドホン12のスピーカ17に配送させる。
When one of the
代替実施形態では、雑音は、すべての方向から到来している。たとえば、雑音は、列車、飛行機、船などですべての方向で発生する可能性があり、これらの場所では、雑音は、主としてモータエンジンに起因し、客室の音響が反響するために到来方向がまったく正確ではない。逆に、関心のあるスピーカは、空間の単一地点に常に位置する。反響は、スピーカの、たとえば最大数メートル近傍にあるので、めったに問題とならない。 In the alternative embodiment, the noise comes from all directions. For example, noise can occur in all directions on trains, planes, ships, etc. In these places, the noise is mainly due to the motor engine and the direction of arrival is totally due to the echoing of the cabin acoustics. it's not correct. Conversely, the speaker of interest is always located at a single point in space. Reverberation is rarely a problem because it is near the speaker, for example up to a few meters.
図17は、雑音のある信号を受信して、クリーンな信号を決定する雑音検知アーキテクチャシステム50と、雑音と信号の間の差を利用するマイクロホンアレイの使用とを含む音声認識オーディオシステム10のある実装形態を例示する。雑音低減(NR)モジュール70および音声活動検出アーキテクチャシステム30と並列に、たとえば前方および後方など、異なる方向から到来する入射信号をビーム形成モジュール104で受信し、類似モジュール106で比較する。発話がある場合、スピーカを同時に複数の位置に配置することができないことを考慮して、2つのスペクトル間の差を観察すべきである。発話がない場合、ヘッドホンがどの方向を向いていようが、雑音は多かれ少なかれ同じであることを考慮して、スペクトル間の小さな差を観察することができる。類似モジュール106で決定した信号を、有声信号、および多くの場合、音声活動検出アーキテクチャシステム30からのアーチファクトと、ミキサ107で混合することができる。そのような類似に基づく特徴を使用することは、雑音に対する信号のロバスト性を高めるための音声活動検出アーキテクチャシステムの誤警報を除去するのに役立つ可能性がある。
FIG. 17 is a speech
図18は、複数のスピーカがユーザの周囲に配置された場合の、望ましくない音声の取消しを含む音声認識オーディオシステム10のある実装形態を例示する。ユーザは、特有の方向、たとえば前方からの1つのスピーカと話したいと望む。マイクロホンアレイ100を認識ゾーン108で使用して、望ましくない方向から到来するすべての信号をビーム形成モジュール104で除去して、信号を前処理して、雑音低減(NR)モジュール70および音声活動検出アーキテクチャシステム30の中に入る前に、認識ゾーンだけから到来する、雑音のある信号にすることができる。
FIG. 18 illustrates an implementation of a speech
音声認識オーディオシステム10が高い了解度を確保することは好ましい。ユーザが外部音声により割り込まれたとき、音楽レベルを一定に保って、ユーザが音声メッセージを明瞭に聞くことを確実にしながら、外部音声を追加することが望ましい。この利点は、音声誤警報検出と聴取条件の両方を制御することにより達成することができる。音声誤警報は、音声活動検出アーキテクチャシステム30により決定することができる。一実施形態では、本発明は、図6に示すように、音声活動検出アーキテクチャシステム30により検出された外部発話をヘッドホン12から到来する音楽と混合するステップを提供する。
It is preferable that the voice
ヘッドホン12から届けられるスピーカ音声をユーザがよく理解するのを確実にすることが望ましい。一実施形態では、発話を検出し、伝送する間に、音楽の音響レベルをミュートする、または少なくとも低減する。音声了解度を改善するための混合戦略は、適応空間等化、空間分離、および別個または一緒に処理することができる、スタジオに着想を得た特別な処理を含むことができる。
It is desirable to ensure that the user understands the speaker sound delivered from the
音楽と混合された発話信号を聴くことは、特に音楽がすでに音声信号を包含するときに発話信号の了解度を劇的に低減する。多くの情報源によれば、発話基本周波数に対して信号対雑音比(signal−to−noise ratio、SNR)を高めることにより発話理解が高まる証拠が存在する。ひいては、すべての高調波についてSNRが高いほど、それだけ発話理解はよくなる。 Listening to an utterance signal mixed with music dramatically reduces the intelligibility of the utterance signal, especially when the music already contains an audio signal. According to many sources, there is evidence that increasing the signal-to-noise ratio (SNR) with respect to the fundamental frequency of speech enhances speech comprehension. As a result, the higher the SNR for all harmonics, the better the utterance comprehension.
本発明では、音声活動検出(VAD)アーキテクチャシステム30から到来する音声も、ヘッドホン12でユーザが再生する音楽も、利用可能である。一実施形態では、両方の信号のエネルギーを、特に基本周波数帯域および関連する高調波帯域で比較することができ、音声活動検出(VAD)アーキテクチャシステム30から得られる信号は、音楽と比較されたときに比較的低い場合、増大させられる。
In the present invention, both the voice coming from the voice activity detection (VAD)
図19は、適応スペクトル等化法200を含む音声認識オーディオシステム10のある実装形態を例示する。音声を検出するたびに、適応空間等化法200を遂行することができる。ブロック201で、音楽のスペクトル密度電力の推定値を決定する。ブロック202で、発話のスペクトル密度電力の推定値を決定する。ブロック203で、ブロック202から得られる発話の基本周波数の推定値、およびフォルマントを決定する。ブロック204で、ブロック203から得られる発話フォルマントとブロック201から得られる音楽の間でエネルギー比を計算して、スペクトル帯域ごとに音声対音楽比(voice−to−music ratio、VMR)を決定する。ブロック205で、ブロック204により決定された低VMRを伴う帯域に対してFFTに基づく等化器(equalizer、EQ)を適用する。
FIG. 19 illustrates an implementation of a speech
図20Aは、了解度が不良な音楽スペクトル302と比較した、発話スペクトル301に関する電力および周波数のグラフ300を例示する。ブロック204により決定された音楽に対して音声フォルマントのエネルギーが比較的低い帯域304については、ブロック205でFFTに基づく等化器を適用して、それらの帯域を強化する。図20Bは、強化後の了解度が良好な音楽スペクトル302と比較した、発話スペクトル301に関する電力および周波数のグラフ300を例示する。
FIG. 20A illustrates a power and
図21Aおよび図21Bは、空間分解400を含む音声認識オーディオシステム10のある実装形態を例示する。この戦略は、関心のある信号が検出されると、埋め込まれたマイクロホンアレイを使用して、この関心のある信号を局所化することができると仮定する。たとえば、相互相関に基づく方法を介することによる。図21Aは、位置402でモノラル発話を、位置403でステレオ音楽を伴う、不良な了解度を例示する。スピーカ到来方向に従って、音声活動検出(VAD)30により届けられた信号にHRTFに基づくフィルタを適用して、実際のスピーカ位置に従って信号を具体化する(3D効果)。
21A and 21B illustrate certain implementations of a speech
これにより、ユーザ401は、空間内で音響信号を分離できるようになる。良好な了解度を例示する図20Bに示すように、位置406で、頭部の中心で音楽を知覚し、一方では、位置404で、頭部の外側で発話を知覚する。同時に、音楽を一時的にステレオからモノラルに切り替えることができる。空間的聴力を回復することは、発話了解度を著しく高めることが公知である。
This allows the
図22は、音楽と混合されて、特別な処理アルゴリズムを使用することができるときに音声の存在を高める、圧縮に基づく処理500を含む音声認識オーディオシステム10のある実装形態を例示する。ブロック501で、音声信号をコピーし、圧縮し、次いで、圧縮された信号を元の音声信号にコピーする。ブロック502で、得られる信号に軽い飽和を適用する。ブロック503で、特別な等化器を適用する。
FIG. 22 illustrates an implementation of a speech
ブロック501で、圧縮は、音素間の強度差を低減し、その結果、時系列マスキング効果は低減され、発話ラウドネスは増大する。圧縮された音声と元の音声の両方の総和は、音声が依然として自然に聞こえることを確実にする。ブロック502は、より多くの高調波をもたらす。たとえば、基本周波数(F0)だけではなくF1およびF2の高調波情報も、母音識別および子音知覚のために決定的に重要であることが公知である。ブロック503は、低周波雑音を除去し、関心のある周波数帯域を増大させることにより、たとえば、70Hzまで−18dB/オクターブ、250Hzの周囲で−3dB、500Hzの周囲で−2dB、3.3kHzの周囲で+2.5dB、および10kHzの周囲で+7dBの低域カットにより、音声信号をクリーンにすることを目的とする。
At
図23Aは、音声信号601の利得602を音楽信号604とミキサ605で組合せてドライバへの入力606に提供する、不良な了解度を例示する。図23Bは、圧縮に基づく処理500を実装するシステム600を例示する。音声信号601を圧縮モジュール607に適用して、圧縮された信号を提供する。圧縮された信号は、ミキサ608で音声信号601の利得602と組み合わせられる。ミキサ608の出力は、ブロック502の軽い飽和を遂行するために飽和モジュール609に、および特別な等化器を適用するために等化モジュール610に適用される。等化モジュール610の出力をミキサ612で音楽信号604と組み合わせて、ドライバへの入力614を提供する。
FIG. 23A illustrates a poor intelligibility in which the
本発明の、雑音にロバストなVAD法またはアルゴリズムは、選択し、次いで確認する戦略の取り組み方法を使用する。第1ステップは、雑音の影響を低減できるようにする比較的大規模な入力バッファを用いて、周波数領域で行われる。有声発話信号ありは、多帯域ウィーナーエントロピー特徴を介して検出され、古典的ウィーナーエントロピーの特性を害することなく計算量をどのようにして低減することができるかを示す。 The noise-robust VAD method or algorithm of the present invention uses a strategic approach of selection and then confirmation. The first step is performed in the frequency domain with a relatively large input buffer that allows the effects of noise to be reduced. The presence of a voiced speech signal is detected via the multi-band Wiener entropy feature and shows how the complexity can be reduced without compromising the characteristics of classical Wiener entropy.
アルゴリズムの第2の部分は、ピッチ推定がピッチの簡単な検出により置換される、YINアルゴリズムの簡略版を用いて時間領域で行われる。計算量をさらに低減するために、古典的自乗差の代わりに絶対値差を使用する。このアルゴリズムは、入力フレーム全体に沿って、連続する副フレームにわたり作動する。 The second part of the algorithm is done in the time domain using a simplified version of the YIN algorithm, where pitch estimation is replaced by a simple detection of pitch. To further reduce the complexity, use the absolute value difference instead of the classical square difference. This algorithm operates over a series of subframes along the entire input frame.
本発明は、調節可能な音響認識ゾーンシステムの導出をもたらす。入力信号の振幅、およびユーザと遠くの外部音声を区別するのに役立ついくつかの特徴を使用して、システムは、VADアルゴリズムによりユーザが正常な音声を考慮することができる球状領域を自分の頭部の周囲に規定できるようにする。この球の外側でユーザが正常な音声量で話している場合、システムはその音声量を拒絶する。 The present invention provides the derivation of an adjustable acoustic recognition zone system. Using the amplitude of the input signal and some features that help distinguish the user from distant external voice, the system heads a spherical region where the VAD algorithm allows the user to consider normal voice. Be able to specify around the part. If the user is speaking at a normal volume outside the sphere, the system rejects that volume.
本発明は、雑音検知システムの導出をもたらす。 The present invention provides the derivation of a noise detection system.
雑音低減法またはアルゴリズムだけではなく、VADおよびアレイ処理アルゴリズムのような他の主要なモジュールも、これらの内部設定が、静かな状況から雑音が非常に多い状況まで、考えられるすべての雑音レベルを容易に取り扱うことはできないという事実を欠点として持つことがある。本システムの性能を改善するために、本発明の雑音検知の仕組みを導出し、本発明のシステムの中にこの仕組みを一体化することにより、雑音低減およびVADアルゴリズムの性能をどのようにして著しく改善するかについて示されている。実際は、雑音検知により、VAD、雑音低減、音声局所化およびマイクロホン・アレイ・システムを使用するビーム形成、ならびに異なるアルゴリズムからなる計算量低減といった相互に作用する関連モジュールを含む自己調節可能な内部パラメータを用いて、再構成可能なアルゴリズムのアーキテクチャが可能になる。 Not only noise reduction methods or algorithms, but also other major modules such as VAD and array processing algorithms, these internal settings facilitate all possible noise levels, from quiet to very noisy situations. It may have the disadvantage of not being able to handle it. In order to improve the performance of the present system, how to significantly improve the noise reduction and the performance of the VAD algorithm by deriving the noise detection mechanism of the present invention and integrating this mechanism into the system of the present invention. It is shown whether it will improve. In fact, noise detection provides self-adjustable internal parameters including interacting related modules such as VAD, noise reduction, voice localization and beam formation using a microphone array system, and computational complexity reduction consisting of different algorithms. It allows for the architecture of reconfigurable algorithms.
本発明は、計算量の負担をどのようにして著しく低減することができるかを示す。これにより、電力消費が低減される、またはさらに処理するための余地がより多く得られる。本発明は、音声了解度を高めながら音楽の音量を一定に保つという制約のもとで行われるオーディオ混合方式の導出をもたらす。 The present invention shows how the burden of computational complexity can be significantly reduced. This reduces power consumption or provides more room for further processing. The present invention provides the derivation of an audio mixing method performed under the constraint of keeping the volume of music constant while increasing the intelligibility of speech.
本発明の代替実施形態を、事前にプログラムされたハードウェア要素、他の関連構成要素として、またはハードウェアプロセッサを含むハードウェア構成要素およびソフトウェア構成要素の組合せとして実装してよい。ハードウェア構成要素および/もしくはソフトウェア構成要素の両方を含む専用プロセッサ機器もしくは汎用プロセッサ機器、または処理能力を有するように適合させた専用コンピュータもしくは汎用コンピュータに関連して、本発明の実施形態を実装してよい。 Alternative embodiments of the invention may be implemented as pre-programmed hardware components, other related components, or as a combination of hardware and software components, including a hardware processor. An embodiment of the invention is implemented in connection with a dedicated or general purpose processor device that includes both hardware and / or software components, or a dedicated or general purpose computer adapted to have processing power. You can.
実施形態はまた、物理的コンピュータ可読媒体、ならびに/またはコンピュータ実行可能命令、データ構造、および/もしくは中に記憶したデータ信号を運ぶ、もしくは有するための無形のコンピュータ可読媒体を含んでよい。そのような物理的コンピュータ可読媒体および/または無形のコンピュータ可読媒体は、汎用コンピュータまたは専用コンピュータによりアクセスすることができる任意の利用可能な媒体とすることができる。限定ではなく例として、そのような物理的コンピュータ可読媒体は、RAM、ROM、EEPROM、CD−ROMもしくは他の光ディスク記憶領域、磁気ディスク記憶領域もしくは磁気記憶機器、他の半導体記憶媒体、またはコンピュータ実行可能命令、データ構造、および/もしくはデータ信号の形で所望のデータを記憶するために使用することができ、かつ汎用コンピュータまたは専用コンピュータによりアクセスすることができる任意の他の物理媒体を含むことができる。汎用コンピュータまたは専用コンピュータ内部では、無形のコンピュータ可読媒体は、コンピュータ内に常駐する回路を通すなどして、コンピュータの一方の部分から別の部分へデータ信号を伝えるための電磁的手段を含むことができる。 Embodiments may also include a physical computer-readable medium and / or an intangible computer-readable medium for carrying or having computer executable instructions, data structures, and / or data signals stored therein. Such physical computer-readable media and / or intangible computer-readable media can be any available medium accessible by a general purpose computer or a dedicated computer. As an example, but not limited to, such physical computer readable media can be RAM, ROM, EEPROM, CD-ROM or other optical disk storage area, magnetic disk storage area or magnetic storage device, other semiconductor storage medium, or computer execution. It may include any other physical medium that can be used to store the desired data in the form of possible instructions, data structures, and / or data signals, and that can be accessed by a general purpose computer or a dedicated computer. it can. Inside a general-purpose computer or a dedicated computer, an intangible computer-readable medium may include electromagnetic means for transmitting a data signal from one part of the computer to another, such as through a circuit resident in the computer. it can.
ネットワークまたは別の通信接続(有線、無線、または有線もしくは無線の組合せ)を介してコンピュータに情報を伝送または提供するとき、コンピュータ実行可能命令、データ構造、および/またはデータ信号(たとえば、配線、ケーブル、光ファイバ、電子回路、化学物質など)を送信および受信するためのハードウェア機器は、当然のことながら物理的コンピュータ可読媒体と見るべきであり、一方では、コンピュータ実行可能命令、データ構造、および/またはデータ信号(たとえば、無線通信、衛星通信、赤外線通信など)を送信および/または受信するための無線搬送波または無線媒体は、当然のことながら無形のコンピュータ可読媒体と見るべきである。上記の組合せもまた、コンピュータ可読媒体の範囲に含まれるべきである。 Computer-executable instructions, data structures, and / or data signals (eg, wiring, cables) when transmitting or providing information to a computer over a network or another communication connection (wired, wireless, or a combination of wired or wireless). Hardware equipment for transmitting and receiving (optical fibers, electronic circuits, chemicals, etc.) should, of course, be viewed as a physical computer-readable medium, while computer-executable instructions, data structures, and The radio carrier or radio medium for transmitting and / or receiving data signals (eg, radio communication, satellite communication, infrared communication, etc.) should, of course, be viewed as an intangible computer-readable medium. The above combinations should also be included in the scope of computer readable media.
コンピュータ実行可能命令は、たとえば、汎用コンピュータ、専用コンピュータ、または専用処理機器に、ある種の機能または機能のグループを遂行させる命令、データ、および/またはデータ信号を含む。必須ではないが、本発明の様態について本明細書では、プログラムモジュールなどのコンピュータ実行可能命令がネットワーク環境および/または非ネットワーク環境でコンピュータにより実行されるという一般的文脈で記述してきた。一般に、プログラムモジュールは、特定のタスクを遂行する、または特定の抽象的コンテンツタイプを実装するルーチン、プログラム、オブジェクト、コンポーネント、およびコンテンツ構造を含む。コンピュータ実行可能命令、関連するコンテンツ構造、およびプログラムモジュールは、本明細書で開示する方法の様態を実行するためのプログラムコードの例を表す。 Computer-executable instructions include, for example, instructions, data, and / or data signals that cause a general purpose computer, a dedicated computer, or a dedicated processing device to perform certain functions or groups of functions. Although not essential, the aspects of the invention have been described herein in the general context of computer-executable instructions such as program modules being executed by a computer in a networked and / or non-networked environment. In general, a program module includes routines, programs, objects, components, and content structures that perform a particular task or implement a particular abstract content type. Computer-executable instructions, associated content structures, and program modules represent examples of program code for performing aspects of the methods disclosed herein.
実装形態はまた、プロセッサにより実行されたとき、本発明の方法をシステムに遂行させるコンピュータ実行可能命令を備える、中に記憶されたコンピュータ可読プログラムコードを有する物理的コンピュータ可読媒体を有する、本発明のシステムで使用するためのコンピュータプログラム製品を含んでよい。 The embodiments also include a physical computer-readable medium having computer-readable program code stored therein, comprising computer-executable instructions that cause the system to perform the methods of the invention when executed by a processor. It may include computer program products for use in the system.
上述の実施形態は、本発明の原理の適用例を表すことができる、多くの考えられる特有の実施形態を少しだけ例示する。本発明の精神および範囲を逸脱することなく、当業者によりこれらの原理に従って数多くの、さまざまな他の配列を容易に考案することができる。 The embodiments described above provide only a few examples of many possible unique embodiments that can represent applications of the principles of the invention. Without departing from the spirit and scope of the present invention, a number of other arrangements can be easily devised by those skilled in the art according to these principles.
Claims (24)
オーディオ源からオーディオを受信するように構成されたヘッドホンと、
外部音響環境の中で外部音響を検出して、前記外部音響を対象とする信号を生成するように構成された、前記ヘッドホンに関連する少なくとも1つのマイクロホンと、
前記外部音響を対象とする信号が、関心のある信号であるかどうかを判断するための分析器モジュールと
を備え、前記外部音響を対象とする前記信号が、前記関心のある信号である場合、前記外部音響は、前記オーディオ源からの前記オーディオと混合される
音声認識オーディオシステム。 A voice recognition audio system
Headphones configured to receive audio from an audio source, and
At least one microphone associated with the headphones, configured to detect external acoustics in an external acoustic environment and generate a signal targeting the external acoustics.
When the signal targeting the external sound is the signal of interest and includes an analyzer module for determining whether or not the signal targeting the external sound is the signal of interest. The external sound is a speech recognition audio system that is mixed with the audio from the audio source.
a.前記ヘッドホンに関連する少なくとも1つのマイクロホンを用いて、前記外部音響環境の中で外部音響を検出するステップと、
b.前記外部音響を対象とする信号を発生させるステップと、
c.前記外部音響を対象とする前記信号が、関心のある信号であるかどうかを判断するステップと、
d.前記外部音響を対象とする前記信号が、前記関心のある信号であると判断された場合、前記外部音響を前記オーディオ源からの前記オーディオと混合するステップと
を備える方法。 A method for a user wearing headphones configured to receive audio from an audio source to recognize the external acoustic environment.
a. A step of detecting external acoustics in the external acoustic environment using at least one microphone associated with the headphones.
b. The step of generating a signal targeting the external sound, and
c. A step of determining whether the signal targeting the external sound is a signal of interest, and
d. A method comprising the step of mixing the external sound with the audio from the audio source when the signal for the external sound is determined to be the signal of interest.
をさらに備える、請求項13に記載の方法。 13. The method of claim 13, further comprising a step of determining whether or not there is an utterance in the signal of interest determined in the time domain.
をさらに備え、
前記ステップcは、前記雑音レベルに基づき調節して、前記外部音響を対象とする前記信号が、前記関心のある信号であるかどうかを判断するステップを含む、
請求項12に記載の方法。 Further provided with a step of estimating the noise level in the outer acoustic environment,
The step c includes a step of adjusting based on the noise level to determine whether the signal targeting the external sound is the signal of interest.
The method according to claim 12.
請求項12に記載の方法。 A step is further provided around the headphones to define an adjustable acoustic recognition zone having one or more adjustment zones, in step c where the external sound is a predetermined of the one or more adjustment zones. When inside one, it is determined to be the signal of interest,
The method according to claim 12.
f.前記雑音のある信号であると判断したとき、クリーンな信号を生成するステップと、
g.前記ステップcで、第1の方向および第2の方向から前記信号を判断するステップと、
h.前記第1の方向および前記第2の方向から得られる前記信号の類似度を推測するステップであって、前記ステップhで、前記第1の方向から得られる前記信号および前記第2の方向から得られる前記信号が類似していると判断する場合、前記ステップdで前記信号を混合するステップと
をさらに備える、請求項19に記載の方法。 e. The step of determining whether or not the signal in step b is a noisy signal, and
f. When it is determined that the signal is noisy, the step of generating a clean signal and
g. In step c, the step of determining the signal from the first direction and the second direction, and
h. It is a step of estimating the similarity of the signal obtained from the first direction and the second direction, and is obtained from the signal obtained from the first direction and the second direction in the step h. 19. The method of claim 19, further comprising mixing the signals in step d when it is determined that the signals are similar.
前記音響のスペクトル密度電力を推定するステップと、
前記外部音響の中にある発話のスペクトル密度電力を推定するステップと、
前記発話の基本周波数を推定して、発話フォーマットを決定するステップと、
前記発話フォーマットと前記音楽の形式ブロックの前記スペクトル電力の間のエネルギー比を計算して、スペクトル帯域ごとに音声対音楽比(voice−to−music ratio、VMR)を決定するステップと、
所定のVMRを伴う前記スペクトル帯域に対してFFTに基づく等化器(equalizer、EQ)を適用するステップと
をさらに備える、請求項12に記載の方法。 The sound is music
The step of estimating the spectral density power of the acoustic and
The step of estimating the spectral density power of the utterance in the external sound, and
The step of estimating the fundamental frequency of the utterance and determining the utterance format,
A step of calculating the energy ratio between the speech format and the spectral power of the music format block to determine the voice-to-music ratio (VMR) for each spectral band.
12. The method of claim 12, further comprising applying an FFT-based equalizer (EQ) to the spectral band with a predetermined VMR.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023137191A JP2023159381A (en) | 2017-12-07 | 2023-08-25 | Sound recognition audio system and method thereof |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762595627P | 2017-12-07 | 2017-12-07 | |
US16/213,489 US11023595B1 (en) | 2018-12-07 | 2018-12-07 | System and method for processing encrypted search |
PCT/IB2018/001503 WO2019111050A2 (en) | 2017-12-07 | 2018-12-07 | Voice aware audio system and method |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023137191A Division JP2023159381A (en) | 2017-12-07 | 2023-08-25 | Sound recognition audio system and method thereof |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021511755A true JP2021511755A (en) | 2021-05-06 |
Family
ID=66749939
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020550930A Pending JP2021511755A (en) | 2017-12-07 | 2018-12-07 | Speech recognition audio system and method |
JP2023137191A Pending JP2023159381A (en) | 2017-12-07 | 2023-08-25 | Sound recognition audio system and method thereof |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023137191A Pending JP2023159381A (en) | 2017-12-07 | 2023-08-25 | Sound recognition audio system and method thereof |
Country Status (3)
Country | Link |
---|---|
JP (2) | JP2021511755A (en) |
CA (1) | CA3084890A1 (en) |
WO (1) | WO2019111050A2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022259589A1 (en) * | 2021-06-08 | 2022-12-15 | パナソニックIpマネジメント株式会社 | Ear-mounted device and reproduction method |
WO2023119764A1 (en) * | 2021-12-21 | 2023-06-29 | パナソニックIpマネジメント株式会社 | Ear-mounted device and reproduction method |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111651135B (en) * | 2020-04-27 | 2021-05-25 | 珠海格力电器股份有限公司 | Sound awakening method and device, storage medium and electrical equipment |
WO2022027208A1 (en) * | 2020-08-04 | 2022-02-10 | 华为技术有限公司 | Active noise cancellation method, active noise cancellation apparatus, and active noise cancellation system |
CN112017696B (en) * | 2020-09-10 | 2024-02-09 | 歌尔科技有限公司 | Voice activity detection method of earphone, earphone and storage medium |
CN113707180A (en) * | 2021-08-10 | 2021-11-26 | 漳州立达信光电子科技有限公司 | Crying sound detection method and device |
CN114286274A (en) * | 2021-12-21 | 2022-04-05 | 北京百度网讯科技有限公司 | Audio processing method, device, equipment and storage medium |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160241947A1 (en) * | 2014-12-23 | 2016-08-18 | Timothy Degraye | Method and system for audio sharing |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9391580B2 (en) * | 2012-12-31 | 2016-07-12 | Cellco Paternership | Ambient audio injection |
KR102331233B1 (en) * | 2015-06-26 | 2021-11-25 | 하만인터내셔날인더스트리스인코포레이티드 | Sports headphones with situational awareness |
US9936297B2 (en) * | 2015-11-16 | 2018-04-03 | Tv Ears, Inc. | Headphone audio and ambient sound mixer |
-
2018
- 2018-12-07 WO PCT/IB2018/001503 patent/WO2019111050A2/en unknown
- 2018-12-07 JP JP2020550930A patent/JP2021511755A/en active Pending
- 2018-12-07 CA CA3084890A patent/CA3084890A1/en active Pending
-
2023
- 2023-08-25 JP JP2023137191A patent/JP2023159381A/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160241947A1 (en) * | 2014-12-23 | 2016-08-18 | Timothy Degraye | Method and system for audio sharing |
Non-Patent Citations (2)
Title |
---|
COOPER, DOUGLAS, SPEECH DETECTION USING GAMMATONE FEATURES AND ONE-CLASS SUPPORT VECTOR MACHINE, JPN6023000167, 2013, ISSN: 0004965609 * |
HAUTAMAKI, VILLE ET AL., IMPROVING SPEAKER VERIFICATION BY PERIODICITY BASED VOICE ACTIVITY DETECTION, JPN6023000166, ISSN: 0004965610 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022259589A1 (en) * | 2021-06-08 | 2022-12-15 | パナソニックIpマネジメント株式会社 | Ear-mounted device and reproduction method |
WO2023119764A1 (en) * | 2021-12-21 | 2023-06-29 | パナソニックIpマネジメント株式会社 | Ear-mounted device and reproduction method |
Also Published As
Publication number | Publication date |
---|---|
WO2019111050A2 (en) | 2019-06-13 |
JP2023159381A (en) | 2023-10-31 |
WO2019111050A3 (en) | 2019-09-06 |
CA3084890A1 (en) | 2019-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102491417B1 (en) | Voice recognition audio system and method | |
US10685638B2 (en) | Audio scene apparatus | |
US10251009B2 (en) | Audio scene apparatus | |
JP6637014B2 (en) | Apparatus and method for multi-channel direct and environmental decomposition for audio signal processing | |
JP2021511755A (en) | Speech recognition audio system and method | |
KR101606966B1 (en) | Systems, methods, apparatus, and computer-readable media for spatially selective audio augmentation | |
JP2022544138A (en) | Systems and methods for assisting selective listening | |
US8204248B2 (en) | Acoustic localization of a speaker | |
JP5007442B2 (en) | System and method using level differences between microphones for speech improvement | |
US20170287499A1 (en) | Method and apparatus for enhancing sound sources | |
US20190179604A1 (en) | Media-compensated pass-through and mode-switching | |
EP3847645B1 (en) | Determining a room response of a desired source in a reverberant environment | |
JP2010091897A (en) | Voice signal emphasis device | |
JP2023536270A (en) | Systems and Methods for Headphone Equalization and Room Adaptation for Binaural Playback in Augmented Reality | |
Gul et al. | Preserving the beamforming effect for spatial cue-based pseudo-binaural dereverberation of a single source | |
Kim et al. | Hybrid probabilistic adaptation mode controller for generalized sidelobe cancellers applied to multi-microphone speech enhancement | |
JP2012008391A (en) | Device and method for changing voice, and confidential communication system for voice information | |
EP3029671A1 (en) | Method and apparatus for enhancing sound sources | |
CN116964666A (en) | Dereverberation based on media type | |
EP4305620A1 (en) | Dereverberation based on media type |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200814 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20210125 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211207 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211207 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230307 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230425 |