JP2023530225A - 初期オーディオ信号を処理するための方法および装置 - Google Patents
初期オーディオ信号を処理するための方法および装置 Download PDFInfo
- Publication number
- JP2023530225A JP2023530225A JP2022573351A JP2022573351A JP2023530225A JP 2023530225 A JP2023530225 A JP 2023530225A JP 2022573351 A JP2022573351 A JP 2022573351A JP 2022573351 A JP2022573351 A JP 2022573351A JP 2023530225 A JP2023530225 A JP 2023530225A
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- mod
- signal
- psv
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 256
- 238000000034 method Methods 0.000 title claims abstract description 115
- 238000012545 processing Methods 0.000 title claims abstract description 25
- 238000011156 evaluation Methods 0.000 claims abstract description 47
- 230000001143 conditioned effect Effects 0.000 claims abstract description 36
- 230000006978 adaptation Effects 0.000 claims description 30
- 238000005457 optimization Methods 0.000 claims description 14
- 206010011878 Deafness Diseases 0.000 claims description 13
- 208000016354 hearing loss disease Diseases 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 230000003750 conditioning effect Effects 0.000 claims description 10
- 230000001419 dependent effect Effects 0.000 claims description 9
- 230000010370 hearing loss Effects 0.000 claims description 9
- 231100000888 hearing loss Toxicity 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 9
- 230000006835 compression Effects 0.000 claims description 7
- 238000007906 compression Methods 0.000 claims description 7
- 230000003247 decreasing effect Effects 0.000 claims description 4
- 230000008447 perception Effects 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims 1
- 230000000694 effects Effects 0.000 description 12
- 230000002452 interceptive effect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 238000000926 separation method Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 230000003321 amplification Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000003199 nucleic acid amplification method Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 238000001303 quality assessment method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 241000534414 Anotopterus nikparini Species 0.000 description 1
- 101100521334 Mus musculus Prom1 gene Proteins 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 231100000989 no adverse effect Toxicity 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/70—Adaptation of deaf aid to hearing loss, e.g. initial electronic fitting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2225/00—Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
- H04R2225/43—Signal processing in hearing aids to enhance the speech intelligibility
Abstract
Description
1.初期オーディオ信号を受信するステップ、
2.第1の信号調整器を使用することによって、受信した初期オーディオ信号を調整して、第1の調整されたオーディオ信号を取得し、第2の信号調整器を使用することによって、受信した初期オーディオ信号を調整して、第2の調整されたオーディオ信号を取得するステップ、
3.第1の調整されたオーディオ信号を評価基準に対して評価して、評価基準の満足度を表す第1の評価値を取得し、第2の調整されたオーディオ信号を評価基準に対して評価して、評価基準の満足度を表す第2の評価値を取得するステップ、
4.それぞれの第1のまたは第2の評価値によって決まる第1のまたは第2の調整されたオーディオ信号を選択するステップ
を含む。
3.受信した初期オーディオ信号を第1の調整されたオーディオ信号と比較して、初期オーディオ信号と第1の調整されたオーディオ信号との間の知覚的類似度を表す第1の知覚的類似度値を取得し、受信した初期オーディオ信号を第2の調整されたオーディオ信号と比較して、初期オーディオ信号と第2の調整されたオーディオ信号との間の知覚的類似度を表す第2の知覚的類似度値を取得するサブステップ、ならびに
4.それぞれの第1のまたは第2の知覚的類似度値よって決まる第1のまたは第2の調整されたオーディオ信号を選択するサブステップ。
i.サウンド適応なし: 傾聴モデルの分析により、十分に高い語音明瞭度が保証されていることが示されている場合、さらなるサウンド適応は行わない。あるいは、異なるシーン間の知覚的差異を回避するために、以下の適応が行われる。また、処理なしと、以下の選択された処理との間の「補間」が行われることもある。両方のモデルにより、異なる時間フレーム/シーンにわたって知覚的連続性が可能になる。
会話および背景雑音の別個のオーディオトラックについては、次のステップが可能である。
ii.サウンド信号を適応させるステップ: 語音信号のオーディオトラックのみが、たとえばレベルを上げることによって、周波数重み付けおよび/または単一チャンネルもしくはマルチチャンネルのダイナミック圧縮によって、語音明瞭度を改善するように処理される。
iii.干渉雑音を適応させるステップ: 語音を含まないオーディオトラックのうちの1つまたはいくつかは、たとえば、レベルを下げることによって、周波数重み付けおよび/または単一チャンネルもしくはマルチチャンネルのダイナミック圧縮によって、語音明瞭度を改善するように処理される。しかしながら、背景雑音を完全になくすことが、結果的に語音明瞭度の改善をもたらすことになることが自明な場合は、音楽、効果などの設計が創造的なサウンド設計の必須の一部でもあるので、サウンド美学という理由から実用的ではない。
iv.すべてのオーディオトラックを適応させるステップ: 語音信号のオーディオトラックと他のオーディオトラックのうちの1つまたはいくつかとはともに、語音明瞭度を改善するための上記に記載の方法によって処理される。
i.顧客が自分のオーディオ素材をロードし、自動化された語音明瞭度改善をアクティブ化し、処理された信号をダウンロードするインターネットベースのサービス。これは、サウンド適応方法およびサウンド適応の程度の顧客固有の選択によって拡張させることができる。そのようなサービスは、すでに存在しているが、語音明瞭度に関するサウンド適応のための傾聴モデルは使用されていない(上記2.(V.)下参照)。
ii.ファイルされたまたは現在制作中のサウンドミックスの補正を可能にする、たとえばデジタルオーディオワークステーション(digital audio workstations、DAW)に統合された、サウンド制作のためのツールについてのソフトウェアソリューション。
iii.オーディオ素材における、所望の語音明瞭度に対応していない箇所を特定し、可能性として、推奨のサウンド適応調整を選択するためにユーザに提供するテストアルゴリズム。
iv.たとえば、サウンドバー、ヘッドフォン、テレビジョンデバイス、またはストリーミングされたオーディオコンテンツを受信するデバイスなど、放送チェーンのリスナーの側のエンドデバイスに統合されたソフトウェアおよび/またはハードウェア。
[1] Simon, C. and Fassio, G.,(2012), Optimierung audiovisueller Medien fuer Hoergeschaedigte,In: Fortschritte der Akustik - DAGA 2012,Darmstadt,March 2012
[2] Ephraim, Y. and Malah, D.,(1984),Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator,IEEE Transactions on Acoustics Speech and Signal Processing,32(6):1109-1121
[3] Kolbaek, M., Yu, D., Tan, Z-H., and Jensen, J.,(2017),Multitalker Speech Separation With Utterance-Level Permutation Invariant Training of Deep Recurrent Neural Networks,IEEE Transactions on Audio, Speech and Language Processing,25(10),1901-1913,https://doi.org/10.1109/TASLP.2017.2726762
[4] Jouni, P., Torcoli, M., Uhle, C., Herre, J., Disch, S., Fuchs, H.,(2019),Source Separation for Enabling Dialogue Enhancement in Object-based Broadcast with MPEG-H,JAES 67,510-521,https://doi.org/10.17743/jaes.2019.0032
[5] Sauert, B. and Vary, P.,(2012),Near end listening enhancement in the presence of bandpass noises,In: Proc. der ITG-Fachtagung Sprachkommunikation,Braunschweig,September 2012
[6] ANSI S3.5,(1997),Methods for calculation of speech intelligibility index
[7] Huber, R., Pusch, A., Moritz, N., Rennies, J., Schepker, H., Meyer, B.T.,(2018),Objective Assessment of a Speech Enhancement Scheme with an Automatic Speech Recognition-Based System,ITG-Fachbericht 282: Speech Communication,10-12, October 2018 in Oldenburg,86-90
[8] ITU-R Recommendation BS.1387: Method for objective measurements of perceived audio quality (PEAQ)
[9] ITU-T Recommendation P.863: Perceptual objective listening quality assessment
[10] Huber, R. and Kollmeier, B.,(2006),PEMO-Q - A New Method for Objective Audio Quality Assessment Using a Model of Auditory Perception,IEEE Transactions on Audio, Speech, and Language Processing,14(6),1902-1911
[11] NetMix player of Fraunhofer IIS,http://www.iis.fraunhofer.de/de/bf/amm/forschundentw/forschaudiomulti/dialogenhanc.html
[12] https://auphonic.com/
12 評価器
13 選択器
21 分析器
22 第2の分析器
100 方法
AS 初期オーディオ信号
AS_TP 語音、対象部分
AS_SP 周囲雑音、副部分
AS_SP',AS_TP' 部分
MOD AS 調整されたオーディオ信号
1st MOD AS,2nd MOD AS,M MOD AS 調整信号
1st PSV,2nd PSV 知覚的類似度値
Claims (21)
- 対象部分(AS_TP)および副部分(AS_SP)を含む初期オーディオ信号(AS)を処理するための方法(100)であって、
a. 前記初期オーディオ信号(AS)を受信するステップと、
b. 第1の信号調整器を使用することによって、受信した前記初期オーディオ信号(AS)を調整して(110,110a)、第1の調整されたオーディオ信号(1st MOD AS)を取得し、
第2の信号調整器を使用することによって、受信した前記初期オーディオ信号(AS)を調整して(110,110b)、第2の調整されたオーディオ信号(2nd MOD AS)を取得するステップと、
c. 前記第1の調整されたオーディオ信号を評価基準に対して評価して(120,120a)、前記評価基準の満足度を表す第1の評価値(1st PSV)を取得し、
前記第2の調整されたオーディオ信号を前記評価基準に対して評価して(120,120b)、前記評価基準の満足度を表す第2の評価値(2nd PSV)を取得するステップと、
d. それぞれの前記第1のまたは第2の評価値(1st PSV,2nd PSV)によって決まる前記第1のまたは第2の調整されたオーディオ信号(1st MOD AS,2nd MOD AS)を選択するステップ(130)と
を含む方法(100)。 - 前記評価基準が、
- 知覚的類似度
- 語音明瞭度
- ラウドネス
- サウンドパターン
- 空間度
を含むグループの中にある、請求項1に記載の方法(100)。 - 選択する前記ステップが、独立した評価基準を表す複数の独立した第1のおよび第2の評価値に基づいて行われる、請求項1または2に記載の方法(100)。
- 前記評価基準が、前記知覚的類似度であり、前記ステップcが、
受信した前記初期オーディオ信号(AS)を前記第1の調整されたオーディオ信号(1st MOD AS)と比較して(120,120a)、前記初期オーディオ信号(AS)と前記第1の調整されたオーディオ信号(1st MOD AS)との間の前記知覚的類似度を表す第1の評価値として第1の知覚的類似度値(1st PSV)を取得するサブステップと、
受信した前記初期オーディオ信号(AS)を前記第2の調整されたオーディオ信号(2nd MOD AS)と比較して(120,120b)、前記初期オーディオ信号(AS)と前記第2の調整されたオーディオ信号(2nd MOD AS)との間の前記知覚的類似度を表す第2の評価値として第2の知覚的類似度値(2nd PSV)を取得するサブステップと
を含む、請求項1から3のいずれか一項に記載の方法(100)。 - 前記第1の知覚的類似度値(1st PSV)が前記第2の知覚的類似度値(2nd PSV)よりも高いとき、前記第1の調整されたオーディオ信号(1st MOD AS)のより高い知覚的類似度を示すように、前記第1の調整されたオーディオ信号(1st MOD AS)が選択され、
前記第2の知覚的類似度値(2nd PSV)が前記第1の知覚的類似度値(1st PSV)よりも高いとき、前記第2の調整されたオーディオ信号(2nd MOD AS)のより高い知覚的類似度を示すように、前記第2の調整されたオーディオ信号(2nd MOD AS)が選択される、
請求項4に記載の方法(100)。 - 前記ステップdの選択によって決まる前記第1のまたは第2の調整されたオーディオ信号(1st MOD AS,2nd MOD AS)を出力するステップをさらに含む、請求項1から5のいずれか一項に記載の方法(100)。
- 前記初期オーディオ信号(AS)を出力するステップは、それぞれの前記第1のまたは第2の知覚的類似度値(1st PSV,2nd PSV)がしきい値を下回るとき、前記第1のまたは第2の調整されたオーディオ信号(1st MOD AS,2nd MOD AS)を出力する代わりに行われ、前記しきい値を下回ると、それぞれの第1のまたは第2の調整されたオーディオ信号(1st MOD AS,2nd MOD AS)は、前記初期オーディオ信号(AS)との類似が十分でないと示される、請求項3に記載の方法(100)。
- 前記対象部分(AS_TP)が前記初期オーディオ信号(AS)の語音部分であり、前記副部分(AS_SP)が前記初期オーディオ信号(AS)の周囲雑音部分である、請求項1から7のいずれか一項に記載の方法(100)。
- 前記第1のおよび/または第2の調整されたオーディオ信号(1st MOD AS,2nd MOD AS)が、前景に移動した前記対象部分(AS_TP)、および背景に移動した前記副部分(AS_SP)、ならびに/または前景に移動した前記対象部分(AS_TP)として語音部分、および背景に移動した前記副部分(AS_SP)として周囲雑音部分を含む、請求項1から8のいずれか一項に記載の方法(100)。
- 比較する前記ステップが、知覚モデル、PEAQモデル、POLQAモデル、および/またはPEMO-Qモデルを使用することによって、前記第1のおよび/または第2の評価値(1st PSV,2nd PSV)を抽出するステップを含む、請求項1から9のいずれか一項に記載の方法(100)。
- 前記第1のおよび/または第2の評価値(1st PSV,2nd PSV)が、前記第1のもしくは第2の調整されたオーディオ信号(1st MOD AS,2nd MOD AS)の物理パラメータ、前記第1のもしくは第2の調整されたオーディオ信号(1st MOD AS,2nd MOD AS)の音量レベル、前記第1のもしくは第2の調整されたオーディオ信号(1st MOD AS,2nd MOD AS)についての心理音響的音響パラメータ、前記第1のもしくは第2の調整されたオーディオ信号(1st MOD AS,2nd MOD AS)のラウドネス情報、前記第1のもしくは第2の調整されたオーディオ信号(1st MOD AS,2nd MOD AS)のピッチ情報、ならびに/または前記第1のもしくは第2の調整されたオーディオ信号(1st MOD AS,2nd MOD AS)の知覚されたソース幅情報によって決まる、請求項1から10のいずれか一項に記載の方法(100)。
- 前記第1のおよび/もしくは第2の信号調整器が、前記初期オーディオ信号(AS)についてのSNR増加、ダイナミック圧縮、および/もしくはSNR減少を行うように構成され、ならびに/または
調整する前記ステップは、前記初期オーディオ信号(AS)が別個の対象部分(AS_TP)および別個の副部分(AS_SP)を含む場合、前記対象部分(AS_TP)を増加させるステップと、前記対象部分(AS_TP)についての周波数重み付けを増加させるステップと、前記対象部分(AS_TP)をダイナミックに圧縮するステップと、前記副部分(AS_SP)を減少させるステップと、前記副部分(AS_SP)についての周波数重み付けを減少させるステップとを含み、ならびに/または
調整する前記ステップは、前記初期オーディオ信号(AS)が組み合わさった対象部分(AS_TP)と副部分(AS_SP)とを含む場合、前記対象部分(AS_TP)および前記副部分(AS_SP)の分離を行うステップを含む、
請求項1から11のいずれか一項に記載の方法(100)。 - 選択する前記ステップ(130)が、以下の因子、すなわち、
聴覚障害のある人の難聴のグレード、
個人の聴覚性能、
個人の周波数依存聴覚性能、
個人の嗜好、
信号調整率に関する個人の嗜好
のうちの1つまたは複数を考慮に入れて構築される、請求項1から12のいずれか一項に記載の方法(100)。 - 調整する前記ステップ(110)、および/または比較する前記ステップ(120)が、以下の因子、すなわち、
聴覚障害のある人の難聴のグレード、
個人の聴覚性能、
個人の周波数依存聴覚性能、
個人の嗜好、
信号調整率に関する個人の嗜好
のうちの1つまたは複数を考慮に入れて行われる、請求項1から13のいずれか一項に記載の方法(100)。 - 個人の嗜好を定義する最適化対象に関する情報を受信するステップをさらに含み、
前記評価基準が、前記最適化対象によって決まり、または調整する前記ステップおよび/もしくは評価する前記ステップおよび/もしくは選択する前記ステップが、前記最適化対象によって決まり、または選択する前記ステップについて独立した評価基準を表す独立した第1のおよび第2の評価値の重み付けが、前記最適化対象によって決まる、請求項1から14のいずれか一項に記載の方法(100)。 - 比較する前記ステップ(120)が、
前記初期オーディオ信号(AS)の全体、および前記第1のおよび第2の調整されたオーディオ信号(1st MOD AS,2nd MOD AS)の全体について、ならびに/または
前記初期オーディオ信号(AS)の前記対象部分(AS_TP)、および前記第1のおよび第2の調整されたオーディオ信号(1st MOD AS,2nd MOD AS)のそれぞれの対象部分(AS_TP)について、ならびに/または
前記初期オーディオ信号(AS)の前記副部分(AS_SP)、および前記第1のおよび第2の調整されたオーディオ信号(1st MOD AS,2nd MOD AS)のそれぞれの副部分(AS_SP)について、
行われる、請求項4から14のいずれか一項に記載の方法(100)。 - 前記初期オーディオ信号(AS)が、複数の時間フレームを含み、
前記ステップaからdが、各時間フレームについて繰り返され、および/または
前記ステップaからdが、前記初期オーディオ信号(AS)のシーンの時間部分または時間フレームについて繰り返される、
請求項1から16のいずれか一項に記載の方法(100)。 - 複数の時間フレームを含む前記初期オーディオ信号(AS)の適応が、前記適応が必要である時間フレームについて、および知覚的連続性を維持するために他の時間フレームについて行われ、または複数の時間フレームを含む前記初期オーディオ信号(AS)の適応が、前記適応が必要である時間フレームについて、および知覚的連続性を維持するために他の時間フレームについて補間された形で行われ、ならびに/または
第1のおよび第2の後続の時間フレームの適応が、前記第1の後続の時間フレームと前記第2の後続の時間フレームとの間の遷移が知覚的連続性を維持するように形成されるように行われる、
請求項1から17のいずれか一項に記載の方法(100)。 - 初期ステップをさらに含み、前記初期ステップは、
語音部分を決定するために初期オーディオ部分を分析するステップ(21)と、
前記初期オーディオ信号(AS)の語音明瞭度について評価するために前記語音部分と周囲雑音部分とを比較するステップと、
前記語音明瞭度について示す値がしきい値を下回る場合、調整する前記ステップのための前記第1のおよび/または第2の信号調整器をアクティブ化するステップと
を含む、請求項1から18のいずれか一項に記載の方法(100)。 - コンピュータにおいて動作すると、前記コンピュータに請求項1から19のいずれか一項に記載の方法を行わせるプログラムコードを有するコンピュータプログラム。
- 対象部分(AS_TP)および副部分(AS_SP)を含む初期オーディオ信号(AS)を処理するための装置であって、
前記初期オーディオ信号(AS)を受信するためのインターフェースと、
受信した前記初期オーディオ信号(AS)を調整して(110)、第1の調整されたオーディオ信号(1st MOD AS)を取得するための第1の信号調整器(11)、および受信した前記初期オーディオ信号(AS)を調整して、第2の調整されたオーディオ信号(2nd MOD AS)を取得するための第2の信号調整器(11)と、
前記第1の調整されたオーディオ信号を評価規準に対して評価して(120,120a)、前記評価規準の満足度を表す第1の評価値(1st PSV)を取得するための、および前記第2の調整されたオーディオ信号を前記評価規準に対して評価して(120,120b)、前記評価規準の満足度を表す第2の評価値(2nd PSV)を取得するための評価器と、
それぞれの前記第1のまたは第2の知覚的評価類似度値(1st PSV,2nd PSV)によって決まる前記第1のまたは第2の調整されたオーディオ信号(1st MOD AS,2nd MOD AS)を選択するため(130)の選択器(13)と
を備える装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2020/065035 WO2021239255A1 (en) | 2020-05-29 | 2020-05-29 | Method and apparatus for processing an initial audio signal |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023530225A true JP2023530225A (ja) | 2023-07-14 |
Family
ID=71108554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022573351A Pending JP2023530225A (ja) | 2020-05-29 | 2020-05-29 | 初期オーディオ信号を処理するための方法および装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230087486A1 (ja) |
EP (1) | EP4158627A1 (ja) |
JP (1) | JP2023530225A (ja) |
CN (1) | CN115699172A (ja) |
WO (1) | WO2021239255A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11830514B2 (en) * | 2021-05-27 | 2023-11-28 | GM Global Technology Operations LLC | System and method for augmenting vehicle phone audio with background sounds |
US11832061B2 (en) * | 2022-01-14 | 2023-11-28 | Chromatic Inc. | Method, apparatus and system for neural network hearing aid |
US11950056B2 (en) | 2022-01-14 | 2024-04-02 | Chromatic Inc. | Method, apparatus and system for neural network hearing aid |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU7118696A (en) * | 1995-10-10 | 1997-04-30 | Audiologic, Inc. | Digital signal processing hearing aid with processing strategy selection |
JP5530720B2 (ja) | 2007-02-26 | 2014-06-25 | ドルビー ラボラトリーズ ライセンシング コーポレイション | エンターテイメントオーディオにおける音声強調方法、装置、およびコンピュータ読取り可能な記録媒体 |
JP5341983B2 (ja) | 2008-04-18 | 2013-11-13 | ドルビー ラボラトリーズ ライセンシング コーポレイション | サラウンド体験に対する影響を最小限にしてマルチチャンネルオーディオにおけるスピーチの聴覚性を維持するための方法及び装置 |
TWI459828B (zh) | 2010-03-08 | 2014-11-01 | Dolby Lab Licensing Corp | 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統 |
EP2372700A1 (en) * | 2010-03-11 | 2011-10-05 | Oticon A/S | A speech intelligibility predictor and applications thereof |
-
2020
- 2020-05-29 CN CN202080101547.4A patent/CN115699172A/zh active Pending
- 2020-05-29 WO PCT/EP2020/065035 patent/WO2021239255A1/en active Search and Examination
- 2020-05-29 JP JP2022573351A patent/JP2023530225A/ja active Pending
- 2020-05-29 EP EP20733690.0A patent/EP4158627A1/en active Pending
-
2022
- 2022-11-24 US US18/058,753 patent/US20230087486A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4158627A1 (en) | 2023-04-05 |
CN115699172A (zh) | 2023-02-03 |
US20230087486A1 (en) | 2023-03-23 |
WO2021239255A9 (en) | 2022-10-27 |
WO2021239255A1 (en) | 2021-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10586557B2 (en) | Voice activity detector for audio signals | |
JP6896135B2 (ja) | ボリューム平準化器コントローラおよび制御方法 | |
CN109616142B (zh) | 用于音频分类和处理的装置和方法 | |
US20230087486A1 (en) | Method and apparatus for processing an initial audio signal | |
EP2614586B1 (en) | Dynamic compensation of audio signals for improved perceived spectral imbalances | |
CN102016994B (zh) | 用于处理音频信号的设备及其方法 | |
CN106663450B (zh) | 用于评估劣化语音信号的质量的方法及装置 | |
KR102630449B1 (ko) | 음질의 추정 및 제어를 이용한 소스 분리 장치 및 방법 | |
Jokinen et al. | Signal-to-noise ratio adaptive post-filtering method for intelligibility enhancement of telephone speech | |
US10389323B2 (en) | Context-aware loudness control | |
CN115335901A (zh) | 语音内容的自动调平 | |
Brouckxon et al. | Time and frequency dependent amplification for speech intelligibility enhancement in noisy environments | |
US20230395079A1 (en) | Signal-adaptive Remixing of Separated Audio Sources | |
RU2782364C1 (ru) | Устройство и способ отделения источников с использованием оценки и управления качеством звука | |
Rumsey | Hearing enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230130 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230130 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240205 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20240501 |