JP2013003270A - Masking analyzer, masker sound selection device, masking device and program - Google Patents

Masking analyzer, masker sound selection device, masking device and program Download PDF

Info

Publication number
JP2013003270A
JP2013003270A JP2011132630A JP2011132630A JP2013003270A JP 2013003270 A JP2013003270 A JP 2013003270A JP 2011132630 A JP2011132630 A JP 2011132630A JP 2011132630 A JP2011132630 A JP 2011132630A JP 2013003270 A JP2013003270 A JP 2013003270A
Authority
JP
Japan
Prior art keywords
acoustic signal
correlation matrix
sound
inter
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011132630A
Other languages
Japanese (ja)
Other versions
JP5691866B2 (en
Inventor
Mikio Higashiyama
三樹夫 東山
Yoshifumi Hara
佳史 原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2011132630A priority Critical patent/JP5691866B2/en
Publication of JP2013003270A publication Critical patent/JP2013003270A/en
Application granted granted Critical
Publication of JP5691866B2 publication Critical patent/JP5691866B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

PROBLEM TO BE SOLVED: To properly evaluate information masking.SOLUTION: An autocorrelation calculation section 22 calculates an autocorrelation sequence Ai[m] of a linear spectrum sequence Li[m] corresponding to each peak of a spectrum Qi[m] concerning each of acoustic signal s1(t) of a target sound VT and an acoustic signal s2(t) of a mixed sound of the target sound VT and a masker sound VM on each frame. A correlation matrix generation section 24 calculates a correlation value ci[mx,my] between the autocorrelation sequence Ai[mx] and the autocorrelation sequence Ai[my] including an inter-frame correlation matrix Ci as a factor on each of the acoustic signal s1(t) and the acoustic signal s2(t). A display control section 28 controls a display device 16 to display a correlation matrix image G1 representing an inter-frame correlation matrix C1 and a correlation matrix image G2 representing an inter-frame correlation matrix C2.

Description

本発明は、各種のマスカー音を適用したマスキングの効果を評価する技術に関する。   The present invention relates to a technique for evaluating the effect of masking using various masker sounds.

秘匿性の高い会話音等のターゲット音(maskee)にマスカー音(masker)を重畳することでターゲット音の漏洩を妨害するサウンドマスキング技術が従来から提案されている。白色雑音等の各種の雑音のほか、ターゲット音を加工した音声もマスカー音として利用される。例えば特許文献1や特許文献2には、ターゲット音を時間軸上で区分した各区間の時間波形を逆転するとともに各区間の順序を変更することでマスカー音を生成する技術が開示されている。   Conventionally, a sound masking technique for preventing leakage of a target sound by superimposing a masker sound on a target sound (maskee) such as a highly confidential conversation sound has been proposed. In addition to various types of noise such as white noise, the sound obtained by processing the target sound is also used as a masker sound. For example, Patent Literature 1 and Patent Literature 2 disclose a technique for generating a masker sound by reversing the time waveform of each section obtained by dividing the target sound on the time axis and changing the order of each section.

音声の漏洩を効果的に防止し得るマスカー音の生成や選定のためにはマスキング効果の定量的な評価が重要である。マスキング効果を評価する典型的な方法としては、マスキングされた音声を受聴した被験者がターゲット音を理解できる割合(会話了解度:speech intelligibility)を測定する主観評価が挙げられるが、高精度な評価には非常に手間が掛かるという問題がある。そこで、非特許文献1や非特許文献2の技術では、マスキングの前後の音声の狭帯域包絡線の相関値(以下「狭帯域包絡相関」という)がマスキングの効果の定量的な評価指標として採用される。狭帯域包絡線は、人間の聴覚の臨界帯域に対応する各帯域(例えば1/4オクターブの帯域)での音声波形の包絡線である。   Quantitative evaluation of the masking effect is important for the generation and selection of masker sounds that can effectively prevent voice leakage. A typical method for evaluating the masking effect is a subjective evaluation that measures the rate at which subjects who listened to the masked speech can understand the target sound (speech intelligibility). Has the problem of being very time consuming. Therefore, in the techniques of Non-Patent Document 1 and Non-Patent Document 2, the correlation value of the narrowband envelope of the speech before and after masking (hereinafter referred to as “narrowband envelope correlation”) is adopted as a quantitative evaluation index of the effect of masking. Is done. The narrow-band envelope is an envelope of a speech waveform in each band (for example, a quarter octave band) corresponding to the critical band of human hearing.

特開2008−233671号公報JP 2008-233671 A 特開2010−217883号公報JP 2010-217883 A Houtgast T et al. "Predicting speech intelligibility in rooms from the Modulation Transfer Function. I. General room acoustics", Acustica, 46: 60-72, 1980Houtgast T et al. "Predicting speech intelligibility in rooms from the Modulation Transfer Function. I. General room acoustics", Acustica, 46: 60-72, 1980 Drullman R. "Temporal envelope and fine structure cues for speech intelligibility", J. Acoust. Soc. Am 97: 585-592, 1995Drullman R. "Temporal envelope and fine structure cues for speech intelligibility", J. Acoust. Soc. Am 97: 585-592, 1995

ところで、サウンドマスキングの作用にはエネルギーマスキングと情報マスキングとがある。エネルギーマスキングは、ターゲット音とは無関係に生成されたマスカー音を比較的に高いエネルギーでターゲット音に重畳することでターゲット音の聴き取りを妨害する作用であり、情報マスキングは、前掲の特許文献1や特許文献2の技術のように、音響特性がターゲット音に類似するマスカー音(攪乱音)をターゲット音に重畳することでターゲット音の聴き取りを妨害する作用である。エネルギーマスキングに有効なマスカー音の典型例は白色雑音であり、情報マスキングに有効なマスカー音の典型例は、ターゲット音の発声者の音声波形を時間軸方向に反転した逆転音声である。   By the way, the action of sound masking includes energy masking and information masking. Energy masking is an action that obstructs listening of a target sound by superimposing a masker sound generated independently of the target sound on the target sound with relatively high energy, and information masking is disclosed in Patent Document 1 described above. As in the technique of Japanese Patent Application Laid-Open No. H11-133260, the target sound is disturbed by superimposing a masker sound (disturbance sound) whose acoustic characteristics are similar to the target sound on the target sound. A typical example of a masker sound effective for energy masking is white noise, and a typical example of a masker sound effective for information masking is an inverted sound obtained by inverting a speech waveform of a speaker of a target sound in the time axis direction.

図10は、マスカー音に対するターゲット音のエネルギー比(以下「T/M比」という)を相違させた複数の場合について狭帯域包絡相関の計算値と会話了解度の実測値との関係を示すグラフである。図10では、エネルギーマスキングに有効な白色雑音をマスカー音として利用した場合と、情報マスキングに有効な逆転音声をマスカー音として利用した場合とが個別に図示されている。   FIG. 10 is a graph showing the relationship between the calculated value of the narrowband envelope correlation and the actually measured value of the intelligibility for a plurality of cases where the energy ratio of the target sound to the masker sound (hereinafter referred to as “T / M ratio”) is different. It is. In FIG. 10, a case where white noise effective for energy masking is used as a masker sound and a case where inverted voice effective for information masking is used as a masker sound are separately illustrated.

白色雑音をマスカー音として使用した場合、図10に線Z1で示す通り、狭帯域包絡相関の変化に対して会話了解度は敏感に変化し、狭帯域包絡相関が大きいほど会話了解度が高いという傾向が顕著に観測される。しかし、逆転音声をマスカー音として使用した場合、図10に線Z2で示す通り、特に狭帯域包絡相関の0.3から0.8までの範囲内において、狭帯域包絡相関の変化に対して会話了解度が明確に変化しないという傾向が確認される。すなわち、非特許文献1や非特許文献2に開示された狭帯域包絡相関は、エネルギーマスキングの評価指標としては適切であるものの、情報マスキングの評価指標としては必ずしも適切ではない。以上の事情を考慮して、本発明は、情報マスキングの効果の適切な評価を目的とする。   When white noise is used as a masker sound, as shown by the line Z1 in FIG. 10, the conversation intelligibility changes sensitively to changes in the narrowband envelope correlation, and the greater the narrowband envelope correlation, the higher the conversation intelligibility. The trend is noticeable. However, when the reverse speech is used as a masker sound, as shown by the line Z2 in FIG. 10, the conversation with respect to the change in the narrowband envelope correlation, particularly within the range from 0.3 to 0.8 of the narrowband envelope correlation. The tendency that the intelligibility does not change clearly is confirmed. That is, the narrowband envelope correlation disclosed in Non-Patent Document 1 and Non-Patent Document 2 is appropriate as an evaluation index for energy masking, but is not necessarily appropriate as an evaluation index for information masking. In view of the above circumstances, an object of the present invention is to appropriately evaluate the effect of information masking.

以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。   Means employed by the present invention to solve the above problems will be described. In order to facilitate the understanding of the present invention, in the following description, the correspondence between the elements of the present invention and the elements of the embodiments described later will be indicated in parentheses, but the scope of the present invention will be exemplified in the embodiments. It is not intended to be limited.

本発明のマスキング解析装置は、マスカー音によるターゲット音のマスキングを解析する装置であって、音響信号のスペクトルの各ピークに対応する線スペクトル列(例えば線スペクトル列Li[m])の自己相関数列(例えば自己相関数列Ai[m])を、ターゲット音を示す第1音響信号(例えば音響信号s1(t))と、ターゲット音およびマスカー音の混合音を示す第2音響信号(例えば音響信号s2(t))との各々についてフレーム毎に算定する自己相関算定手段(例えば自己相関算定部22)と、2個のフレーム間における自己相関数列の相関値(例えば相関値ci[mx,my])を要素とするフレーム間相関行列(例えばフレーム間相関行列Ci)を第1音響信号と第2音響信号との各々について算定する相関行列生成手段(例えば相関行列生成部24)とを具備する。以上の構成では、自己相関数列が示す調波構造の時間遷移を反映したフレーム間相関行列がマスキング前の第1音響信号とマスキング後の第2音響信号との各々について算定されるから、調波構造の時間遷移の変化に由来する情報マスキングの効果を適切に評価することが可能である。第1音響信号のフレーム間相関行列と第2音響信号のフレーム間相関行列とに応じた解析結果を出力(例えば利用者に報知)する出力制御手段(例えば後述の表示制御手段)を具備する構成が好適である。   The masking analysis apparatus of the present invention is an apparatus for analyzing masking of a target sound by a masker sound, and an autocorrelation sequence of a line spectrum sequence (for example, a line spectrum sequence Li [m]) corresponding to each peak of a spectrum of an acoustic signal. (For example, autocorrelation sequence Ai [m]), a first acoustic signal (for example, acoustic signal s1 (t)) indicating the target sound and a second acoustic signal (for example, acoustic signal s2) indicating the mixed sound of the target sound and masker sound. (t)) and an autocorrelation calculation means (for example, autocorrelation calculation unit 22) for each frame and a correlation value of an autocorrelation sequence between two frames (for example, correlation value ci [mx, my]) Correlation matrix generation means (for example, correlation matrix generation unit 24) that calculates an interframe correlation matrix (for example, an interframe correlation matrix Ci) for each of the first acoustic signal and the second acoustic signal. It has. In the above configuration, the inter-frame correlation matrix reflecting the time transition of the harmonic structure indicated by the autocorrelation sequence is calculated for each of the first acoustic signal before masking and the second acoustic signal after masking. It is possible to appropriately evaluate the effect of information masking derived from changes in the time transition of the structure. A configuration comprising output control means (for example, display control means described later) for outputting an analysis result corresponding to the inter-frame correlation matrix of the first acoustic signal and the inter-frame correlation matrix of the second acoustic signal (for example, informing the user). Is preferred.

本発明の好適な態様のマスキング解析装置は、相互に交差する第1軸(例えばX軸)と第2軸(例えばY軸)とを時間軸としてフレーム間相関行列の各相関値を表現する相関行列画像(例えば相関行列画像Gi)を、第1音響信号および第2音響信号の各々について表示装置に表示させる表示制御手段(例えば表示制御部28)を具備する。以上の態様では、第1軸と第2軸とが設定された座標系のもとでフレーム間相関行列を表現する相関行列画像が表示されるから、第1音響信号および第2音響信号の各々について、調波構造の時間遷移の傾向を利用者が視覚的に把握できるという利点がある。相関行列画像は、例えば、第1軸および第2軸に沿って行列状に配列する複数の単位領域を含み、複数の単位領域の各々は、フレーム間相関行列の複数の相関値のうち、第1軸上で当該単位領域に対応するフレームと第2軸上で当該単位領域に対応するフレームとの間における相関値に応じた態様で表示される。以上の態様では、フレーム間相関行列の各相関値に対応する単位領域がその相関値に応じた態様(階調や色彩等の視覚的に区別できる性状)で表示されるから、第1音響信号と第2音響信号との間のフレーム間相関行列の相違(マスキングの前後にわたる調波構造の時間遷移の変化)を利用者が直観的かつ即時的に把握できるという利点がある。   A masking analysis apparatus according to a preferred aspect of the present invention is a correlation that expresses each correlation value of an inter-frame correlation matrix using a first axis (for example, X axis) and a second axis (for example, Y axis) that intersect each other as a time axis. The display control means (for example, display control part 28) which displays a matrix image (for example, correlation matrix image Gi) on a display apparatus about each of a 1st acoustic signal and a 2nd acoustic signal is provided. In the above aspect, since the correlation matrix image expressing the inter-frame correlation matrix is displayed under the coordinate system in which the first axis and the second axis are set, each of the first acoustic signal and the second acoustic signal is displayed. There is an advantage that the user can visually grasp the tendency of time transition of the harmonic structure. The correlation matrix image includes, for example, a plurality of unit regions arranged in a matrix along the first axis and the second axis, and each of the plurality of unit regions is the first of the plurality of correlation values of the interframe correlation matrix. It is displayed in a manner corresponding to the correlation value between the frame corresponding to the unit area on one axis and the frame corresponding to the unit area on the second axis. In the above aspect, since the unit region corresponding to each correlation value of the inter-frame correlation matrix is displayed in a form corresponding to the correlation value (property that can be visually distinguished such as gradation and color), the first acoustic signal There is an advantage that the user can intuitively and immediately grasp the difference in the inter-frame correlation matrix (change in the temporal transition of the harmonic structure before and after masking) between the second acoustic signal and the second acoustic signal.

本発明の好適な態様において、自己相関算定手段は、第1音響信号の自己相関数列と、マスカー音の種類とターゲット音およびマスカー音のエネルギー比との少なくとも一方が相違する複数の第2音響信号の各々の自己相関数列とをフレーム毎に算定し、相関行列生成手段は、第1音響信号の自己相関数列のフレーム間相関行列と複数の第2音響信号の各々の自己相関数列のフレーム間相関行列とを算定し、表示制御手段は、第1音響信号のフレーム間相関行列の相関行列画像と複数の第2音響信号の各々のフレーム間相関行列の相関行列画像とを表示装置に表示させる。以上の態様では、種類や音圧が相違する複数のマスカー音についてフレーム間相関行列が算定されるから、複数のマスカー音の各々のフレーム間相関行列を比較することで、情報マスキングの有効性という観点から最適なマスカー音を選択することが可能である。   In a preferred aspect of the present invention, the autocorrelation calculating means includes a plurality of second acoustic signals in which at least one of the autocorrelation sequence of the first acoustic signal and the type of masker sound and the energy ratio of the target sound and the masker sound are different. The autocorrelation sequence of each of the first acoustic signal is calculated for each frame, and the correlation matrix generating means generates the interframe correlation of the autocorrelation sequence of the first acoustic signal and the intercorrelation sequence of each of the plurality of second acoustic signals. The display control means displays the correlation matrix image of the inter-frame correlation matrix of the first acoustic signal and the correlation matrix image of the inter-frame correlation matrix of each of the plurality of second acoustic signals on the display device. In the above aspect, since the inter-frame correlation matrix is calculated for a plurality of masker sounds of different types and sound pressures, the effectiveness of information masking is referred to by comparing the inter-frame correlation matrices of each of the plurality of masker sounds. It is possible to select an optimal masker sound from the viewpoint.

本発明の好適な態様のマスキング解析装置は、第1音響信号のフレーム間相関行列と第2音響信号のフレーム間相関行列との類似(相関)の度合を示す指標値(例えば行列間距離D)を算定する指標算定手段(例えば指標算定部26)を具備する。以上の態様では、第1音響信号のフレーム間相関行列と第2音響信号のフレーム間相関行列との類似の度合を示す指標値がマスキングの解析結果として算定されるから、情報マスキングの効果を定量的に評価することが可能である。   The masking analysis apparatus according to a preferred aspect of the present invention is an index value (for example, inter-matrix distance D) indicating the degree of similarity (correlation) between the inter-frame correlation matrix of the first acoustic signal and the inter-frame correlation matrix of the second acoustic signal. Is provided with index calculation means (for example, index calculation unit 26). In the above aspect, since the index value indicating the degree of similarity between the inter-frame correlation matrix of the first acoustic signal and the inter-frame correlation matrix of the second acoustic signal is calculated as a masking analysis result, the effect of information masking is quantified. Can be evaluated.

本発明は、以上の各態様に係るマスキング解析装置を利用して複数種のマスカー音の何れかを選択するマスカー音選択装置としても実現される。本発明のマスカー音選択装置は、音響信号のスペクトルの各ピークに対応する線スペクトル列の自己相関数列を、ターゲット音を示す第1音響信号と、相異なる種類のマスカー音とターゲット音との混合音を示す複数の第2音響信号の各々とについて、時間軸上のフレーム毎に算定する自己相関算定手段と、第1音響信号と複数の第2音響信号の各々とについて、時間軸上の任意の2個のフレーム間における自己相関数列の相関値を要素とするフレーム間相関行列を算定する相関行列生成手段と、複数の第2音響信号の各々について当該第2音響信号のフレーム間相関行列と第1音響信号のフレーム間相関行列との類似の度合を示す指標値を算定する指標算定手段と、指標算定手段が算定した指標値に応じて複数種のマスカー音の何れかを選択する選択手段(例えば選択部40)とを具備する。以上の構成でも、本発明のマスキング解析装置と同様の作用および効果が実現される。   The present invention is also realized as a masker sound selection device that selects any one of a plurality of types of masker sounds using the masking analysis device according to each of the above aspects. The masker sound selection apparatus of the present invention uses the autocorrelation sequence of the line spectrum sequence corresponding to each peak of the spectrum of the acoustic signal, the first acoustic signal indicating the target sound, and the mixture of the different types of masker sound and target sound. An autocorrelation calculation means for calculating each frame on the time axis for each of the plurality of second acoustic signals indicating sound, and an arbitrary value on the time axis for each of the first acoustic signal and each of the plurality of second acoustic signals. Correlation matrix generating means for calculating an inter-frame correlation matrix whose element is a correlation value of an autocorrelation sequence between two frames, and an inter-frame correlation matrix of the second acoustic signal for each of a plurality of second acoustic signals, An index calculation means for calculating an index value indicating the degree of similarity between the first acoustic signal and the inter-frame correlation matrix, and a plurality of types of masker sounds are selected according to the index value calculated by the index calculation means. To that and a selection means (e.g., selecting section 40). Even with the above configuration, the same operation and effect as the masking analysis apparatus of the present invention can be realized.

また、本発明は、複数種のマスカー音の何れかを利用してターゲット音をマスキングするマスキング装置(例えばマスキング装置200)としても実現される。本発明のマスキング装置は、音響信号のスペクトルの各ピークに対応する線スペクトル列の自己相関数列を、ターゲット音を示す第1音響信号と、相異なる種類のマスカー音とターゲット音との混合音を示す複数の第2音響信号の各々とについて、時間軸上のフレーム毎に算定する自己相関算定手段と、第1音響信号と複数の第2音響信号の各々とについて、時間軸上の任意の2個のフレーム間における自己相関数列の相関値を要素とするフレーム間相関行列を算定する相関行列生成手段と、複数の第2音響信号の各々について当該第2音響信号のフレーム間相関行列と第1音響信号のフレーム間相関行列との類似の度合を示す指標値を算定する指標算定手段と、指標算定手段が算定した指標値に応じて複数種のマスカー音の何れかを選択して放音装置から放音する選択手段(例えば選択部40)とを具備する。以上の構成でも、本発明のマスキング解析装置と同様の作用および効果が実現される。   The present invention is also realized as a masking device (for example, masking device 200) that masks a target sound using any one of a plurality of types of masker sounds. The masking device of the present invention uses a first acoustic signal indicating a target sound, a mixed sound of different types of masker sound and target sound, an autocorrelation number sequence of a line spectrum sequence corresponding to each peak of the spectrum of the acoustic signal. Autocorrelation calculating means for calculating each frame on the time axis for each of the plurality of second acoustic signals shown, and any two on the time axis for the first acoustic signal and each of the plurality of second acoustic signals. Correlation matrix generating means for calculating an inter-frame correlation matrix having the correlation value of the autocorrelation sequence between the frames as an element, an inter-frame correlation matrix of the second acoustic signal for each of the plurality of second acoustic signals, and the first An index calculation means for calculating an index value indicating the degree of similarity with the inter-frame correlation matrix of the acoustic signal, and a plurality of types of masker sounds are selected according to the index value calculated by the index calculation means. Selecting means for sound from the sound emitting device (for example, the selection unit 40); and a. Even with the above configuration, the same operation and effect as the masking analysis apparatus of the present invention can be realized.

以上の各態様に係るマスキング解析装置は、音声の合成に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)で実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働でも実現される。本発明のプログラムは、マスカー音によるターゲット音のマスキングを解析するために、音響信号のスペクトルの各ピークに対応する線スペクトル列の自己相関数列を、ターゲット音を示す第1音響信号と、ターゲット音およびマスカー音の混合音を示す第2音響信号との各々についてフレーム毎に算定する自己相関算定処理と、2個のフレーム間における自己相関数列の相関値を要素とするフレーム間相関行列を第1音響信号と第2音響信号との各々について算定する相関行列生成処理とをコンピュータに実行させる。以上のプログラムによれば、本発明のマスキング解析装置と同様の作用および効果が実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。   The masking analysis apparatus according to each aspect described above is realized by hardware (electronic circuit) such as a DSP (Digital Signal Processor) dedicated to speech synthesis, and general-purpose arithmetic processing such as a CPU (Central Processing Unit). It is also realized by cooperation between the device and the program. In order to analyze masking of a target sound by a masker sound, the program of the present invention uses an autocorrelation sequence of a line spectrum sequence corresponding to each peak of a spectrum of an acoustic signal, a first acoustic signal indicating the target sound, and a target sound. And an autocorrelation calculation process for calculating each frame for each of the second acoustic signal indicating the mixed sound of the masker sound and an interframe correlation matrix having the correlation value of the autocorrelation sequence between the two frames as the first The computer is caused to execute a correlation matrix generation process for calculating each of the acoustic signal and the second acoustic signal. According to the above program, the same operation and effect as the masking analysis apparatus of the present invention are realized. The program of the present invention is provided to a user in a form stored in a computer-readable recording medium and installed in the computer, or provided from a server device in a form of distribution via a communication network and installed in the computer. Is done.

本発明の第1実施形態に係るマスキング解析装置のブロック図である。1 is a block diagram of a masking analysis apparatus according to a first embodiment of the present invention. 自己相関算定部のブロック図である。It is a block diagram of an autocorrelation calculation part. マスキング解析装置の動作の説明図である。It is explanatory drawing of operation | movement of a masking analyzer. 線スペクトル列を生成する動作のフローチャートである。It is a flowchart of the operation | movement which produces | generates a line spectrum sequence. T/M比と行列間距離との関係を示すグラフである。It is a graph which shows the relationship between T / M ratio and the distance between matrixes. 表示装置の表示例を示す模式図である。It is a schematic diagram which shows the example of a display of a display apparatus. 第2実施形態におけるマスキング解析装置のブロック図である。It is a block diagram of the masking analysis apparatus in 2nd Embodiment. 第2実施形態における表示装置の表示例を示す模式図である。It is a schematic diagram which shows the example of a display of the display apparatus in 2nd Embodiment. 第3実施形態に係るマスキング装置のブロック図である。It is a block diagram of the masking apparatus which concerns on 3rd Embodiment. 狭帯域包絡相関の計算値と会話了解度の実測値との関係を示すグラフである。It is a graph which shows the relationship between the calculated value of a narrow-band envelope correlation, and the measured value of conversation intelligibility.

<第1実施形態>
図1は、本発明の第1実施形態に係るマスキング解析装置100のブロック図である。マスキング解析装置100は、マスカー音VMを使用したターゲット音VTのマスキングの効果を解析する音響処理装置であり、図1に示すように、演算処理装置12と記憶装置14と表示装置16とを含むコンピュータシステムで実現される。表示装置16は、例えば液晶表示パネルで構成され、演算処理装置12から指示された画像を表示する。
<First Embodiment>
FIG. 1 is a block diagram of a masking analysis apparatus 100 according to the first embodiment of the present invention. The masking analysis device 100 is an acoustic processing device that analyzes the effect of masking the target sound VT using the masker sound VM, and includes an arithmetic processing device 12, a storage device 14, and a display device 16, as shown in FIG. Realized in a computer system. The display device 16 is composed of a liquid crystal display panel, for example, and displays an image instructed from the arithmetic processing device 12.

記憶装置14は、演算処理装置12が実行するプログラムPGMと演算処理装置12が使用する各種のデータとを記憶する。例えば半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置14として採用され得る。   The storage device 14 stores a program PGM executed by the arithmetic processing device 12 and various data used by the arithmetic processing device 12. For example, a known recording medium such as a semiconductor recording medium or a magnetic recording medium or a combination of a plurality of types of recording media may be employed as the storage device 14.

記憶装置14には、音響信号s1(t)および音響信号s2(t)が格納される。音響信号s1(t)は、マスキングの対象となるターゲット音VTの時間波形を示す音声信号である。他方、音響信号s2(t)は、音響信号s1(t)が示すターゲット音VTにマスカー音VMを重畳(加算)した音の時間波形を示す信号(すなわちマスキング後の信号)である。すなわち、音響信号s1(t)はマスキング前の音声に対応する。例えば収音機器を利用して事前に収録された音響信号s1(t)および音響信号s2(t)が記憶装置14に格納される。なお、収音機器が収音した音声信号を逐次的に(例えば所定の時間長の区間毎に)音響信号s1(t)や音響信号s2(t)として取得して略実時間的に処理することも可能である。   The storage device 14 stores an acoustic signal s1 (t) and an acoustic signal s2 (t). The acoustic signal s1 (t) is an audio signal indicating a time waveform of the target sound VT to be masked. On the other hand, the acoustic signal s2 (t) is a signal indicating a time waveform of a sound obtained by superimposing (adding) the masker sound VM on the target sound VT indicated by the acoustic signal s1 (t) (that is, a signal after masking). That is, the acoustic signal s1 (t) corresponds to the sound before masking. For example, an acoustic signal s1 (t) and an acoustic signal s2 (t) recorded in advance using a sound collection device are stored in the storage device 14. Note that the sound signal collected by the sound collecting device is acquired sequentially (for example, for each section of a predetermined time length) as the acoustic signal s1 (t) or the acoustic signal s2 (t) and processed in substantially real time. It is also possible.

演算処理装置12は、記憶装置14に格納されたプログラムPGMを実行することで、マスカー音VMによるマスキングの効果を解析して結果を出力するための複数の機能(自己相関算定部22,相関行列生成部24,指標算定部26,表示制御部28)を実現する。なお、演算処理装置12の一部の機能を専用の電子回路(DSP)が実現する構成や、演算処理装置12の各機能を複数の集積回路に分散した構成も採用され得る。   The arithmetic processing unit 12 executes a program PGM stored in the storage unit 14 to analyze a masking effect by the masker sound VM and output a result (autocorrelation calculation unit 22, correlation matrix). A generation unit 24, an index calculation unit 26, and a display control unit 28) are realized. A configuration in which a dedicated electronic circuit (DSP) realizes a part of the functions of the arithmetic processing device 12 or a configuration in which the functions of the arithmetic processing device 12 are distributed over a plurality of integrated circuits may be employed.

図1の自己相関算定部22は、所定の時間長のM個のフレームの各々について音響信号s1(t)の自己相関数列A1[m](A1[1]〜A1[M])と音響信号s2(t)の自己相関数列A2[m](A2[1]〜A2[M])とを算定する(m=1〜M)。自己相関数列A1[m]は、音響信号s1(t)のうち第m番目のフレームでの調波構造(基音成分と複数の倍音成分との系列)を反映した数値列であり、自己相関数列A2[m]は、音響信号s2(t)のうち第m番目のフレームでの調波構造を反映した数値列である。なお、自己相関算定部22では、音響信号s1(t)および音響信号s2(t)の各々について同様の処理が実行される。そこで、以下の説明では、音響信号s1(t)および音響信号s2(t)の各々を添字i(i=1,2)により便宜的に音響信号si(t)と表記して、音響信号s1(t)および音響信号s2(t)の双方に共通する事項を包括的に説明する。   The autocorrelation calculation unit 22 in FIG. 1 performs the autocorrelation sequence A1 [m] (A1 [1] to A1 [M]) of the acoustic signal s1 (t) and the acoustic signal for each of M frames having a predetermined time length. The autocorrelation sequence A2 [m] (A2 [1] to A2 [M]) of s2 (t) is calculated (m = 1 to M). The autocorrelation sequence A1 [m] is a numeric sequence reflecting the harmonic structure (sequence of fundamental component and multiple harmonic components) in the mth frame of the acoustic signal s1 (t), and the autocorrelation sequence A2 [m] is a numerical string reflecting the harmonic structure in the mth frame of the acoustic signal s2 (t). The autocorrelation calculation unit 22 performs the same processing for each of the acoustic signal s1 (t) and the acoustic signal s2 (t). Therefore, in the following description, each of the acoustic signal s1 (t) and the acoustic signal s2 (t) is represented as an acoustic signal si (t) for convenience by the suffix i (i = 1, 2), and the acoustic signal s1. Matters common to both (t) and the acoustic signal s2 (t) will be comprehensively described.

図2は、自己相関算定部22の詳細なブロック図である。図2に示すように、自己相関算定部22は、区間設定部32と周波数分析部34と相関分析部36とを含んで構成される。区間設定部32は、音響信号si(t)に所定の時間窓を乗算することで、音響信号si(t)を、図3に示すように、相異なるフレームに対応するM個の区間信号qi[m](qi[1]〜qi[M])に区分する。各フレームは、例えば20ミリ秒から30ミリ秒程度の時間長に設定されて時間軸上で相互に重複する。なお、音響信号si(t)の例えば基本周波数に応じて各フレームの時間長を可変に制御することも可能である。   FIG. 2 is a detailed block diagram of the autocorrelation calculation unit 22. As shown in FIG. 2, the autocorrelation calculation unit 22 includes a section setting unit 32, a frequency analysis unit 34, and a correlation analysis unit 36. The section setting unit 32 multiplies the acoustic signal si (t) by a predetermined time window, so that the acoustic signal si (t) is converted into M section signals qi corresponding to different frames as shown in FIG. [m] (qi [1] to qi [M]). Each frame is set to a time length of about 20 milliseconds to 30 milliseconds, for example, and overlaps each other on the time axis. Note that the time length of each frame can be variably controlled in accordance with, for example, the fundamental frequency of the acoustic signal si (t).

図2の周波数分析部34は、M個のフレームの各々について区間信号qi[m]のスペクトルQi[m]の各ピークに対応する線スペクトル列Li[m](Li[1]〜Li[M])を算定する。線スペクトル列Li[m]は、図2に示すように、区間信号qi[m]のスペクトルQi[m]の振幅値(絶対値)がピークとなるLN個の周波数Fpの各々に配置されて強度が所定値(1)に正規化されたスペクトル線の系列である。   The frequency analysis unit 34 in FIG. 2 performs a line spectrum sequence Li [m] (Li [1] to Li [M] corresponding to each peak of the spectrum Qi [m] of the section signal qi [m] for each of M frames. ]). As shown in FIG. 2, the line spectrum sequence Li [m] is arranged at each of the LN frequencies Fp at which the amplitude value (absolute value) of the spectrum Qi [m] of the section signal qi [m] peaks. It is a series of spectral lines whose intensity is normalized to a predetermined value (1).

図4は、周波数分析部34が音響信号si(t)の第m番目のフレーム(区間信号qi[m])について線スペクトル列Li[m]を生成する処理のフローチャートである。各音響信号si(t)のM個の区間信号qi[1]〜qi[M]の各々について図4の処理が実行される。   FIG. 4 is a flowchart of processing in which the frequency analysis unit 34 generates a line spectrum sequence Li [m] for the mth frame (section signal qi [m]) of the acoustic signal si (t). The process shown in FIG. 4 is executed for each of the M section signals qi [1] to qi [M] of each acoustic signal si (t).

周波数分析部34は、1本のスペクトル線を指示する変数xを1に初期化し(SA1)、変数xが所定値LNを下回るか否かを判定する(SA2)。図4の処理を開始した直後の段階では変数xは所定値LNを下回る。変数xが所定値LNを下回る場合、周波数分析部34は、区間信号qi[m]のスペクトル(複素スペクトル)Qi[m]を算定する(SA3)。スペクトルQi[m]の算定には、離散フーリエ変換等の公知の周波数分析が任意に採用される。   The frequency analysis unit 34 initializes a variable x indicating one spectral line to 1 (SA1), and determines whether the variable x falls below a predetermined value LN (SA2). At the stage immediately after the start of the process of FIG. 4, the variable x is below the predetermined value LN. When the variable x falls below the predetermined value LN, the frequency analysis unit 34 calculates the spectrum (complex spectrum) Qi [m] of the section signal qi [m] (SA3). For calculation of the spectrum Qi [m], a known frequency analysis such as discrete Fourier transform is arbitrarily employed.

周波数分析部34は、ステップSA3で算定したスペクトルQi[m]の振幅スペクトル|Qi[m]|において振幅値が最大となる1個のピークの周波数Fpを特定および記憶し(SA4)、ステップSA3で算定したスペクトルQi[m]のうちステップSA4で特定した周波数Fp以外の各周波数の強度をゼロに設定したスペクトルRi[m]を生成する(SA5)。そして、周波数分析部34は、スペクトルRi[m]を例えば逆フーリエ変換で時間領域の音響信号ri[m]に変換し(SA6)、変換後の音響信号ri[m]を現段階の区間信号qi[m]から減算する(SA7)。   The frequency analysis unit 34 specifies and stores the frequency Fp of one peak having the maximum amplitude value in the amplitude spectrum | Qi [m] | of the spectrum Qi [m] calculated in step SA3 (SA4), and step SA3. A spectrum Ri [m] in which the intensity of each frequency other than the frequency Fp specified in step SA4 is set to zero among the spectrum Qi [m] calculated in step S4 is generated (SA5). Then, the frequency analysis unit 34 converts the spectrum Ri [m] into an acoustic signal ri [m] in the time domain by, for example, inverse Fourier transform (SA6), and the converted acoustic signal ri [m] is the current section signal. Subtract from qi [m] (SA7).

周波数分析部34は、変数xに1を加算したうえで処理をステップSA2に移行し(SA8)、加算後の変数xが依然として所定値LNを下回る場合には(SA2:YES)、直前のステップSA7での処理後の区間信号qi[m]についてステップSA3からステップSA8の処理を反復する。すなわち、区間信号qi[m]について特定した周波数Fpの総数が所定値LNに到達するまで、区間信号qi[m]から周波数Fpの音響成分を逐次的に除外しながらスペクトルQi[m]の振幅値のピークの周波数Fpを特定する処理が反復される。   The frequency analysis unit 34 adds 1 to the variable x and proceeds to step SA2 (SA8). If the variable x after addition still falls below the predetermined value LN (SA2: YES), the immediately preceding step The processing from step SA3 to step SA8 is repeated for the section signal qi [m] after the processing at SA7. That is, the amplitude of the spectrum Qi [m] is sequentially excluded while the acoustic components of the frequency Fp are sequentially excluded from the section signal qi [m] until the total number of frequencies Fp specified for the section signal qi [m] reaches a predetermined value LN. The process of specifying the peak frequency Fp of the value is repeated.

周波数Fpの総数が所定値LNに到達すると(SA2:NO)、周波数分析部34は、周波数軸上に離散的に設定されたK個の周波数(周波数帯域)のうちステップSA4で区間信号qi[m]について特定したLN個の周波数Fpの各々に強度1に正規化されたスペクトル線を設定した線スペクトル列Li[m]を生成する(SA9)。K個の周波数のうちLN個の周波数Fp以外の各周波数の強度はゼロに設定される。以上が線スペクトル列Li[m]の算定方法である。なお、線スペクトル列Li[m]の算定については例えばY.Hara, M. Matsumoto, and K. Miyoshi, "Method for estimating pitch independently from power spectrum envelope for speech and music signal", J. Temporal Design in Architecuture and the Environment 9(1) 121-124 (2009)にも開示されている。   When the total number of the frequencies Fp reaches the predetermined value LN (SA2: NO), the frequency analyzing unit 34 selects the section signal qi [in step SA4 among the K frequencies (frequency bands) discretely set on the frequency axis. A line spectrum sequence Li [m] in which a spectrum line normalized to an intensity of 1 is set to each of the LN frequencies Fp specified for m] is generated (SA9). Among the K frequencies, the intensity of each frequency other than LN frequencies Fp is set to zero. The above is the calculation method of the line spectrum sequence Li [m]. For example, Y. Hara, M. Matsumoto, and K. Miyoshi, “Method for controlling pitch independently from power spectrum envelope for speech and music signal”, J. Temporal Design in Architecuture. and the Environment 9 (1) 121-124 (2009).

図2の相関分析部36は、周波数分析部34が各音響信号si(t)のフレーム毎に生成した線スペクトル列Li[m]について自己相関数列Ai[m](Ai[1]〜Ai[M])を算定する。自己相関数列(自己相関関数)Ai[m]は、図3に示すように、周波数軸上のK個の周波数の各々に対応する自己相関値pi[m,k](pi[m,1]〜pi[m,K])の系列(K次ベクトル)である。   The correlation analysis unit 36 in FIG. 2 uses the autocorrelation sequence Ai [m] (Ai [1] to Ai [) for the line spectrum sequence Li [m] generated by the frequency analysis unit 34 for each frame of each acoustic signal si (t). M]). As shown in FIG. 3, the autocorrelation sequence (autocorrelation function) Ai [m] is an autocorrelation value pi [m, k] (pi [m, 1] corresponding to each of K frequencies on the frequency axis. ~ Pi [m, K]) series (Kth order vector).

周波数分析部34が生成する線スペクトル列Li[m]は、区間信号qi[m]において振幅値がピークとなる各周波数Fpに配置されたスペクトル線で構成されるから、線スペクトル列Li[m]の自己相関数列Ai[m]は、音響信号si(t)の各フレームでの調波構造を強調したスペクトルを近似する。すなわち、自己相関数列Ai[m]の自己相関値pi[m,1]〜pi[m,K]の系列には、音響信号si(t)の基本周波数に相当する間隔でピークが出現する。   Since the line spectrum sequence Li [m] generated by the frequency analysis unit 34 is composed of spectral lines arranged at the respective frequencies Fp at which the amplitude value peaks in the section signal qi [m], the line spectrum sequence Li [m]. ] Of the autocorrelation sequence Ai [m] approximates a spectrum that emphasizes the harmonic structure in each frame of the acoustic signal si (t). That is, peaks appear at intervals corresponding to the fundamental frequency of the acoustic signal si (t) in the sequence of autocorrelation values pi [m, 1] to pi [m, K] of the autocorrelation sequence Ai [m].

音響信号s1(t)および音響信号s2(t)の各々についてフレーム毎(区間信号qi[m]毎)に以上の処理が実行されることで、図3に示すように、音響信号s1(t)の各フレームに対応するM個の自己相関数列A1[1]〜A1[M]を縦方向に配列したM行K列の解析行列W1と、音響信号s2(t)の各フレームに対応するM個の自己相関数列A2[1]〜A2[M]を縦方向に配列したM行K列の解析行列W2とが生成される。   As shown in FIG. 3, the acoustic signal s1 (t) and the acoustic signal s2 (t) are processed for each frame (for each section signal qi [m]), so that the acoustic signal s1 (t ) Corresponding to each frame of the acoustic signal s2 (t) and an analysis matrix W1 of M rows and K columns in which M autocorrelation sequences A1 [1] to A1 [M] corresponding to each frame are arranged in the vertical direction. An analysis matrix W2 of M rows and K columns in which M autocorrelation number sequences A2 [1] to A2 [M] are arranged in the vertical direction is generated.

図1の相関行列生成部24は、音響信号s1(t)の解析行列W1からフレーム間相関行列C1を生成するとともに音響信号s2(t)の解析行列W2からフレーム間相関行列C2を生成する。各フレーム間相関行列Ciは、複数の相関値(相互相関係数値)ci[mx,my](mx=1〜M,my=1〜M)を要素とするM行M列の対称行列である。第mx行第my列に位置する1個の相関値ci[mx,my]は、音響信号si(t)の第mx番目のフレームの自己相関数列Ai[mx]と音響信号si(t)の第my番目のフレームの自己相関数列Ai[my]との類似の度合を示す変数(例えば自己相関数列Ai[mx]と自己相関数列Ai[my]との内積や距離)である。各相関値ci[mx,my]は、フレーム間相関行列Ciの対角成分(mx=myとなる要素)が1となるように正規化される。   The correlation matrix generation unit 24 in FIG. 1 generates an interframe correlation matrix C1 from the analysis matrix W1 of the acoustic signal s1 (t) and generates an interframe correlation matrix C2 from the analysis matrix W2 of the acoustic signal s2 (t). Each inter-frame correlation matrix Ci is a symmetric matrix of M rows and M columns having a plurality of correlation values (cross correlation coefficient values) ci [mx, my] (mx = 1 to M, my = 1 to M) as elements. . One correlation value ci [mx, my] located in the mxth row and the my column is an autocorrelation sequence Ai [mx] of the mxth frame of the acoustic signal si (t) and the acoustic signal si (t). This is a variable (for example, the inner product or distance between the autocorrelation sequence Ai [mx] and the autocorrelation sequence Ai [my]) indicating the degree of similarity with the autocorrelation sequence Ai [my] of the myth frame. Each correlation value ci [mx, my] is normalized so that the diagonal component (element where mx = my) of the inter-frame correlation matrix Ci is 1.

前述の通り自己相関数列Ai[m]においては、音響信号si(t)の各フレームでの調波構造が強調されるから、2個のフレーム間の自己相関数列Ai[m]の相関値ci[mx,my]を要素とするフレーム間相関行列Ciには音響信号si(t)の調波構造の時間遷移の特徴が顕在化する。例えば音響信号si(t)の時間波形の包絡線に周期性がある場合、フレーム間相関行列Ciにて横方向または縦方向に配列するM個の相関値ci[mx,my]の系列(ci[mx,1]〜ci[mx,M],ci[1,my]〜ci[M,my])内では各相関値ci[mx,my]の周期的な変化が観測される。   As described above, in the autocorrelation sequence Ai [m], the harmonic structure in each frame of the acoustic signal si (t) is emphasized, so that the correlation value ci of the autocorrelation sequence Ai [m] between the two frames. In the inter-frame correlation matrix Ci having [mx, my] as elements, the characteristics of the temporal transition of the harmonic structure of the acoustic signal si (t) become obvious. For example, when the envelope of the time waveform of the acoustic signal si (t) has periodicity, a sequence (ci) of M correlation values ci [mx, my] arranged in the horizontal direction or the vertical direction in the inter-frame correlation matrix Ci. [mx, 1] to ci [mx, M], ci [1, my] to ci [M, my]), a periodic change of each correlation value ci [mx, my] is observed.

ところで、ターゲット音VTと同じ発声者の音声波形を時間軸方向に逆転させた逆転音声をマスカー音VMとして適用した場合に情報マスキングの効果は顕著である。逆転音声とターゲット音VTとは発声者が共通するから、逆転音声をマスカー音VMとして利用したマスキングの前後の音声では音声の調波構造(基音成分と複数の倍音成分との系列)は殆ど変化しない。以上の傾向を考慮すると、情報マスキングの作用は、調波構造の時間遷移がマスキングの前後で相違することに関係すると推察される。すなわち、調波構造の時間遷移がマスキングの前後で変化するほど情報マスキングの効果は大きい。そして、前述の通り、マスキング前の音響信号s1(t)の調波構造の時間遷移はフレーム間相関行列C1に反映され、マスキング後の音響信号s2(t)の調波構造の時間遷移はフレーム間相関行列C2に反映される。したがって、フレーム間相関行列C1およびフレーム間相関行列C2は情報マスキングの効果の評価指標として利用可能である。具体的には、フレーム間相関行列C1とフレーム間相関行列C2との相関が低いほど情報マスキングの効果が大きいと評価できる。   By the way, the effect of the information masking is remarkable when the reverse voice obtained by reversing the voice waveform of the same speaker as the target sound VT in the time axis direction is applied as the masker sound VM. Since the reversed voice and the target sound VT are common to the speaker, the harmonic structure of the voice (sequence of fundamental and multiple harmonic components) is almost unchanged in the voice before and after masking using the reversed voice as the masker sound VM. do not do. Considering the above tendency, it is surmised that the action of information masking is related to the time transition of the harmonic structure being different before and after masking. That is, the effect of information masking is greater as the time transition of the harmonic structure changes before and after masking. As described above, the time transition of the harmonic structure of the acoustic signal s1 (t) before masking is reflected in the interframe correlation matrix C1, and the time transition of the harmonic structure of the acoustic signal s2 (t) after masking is a frame. It is reflected in the inter-correlation matrix C2. Therefore, the inter-frame correlation matrix C1 and the inter-frame correlation matrix C2 can be used as an evaluation index for the effect of information masking. Specifically, it can be evaluated that the information masking effect is greater as the correlation between the inter-frame correlation matrix C1 and the inter-frame correlation matrix C2 is lower.

図1の指標算定部26は、フレーム間相関行列C1とフレーム間相関行列C2との行列間距離Dを算定する。具体的には、指標算定部26は、以下の数式(1)で行列間距離Dを算定する。

数式(1)の演算子tr( )は、正方行列のトレース(M個の対角成分の合計)を意味する。数式(1)から理解されるように、行列間距離Dは、フレーム間相関行列C1とフレーム間相関行列C2とが一致する場合(tr(C1C2-1)=tr(C2C1-1)=M)に最小値1となり、フレーム間相関行列C1とフレーム間相関行列C2との相違が大きいほど増大する。
The index calculation unit 26 in FIG. 1 calculates an inter-matrix distance D between the inter-frame correlation matrix C1 and the inter-frame correlation matrix C2. Specifically, the index calculation unit 26 calculates the inter-matrix distance D using the following formula (1).

The operator tr () in Equation (1) means a square matrix trace (sum of M diagonal components). As can be understood from the equation (1), the inter-matrix distance D is equal to the inter-frame correlation matrix C1 and the inter-frame correlation matrix C2 (tr (C1C2 -1 ) = tr (C2C1 -1 ) = M). The minimum value becomes 1, and increases as the difference between the inter-frame correlation matrix C1 and the inter-frame correlation matrix C2 increases.

図5は、マスカー音VMに対するターゲット音VTのエネルギー比(T/M比)と数式(1)で算定される行列間距離Dとの関係を示すグラフである。図10と同様に、白色雑音をマスカー音VMとして利用した場合と逆転音声をマスカー音VMとして使用した場合とが図5では併記されている。図5から理解されるように、エネルギーマスキングに有効な白色雑音をマスカー音VMとして使用した場合の行列間距離DはT/M比に殆ど依存しない。他方、情報マスキングに有効な逆転音声をマスカー音VMとして使用した場合、T/M比が減少する(マスカー音VMの音圧がターゲット音VTに対して増加する)ほど行列間距離Dは大きい数値となる。以上の傾向から、行列間距離Dは、非特許文献1や非特許文献2の狭帯域包絡相関と比較して情報マスキングの定量的な評価指標として適切であることが理解される。   FIG. 5 is a graph showing the relationship between the energy ratio (T / M ratio) of the target sound VT to the masker sound VM and the inter-matrix distance D calculated by the equation (1). Similarly to FIG. 10, the case where white noise is used as the masker sound VM and the case where reversed voice is used as the masker sound VM are shown together in FIG. 5. As can be seen from FIG. 5, the inter-matrix distance D when white noise effective for energy masking is used as the masker sound VM hardly depends on the T / M ratio. On the other hand, when reverse rotation sound effective for information masking is used as the masker sound VM, the inter-matrix distance D increases as the T / M ratio decreases (the sound pressure of the masker sound VM increases with respect to the target sound VT). It becomes. From the above tendency, it is understood that the inter-matrix distance D is appropriate as a quantitative evaluation index for information masking as compared with the narrowband envelope correlation of Non-Patent Document 1 and Non-Patent Document 2.

図1の表示制御部28は、相関行列生成部24および指標算定部26による処理結果(マスキングの解析結果)を表示装置16に表示させる。具体的には、表示制御部28は、図6に例示するように、フレーム間相関行列C1を表現する相関行列画像G1とフレーム間相関行列C2を表現する相関行列画像G2とを表示装置16に表示させる。図6では、逆転音声をマスカー音VMとして利用した場合が想定されている。相関行列画像Gi(G1,G2)は、相互に直交するX軸とY軸とを時間軸としてフレーム間相関行列Ciを表現する。具体的には、相関行列画像Giは、フレーム間相関行列Ciの各要素に対応する複数(M2個)の単位領域UをX軸とY軸とに沿ってM行M列の行列状に配列した画像である。相関行列画像GiのうちX軸上の第mx行とY軸上の第my列とに対応する1個の単位領域Uは、フレーム間相関行列Ciの第mx行第my列の相関値ci[mx,my]に応じた表示態様(例えば階調および色彩)に設定されることでその相関値ci[mx,my]を表現する。各相関行列画像Giには、音響信号si(t)の調波構造の時間遷移の傾向が反映される。 The display control unit 28 in FIG. 1 causes the display device 16 to display the processing results (masking analysis results) by the correlation matrix generation unit 24 and the index calculation unit 26. Specifically, as illustrated in FIG. 6, the display control unit 28 displays a correlation matrix image G1 expressing the interframe correlation matrix C1 and a correlation matrix image G2 expressing the interframe correlation matrix C2 on the display device 16. Display. In FIG. 6, the case where reverse rotation sound is utilized as masker sound VM is assumed. The correlation matrix image Gi (G1, G2) represents an interframe correlation matrix Ci with the X axis and Y axis orthogonal to each other as a time axis. Specifically, the correlation matrix image Gi includes a plurality of (M 2 ) unit areas U corresponding to each element of the inter-frame correlation matrix Ci in a matrix of M rows and M columns along the X axis and the Y axis. It is an arranged image. One unit area U corresponding to the mx-th row on the X-axis and the my-th column on the Y-axis in the correlation matrix image Gi is the correlation value ci [of the mx-th row, my column of the inter-frame correlation matrix Ci. The correlation value ci [mx, my] is expressed by setting the display mode (for example, gradation and color) according to mx, my]. Each correlation matrix image Gi reflects the tendency of time transition of the harmonic structure of the acoustic signal si (t).

表示装置16に表示された相関行列画像G1と相関行列画像G2とを対比することで、利用者は、マスカー音VMによる情報マスキングの効果を視覚的に評価することが可能である。具体的には、相関行列画像G1と相関行列画像G2とが相違するほど、マスカー音VMによる情報マスキングの効果が大きいと評価できる。   By comparing the correlation matrix image G1 and the correlation matrix image G2 displayed on the display device 16, the user can visually evaluate the effect of information masking by the masker sound VM. Specifically, it can be evaluated that the information masking effect by the masker sound VM is greater as the correlation matrix image G1 and the correlation matrix image G2 are different.

また、表示制御部28は、図6に示すように、指標算定部26が算定した行列間距離D(図6の例示ではD=7)を表示装置16に表示させる。利用者は、表示装置16に表示された行列間距離Dから情報マスキングの効果を評価することが可能である。具体的には、行列間距離Dが大きい(フレーム間相関行列C1とフレーム間相関行列C2との相違が大きい)ほど、マスカー音VMによる情報マスキングの効果が大きいと評価できる。   Further, as shown in FIG. 6, the display control unit 28 causes the display device 16 to display the inter-matrix distance D calculated by the index calculation unit 26 (D = 7 in the illustration of FIG. 6). The user can evaluate the effect of information masking from the inter-matrix distance D displayed on the display device 16. Specifically, it can be evaluated that the greater the inter-matrix distance D (the greater the difference between the inter-frame correlation matrix C1 and the inter-frame correlation matrix C2), the greater the effect of information masking by the masker sound VM.

以上に説明した通り、第1実施形態では、音響信号si(t)の調波構造の時間遷移を反映したフレーム間相関行列Ciを利用して情報マスキングの効果を適切に評価できるという利点がある。第1実施形態では、フレーム間相関行列Ciを表現する相関行列画像Giが表示装置16に表示されるから、マスキングの前後にわたる調波構造の時間遷移の相違(フレーム間相関行列C1とフレーム間相関行列C2との相違)を利用者が直観的(定性的)かつ即時的に把握できるという利点もある。また、フレーム間相関行列C1とフレーム間相関行列C2との行列間距離Dも表示装置16に表示されるから、マスキングの前後にわたる調波構造の時間遷移の相違を利用者が客観的かつ定量的に評価することが可能である。   As described above, the first embodiment has an advantage that the effect of information masking can be appropriately evaluated using the inter-frame correlation matrix Ci reflecting the time transition of the harmonic structure of the acoustic signal si (t). . In the first embodiment, since the correlation matrix image Gi representing the interframe correlation matrix Ci is displayed on the display device 16, the difference in time transition of the harmonic structure before and after masking (interframe correlation matrix C1 and interframe correlation). There is also an advantage that the user can intuitively (qualitatively) and immediately grasp the difference from the matrix C2. Further, since the inter-matrix distance D between the inter-frame correlation matrix C1 and the inter-frame correlation matrix C2 is also displayed on the display device 16, the user can objectively and quantitatively determine the difference in time transition of the harmonic structure before and after masking. It is possible to evaluate.

<第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同等である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
Second Embodiment
A second embodiment of the present invention will be described below. In addition, about the element in which an effect | action and a function are equivalent to 1st Embodiment in each form illustrated below, the code | symbol referred by description of 1st Embodiment is diverted, and each detailed description is abbreviate | omitted suitably.

図7は、第2実施形態に係るマスキング解析装置100のブロック図である。図7に示すように、第2実施形態の記憶装置14は、ターゲット音VT(マスキング前の音声)を示す音響信号s1(t)のほか、ターゲット音VTとマスカー音VMとの混合音(マスキング後の音声)を示す2種類の音響信号s2(t)(s2(t)_A,s2(t)_B)を記憶する。音響信号s2(t)_Aのマスカー音VM_Aと音響信号s2(t)_Bのマスカー音VM_Bとは種類(生成方法)が相違する。例えば、音響信号s2(t)_Aのマスカー音VM_Aは逆転音声であり、音響信号s2(t)_Bのマスカー音VM_Bは白色雑音である。   FIG. 7 is a block diagram of the masking analysis apparatus 100 according to the second embodiment. As shown in FIG. 7, the storage device 14 of the second embodiment has a mixed sound (masking) of the target sound VT and the masker sound VM in addition to the acoustic signal s1 (t) indicating the target sound VT (sound before masking). Two kinds of acoustic signals s2 (t) (s2 (t) _A, s2 (t) _B) indicating the later voice) are stored. The type (generation method) of the masker sound VM_A of the acoustic signal s2 (t) _A and the masker sound VM_B of the acoustic signal s2 (t) _B are different. For example, the masker sound VM_A of the acoustic signal s2 (t) _A is a reverse sound, and the masker sound VM_B of the acoustic signal s2 (t) _B is white noise.

第2実施形態の自己相関算定部22は、音響信号s1(t)と音響信号s2(t)_Aと音響信号s2(t)_Aとの各々について、第1実施形態と同様の方法で自己相関数列Ai[m]を算定する。相関行列生成部24は、音響信号s1(t)のフレーム間相関行列C1と音響信号s2(t)_Aのフレーム間相関行列C2_Aと音響信号s2(t)_Bのフレーム間相関行列C2_Bとを第1実施形態と同様の方法で生成する。指標算定部26は、フレーム間相関行列C1とフレーム間相関行列C2_Aとの間の行列間距離DAと、フレーム間相関行列C1とフレーム間相関行列C2_Bとの間の行列間距離DBとを算定する。行列間距離DAは、音響信号s1(t)と音響信号s2(t)_Aとの間の調波構造の時間遷移の類否を示す数値であり、マスカー音VM_Aを利用した場合の情報マスキングの効果の評価指標として利用される。同様に、行列間距離DBは、マスカー音VM_Bを利用した場合の情報マスキングの効果の評価指標として利用される。   The autocorrelation calculation unit 22 of the second embodiment performs autocorrelation for each of the acoustic signal s1 (t), the acoustic signal s2 (t) _A, and the acoustic signal s2 (t) _A in the same manner as in the first embodiment. The sequence Ai [m] is calculated. The correlation matrix generation unit 24 calculates the inter-frame correlation matrix C1 of the acoustic signal s1 (t), the inter-frame correlation matrix C2_A of the acoustic signal s2 (t) _A, and the inter-frame correlation matrix C2_B of the acoustic signal s2 (t) _B. It is generated by the same method as in the first embodiment. The index calculation unit 26 calculates an inter-matrix distance DA between the inter-frame correlation matrix C1 and the inter-frame correlation matrix C2_A and an inter-matrix distance DB between the inter-frame correlation matrix C1 and the inter-frame correlation matrix C2_B. . The inter-matrix distance DA is a numerical value indicating the similarity of the time transition of the harmonic structure between the acoustic signal s1 (t) and the acoustic signal s2 (t) _A, and is used for information masking when the masker sound VM_A is used. Used as an evaluation index of effectiveness. Similarly, the inter-matrix distance DB is used as an evaluation index of the effect of information masking when the masker sound VM_B is used.

図8は、第2実施形態の表示装置16による表示画像の模式図である。図8に示すように、第2実施形態の表示制御部28は、フレーム間相関行列C1の相関行列画像G1とフレーム間相関行列C2_Aの相関行列画像G2_Aとフレーム間相関行列C2_Bの相関行列画像G2_Bとを表示装置16に表示させる。利用者は、相関行列画像G2_Aおよび相関行列画像G2_Bの各々を相関行列画像G1と対比することで、マスカー音VM_Aおよびマスカー音VM_Bの各々による情報マスキングの効果を視覚的に把握することが可能である。例えば、図8の例示において、音響信号s2(t)_Aに対応する相関行列画像G2_Aは、音響信号s2(t)_Bの相関行列画像G2_Bと比較すると、音響信号s1(t)の相関行列画像G1との相違が大きい。したがって、利用者は、マスカー音VM_A(逆転音声)がマスカー音VM_B(白色雑音)と比較して情報マスキングに有効であると視覚的および即時的に判断できる。   FIG. 8 is a schematic diagram of a display image by the display device 16 according to the second embodiment. As shown in FIG. 8, the display control unit 28 of the second embodiment includes a correlation matrix image G1 of the interframe correlation matrix C1, a correlation matrix image G2_A of the interframe correlation matrix C2_A, and a correlation matrix image G2_B of the interframe correlation matrix C2_B. Are displayed on the display device 16. The user can visually grasp the effect of information masking by each of the masker sound VM_A and the masker sound VM_B by comparing each of the correlation matrix image G2_A and the correlation matrix image G2_B with the correlation matrix image G1. is there. For example, in the illustration of FIG. 8, the correlation matrix image G2_A corresponding to the acoustic signal s2 (t) _A is compared with the correlation matrix image G2_B of the acoustic signal s2 (t) _B. The difference with G1 is large. Accordingly, the user can visually and immediately determine that the masker sound VM_A (reverse sound) is more effective for information masking than the masker sound VM_B (white noise).

また、表示制御部28は、図8に示すように、指標算定部26が算定した行列間距離DA(図8の例示ではDA=7)と行列間距離DB(図8の例示ではDB=2.5)とを表示装置16に表示させる。利用者は、表示装置16に表示された行列間距離DAと行列間距離DBとを対比することでマスカー音VM_Aおよびマスカー音VM_Bの各々による情報マスキングの効果を評価することが可能である。例えば、図8の例示において、音響信号s2(t)_Aに対応する行列間距離DAは音響信号s2(t)_Bの行列間距離DBを上回る。したがって、利用者は、マスカー音VM_A(逆転音声)がマスカー音VM_B(白色雑音)と比較して情報マスキングに有効であると判断できる。   Further, as shown in FIG. 8, the display control unit 28 has an inter-matrix distance DA (DA = 7 in the example of FIG. 8) and an inter-matrix distance DB (DB = 2 in the example of FIG. 8) calculated by the index calculation unit 26. .5) is displayed on the display device 16. The user can evaluate the information masking effect by each of the masker sound VM_A and the masker sound VM_B by comparing the inter-matrix distance DA and the inter-matrix distance DB displayed on the display device 16. For example, in the illustration of FIG. 8, the inter-matrix distance DA corresponding to the acoustic signal s2 (t) _A is greater than the inter-matrix distance DB of the acoustic signal s2 (t) _B. Therefore, the user can determine that the masker sound VM_A (reversed sound) is more effective for information masking than the masker sound VM_B (white noise).

第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、マスカー音VMが相違する複数種の音響信号s2(t)の各々について相関行列画像G2(G2_A,G2_B)および行列間距離D(DA,DB)が表示されるから、複数種のマスカー音VMの間で情報マスキングに対する有効性を利用者が容易に比較できるという利点がある。   In the second embodiment, the same effect as in the first embodiment is realized. In the second embodiment, the correlation matrix image G2 (G2_A, G2_B) and the inter-matrix distance D (DA, DB) are displayed for each of a plurality of types of acoustic signals s2 (t) having different masker sounds VM. There is an advantage that the user can easily compare the effectiveness for information masking among the plural types of masker sounds VM.

<第3実施形態>
図9は、本発明の第3実施形態に係るマスキング装置200のブロック図である。第3実施形態のマスキング装置200は、生成方法や大きさ(音圧)が相違する複数種のマスカー音VM(VM_A,VM_B)の何れかを選択して放音する装置であり、第2実施形態のマスキング解析装置100に選択部40と放音装置42とを追加した構成である。記憶装置14は、マスカー音VM_Aの音声波形を示すマスカー音信号v(t)_Aとマスカー音VM_Bの音声波形を示すマスカー音信号v(t)_Bとを記憶する。
<Third Embodiment>
FIG. 9 is a block diagram of a masking apparatus 200 according to the third embodiment of the present invention. The masking device 200 of the third embodiment is a device that selects and emits a plurality of types of masker sounds VM (VM_A, VM_B) having different generation methods and magnitudes (sound pressures). This is a configuration in which a selection unit 40 and a sound emitting device 42 are added to the masking analysis device 100 of the embodiment. The storage device 14 stores a masker sound signal v (t) _A indicating the sound waveform of the masker sound VM_A and a masker sound signal v (t) _B indicating the sound waveform of the masker sound VM_B.

第3実施形態の指標算定部26は、第2実施形態と同様に、音響信号s1(t)のフレーム間相関行列C1と音響信号s2(t)_Aのフレーム間相関行列C2_Aとの間の行列間距離DAと、音響信号s1(t)のフレーム間相関行列C1と音響信号s2(t)_Bのフレーム間相関行列C2_Bとの間の行列間距離DBとを算定する。選択部40は、指標算定部26が算定した行列間距離D(DA,DB)に応じてマスカー音VM_Aおよびマスカー音VM_Bの何れかを選択する。具体的には、選択部40は、音響信号s2(t)_Aおよび音響信号s2(t)_Bのうち行列間距離Dが大きい音響信号s2(t)に対応するマスカー音VM(すなわち情報マスキングに有効なマスカー音VM)を選択する。そして、選択部40は、行列間距離Dに応じて選択したマスカー音VMに対応するマスカー音信号v(t)(v(t)_A,v(t)_B)を記憶装置14から取得して放音装置42に供給する。放音装置42(例えばスピーカ装置)は、選択部40から供給されるマスカー音信号v(t)に応じてマスカー音VM(VM_A,VM_B)を音波として放射する。   As in the second embodiment, the index calculation unit 26 of the third embodiment is a matrix between the inter-frame correlation matrix C1 of the acoustic signal s1 (t) and the inter-frame correlation matrix C2_A of the acoustic signal s2 (t) _A. The inter-distance DA and the inter-matrix distance DB between the inter-frame correlation matrix C1 of the acoustic signal s1 (t) and the inter-frame correlation matrix C2_B of the acoustic signal s2 (t) _B are calculated. The selection unit 40 selects either the masker sound VM_A or the masker sound VM_B according to the inter-matrix distance D (DA, DB) calculated by the index calculation unit 26. Specifically, the selection unit 40 performs masker sound VM (that is, information masking) corresponding to the acoustic signal s2 (t) having a large inter-matrix distance D among the acoustic signal s2 (t) _A and the acoustic signal s2 (t) _B. Select a valid masker sound VM). Then, the selection unit 40 acquires the masker sound signal v (t) (v (t) _A, v (t) _B) corresponding to the masker sound VM selected according to the inter-matrix distance D from the storage device 14. The sound is supplied to the sound emitting device 42. The sound emitting device 42 (for example, a speaker device) radiates a masker sound VM (VM_A, VM_B) as a sound wave according to the masker sound signal v (t) supplied from the selection unit 40.

第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、情報マスキングに有効なマスカー音VMが行列間距離Dに応じて自動的に選択および放音されるから、ターゲット音VTをマスキングしようとする利用者の負担を軽減することが可能である。   In the third embodiment, the same effect as in the first embodiment is realized. In the third embodiment, since the masker sound VM effective for information masking is automatically selected and emitted according to the inter-matrix distance D, the burden on the user who tries to mask the target sound VT is reduced. It is possible.

なお、第3実施形態では、表示制御部28および表示装置16を省略することも可能である。選択部40が行列間距離Dに応じたマスカー音VMを選択して例えば表示装置16の表示により利用者に報知する構成(すなわち、マスカー音VMの放音を要件としないマスカー音選択装置)も採用され得る。また、以上の説明では、2種類のマスカー音VM(VM_A,VM_B)の何れかを選択する場合を例示したが、選択候補となるマスカー音VMの種類数は任意である。   In the third embodiment, the display control unit 28 and the display device 16 can be omitted. A configuration in which the selection unit 40 selects the masker sound VM corresponding to the inter-matrix distance D and notifies the user by, for example, display on the display device 16 (that is, a masker sound selection device that does not require the sound emission of the masker sound VM). Can be employed. In the above description, the case where one of the two types of masker sounds VM (VM_A, VM_B) is selected has been exemplified, but the number of types of masker sounds VM as selection candidates is arbitrary.

<変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
<Modification>
Each of the above forms can be variously modified. Specific modifications are exemplified below. Two or more modes arbitrarily selected from the following examples can be appropriately combined.

(1)前述の各形態では、フレーム間相関行列Ciを相関行列画像Giとして表示装置16に表示させたが、フレーム間相関行列Ciの利用の方法は画像表示に限定されない。例えば、相関行列生成部24が生成したフレーム間相関行列Ciを用紙に印刷する構成や、通信網を介して他の通信端末に送信する構成、あるいは可搬型の記録媒体に格納する構成も採用され得る。 (1) In each embodiment described above, the inter-frame correlation matrix Ci is displayed on the display device 16 as the correlation matrix image Gi. However, the method of using the inter-frame correlation matrix Ci is not limited to image display. For example, a configuration in which the inter-frame correlation matrix Ci generated by the correlation matrix generation unit 24 is printed on a sheet, a configuration in which the correlation matrix generation unit Ci is transmitted to another communication terminal via a communication network, or a configuration in which it is stored in a portable recording medium is also employed. obtain.

同様に、行列間距離Dの利用の方法は利用者に対する表示に限定されない。具体的には、第3実施形態のようにマスカー音VMの選択に行列間距離Dを適用する構成のほか、行列間距離Dを音声で出力する構成や用紙に印刷する構成、あるいは通信網を介して他の通信端末に送信する構成や、可搬型の記録媒体に格納する構成も採用され得る。   Similarly, the method of using the inter-matrix distance D is not limited to display for the user. Specifically, in addition to the configuration in which the inter-matrix distance D is applied to the selection of the masker sound VM as in the third embodiment, the configuration in which the inter-matrix distance D is output by voice, the configuration to print on paper, or the communication network A configuration of transmitting to other communication terminals via the network or a configuration of storing in a portable recording medium can also be adopted.

(2)フレーム間相関行列C1およびフレーム間相関行列C2の類否(相関や距離)を示す指標値は行列間距離Dに限定されない。フレーム間相関行列C1およびフレーム間相関行列C2の類似の度合と指標算定部26が算定する指標値の大小との関係は指標値の算定方法に応じて定まる。例えば、数式(1)で定義される行列間距離Dを指標値として算定する構成とは逆に、フレーム間相関行列C1とフレーム間相関行列C2との相違が大きいほど減少するように指標値を算定することも可能である。 (2) The index value indicating the similarity (correlation or distance) between the inter-frame correlation matrix C1 and the inter-frame correlation matrix C2 is not limited to the inter-matrix distance D. The relationship between the degree of similarity between the inter-frame correlation matrix C1 and the inter-frame correlation matrix C2 and the magnitude of the index value calculated by the index calculation unit 26 is determined according to the index value calculation method. For example, contrary to the configuration in which the inter-matrix distance D defined by Equation (1) is calculated as an index value, the index value is set so as to decrease as the difference between the inter-frame correlation matrix C1 and the inter-frame correlation matrix C2 increases. It is also possible to calculate.

(3)第2実施形態では2種類の音響信号s2(t)(s2(t)_A,s2(t)_B)を例示したが、3種類以上の音響信号s2(t)を用意した構成でも、各音響信号s2(t)について以上の各形態と同様の処理を実行することで、各音響信号s2(t)のマスカー音VMによる情報マスキングの効果を評価することが可能である。 (3) In the second embodiment, two types of acoustic signals s2 (t) (s2 (t) _A, s2 (t) _B) are exemplified, but a configuration in which three or more types of acoustic signals s2 (t) are prepared is also possible. By performing the same processing as in each of the above embodiments for each acoustic signal s2 (t), it is possible to evaluate the effect of information masking by the masker sound VM of each acoustic signal s2 (t).

(4)第2実施形態では、音響信号s2(t)_Aと音響信号s2(t)_Bとでマスカー音VMの種類を相違させたが、音響信号s2(t)_Aと音響信号s2(t)_BとでT/M比を相違させた構成も採用される。例えば、同種のマスカー音VMを相異なるT/M比でターゲット音VTのマスキングに適用して音響信号s2(t)_Aおよび音響信号s2(t)_Bを生成した場合、前述の各形態と同様に各音響信号s2(t)についてフレーム間相関行列C2や行列間距離Dを算定および評価することで、情報マスキングの有効化という観点から最適なT/M比を特定することが可能である。すなわち、マスカー音の種類およびT/M比の少なくとも一方が相違する複数の音響信号s2(t)の各々についてフレーム間相関行列C2や行列間距離Dを算定する構成が好適である。 (4) In the second embodiment, the types of masker sounds VM are different between the acoustic signal s2 (t) _A and the acoustic signal s2 (t) _B, but the acoustic signal s2 (t) _A and the acoustic signal s2 (t ) _B and a configuration having a different T / M ratio are also employed. For example, when the acoustic signal s2 (t) _A and the acoustic signal s2 (t) _B are generated by applying the same type of masker sound VM to the masking of the target sound VT with different T / M ratios, the same as the above-described embodiments In addition, by calculating and evaluating the inter-frame correlation matrix C2 and the inter-matrix distance D for each acoustic signal s2 (t), it is possible to specify the optimum T / M ratio from the viewpoint of enabling information masking. That is, it is preferable to calculate the inter-frame correlation matrix C2 and the inter-matrix distance D for each of the plurality of acoustic signals s2 (t) having different at least one of the type of masker sound and the T / M ratio.

100……マスキング解析装置、200……マスキング装置、12……演算処理装置、14……記憶装置、16……表示装置、22……自己相関算定部、24……相関行列生成部、26……指標算定部、28……表示制御部、32……区間設定部、34……周波数分析部、36……相関分析部。
DESCRIPTION OF SYMBOLS 100 ... Masking analysis apparatus, 200 ... Masking apparatus, 12 ... Arithmetic processing apparatus, 14 ... Memory | storage device, 16 ... Display apparatus, 22 ... Autocorrelation calculation part, 24 ... Correlation matrix production | generation part, 26 ... ... index calculation part, 28 ... display control part, 32 ... section setting part, 34 ... frequency analysis part, 36 ... correlation analysis part.

Claims (8)

マスカー音によるターゲット音のマスキングを解析する装置であって、
音響信号のスペクトルの各ピークに対応する線スペクトル列の自己相関数列を、前記ターゲット音を示す第1音響信号と、前記ターゲット音および前記マスカー音の混合音を示す第2音響信号との各々について時間軸上のフレーム毎に算定する自己相関算定手段と、
時間軸上の任意の2個のフレーム間における自己相関数列の相関値を要素とするフレーム間相関行列を前記第1音響信号と前記第2音響信号との各々について算定する相関行列生成手段と
を具備するマスキング解析装置。
A device that analyzes masking of target sound by masker sound,
The autocorrelation number sequence of the line spectrum sequence corresponding to each peak of the spectrum of the acoustic signal is determined for each of the first acoustic signal indicating the target sound and the second acoustic signal indicating the mixed sound of the target sound and the masker sound. An autocorrelation calculation means for calculating each frame on the time axis;
Correlation matrix generation means for calculating an inter-frame correlation matrix having the correlation value of the autocorrelation sequence between any two frames on the time axis as an element for each of the first acoustic signal and the second acoustic signal; Masking analysis device provided.
相互に交差する第1軸と第2軸とを時間軸として前記フレーム間相関行列の各相関値を表現する相関行列画像を、前記第1音響信号および前記第2音響信号の各々について表示装置に表示させる表示制御手段
を具備する請求項1のマスキング解析装置。
A correlation matrix image representing each correlation value of the inter-frame correlation matrix with a first axis and a second axis intersecting each other as a time axis is displayed on the display device for each of the first acoustic signal and the second acoustic signal. The masking analysis apparatus according to claim 1, further comprising display control means for displaying.
前記相関行列画像は、前記第1軸および前記第2軸に沿って行列状に配列する複数の単位領域を含み、前記複数の単位領域の各々は、前記フレーム間相関行列の複数の相関値のうち、前記第1軸上で当該単位領域に対応するフレームと前記第2軸上で当該単位領域に対応するフレームとの間における相関値に応じた態様で表示される
請求項2のマスキング解析装置。
The correlation matrix image includes a plurality of unit areas arranged in a matrix along the first axis and the second axis, and each of the plurality of unit areas includes a plurality of correlation values of the inter-frame correlation matrix. The masking analysis apparatus according to claim 2, wherein the masking analysis device is displayed in a manner corresponding to a correlation value between a frame corresponding to the unit region on the first axis and a frame corresponding to the unit region on the second axis. .
前記自己相関算定手段は、前記第1音響信号の自己相関数列と、マスカー音の種類とターゲット音およびマスカー音のエネルギー比との少なくとも一方が相違する複数の第2音響信号の各々の自己相関数列とをフレーム毎に算定し、
前記相関行列生成手段は、前記第1音響信号の自己相関数列のフレーム間相関行列と前記複数の第2音響信号の各々の自己相関数列のフレーム間相関行列とを算定し、
前記表示制御手段は、前記第1音響信号のフレーム間相関行列の相関行列画像と前記複数の第2音響信号の各々のフレーム間相関行列の相関行列画像とを前記表示装置に表示させる
請求項2または請求項3のマスキング解析装置。
The autocorrelation calculating means includes an autocorrelation sequence of the first acoustic signal, and an autocorrelation sequence of each of a plurality of second acoustic signals in which at least one of the type of masker sound and the energy ratio of the target sound and the masker sound is different. For each frame,
The correlation matrix generation means calculates an interframe correlation matrix of the autocorrelation sequence of the first acoustic signal and an interframe correlation matrix of each autocorrelation sequence of the plurality of second acoustic signals;
The display control means causes the display device to display a correlation matrix image of an interframe correlation matrix of the first acoustic signal and a correlation matrix image of an interframe correlation matrix of each of the plurality of second acoustic signals. Or the masking analysis apparatus of Claim 3.
前記第1音響信号のフレーム間相関行列と前記第2音響信号のフレーム間相関行列との類似の度合を示す指標値を算定する指標算定手段
を具備する請求項1から請求項4の何れかのマスキング解析装置。
The index calculating means for calculating an index value indicating the degree of similarity between the inter-frame correlation matrix of the first acoustic signal and the inter-frame correlation matrix of the second acoustic signal. Masking analyzer.
複数種のマスカー音の何れかを選択するマスカー音選択装置であって、
音響信号のスペクトルの各ピークに対応する線スペクトル列の自己相関数列を、ターゲット音を示す第1音響信号と、相異なる種類のマスカー音と前記ターゲット音との混合音を示す複数の第2音響信号の各々とについて、時間軸上のフレーム毎に算定する自己相関算定手段と、
前記第1音響信号と前記複数の第2音響信号の各々とについて、時間軸上の任意の2個のフレーム間における自己相関数列の相関値を要素とするフレーム間相関行列を算定する相関行列生成手段と、
前記複数の第2音響信号の各々について当該第2音響信号のフレーム間相関行列と第1音響信号のフレーム間相関行列との類似の度合を示す指標値を算定する指標算定手段と、
前記指標算定手段が算定した指標値に応じて前記複数種のマスカー音の何れかを選択する選択手段と
を具備するマスカー音選択装置。
A masker sound selection device for selecting one of a plurality of types of masker sounds,
The autocorrelation sequence of the line spectrum sequence corresponding to each peak of the spectrum of the acoustic signal is represented by a plurality of second sounds indicating a mixed sound of the first acoustic signal indicating the target sound, a different type of masker sound, and the target sound. For each of the signals, an autocorrelation calculating means for calculating for each frame on the time axis,
Correlation matrix generation for calculating an inter-frame correlation matrix having the correlation value of the autocorrelation sequence between any two frames on the time axis for each of the first acoustic signal and the plurality of second acoustic signals Means,
Index calculation means for calculating an index value indicating the degree of similarity between the inter-frame correlation matrix of the second acoustic signal and the inter-frame correlation matrix of the first acoustic signal for each of the plurality of second acoustic signals;
A masker sound selecting device comprising: selecting means for selecting any of the plurality of types of masker sounds according to the index value calculated by the index calculating means.
複数種のマスカー音の何れかを利用してターゲット音をマスキングするマスキング装置であって、
音響信号のスペクトルの各ピークに対応する線スペクトル列の自己相関数列を、ターゲット音を示す第1音響信号と、相異なる種類のマスカー音と前記ターゲット音との混合音を示す複数の第2音響信号の各々とについて、時間軸上のフレーム毎に算定する自己相関算定手段と、
前記第1音響信号と前記複数の第2音響信号の各々とについて、時間軸上の任意の2個のフレーム間における自己相関数列の相関値を要素とするフレーム間相関行列を算定する相関行列生成手段と、
前記複数の第2音響信号の各々について当該第2音響信号のフレーム間相関行列と第1音響信号のフレーム間相関行列との類似の度合を示す指標値を算定する指標算定手段と、
前記指標算定手段が算定した指標値に応じて前記複数種のマスカー音の何れかを選択して放音装置から放音する選択手段と
を具備するマスキング装置。
A masking device for masking a target sound using any of a plurality of types of masker sounds,
The autocorrelation sequence of the line spectrum sequence corresponding to each peak of the spectrum of the acoustic signal is represented by a plurality of second sounds indicating a mixed sound of the first acoustic signal indicating the target sound, a different type of masker sound, and the target sound. For each of the signals, an autocorrelation calculating means for calculating for each frame on the time axis,
Correlation matrix generation for calculating an inter-frame correlation matrix having the correlation value of the autocorrelation sequence between any two frames on the time axis for each of the first acoustic signal and the plurality of second acoustic signals Means,
Index calculation means for calculating an index value indicating the degree of similarity between the inter-frame correlation matrix of the second acoustic signal and the inter-frame correlation matrix of the first acoustic signal for each of the plurality of second acoustic signals;
A masking device comprising: selecting means for selecting any of the plurality of types of masker sounds according to the index value calculated by the index calculating means and emitting sound from the sound emitting device.
マスカー音によるターゲット音のマスキングを解析するために、コンピュータに、
音響信号のスペクトルの各ピークに対応する線スペクトル列の自己相関数列を、前記ターゲット音を示す第1音響信号と、前記ターゲット音および前記マスカー音の混合音を示す第2音響信号との各々について所定長のフレーム毎に算定する自己相関算定処理と、
時間軸上の任意の2個のフレーム間における自己相関数列の相関値を要素とするフレーム間相関行列を前記第1音響信号と前記第2音響信号との各々について算定する相関行列生成処理と
を実行させるプログラム。
To analyze the masking of the target sound by the masker sound,
The autocorrelation number sequence of the line spectrum sequence corresponding to each peak of the spectrum of the acoustic signal is determined for each of the first acoustic signal indicating the target sound and the second acoustic signal indicating the mixed sound of the target sound and the masker sound. Autocorrelation calculation processing to calculate for each frame of a predetermined length;
A correlation matrix generation process for calculating an inter-frame correlation matrix having the correlation value of the autocorrelation sequence between any two frames on the time axis as an element for each of the first acoustic signal and the second acoustic signal. The program to be executed.
JP2011132630A 2011-06-14 2011-06-14 Masking analysis device, masker sound selection device, masking device and program Expired - Fee Related JP5691866B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011132630A JP5691866B2 (en) 2011-06-14 2011-06-14 Masking analysis device, masker sound selection device, masking device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011132630A JP5691866B2 (en) 2011-06-14 2011-06-14 Masking analysis device, masker sound selection device, masking device and program

Publications (2)

Publication Number Publication Date
JP2013003270A true JP2013003270A (en) 2013-01-07
JP5691866B2 JP5691866B2 (en) 2015-04-01

Family

ID=47671926

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011132630A Expired - Fee Related JP5691866B2 (en) 2011-06-14 2011-06-14 Masking analysis device, masker sound selection device, masking device and program

Country Status (1)

Country Link
JP (1) JP5691866B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013003269A (en) * 2011-06-14 2013-01-07 Yamaha Corp Masking analyzer, masker sound selection device, masking device and program
JP2016136189A (en) * 2015-01-23 2016-07-28 三菱電機株式会社 Acoustic radiation device for consciousness control

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09193506A (en) * 1996-01-22 1997-07-29 Fuji Xerox Co Ltd Apparatus and method for masking noise in image forming apparatus
JP2008233671A (en) * 2007-03-22 2008-10-02 Yamaha Corp Sound masking system, masking sound generation method, and program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09193506A (en) * 1996-01-22 1997-07-29 Fuji Xerox Co Ltd Apparatus and method for masking noise in image forming apparatus
JP2008233671A (en) * 2007-03-22 2008-10-02 Yamaha Corp Sound masking system, masking sound generation method, and program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013003269A (en) * 2011-06-14 2013-01-07 Yamaha Corp Masking analyzer, masker sound selection device, masking device and program
JP2016136189A (en) * 2015-01-23 2016-07-28 三菱電機株式会社 Acoustic radiation device for consciousness control

Also Published As

Publication number Publication date
JP5691866B2 (en) 2015-04-01

Similar Documents

Publication Publication Date Title
KR101500254B1 (en) Apparatus, method and computer readable medium for determining a measure for a perceived level of reverberation, and audio processor, method of processing an audio signal and computer readable medium for generating a mix signal from a direct signal component
US8032364B1 (en) Distortion measurement for noise suppression system
US9134167B2 (en) Acoustic apparatus
EP2980789A1 (en) Apparatus and method for enhancing an audio signal, sound enhancing system
EP1066623A1 (en) A process and system for objective audio quality measurement
JP5691866B2 (en) Masking analysis device, masker sound selection device, masking device and program
Kawahara et al. Simultaneous measurement of time-invariant linear and nonlinear, and random and extra responses using frequency domain variant of velvet noise
JP5915281B2 (en) Sound processor
Moore et al. Dynamic diffuse signal processing for sound reinforcement and reproduction.
Rämö et al. Validating a real-time perceptual model predicting distraction caused by audio-on-audio interference
JP5217875B2 (en) Sound field support device, sound field support method and program
JP5716558B2 (en) Masking analysis device, masker sound selection device, masking device and program
JP5733044B2 (en) Masking analysis device, masker sound selection device, masking device and program
JP5895529B2 (en) Reverberation analysis apparatus and reverberation analysis method
WO2017135350A1 (en) Recording medium, acoustic processing device, and acoustic processing method
EP2058795B1 (en) Simulation apparatus and program
Rubak Coloration in room impulse responses
Rubak et al. Coloration in natural and artificial room impulse responses
Rämö et al. Real-time perceptual model for distraction in interfering audio-on-audio scenarios
JP6299279B2 (en) Sound processing apparatus and sound processing method
JP2013172231A (en) Audio mixing device
Lee et al. Development of a clarity parameter using a time-varying loudness model
Mu Perceptual quality improvement and assessment for virtual bass system
JP5760442B2 (en) Localization analysis apparatus and sound processing apparatus
Cao et al. A Psychoacoustic Quality Criterion for Path-Traced Sound Propagation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150119

LAPS Cancellation because of no payment of annual fees