JP2019024160A - Extracted sound correction device, extracted sound correction method, program - Google Patents

Extracted sound correction device, extracted sound correction method, program Download PDF

Info

Publication number
JP2019024160A
JP2019024160A JP2017142480A JP2017142480A JP2019024160A JP 2019024160 A JP2019024160 A JP 2019024160A JP 2017142480 A JP2017142480 A JP 2017142480A JP 2017142480 A JP2017142480 A JP 2017142480A JP 2019024160 A JP2019024160 A JP 2019024160A
Authority
JP
Japan
Prior art keywords
sound
generated
extraction
extracted
venue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017142480A
Other languages
Japanese (ja)
Other versions
JP6779489B2 (en
Inventor
優 鎌本
Masaru Kamamoto
優 鎌本
佐藤 尚
Takashi Sato
尚 佐藤
善史 白木
Yoshifumi Shiraki
善史 白木
亮介 杉浦
Ryosuke Sugiura
亮介 杉浦
川西 隆仁
Takahito Kawanishi
隆仁 川西
守谷 健弘
Takehiro Moriya
健弘 守谷
一彦 河原
Kazuhiko Kawahara
一彦 河原
萌恵 西川
Moe Nishikawa
萌恵 西川
章 尾本
Akira Omoto
章 尾本
朗穂 藤森
Akio Fujimori
朗穂 藤森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyushu University NUC
Nippon Telegraph and Telephone Corp
Original Assignee
Kyushu University NUC
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyushu University NUC, Nippon Telegraph and Telephone Corp filed Critical Kyushu University NUC
Priority to JP2017142480A priority Critical patent/JP6779489B2/en
Publication of JP2019024160A publication Critical patent/JP2019024160A/en
Application granted granted Critical
Publication of JP6779489B2 publication Critical patent/JP6779489B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

To provide an extracted sound correction technique capable of correcting a sound generated in a large meeting place and extracted, so as to suppress discomfort of audibility.SOLUTION: A extracted sound correction device includes a power calculation part 110 for calculating a sound collection venue sound power Yand an extracted sound power Efrom a collection venue sound y(k) and an extracted sound e(k), where the collection venue sound y(k) reproduced in the meeting place and the sound generated in the meeting place and collected are sound of sample number k, the extracted sound e(k) extracted from the sounds generated in the meeting place from the collection venue sound y(k) is the sound of sample number k, and an extracted sound correction part 120 for generating a corrected extracted sound e'(k) from the extracted sound e(k), by using sound collection venue sound power Yand the extracted sound power E. The extracted sound correction part 120 generates the corrected extracted sound e'(k) as e'(k)=0 when a ratio E/Yis within a prescribed small range, otherwise generates the corrected extracted sound as e'(k)=e(k).SELECTED DRAWING: Figure 4

Description

本発明は、音場空間で発生した音を抽出する技術に関する。   The present invention relates to a technique for extracting sound generated in a sound field space.

会場で発生した音を抽出するために、エコーキャンセラ技術が用いられる(非特許文献1)。以下、図1を参照して、エコーキャンセラ技術について説明する。   Echo canceller technology is used to extract the sound generated at the venue (Non-patent Document 1). Hereinafter, the echo canceller technique will be described with reference to FIG.

まず、会場Aで発生した音x(k)(k=1,2,…、以下、kをサンプル番号という)が会場Bに伝送される。会場Bに伝送された入力音x(k)を、例えば、K個のサンプルで構成されるフレームごとに処理する場合、Kはフレーム長となる。また、入力音x(k)は、例えば、電話の音声、会場Aに設置されたコンテンツ配信システムの音である。   First, a sound x (k) (k = 1, 2,..., Hereinafter referred to as a sample number) generated at the venue A is transmitted to the venue B. For example, when the input sound x (k) transmitted to the venue B is processed for each frame composed of K samples, K is the frame length. Further, the input sound x (k) is, for example, a telephone voice or a sound of a content distribution system installed in the venue A.

次に、入力音x(k)が会場Bに設置されたスピーカ910から再生され、(スピーカ910からマイク920までの)会場Bの音響エコーh0(k)が畳み込まれた畳み込み入力音x(k)*h0(k)として会場Bに設置されたマイク920により収音される。ここで、*は畳み込み演算子を表す。また、音響エコーのことを伝達関数やインパルス応答ということもあるが、以下では、音響エコーまたは伝達関数ということにする。   Next, the input sound x (k) is reproduced from the speaker 910 installed at the venue B, and the convolutional input sound x ((from the speaker 910 to the microphone 920) is convoluted with the acoustic echo h0 (k) of the venue B. k) The sound is picked up by the microphone 920 installed at the venue B as * h0 (k). Here, * represents a convolution operator. In addition, the acoustic echo is sometimes referred to as a transfer function or an impulse response, but is hereinafter referred to as an acoustic echo or a transfer function.

マイク920により収音される音は、畳み込み入力音x(k)*h0(k)だけではない。会場Bで発生する環境音(例えば、音声や拍手音)c1(k)もその音源からマイク920までの音響エコーh1(k)が畳み込まれた畳み込み環境音c1(k)*h1(k)として収音される。また、マイク920にはノイズn(k)も混入する。したがって、マイク920により収音される音y(k)(以下、収音会場音y(k)という。)はy(k)=x(k)*h0(k)+c1(k)*h1(k)+n(k)と表すことができる。   The sound collected by the microphone 920 is not limited to the convolution input sound x (k) * h0 (k). Environmental sound (for example, voice and applause sound) c1 (k) generated at the venue B is a convolutional environmental sound c1 (k) * h1 (k) in which the acoustic echo h1 (k) from the sound source to the microphone 920 is convoluted. Sound is collected as. Further, noise n (k) is also mixed in the microphone 920. Therefore, the sound y (k) picked up by the microphone 920 (hereinafter referred to as the picked-up venue sound y (k)) is y (k) = x (k) * h0 (k) + c1 (k) * h1 It can be expressed as (k) + n (k).

このまま収音会場音y(k)を会場Aに伝送し、会場Aで再生すると、ハウリングやダブルトークを生じてしまい、相手方にとって聞きづらい音となってしまう。そこで、エコーキャンセラ930は、畳み込み入力音x(k)*h0(k)を近似するx’(k)=x(k)*h0’(k)を推定し、会場Bで発生した音を抽出した抽出発生音e(k)=y(k)-x’(k)=c1(k)*h1(k)+n(k)+d(k)を求め、この抽出発生音e(k)を会場Aに伝送する。   If the picked-up venue sound y (k) is transmitted to the venue A as it is and reproduced at the venue A, howling and double talk will occur, making it difficult for the other party to hear. Therefore, the echo canceller 930 estimates x ′ (k) = x (k) * h0 ′ (k) that approximates the convolution input sound x (k) * h0 (k), and extracts the sound generated at the venue B. Extracted extraction sound e (k) = y (k) -x ′ (k) = c1 (k) * h1 (k) + n (k) + d (k) To venue A.

しかし、推定された伝達関数h0’(k)と真の伝達関数h0(k)は異なるため、残留信号d(k)が生じてしまう。この問題を解決するためにNLMS(Normalized Least-Mean-Squares)法などの適応アルゴリズム(適応フィルタ)が使われる。NLMS法を用いると、伝達関数h0’(k)を伝達関数h0(k)に近づけることができる。特に、会場Bが小さい(つまり、スピーカとマイクの距離が比較的近くなる)場合は伝達関数h0’(k)を精度よく推定できるため、残留信号d(k)の振幅値は十分小さくなり、聴感上の違和感を小さくすることができる。   However, since the estimated transfer function h0 '(k) and the true transfer function h0 (k) are different, a residual signal d (k) is generated. In order to solve this problem, an adaptive algorithm (adaptive filter) such as the NLMS (Normalized Least-Mean-Squares) method is used. When the NLMS method is used, the transfer function h0 '(k) can be brought close to the transfer function h0 (k). In particular, when the venue B is small (that is, the distance between the speaker and the microphone is relatively short), the transfer function h0 ′ (k) can be accurately estimated, so the amplitude value of the residual signal d (k) is sufficiently small, A sense of incongruity in hearing can be reduced.

北脇信彦,“ディジタル音声・オーディオ技術”,株式会社オーム社,pp.223-225.Nobuhiko Kitawaki, “Digital Voice / Audio Technology”, Ohm Corporation, pp.223-225.

上記エコーキャンセラ技術を用いることによって、例えば、スピーカホンの用途のようにスピーカとマイクの位置が近い場合には、会場Bで発生した音を適切に抽出することができる。   By using the echo canceller technique, for example, when the speaker and the microphone are close to each other as in a speakerphone application, it is possible to appropriately extract the sound generated at the venue B.

しかし、スピーカとマイクの位置が離れ、あえて残響を加えるように設計されている環境(例えば、コンサート会場や演劇会場のようなライブビューイングにおけるライブ会場(会場A)とは別のビューイング会場(会場B))では、伝達関数h0’(k)を伝達関数h0(k)に十分に近づけることができない。そのため、残留信号d(k)の振幅値が大きくなってしまい、会場Bで発生した音だけを抽出することができないことになる。   However, the speakers and microphones are separated from each other, and the environment is designed to add reverberation (for example, a viewing venue (venue A) that is different from a live venue in a live viewing venue (venue A) such as a concert venue or a theater venue) In the venue B)), the transfer function h0 ′ (k) cannot be sufficiently close to the transfer function h0 (k). For this reason, the amplitude value of the residual signal d (k) becomes large, and it is impossible to extract only the sound generated at the venue B.

スピーカホンによる音声通話などでエコーキャンセラを用いる場合には、会議室(会場B)での音声を含む環境音c1(k)が相手側に届かないと困るため、残留信号d(k)が多少残っていたとしても、抽出発生音e(k)をそのまま伝送する方が好ましい。   When using an echo canceller for voice calls using speakerphones, the remaining sound d (k) may be somewhat low because it is not necessary if the environmental sound c1 (k) including the sound in the conference room (venue B) does not reach the other party. Even if it remains, it is preferable to transmit the extracted sound e (k) as it is.

しかし、ライブビューイングの場合には、ライブ会場(会場A)での聴感を大きく損ねることになるため、抽出発生音e(k)をそのまま伝送するのは好ましくない。特に、ビューイング会場(会場B)で発生した拍手音や手拍子音などの環境音c1(k)そのものを伝送する代わりに、伝送先であるライブ会場(会場A)で環境音c1(k)を生成するために用いるパラメータを伝送する場合、ビューイング会場(会場B)で発生した環境音c1(k)を誤抽出してしまうと、伝送先で誤った形で拍手音や手拍子音(つまり、拍手音や手拍子音以外の音も含んだ音)を生成してしまい、もともとのコンテンツを楽しんでいるライブ会場(会場A)の聴衆に迷惑がかかってしまうことになる。   However, in the case of live viewing, since the hearing at the live venue (venue A) is greatly impaired, it is not preferable to transmit the extracted sound e (k) as it is. In particular, instead of transmitting the environmental sound c1 (k) itself such as applause and hand clapping sounds generated at the viewing venue (venue B), the environmental sound c1 (k) is transmitted at the live venue (venue A) as the transmission destination. When transmitting the parameters used for generation, if the environmental sound c1 (k) generated at the viewing venue (Venue B) is mis-extracted, applause sounds and hand clapping sounds (ie A sound including a clapping sound and a sound other than a hand clapping sound) is generated, and the audience of the live venue (venue A) enjoying the original content is inconvenienced.

図2は、このような状況を示すものであり、残留信号d(k)が大きく残った(入力音x(k)と収音会場音y(k)の差異が大きい)場合における、入力音x(k)、収音会場音y(k)、抽出発生音e(k)の様子を示す図である。図2の網掛け部は、通常のエコーキャンセラを用いた場合に、残留信号d(k)が大きく、スピーカから再生された音x(k)が抽出発生音e(k)に残ってしまっており、会場Bの環境音c1(k)が正しく抽出されていないこと示している。   FIG. 2 shows such a situation, and the input sound when the residual signal d (k) remains large (the difference between the input sound x (k) and the sound collecting hall sound y (k) is large). It is a figure which shows the mode of x (k), the sound collection hall sound y (k), and the extraction generated sound e (k). In the shaded portion of FIG. 2, when a normal echo canceller is used, the residual signal d (k) is large, and the sound x (k) reproduced from the speaker remains in the extraction generated sound e (k). This indicates that the environmental sound c1 (k) at the venue B is not correctly extracted.

つまり、通常のエコーキャンセラでは、ビューイング会場(会場B)のようにスピーカとマイクが近くにないような大きな会場で発生する音を、ライブ会場(会場A)で再生する場合の聴感上の違和感を抑えた形で抽出することができないという問題がある。   In other words, in a normal echo canceller, the uncomfortable feeling of hearing when playing a sound in a live venue (venue A) where the loudspeaker and microphone are not close to each other like the viewing venue (venue B). There is a problem that it is not possible to extract in a form that suppresses.

そこで本発明では、聴感上の違和感を抑えるように、大きな会場で発生した音を抽出した抽出発生音を補正することができる抽出発生音補正技術を提供することを目的とする。   Therefore, an object of the present invention is to provide an extracted sound correction technique that can correct an extracted sound obtained by extracting a sound generated in a large venue so as to suppress a sense of incongruity in hearing.

本発明の一態様は、サンプル番号kをk=1,2,…、収音会場音y(k)を会場で再生された音及び当該会場で発生した音を収音したサンプル番号kの音、抽出発生音e(k)を前記収音会場音y(k)から当該会場で発生した音を抽出したサンプル番号kの音とし、前記収音会場音y(k)と前記抽出発生音e(k)から、前記収音会場音y(k)のパワーである収音会場音パワーYkと前記抽出発生音e(k)のパワーである抽出発生音パワーEkを算出するパワー算出部と、前記収音会場音パワーYkと前記抽出発生音パワーEkを用いて、前記抽出発生音e(k)から補正済抽出発生音e’(k)を生成する抽出発生音補正部とを含み、前記抽出発生音補正部は、前記補正済抽出発生音e’(k)を、前記収音会場音パワーYkに対する前記抽出発生音パワーEkの比Ek/Ykが小さいことを示す所定の範囲にある場合は、e’(k)=0とし、それ以外の場合は、e’(k)=e(k)として生成する。 In one embodiment of the present invention, the sample number k is k = 1, 2,..., The sound of the sound collection venue sound y (k) is reproduced at the venue, and the sound of the sample number k is the sound collected at the venue. , Extraction sound e (k) is the sound of the sample number k obtained by extracting the sound generated at the venue from the sound collection venue sound y (k), the sound collection venue sound y (k) and the extraction occurrence sound e From (k), a power calculation unit that calculates the sound collection venue sound power Y k that is the power of the sound collection venue sound y (k) and the extraction generation sound power E k that is the power of the extraction generation sound e (k) And an extracted generated sound correcting unit that generates a corrected extracted generated sound e ′ (k) from the extracted generated sound e (k) using the sound collecting venue sound power Y k and the extracted generated sound power E k. The extracted generated sound correcting unit includes the corrected extracted generated sound e ′ (k) having a small ratio E k / Y k of the extracted generated sound power E k to the sound collecting venue sound power Y k . If it is within the specified range e 'and (k) = 0, otherwise, e' is generated as (k) = e (k).

本発明の一態様は、サンプル番号kをk=1,2,…、収音会場音y(k)を会場で再生された音及び当該会場で発生した音を収音したサンプル番号kの音、抽出発生音e(k)を前記収音会場音y(k)から当該会場で発生した音を抽出したサンプル番号kの音とし、前記抽出発生音e(k)から、前記抽出発生音e(k)の時間方向におけるスパースさの程度を表すスパース尺度Skを算出するスパース尺度算出部と、前記スパース尺度Skを用いて、前記抽出発生音e(k)から補正済抽出発生音e’(k)を生成する抽出発生音補正部とを含み、前記抽出発生音補正部は、前記補正済抽出発生音e’(k)を、前記スパース尺度Skが小さいことを示す所定の範囲にある場合は、e’(k)=0とし、それ以外の場合は、e’(k)=e(k)として生成する。 In one embodiment of the present invention, the sample number k is k = 1, 2,..., The sound of the sound collection venue sound y (k) is reproduced at the venue, and the sound of the sample number k is the sound collected at the venue. , The extraction generated sound e (k) is the sound of the sample number k obtained by extracting the sound generated at the venue from the sound collecting venue sound y (k), and the extracted generated sound e (k) A sparse scale calculation unit for calculating a sparse measure S k representing the degree of sparseness in the time direction of (k), and using the sparse measure S k , a corrected extracted generated sound e from the extracted generated sound e (k) an extracted generated sound correcting unit that generates '(k), wherein the extracted generated sound correcting unit displays the corrected extracted generated sound e' (k) in a predetermined range indicating that the sparse measure Sk is small. If e ′ (k) = 0, then e ′ (k) = 0. Otherwise, e ′ (k) = e (k).

本発明によれば、聴感上の違和感を抑えるように、大きな会場で発生した音を抽出した抽出発生音を補正することができる。   According to the present invention, it is possible to correct an extraction generated sound obtained by extracting a sound generated in a large venue so as to suppress a sense of incongruity in hearing.

エコーキャンセラ技術を説明するための図。The figure for demonstrating an echo canceller technique. 残留信号d(k)が大きく残った場合における、入力音x(k)、収音会場音y(k)、抽出発生音e(k)の様子の一例を示す図。The figure which shows an example of the mode of the input sound x (k), the sound collection hall sound y (k), and the extraction generated sound e (k) when the residual signal d (k) remains largely. 抽出発生音補正装置100を含む抽出発生音補正システム10の構成の一例を示すブロック図。The block diagram which shows an example of a structure of the extraction generation sound correction system 10 containing the extraction generation sound correction apparatus 100. FIG. 抽出発生音補正装置100の構成の一例を示すブロック図。FIG. 2 is a block diagram showing an example of the configuration of the extracted generated sound correcting apparatus 100. 抽出発生音補正装置100の動作の一例を示すフローチャート。5 is a flowchart showing an example of the operation of the extracted sound correcting apparatus 100. 抽出発生音補正装置100の入力である抽出発生音e(k)と出力である補正済抽出発生音e’(k)の様子の一例を示す図。The figure which shows an example of the mode of the extraction generation sound e (k) which is the input of the extraction generation sound correction apparatus 100, and the corrected extraction generation sound e '(k) which is an output. 抽出発生音補正装置101の構成の一例を示すブロック図。FIG. 3 is a block diagram showing an example of the configuration of the extracted generated sound correcting apparatus 101. 抽出発生音補正装置101の動作の一例を示すフローチャート。5 is a flowchart showing an example of the operation of the extracted sound correcting apparatus 101. 環境音c1(k)が拍手音である場合の振幅の様子の一例を示す図。The figure which shows an example of the mode of an amplitude in case the environmental sound c1 (k) is a clap sound. 抽出発生音補正装置200の構成の一例を示すブロック図。The block diagram which shows an example of a structure of the extraction generated sound correction apparatus. 抽出発生音補正装置200の動作の一例を示すフローチャート。The flowchart which shows an example of operation | movement of the extraction generated sound correction apparatus 200. 抽出発生音補正装置201の構成の一例を示すブロック図。The block diagram which shows an example of a structure of the extraction generation | occurrence | production sound correction apparatus 201. FIG. 抽出発生音補正装置201の動作の一例を示すフローチャート。5 is a flowchart showing an example of the operation of the extracted sound correcting apparatus 201. 抽出発生音補正装置300の構成の一例を示すブロック図。The block diagram which shows an example of a structure of the extraction generation | occurrence | production sound correction apparatus 300. FIG. 抽出発生音補正装置300の動作の一例を示すフローチャート。5 is a flowchart showing an example of the operation of the extracted sound correcting apparatus 300. 環境音c1(k)が拍手音である場合の補正済抽出発生音e’(k)の様子の一例を示す図。The figure which shows an example of the mode of the corrected extraction generation | occurrence | production sound e '(k) in case environmental sound c1 (k) is a clapping sound. 抽出発生音補正装置301の構成の一例を示すブロック図。The block diagram which shows an example of a structure of the extraction generation | occurrence | production sound correction apparatus 301. FIG. 抽出発生音補正装置301の動作の一例を示すフローチャート。The flowchart which shows an example of operation | movement of the extraction generation | occurrence | production sound correction apparatus 301.

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。   Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the structure part which has the same function, and duplication description is abbreviate | omitted.

ここまでの説明では、会場Bに伝送されてくる入力音x(k)をモノラル信号、会場Bで発生する環境音はc1(k)の1つであるとして説明してきたが、入力音x(k)はステレオ信号であってもよいし、会場Bで発生する環境音は複数あってもよい。   In the above description, the input sound x (k) transmitted to the venue B is described as a monaural signal, and the environmental sound generated at the venue B is one of c1 (k). k) may be a stereo signal, or there may be a plurality of environmental sounds generated at the venue B.

例えば、入力音がモノラル信号x(k)であり、会場Bで発生する環境音がc1(k),…,cM(k)のM個(Mは1以上の整数)であった場合、入力音x(k)、環境音c1(k),…,cM(k)の音響エコーをそれぞれh0(k),h1(k),…,hM(k)、ノイズをn(k)とすると、マイクにより収音される収音会場音y(k)はy(k)=x(k)*h0(k)+c1(k)*h1(k)+…+cM(k)*hM(k)+n(k)と表すことができる。さらに、伝達関数h0(k)を推定した伝達関数をh0’(k)、残留信号をd(k)とすると、抽出発生音e(k)はe(k)=y(k)-x(k)*h0’(k)=c1(k)*h1(k)+…+cM(k)*hM(k)+n(k)+d(k)と表すことができる。   For example, if the input sound is a monaural signal x (k) and the environmental sound generated at venue B is M (c1 (k), ..., cM (k), where M is an integer greater than or equal to 1, input Sound echoes of sound x (k), environmental sound c1 (k), ..., cM (k) are h0 (k), h1 (k), ..., hM (k) and noise is n (k), respectively. The sound collection venue sound y (k) collected by the microphone is y (k) = x (k) * h0 (k) + c1 (k) * h1 (k) +… + cM (k) * hM (k ) + n (k). Furthermore, assuming that the transfer function h0 (k) is a transfer function h0 ′ (k) and the residual signal is d (k), the extracted generated sound e (k) is e (k) = y (k) −x ( k) * h0 ′ (k) = c1 (k) * h1 (k) +... + cM (k) * hM (k) + n (k) + d (k).

また、入力音がステレオ信号xR(k),xL(k)であり、会場Bで発生する環境音がc1(k),…,cM(k)のM個(Mは1以上の整数)であった場合、入力音xR(k),xL(k)、環境音c1(k),…,cM(k)の音響エコーをそれぞれhR0(k),hL0(k),h1(k),…,hM(k)、ノイズをn(k)とすると、マイクにより収音される収音会場音y(k)はy(k)=xR(k)*hR0(k)+xL(k)*hL0(k)+c1(k)*h1(k)+…+cM(k)*hM(k)+n(k)と表すことができる。さらに、伝達関数hR0(k),hL0(k)を推定した伝達関数をそれぞれhR0’(k),hL0’(k)、残留信号をd(k)とすると、抽出発生音e(k)はe(k)=y(k)-{xR(k)*hR0’(k)+xL(k)*hL0’(k)}=c1(k)*h1(k)+…+cM(k)*hM(k)+n(k)+d(k)と表すことができる。   Also, the input sound is stereo signals xR (k), xL (k), and the environmental sound generated at venue B is M (c1 (k), ..., cM (k), where M is an integer of 1 or more) If there is an acoustic echo of input sound xR (k), xL (k), environmental sound c1 (k), ..., cM (k), hR0 (k), hL0 (k), h1 (k), ... , hM (k), where n (k) is the noise, the sound collected from the microphone y (k) is y (k) = xR (k) * hR0 (k) + xL (k) * hL0 (k) + c1 (k) * h1 (k) +... + cM (k) * hM (k) + n (k). Furthermore, when the transfer functions hR0 (k) and hL0 (k) are estimated as hR0 ′ (k) and hL0 ′ (k), respectively, and the residual signal is d (k), the extracted sound e (k) is e (k) = y (k)-{xR (k) * hR0 '(k) + xL (k) * hL0' (k)} = c1 (k) * h1 (k) +… + cM (k) * It can be expressed as hM (k) + n (k) + d (k).

3つの例からわかるように、収音会場音y(k)は、畳み込み入力音と畳み込み環境音とノイズの和として表現することができる。また、抽出発生音e(k)は、畳み込み環境音とノイズと残響信号の和として表現することができる。   As can be seen from the three examples, the sound collecting venue sound y (k) can be expressed as the sum of the convolution input sound, the convolution environmental sound, and the noise. The extracted generated sound e (k) can be expressed as the sum of the convolution environmental sound, noise, and reverberation signal.

音響環境としては、モノラルやステレオ以外に、サラウンド環境、22.2ch環境など様々なものが存在するが、収音会場音y(k)、抽出発生音e(k)は上記3つの例と同様に扱うことができる。   In addition to monaural and stereo, there are various acoustic environments such as surround environment and 22.2ch environment, but the sound collection venue sound y (k) and extraction sound e (k) are the same as the above three examples. Can be handled.

そこで、以下説明する各実施形態では、入力音がモノラル信号であり、環境音が1つである場合を用いて説明することにする。   Therefore, in each embodiment described below, the case where the input sound is a monaural signal and there is one environmental sound will be described.

まず、各実施形態で用いる用語について説明する。   First, terms used in each embodiment will be described.

サンプル番号kをk=1,2,…とする。入力音x(k)をK個のサンプルで構成されるフレームごとに処理する場合、i番目のフレームXiは、Xi=[x(1) x(2) … x(K)]というベクトルで表現することができる。ここで、i(i=1,2,…)はフレーム番号を表す。   Let the sample number k be k = 1, 2,. When the input sound x (k) is processed for each frame composed of K samples, the i-th frame Xi is represented by a vector Xi = [x (1) x (2)… x (K)] can do. Here, i (i = 1, 2,...) Represents a frame number.

以下、説明を簡素化するために、Xi=x(k)、つまり、各フレームは1個のサンプルで構成されるものとして、各実施形態を説明するが、K個のサンプルで構成されるとした場合と内容は変わらない。   Hereinafter, in order to simplify the description, each embodiment will be described assuming that Xi = x (k), that is, each frame is configured by one sample. The contents are the same as if you did.

収音会場音y(k)を会場で再生された音及び会場で発生した音を収音したサンプル番号kの音とする。会場で再生された音とは、別の会場から伝送されてきて再生された音のことであり、先ほどの例で言えば、ライブ会場の音である。また、会場で発生した音とは、先ほどの例で言えば、ビューイング会場で発生した拍手音などの環境音やノイズのことである。   The sound collection venue sound y (k) is the sound of the sample number k obtained by collecting the sound reproduced at the venue and the sound generated at the venue. The sound reproduced at the venue is a sound transmitted from another venue and reproduced. In the example above, it is the sound of the live venue. In addition, the sound generated at the venue refers to environmental sounds and noises such as applause sounds generated at the viewing venue.

抽出発生音e(k)を収音会場音y(k)から会場で発生した音を抽出したサンプル番号kの音とする。   The extracted generated sound e (k) is the sound of sample number k obtained by extracting the sound generated at the venue from the collected venue sound y (k).

<第一実施形態>
以下、図3を参照して抽出発生音補正システム10について説明する。図3は、抽出発生音補正システム10の構成を示すブロック図である。図3に示すように抽出発生音補正システム10は、スピーカ910、マイク920、エコーキャンセラ930、抽出発生音補正装置100を含む。
<First embodiment>
Hereinafter, the extraction generated sound correction system 10 will be described with reference to FIG. FIG. 3 is a block diagram showing the configuration of the extracted sound correction system 10. As shown in FIG. 3, the extraction generated sound correction system 10 includes a speaker 910, a microphone 920, an echo canceller 930, and an extraction generated sound correction device 100.

スピーカ910、マイク920、エコーキャンセラ930は、図1のそれと同一の機能を有するものである。具体的には、スピーカ910は、伝送されてきた会場Aの音x(k)を会場Bにて再生する装置である。マイク920は、スピーカ910から再生された入力音x(k)を畳み込んだ畳み込み入力音x(k)*h0(k)と会場Bで発生した環境音c1(k)を畳み込んだ畳み込み環境音c1(k)*h1(k)とノイズn(k)を収音する装置である。エコーキャンセラ930は、入力音x(k)とマイク920により収音された収音会場音y(k)(=x(k)*h0(k)+c1(k)*h1(k)+n(k))から抽出発生音e(k)を生成する。抽出発生音e(k)=c1(k)*h1(k)+n(k)+d(k)は、会場Bで発生した音をエコーキャンセラ930が抽出した音である。ここで、d(k)は残留信号である。   The speaker 910, the microphone 920, and the echo canceller 930 have the same functions as those in FIG. Specifically, the speaker 910 is a device that reproduces the transmitted sound x (k) of the venue A at the venue B. The microphone 920 is a convolution environment in which the convolution input sound x (k) * h0 (k) convolved with the input sound x (k) reproduced from the speaker 910 and the environmental sound c1 (k) generated in the venue B are convolved. It is a device that picks up sound c1 (k) * h1 (k) and noise n (k). The echo canceller 930 receives the input sound x (k) and the collected sound of the venue y (k) collected by the microphone 920 (= x (k) * h0 (k) + c1 (k) * h1 (k) + n From (k)), an extraction generated sound e (k) is generated. The extracted generated sound e (k) = c1 (k) * h1 (k) + n (k) + d (k) is a sound extracted by the echo canceller 930 from the sound generated at the venue B. Here, d (k) is a residual signal.

なお、スピーカ910からマイク920への伝達遅延を考慮し、入力音x(k)の代わりに、入力音x(k)に所定の遅延を加えてからエコーキャンセラ930に入力するようにしてもよい。また、スピーカ910からマイク920への伝達遅延を考慮し、入力音x(k)の代わりに、環境音やノイズが十分小さいときに測定した伝達関数を入力音x(k)に畳み込んだ畳み込み入力音をエコーキャンセラ930に入力するようにしてもよい。   In consideration of a transmission delay from the speaker 910 to the microphone 920, a predetermined delay may be added to the input sound x (k) instead of the input sound x (k), and then input to the echo canceller 930. . Further, considering the transmission delay from the speaker 910 to the microphone 920, a convolution obtained by convolving the input sound x (k) with a transfer function measured when the environmental sound or noise is sufficiently small instead of the input sound x (k). The input sound may be input to the echo canceller 930.

抽出発生音補正装置100は、収音会場音y(k)と抽出発生音e(k)から補正済抽出発生音e’(k)を生成する。ここで、補正済抽出発生音e’(k)は、収音会場音y(k)と抽出発生音e(k)を用いて抽出発生音e(k)を補正したサンプル番号kの音である。一般に、補正済抽出発生音e’(k)は、残留信号d(k)の振幅値を聴感上の違和感がなくなるほど十分小さくしたものとなる。   The extracted generated sound correcting apparatus 100 generates a corrected extracted generated sound e ′ (k) from the collected sound hall sound y (k) and the extracted generated sound e (k). Here, the corrected extraction generated sound e ′ (k) is a sound of the sample number k obtained by correcting the extracted generated sound e (k) using the sound collection hall sound y (k) and the extracted generated sound e (k). is there. In general, the corrected extraction generated sound e '(k) is obtained by making the amplitude value of the residual signal d (k) sufficiently small so as not to cause a sense of incongruity in hearing.

以下、図4〜図5を参照して抽出発生音補正装置100について説明する。図4は、抽出発生音補正装置100の構成を示すブロック図である。図5は、抽出発生音補正装置100の動作を示すフローチャートである。図4に示すように抽出発生音補正装置100は、パワー算出部110、抽出発生音補正部120、記録部190を含む。記録部190は、抽出発生音補正装置100の処理に必要な情報を適宜記録する構成部である。   Hereinafter, the extracted sound correcting apparatus 100 will be described with reference to FIGS. FIG. 4 is a block diagram illustrating a configuration of the extraction generated sound correcting apparatus 100. FIG. 5 is a flowchart showing the operation of the extracted sound correcting apparatus 100. As shown in FIG. 4, the extracted / generated sound correction apparatus 100 includes a power calculation unit 110, an extracted / generated sound correction unit 120, and a recording unit 190. The recording unit 190 is a component that appropriately records information necessary for processing of the extraction generated sound correcting apparatus 100.

図5に従い抽出発生音補正装置100の動作について説明する。パワー算出部110は、収音会場音y(k)と抽出発生音e(k)から、収音会場音y(k)のパワーである収音会場音パワーYkと抽出発生音e(k)のパワーである抽出発生音パワーEkを算出する(S110)。例えば、収音会場音パワーYkを、収音会場音y(k)を含む一定時間(Kサンプル分(ただし、Kは1以上の整数))の収音会場音のパワーとして算出する。サンプルk以前のK個のサンプルを用いる場合は次式のようになる。 The operation of the extracted sound correcting apparatus 100 will be described with reference to FIG. Power calculation unit 110, a sound collection site sound y (k) and the extraction generated sound e (k), voice collecting hall sound y sound pickup hall sound is the power of (k) power Y k and extraction generated sound e (k ) to calculate the extracted sound generated power E k is a power of (S110). For example, the sound collecting hall sound power Y k is calculated as the power of the sound collecting hall sound for a certain time (K samples (where K is an integer of 1 or more)) including the sound collecting hall sound y (k). When K samples before sample k are used, the following equation is obtained.

また、抽出発生音パワーEkを、抽出発生音e(k)を含む一定時間(Kサンプル分)の抽出発生音のパワーとして算出する。サンプルk以前のK個のサンプルを用いる場合は次式のようになる。 Further, the extracted generated sound power E k is calculated as the power of the extracted generated sound for a certain time (K samples) including the extracted generated sound e (k). When K samples before sample k are used, the following equation is obtained.

また、以下のように、上記の収音会場音パワーYk、抽出発生音パワーEkをそれぞれサンプル数Kで割った値を収音会場音パワーYk、抽出発生音パワーEkとしてもよい。 Further, as described below, values obtained by dividing the above-described sound collection hall sound power Y k and extraction generated sound power E k by the number of samples K may be set as the sound collection hall sound power Y k and the extraction generated sound power E k. .

抽出発生音補正部120は、収音会場音パワーYkと抽出発生音パワーEkを用いて、抽出発生音e(k)から補正済抽出発生音e’(k)を生成する(S120)。例えば、Ek>Ykの場合、e’(k)=e(k)とし、Ek≦Ykの場合、e’(k)=0として補正済抽出発生音を生成する。Ek>Ykの場合にe’(k)=e(k)とする理由は、環境音c1(k)が入力音x(k)に比べて十分大きく、残留信号d(k)が大きいと考えられるためである。また、Ek≦Ykの場合、e’(k)=0とする理由は、環境音c1(k)がスピーカ910から出力された入力音x(k)に比べて十分小さく、環境音c1(k)は埋もれていると考えられるためである。なお、後述する(変形例2)との関係でいえば、Ek≦Ykの場合、e(k)をパラメータ生成に用いても良好な結果を得られないと考えられるため、e’(k)=0とする。 The extracted generated sound correcting unit 120 generates a corrected extracted generated sound e ′ (k) from the extracted generated sound e (k) using the sound collection venue sound power Y k and the extracted generated sound power E k (S120). . For example, when E k > Y k , e ′ (k) = e (k) is set, and when E k ≦ Y k , corrected extraction generated sound is generated with e ′ (k) = 0. The reason why e ′ (k) = e (k) when E k > Y k is that the environmental sound c1 (k) is sufficiently larger than the input sound x (k) and the residual signal d (k) is large. It is because it is considered. When E k ≦ Y k , e ′ (k) = 0 is set because the environmental sound c1 (k) is sufficiently smaller than the input sound x (k) output from the speaker 910, and the environmental sound c1. This is because (k) is considered buried. In relation to (Modification 2) described later, when E k ≦ Y k , it is considered that good results cannot be obtained even if e (k) is used for parameter generation. k) = 0.

図6は、抽出発生音補正装置100の入力である抽出発生音e(k)と出力である補正済抽出発生音e’(k)の様子を示す図である。図6を見ると、スピーカ910から再生された入力音x(k)の影響を減じ、環境音c1(k)が抽出できていることがわかる。   FIG. 6 is a diagram illustrating a state of the extracted generated sound e (k) that is the input of the extracted generated sound correcting apparatus 100 and the corrected extracted generated sound e ′ (k) that is the output. It can be seen from FIG. 6 that the influence of the input sound x (k) reproduced from the speaker 910 is reduced and the environmental sound c1 (k) can be extracted.

なお、αをあらかじめ定められた正の定数(以下、αのことを倍率という)として、Ek>αYkの場合、e’(k)=e(k)とし、Ek≦αYkの場合、e’(k)=0として補正済抽出発生音を生成するようにしてもよい。 Note that α is a predetermined positive constant (hereinafter α is referred to as a magnification), and when E k > αY k , e ′ (k) = e (k) and E k ≦ αY k , E ′ (k) = 0 may be used to generate a corrected extraction generated sound.

もちろん、Ek>Yk、Ek≦Ykの代わりに、Ek≧Yk、Ek<Ykを、Ek>αYk、Ek≦αYkの代わりに、Ek≧αYk、Ek<αYkを用いてもよい。 Of course, E k> Y k, instead of E k ≦ Y k, E k ≧ Y k, the E k <Y k, E k > αY k, instead of E k ≦ αY k, E k ≧ αY k , E k <αY k may be used.

以上まとめると、α=1の場合も含めて、Ek/Yk≦αまたはEk/Yk<αとなる場合、e’(k)=0とし、それ以外の場合は、e’(k)=e(k)として補正済抽出発生音e’(k)を生成する。あらかじめ定められた正の定数αに対してEk/Yk≦αまたはEk/Yk<αとなることを、収音会場音パワーYkに対する抽出発生音パワーEkの比Ek/Ykが小さいことを示す所定の範囲にあるという。このとき、αのことを比Ek/Ykが小さいことを示す所定の範囲にあることを示す値という。 In summary, including E = 1, if E k / Y k ≦ α or E k / Y k <α, e ′ (k) = 0, otherwise e ′ ( k) = e (k) is generated as corrected extraction generated sound e ′ (k). E k / Y k ≦ α or E k / Y k <α with respect to a predetermined positive constant α, the ratio E k / Y of the extracted generated sound power E k to the sound collecting venue sound power Y k It is said that Y k is in a predetermined range indicating that it is small. At this time, α is referred to as a value indicating that the ratio E k / Y k is within a predetermined range indicating that the ratio E k / Y k is small.

(変形例1)
抽出発生音補正部120における収音会場音パワーYkと抽出発生音パワーEkの比較では、比較条件に用いる倍率αを時間経過によらず不変であるものとして扱ったが、一定のタイミングで倍率αを更新するようにしてもよい。一定のタイミングで更新するようにすると、会場での人数の変化や会場の温度の変化などに対して、倍率αが追従することができるようになる。
(Modification 1)
In the comparison of the sound collection venue sound power Y k and the extraction generated sound power E k in the extraction generated sound correction unit 120, the magnification α used for the comparison condition is treated as being unchanged regardless of the passage of time, but at a fixed timing. The magnification α may be updated. If the update is performed at a fixed timing, the magnification α can follow the change in the number of people in the venue, the change in the temperature of the venue, and the like.

例えば、α0(ただし、α0はあらかじめ定められた正の定数)を倍率の初期値として、サンプルごとに倍率αを更新して比較するようにしてもよい。具体的には、k=1,…として、Ekk-1Ykの場合、e’(k)=e(k)とし、Ek≦αk-1Ykの場合、e’(k)=0として補正済抽出発生音e’(k)を生成する。次に、次のサンプルのための倍率としてαk=Ek/Ykを求め、同様にEk+1kYk+1の場合、e’(k+1)=e(k+1)とし、Ek+1≦αkYk+1の場合、e’(k+1)=0として補正済抽出発生音e’(k+1)を生成する。 For example, α 0 (where α 0 is a predetermined positive constant) may be used as an initial value of the magnification, and the magnification α may be updated and compared for each sample. Specifically, as k = 1,..., When E k > α k−1 Y k , e ′ (k) = e (k), and when E k ≦ α k−1 Y k , e ′ (k) = 0, and the corrected extraction generated sound e ′ (k) is generated. Next, α k = E k / Y k is obtained as a magnification for the next sample. Similarly, when E k + 1 > α k Y k + 1 , e ′ (k + 1) = e (k + 1) and E k + 1 ≦ α k Y k + 1 , the corrected extraction generated sound e ′ (k + 1) is generated with e ′ (k + 1) = 0.

なお、倍率αをαk=(Ek-L+1/Yk-L+1+…+Ek/Yk)/LというようにLサンプル分の平均値としてもよい。さらに、単純な平均とする代わりに、倍率αの計算に忘却係数を定めたフィルタを用いてもよいし、線形関数や非線形関数を用いてもかまわない。例えば、ωとσを実数の定数(ただし、ω>0)として、ガウス窓を用いて定義される忘却係数W(i)(i=0,1,…)により、倍率αkを以下のように求めてもよい。 Note that the magnification α may be an average value of L samples as α k = (E k−L + 1 / Y k−L + 1 +... + E k / Y k ) / L. Further, instead of a simple average, a filter in which a forgetting factor is set may be used for the calculation of the magnification α, or a linear function or a nonlinear function may be used. For example, let ω and σ be real constants (where ω> 0), and forgetting factor W (i) (i = 0,1, ...) defined using a Gaussian window, the magnification α k is You may ask for.

(変形例2)
抽出発生音補正装置が、補正済抽出発生音e’(k)の代わりに、補正済抽出発生音e’(k)を生成するために用いるパラメータである補正済抽出発生音パラメータp(k)を生成するようにしてもよい。
(Modification 2)
The corrected generated sound parameter p (k), which is a parameter used by the extracted generated sound correcting device to generate the corrected extracted generated sound e ′ (k) instead of the corrected extracted generated sound e ′ (k) May be generated.

以下、図7〜図8を参照して抽出発生音補正装置101について説明する。図7は、抽出発生音補正装置101の構成を示すブロック図である。図8は、抽出発生音補正装置101の動作を示すフローチャートである。図7からわかるように、抽出発生音補正装置101は、補正済抽出発生音パラメータ生成部130をさらに含む点においてのみ抽出発生音補正装置100と異なる。また、図8からわかるように、抽出発生音補正装置101の動作は、S130が追加されている点においてのみ抽出発生音補正装置100の動作と異なる。補正済抽出発生音パラメータ生成部130は、補正済抽出発生音e’(k)から補正済抽出発生音パラメータp(k)を生成する(S130)。補正済抽出発生音e’(k)を生成するために用いることのできるパラメータであれば、補正済抽出発生音パラメータはどのようなものであってもよい。例えば、補正済抽出発生音e’(k)を含む一定時間の補正済抽出発生音のパワーE’kを用いて、補正済抽出発生音パラメータp(k)を生成することができる(式(2)参照)。 Hereinafter, the extracted sound correcting apparatus 101 will be described with reference to FIGS. FIG. 7 is a block diagram showing the configuration of the extracted sound correcting apparatus 101. As shown in FIG. FIG. 8 is a flowchart showing the operation of the extraction generated sound correcting apparatus 101. As can be seen from FIG. 7, the extracted generated sound correcting apparatus 101 differs from the extracted generated sound correcting apparatus 100 only in that it further includes a corrected extracted generated sound parameter generating unit 130. Further, as can be seen from FIG. 8, the operation of the extracted sound correcting device 101 is different from the operation of the extracted sound correcting device 100 only in that S130 is added. The corrected extracted generated sound parameter generation unit 130 generates a corrected extracted generated sound parameter p (k) from the corrected extracted generated sound e ′ (k) (S130). As long as it is a parameter that can be used to generate the corrected extracted generated sound e ′ (k), any corrected extracted generated sound parameter may be used. For example, the corrected extraction generated sound parameter p (k) can be generated using the power E ′ k of the corrected extracted generated sound for a certain period including the corrected extracted generated sound e ′ (k) (formula ( 2)).

具体的には、パワーE’kの取り得る値の範囲をあらかじめ定められた場合の数に量子化して得られるインデックスを補正済抽出発生音パラメータp(k)とする。 Specifically, an index obtained by quantizing the range of possible values of power E ′ k into a predetermined number is set as a corrected extracted generated sound parameter p (k).

なお、後述する式(8)や式(6)のように、一定時間での絶対値和や任意の累乗和などを上記パワーE’kの代わりに用いて、同様の手順により、補正済抽出発生音パラメータp(k)を生成するようにしてもよい。さらに、それらの対数を取ったもの(logΣi=k-K+1 ke(i)×e(i), logΣi=k-K+1 k|e(i)|, logΣi=k-K+1 ke(i)×e(i)×e(i)×e(i))を用いて、同様の手順により、補正済抽出発生音パラメータp(k)を生成するようにしてもよい。 In addition, as shown in Equation (8) and Equation (6), which will be described later, a corrected extraction is performed in the same procedure using a sum of absolute values at a fixed time or an arbitrary sum of powers instead of the power E ′ k. The generated sound parameter p (k) may be generated. Furthermore, the logarithm of them (logΣ i = k−K + 1 k e (i) × e (i), logΣ i = k−K + 1 k | e (i) |, logΣ i = k− K + 1 k e (i) × e (i) × e (i) × e (i)) is used to generate the corrected extracted generated sound parameter p (k) by the same procedure. Good.

また、p(k)のサンプリング周波数が伝送フォーマットのサンプリング周波数と異なることもある。この場合、伝送フォーマットのサンプリング周波数を考慮して、p(k)のサンプリング周波数を変更した新たなパラメータp’(j)(j=1,2,…、ただし、jはサンプル番号)を生成するようにしてもよい。例えば、サンプリング周波数が48kHzであるp(k)を、伝送フォーマットのサンプリング周波数8kHzでサンプリングしたパラメータp’(k)に変更したいときは、次式のように平均値を求めて変更するようにしてもよいし、音響信号で使われるようなリサンプラを用いて変更するようにしてもよい。   In addition, the sampling frequency of p (k) may be different from the sampling frequency of the transmission format. In this case, a new parameter p ′ (j) (j = 1, 2,..., Where j is a sample number) is generated by changing the sampling frequency of p (k) in consideration of the sampling frequency of the transmission format. You may do it. For example, if you want to change p (k) with a sampling frequency of 48 kHz to a parameter p '(k) sampled with a transmission format sampling frequency of 8 kHz, find the average value as shown below and change it. Alternatively, it may be changed using a resampler used for an acoustic signal.

さらに、p(k)やp’(j)の量子化精度と伝送フォーマットの量子化精度が異なる場合には、量子化精度を変換したパラメータp^(k)やp’^(j)を生成するようにしてもよい。例えばp(k)の量子化精度が16ビット、p^(k)の量子化精度が8ビットである場合には、単純にp(k)を8ビット右にシフト、つまり、p^(k)=p(k)>>8と演算して量子化精度を変換してもよい(8ビット右にシフトする代わりに、256で割るようにしてもよい)。もしくは、ITU-T G.711のA-law/μ-law変換のように、16ビット精度を一度14ビット精度に落としてから、対数関数で変換して8ビット精度に変換するようにしてもよい。なお、以上の処理は、ルックアップテーブルを用いて、p^(k)=LUT(p(k))やp’^(j)=LUT(p’(j))のように変換してもよい。   Furthermore, if the quantization accuracy of p (k) or p '(j) is different from the quantization accuracy of the transmission format, parameters p ^ (k) and p' ^ (j) are generated by converting the quantization accuracy. You may make it do. For example, if the quantization accuracy of p (k) is 16 bits and the quantization accuracy of p ^ (k) is 8 bits, simply shift p (k) to the right by 8 bits, that is, p ^ (k ) = p (k) >> 8 may be used to convert the quantization accuracy (instead of shifting to the right by 8 bits, it may be divided by 256). Alternatively, as with ITU-T G.711 A-law / μ-law conversion, the 16-bit precision is once reduced to 14-bit precision, and then converted to a 8-bit precision by conversion with a logarithmic function. Good. Note that the above processing can be performed using a lookup table such as p ^ (k) = LUT (p (k)) or p '^ (j) = LUT (p' (j)). Good.

本発明によれば、聴感上の違和感を抑えるように、大きな会場で発生した音を抽出した抽出発生音を補正することができる。これにより、スピーカとマイクが近くになく、あえて残響を加えるように設計されている会場で発生した音も適切に抽出・補正することができるようになる。   According to the present invention, it is possible to correct an extraction generated sound obtained by extracting a sound generated in a large venue so as to suppress a sense of incongruity in hearing. As a result, it is possible to appropriately extract and correct the sound generated in the venue where the speaker and the microphone are not close to each other and the reverberation is intentionally added.

<第二実施形態>
環境音c1(k)が例えば拍手音である場合、図9の網掛け部に示すように、環境音c1(k)は時間方向にスパースな信号となる。そこで、抽出発生音e(k)の時間方向におけるスパースさの程度を調べ、スパースであると判定された場合、環境音c1(k)が入力音x(k)に比べて十分に大きいと判断して、e’(k)=e(k)とし、スパースでないと判定された場合、環境音c1(k) が入力音x(k)に比べて十分に小さく、環境音c1(k)が抽出できないとして、e’(k)=0として補正済抽出発生音を生成するようにする。
<Second embodiment>
When the environmental sound c1 (k) is, for example, a clapping sound, the environmental sound c1 (k) is a sparse signal in the time direction, as shown by the shaded portion in FIG. Therefore, the degree of sparseness in the time direction of the extracted sound e (k) is examined, and if it is determined that it is sparse, it is determined that the environmental sound c1 (k) is sufficiently louder than the input sound x (k). If it is determined that e '(k) = e (k) and it is not sparse, the environmental sound c1 (k) is sufficiently smaller than the input sound x (k) and the environmental sound c1 (k) is If extraction cannot be performed, corrected extraction sound is generated with e ′ (k) = 0.

以下、図10〜図11を参照して抽出発生音補正装置200について説明する。図10は、抽出発生音補正装置200の構成を示すブロック図である。図11は、抽出発生音補正装置200の動作を示すフローチャートである。図10に示すように抽出発生音補正装置200は、スパース尺度算出部210、抽出発生音補正部220、記録部190を含む。   Hereinafter, the extracted sound correcting apparatus 200 will be described with reference to FIGS. FIG. 10 is a block diagram showing the configuration of the extracted sound correcting apparatus 200. FIG. 11 is a flowchart showing the operation of the extraction generated sound correcting apparatus 200. As shown in FIG. 10, the extracted generated sound correcting apparatus 200 includes a sparse scale calculating unit 210, an extracted generated sound correcting unit 220, and a recording unit 190.

図10に従い抽出発生音補正装置200の動作について説明する。スパース尺度算出部210は、抽出発生音e(k)から、抽出発生音e(k)のスパース尺度Skを算出する(S210)。スパース尺度とは、時間方向におけるスパースさの程度を表す値である。例えば、サンプルk以前のK個のサンプルの抽出発生音を用いて、スパース尺度Skを次式により算出してもよい。 The operation of the extracted sound correcting apparatus 200 will be described with reference to FIG. The sparse scale calculation unit 210 calculates a sparse scale S k of the extracted generated sound e (k) from the extracted generated sound e (k) (S210). The sparse scale is a value representing the degree of sparsity in the time direction. For example, the sparse measure S k may be calculated by the following equation using the extracted generated sounds of K samples before the sample k.

なお、E2k,E4kのことを尖度といい、スパース尺度Skのことを尖度係数ということもある。また、スパース尺度Skを次式により算出してもよい。 Note that E2 k and E4 k are referred to as kurtosis, and the sparse scale S k is sometimes referred to as a kurtosis coefficient. Further, sparse measure S k may be calculated by the following equation.

さらに、別の例として、振幅絶対値の最大値と振幅絶対値の平均値から算出される比をスパース尺度Skとして用いてもよい。 Further, as another example, it may be using the ratio calculated from the mean value of the maximum value and the amplitude absolute value of the amplitude absolute value as sparse measure S k.

なお、振幅絶対値の最大値の代わりに、上位P個(ただし、P<K)の平均値をE0kとしてもよい。つまり、j=1,…,Pに対して、fjを|e(i)|(i=k-K+1,…,k)の中でj番目に大きい値として、E0k=(f1+f2+…+fP)/Pとしてもよい。 Note that instead of the maximum amplitude absolute value, the average value of the top P (where P <K) may be E0 k . That is, for j = 1, ..., P, let f j be the jth largest value in | e (i) | (i = k-K + 1, ..., k) and E0 k = (f 1 + f 2 + ... + f P ) / P.

抽出発生音補正部220は、スパース尺度Skを用いて、抽出発生音e(k)から補正済抽出発生音e’(k)を生成する(S220)。例えば、βをあらかじめ定められた定数(以下、βのことを閾値ともいう)として、Sk>βの場合、e’(k)=e(k)とし、Sk≦βの場合、e’(k)=0として補正済抽出発生音を生成する。 Extraction generated sound correction section 220 uses sparse measure S k, to produce a corrected extraction generated sound e '(k) from the extract generated sound e (k) (S220). For example, if β is a predetermined constant (hereinafter, β is also referred to as a threshold), if S k > β, e ′ (k) = e (k), and if S k ≦ β, e ′ (k) = 0 to generate a corrected extraction generated sound.

もちろん、Sk>β、Sk≦βの代わりに、Sk≧β、Sk<βを用いてもよい。 Of course, S k> β, instead of S k ≦ β, S k ≧ β, she may be used S k <beta.

以上まとめると、Sk≦βまたはSk<βとなる場合、e’(k)=0とし、それ以外の場合は、e’(k)=e(k)として補正済抽出発生音e’(k)を生成する。あらかじめ定められた定数βに対してSk≦βまたはSk<βとなることを、スパース尺度Skが小さいことを示す所定の範囲にあるという。このとき、βのことをスパース尺度Skが小さいことを示す所定の範囲にあることを示す値という。 In summary, if S k ≦ β or S k <β, then e ′ (k) = 0, otherwise e ′ (k) = e (k) and corrected extracted generated sound e ′ Generate (k). S k ≦ β or S k <β with respect to a predetermined constant β is said to be within a predetermined range indicating that the sparse measure S k is small. At this time, β is referred to as a value indicating that it is in a predetermined range indicating that the sparse measure Sk is small.

(変形例1)
抽出発生音補正部220におけるスパース尺度Skと閾値βの比較では、比較条件に用いる閾値βを時間経過によらず不変であるものとして扱ったが、一定のタイミングで閾値βを更新するようにしてもよい。一定のタイミングで更新するようにすると、会場での人数の変化や会場の温度の変化などに対して、閾値βが追従することができるようになる。
(Modification 1)
In the comparison between the sparse scale Sk and the threshold value β in the extraction sound correcting unit 220, the threshold value β used for the comparison condition is treated as being invariant regardless of the passage of time. However, the threshold value β is updated at a fixed timing. May be. If the update is performed at a certain timing, the threshold value β can follow the change in the number of people in the venue, the change in the temperature of the venue, and the like.

例えば、β0(ただし、β0はあらかじめ定められた数)を閾値の初期値として、サンプルごとに閾値βを更新して比較するようにしてもよい。具体的には、k=1,…として、Skk-1の場合、e’(k)= e(k)とし、Sk≦βk-1の場合、e’(k)=0として補正済抽出発生音e’(k)を生成する。次に、次のサンプルのための閾値をβk=Skとし、同様にSk+1kの場合、e’(k+1)=e(k+1)とし、Sk+1≦βkの場合、e’(k+1)=0として補正済抽出発生音e’(k+1)を生成する。 For example, β 0 (where β 0 is a predetermined number) may be used as an initial value of the threshold value, and the threshold value β may be updated and compared for each sample. Specifically, as k = 1,..., When S k > β k−1 , e ′ (k) = e (k), and when S k ≦ β k−1 , e ′ (k) = A corrected extraction generated sound e ′ (k) is generated as 0. Next, the threshold for the next sample is β k = S k, and similarly if S k + 1 > β k , e ′ (k + 1) = e (k + 1) and S k + 1 In the case of ≦ β k , corrected extraction generated sound e ′ (k + 1) is generated with e ′ (k + 1) = 0.

なお、閾値βをβk=(Sk-L+1+…+Sk)/LというようにLサンプル分の平均値としてもよい。さらに、単純な平均とする代わりに、閾値βの計算に忘却係数を定めたフィルタを用いてもよいし、線形関数や非線形関数を用いてもかまわない。例えば、ωとσを実数の定数(ただし、ω>0)として、ガウス窓を用いて定義される忘却係数W(i)(i=0,1,…)により、閾値βkを以下のように求めてもよい。 Note that the threshold value β may be an average value of L samples such as β k = (S k−L + 1 +... + S k ) / L. Further, instead of a simple average, a filter with a forgetting factor may be used for calculating the threshold value β, or a linear function or a nonlinear function may be used. For example, ω and σ are real constants (where ω> 0), and forgetting factor W (i) (i = 0,1, ...) defined using a Gaussian window, threshold β k is as follows: You may ask for.

(変形例2)
第一実施形態で説明したように、抽出発生音補正装置が、補正済抽出発生音e’(k)の代わりに、補正済抽出発生音e’(k)を生成するために用いるパラメータである補正済抽出発生音パラメータp(k)を生成するようにしてもよい。
(Modification 2)
As described in the first embodiment, the extracted generated sound correcting device is a parameter used to generate a corrected extracted generated sound e ′ (k) instead of the corrected extracted generated sound e ′ (k). The corrected extracted generated sound parameter p (k) may be generated.

以下、図12〜図13を参照して抽出発生音補正装置201について説明する。図12は、抽出発生音補正装置201の構成を示すブロック図である。図13は、抽出発生音補正装置201の動作を示すフローチャートである。図12からわかるように、抽出発生音補正装置201は、補正済抽出発生音パラメータ生成部130をさらに含む点においてのみ抽出発生音補正装置200と異なる。また、図13からわかるように、抽出発生音補正装置201の動作は、S130が追加されている点においてのみ抽出発生音補正装置200の動作と異なる。補正済抽出発生音パラメータ生成部130は、補正済抽出発生音e’(k)から補正済抽出発生音パラメータp(k)を生成する(S130)。補正済抽出発生音e’(k)を生成するために用いることのできるパラメータであれば、補正済抽出発生音パラメータはどのようなものであってもよい。   Hereinafter, the extracted sound correcting apparatus 201 will be described with reference to FIGS. FIG. 12 is a block diagram showing the configuration of the extracted generated sound correcting apparatus 201. FIG. 13 is a flowchart showing the operation of the extraction generated sound correcting apparatus 201. As can be seen from FIG. 12, the extracted generated sound correcting device 201 is different from the extracted generated sound correcting device 200 only in that it further includes a corrected extracted generated sound parameter generating unit 130. Further, as can be seen from FIG. 13, the operation of the extracted sound correcting device 201 differs from the operation of the extracted sound correcting device 200 only in that S130 is added. The corrected extracted generated sound parameter generation unit 130 generates a corrected extracted generated sound parameter p (k) from the corrected extracted generated sound e ′ (k) (S130). As long as it is a parameter that can be used to generate the corrected extracted generated sound e ′ (k), any corrected extracted generated sound parameter may be used.

本発明によれば、聴感上の違和感を抑えるように、大きな会場で発生した音を抽出した抽出発生音を補正することができる。これにより、スピーカとマイクが近くになく、あえて残響を加えるように設計されている会場で発生した音も適切に抽出・補正することができるようになる。   According to the present invention, it is possible to correct an extraction generated sound obtained by extracting a sound generated in a large venue so as to suppress a sense of incongruity in hearing. As a result, it is possible to appropriately extract and correct the sound generated in the venue where the speaker and the microphone are not close to each other and the reverberation is intentionally added.

<第三実施形態>
第一実施形態ではパワー比Ek/Ykを、第二実施形態ではスパース尺度Skを用いて、抽出発生音を補正するための条件判定を行った。ここでは、パワー比Ek/Ykとスパース尺度Skの2つを用いた形で条件判定を行う。
<Third embodiment>
In the first embodiment, the power ratio E k / Y k is used, and in the second embodiment, the sparse scale S k is used to determine the condition for correcting the extracted sound. Here, the condition determination is performed using two power ratios E k / Y k and sparse scale S k .

以下、図14〜図15を参照して抽出発生音補正装置300について説明する。図14は、抽出発生音補正装置300の構成を示すブロック図である。図15は、抽出発生音補正装置300の動作を示すフローチャートである。図14に示すように抽出発生音補正装置300は、パワー算出部110、スパース尺度算出部210、抽出発生音補正部320、記録部190を含む。   Hereinafter, the extracted sound correcting apparatus 300 will be described with reference to FIGS. FIG. 14 is a block diagram illustrating a configuration of the extracted generated sound correcting apparatus 300. FIG. 15 is a flowchart showing the operation of the extracted sound correcting apparatus 300. As shown in FIG. 14, the extraction generated sound correction apparatus 300 includes a power calculation unit 110, a sparse scale calculation unit 210, an extraction generated sound correction unit 320, and a recording unit 190.

図15に従い抽出発生音補正装置300の動作について説明する。パワー算出部110は、収音会場音y(k)と抽出発生音e(k)から、収音会場音y(k)のパワーである収音会場音パワーYkと抽出発生音e(k)のパワーである抽出発生音パワーEkを算出する(S110)。スパース尺度算出部210は、抽出発生音e(k)から、抽出発生音e(k)のスパース尺度Skを算出する(S210)。発生音抽出部320は、収音会場音パワーYkと抽出発生音パワーEkとスパース尺度Skを用いて、抽出発生音e(k)から補正済抽出発生音e’(k)を生成する(S320)。例えば、倍率α、閾値βに対して、Ek>αYkかつSk>β(Ek≧αYkかつSk≧β)となる場合、e’(k)=e(k)とし、それ以外の場合はe’(k)=0として補正済抽出発生音を生成する。その際、例えば、Yk,Ekについては式(1)、式(2)を用いて、Skについては式(5)〜式(7)を用いて算出することができる。また、Skについては式(5)〜式(7)の代わりに、式(8)〜式(10)や式(11)〜式(13)を用いてもよい。 The operation of the extracted sound correcting apparatus 300 will be described with reference to FIG. Power calculation unit 110, a sound collection site sound y (k) and the extraction generated sound e (k), voice collecting hall sound y sound pickup hall sound is the power of (k) power Y k and extraction generated sound e (k ) to calculate the extracted sound generated power E k is a power of (S110). The sparse scale calculation unit 210 calculates a sparse scale S k of the extracted generated sound e (k) from the extracted generated sound e (k) (S210). The generated sound extraction unit 320 generates a corrected extracted generated sound e ′ (k) from the extracted generated sound e (k) using the sound collecting venue sound power Y k , the extracted generated sound power E k, and the sparse scale S k. (S320). For example, if E k > αY k and S k > β (E k ≧ αY k and S k ≧ β) with respect to the magnification α and the threshold β, e ′ (k) = e (k) Otherwise, the corrected extraction sound is generated with e ′ (k) = 0. At that time, for example, Y k and E k can be calculated using Expressions (1) and (2), and S k can be calculated using Expressions (5) to (7). As for S k , equations (8) to (10) and equations (11) to (13) may be used instead of equations (5) to (7).

もちろん、例えば、倍率α、閾値βに対して、Ek≦αYkかつSk≦β(Ek<αYkかつSk<β)となる場合、e’(k)=0とし、それ以外の場合はe’(k)=e(k)として補正済抽出発生音を生成するようにしてもよい。 Of course, for example, if E k ≦ αY k and S k ≦ β (E k <αY k and S k <β) with respect to the magnification α and the threshold β, e ′ (k) = 0, otherwise In this case, the corrected extraction generated sound may be generated as e ′ (k) = e (k).

さらに、抽出発生音補正部320における抽出発生音を補正するための条件判定に用いる条件を複数にしてもよい。例えば、発生音抽出部320が、収音会場音パワーYkと抽出発生音パワーEkとスパース尺度Skを用いて、抽出発生音e(k)から補正済抽出発生音e’(k)を生成する際、倍率α1,α2、閾値β1,β2(ただし、α1<α2、β1>β2)に対して、以下の第1条件、第2条件のいずれかが成立する場合、e’(k)=e(k)とし、それ以外の場合はe’(k)=0として補正済抽出発生音を生成する。
第1条件:Ek>α1・YkかつSk>β1
第2条件:Ek>α2・YkかつSk>β2
Furthermore, a plurality of conditions may be used for condition determination for correcting the extracted generated sound in the extracted generated sound correcting unit 320. For example, the generated sound extraction unit 320 uses the sound collection hall sound power Y k , the extracted generated sound power E k, and the sparse scale S k to correct the extracted extracted generated sound e ′ (k) from the extracted generated sound e (k). Is generated when either of the following first condition or second condition is satisfied with respect to the magnification α1, α2 and the threshold values β1, β2 (where α1 <α2, β1> β2). ) = e (k), otherwise, e ′ (k) = 0 and a corrected extracted sound is generated.
First condition: E k > α1 · Y k and S k > β1
Second condition: E k > α2 · Y k and S k > β2

その際、Yk,Ekについては式(3)、式(4)を用いて、Skについては式(11)〜式(13)を用いて算出することができる。この場合、例えば、α1=0.5、α2=1、β1=12、β2=9とすればよい。 At that time, Y k and E k can be calculated using equations (3) and (4), and S k can be calculated using equations (11) to (13). In this case, for example, α1 = 0.5, α2 = 1, β1 = 12, and β2 = 9.

図16は、拍手音を環境音として、抽出発生音e(k)に対して第一実施形態のようにパワー比を用いて生成した補正済抽出発生音e’(k)(図16(b))と本実施形態のようにパワー比とスパース尺度を用いて生成した補正済抽出発生音e’(k)(図16(c))の様子を示す図である。図16(b)と図16(c)を比べると、本実施形態(図16(c))の方が、環境音である拍手音の抽出・補正の精度がよいことがわかる。   FIG. 16 shows a corrected extraction generated sound e ′ (k) generated using the power ratio as in the first embodiment with respect to the extracted generated sound e (k) using the applause sound as the environmental sound (FIG. 16 (b)). )) And the corrected extracted generated sound e ′ (k) (FIG. 16C) generated using the power ratio and the sparse scale as in the present embodiment. Comparing FIG. 16 (b) and FIG. 16 (c), it can be seen that the present embodiment (FIG. 16 (c)) has better extraction / correction accuracy of the applause sound which is the environmental sound.

もちろん、倍率α1,α2、閾値β1,β2(ただし、α1<α2、β1>β2)に対して、以下の第3条件、第4条件のいずれかが成立する場合、e’(k)=0とし、それ以外の場合はe’(k)=e(k)として補正済抽出発生音を生成するようにしてもよい。
第3条件:Ek≦α1・YkかつSk≦β1
第4条件:Ek≦α2・YkかつSk≦β2
Of course, if any of the following third condition and fourth condition is satisfied with respect to the magnification α1, α2 and the threshold values β1, β2 (where α1 <α2, β1> β2), e ′ (k) = 0 Otherwise, the corrected extraction generated sound may be generated as e ′ (k) = e (k).
Third condition: E k ≦ α1 · Y k and S k ≦ β1
Fourth condition: E k ≦ α2 · Y k and S k ≦ β2

(変形例1)
第一実施形態や第二実施形態と同様、倍率αと閾値βをサンプルごとに変化させる構成としてもよい。
(Modification 1)
Similar to the first embodiment and the second embodiment, the magnification α and the threshold β may be changed for each sample.

(変形例2)
また、第一実施形態や第二実施形態で説明したように、抽出発生音補正装置が、補正済抽出発生音e’(k)の代わりに、補正済抽出発生音e’(k)を生成するために用いるパラメータである補正済抽出発生音パラメータp(k)を生成するようにしてもよい。
(Modification 2)
In addition, as described in the first embodiment and the second embodiment, the extracted generated sound correcting device generates a corrected extracted generated sound e ′ (k) instead of the corrected extracted generated sound e ′ (k). The corrected extracted sound parameter p (k), which is a parameter used for this purpose, may be generated.

以下、図17〜図18を参照して抽出発生音補正装置301について説明する。図17は、抽出発生音補正装置301の構成を示すブロック図である。図18は、抽出発生音補正装置301の動作を示すフローチャートである。図17からわかるように、抽出発生音補正装置301は、補正済抽出発生音パラメータ生成部130をさらに含む点においてのみ抽出発生音補正装置300と異なる。また、図18からわかるように、抽出発生音補正装置301の動作は、S130が追加されている点においてのみ抽出発生音補正装置300の動作と異なる。補正済抽出発生音パラメータ生成部130は、補正済抽出発生音e’(k)から補正済抽出発生音パラメータp(k)を生成する(S130)。補正済抽出発生音e’(k)を生成するために用いることのできるパラメータであれば、補正済抽出発生音パラメータはどのようなものであってもよい。   Hereinafter, the extracted sound correcting device 301 will be described with reference to FIGS. FIG. 17 is a block diagram illustrating a configuration of the extraction generated sound correcting apparatus 301. FIG. 18 is a flowchart showing the operation of the extraction generated sound correcting apparatus 301. As can be seen from FIG. 17, the extracted generated sound correcting device 301 is different from the extracted generated sound correcting device 300 only in that it further includes a corrected extracted generated sound parameter generation unit 130. Further, as can be seen from FIG. 18, the operation of the extracted sound correcting device 301 is different from the operation of the extracted sound correcting device 300 only in that S130 is added. The corrected extracted generated sound parameter generation unit 130 generates a corrected extracted generated sound parameter p (k) from the corrected extracted generated sound e ′ (k) (S130). As long as it is a parameter that can be used to generate the corrected extracted generated sound e ′ (k), any corrected extracted generated sound parameter may be used.

本発明によれば、聴感上の違和感を抑えるように、大きな会場で発生した音を抽出した抽出発生音を補正することができる。これにより、スピーカとマイクが近くになく、あえて残響を加えるように設計されている会場で発生した音も適切に抽出・補正することができるようになる。   According to the present invention, it is possible to correct an extraction generated sound obtained by extracting a sound generated in a large venue so as to suppress a sense of incongruity in hearing. As a result, it is possible to appropriately extract and correct the sound generated in the venue where the speaker and the microphone are not close to each other and the reverberation is intentionally added.

<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
<Supplementary note>
The apparatus of the present invention includes, for example, a single hardware entity as an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected, and a communication device (for example, a communication cable) capable of communicating outside the hardware entity Can be connected to a communication unit, a CPU (Central Processing Unit, may include a cache memory or a register), a RAM or ROM that is a memory, an external storage device that is a hard disk, and an input unit, an output unit, or a communication unit thereof , A CPU, a RAM, a ROM, and a bus connected so that data can be exchanged between the external storage devices. If necessary, the hardware entity may be provided with a device (drive) that can read and write a recording medium such as a CD-ROM. A physical entity having such hardware resources includes a general-purpose computer.

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。   The external storage device of the hardware entity stores a program necessary for realizing the above functions and data necessary for processing the program (not limited to the external storage device, for example, reading a program) It may be stored in a ROM that is a dedicated storage device). Data obtained by the processing of these programs is appropriately stored in a RAM or an external storage device.

ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。   In the hardware entity, each program stored in an external storage device (or ROM or the like) and data necessary for processing each program are read into a memory as necessary, and are interpreted and executed by a CPU as appropriate. . As a result, the CPU realizes a predetermined function (respective component requirements expressed as the above-described unit, unit, etc.).

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。   The present invention is not limited to the above-described embodiment, and can be appropriately changed without departing from the spirit of the present invention. In addition, the processing described in the above embodiment may be executed not only in time series according to the order of description but also in parallel or individually as required by the processing capability of the apparatus that executes the processing. .

既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。   As described above, when the processing functions in the hardware entity (the apparatus of the present invention) described in the above embodiments are realized by a computer, the processing contents of the functions that the hardware entity should have are described by a program. Then, by executing this program on a computer, the processing functions in the hardware entity are realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。   The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto-Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。   A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   In this embodiment, a hardware entity is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.

Claims (7)

サンプル番号kをk=1,2,…、収音会場音y(k)を会場で再生された音及び当該会場で発生した音を収音したサンプル番号kの音、抽出発生音e(k)を前記収音会場音y(k)から当該会場で発生した音を抽出したサンプル番号kの音とし、
前記収音会場音y(k)と前記抽出発生音e(k)から、前記収音会場音y(k)のパワーである収音会場音パワーYkと前記抽出発生音e(k)のパワーである抽出発生音パワーEkを算出するパワー算出部と、
前記収音会場音パワーYkと前記抽出発生音パワーEkを用いて、前記抽出発生音e(k)から補正済抽出発生音e’(k)を生成する抽出発生音補正部と
を含む抽出発生音補正装置であり、
前記抽出発生音補正部は、前記補正済抽出発生音e’(k)を、前記収音会場音パワーYkに対する前記抽出発生音パワーEkの比Ek/Ykが小さいことを示す所定の範囲にある場合は、e’(k)=0とし、それ以外の場合は、e’(k)=e(k)として生成する
抽出発生音補正装置。
The sample number k is k = 1, 2,..., The sound of the sound collection venue sound y (k) is reproduced at the venue and the sound of the sample number k is the sound generated at the venue, and the extraction generated sound e (k ) As the sound of sample number k obtained by extracting the sound generated at the venue from the sound collection venue sound y (k),
From the sound collecting venue sound y (k) and the extraction generated sound e (k), the sound collecting venue sound power Y k which is the power of the sound collecting venue sound y (k) and the extraction generated sound e (k) A power calculation unit for calculating extraction generated sound power E k that is power;
An extracted generated sound correcting unit that generates a corrected extracted generated sound e ′ (k) from the extracted generated sound e (k) using the sound collecting venue sound power Y k and the extracted generated sound power E k. Extraction sound correction device,
The extraction generated sound correction unit is a predetermined value indicating that the ratio E k / Y k of the extracted generated sound power E k to the collected sound source sound power Y k of the corrected extracted generated sound e ′ (k) is small. If it is within the range, e ′ (k) = 0, otherwise, it is generated as e ′ (k) = e (k).
サンプル番号kをk=1,2,…、収音会場音y(k)を会場で再生された音及び当該会場で発生した音を収音したサンプル番号kの音、抽出発生音e(k)を前記収音会場音y(k)から当該会場で発生した音を抽出したサンプル番号kの音とし、
前記抽出発生音e(k)から、前記抽出発生音e(k)の時間方向におけるスパースさの程度を表すスパース尺度Skを算出するスパース尺度算出部と、
前記スパース尺度Skを用いて、前記抽出発生音e(k)から補正済抽出発生音e’(k)を生成する抽出発生音補正部と
を含む抽出発生音補正装置であり、
前記抽出発生音補正部は、前記補正済抽出発生音e’(k)を、前記スパース尺度Skが小さいことを示す所定の範囲にある場合は、e’(k)=0とし、それ以外の場合は、e’(k)=e(k)として生成する
抽出発生音補正装置。
The sample number k is k = 1, 2,..., The sound of the sound collection venue sound y (k) is reproduced at the venue and the sound of the sample number k is the sound generated at the venue, and the extraction generated sound e (k ) As the sound of sample number k obtained by extracting the sound generated at the venue from the sound collection venue sound y (k),
From the extracted sound generated e (k), and sparse scale calculation unit for calculating a sparse measure S k representing the degree of sparse is in the time direction of the extraction sound generated e (k),
An extraction generation sound correction apparatus including an extraction generation sound correction unit that generates a corrected extraction generation sound e ′ (k) from the extraction generation sound e (k) using the sparse scale S k ,
The extraction generated sound correction unit, the corrected extraction generated sound e 'a (k), when in a predetermined range which indicates that the sparse measure S k is small, e' and (k) = 0, otherwise In this case, the extracted sound correcting device is generated as e ′ (k) = e (k).
請求項1または2に記載の抽出発生音補正装置であって、
さらに、
前記補正済抽出発生音e’(k)から、前記補正済抽出発生音e’(k)を生成するために用いる補正済抽出発生音パラメータp(k)を生成する補正済抽出発生音パラメータ生成部と
を含むことを特徴とする抽出発生音補正装置。
The extraction generated sound correction apparatus according to claim 1 or 2,
further,
Generation of corrected extraction generated sound parameters for generating corrected extraction generated sound parameters p (k) used for generating the corrected extracted generated sound e ′ (k) from the corrected extracted generated sound e ′ (k) And an extracted generated sound correcting device.
請求項1ないし3のいずれか1項に記載の抽出発生音補正装置であって、
前記小さいことを示す所定の範囲にあることを示す値は、サンプルごとに更新されることを特徴とする抽出発生音補正装置。
The extraction generated sound correction device according to any one of claims 1 to 3,
The extraction sound correcting apparatus according to claim 1, wherein the value indicating the small range is updated for each sample.
サンプル番号kをk=1,2,…、収音会場音y(k)を会場で再生された音及び当該会場で発生した音を収音したサンプル番号kの音、抽出発生音e(k)を前記収音会場音y(k)から当該会場で発生した音を抽出したサンプル番号kの音とし、
抽出発生音補正装置が、前記収音会場音y(k)と前記抽出発生音e(k)から、前記収音会場音y(k)のパワーである収音会場音パワーYkと前記抽出発生音e(k)のパワーである抽出発生音パワーEkを算出するパワー算出ステップと、
前記抽出発生音補正装置が、前記収音会場音パワーYkと前記抽出発生音パワーEkを用いて、前記抽出発生音e(k)から補正済抽出発生音e’(k)を生成する抽出発生音補正ステップと
を含む抽出発生音補正方法であり、
前記抽出発生音補正ステップは、前記補正済抽出発生音e’(k)を、前記収音会場音パワーYkに対する前記抽出発生音パワーEkの比Ek/Ykが小さいことを示す所定の範囲にある場合は、e’(k)=0とし、それ以外の場合は、e’(k)=e(k)として生成する
抽出発生音補正方法。
The sample number k is k = 1, 2,..., The sound of the sound collection venue sound y (k) is reproduced at the venue and the sound of the sample number k is the sound generated at the venue, and the extraction generated sound e (k ) As the sound of sample number k obtained by extracting the sound generated at the venue from the sound collection venue sound y (k),
Extraction sound generation correction device, the sound collection venue sound power Y k that is the power of the sound collection venue sound y (k) from the sound collection venue sound y (k) and the extraction occurrence sound e (k) and the extraction A power calculating step for calculating an extracted generated sound power E k that is the power of the generated sound e (k);
The extracted generated sound correcting device generates a corrected extracted generated sound e ′ (k) from the extracted generated sound e (k) using the sound collecting venue sound power Y k and the extracted generated sound power E k. Extraction sound correction method including extraction sound correction step,
The extraction generated sound correction step is a predetermined step that indicates that the ratio E k / Y k of the extracted generated sound power E k to the collected sound source sound power Y k of the corrected extracted generated sound e ′ (k) is small. If the frequency is within the range, e ′ (k) = 0; otherwise, e ′ (k) = e (k) is generated.
サンプル番号kをk=1,2,…、収音会場音y(k)を会場で再生された音及び当該会場で発生した音を収音したサンプル番号kの音、抽出発生音e(k)を前記収音会場音y(k)から当該会場で発生した音を抽出したサンプル番号kの音とし、
抽出発生音補正装置が、前記抽出発生音e(k)から、前記抽出発生音e(k)の時間方向におけるスパースの程度を表すスパース尺度Skを算出するスパース尺度算出ステップと、
前記抽出発生音補正装置が、前記スパース尺度Skを用いて、前記抽出発生音e(k)から補正済抽出発生音e’(k)を生成する抽出発生音補正ステップと
を含む抽出発生音補正方法であり、
前記抽出発生音補正ステップは、前記補正済抽出発生音e’(k)を、前記スパース尺度Skが小さいことを示す所定の範囲にある場合は、e’(k)=0とし、それ以外の場合は、e’(k)=e(k)として生成する
抽出発生音補正方法。
The sample number k is k = 1, 2,..., The sound of the sound collection venue sound y (k) is reproduced at the venue and the sound of the sample number k is the sound generated at the venue, and the extraction generated sound e (k ) As the sound of sample number k obtained by extracting the sound generated at the venue from the sound collection venue sound y (k),
Extraction generated sound correction device, from the extracted sound generated e (k), and sparse scale calculation step of calculating a sparse measure S k representing the degree of sparse in the time direction of the extraction sound generated e (k),
The extraction sound generated correction device, using said sparse measure S k, the extracting generated sound e (k) from the corrected extraction generated sound e '(k) extracting generated sound including an extraction sound generated correction step of generating Correction method,
The extraction sound generated correction step, the corrected extraction generated sound e 'a (k), when in a predetermined range which indicates that the sparse measure S k is small, e' and (k) = 0, otherwise In the case of, the extracted sound correction method generated as e ′ (k) = e (k).
請求項1ないし4のいずれか1項に記載の抽出発生音補正装置としてコンピュータを機能させるためのプログラム。   A program for causing a computer to function as the extraction generated sound correcting apparatus according to any one of claims 1 to 4.
JP2017142480A 2017-07-24 2017-07-24 Extraction generated sound correction device, extraction generation sound correction method, program Active JP6779489B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017142480A JP6779489B2 (en) 2017-07-24 2017-07-24 Extraction generated sound correction device, extraction generation sound correction method, program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017142480A JP6779489B2 (en) 2017-07-24 2017-07-24 Extraction generated sound correction device, extraction generation sound correction method, program

Publications (2)

Publication Number Publication Date
JP2019024160A true JP2019024160A (en) 2019-02-14
JP6779489B2 JP6779489B2 (en) 2020-11-04

Family

ID=65368696

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017142480A Active JP6779489B2 (en) 2017-07-24 2017-07-24 Extraction generated sound correction device, extraction generation sound correction method, program

Country Status (1)

Country Link
JP (1) JP6779489B2 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134275A (en) * 1999-11-04 2001-05-18 Nippon Telegr & Teleph Corp <Ntt> Speech recognition device
JP2004147069A (en) * 2002-10-24 2004-05-20 Nippon Telegr & Teleph Corp <Ntt> Voice switching method, voice switch, voice switching program, and recording medium having the program recorded thereon
JP2005084253A (en) * 2003-09-05 2005-03-31 Matsushita Electric Ind Co Ltd Sound processing apparatus, method, program and storage medium
JP2005198093A (en) * 2004-01-08 2005-07-21 Toshiba Corp Sound processor, sound processing method, and sound processing program
JP2013213931A (en) * 2012-04-02 2013-10-17 Yamaha Corp Communication system and terminal device
JP2014045333A (en) * 2012-08-27 2014-03-13 Nippon Telegr & Teleph Corp <Ntt> Environmental sound transmission system, relay destination mixing device, environmental sound transmission method, and program

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134275A (en) * 1999-11-04 2001-05-18 Nippon Telegr & Teleph Corp <Ntt> Speech recognition device
JP2004147069A (en) * 2002-10-24 2004-05-20 Nippon Telegr & Teleph Corp <Ntt> Voice switching method, voice switch, voice switching program, and recording medium having the program recorded thereon
JP2005084253A (en) * 2003-09-05 2005-03-31 Matsushita Electric Ind Co Ltd Sound processing apparatus, method, program and storage medium
JP2005198093A (en) * 2004-01-08 2005-07-21 Toshiba Corp Sound processor, sound processing method, and sound processing program
JP2013213931A (en) * 2012-04-02 2013-10-17 Yamaha Corp Communication system and terminal device
JP2014045333A (en) * 2012-08-27 2014-03-13 Nippon Telegr & Teleph Corp <Ntt> Environmental sound transmission system, relay destination mixing device, environmental sound transmission method, and program

Also Published As

Publication number Publication date
JP6779489B2 (en) 2020-11-04

Similar Documents

Publication Publication Date Title
JP6446893B2 (en) Echo suppression device, echo suppression method, and computer program for echo suppression
JP6703525B2 (en) Method and device for enhancing sound source
KR20190026234A (en) Method and apparatus for removimg an echo signal
KR102191736B1 (en) Method and apparatus for speech enhancement with artificial neural network
JP5887535B2 (en) Echo canceling device, echo canceling method, and communication device
JP5016581B2 (en) Echo suppression device, echo suppression method, echo suppression program, recording medium
CN112669878B (en) Sound gain value calculation method and device and electronic equipment
JP6779489B2 (en) Extraction generated sound correction device, extraction generation sound correction method, program
JP6994221B2 (en) Extraction generation sound correction device, extraction generation sound correction method, program
CN112309418B (en) Method and device for inhibiting wind noise
CN111147655B (en) Model generation method and device
Liang et al. A joint echo cancellation algorithm for quick suppression of howls in hearing aids
JP3583998B2 (en) Multi-channel echo canceling method, apparatus therefor, and program recording medium
CN116504264B (en) Audio processing method, device, equipment and storage medium
JP2015070292A (en) Sound collection/emission device and sound collection/emission program
JP5264686B2 (en) Echo canceling method, echo canceling device, echo canceling program
JP5264687B2 (en) Echo canceling method, echo canceling device, echo canceling program
JP3073976B2 (en) Multi-channel acoustic echo canceling method, apparatus thereof, and recording medium recording this method
CN113079452B (en) Audio processing method, audio direction information generating method, electronic device, and medium
JP4094523B2 (en) Echo canceling apparatus, method, echo canceling program, and recording medium recording the program
JP2004520757A (en) Inverse filtering method, synthesis filtering method, inverse filter device, synthesis filter device, and device having such a filter device
EP4312214A1 (en) Determining spatial audio parameters
WO2023013019A1 (en) Speech feedback device, speech feedback method, and program
CN111145792B (en) Audio processing method and device
CN111145776B (en) Audio processing method and device

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20170724

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20170802

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190729

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200603

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200929

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201005

R150 Certificate of patent or registration of utility model

Ref document number: 6779489

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250