JPH0556007A - Mixed voice signal transmission system - Google Patents

Mixed voice signal transmission system

Info

Publication number
JPH0556007A
JPH0556007A JP3211807A JP21180791A JPH0556007A JP H0556007 A JPH0556007 A JP H0556007A JP 3211807 A JP3211807 A JP 3211807A JP 21180791 A JP21180791 A JP 21180791A JP H0556007 A JPH0556007 A JP H0556007A
Authority
JP
Japan
Prior art keywords
speech
additional information
background sound
section
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3211807A
Other languages
Japanese (ja)
Other versions
JP3131249B2 (en
Inventor
Toru Imai
亨 今井
Eiichi Miyasaka
栄一 宮坂
Tetsuo Umeda
哲夫 梅田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP03211807A priority Critical patent/JP3131249B2/en
Publication of JPH0556007A publication Critical patent/JPH0556007A/en
Application granted granted Critical
Publication of JP3131249B2 publication Critical patent/JP3131249B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

PURPOSE:To separate a speech signal and a background sound from a mixed voice signal with high sound quality and to mix the both in a preferred rate by the listener while suppressing a capacity required for additional information. CONSTITUTION:A sender side mixes a speech signal and a background sound, generates additional information for separating signals (by additional information extraction section 2) from the speech signal and the background sound and multiplexes the mixed voice signal and the additional information signal with each other and sends the multiplexed signal. A receiver side separates the mixed voice signal and the additional information from the received signal, separates the speech signal and the background sound based on the additional information (speech/background separator 5), and mixes the separated speech signal and background sound in a rate preferred by the listener.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、聴覚障害者や高齢者等
の音声聴取に好適な混合音声信号伝送方式に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a mixed voice signal transmission system suitable for listening to voices of hearing-impaired persons and the elderly.

【0002】[発明の概要]本発明は、スピーチ(人の
声)と、音楽や効果音等の背景音とが混在した音声信号
を伝送する放送システム等において、スピーチと背景音
に関する時間情報やスペクトル情報等の付加情報を少な
い量子化ビット数により多重して伝送し、受信側では、
付加情報に基づいてフィルタ等の処理を混合音声に施す
ことにより、混合音声からスピーチと背景音とを分離
し、受信者が自分の好みの混合比により両者を再び混合
して聴取できるようにしたものである。
SUMMARY OF THE INVENTION The present invention is directed to a broadcasting system or the like which transmits a voice signal in which speech (human voice) and background sound such as music and sound effects are mixed, and time information regarding the speech and the background sound. Additional information such as spectrum information is multiplexed and transmitted with a small number of quantization bits, and on the receiving side,
By applying processing such as filtering to the mixed sound based on the additional information, the speech and the background sound are separated from the mixed sound so that the receiver can mix and listen to each other again according to his / her desired mixing ratio. It is a thing.

【0003】[0003]

【従来の技術】音声に混在する雑音除去あるいは特定の
音声のみを抽出することを目的とする従来技術として
は、雑音源の情報を利用する2入力方式と、混在された
音声しか利用できない1入力方式とが知られている。
2. Description of the Related Art As conventional techniques for removing noise mixed in voice or extracting only a specific voice, there are a two-input method that uses information of noise sources and a one-input method that can use only mixed voice. Method is known.

【0004】2入力方式としては、適応フィルタを用い
た雑音除去方法が知られている(例えば、B.Widrow et
al.:“Adaptive Noise Cancelling:Principles and App
lications ”,Proc.IEEE,Vol.63,No.12,pp.1692-1716(1
975))。
A noise removal method using an adaptive filter is known as a two-input method (for example, B. Widrow et.
al .: “Adaptive Noise Cancelling: Principles and App
lications ”, Proc.IEEE, Vol.63, No.12, pp.1692-1716 (1
975)).

【0005】1入力方式としては、音声信号が存在しな
い区間を何らかの方法により検出し、その区間から雑音
を推定してウィーナーフィルタ(例えば、N.Wiener:
“Extrapolation,Interpolation and Smoothing of Sta
tionary Time Series,with Engineering Applications
”,John Wiley & Sons,(1949) )やスペクトルサブト
ラクション法(S.F.Boll: “Suppression of Acoustic
Noise in Speech Using Spectral Subtraction”,IEEE
Trans.,Vol.ASSP-27,No.2, April(1979))により雑音除
去を行う。
As a one-input method, a section in which a voice signal does not exist is detected by some method, noise is estimated from the section, and a Wiener filter (for example, N. Wiener:
“Extrapolation, Interpolation and Smoothing of Sta
tionary Time Series, with Engineering Applications
, John Wiley & Sons, (1949)) and the spectral subtraction method (SFBoll: “Suppression of Acoustic
Noise in Speech Using Spectral Subtraction ”, IEEE
Trans., Vol.ASSP-27, No.2, April (1979)) removes noise.

【0006】[0006]

【発明が解決しようとする課題】ところで、聴覚障害者
や高齢者には、放送の番組音声、特に人の声が聞き取り
にくいことが多い。特に、番組効果のために音楽や効果
音がスピーチと混合された場合、極めて聞き取りにくく
なる。
By the way, it is often difficult for a hearing impaired person or an elderly person to hear a broadcast program sound, especially a human voice. In particular, if music or sound effects are mixed with speech for program effects, it becomes extremely difficult to hear.

【0007】これを解決するために、上記従来の1入力
方式を適用して、受信した音声だけからスピーチを分離
することも考えられるが、放送システムでは様々な音声
を扱うため、非常に困難である。また、2入力方式によ
り、スピーチや背景音の情報を送ることも考えられる
が、放送等のシステムではその伝送容量に限りがある。
例えば、通常の音声信号の他にスピーチの音声波形その
ものを伝送しようとすると、当然さらに1チャンネル分
の伝送容量が必要となり、効率的な伝送を行うには好ま
しくない。
In order to solve this, it is possible to apply the above-mentioned conventional one-input method to separate the speech from only the received speech, but it is very difficult because the broadcasting system handles various speeches. is there. It is also possible to send information on speech and background sound by a two-input method, but the transmission capacity is limited in systems such as broadcasting.
For example, if an attempt is made to transmit a speech voice waveform itself in addition to a normal voice signal, naturally one more channel of transmission capacity is required, which is not preferable for efficient transmission.

【0008】従って、現行の放送システム、特に音声の
放送における受信者サービスには、ステレオ放送、2か
国語放送、音声多重放送等、音声チャンネルを増やすこ
とによる付加価値的な音声のサービスはあるものの、聴
覚障害者や高齢者など、通常の番組音声が聞き辛い受信
者を対象に、情報伝達の本質であるスピーチを聞きよく
するための配慮はなされていないのが現状である。
Therefore, although there is a value-added voice service such as stereo broadcast, bilingual broadcast, voice multiplex broadcast, etc. by increasing the number of voice channels, the receiver service in the current broadcast system, especially voice broadcast, is available. However, the present situation is that no consideration is given to improve the listening of the speech, which is the essence of information transmission, to the recipients such as the hearing impaired and the elderly who have difficulty hearing the normal program sound.

【0009】本発明は、上記事情に鑑みてなされたもの
であり、その目的は、付加情報の容量を少なく抑えたま
ま高音質でスピーチと背景音とを分離できるとともに、
聴取者が自分の好みの割合で両者を混合することのでき
る混合音声信号伝送方式を提供することにある。
The present invention has been made in view of the above circumstances, and an object thereof is to separate a speech and a background sound with high sound quality while suppressing the volume of additional information to be small.
It is an object of the present invention to provide a mixed audio signal transmission system that enables a listener to mix both at a ratio of his or her preference.

【0010】[0010]

【課題を解決するための手段】上記の目的を達成するた
めに本発明に係る混合音声信号伝送方式は、送信側で
は、スピーチと背景音とを混合するとともに、スピーチ
と背景音とから信号分離用の付加情報を生成してこれら
混合音声信号と付加情報信号とを多重して伝送する一
方、受信側では、受信信号から混合音声と付加情報とを
分離するとともに、付加情報に基づいてスピーチと背景
音を分離し、分離したスピーチと背景音は聴取者の好み
の割合で混合されるようにしたことを特徴とする。
In order to achieve the above object, a mixed voice signal transmission system according to the present invention, on the transmitting side, mixes speech and background sound and separates the signal from the speech and background sound. While generating the additional information for use and multiplexing and transmitting the mixed voice signal and the additional information signal, the receiving side separates the mixed voice and the additional information from the received signal, and gives a speech based on the additional information. The feature is that the background sound is separated, and the separated speech and the background sound are mixed at a ratio of the listener's preference.

【0011】[0011]

【作用】送信側において、スピーチの各フレームが、無
音区間か、周期的区間か、あるいは非周期的区間かとい
う区間情報、スピーチが周期的区間であるときのピッチ
データ、スピーチが有音区間であるときのスピーチのパ
ワースペクトル包絡を表すベクトル番号、およびスピー
チが有音区間であるときの背景音のパワースペクトル包
絡を表すベクトル番号等の付加情報が生成され、混合音
声信号とともに多重伝送される。
On the transmitting side, section information indicating whether each speech frame is a silent section, a periodic section, or an aperiodic section, pitch data when the speech is a periodic section, and speech is a speech section. Additional information such as a vector number representing a power spectrum envelope of a speech at a certain time and a vector number representing a power spectrum envelope of a background sound when the speech is a voiced section is generated and multiplexed with the mixed voice signal.

【0012】受信側では、先ず、混合音声と付加情報と
が分離され、この付加情報に基づき、混合音声がスピー
チと背景音に分離される。分離されたスピーチと背景音
は聴取者の好みの割合で混合された音声となる。
At the receiving side, first, the mixed voice and the additional information are separated, and the mixed voice is separated into the speech and the background sound based on the additional information. The separated speech and background sound are mixed sounds at a ratio of the listener's preference.

【0013】[0013]

【実施例】図1は、本発明方式が適用された一実施例構
成を示すブロック図である。
1 is a block diagram showing the construction of an embodiment to which the system of the present invention is applied.

【0014】図示の装置の送信系は、音声混合器1と、
付加情報抽出器2と、送信機3とを備え、スピーチと背
景音とを混合するとともに、スピーチと背景音とから付
加情報を生成してこれら混合音声信号と付加情報信号と
を多重して伝送する。一方の受信系は、受信機4と、ス
ピーチ/背景音分離器5と、音声混合器6とを備え、受
信信号から混合音声と付加情報とを分離するとともに、
付加情報に基づいてスピーチと背景音を分離し、分離し
たスピーチと背景音は好みの割合で混合される。
The transmission system of the device shown in the figure comprises a sound mixer 1.
The additional information extractor 2 and the transmitter 3 are provided to mix the speech and the background sound, generate additional information from the speech and the background sound, and multiplex and transmit the mixed audio signal and the additional information signal. To do. One receiving system includes a receiver 4, a speech / background sound separator 5, and a voice mixer 6, and separates mixed voice and additional information from a received signal,
The speech and background sound are separated based on the additional information, and the separated speech and background sound are mixed at a desired ratio.

【0015】図2には、上記付加情報抽出器2の構成が
示されている。
FIG. 2 shows the configuration of the additional information extractor 2.

【0016】この付加情報抽出器2は、スピーチの信号
からフレームを切り出すフレーム切り出し部201と、
スピーチ信号のフレームから無音・有音を判定する無音
・有音判定部202と、有音区間のピッチを抽出するピ
ッチ抽出部203と、同じく有音区間からフレームの線
形予測分析を行うLPC分析部204と、LPC分析部
204のスペクトル包絡の係数をベクトル量子化するベ
クトル量子化部205と、背景音の信号からフレームを
切り出すフレーム切り出し部206と、切り出されたフ
レームの線形予測分析を行うLPC分析部207と、L
PC分析部207のスペクトル包絡の係数をベクトル量
子化するベクトル量子化部208と、無音・有音判定部
202の区間情報とピッチ抽出部203のピッチデータ
と各ベクトル量子化部205および208の各ベクトル
番号とから符号化された付加情報を生成して前記送信機
3へ出力するエンコーダ209とを備えている。
The additional information extractor 2 includes a frame cutout unit 201 for cutting out a frame from a speech signal,
A silence / speech determination unit 202 that determines silence / speech from a frame of a speech signal, a pitch extraction unit 203 that extracts a pitch of a speech segment, and an LPC analysis unit that also performs linear prediction analysis of a frame from a speech segment. 204, a vector quantization unit 205 that vector-quantizes the spectrum envelope coefficient of the LPC analysis unit 204, a frame cutout unit 206 that cuts out a frame from a background sound signal, and an LPC analysis that performs linear prediction analysis of the cutout frame. Part 207 and L
A vector quantization unit 208 for vector-quantizing the spectrum envelope coefficient of the PC analysis unit 207, section information of the silence / sound determination unit 202, pitch data of the pitch extraction unit 203, and each of the vector quantization units 205 and 208. An encoder 209 that generates additional information encoded from the vector number and outputs the encoded additional information to the transmitter 3.

【0017】次に、この付加情報抽出器2の作用を説明
する。
Next, the operation of the additional information extractor 2 will be described.

【0018】スピーチは、フレーム切り出し部201に
おいて、フレーム長20ms、フレーム周期10msの
ハミング窓により一定長のフレームに切り出される。切
り出された各フレームは無音・有音判定部202に出力
される。
In the frame cutout unit 201, a speech is cut out into a frame of a fixed length by a Hamming window having a frame length of 20 ms and a frame period of 10 ms. Each clipped frame is output to the silence / sound determination unit 202.

【0019】無音・有音判定部202では、供給された
各フレームが無音区間か有音区間かの判定をそのパワー
に基づいて行う。ここでいう無音区間とは、スピーチの
無音区間、すなわち言葉を話していない区間のことをい
い、有音区間とは無音区間以外の区間をいう。この区間
情報はエンコーダ209に出力される。
The silence / speech judging section 202 judges whether each of the supplied frames is a silent section or a sound section based on its power. The silent section referred to here is a silent section of speech, that is, a section in which no words are spoken, and the voiced section is a section other than the silent section. This section information is output to the encoder 209.

【0020】有音区間については、ピッチ抽出部203
においてそのピッチが抽出される。ピッチが抽出された
場合はこれを周期的区間とし、ピッチが抽出されない場
合には非周期的区間とする。周期的区間のピッチデータ
はエンコーダ209に出力される。
For the voiced section, the pitch extraction unit 203
At, the pitch is extracted. When the pitch is extracted, it is set as a periodic section, and when the pitch is not extracted, it is set as an aperiodic section. The pitch data of the periodic section is output to the encoder 209.

【0021】また、有音区間と判定されたフレームにつ
いては、LPC分析部204において線形予測分析がさ
れる。ここでは、5次のLPCケプストラム係数を用い
パワースペクトルの包絡を表す係数が求めれる。こうし
て求められたスペクトル包絡の係数はベクトル量子化部
205に出力される。
Further, the LPC analysis section 204 carries out a linear prediction analysis for the frame determined to be in the voiced section. Here, the coefficient representing the envelope of the power spectrum is obtained using the fifth-order LPC cepstrum coefficient. The coefficient of the spectrum envelope thus obtained is output to the vector quantization unit 205.

【0022】ベクトル量子化部205では、スペクトル
包絡の係数がベクトル量子化されベクトル番号に変換さ
れる。なお、ベクトル量子化のためのコードブックは、
予め多数のスピーチから作成しておく。また、コードブ
ックのサイズは8ビット256とし、LBG(Linde,Bu
zo,Gray )アルゴリズムを用いてクラスタリングを行
う。このとき、真のスペクトルとコードブック中で最も
近いスペクトルとの距離が、ある一定のしきい値よりも
大きいときは量子化しない。求められたベクトル番号は
エンコーダ209に出力される。
In the vector quantizer 205, the coefficient of the spectrum envelope is vector quantized and converted into a vector number. The codebook for vector quantization is
Make a number of speeches in advance. Also, the codebook size is 256 bits, and LBG (Linde, Bu
zo, Gray) algorithm is used for clustering. At this time, when the distance between the true spectrum and the closest spectrum in the codebook is larger than a certain threshold value, quantization is not performed. The obtained vector number is output to the encoder 209.

【0023】一方、背景音に関しても、スピーチ同様
に、フレーム切り出し部206でフレーム切り出しが行
われ、切り出された各フレームの線形予測分析がLPC
分析部207で行われる。そのスペクトル包絡の係数は
ベクトル量子化部208でベクトル番号に変換される。
ただし、ベクトル量子化のためのコードブックは、前記
ベクトル量子化部205におけるコードブックとは異な
り、予め音楽や効果音等の多数の背景音から作成され
る。求められたベクトル番号はエンコーダ209に出力
される。
On the other hand, regarding the background sound, similarly to the speech, the frame cutout unit 206 performs frame cutout, and the linear prediction analysis of each cutout frame is performed by the LPC.
This is performed by the analysis unit 207. The coefficient of the spectrum envelope is converted into a vector number by the vector quantization unit 208.
However, unlike the codebook in the vector quantization unit 205, the codebook for vector quantization is created in advance from many background sounds such as music and sound effects. The obtained vector number is output to the encoder 209.

【0024】エンコーダ209には、スピーチの各フレ
ームが、無音区間か、周期的区間か、あるいは非周期的
区間かという区間情報、スピーチが周期的区間であると
きのピッチデータ、スピーチが有音区間であるときのス
ピーチのパワースペクトル包絡を表すベクトル番号、お
よびスピーチが有音区間であるときの背景音のパワース
ペクトル包絡を表すベクトル番号が供給され、これらの
情報は符号化された付加情報となる。
The encoder 209 has section information indicating whether each speech frame is a silent section, a periodic section, or an aperiodic section, pitch data when the speech is a periodic section, and speech is a sound section. Is supplied, and a vector number representing the power spectrum envelope of the background sound when the speech is a voiced section is supplied, and these information are encoded additional information. ..

【0025】こうして求められた付加情報は前記送信機
3において混合音声に多重されて伝送される。
The additional information thus obtained is transmitted to the transmitter 3 after being multiplexed with the mixed voice.

【0026】図3には、前記スピーチ/背景音分離器5
の構成が示されている。
In FIG. 3, the speech / background sound separator 5 is shown.
The configuration of is shown.

【0027】このスピーチ/背景音分離器5は、入力し
た付加情報から前記区間情報、ピッチデータ、スピーチ
のベクトル番号および背景音のベクトル番号を復号化す
るデコーダ501と、復号化された区間情報から混合音
声のフレーム切り出しを行うフレーム切り出し部502
と、フレームの区間を判定する区間判定部503と、無
音区間の混合音声を除去する除去部504と、有音区間
の混合音声を高速フーリエ変換するFFT505と、F
FT出力から背景音のパワースペクトルを減算するスペ
クトルサブトラクション部506と、スペクトルサブト
ラクション部506の出力スペクトルをフィルタリング
するウィーナーフィルタ507と、ウィーナーフィルタ
出力を高速逆フーリエ変換するIFFT508と、IF
FT出力をフィルタリングするくし形フィルタ509
と、フレームのつなぎ合わせを行うつなぎ合わせ部51
0と、適応フィルタ部511とを備えて構成されてい
る。
The speech / background sound separator 5 decodes the section information, the pitch data, the vector number of the speech and the vector number of the background sound from the input additional information, and the decoder 501 from the decoded section information. A frame cutout unit 502 for cutting out a frame of mixed voice
A section determination unit 503 that determines a section of a frame, a removal unit 504 that removes a mixed sound in a silent section, an FFT 505 that performs a fast Fourier transform of a mixed sound in a sound section, and F
A spectrum subtraction unit 506 that subtracts the power spectrum of the background sound from the FT output, a Wiener filter 507 that filters the output spectrum of the spectrum subtraction unit 506, an IFFT 508 that performs a fast inverse Fourier transform of the Wiener filter output, and an IF
Comb filter 509 for filtering FT output
And a joining portion 51 for joining the frames
0 and an adaptive filter unit 511.

【0028】次にこのスピーチ/背景音分離器5の作用
を説明する。
Next, the operation of this speech / background sound separator 5 will be described.

【0029】受信機4により受信信号が混合音声と付加
情報に分離された後、スピーチ/背景音分離器5に供給
される。
The received signal is separated by the receiver 4 into mixed voice and additional information, and then supplied to the speech / background sound separator 5.

【0030】デコーダ501では、付加情報から前記区
間情報、ピッチデータ、スピーチのベクトル番号および
背景音のベクトル番号がデコードされる。区間情報はフ
レーム切り出し部502と区間判定部503へ、ピッチ
データはくし形フィルタ509へ、スピーチのベクトル
番号はウィーナーフィルタ507へ、背景音のベクトル
番号はスペクトルサブトラクション部506へそれぞれ
出力される。
The decoder 501 decodes the section information, pitch data, vector number of speech and vector number of background sound from the additional information. The section information is output to the frame cutout unit 502 and the section determination unit 503, the pitch data is output to the comb filter 509, the vector number of the speech is output to the Wiener filter 507, and the vector number of the background sound is output to the spectrum subtraction unit 506.

【0031】フレーム切り出し部502では、入力した
混合音声がフレーム単位で切り出される。切り出しタイ
ミングは区間情報を参照しながら送信側と同期をとって
行う。
In the frame cutout unit 502, the input mixed voice is cut out in frame units. The cutout timing is synchronized with the transmitting side while referring to the section information.

【0032】区間判定部503では、フレームに切り出
された混合音声が区間情報を参照してスピーチの無音区
間、有音区間、周期的区間、非周期的区間に分離され
る。分離された無音区間は除去部504へ出力され、こ
の除去部504にて無音区間の混合音声が除去される。
除去された無音区間の混合音声はつなぎ合わせ部510
に出力される。
In the section determination unit 503, the mixed voice cut into frames is separated into a silent section of speech, a sound section, a periodic section, and an aperiodic section by referring to the section information. The separated silent section is output to the removing unit 504, and the removing unit 504 removes the mixed voice in the silent section.
The mixed voice of the removed silent section is connected by the joining unit 510.
Is output to.

【0033】有音区間については、FFT部505の高
速フーリエ変換によって周波数領域に変換され、混合音
声のパワースペクトルが求められる。
The voiced section is transformed into the frequency domain by the fast Fourier transform of the FFT section 505, and the power spectrum of the mixed voice is obtained.

【0034】スペクトルサブトラクション部506で
は、混合音声のパワースペクトルから背景音のベクトル
番号に対応したパワースペクトルが減算され、スピーチ
のパワースペクトルが求められる。このとき、減算結果
が負となるところは0に置き換える。
The spectrum subtraction unit 506 subtracts the power spectrum corresponding to the vector number of the background sound from the power spectrum of the mixed voice to obtain the power spectrum of the speech. At this time, the place where the subtraction result becomes negative is replaced with 0.

【0035】次に、ウィーナーフィルタ部507では、
入力したスピーチのベクトル番号に基づきスペクトルサ
ブトラクション部506の出力に対して次式で示される
特性を持つウィーナーフィルタ処理を施す。
Next, in the Wiener filter section 507,
Based on the input vector number of the speech, the Wiener filter processing having the characteristic shown by the following expression is applied to the output of the spectral subtraction unit 506.

【0036】 H(ω)=(スピーチのベクトル番号に対応したパワー
スペクトル)/(混合音声のパワースペクトル) ウィーナーフィルタ部507の出力スペクトルは、IF
FT部508の高速逆フーリエ変換によって時間波形に
復元される。この時間波形の周期的区間はくし形フィル
タ部509へ、非周期的区間はつなぎ合わせ部510へ
出力される。
H (ω) = (power spectrum corresponding to vector number of speech) / (power spectrum of mixed speech) The output spectrum of the Wiener filter unit 507 is IF
The time waveform is restored by the fast inverse Fourier transform of the FT unit 508. The periodic section of this time waveform is output to the comb filter section 509, and the non-periodic section is output to the joining section 510.

【0037】くし形フィルタ部509では、IFFT部
508の出力に対して、入力されたピッチデータに基づ
き、ピッチ周波数とその整数倍の周波数成分のみからな
るスピーチを取り出す。
The comb filter unit 509 extracts speech consisting of only the pitch frequency and frequency components that are integral multiples of the pitch frequency based on the input pitch data from the output of the IFFT unit 508.

【0038】上述のようにして復元された無音区間、周
期的区間、非周期的区間の各信号波形は、つなぎ合わせ
部510にて加算されて、分離されたスピーチとなる。
The signal waveforms of the silent section, the periodic section, and the aperiodic section restored as described above are added by the joining section 510 to form separated speech.

【0039】適応フィルタ部511では、分離されたス
ピーチに適応フィルタを施す。フィルタ出力を減算部5
12により混合音声から減算して背景音が分離される。
分離された背景音は適応フィルタ部511にフィードバ
ックされ適応フィルタ部511の出力が波形等価される
ように最適な係数に修正される。
The adaptive filter unit 511 applies an adaptive filter to the separated speech. Subtractor 5 for filter output
The background sound is separated by subtracting 12 from the mixed voice.
The separated background sound is fed back to the adaptive filter unit 511 and corrected to an optimum coefficient so that the output of the adaptive filter unit 511 is waveform-equalized.

【0040】こうして混合音声から分離されたスピーチ
と背景音は前記混合器6へ出力され、この混合器6によ
り聴取者の好みの割合で混合され最適な音声となるので
ある。
The speech and background sound separated from the mixed voice in this way are output to the mixer 6, and are mixed by the mixer 6 at a ratio of the listener's preference to obtain an optimum voice.

【0041】このように本実施例によれば、従来のスピ
ーチ・エンハンスメントや雑音除去技術では困難であっ
た受信側での信号分離が、信号分離に適した付加情報を
送信側から伝送することによって可能となる。
As described above, according to the present embodiment, the signal separation on the receiving side, which has been difficult with the conventional speech enhancement and noise removal techniques, is achieved by transmitting the additional information suitable for the signal separation from the transmitting side. It will be possible.

【0042】また、従来技術では、混合音声から背景音
を分離することは困難であったが、本実施例によれば、
スピーチと背景音の両方を抽出分離でき、分離されたス
ピーチと背景音を聴取者の最も聞きやすい割合で混合す
ることができる。したがって、放送システムに適用した
場合、ニュース番組やドラマなど、多様な背景音を持つ
番組を聴取するのに十分有効なものとなる
Further, in the prior art, it was difficult to separate the background sound from the mixed voice, but according to the present embodiment,
Both speech and background sound can be extracted and separated, and the separated speech and background sound can be mixed in a ratio that is most audible to the listener. Therefore, when applied to a broadcasting system, it is sufficiently effective for listening to programs with various background sounds such as news programs and dramas.

【0043】[0043]

【発明の効果】以上説明したように本発明によれば、付
加情報の容量を少なく抑えつつ、混合音声からスピーチ
と背景音とを高音質で分離でき、聴取者が自分の好みの
割合で両者を混合することが可能となる。
As described above, according to the present invention, it is possible to separate the speech and the background sound with high sound quality from the mixed voice while suppressing the volume of the additional information to be small, and the listener can use both at a ratio of his or her preference. Can be mixed.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明に係る混合音声信号伝送方式に全体構成
を示すブロック図である。
FIG. 1 is a block diagram showing an overall configuration of a mixed audio signal transmission system according to the present invention.

【図2】付加情報抽出器の一実施例構成を示すブロック
図である。
FIG. 2 is a block diagram showing the configuration of an embodiment of an additional information extractor.

【図3】スピーチ/背景音分離器の一実施例構成を示す
ブロック図である。
FIG. 3 is a block diagram showing the configuration of an embodiment of a speech / background sound separator.

【符号の説明】[Explanation of symbols]

2 付加情報抽出器 3 送信機 4 受信機 5 スピーチ/背景音分離器 6 混合器 2 Additional information extractor 3 Transmitter 4 Receiver 5 Speech / background sound separator 6 Mixer

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】 送信側では、スピーチと背景音とを混合
するとともに、スピーチと背景音とから信号分離用の付
加情報を生成してこれら混合音声信号と付加情報信号と
を多重して伝送する一方、受信側では、受信信号から混
合音声と付加情報とを分離するとともに、付加情報に基
づいてスピーチと背景音を分離し、分離したスピーチと
背景音は聴取者の好みの割合で混合されるようにしたこ
とを特徴とする混合音声信号伝送方式。
1. A transmitting side mixes a speech and a background sound, generates additional information for signal separation from the speech and the background sound, and multiplexes and transmits the mixed audio signal and the additional information signal. On the other hand, on the receiving side, the mixed voice and the additional information are separated from the received signal, and the speech and the background sound are separated based on the additional information, and the separated speech and the background sound are mixed at a ratio of the listener's preference. A mixed audio signal transmission method characterized by the above.
JP03211807A 1991-08-23 1991-08-23 Mixed audio signal receiver Expired - Fee Related JP3131249B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03211807A JP3131249B2 (en) 1991-08-23 1991-08-23 Mixed audio signal receiver

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03211807A JP3131249B2 (en) 1991-08-23 1991-08-23 Mixed audio signal receiver

Publications (2)

Publication Number Publication Date
JPH0556007A true JPH0556007A (en) 1993-03-05
JP3131249B2 JP3131249B2 (en) 2001-01-31

Family

ID=16611927

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03211807A Expired - Fee Related JP3131249B2 (en) 1991-08-23 1991-08-23 Mixed audio signal receiver

Country Status (1)

Country Link
JP (1) JP3131249B2 (en)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002152698A (en) * 2000-07-19 2002-05-24 Nec Corp Communication system
JP2003522439A (en) * 1999-06-15 2003-07-22 ヒアリング エンハンスメント カンパニー,リミティド ライアビリティー カンパニー Voice to residual audio (VRA) interactive hearing aid and auxiliary equipment
JP2003525466A (en) * 2000-03-02 2003-08-26 ヒアリング エンハンスメント カンパニー,リミティド ライアビリティー カンパニー Method and apparatus for accommodating primary content audio and remaining audio performance of secondary content in digital audio generation process
US6771777B1 (en) 1996-07-12 2004-08-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Process for coding and decoding stereophonic spectral values
WO2006022308A1 (en) * 2004-08-26 2006-03-02 Matsushita Electric Industrial Co., Ltd. Multichannel signal coding equipment and multichannel signal decoding equipment
US7150281B2 (en) 2002-10-28 2006-12-19 Kiss Nail Products, Inc. Conformable artificial fingernail and method of making same
US7185660B1 (en) 2004-05-13 2007-03-06 Kiss Nail Products, Inc. Artificial fingernail and method of making same
US7337783B2 (en) 2002-10-28 2008-03-04 Kiss Nail Products, Inc. Fingernail accessory and method of forming an artificial fingernail
US7677257B2 (en) 2002-10-28 2010-03-16 Kiss Nail Products, Inc. Artificial nail and method of forming same
US8108220B2 (en) 2000-03-02 2012-01-31 Akiba Electronics Institute Llc Techniques for accommodating primary content (pure voice) audio and secondary content remaining audio capability in the digital audio production process
US8422695B2 (en) 2007-02-15 2013-04-16 Sony Corporation Sound processing apparatus, sound processing method and program
US8448648B2 (en) 2002-10-28 2013-05-28 Kiss Nail Products, Inc. Artificial nail and method of forming same

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6771777B1 (en) 1996-07-12 2004-08-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Process for coding and decoding stereophonic spectral values
USRE42737E1 (en) 1999-06-15 2011-09-27 Akiba Electronics Institute Llc Voice-to-remaining audio (VRA) interactive hearing aid and auxiliary equipment
JP2003522439A (en) * 1999-06-15 2003-07-22 ヒアリング エンハンスメント カンパニー,リミティド ライアビリティー カンパニー Voice to residual audio (VRA) interactive hearing aid and auxiliary equipment
JP2003525466A (en) * 2000-03-02 2003-08-26 ヒアリング エンハンスメント カンパニー,リミティド ライアビリティー カンパニー Method and apparatus for accommodating primary content audio and remaining audio performance of secondary content in digital audio generation process
US8108220B2 (en) 2000-03-02 2012-01-31 Akiba Electronics Institute Llc Techniques for accommodating primary content (pure voice) audio and secondary content remaining audio capability in the digital audio production process
JP2002152698A (en) * 2000-07-19 2002-05-24 Nec Corp Communication system
US7677257B2 (en) 2002-10-28 2010-03-16 Kiss Nail Products, Inc. Artificial nail and method of forming same
US7337783B2 (en) 2002-10-28 2008-03-04 Kiss Nail Products, Inc. Fingernail accessory and method of forming an artificial fingernail
US8807145B2 (en) 2002-10-28 2014-08-19 Kiss Nail Products, Inc. Artificial nail and method of forming same
US8448648B2 (en) 2002-10-28 2013-05-28 Kiss Nail Products, Inc. Artificial nail and method of forming same
US7150281B2 (en) 2002-10-28 2006-12-19 Kiss Nail Products, Inc. Conformable artificial fingernail and method of making same
US8136535B2 (en) 2002-10-28 2012-03-20 Kiss Nail Products, Inc. Artificial nail and method of forming same
US7185660B1 (en) 2004-05-13 2007-03-06 Kiss Nail Products, Inc. Artificial fingernail and method of making same
WO2006022308A1 (en) * 2004-08-26 2006-03-02 Matsushita Electric Industrial Co., Ltd. Multichannel signal coding equipment and multichannel signal decoding equipment
US7630396B2 (en) 2004-08-26 2009-12-08 Panasonic Corporation Multichannel signal coding equipment and multichannel signal decoding equipment
US8422695B2 (en) 2007-02-15 2013-04-16 Sony Corporation Sound processing apparatus, sound processing method and program
US9762193B2 (en) 2007-02-15 2017-09-12 Sony Corporation Sound processing apparatus, sound processing method and program

Also Published As

Publication number Publication date
JP3131249B2 (en) 2001-01-31

Similar Documents

Publication Publication Date Title
EP0993670B1 (en) Method and apparatus for speech enhancement in a speech communication system
EP0814458B1 (en) Improvements in or relating to speech coding
US6539355B1 (en) Signal band expanding method and apparatus and signal synthesis method and apparatus
EP2176862B1 (en) Apparatus and method for calculating bandwidth extension data using a spectral tilt controlling framing
US6289311B1 (en) Sound synthesizing method and apparatus, and sound band expanding method and apparatus
JPH10509256A (en) Audio signal conversion method using pitch controller
US20080255825A1 (en) Providing translations encoded within embedded digital information
EP2030199B1 (en) Linear predictive coding of an audio signal
JP3131249B2 (en) Mixed audio signal receiver
JP5737808B2 (en) Sound processing apparatus and program thereof
JP2002014689A (en) Method and device for improving understandability of digitally compressed speech
JPH09204199A (en) Method and device for efficient encoding of inactive speech
JPH0644195B2 (en) Speech analysis and synthesis system having energy normalization and unvoiced frame suppression function and method thereof
JPH0946233A (en) Sound encoding method/device and sound decoding method/ device
JP4657570B2 (en) Music information encoding apparatus and method, music information decoding apparatus and method, program, and recording medium
JP2002341896A (en) Digital audio compression circuit and expansion circuit
US5687243A (en) Noise suppression apparatus and method
JP2000122695A (en) Back-end filter
JP2005530213A (en) Audio signal processing device
JP2000152394A (en) Hearing aid for moderately hard of hearing, transmission system having provision for the moderately hard of hearing, recording and reproducing device for the moderately hard of hearing and reproducing device having provision for the moderately hard of hearing
JP2000148161A (en) Method and device for automatically controlling sound quality and volume
GB2343822A (en) Using LSP to alter frequency characteristics of speech
JP2008186010A (en) Voice enhancement processing device
JPH06289896A (en) System and device for emphaizing feature of speech
JP2758189B2 (en) Stereo audio transmission system

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees