JPWO2009038115A1 - Speech coding apparatus, speech coding method, and program - Google Patents
Speech coding apparatus, speech coding method, and program Download PDFInfo
- Publication number
- JPWO2009038115A1 JPWO2009038115A1 JP2009533171A JP2009533171A JPWO2009038115A1 JP WO2009038115 A1 JPWO2009038115 A1 JP WO2009038115A1 JP 2009533171 A JP2009533171 A JP 2009533171A JP 2009533171 A JP2009533171 A JP 2009533171A JP WO2009038115 A1 JPWO2009038115 A1 JP WO2009038115A1
- Authority
- JP
- Japan
- Prior art keywords
- signal
- frequency
- speech
- unnecessary
- auditory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
高効率の音声符号化方式で携帯端末に対し、音楽やメロディの配信を行う際の音質の劣化を軽減する。音声符号化装置は、出力信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力する聴覚マスキング整形処理部120と、前記聴覚マスキング整形処理部の出力信号を音声圧縮符号化してビットストリームを出力する音声符号化処理を実行する音声符号化処理部130と、を備える(図1)。High-efficiency voice coding method reduces sound quality degradation when distributing music and melody to mobile terminals. The speech coding apparatus includes an auditory masking shaping processing unit 120 that suppresses and outputs a signal component that is audibly unnecessary due to the auditory masking effect, and outputs an output signal of the auditory masking shaping processing unit. A speech encoding processing unit 130 that executes speech encoding processing that performs speech compression encoding and outputs a bit stream (FIG. 1).
Description
[関連出願の記載]
本発明は、日本国特許出願:特願2007−245547号(2007年9月21日出願)の優先権主張に基づくものであり、同出願の全記載内容は引用をもって本書に組み込み記載されているものとする。
本発明は、音声符号化方式で伝送される音楽信号やメロディ信号等の音質を改善するための音声符号化装置、音声符号化方法及びプログラムに関する。[Description of related applications]
The present invention is based on the priority claim of Japanese patent application: Japanese Patent Application No. 2007-245547 (filed on Sep. 21, 2007), the entire description of which is incorporated herein by reference. Shall.
The present invention relates to a voice encoding device, a voice encoding method, and a program for improving the sound quality of music signals, melody signals, and the like transmitted by a voice encoding method.
近年、携帯端末に音楽やメロディを配信するサービスが普及化してきている。例えば、携帯電話で相手に電話したときに相手が出るまでの待ち受け時に、リングバックメロディとして網側に用意した音声処理装置から携帯電話に音楽信号を流したり、音声処理装置から音楽コンテンツを携帯電話に配信するサービス等が挙げられる。 In recent years, services for distributing music and melody to mobile terminals have become widespread. For example, when a call is made to the other party using a mobile phone, a music signal is sent from the voice processing device prepared on the network side to the mobile phone as a ringback melody, or music content is sent from the voice processing device to the mobile phone. The service etc. delivered to are mentioned.
こうしたサービスを実現する場合、再生機器となる携帯端末に搭載されている音声符号化方式(例えば、非特許文献1のAMR符号化方式)と同一の方式を用いて、音楽信号や音楽コンテンツを予め圧縮符号化したビットストリームで配信することになる。 When such a service is realized, a music signal or music content is preliminarily used by using the same method as the voice coding method (for example, the AMR coding method of Non-Patent Document 1) mounted on a portable terminal serving as a playback device. The data is distributed as a compressed and encoded bit stream.
上記音楽信号や音楽コンテンツを送信した場合の音質の劣化を対象とするものではないが、音質の改善を試みる文献として、特許文献1が挙げられる。特許文献1には、符号化された複数の調波の振幅と位相を入力して復号し、該復号された調波が他の調波により聴覚的にマスキングされる調波である場合にその調波の振幅を抑圧する振幅部分抑圧手段を備えた音声復号化装置が開示されている。なお、同文献には、復号した音声を符号化する構成は開示されていない。
Although not intended for deterioration of sound quality when the music signal or music content is transmitted,
また、特許文献2には、入力音声が非音声信号であるか否かを判別する判別手段と、判別結果により聴感補正フィルタを通過させるか否かを選択する経路選択手段と、を備えた音声符号化装置及び音声復号化装置が開示されている。なお、同文献の非音声信号とは、データ信号のことを指しており、入力信号が非音声(データ信号)である場合に、聴感補正フィルタを経由せず、その他の音声は聴感補正フィルタを経由して出力する構成となっている(段落0032、0099参照)。また、同文献にも、復号した音声を符号化する構成は開示されていない。 Japanese Patent Application Laid-Open No. 2004-26883 also includes a determination unit that determines whether or not the input sound is a non-speech signal, and a route selection unit that selects whether or not to pass the audibility correction filter based on the determination result. An encoding device and a speech decoding device are disclosed. The non-speech signal in this document refers to a data signal. When the input signal is non-speech (data signal), the non-speech signal does not pass through the audibility correction filter. The output is via (see paragraphs 0032 and 0099). Also, this document does not disclose a configuration for encoding decoded speech.
以上の特許文献1〜2及び非特許文献1〜5の全開示内容は、本書に引用をもって繰り込み記載されているものとする。以下に本発明による関連技術の分析を与える。
The entire disclosures of
上記AMR符号化方式等のCELP(Code Excitation Linear Prediction)型音声符号化方式は、原理的に通話音声に対して最適化してあり、音声信号を圧縮符号化しても音質の劣化はわずかであるが、音楽信号を圧縮符号化すると音質が大幅に劣化してしまう。このため、これらの音声符号化方式にてメロディや音楽コンテンツを配信すると、携帯端末での再生時に音質が大幅に劣化するという問題点がある。 A CELP (Code Excitation Linear Prediction) type audio encoding method such as the above AMR encoding method is optimized in principle for call speech, and there is little degradation in sound quality even if the audio signal is compression encoded. When the music signal is compression-encoded, the sound quality is greatly deteriorated. For this reason, when a melody or music content is distributed by these voice encoding methods, there is a problem that the sound quality is greatly deteriorated during reproduction on a portable terminal.
これは、音声信号に対して最適化された音声符号化方式では、モデル化できない音楽信号の成分が圧縮符号化により雑音となって再生信号に重畳し、この雑音が耳につくためと考えられる。 This is thought to be because, in a speech coding system optimized for speech signals, music signal components that cannot be modeled become noise due to compression coding and are superimposed on the playback signal, and this noise is heard. .
本発明は、上述した問題点に鑑みてなされたものであって、音声符号化方式で圧縮符号化したビットストリームを配信する必要のある携帯端末に対し、音楽やメロディの配信を行う際の音質の劣化を軽減することができる音声符号化装置、音声符号化方法及びプログラムを提供することにある。 The present invention has been made in view of the above-described problems, and is a sound quality when distributing music and melody to a mobile terminal that needs to distribute a bitstream compressed and encoded by an audio encoding method. It is an object to provide a speech coding apparatus, speech coding method, and program capable of reducing deterioration of the sound.
本発明の第1の視点によれば、音声信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力する聴覚マスキング整形処理部と、前記聴覚マスキング整形処理部の出力信号を音声圧縮符号化してビットストリームを出力する音声符号化処理を実行する音声符号化部と、を備える音声符号化装置が提供される。 According to a first aspect of the present invention, an auditory masking shaping processing unit that suppresses and outputs a signal component that is audibly unnecessary due to an auditory masking effect among signal components of an audio signal, and the auditory masking shaping processing unit A speech encoding device is provided that includes a speech encoding unit that performs speech encoding processing that outputs a bit stream by performing speech compression encoding of the output signal.
本発明の第2の視点によれば、音声符号化装置が、入力音声信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力し、前記音声符号化装置が、前記聴覚的に不要となる信号成分が抑圧された整形信号を音声圧縮符号化してビットストリームを出力する音声符号化方法が提供される。 According to the second aspect of the present invention, the speech coding apparatus suppresses and outputs a signal component that is audibly unnecessary due to the auditory masking effect among the signal components of the input speech signal, and the speech coding apparatus. However, there is provided a speech coding method for speech compression coding the shaped signal in which the auditory unnecessary signal component is suppressed and outputting a bit stream.
本発明の第3の視点によれば、音声符号化装置を構成するコンピュータに実行させるプログラムであって、入力音声信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力する聴覚マスキング整形処理と、前記聴覚マスキング整形処理がなされた整形信号を音声圧縮符号化してビットストリームを出力する音声符号化処理と、を前記コンピュータに実行させるプログラムが提供される。 According to a third aspect of the present invention, there is provided a program that is executed by a computer that constitutes a speech coding apparatus, and suppresses a signal component that is audibly unnecessary due to an auditory masking effect among signal components of an input speech signal. A program for causing the computer to execute an audio masking shaping process to be output and an audio encoding process to output a bit stream by audio compression encoding the shaped signal subjected to the audio masking shaping process is provided.
本発明によれば、音声符号化方式で圧縮符号化したビットストリームを配信する必要のある携帯端末に対し、音楽やメロディの配信を行う際の音質の劣化を軽減することができる。その理由は、聴覚的に不要な成分や劣化の原因となる成分を予め除去する構成を採用したことにある。 ADVANTAGE OF THE INVENTION According to this invention, deterioration of the sound quality at the time of delivering a music and a melody can be reduced with respect to the portable terminal which needs to deliver the bit stream compression-encoded by the audio | voice coding system. The reason is that a configuration is adopted in which components that are audibly unnecessary and components that cause deterioration are removed in advance.
100、140 端子
120 聴覚マスキング整形処理部
122 周波数変換部
124 平滑化部
126 整形部
128 周波数逆変換部
130 音声符号化処理部
250_1、250_2 切替部100, 140
音声信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力する手段と、聴覚的に不要となる信号成分が抑圧された出力信号を音声圧縮符号化してビットストリームを出力する手段と、を備える音声符号化装置は、以下の形態に展開することができる。 Of the signal components of the audio signal, a means for suppressing and outputting a signal component that is audibly unnecessary by the auditory masking effect, and a bit by compressing and encoding the output signal in which the signal component that is audibly unnecessary is suppressed A speech encoding device including means for outputting a stream can be developed in the following form.
前記聴覚的に不要となる信号成分を抑圧して出力する処理は、復号信号に対し予め定められた時間区間毎に、周波数軸上の高レベルの信号成分(マスカー)の存在により聴覚的に不要となる周波数成分(マスキー)を除去した上で、時間軸上に戻して出力することにより実現できる。 The process of suppressing and outputting the auditory unnecessary signal component is unnecessary auditoryly due to the presence of a high-level signal component (masker) on the frequency axis for each predetermined time interval for the decoded signal. This can be realized by removing the frequency component (masky) to be output and returning it to the time axis.
前記聴覚的に不要となる信号成分を抑圧して出力する処理手段は、例えば、入力音声信号より構成したブロックを周波数変換する周波数変換部と、前記周波数変換部の出力信号を平滑化する平滑化部と、前記平滑化部の出力信号をマスキング閾値として用いて、前記周波数変換部の出力信号中の不要な周波数成分を除去する整形部と、前記整形部の出力信号を逆変換して整形された信号を出力する周波数逆変換部と、により構成することができる。 The processing means that suppresses and outputs the signal components that are audibly unnecessary includes, for example, a frequency conversion unit that converts the frequency of a block composed of input audio signals, and smoothing that smoothes the output signal of the frequency conversion unit A shaping unit that removes unnecessary frequency components in the output signal of the frequency conversion unit using the output signal of the smoothing unit as a masking threshold, and the output signal of the shaping unit is inversely transformed and shaped And a frequency inverse transform unit that outputs the received signal.
前記マスキング閾値を用いて前記周波数変換部の出力信号中の不要な周波数成分を除去する方法に代え、あるいは、該方法と併用して、周波数軸上の予め定める個数の周波数成分が残るようレベルの低い周波数成分を除去する方法を用いることができる。 Instead of using the masking threshold to remove unnecessary frequency components in the output signal of the frequency converter, or in combination with this method, a level of a predetermined number of frequency components on the frequency axis remains. A method of removing low frequency components can be used.
また、予め定める帯域の周波数成分を前記除去対象とすることができる。 Further, a frequency component in a predetermined band can be the removal target.
前記音声符号化装置は、更に、入力音声信号の特徴を分析し、前記聴覚マスキング整形処理部を介した出力を行うか否かを切り替える切替部を備える構成とすることができる。 前記切替部は、前記入力音声信号が音楽信号の特徴を有する場合に、前記聴覚的に不要となる信号成分を抑圧してから出力する構成とすることができる。 The speech encoding apparatus may further include a switching unit that analyzes characteristics of the input speech signal and switches whether to perform output via the auditory masking shaping processing unit. The switching unit may be configured to output after suppressing the auditory unnecessary signal component when the input audio signal has a characteristic of a music signal.
続いて、本発明を実施するための最良の形態について図面を参照して詳細に説明する。 Next, the best mode for carrying out the present invention will be described in detail with reference to the drawings.
[第1の実施形態]
図1は、本発明の第1の実施形態に係る音声符号化装置の構成を示す図である。図1を参照すると、音声符号化装置は、聴覚マスキング整形処理部120と、音声符号化処理部130と、を備えて構成されている。なお、上記した聴覚マスキング整形処理部120、音声符号化処理部130は、回路による構成はもちろんとして、コンピュータを上記した各処理部として機能させるプログラムによっても実現することができる。[First Embodiment]
FIG. 1 is a diagram showing the configuration of a speech encoding apparatus according to the first embodiment of the present invention. Referring to FIG. 1, the speech encoding apparatus includes an auditory masking
聴覚マスキング整形処理部120は、端子100から入力される音声信号に対し周波数軸上で聴覚心理分析に基づく処理を行い、聴覚に影響ないと判断される成分を抑圧した上で時間軸上に戻して出力する。
The auditory masking
音声符号化処理部130は、聴覚マスキング整形処理部120の出力信号を入力し、予め定められた時間間隔毎に信号を区切って、音声符号化処理を施し圧縮符号化ビットストリームを端子140を通して出力する。音声符号化には、例えば、非特許文献1に記載のAMR音声符号化を用いることができ、この場合、前述の出力信号の区切り間隔は、20msとなる。ここで、非特許文献1の全記載内容は、本書に引用をもって繰込み記載されているものとする。
The speech
続いて、図1の聴覚マスキング整形処理部120の詳細構成について図2を参照して説明する。
Next, a detailed configuration of the auditory masking
図2を参照すると、本実施形態に係る聴覚マスキング整形処理部120は、周波数変換部122と、平滑化部124と、整形部126と、周波数逆変換部128とから構成されている。
Referring to FIG. 2, the auditory masking
周波数変換部122は、図1の端子100から入力された音声信号を、周波数軸上の成分に変換して変換信号を生成し、平滑化部124と整形部126に出力する。
The
上記変換信号の生成に際して、周波数変換部122は、複数の入力信号サンプルをまとめて、1ブロックを構成し、このブロックに対して周波数変換を適用する。周波数変換の例としては、フーリエ変換、コサイン変換、KL(カルーネンレーベ)変換などを挙げることができる。これらの変換の具体的な演算に関連する技術は、非特許文献2に開示されている。ここで、非特許文献2の全記載内容は、本書に引用をもって繰込み記載されているものとする。
When generating the converted signal, the
また、上記変換信号の生成に際して、周波数変換部122が、1ブロックの入力信号サンプルを窓関数で重み付けする構成も採用可能である。このような窓関数としては、ハミング、ハニング(ハン)、ケイザー、ブラックマンなどの窓関数が知られている。また、さらに複雑な窓関数を用いることもできる。これらの窓関数に関連する技術は、非特許文献3に開示されている。ここで、非特許文献3の全記載内容は、本書に引用をもって繰込み記載されているものとする。
In addition, it is possible to employ a configuration in which the
また、上記周波数変換部122が入力信号サンプルから1ブロックを構成する際に、各ブロックに重なり(オーバラップ)が生ずるようにすることもできる。例えば、ブロック長の50%のオーバラップを適用する場合には、あるブロックに属する信号サンプルの最後(後半)50%は、次のブロックに属する信号サンプルの最初(前半)50%となるように、複数のブロックで重複して用いられる。このオーバラップを有するブロック化と変換に関連する技術は、非特許文献3に開示されている。
Further, when the
さらに、上記した周波数変換部122を、複数の帯域通過フィルタから構成され、受信した入力信号を複数の周波数帯域に分割する帯域分割フィルタバンクで構成してもよい。。帯域分割フィルタバンクの各周波数帯域は等間隔であってもよいし、不等間隔であってもよい。不等間隔に帯域分割する場合、低域では狭帯域に分割して時間分解能を低く、高域では広い帯域に分割して時間分解能を高くすることができる。不等間隔分割の代表例には、低域に向かって帯域が逐次半分になるオクターブ分割や人間の聴覚特性に対応した臨界帯域分割などがある。帯域分割フィルタバンクとその設計法に関連する技術は、非特許文献3に開示されている。
Furthermore, the above-described
平滑化部124は、上記した周波数変換部122より入力された変換信号を平滑化し、整形部126に平滑化変換信号を出力する。平滑化の方法としては、非特許文献4に開示されている聴覚マスキング効果を利用する方法を挙げることができる。例えば、ある周波数成分が近傍の周波数成分をマスキングする関数を用いて、変換信号を周波数軸上で畳み込みすることにより、平滑化変換信号を生成することができる。ここで、非特許文献4の全記載内容は、本書に引用をもって繰込み記載されているものとする。
The smoothing
また、簡易的な平滑化方法として、次式[数1]により、S2(n)を算出し、S2(n)のエネルギレベルを下げた信号を平滑化信号としても良い。ここで、max(x,y)はxとyの大きい方を表す。E(n)は変換信号のエネルギであり、Nはブロックサイズである。 As a simple smoothing method, S2 (n) may be calculated by the following equation [Equation 1], and a signal obtained by lowering the energy level of S2 (n) may be used as a smoothed signal. Here, max (x, y) represents the larger of x and y. E (n) is the energy of the converted signal and N is the block size.
[数1]
S1(0)=E(0)
S1(n)=max(E(n),a×S1(n−1)) (n=1,…,N−1)
S2(N−1)=S1(N−1)
S2(n)=max(S1(n),b×S2(n+1)) (n=N−2,…,0)[Equation 1]
S1 (0) = E (0)
S1 (n) = max (E (n), a × S1 (n−1)) (n = 1,..., N−1)
S2 (N-1) = S1 (N-1)
S2 (n) = max (S1 (n), b × S2 (n + 1)) (n = N−2,..., 0)
このように算出した平滑化変換信号は、元の変換信号のエネルギレベルを平滑化したものとなり、マスキング閾値として使用することができる。即ち、このマスキング閾値よりもエネルギレベルの小さな周波数成分は聴覚上認知されないものとして除去対象となる。 The smoothed conversion signal calculated in this way is obtained by smoothing the energy level of the original conversion signal, and can be used as a masking threshold. That is, a frequency component having an energy level lower than the masking threshold value is to be removed as it is not perceptually perceived.
整形部126は、平滑化部124から入力された平滑化変換信号を用いて、変換信号を整形する。より具体的には、整形部126は、平滑化変換信号よりもエネルギレベルが小さな周波数成分を除去することにより、変換信号を整形する。
The
このとき、整形部126は、平滑化変換信号に対する変換信号のエネルギレベル比が大きなものから順に、予め定めた個数の周波数成分のみを残し、他の周波数成分を除去することにより変換信号を整形するようにしても良い。更に、整形部126が、帯域制限として、低域のみ、高域のみ、あるいは低域と高域の両方を除去するようにしても良い。
At this time, the
周波数逆変換部128は、整形された変換信号を逆変換して整形信号を生成し、整形信号を聴覚マスキング整形処理部120の出力信号として出力する。周波数逆変換部128において実行される逆変換は、周波数変換部122が適用する変換と対応する逆変換が選択されることが望ましい。例えば、周波数変換部122が、複数の入力信号サンプルをまとめて1ブロックを構成し、このブロックに対して周波数変換を適用するときには、周波数逆変換部128は同一数のサンプルに対して対応する逆変換を適用する。また、周波数変換部122が複数の入力信号サンプルから1ブロックを構成する際に、各ブロックに重なり(オーバラップ)を許容する場合には、これに対応して、周波数逆変換部128は逆変換後の信号に対して同一のオーバラップを適用する。さらに、周波数変換部122を帯域分割フィルタバンクで構成するときには、周波数逆変換部128を帯域合成フィルタバンクで構成する。帯域合成フィルタバンクとその設計法に関連する技術は、非特許文献3に開示されている。
The frequency
このようにして生成された整形信号は、上述のように平滑化部124と整形部126により、マスキング効果等の聴覚特性を利用し、聴覚上認知されない信号成分を除去した(聴覚的に不要な成分が除去された)後、時間軸上に戻された信号となる。
As described above, the smoothing
したがって、聴覚マスキング整形処理部120における聴覚マスキング整形処理を、AMR符号化方式などに代表されるCELP型分析合成符号化(詳細は非特許文献5で開示されている。非特許文献5の全記載内容は、本書に引用をもって繰込み記載されているものとする。)の前処理として利用した場合、聴覚的に不要な成分が除去された整形信号を分析することにより、線形予測係数やピッチ周期などのパラメータが安定し、復号後の信号の音質が向上する効果が得られる。
Therefore, the auditory masking shaping processing in the auditory masking shaping
[第2の実施形態]
続いて、上記本発明の第1の実施形態に変更を加えた本発明の第2の実施形態について説明する。[Second Embodiment]
Subsequently, a second embodiment of the present invention in which a change is made to the first embodiment of the present invention will be described.
図3は、本発明の第2の実施形態に係る音声符号化装置の構成を示すブロック図である。図3において、図1及び図2と同一の番号を付した構成要素は、図1及び図2と同一の動作を行うので、説明は省略する。 FIG. 3 is a block diagram showing a configuration of a speech encoding apparatus according to the second embodiment of the present invention. In FIG. 3, the constituent elements having the same numbers as those in FIGS. 1 and 2 perform the same operations as those in FIGS.
図3において、切替部250_1は、端子100から入力された音声信号を予め定められた時間間隔に区切って種々の特徴パラメータを抽出し、得られた特徴パラメータに基づいて、聴覚マスキング整形処理を施した方がよいかどうかを判別する。例えば、切替部250_1は、特徴パラメータの値を組み合わせて判断した結果、音楽性が強い(音楽信号の特徴を有する。)と判断した場合は、聴覚マスキング整形処理部120に、端子100から入力された音声信号を出力する。
In FIG. 3, the switching unit 250_1 extracts various feature parameters by dividing the audio signal input from the terminal 100 at predetermined time intervals, and performs auditory masking shaping processing based on the obtained feature parameters. Determine if it is better. For example, if the switching unit 250_1 determines that the musicality is strong (has a characteristic of a music signal) as a result of the determination by combining the characteristic parameter values, the switching unit 250_1 is input from the terminal 100 to the auditory masking shaping
一方、特徴パラメータの値を組み合わせて判断した結果、音声性が強い(音楽性が弱い。)と判断した場合は、切替部250_1は、切替部250_2に端子100から入力された音声信号を出力する。ここで、切替部250_2は、切替部250_1と同期して切り替え動作を行う。 On the other hand, when it is determined that the voice property is strong (musicality is weak) as a result of the combination parameter value determination, the switching unit 250_1 outputs the voice signal input from the terminal 100 to the switching unit 250_2. . Here, the switching unit 250_2 performs a switching operation in synchronization with the switching unit 250_1.
以上のとおり、本実施形態によれば、音楽系の信号を的確に捉えて、聴覚マスキング整形処理部120に、端子100から入力された音声信号を入力させることが可能となり、携帯端末での音質の劣化を更に軽減することができる。また、本実施形態によれば、音声性が強い音声信号が聴覚マスキング整形処理部120に入力されることを考慮する必要がなくなるため、聴覚マスキング整形処理部120における処理を、より効率のよいものとすることが可能となる。
As described above, according to the present embodiment, it is possible to accurately capture a music signal and input the audio signal input from the terminal 100 to the auditory masking shaping
以上、本発明の好適な実施形態を説明したが、本発明は、上記した各実施形態に限定されるものではなく、本発明の基本的技術的思想を逸脱しない範囲で、更なる変形・置換・調整を加えることができる。 The preferred embodiments of the present invention have been described above. However, the present invention is not limited to the above-described embodiments, and further modifications and replacements are possible without departing from the basic technical idea of the present invention. -Adjustments can be made.
以上、本発明の好適な実施形態を説明したが、本発明は、上記した各実施形態に限定されるものではなく、本発明の基本的技術的思想を逸脱しない範囲で、更なる変形・置換・調整を加えることができる。
[付記1−国際出願時請求項11]
入力音声信号より構成したブロックを周波数変換し、
前記周波数変換した信号を平滑化し、
前記平滑化した信号をマスキング閾値として用いて、前記周波数変換した信号から不要な周波数成分を除去し、
前記不要な周波数成分を除去した信号を逆変換することにより、前記聴覚的に不要となる信号成分を抑圧する請求項9又は10に記載の音声符号化方法。
[付記2−国際出願時請求項12]
周波数軸上の予め定める個数の周波数成分が残るよう周波数成分を除去することにより前記聴覚的に不要となる信号成分を抑圧する請求項9乃至11いずれか一に記載の音声符号化方法。
[付記3−国際出願時請求項13]
予め定める帯域の周波数成分を除去することにより前記聴覚的に不要となる信号成分を抑圧する請求項9乃至12いずれか一に記載の音声符号化方法。
[付記4−国際出願時請求項14]
入力音声信号の特徴を分析し、前記聴覚的に不要となる信号成分を抑圧するか否かを判定してから、前記聴覚的に不要となる信号成分を抑圧する請求項9乃至13いずれか一に記載の音声符号化方法。
[付記5−国際出願時請求項15]
前記入力音声信号が音楽信号の特徴を有する場合に、前記聴覚的に不要となる信号成分を抑圧する請求項14に記載の音声符号化方法。
[付記6−国際出願時請求項16]
音声符号化装置を構成するコンピュータに実行させるプログラムであって、
入力音声信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力する聴覚マスキング整形処理と、
前記聴覚マスキング整形処理がなされた整形信号を音声圧縮符号化してビットストリームを出力する音声符号化処理と、を前記コンピュータに実行させるプログラム。
The preferred embodiments of the present invention have been described above. However, the present invention is not limited to the above-described embodiments, and further modifications and replacements are possible without departing from the basic technical idea of the present invention. -Adjustments can be made.
[Appendix 1-Claim 11 at the time of international application]
The block composed of the input audio signal is frequency converted,
Smoothing the frequency converted signal;
Using the smoothed signal as a masking threshold, remove unnecessary frequency components from the frequency converted signal,
The speech encoding method according to claim 9 or 10, wherein the auditory unnecessary signal component is suppressed by inversely transforming the signal from which the unnecessary frequency component is removed.
[Appendix 2-Claim 12 at the time of international application]
The speech coding method according to any one of claims 9 to 11, wherein the audibly unnecessary signal component is suppressed by removing the frequency component so that a predetermined number of frequency components remain on the frequency axis.
[Appendix 3-Claim 13 at the time of international application]
The speech coding method according to any one of claims 9 to 12, wherein a signal component that is audibly unnecessary is suppressed by removing a frequency component of a predetermined band.
[Appendix 4-International application claim 14]
14. The auditory unnecessary signal component is suppressed after analyzing characteristics of an input audio signal and determining whether or not to suppress the auditory unnecessary signal component. The speech encoding method described in 1.
[Appendix 5-International filing claim 15]
15. The speech encoding method according to claim 14, wherein when the input speech signal has characteristics of a music signal, the auditory unnecessary signal component is suppressed.
[Appendix 6-Claim 16 at the time of international application]
A program to be executed by a computer constituting a speech encoding device,
Auditory masking shaping processing that suppresses and outputs signal components that are audibly unnecessary by the auditory masking effect among the signal components of the input audio signal;
A program that causes the computer to execute voice coding processing for voice compression coding the shaped signal subjected to the auditory masking shaping processing and outputting a bit stream.
Claims (16)
前記聴覚マスキング整形処理部の出力信号を音声圧縮符号化してビットストリームを出力する音声符号化処理を実行する音声符号化部と、
を備えることを特徴とする音声符号化装置。Auditory masking shaping processing unit that suppresses and outputs signal components that are audibly unnecessary by the auditory masking effect among the signal components of the audio signal;
A speech encoding unit that performs speech encoding processing for compressing and encoding the output signal of the auditory masking shaping processing unit and outputting a bitstream;
A speech encoding apparatus comprising:
入力音声信号より構成したブロックを周波数変換する周波数変換部と、
前記周波数変換部の出力信号を平滑化する平滑化部と、
前記平滑化部の出力信号をマスキング閾値として用いて、前記周波数変換部の出力信号中の不要な周波数成分を除去する整形部と、
前記整形部の出力信号を逆変換して整形された信号を出力する周波数逆変換部と、を含むこと、を特徴とする請求項1又は2に記載の音声符号化装置。The auditory masking shaping processing unit
A frequency converter that converts the frequency of the block composed of the input audio signal;
A smoothing unit that smoothes the output signal of the frequency conversion unit;
A shaping unit that removes unnecessary frequency components in the output signal of the frequency conversion unit using the output signal of the smoothing unit as a masking threshold;
The speech coding apparatus according to claim 1, further comprising: a frequency inverse transform unit that inversely transforms an output signal of the shaping unit and outputs a shaped signal.
入力音声信号の特徴を分析し、前記聴覚マスキング整形処理部を介した出力を行うか否かを切り替える切替部を備える請求項1乃至5いずれか一に記載の音声符号化装置。Furthermore,
The speech coding apparatus according to any one of claims 1 to 5, further comprising a switching unit that analyzes characteristics of the input speech signal and switches whether to perform output via the auditory masking shaping processing unit.
前記聴覚的に不要となる信号成分が抑圧された整形信号を音声圧縮符号化してビットストリームを出力すること、
を特徴とする音声符号化方法。Among the signal components of the input audio signal, the auditory masking effect suppresses signal components that are audibly unnecessary and outputs them.
Audio compression-coding the shaped signal in which the auditory unnecessary signal component is suppressed, and outputting a bitstream;
A speech encoding method characterized by the above.
前記周波数変換した信号を平滑化し、
前記平滑化した信号をマスキング閾値として用いて、前記周波数変換した信号から不要な周波数成分を除去し、
前記不要な周波数成分を除去した信号を逆変換することにより、前記聴覚的に不要となる信号成分を抑圧する請求項9又は10に記載の音声符号化方法。The block composed of the input audio signal is frequency converted,
Smoothing the frequency converted signal;
Using the smoothed signal as a masking threshold, remove unnecessary frequency components from the frequency converted signal,
The speech encoding method according to claim 9 or 10, wherein the auditory unnecessary signal component is suppressed by inversely transforming the signal from which the unnecessary frequency component is removed.
入力音声信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力する聴覚マスキング整形処理と、
前記聴覚マスキング整形処理がなされた整形信号を音声圧縮符号化してビットストリームを出力する音声符号化処理と、を前記コンピュータに実行させるプログラム。A program to be executed by a computer constituting a speech encoding device,
Auditory masking shaping processing that suppresses and outputs signal components that are audibly unnecessary by the auditory masking effect among the signal components of the input audio signal;
A program that causes the computer to execute voice coding processing for voice compression coding the shaped signal subjected to the auditory masking shaping processing and outputting a bit stream.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007245547 | 2007-09-21 | ||
JP2007245547 | 2007-09-21 | ||
PCT/JP2008/066828 WO2009038115A1 (en) | 2007-09-21 | 2008-09-18 | Audio encoding device, audio encoding method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2009038115A1 true JPWO2009038115A1 (en) | 2011-01-06 |
Family
ID=40467925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009533171A Pending JPWO2009038115A1 (en) | 2007-09-21 | 2008-09-18 | Speech coding apparatus, speech coding method, and program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPWO2009038115A1 (en) |
WO (1) | WO2009038115A1 (en) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06332496A (en) * | 1993-05-21 | 1994-12-02 | Mitsubishi Electric Corp | Device and method for voice coding, decoding and post processing |
JPH07221650A (en) * | 1994-02-05 | 1995-08-18 | Sony Corp | Method and device for encoding information and method and device for decoding information |
JPH0950298A (en) * | 1995-08-07 | 1997-02-18 | Mitsubishi Electric Corp | Voice coding device and voice decoding device |
JP2000315099A (en) * | 1999-03-02 | 2000-11-14 | Emudasu Systems:Kk | Data compressing device and sound data processing method |
WO2004090869A1 (en) * | 2003-04-08 | 2004-10-21 | Nec Corporation | Code conversion method and device |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5742734A (en) * | 1994-08-10 | 1998-04-21 | Qualcomm Incorporated | Encoding rate selection in a variable rate vocoder |
ES2338117T3 (en) * | 2004-05-17 | 2010-05-04 | Nokia Corporation | AUDIO CODING WITH DIFFERENT LENGTHS OF CODING FRAME. |
-
2008
- 2008-09-18 WO PCT/JP2008/066828 patent/WO2009038115A1/en active Application Filing
- 2008-09-18 JP JP2009533171A patent/JPWO2009038115A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06332496A (en) * | 1993-05-21 | 1994-12-02 | Mitsubishi Electric Corp | Device and method for voice coding, decoding and post processing |
JPH07221650A (en) * | 1994-02-05 | 1995-08-18 | Sony Corp | Method and device for encoding information and method and device for decoding information |
JPH0950298A (en) * | 1995-08-07 | 1997-02-18 | Mitsubishi Electric Corp | Voice coding device and voice decoding device |
JP2000315099A (en) * | 1999-03-02 | 2000-11-14 | Emudasu Systems:Kk | Data compressing device and sound data processing method |
WO2004090869A1 (en) * | 2003-04-08 | 2004-10-21 | Nec Corporation | Code conversion method and device |
Also Published As
Publication number | Publication date |
---|---|
WO2009038115A1 (en) | 2009-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3881943B2 (en) | Acoustic encoding apparatus and acoustic encoding method | |
JP6546256B2 (en) | Method and apparatus for concealing frame error | |
KR100427753B1 (en) | Method and apparatus for reproducing voice signal, method and apparatus for voice decoding, method and apparatus for voice synthesis and portable wireless terminal apparatus | |
CN101512639B (en) | Method and equipment for voice/audio transmitter and receiver | |
RU2658892C2 (en) | Device and method for bandwidth extension for acoustic signals | |
US9406307B2 (en) | Method and apparatus for polyphonic audio signal prediction in coding and networking systems | |
JP5535241B2 (en) | Audio signal restoration apparatus and audio signal restoration method | |
JP3881946B2 (en) | Acoustic encoding apparatus and acoustic encoding method | |
US9830920B2 (en) | Method and apparatus for polyphonic audio signal prediction in coding and networking systems | |
JP2009530685A (en) | Speech post-processing using MDCT coefficients | |
JP2008026914A (en) | Fidelity-optimized variable frame length encoding | |
KR20070085532A (en) | Stereo encoding apparatus, stereo decoding apparatus, and their methods | |
CN114550732B (en) | Coding and decoding method and related device for high-frequency audio signal | |
JPWO2009131066A1 (en) | Signal analysis control and signal control system, apparatus, method and program | |
JPS63142399A (en) | Voice analysis/synthesization method and apparatus | |
KR100750115B1 (en) | Method and apparatus for encoding/decoding audio signal | |
JP3472279B2 (en) | Speech coding parameter coding method and apparatus | |
CN115171709B (en) | Speech coding, decoding method, device, computer equipment and storage medium | |
JP2008164823A (en) | Audio data processor | |
KR102630922B1 (en) | Perceptual audio coding with adaptive non-uniform time/frequency tiling using subband merging and time domain aliasing reduction. | |
JPWO2009038115A1 (en) | Speech coding apparatus, speech coding method, and program | |
JPWO2009038170A1 (en) | Voice processing apparatus, voice processing method, program, and music / melody distribution system | |
JPWO2009038158A1 (en) | Speech decoding apparatus, speech decoding method, program, and portable terminal | |
Bhatt | Implementation and Overall Performance Evaluation of CELP based GSM AMR NB coder over ABE | |
JP2004301954A (en) | Hierarchical encoding method and hierarchical decoding method for sound signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120403 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120731 |