JP6451079B2 - Speech enhancement device and program, and speech decoding device and program - Google Patents
Speech enhancement device and program, and speech decoding device and program Download PDFInfo
- Publication number
- JP6451079B2 JP6451079B2 JP2014100856A JP2014100856A JP6451079B2 JP 6451079 B2 JP6451079 B2 JP 6451079B2 JP 2014100856 A JP2014100856 A JP 2014100856A JP 2014100856 A JP2014100856 A JP 2014100856A JP 6451079 B2 JP6451079 B2 JP 6451079B2
- Authority
- JP
- Japan
- Prior art keywords
- gain
- speech
- sample
- enhancement
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
本発明は、音声強調装置及びプログラム、並びに、音声復号装置及びプログラムに関し、例えば、通話システムに適用し得るものである。 The present invention relates to a speech enhancement device and program, and a speech decoding device and program, and can be applied to, for example, a call system.
近年、通話システムのデジタル化が進み、携帯電話システムなど、ほとんどの通話システムがデジタル化されている。このようなデジタル通話システムにおいては、伝送路上のデータ量低減を主な目的として音声圧縮技術(音声符号化技術)が用いられている。一般に、送話側で音声符号化して送信し、受話側で符号化音声信号を復号して得た音声信号は、音声符号化される前の音声信号に比べると品質が劣化する。特に、音声レベルの細かい変化が平均化され、明瞭度が低下してしまう。このような問題に対して、例えば、特許文献1に記載のような音声強調処理を音声信号に適用することが考えられる。特許文献1に記載の音声強調技術は、音声信号の立ち上がり部分のレベル変化を強調して、明瞭度を向上させるものである。
In recent years, digitalization of call systems has progressed, and most call systems such as mobile phone systems have been digitized. In such a digital call system, a voice compression technique (voice coding technique) is used mainly for the purpose of reducing the amount of data on the transmission path. In general, the quality of an audio signal obtained by encoding and transmitting speech on the transmitting side and decoding the encoded audio signal on the receiving side is deteriorated compared to the audio signal before being encoded. In particular, fine changes in the sound level are averaged, resulting in a decrease in clarity. For such a problem, for example, it is conceivable to apply a speech enhancement process as described in
ところで、符号化音声信号に対する復号処理によって得られた音声信号はデジタル信号である。一方、特許文献1に記載の音声強調装置は、複数の時定数回路を適用している。時定数回路はアナログ回路で実現するのに適した回路である。
By the way, the audio signal obtained by the decoding process on the encoded audio signal is a digital signal. On the other hand, the speech enhancement device described in
復号音声信号はデジタル信号であるため、時定数回路をデジタル回路で構成することも考えられる。しかし、デジタルフィルタなどの複雑な回路で時定数回路を実現する他なく、デジタル信号の音声信号を強調する音声強調装置が複雑、大型化してしまう。また、デジタル信号の復号音声信号をアナログ信号に変換して特許文献1に記載の音声強調装置に入力することも考えられる。しかし、復号音声信号に対しては、音声強調以外にも、イコライザ等の他の処理を行うことも多く、一部の回路だけアナログ回路で構成することは構成の無駄が多くなってしまう。
Since the decoded audio signal is a digital signal, it may be considered that the time constant circuit is constituted by a digital circuit. However, in addition to realizing a time constant circuit with a complex circuit such as a digital filter, a speech enhancement device that enhances a speech signal of a digital signal becomes complicated and large. It is also conceivable that the decoded speech signal of the digital signal is converted into an analog signal and input to the speech enhancement device described in
今日においては、デジタル処理が行う処理をソフトウェア処理で行うことも考えられる。しかし、ソフトウェア処理を行う場合には時定数回路に相当するプログラムが複雑になったり、他の処理がソフトウェア処理で実現されていても音声強調のために構成はアナログ回路で構成しなければならない、など、上述したと同様な課題を有する。 Nowadays, it is also conceivable to perform processing performed by digital processing by software processing. However, when performing software processing, the program corresponding to the time constant circuit becomes complicated, or even if other processing is realized by software processing, the configuration must be configured by an analog circuit for speech enhancement. Etc. have the same problems as described above.
そのため、デジタル処理やソフトウェア処理に適した音声強調装置及びプログラムや、そのような音声強調装置やプログラムを適用した音声復号装置及びプログラムが望まれている。 Therefore, a speech enhancement device and program suitable for digital processing and software processing, and a speech decoding device and program to which such speech enhancement device and program are applied are desired.
第1の本発明は、利得強調手段が音声信号に利得を乗算して強調する音声強調装置において、(1)音声信号のサンプル毎のレベルを計算するサンプルレベル計算手段と、(2)所定サンプル数のサンプルレベルに基づいて、所定サンプル数におけるサンプルレベルの代表値を計算する代表値計算手段と、(3)処理対象区間の上記代表値と直前区間の上記代表値とのみに基づき、上記音声信号を強調するための利得を計算する利得計算手段とを有することを特徴とする。 According to a first aspect of the present invention, there is provided a speech enhancement apparatus in which a gain enhancement unit multiplies a speech signal by gain to enhance (1) a sample level calculation unit that calculates a level for each sample of the speech signal, and (2) a predetermined sample. Representative value calculating means for calculating a representative value of the sample level in a predetermined number of samples based on a number of sample levels; and (3) the voice based only on the representative value of the processing target section and the representative value of the immediately preceding section. And gain calculating means for calculating a gain for enhancing the signal.
第2の本発明は、音声信号に強調する音声強調プログラムであって、コンピュータを、(1)音声信号のサンプル毎のレベルを計算するサンプルレベル計算手段と、(2)所定サンプル数のサンプルレベルに基づいて、所定サンプル数におけるサンプルレベルの代表値を計算する代表値計算手段と、(3)処理対象区間の上記代表値と直前区間の上記代表値とのみに基づき、上記音声信号を強調するための利得を計算する利得計算手段と、(4)音声信号に利得を乗算して強調する利得強調手段として機能させることを特徴とする。 The second aspect of the present invention is a speech enhancement program for emphasizing a speech signal, comprising: (1) sample level calculation means for calculating a level for each sample of the speech signal; and (2) a sample level of a predetermined number of samples. And (3) enhancing the audio signal based only on the representative value of the section to be processed and the representative value of the immediately preceding section. And (4) a gain enhancement unit that multiplies the audio signal by the gain for enhancement.
第3の本発明は、符号化音声信号を復号する音声復号部と、復号された音声信号を強調する音声強調部とを有する音声復号装置であって、上記音声強調部として、第1の本発明の音声強調装置を適用したことを特徴とする。 A third aspect of the present invention is a speech decoding apparatus having a speech decoding unit that decodes an encoded speech signal and a speech enhancement unit that emphasizes the decoded speech signal, and the first book is used as the speech enhancement unit. The speech enhancement device of the invention is applied.
第4の本発明は、コンピュータを、符号化音声信号を復号する音声復号部と、復号された音声信号を強調する音声強調部として機能させる音声復号プログラムであって、上記音声強調部として機能するプログラム部分として、第2の本発明の音声強調プログラムを適用したことを特徴とする。 The fourth aspect of the present invention is a speech decoding program that causes a computer to function as a speech decoding unit that decodes an encoded speech signal and a speech enhancement unit that enhances the decoded speech signal, and functions as the speech enhancement unit. The speech enhancement program according to the second aspect of the present invention is applied as the program portion.
本発明によれば、デジタル処理やソフトウェア処理に適した音声強調装置及びプログラムや、そのような音声強調装置やプログラムを適用した音声復号装置及びプログラムを実現できる。 According to the present invention, it is possible to realize a speech enhancement device and program suitable for digital processing and software processing, and a speech decoding device and program to which such speech enhancement device and program are applied.
(A)第1の実施形態
以下、本発明による音声強調装置及びプログラム、並びに、音声復号装置及びプログラムの第1の実施形態を、図面を参照しながら説明する。
(A) First Embodiment Hereinafter, a first embodiment of a speech enhancement device and program, and a speech decoding device and program according to the present invention will be described with reference to the drawings.
(A−1)第1の実施形態の構成
図1は、第1の実施形態に係る音声復号装置の機能的構成を示すブロック図である。ここで、第1の実施形態の音声復号装置は、ハードウェアで構成することも可能であり、また、CPUが実行するソフトウェア(音声復号プログラム)とCPUとで実現することも可能であるが、いずれの実現方法を採用した場合であっても、機能的には図1で表すことができる。
(A-1) Configuration of First Embodiment FIG. 1 is a block diagram showing a functional configuration of a speech decoding apparatus according to the first embodiment. Here, the speech decoding apparatus according to the first embodiment can be configured by hardware, and can also be realized by software (speech decoding program) executed by the CPU and the CPU. Whichever implementation method is employed, it can be functionally represented in FIG.
図1において、第1の実施形態の音声復号装置1は、音声復号部2及び音声強調部3を有する。
In FIG. 1, the
音声復号部2には、図示しない受信部が伝送路復調して得た符号化音声信号が入力される。音声復号部2は、符号化音声信号を復号し、復号音声信号(デジタル信号)を得て音声強調部3に与える。ここで、音声符号化方式は限定されないが、CELP(Code Excited Linear Prediction)方式などの圧縮率が高い高能率符号化方式の場合に、第1の実施形態の効果が顕著となる。音声復号部2の内部構成は、既存のものと同様であるので、その詳細構成の説明は省略する。
The
音声強調部3は、第1の実施形態の音声強調装置に相当するものである。第1の実施形態の音声強調部3は、復号音声信号レベルが増大するときにはその増大の仕方の勢いを増す(増大を速くする)と共に、復号音声信号レベルが減少するときにはその減少の仕方の勢いを増す(減少を速くする)ように強調した音声信号に、復号音声信号を変換する。言い換えると、音声強調部3は、復号音声信号の立ち上がり部分及び立ち下がり部分のレベル変化を強調するものである。
The
図2は、第1の実施形態の音声強調部3の内部構成を示す機能ブロック図である。
FIG. 2 is a functional block diagram showing the internal configuration of the
図2において、音声強調部3は、レベル計算回路10、フレーム総和計算回路11、利得計算回路12、遅延回路13及び強調演算回路14を有する。
In FIG. 2, the
レベル計算回路10は、入力された復号音声信号(以下、入力音声信号と呼ぶ)Sのサンプル毎のレベルを計算し、サンプルレベルSaをフレーム総和計算回路11に与えるものである。入力音声信号のサンプルレベルとして、入力音声信号サンプルの絶対値を計算するようにしても良く、また、入力音声信号サンプルの自乗値を計算するようにしても良い。
The
フレーム総和計算回路11は、入力音声信号SにおけるN個(Nは1以上)のサンプルでなるフレーム毎に、サンプルレベルSaの総和を計算し、フレーム総和Sfを利得計算回路12に与える。フレームを構成するサンプル数Nは、フレーム総和Sfに基づいて、サンプルレベルSaの変化傾向(増大傾向や減少傾向)を捉えることができる数であれば良い。サンプリングレートとの関係もあるが、例えば、サンプル数Nは1であっても良い。また、相前後するフレームは、完全に切り分けられたものであっても良く、前フレームの後半1/mのサンプルを後フレームの前半1/mのサンプルとするようなフレーム区間がオーバーラップしているものであっても良い。サンプル数Nやオーバーラップ量は、上述した増大や減少の変化速度に影響を与えるものである。
The frame
第1の実施形態のフレーム総和計算回路11は、フレームのサンプルレベルの代表値としてフレーム総和を計算しているが、代表値として、他の値を計算するようにしても良い。例えば、N個のサンプルレベルSaの平均値をフレーム代表値とするようにしても良く、また、フレーム総和の平方根をフレーム代表値とするようにしても良い。
Although the frame
利得計算回路12は、処理対象となっているフレームについてのフレーム総和Sfを、その直前フレームのフレーム総和(符号Sfpで表す)で割った値を求め、その値g(=Sf/Sfp)を利得として強調演算回路14に与える。処理対象フレームのフレーム総和Sf若しくは直前フレームのフレーム総和Sfpの少なくとも一方が0であって除算ができない場合には、例えば、利得gを1とする。また、除算ができない場合に、直前に算出した利得gを今回の処理対象フレームに対する利得とするようにしても良い。また、割った値そのものではなく、割った値の平方根や、割った値に所定の値を乗算した値などを利得gとするようにしても良い。割った値を適用するか、割った値の加工値を適用するかは、上述した増大や減少の変化速度に影響を与えるものである。
The
遅延回路13は、レベル計算回路10、フレーム総和計算回路11及び利得計算回路12でなる処理系における処理遅延時間分だけ、入力音声信号Sを遅延させ、遅延させた入力音声信号Snを強調演算回路14に与えるものである。すなわち、遅延回路13は、強調演算回路14に処理対象フレームの利得gが与えられているタイミングで、強調演算回路14にその処理対象フレームの入力音声信号Snが与えられるように、入力音声信号Sを遅延させるものである。
The
強調演算回路14は、利得gに基づいて、入力音声信号Snを強調するものである。強調演算回路14は、例えば、入力音声信号Snに利得gを単純に乗算して入力音声信号Snを強調する。
The
また、強調演算回路14は、入力音声信号(のサンプル)Snに乗算する利得gを、利得の変化が滑らかになるようにサンプル毎に変化させるようにしても良い。(1)式は、利得を入力音声信号のサンプル毎に変化させる場合の計算式である。(1)式において、gは処理対象フレームについて計算で得られた利得、gpは処理対象フレームの直前フレームについて計算で得られた利得、iは処理対象フレームの全N個のサンプルのうちの先頭側から数えてi(iは1〜N)番目の入力音声信号サンプルを規定するパラメータであり、g(i)は処理対象フレームの先頭側から数えてi番目の入力音声信号サンプルに乗算する利得を表している。
g(i)=gp*(N−i)/N+g*i/N …(1)
Further, the
g (i) = gp * (N−i) / N + g * i / N (1)
(A−2)第1の実施形態の動作
次に、第1の実施形態の音声復号装置1の動作を、全体動作、音声強調部3における音声強調動作の順に説明する。
(A-2) Operation of the First Embodiment Next, the operation of the
図示しない受信部が得た符号化音声信号は、音声復号部2に入力され、音声復号部2によって復号される。得られた復号音声信号Sは、音声強調部3において、その立ち上がり部分及び立ち下がり部分のレベル変化が強調され、強調後の音声信号Sgが出力される。
An encoded speech signal obtained by a receiving unit (not shown) is input to the
音声強調部3の内部においては、入力音声信号(復号音声信号)Sの立ち上がり部分及び立ち下がり部分のレベル変化が以下のように強調される。
Inside the
入力音声信号Sは、音声強調部3内のレベル計算回路10及び遅延回路13に与えられる。
The input speech signal S is given to the
入力音声信号Sのサンプル毎のレベルがレベル計算回路10によって計算され、得られたサンプルレベルSaがフレーム総和計算回路11に与えられる。フレーム総和計算回路11においては、フレーム毎に、全N個のサンプルレベルSaの総和が計算され、得られたフレーム総和Sfが利得計算回路12に与えられる。利得計算回路12においては、処理対象フレームについてのフレーム総和Sfが、その直前フレームのフレーム総和Sfpで除算され、その商g(=Sf/Sfp)が利得として強調演算回路14に与えられる。
The level for each sample of the input audio signal S is calculated by the
一方、遅延回路13に入力された入力音声信号Sは、レベル計算回路10、フレーム総和計算回路11及び利得計算回路12でなる処理系における処理遅延時間分だけ遅延され、遅延後の入力音声信号Snが強調演算回路14に与えられる。
On the other hand, the input audio signal S input to the
そして、強調演算回路14において、利得gに基づいて、入力音声信号Snに対する強調演算が実行され、入力音声信号Sの立ち上がり部分や立ち下がり部分のレベル変化が強調された音声信号Sgが強調演算回路14から出力される。
Then, the
ここで、強調演算回路14における強調演算が、利得gを入力音声信号Snに単純に乗算するものとする。この場合において、仮に、処理対象フレームのフレーム総和Sfが直前フレームのフレーム総和Sfpの1.2倍であったとすると、利得gは1.2となる。その結果、入力音声信号Snの処理対象フレームの各サンプルの値はそれぞれ1.2倍される。平均的に見て、処理対象フレームの各サンプルの値が直前フレームの各サンプルの値の1.2倍であった状況において、さらに利得g(=1.2)倍されるので、処理対象フレームの強調演算後の各サンプルの値は、直前フレームの各サンプルの値の1.44(=1.2×1.2)倍となる。以上の例から明らかなように、入力音声信号Sの立ち上がり部分のレベル変化が強調される(1.2から1.44へ)。
Here, it is assumed that the enhancement operation in the
また、仮に、処理対象フレームのフレーム総和Sfが直前フレームのフレーム総和Sfpの0.9倍であったとすると、利得gは0.9となる。その結果、入力音声信号Snの処理対象フレームの各サンプルの値はそれぞれ0.9倍される。平均的に見て、処理対象フレームの各サンプルの値が直前フレームの各サンプルの値の0.9倍であった状況において、さらに利得g(=0.9)倍されるので、処理対象フレームの強調演算後の各サンプルの値は、直前フレームの各サンプルの値の0.81(=0.9×0.9)倍となる。以上の例から明らかなように、入力音声信号Sの立ち下がり部分のレベル変化が強調される(0.9から0.81へ)。 If the frame sum Sf of the processing target frame is 0.9 times the frame sum Sfp of the immediately preceding frame, the gain g is 0.9. As a result, the value of each sample of the processing target frame of the input audio signal Sn is multiplied by 0.9. On average, in a situation where the value of each sample of the processing target frame is 0.9 times the value of each sample of the immediately preceding frame, the gain g (= 0.9) is further multiplied. The value of each sample after the enhancement calculation is 0.81 (= 0.9 × 0.9) times the value of each sample in the immediately preceding frame. As is clear from the above example, the level change at the falling portion of the input audio signal S is emphasized (from 0.9 to 0.81).
(A−3)第1の実施形態の効果
第1の実施形態によれば、絶対値演算(若しくは自乗演算(乗算))、総和演算、除算、乗算(若しくは積和)等の単純な演算によって、復号音声信号(入力音声信号)の立ち上がり部分や立ち下がり部分のレベル変化を強調することができる。
(A-3) Effects of the First Embodiment According to the first embodiment, by simple operations such as absolute value operation (or square operation (multiplication)), summation operation, division, multiplication (or product sum), etc. Thus, it is possible to emphasize the level change of the rising portion and the falling portion of the decoded audio signal (input audio signal).
このような強調処理により、復号音声信号のレベル変化が符号化処理や復号処理のために緩やかになった場合でも、強調後の音声信号のレベル変化が明確になって明瞭度を向上させることができる。 By such enhancement processing, even when the level change of the decoded speech signal becomes gentle due to the encoding processing or decoding processing, the level change of the enhanced speech signal becomes clear and the clarity can be improved. it can.
上述した特許文献1に記載の音声強調は、音声信号の立ち上がり部分しか強調できないものであったが、第1の実施形態によれば、音声信号の立ち上がり部分だけでなく音声信号の立ち下がり部分も強調することができ、明瞭度は一段と向上する。
The speech enhancement described in
(B)第2の実施形態
次に、本発明による音声強調装置及びプログラム、並びに、音声復号装置及びプログラムの第2の実施形態を、図面を参照しながら説明する。
(B) Second Embodiment Next, a second embodiment of the speech enhancement apparatus and program, and the speech decoding apparatus and program according to the present invention will be described with reference to the drawings.
第2の実施形態の音声復号装置1Aも、上述した図1に示すように、音声復号部2及び音声強調部3Aを有するが、音声強調部3Aが第1の実施形態のものと異なっている。
The
図3は、第2の実施形態の音声強調部3Aの内部構成を示す機能ブロック図であり、上述した図2との同一、対応部分には同一符号を付して示している。 FIG. 3 is a functional block diagram showing the internal configuration of the speech enhancement unit 3A of the second embodiment, and the same and corresponding parts as those in FIG.
図3において、第2の実施形態の音声強調部3Aは、レベル計算回路10、フレーム総和計算回路11、利得計算回路12、遅延回路13及び強調演算回路14に加え、利得制限回路20を有する。レベル計算回路10、フレーム総和計算回路11、利得計算回路12、遅延回路13及び強調演算回路14は、第1の実施形態のものと同様であるので、その機能説明は省略する。
In FIG. 3, the
第2の実施形態の場合、利得計算回路12から出力された利得gは利得制限回路20に与えられる。
In the case of the second embodiment, the gain g output from the
利得制限回路20は、入力された利得gが所定範囲の値である場合には、その範囲に応じた値に変換(制限)して出力し、入力された利得gが上記所定範囲以外の値の場合にはそのまま出力するものである。利得制限回路20は、例えば、変換テーブルで構成されたものであっても良い。また、利得制限回路20は、入力利得gを範囲の境界値(閾値)と比較し、所定範囲に属するときに、予め設定されている値を出力するようなデジタル回路やソフトウェアで構成されたものであっても良い。利得制限回路20は、制限処理後の利得glを強調演算回路14に与える。強調演算回路14は、利得制限回路20からの利得glに基づいて、第1の実施形態と同様な処理を行う。
When the input gain g is a value within a predetermined range, the
図4〜図6はそれぞれ、利得制限回路20の入出力利得の関係例(利得制限例)を示す説明図である。図4〜図6において、横軸は、利得制限回路20に入力された利得gの値を示しており、縦軸は、利得制限回路20から出力された利得glの値を示している。入出力利得の関係が異なれば異なる実施形態を構成しているが、以下ではまとめて説明する。
4 to 6 are explanatory diagrams showing examples of relationship between input and output gains of the gain limiting circuit 20 (gain limiting examples). 4 to 6, the horizontal axis represents the value of the gain g input to the
図4は、入力利得gが1に近い値の範囲M〜1/K(M>1、K>1)の値には制限後の利得glとして1を出力するようにしたものである。言い換えると、強調処理に不感帯を導入したものである。処理対象フレームのフレーム和と直前フレームのフレーム和とがほぼ同じでありレベル変化がほとんどない場合、すなわち、入力利得gが1に近い値の場合には、強調処理を実行させないように、図4に示すような利得制限を設ける。 In FIG. 4, 1 is output as a limited gain gl for values in the range M to 1 / K (M> 1, K> 1) where the input gain g is close to 1. In other words, a dead zone is introduced into the enhancement process. When the frame sum of the processing target frame and the frame sum of the immediately preceding frame are almost the same and there is almost no level change, that is, when the input gain g is a value close to 1, the enhancement processing is not performed. A gain limit as shown in FIG.
図5は、図4を用いて説明した不感帯に加え、利得の上限値P(P>1)、利得の下限値1/Q(Q>1)を導入したものである。利得gが上限値P以上の場合には、制限後の利得glとして上限値Pを出力する。利得gが下限値1/Q以下の場合には、制限後の利得glとして下限値1/Qを出力する。利得が大き過ぎたり小さ過ぎたりすると、音声強調が過度になされて音声強調によって却って音質を低下させる恐れもあり、そのため、利得に、上限値P及び下限値1/Qを導入する。図5は、利得の不感帯と利得の上下限値とを共に導入した場合を示しているが、利得の上下限値という制限だけを設けるようにしても良い。
FIG. 5 introduces a gain upper limit P (P> 1) and a gain
図6は、図4を用いて説明した不感帯処理に加え、音声信号の立ち下がり部分での強調処理を実行しないようにしたものである。音声強調による明瞭化は、立ち上がり部分の方が効果が表れ易く、処理負担を軽減する場合などには、このような制限を導入するようにしても良い。 FIG. 6 shows the case where the enhancement processing at the falling edge of the audio signal is not executed in addition to the dead zone processing described with reference to FIG. The clarification by speech enhancement is more effective at the rising portion, and such a restriction may be introduced when the processing load is reduced.
第2の実施形態の音声強調部(音声強調装置)によれば、第1の実施形態と同様な効果に加え、音声強調のための利得に制限を掛けるようにしたので、設計者が意図した特性や機能等を実現することができる。 According to the speech enhancement unit (speech enhancement device) of the second embodiment, in addition to the same effects as those of the first embodiment, the gain for speech enhancement is limited. Characteristics, functions, etc. can be realized.
(C)他の実施形態
上記各実施形態の説明においても種々変形実施形態に言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。
(C) Other Embodiments In the description of each of the above embodiments, various modified embodiments have been mentioned, and further modified embodiments as exemplified below can be given.
上記各実施形態においては、音声信号の全区間で音声強調(利得1による音声強調を含む)を行うものを示したが、有音無音判定を行い、有音区間の音声信号に対してのみ音声強調を行うようにしても良い。ここで、有音無音判定方法によっては、音声信号の立ち上がり部分の一部が無音区間と判定される恐れがあるが、判定された有音区間の前後のそれぞれに予め定めたサンプル数の延長期間を付加して有音区間とし、音声信号の立ち上がり部分や立ち下がり部分での音声強調が適切になされることを保証するようにしても良い。また、有音区間の全区間ではなく、有音区間の前半でのみ音声強調を行うようにしても良い。ここで、前半区間は固定長であっても良く、有音区間の半分の区間など可変長であっても良い。 In each of the above embodiments, voice enhancement (including voice enhancement with a gain of 1) is performed in all sections of a voice signal. However, a voice / silence determination is performed, and voice is spoken only for a voice signal in a voice section. Emphasis may be given. Here, depending on the sound / silence determination method, there is a possibility that a part of the rising portion of the audio signal is determined to be a silent section, but an extension period of a predetermined number of samples before and after the determined sound section. May be added to make a voiced section, and it may be ensured that the voice enhancement is appropriately performed at the rising and falling portions of the audio signal. In addition, voice enhancement may be performed only in the first half of a voiced section instead of the whole voiced section. Here, the first half section may have a fixed length, or may have a variable length such as a half section of the sound section.
上記各実施形態では、利得を算出する分子側の特徴量(例えばフレーム和)に係る処理対象区間と分母側の特徴量に係る直前区間とが同じ長さ(フレーム)であるものを示したが、これら区間の長さが異なっていても良い。例えば、処理対象区間が1フレーム期間であり、直前区間が2フレーム期間であっても良い。この場合において、特徴量としてフレーム和を適用するのであれば、直前区間の2フレームのフレーム和の平均を分母として利得を計算するようにしても良い。また、特徴量として、2つの区間の区間長の違いが影響にでないサンプルレベルの平均値を適用するようにしても良い。 In each of the embodiments described above, the processing target section related to the numerator-side feature quantity (for example, frame sum) for calculating the gain and the immediately preceding section related to the denominator-side feature quantity have the same length (frame). The lengths of these sections may be different. For example, the processing target section may be one frame period, and the immediately preceding section may be two frame periods. In this case, if the frame sum is applied as the feature amount, the gain may be calculated using the average of the frame sums of the two frames in the immediately preceding section as the denominator. Further, an average value of sample levels that does not affect the difference in section length between the two sections may be applied as the feature amount.
上記各実施形態では、音声強調部3、3Aが常に動作するものを示したが、利用者が音声強調部3、3Aを動作させるか否かを選択できるようにしても良い。
In each of the above embodiments, the
また、例えば、複数の音声符号化方式に対応できる音声復号装置の場合には、音声符号化方式に応じた音声強調部(若しくはその一部構成(利得制限回路))を設け、そのとき選択されている音声符号化方式に応じた音声強調部を動作させるようにしても良い。 In addition, for example, in the case of a speech decoding apparatus that can support a plurality of speech coding schemes, a speech enhancement unit (or a partial configuration thereof (gain limiting circuit)) corresponding to the speech coding scheme is provided and selected at that time. A voice emphasis unit corresponding to the voice coding method being used may be operated.
上記第2の実施形態では、利得制限回路が常に動作するものを示したが、利用者が利得制限回路を動作させるか否かを選択できるようにしても良い。 In the second embodiment, the gain limiting circuit always operates. However, the user may select whether to operate the gain limiting circuit.
また、利得制限回路として、制限特性(図4〜図6参照)が異なる複数の利得制限回路を設け、利用者が適用する利得制限回路を選択できるようにしても良い。 Also, as the gain limiting circuit, a plurality of gain limiting circuits having different limiting characteristics (see FIGS. 4 to 6) may be provided so that the user can select the gain limiting circuit to be applied.
1、1A…音声復号装置、2…音声復号部、3、3A…音声強調部(音声強調装置)、10…レベル計算回路、11…フレーム総和計算回路、12…利得計算回路、13…遅延回路、14…強調演算回路、20…利得制限回路。
DESCRIPTION OF
Claims (9)
音声信号のサンプル毎のレベルを計算するサンプルレベル計算手段と、
所定サンプル数のサンプルレベルに基づいて、所定サンプル数におけるサンプルレベルの代表値を計算する代表値計算手段と、
処理対象区間の上記代表値と直前区間の上記代表値とのみに基づき、上記音声信号を強調するための利得を計算する利得計算手段と
を有することを特徴とする音声強調装置。 In the speech enhancement device in which the gain enhancement unit multiplies the speech signal by gain to enhance the speech signal,
Sample level calculation means for calculating the level of each sample of the audio signal;
Representative value calculating means for calculating a representative value of the sample level in the predetermined number of samples based on the sample level of the predetermined number of samples;
A speech enhancement apparatus comprising: gain calculation means for calculating a gain for enhancing the speech signal based only on the representative value of the processing target section and the representative value of the immediately preceding section.
コンピュータを、
音声信号のサンプル毎のレベルを計算するサンプルレベル計算手段と、
所定サンプル数のサンプルレベルに基づいて、所定サンプル数におけるサンプルレベルの代表値を計算する代表値計算手段と、
処理対象区間の上記代表値と直前区間の上記代表値とのみに基づき、上記音声信号を強調するための利得を計算する利得計算手段と、
音声信号に利得を乗算して強調する利得強調手段と
して機能させることを特徴とする音声強調プログラム。 A speech enhancement program for emphasizing speech signals,
Computer
Sample level calculation means for calculating the level of each sample of the audio signal;
Representative value calculating means for calculating a representative value of the sample level in the predetermined number of samples based on the sample level of the predetermined number of samples;
Gain calculation means for calculating a gain for enhancing the audio signal based only on the representative value of the processing target section and the representative value of the immediately preceding section;
A speech enhancement program that functions as a gain enhancement means for enhancing a speech signal by multiplying the gain.
上記音声強調部として、請求項1〜6のいずれかに記載の音声強調装置を適用したことを特徴とする音声復号装置。 A speech decoding apparatus comprising: a speech decoding unit that decodes an encoded speech signal; and a speech enhancement unit that enhances the decoded speech signal,
A speech decoding device, wherein the speech enhancement device according to claim 1 is applied as the speech enhancement unit.
上記音声強調部として機能するプログラム部分として、請求項7に記載の音声強調プログラムを適用したことを特徴とする音声復号プログラム。 An audio decoding program that causes a computer to function as an audio decoding unit that decodes an encoded audio signal and an audio enhancement unit that emphasizes the decoded audio signal,
A speech decoding program, wherein the speech enhancement program according to claim 7 is applied as a program part that functions as the speech enhancement unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014100856A JP6451079B2 (en) | 2014-05-14 | 2014-05-14 | Speech enhancement device and program, and speech decoding device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014100856A JP6451079B2 (en) | 2014-05-14 | 2014-05-14 | Speech enhancement device and program, and speech decoding device and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015219285A JP2015219285A (en) | 2015-12-07 |
JP6451079B2 true JP6451079B2 (en) | 2019-01-16 |
Family
ID=54778729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014100856A Active JP6451079B2 (en) | 2014-05-14 | 2014-05-14 | Speech enhancement device and program, and speech decoding device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6451079B2 (en) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08110796A (en) * | 1994-10-13 | 1996-04-30 | Hitachi Ltd | Voice emphasizing method and device |
JP3102553B2 (en) * | 1996-09-05 | 2000-10-23 | 和彦 庄司 | Audio signal processing device |
JP4364555B2 (en) * | 2003-05-28 | 2009-11-18 | 日本電信電話株式会社 | Voice packet transmitting apparatus and method |
JP4850191B2 (en) * | 2008-01-16 | 2012-01-11 | 富士通株式会社 | Automatic volume control device and voice communication device using the same |
JP5115818B2 (en) * | 2008-10-10 | 2013-01-09 | 国立大学法人九州大学 | Speech signal enhancement device |
JP6065308B2 (en) * | 2012-09-07 | 2017-01-25 | パナソニックIpマネジメント株式会社 | Volume correction device |
-
2014
- 2014-05-14 JP JP2014100856A patent/JP6451079B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015219285A (en) | 2015-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11605394B2 (en) | Speech signal cascade processing method, terminal, and computer-readable storage medium | |
JP6546264B2 (en) | Apparatus and method for processing an audio signal using a harmonic postfilter | |
CN106653056B (en) | Fundamental frequency extraction model and training method based on LSTM recurrent neural network | |
JP2021107932A (en) | Method and device for processing audio signal, audio decoder, and audio encoder | |
CN110114827B (en) | Apparatus and method for decomposing an audio signal using a variable threshold | |
JP5773124B2 (en) | Signal analysis control and signal control system, apparatus, method and program | |
US10134420B2 (en) | Linear predictive analysis apparatus, method, program and recording medium | |
WO2013124712A1 (en) | Noise adaptive post filtering | |
CN110114828B (en) | Apparatus and method for decomposing audio signal using ratio as separation characteristic | |
CN110415714B (en) | Linear prediction analysis device, linear prediction analysis method, and recording medium | |
JP6451079B2 (en) | Speech enhancement device and program, and speech decoding device and program | |
RU2016146916A (en) | IMPROVED CORRECTION OF PERSONNEL LOSS USING SPEECH INFORMATION | |
JP4849023B2 (en) | Noise suppressor | |
JP2002366195A (en) | Method and device for encoding voice and parameter | |
JP2006113515A (en) | Noise suppressor, noise suppressing method, and mobile communication terminal device | |
JP2006126841A (en) | Periodic signal enhancement system | |
JP6307715B2 (en) | Audio signal processing apparatus and audio signal processing method | |
JP2016513270A (en) | Apparatus and method for processing an encoded signal, and encoder and method for generating an encoded signal | |
JP4638895B2 (en) | Decoding method, decoder, decoding device, program, and recording medium | |
JP5346230B2 (en) | Speaking speed converter | |
JP6559576B2 (en) | Noise suppression device, noise suppression method, and program | |
CN111788628A (en) | Encoding device, encoding method, program, and recording medium | |
JP2010026243A (en) | Automatic speech speed conversion device | |
JP2011118408A (en) | Coding method and program | |
JP2014187620A (en) | Speech communication delay reduction device and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180313 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180510 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181113 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181126 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6451079 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |