JPH07334189A - Sound information analysis device - Google Patents

Sound information analysis device

Info

Publication number
JPH07334189A
JPH07334189A JP6131569A JP13156994A JPH07334189A JP H07334189 A JPH07334189 A JP H07334189A JP 6131569 A JP6131569 A JP 6131569A JP 13156994 A JP13156994 A JP 13156994A JP H07334189 A JPH07334189 A JP H07334189A
Authority
JP
Japan
Prior art keywords
noise
voice
information
sound
silence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6131569A
Other languages
Japanese (ja)
Inventor
Minako Oota
美奈子 太田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP6131569A priority Critical patent/JPH07334189A/en
Publication of JPH07334189A publication Critical patent/JPH07334189A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To remove a dynamic noise mixed and added to an input sound signal and to improve the S/N ratio of the sound signal by extracting a noise characteristic from the frame data incorporating no sound excepting a noise, using the extracted updated noise characteristic and removing the noise. CONSTITUTION:This device is provided with a sound/silence decision part 500 and an analysis part 600. The analysis part 600 is provided with an FFT part 660 for obtaining a pitch period from a logarithmic value of a power spectrum, a pitch extraction part 670 extracting the characteristic and the repeat period (pitch information) of the sound, a noise process part 720 extracting the noise characteristic, a frame setting part 730 for silence setting the data for outputting the silence and a table 710. Then, the noise process part 720 stores noise information at a silence time in the table 710. In a noise removal part 680, noise removal and a process improving the S/N of the sound are performed by a spectrum line at a sound time by using a frequency characteristic information value stored in the table 710.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、音声情報分析を行う音
声情報分析装置に関し、特に、音声信号において動的に
変化するノイズに対し、S/N比を向上させるものに関
する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice information analysis device for analyzing voice information, and more particularly to a voice information analysis device for improving the S / N ratio with respect to noise that dynamically changes in a voice signal.

【0002】[0002]

【従来の技術】入力音声信号を良好に伝達する従来の技
術としては、特願平5−138626号公報がある。
2. Description of the Related Art As a conventional technique for satisfactorily transmitting an input voice signal, there is Japanese Patent Application No. 5-138626.

【0003】特願平5−138626号公報の技術は、
ノイズの除去にノイズテーブルを用い、無音時に抽出し
た情報をノイズ情報として取扱い、有音時にノイズテー
ブルの情報を参照し、ノイズの除去を行う事によって、
良好な音声信号の伝達を行っていた。
The technique disclosed in Japanese Patent Application No. 5-138626 is as follows.
By using a noise table for noise removal, the information extracted when there is no sound is treated as noise information, and the information in the noise table is referenced when there is sound, and noise is removed.
Good voice signal was transmitted.

【0004】[0004]

【発明が解決しようとする課題】本発明は、上記装置に
おいて、如何なる使用用途、使用環境にも左右されず、
かつ、音声情報分析とノイズ除去が、ハードウェア的制
約もなく、入力音声信号に混合付加される動的なノイズ
を有効に取り除き、かつ音声信号のS/N比を向上さ
せ、良好な音声を伝達することを目的とし、高品質な音
声情報分析装置を提供することにある。
DISCLOSURE OF THE INVENTION The present invention, in the above-mentioned device, is not affected by any use application or use environment,
In addition, the voice information analysis and noise removal effectively removes the dynamic noise that is mixed and added to the input voice signal without increasing the hardware limitation, and improves the S / N ratio of the voice signal to obtain good voice. An object is to provide a high-quality voice information analysis device for the purpose of transmission.

【0005】[0005]

【課題を解決するための手段】前記目的達成のために、
本発明は、音声の標本化データを一定時間蓄積したフレ
ームデータの示す音声を分析した分析結果を出力する音
声情報分析方法であって、各フレームデータの示す音声
にノイズ以外の音声が含まれているか否かを判定するス
テップと、ノイズ以外の音声が含まれていないと判定さ
れた場合に、フレームデータからフレームデータの示す
音声に含まれているノイズの情報を抽出して記憶し、前
記フレームデータの示す音声の分析結果として、あらか
じめ用意した無音の音声の分析結果を示す情報を出力す
る無音系処理を実行するステップと、ピッチ情報から音
声の特徴情報を抽出して記憶する手段と、ノイズ以外の
音声が含まれていると判定した場合には、ノイズ以外の
音声が含まれていないと判定された場合に記憶したノイ
ズの特徴分をフレームデータの示す音声から除去する共
に、ピッチ情報から得た音声の特徴情報をもとに音声信
号を強調し、分析した結果を出力する有音系処理を実行
するステップとを有することを特徴とする音声情報分析
方法を提供する。
[Means for Solving the Problems] To achieve the above object,
The present invention is a voice information analysis method for outputting an analysis result obtained by analyzing voices represented by frame data obtained by accumulating voice sampling data for a certain period of time, and voices other than noise are included in the voices indicated by each frame data. And a step of determining whether or not there is a voice other than noise, and when it is determined that the voice included in the voice indicated by the frame data is extracted from the frame data and stored, As a result of analysis of the voice indicated by the data, a step of executing a silent system process of outputting information indicating a result of analysis of a silent voice prepared in advance, a means for extracting and storing characteristic information of the voice from pitch information, and noise. When it is determined that the sound other than the noise is included, the noise feature stored when it is determined that the sound other than the noise is not included And removing the voice signal indicated by the voice data from the voice data, emphasizing the voice signal based on the feature information of the voice obtained from the pitch information, and outputting the analyzed result. A voice information analysis method is provided.

【0006】[0006]

【作用】本発明に係る音声情報分析方法によれば、各フ
レームデータの示す音声にノイズ以外の音声が含まれて
いるか否かを判定し、ノイズ以外の音声が含まれていな
いと判定された場合に、フレームデータからフレームデ
ータの示す音声に含まれているノイズの特徴を抽出して
記憶すると共に、前記フレームデータの示す音声の分析
結果として、あらかじめ用意した無音の音声の分析結果
を示す情報を出力する無音系処理を実行する。
According to the voice information analysis method of the present invention, it is determined whether the voice indicated by each frame data contains voice other than noise, and it is determined that voice other than noise is not included. In this case, the characteristics of noise included in the voice indicated by the frame data are extracted from the frame data and stored, and the information indicating the analysis result of the silent voice prepared in advance is obtained as the analysis result of the voice indicated by the frame data. Silence processing that outputs is executed.

【0007】一方ノイズ以外の音声が含まれていると判
定した場合には、前回の無音系処理で記憶したノイズの
特徴分をフレームデータの示す音声から除去すると共
に、音声の特徴であるピッチ周期とその整数倍の周波数
を強調する処理を行い、S/N比を向上させたフレーム
データの分析結果を出力する有音系処理を実行する。
On the other hand, when it is determined that a voice other than noise is included, the noise feature stored in the previous silence processing is removed from the voice indicated by the frame data, and the pitch period, which is a voice feature, is removed. And a process of emphasizing a frequency that is an integral multiple thereof are executed, and a sound system process for outputting an analysis result of frame data with an improved S / N ratio is executed.

【0008】従って、常に最新のノイズの特徴抽出を行
っておくので、ノイズ以外の音声が含まれている期間に
は、この抽出した最新のノイズの特徴を用いて、ノイズ
の除去を行い、更に、常に最新のピッチ情報を求め音声
の特徴情報を記億させる為、使用中の話者変更にも即座
に対応し、該当する話者の音声特徴を強調することがで
きる。
Therefore, since the latest noise feature is always extracted, the noise is removed by using the extracted latest noise feature during the period in which voice other than noise is included. Since the latest pitch information is always obtained and the voice feature information is stored, it is possible to immediately respond to a change in the speaker in use and emphasize the voice feature of the corresponding speaker.

【0009】また、有音系処理と無音系処理は、同時に
発生することはないので、これらの処理の実行負荷は小
さく、音声情報分析の機能を制限せずに単一のプロセッ
サ上で実現出来る。
Further, since voiced system processing and silent system processing do not occur at the same time, the execution load of these processes is small and can be realized on a single processor without limiting the voice information analysis function. .

【0010】[0010]

【実施例】以下、本発明の実施例を幾つか説明する。EXAMPLES Some examples of the present invention will be described below.

【0011】図4は、本発明に係る音声情報分析装置を
適用した通信システムの構成を示す。
FIG. 4 shows the configuration of a communication system to which the voice information analyzing apparatus according to the present invention is applied.

【0012】図中1000が送信装置、2000が受信
装置である。
In the figure, 1000 is a transmitter and 2000 is a receiver.

【0013】送信装置1000は、音声信号を音声分析
を利用した手法で圧縮符号化して得られたレベル情報7
01とピッチ情報671を受信装置2000に送信す
る。
The transmitter 1000 compresses and encodes a voice signal by a method utilizing voice analysis, and obtains level information 7
01 and pitch information 671 are transmitted to the receiving device 2000.

【0014】前記送信装置1000は、音声の入力手段
である音声入力部200と、入力された入力音声をアナ
ログ/デジタル(A/D)変換して、音声標本化データ
に変換するA/D変換器300と、この音声標本化デー
タを、順次記憶するバッファメモリ400と、有音/無
音を判定する有音/無音判定部500を有する。
The transmitting apparatus 1000 has a voice input unit 200 which is a voice input unit, and an A / D converter which converts the input voice input thereto into analog / digital (A / D) and converts it into voice sampled data. It has a container 300, a buffer memory 400 for sequentially storing the voice sampling data, and a voice / non-voice determining unit 500 for determining voice / non-voice.

【0015】バッファメモリ400は、一定時間(10
〜30ミリ秒)記憶すると、一定時間音声標本化データ
(フレームデータ)401として有音/無音判定部50
0に送る。
The buffer memory 400 has a fixed time (10
(About 30 milliseconds), the sound / silence determination unit 50 stores the sound sampling data (frame data) 401 for a certain time.
Send to 0.

【0016】さらに、送信装置1000は、フレームデ
ータ401から、正規化波形系列702、レベル情報7
01と、ピッチ情報671を作成する分析部600と、
正規化波形系列702を、ベクトルコード801に変換
するベクトル量子化部800と、これらの情報を送出す
る送信部900を有する。
Further, the transmitting apparatus 1000, from the frame data 401, the normalized waveform sequence 702, the level information 7
01, and an analysis unit 600 that creates pitch information 671,
It has a vector quantizer 800 for converting the normalized waveform sequence 702 into a vector code 801, and a transmitter 900 for transmitting these pieces of information.

【0017】第一の実施例として、請求項1に係る有音
/無音判定部500、分析部600のブロックを図1に
示す。
As a first embodiment, FIG. 1 shows blocks of a voiced / non-voiced determination unit 500 and an analysis unit 600 according to claim 1.

【0018】上記有音/無音判定部500から出力され
た有音/無音判定子511により有音処理系と無音処理
系に処理を二分する。
The voice / silent discriminator 511 output from the voice / silent discriminating unit 500 divides the process into a voice processing system and a silence processing system.

【0019】分析部600は、FFT用にデータ設定を
行うFFTデータ設定部610と、フレームデータ40
1から前記FFTにより周波数特性を得る手段であるF
FT部620と、得られた複素数の絶対値の二乗値、パ
ワースペクトルを出力するパワースペクトル変換部63
0と、縦軸をパワースペクトル軸から振幅軸に変換する
軸変換部640と、テーブル710を利用してノイズを
除去するノイズ除去部680と、逆FFTする手段であ
る逆FFT部690と、逆FFTされた結果の最大値
を”1”にするための正規化部700と、パワースペク
トルの対数値(ケプストラム)からピッチ周期を求める
ためのFFT部660と、音声の特徴(高さ)と繰り返
し周期(ピッチ情報)を抽出するピッチ抽出部670
と、ノイズの特徴を抽出するノイズ処理部720と、無
音を出力するためのデータを設定する無音用フレーム設
定部730と、テーブル710を有する。
The analysis unit 600 includes an FFT data setting unit 610 for setting data for FFT and frame data 40.
F from 1 to means for obtaining frequency characteristics by the FFT
The FT unit 620 and the power spectrum conversion unit 63 that outputs the square value of the absolute value of the obtained complex number and the power spectrum.
0, an axis conversion unit 640 that converts the vertical axis from a power spectrum axis to an amplitude axis, a noise removal unit 680 that removes noise using the table 710, an inverse FFT unit 690 that is an inverse FFT unit, and an inverse FFT unit 690. A normalization unit 700 for setting the maximum value of the FFT result to “1”, an FFT unit 660 for obtaining a pitch period from the logarithmic value (cepstral) of the power spectrum, and a feature (pitch) of speech and repetition. Pitch extractor 670 for extracting the period (pitch information)
A noise processing unit 720 for extracting the characteristics of noise, a silence frame setting unit 730 for setting data for outputting silence, and a table 710.

【0020】上記FFT(Fast Fourier
Transform:高速フーリエ変換)部620、6
60は、信号のサンプリング値から元波形を周波数と振
幅によって再生する技法DFT(Discrete F
ourier Transform:離散フーリエ変
換)を更に高速に実現したものである。
The FFT (Fast Fourier)
Transform: Fast Fourier Transform) section 620, 6
60 is a technique for reproducing an original waveform from a sampled value of a signal by frequency and amplitude DFT (Discrete F
This is a faster implementation of the "ourier Transform" (discrete Fourier transform).

【0021】尚、FFT信号処理技術は、「信号処理入
門」雨宮 好文/佐藤 幸男箸 オーム社 P106〜
6.3 「高速フーリエ変換」によって、詳細に説明
されている。
The FFT signal processing technology is described in "Introduction to Signal Processing" Yoshifumi Amemiya / Yukio Sato Chopsticks Ohmsha P106-
6.3 "Fast Fourier Transform" describes in detail.

【0022】上記ピッチ抽出部670で、ピッチ周期を
求める際の方法としては、並列処理法、データ減少法、
ケプストラム法、ピリオドヒストグラム法等が有る。
(「ディジタル信号処理」古井 貞煕著)ピッチ抽出部
670では、ピッチ周期(基本周波数)の整数倍上に入
力音声信号の特徴が表れることから、この求められたピ
ッチ周期に基づいて、生成された情報をテーブル710
に記憶する。
As a method for obtaining the pitch period in the pitch extraction section 670, a parallel processing method, a data reduction method,
There are a cepstrum method, a period histogram method, and the like.
("Digital Signal Processing" by Sadahiro Furui) In the pitch extraction section 670, since the characteristics of the input speech signal appear above the integral multiple of the pitch cycle (fundamental frequency), it is generated based on the obtained pitch cycle. Information on the table 710
Remember.

【0023】上記テーブル710を用いて、ノイズを除
去し、S/N比を良くする方式例としては、テーブル7
10に格納する情報の種類に”重み付け”を用いる方式
が考えられる。
Table 7 is an example of a method for removing noise and improving the S / N ratio using the above table 710.
A method of using "weighting" for the type of information stored in 10 can be considered.

【0024】”重み付け”は、実際には0.0〜1.0
の数値であらわす。
The "weighting" is actually 0.0-1.0.
It is expressed by the numerical value of.

【0025】テーブル710は”1.0”で初期化して
おく。
The table 710 is initialized to "1.0".

【0026】テーブル710にはパワースペクトル列
(以後パワースペクトル)に対して、0.0〜1.0
の”重み付け”をした値を格納しておき、有音時のパワ
ースペクトル列(以後音声パワースペクトル)に対して
乗算を行う方式等がある。テーブル710には、ノイズ
パワースペクトルに対して、その絶対値の大きい順に
0.0〜1.0の重み付けを行った結果が格納される。
つまりノイズが顕著に表れている周波数には、1.0以
下を乗算することによって、有音パワースペクトルの該
当パワースペクトル値を元の値より減少の方向に移行さ
せ、ノイズ・スペクトルが現れない周波数には1.0の
重みを付けることによってその周波数のパワースペクト
ル値がそのまま残すことになる。その結果として、ノイ
ズの取り除かれたパワースペクトル列を得ることが可能
となる。
In the table 710, 0.0 to 1.0 for the power spectrum sequence (hereinafter power spectrum).
There is a method in which a value obtained by “weighting” is stored and a power spectrum sequence in the presence of a voice (hereinafter referred to as a voice power spectrum) is multiplied. The table 710 stores the result of weighting the noise power spectrum from 0.0 to 1.0 in descending order of absolute value.
That is, by multiplying the frequency in which noise is noticeable by 1.0 or less, the corresponding power spectrum value of the voiced power spectrum is shifted in the direction of decreasing from the original value, and the frequency at which the noise spectrum does not appear. Is weighted with 1.0, the power spectrum value of the frequency is left as it is. As a result, it is possible to obtain a power spectrum sequence from which noise has been removed.

【0027】ノイズ処理部720では、無音時のノイズ
情報を前記の方式によって格納する。
The noise processing section 720 stores the noise information when there is no sound by the above method.

【0028】更に、上記ノイズ処理部720によってあ
らかじめ作成されたテーブル710に対し、ピッチ抽出
部670では、テーブル710上に格納されている情報
(既に、0.0〜1.0が格納されている)に対し増加
方向に加算する(加算仮値:0.0〜1.0)。従っ
て、ピッチ周期周波数すなわち基本周波数の整数倍の周
波数に対応するテーブル710の値は1.0〜2.0の
値を取るので、該当した周波数は実際よりも強調される
ことになり、再生される音声信号の強調を計る。この
時、テーブル710に対する加算値はどの(基本周波数
の整数倍の)周波数に対しても同値であることが求めら
れる。同値でなければ、本来あった音声情報を損ない、
音声自体を加工してしまうからである。
Furthermore, in contrast to the table 710 created in advance by the noise processing section 720, the pitch extraction section 670 stores information stored in the table 710 (already stores 0.0 to 1.0). ) Is added in the increasing direction (temporary addition value: 0.0 to 1.0). Therefore, since the value of the table 710 corresponding to the pitch period frequency, that is, the frequency that is an integral multiple of the fundamental frequency takes a value of 1.0 to 2.0, the corresponding frequency is emphasized more than the actual frequency and is reproduced. Sound signal is emphasized. At this time, the added value to the table 710 is required to be the same value for any frequency (an integral multiple of the fundamental frequency). If they are not the same value, the original audio information will be lost,
This is because the voice itself is processed.

【0029】この様に、ノイズの情報と音声信号の特徴
情報を同じテーブルで利用することによって、テーブル
領域の節約が出来る。
In this way, the table area can be saved by using the noise information and the voice signal characteristic information in the same table.

【0030】上記ノイズ除去部680では、テーブル7
10に格納されている周波数特性情報値を用いて、有音
時のスペクトル列より、ノイズ除去と、音声のS/Nを
あげる処理する。
In the noise removing section 680, the table 7
Using the frequency characteristic information value stored in 10, processing is performed to remove noise and increase the S / N of the voice from the spectrum sequence in the presence of voice.

【0031】次に、第二の実施例について説明する。Next, the second embodiment will be described.

【0032】請求項1に係る、有音/無音部500、分
析部600のブロックを図2に示す。
FIG. 2 shows blocks of the voiced / silent part 500 and the analysis part 600 according to claim 1.

【0033】本第2実施例は、前記第1実施例と有音/
無音判定部500と分析部600の構成のみが異なる。
The second embodiment is similar to the first embodiment in that the voice /
Only the configurations of the silence determination unit 500 and the analysis unit 600 are different.

【0034】有音/無音判定部500は、フレームデー
タをFFT処理するためのデータ設定を行うFFTデー
タ設定部610と、フレームデータをFFTする手段で
あるFFT部620と、得られた複素数の二乗和を求め
るパワースペクトル変換部630と、上記フレームデー
タよりフレームデータの総和を取り、閾値と比較し、有
音/無音判定子511を出力する音声パワー判定部51
0と、上記有音/無音判定子の判定をする有音/無音判
定部650と、パワースペクトルをFFT処理するため
のFFT部660と、上記パワースペクトルの対数、ケ
プストラムよりピッチ情報を抽出し、無音時にはピッチ
周期が一定に定まらないこと(「ディジタル信号処理」
古井 貞煕箸 P57〜P59 4.9 ピッチ抽出)
から有音/無音を判定して、有音/無音判定子を出力す
るピッチ抽出部670を有する。
The sound / silence judging section 500 includes an FFT data setting section 610 for setting data for FFT processing of frame data, an FFT section 620 for FFTing frame data, and a square of the obtained complex number. A power spectrum conversion unit 630 for obtaining a sum and an audio power determination unit 51 for obtaining a sum of frame data from the frame data, comparing the sum with a threshold value, and outputting a sound / silence determiner 511.
0, a voice / silence determination unit 650 for determining the voice / silence determiner, an FFT unit 660 for FFT processing the power spectrum, logarithm of the power spectrum, and pitch information extracted from the cepstrum, The pitch period is not fixed during silence ("Digital signal processing")
Furui Sadahi chopsticks P57-P59 4.9 pitch extraction)
It has a pitch extraction unit 670 that determines whether there is sound or no sound and outputs a sound / soundless discriminator.

【0035】有音/無音の判定には、時間軸上のピッチ
情報を周波数軸上のピッチ周期に変換し、パワースペク
トルに対し、ピッチ周期ごとに極大値が存在すれば有
音、存在しなければ無音として判定を行う方法を実現す
る。
In determining the presence / absence of a sound, the pitch information on the time axis is converted into a pitch period on the frequency axis, and if there is a maximum value for each pitch period in the power spectrum, the presence or absence of the sound is present. For example, it realizes the method of judging as silence.

【0036】ピッチ周期(基本周波数)を求める方法と
して、ケプストラム法を用いれば、パワースペクトルの
対数のフーリエ変換により、スペクトルの包絡を微細構
造を分離させることによって求める。求められたピッチ
周期はテーブル710に記憶させる。
If the cepstrum method is used as a method for obtaining the pitch period (fundamental frequency), the envelope of the spectrum is obtained by separating the fine structure by the Fourier transform of the logarithm of the power spectrum. The obtained pitch period is stored in the table 710.

【0037】又、分析部600は、前記軸変換部64
0、前記ノイズ除去部680、前記逆FFT部690、
前記正規化部700、前記有音/無音部740、前記ノ
イズ処理部720、前記無音用データ設定部730を持
ち、無音処理系と判断された場合、得られた情報を全て
ノイズデータとしてテーブル710に記憶させ、有音処
理系と判断された場合、はテーブル710を用い、前記
ノイズ除去部680が処理する。
Further, the analysis unit 600 includes the axis conversion unit 64.
0, the noise removing unit 680, the inverse FFT unit 690,
Having the normalization unit 700, the voice / silence unit 740, the noise processing unit 720, and the silence data setting unit 730, when it is determined to be a silence processing system, all of the obtained information is noise data in the table 710. If it is determined to be a sound processing system, the noise removal unit 680 uses the table 710 to process.

【0038】上記有音/無音判定部500から出力され
た有音/無音判定子511により有音処理系と無音処理
系に処理を二分する。
The voice / silent discriminator 511 output from the voice / silent discriminating section 500 divides the process into a voice processing system and a silence processing system.

【0039】分析部600は、縦軸をパワースペクトル
軸から振幅軸に変換する軸変換部640と、ノイズを除
去するノイズ除去部680と、逆FFTする手段である
逆FFT部690と、逆FFTされた結果の最大値を”
1”にするための正規化部700と、ノイズの特徴を抽
出するノイズ処理部720と、無音を出力するためのデ
ータを設定する無音用データ設定部730と、テーブル
710を有する。
The analysis section 600 includes an axis conversion section 640 for converting the vertical axis from a power spectrum axis to an amplitude axis, a noise removal section 680 for removing noise, an inverse FFT section 690 which is means for inverse FFT, and an inverse FFT. The maximum value of the results
It has a normalization unit 700 for setting to 1 ″, a noise processing unit 720 for extracting noise characteristics, a silence data setting unit 730 for setting data for outputting silence, and a table 710.

【0040】この様に、第一の実施例と第2の実施例
は、構成こそ違うが、処理ステップ(ブロック)は同数
である。第二実施例は、第一実施例と同じ処理時間で、
より有音/無音処理系の選択を厳密に行う。従って目的
であるノイズの除去、S/N比の向上が行うことができ
る。
As described above, the first embodiment and the second embodiment have the same configuration but the same number of processing steps (blocks). The second embodiment has the same processing time as the first embodiment,
The sound / silence processing system is selected more strictly. Therefore, it is possible to remove the noise and improve the S / N ratio, which are the objectives.

【0041】次に、第三の実施例を説明する。Next, a third embodiment will be described.

【0042】本第3実施例は、前記第1実施例、第2実
施例とは用いるテーブルの構成のみが異なる。
The third embodiment differs from the first and second embodiments only in the structure of the table used.

【0043】請求項1に係る分析部600のブロック図
を図3に示す。
A block diagram of the analysis unit 600 according to claim 1 is shown in FIG.

【0044】本第3実施例は、ノイズ情報と、音声特徴
情報をそれぞれ別のテーブルで管理する。
In the third embodiment, the noise information and the voice characteristic information are managed in separate tables.

【0045】上記ノイズ処理部720においては、ノイ
ズ周波数に該当した周波数のスペクトルをテーブル71
0に記憶させ、一方ピッチ抽出部670においては該当
した周波数のテーブル750を記憶させる。その後、ノ
イズ除去部660においては、テーブル710に記憶さ
れた周波数を減算した後、テーブル750を用いること
により目的を実現する。
In the noise processing section 720, the spectrum of the frequency corresponding to the noise frequency is stored in the table 71.
0, while the pitch extraction unit 670 stores a table 750 of the corresponding frequencies. After that, in the noise removing unit 660, after the frequencies stored in the table 710 are subtracted, the purpose is realized by using the table 750.

【0046】この様に、二つ、又は複数のテーブルを用
い様々な情報を別々に記憶させる方式も考えられる。
As described above, a method of separately storing various information by using two or more tables can be considered.

【0047】以上の様に、本実施例によれば、絶えず変
化する周囲のノイズを常に抽出し、そのノイズ特徴を取
り除き、ピッチ情報から入力音声信号の特徴を常に抽出
し、その特徴を強調することによって、如何なる状況で
も対応でき、的確なS/N比の向上を行い良質の音声信
号処理を行う事ができる。
As described above, according to this embodiment, the constantly changing ambient noise is always extracted, the noise feature is removed, the feature of the input voice signal is always extracted from the pitch information, and the feature is emphasized. As a result, it is possible to deal with any situation, to improve the S / N ratio accurately, and to perform high-quality audio signal processing.

【0048】さて、前記第1、第2、第3実施例に係る
各部の処理はプロセッサ上で動作するプログラムとして
実現することができる。この場合、無音時には、無音処
理系の処理のみを行い、有音時には有音処理系の処理の
みを行えば良く、かつ、無音/有音判定、もしくは正規
化する為に算出したピッチ情報を流用することにより、
新たな処理もしくは装置を必要とせず、プロセッサの負
荷は小さく、単一のプロセッサ上で動作するプログラム
として実現することができる。
By the way, the processing of each unit according to the first, second and third embodiments can be realized as a program which operates on a processor. In this case, when there is no sound, only the processing of the silent processing system needs to be performed, and when there is sound, only the processing of the voice processing system needs to be performed, and the pitch information calculated for the silent / sound determination or normalization is used. By doing
No new processing or device is required, the load on the processor is small, and it can be realized as a program that operates on a single processor.

【0049】なお、以上の実施例では、通信システムの
適用を例にとり説明したが、本第1、第2、第3実施例
に係る音声情報分析装置は、この他、分析部600の分
析結果を用いて、音声認識などの処理を行う装置など、
多様な装置に適用することができる。
In the above embodiments, the application of the communication system has been described as an example. However, in the voice information analysis apparatus according to the first, second and third embodiments, the analysis result of the analysis unit 600 is also included. A device that performs processing such as voice recognition using
It can be applied to various devices.

【0050】[0050]

【発明の効果】本発明は、絶えず変化する周囲のノイズ
を常に抽出し、そのノイズ特徴を取り除くことによっ
て、如何なる状況でも的確なノイズ除去を行うだけでな
く、常に最新のピッチ情報(基本周波数)を利用し、音
声周波数を強調させることによって、話者の交代にも対
応でき、S/N比を向上させることができる。
The present invention not only performs accurate noise removal under any circumstances by constantly extracting ambient noise that constantly changes and removing its noise characteristics, but also always provides the latest pitch information (fundamental frequency). By using and to emphasize the voice frequency, it is possible to cope with the change of the speaker and to improve the S / N ratio.

【0051】又、有音/無音系処理選択の条件を増やす
ことによって、確実に音声情報から音声情報テーブルを
作成することによって、有音系処理においてその効果を
あげることができる。
Further, by increasing the conditions for selecting the voiced / silent system processing, by reliably creating the voice information table from the voice information, the effect can be enhanced in the voiced system processing.

【0052】更に、音声情報テーブルは最低一つあれば
よく、その個数により、使用用途にあった効果をハード
ウエアの変更なしに、実現出来る。
Furthermore, at least one voice information table is required, and depending on the number of voice information tables, the effect suitable for the intended use can be realized without changing the hardware.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の実施例1の有音/無音判定部、分析部
を示すブロック図である。
FIG. 1 is a block diagram showing a sound / silence determination unit and an analysis unit according to a first embodiment of the present invention.

【図2】本発明の実施例2の有音/無音判定部、分析部
を示すブロック図である。
FIG. 2 is a block diagram showing a sound / silence determination unit and an analysis unit according to a second embodiment of the present invention.

【図3】本発明の実施例3の有音/無音判定部、分析部
を示すブロック図である。
FIG. 3 is a block diagram showing a sound / silence determination unit and an analysis unit according to a third embodiment of the present invention.

【図4】本発明の音声情報装置を示すブロック図であ
る。
FIG. 4 is a block diagram showing a voice information device of the present invention.

【符号の説明】[Explanation of symbols]

1000…本発明に係る音声情報分析装置(送信側)、 200…音声入力装置、 300…A/D変換器、 400…バッファメモリ、 401…フレームデータ、 500…有音/無音判定部、 510…音声パワー判定部、 511…有音/無音判定子、 600…分析部、 610…FFTデータ設定部、 620…FFT部、 630…パワースペクトル変換部、 631…パワースペクトル列、 640…軸変換部、 670…ピッチ抽出部、 671…ピッチ情報、 680…ノイズ除去部、 690…逆FFT部、 700…正規化部、 701…レベル情報、 702…正規化波形系列、 710…ノイズデーブル、 720…ノイズ処理部、 730…無音用フレーム設定部、 740…有音/無音部、 750…音声情報テーブル、 650…有音/無音部、 660…FFT部、 800…ベクトル量子化部、 801…ベクトルコード、 900…送信部、 2000…請求項1に係る音声情報分析装置(受信
側)、 2100…受信部、 2200…ベクトル逆量子化部、 2300…合成部、 2400…バッファメモリ、 2500…D/A変換部、 2600…音声出力装置。
1000 ... Voice information analysis device (sending side) according to the present invention, 200 ... Voice input device, 300 ... A / D converter, 400 ... Buffer memory, 401 ... Frame data, 500 ... Voice / silence determination unit, 510 ... Voice power determination unit, 511 ... Voice / silence determiner, 600 ... Analysis unit, 610 ... FFT data setting unit, 620 ... FFT unit, 630 ... Power spectrum conversion unit, 631 ... Power spectrum sequence, 640 ... Axis conversion unit, 670 ... Pitch extraction section, 671 ... Pitch information, 680 ... Noise removal section, 690 ... Inverse FFT section, 700 ... Normalization section, 701 ... Level information, 702 ... Normalized waveform sequence, 710 ... Noise table, 720 ... Noise processing Section, 730 ... Silence frame setting section, 740 ... Spoken / Silence section, 750 ... Voice information table, 650 ... Spoken / Silence , 660 ... FFT section, 800 ... Vector quantization section, 801 ... Vector code, 900 ... Transmission section, 2000 ... Speech information analysis apparatus (reception side) according to claim 1, 2100 ... Reception section, 2200 ... Vector dequantization Unit, 2300 ... Synthesis unit, 2400 ... Buffer memory, 2500 ... D / A conversion unit, 2600 ... Audio output device.

フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 H04B 15/00 Continuation of front page (51) Int.Cl. 6 Identification number Office reference number FI technical display area H04B 15/00

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】音声の標本化データを一定時間蓄積したフ
レームデータの示す音声情報を分析した分析結果を出力
する音声情報分析装置であって、 各フレームデータの表す音声にノイズ以外の音声が含ま
れているか否かを判定するステップと、 ノイズ以外の音声が含まれていないと判定された場合
に、フレームデータからフレームデータの示す音声に含
まれているノイズの特徴を抽出してテーブルに記憶し、
前記フレームデータの示す音声の分析結果として、あら
かじめ用意した無音の音声の分析結果を表す情報を出力
する無音系処理の実行ステップと、 ノイズ以外の音声が含まれている場合音声のピッチ情報
をテーブルに記憶させる手段と、 ノイズ以外の音声が含まれていると判定した場合には、
前記ピッチ情報から得られた音声信号の特徴を強調する
処理と、ノイズ以外の音声が含まれていないと判定され
た場合にテーブル記憶したノイズの特徴をフレームデー
タの示す音声から除去し、ノイズの特徴を除去したフレ
ームデータの示す音声を分析し、分析した結果を出力す
る有音系処理を実行するステップとを有することを特徴
とする音声情報分析装置。
1. A voice information analysis device for outputting a result of analysis of voice information represented by frame data, which is obtained by accumulating voice sampled data for a certain period of time, wherein the voice represented by each frame data includes voice other than noise. If it is determined that the sound other than noise is not included, the characteristics of the noise included in the sound indicated by the frame data are extracted from the frame data and stored in a table. Then
As a voice analysis result indicated by the frame data, a step of executing a silence system processing for outputting information representing the analysis result of a silence voice prepared in advance, and a table of voice pitch information when voices other than noise are included. When it is determined that the means for storing in and the sound other than noise is included,
The process of emphasizing the characteristics of the audio signal obtained from the pitch information, and when it is determined that the audio other than noise is not included, the characteristics of the noise stored in the table are removed from the audio represented by the frame data to remove the noise. And a step of analyzing a voice represented by the frame data from which the characteristic is removed and outputting a result of the analysis, the voice information analyzing apparatus.
【請求項2】請求項1記載の音声情報分析装置と、前記
音声情報分析装置が出力する波形情報を量子化し、量子
化データを出力する手段とを有することを特徴とする音
声圧縮符号化装置。
2. A voice compression encoding apparatus comprising: the voice information analyzing apparatus according to claim 1; and means for quantizing the waveform information output by the voice information analyzing apparatus and outputting quantized data. .
【請求項3】請求項1記載の前記音声情報分析装置、又
は請求項2記載の前記音声圧縮符号化装置で、有線もし
くは無線の伝送路を介して送信する手段とを有すること
特徴とする通信端末装置。
3. The voice information analyzing apparatus according to claim 1 or the voice compression encoding apparatus according to claim 2, further comprising means for transmitting via a wired or wireless transmission path. Terminal device.
【請求項4】請求項3記載の通信端末装置を1台、又は
複数台使用することを特徴とする通信システム。
4. A communication system comprising one or a plurality of the communication terminal devices according to claim 3.
JP6131569A 1994-06-14 1994-06-14 Sound information analysis device Pending JPH07334189A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6131569A JPH07334189A (en) 1994-06-14 1994-06-14 Sound information analysis device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6131569A JPH07334189A (en) 1994-06-14 1994-06-14 Sound information analysis device

Publications (1)

Publication Number Publication Date
JPH07334189A true JPH07334189A (en) 1995-12-22

Family

ID=15061132

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6131569A Pending JPH07334189A (en) 1994-06-14 1994-06-14 Sound information analysis device

Country Status (1)

Country Link
JP (1) JPH07334189A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970002850A (en) * 1995-06-30 1997-01-28 이데이 노브유끼 Noise reduction method of voice signal
US8768692B2 (en) 2006-09-22 2014-07-01 Fujitsu Limited Speech recognition method, speech recognition apparatus and computer program
CN104205213A (en) * 2012-03-23 2014-12-10 西门子公司 Speech signal processing method and apparatus and hearing aid using the same

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970002850A (en) * 1995-06-30 1997-01-28 이데이 노브유끼 Noise reduction method of voice signal
US8768692B2 (en) 2006-09-22 2014-07-01 Fujitsu Limited Speech recognition method, speech recognition apparatus and computer program
CN104205213A (en) * 2012-03-23 2014-12-10 西门子公司 Speech signal processing method and apparatus and hearing aid using the same

Similar Documents

Publication Publication Date Title
US6018706A (en) Pitch determiner for a speech analyzer
US7035797B2 (en) Data-driven filtering of cepstral time trajectories for robust speech recognition
JP4607334B2 (en) Distributed speech recognition system
KR100574031B1 (en) Speech Synthesis Method and Apparatus and Voice Band Expansion Method and Apparatus
US5930749A (en) Monitoring, identification, and selection of audio signal poles with characteristic behaviors, for separation and synthesis of signal contributions
WO2004095420A2 (en) System and method for combined frequency-domain and time-domain pitch extraction for speech signals
JP2002507291A (en) Speech enhancement method and device in speech communication system
JP2005535920A (en) Distributed speech recognition and method with back-end speech detection device
JP2008058983A (en) Method for robust classification of acoustic noise in voice or speech coding
US6678655B2 (en) Method and system for low bit rate speech coding with speech recognition features and pitch providing reconstruction of the spectral envelope
JP2000066691A (en) Audio information sorter
CN104981870A (en) Speech enhancement device
CN112767955B (en) Audio encoding method and device, storage medium and electronic equipment
US5812966A (en) Pitch searching time reducing method for code excited linear prediction vocoder using line spectral pair
JPH07334189A (en) Sound information analysis device
JPH10247093A (en) Audio information classifying device
JP3354252B2 (en) Voice recognition device
US20080228477A1 (en) Method and Device For Processing a Voice Signal For Robust Speech Recognition
JP2003157100A (en) Voice communication method and equipment, and voice communication program
JPH06348293A (en) Voice information analyzing device
JP4645869B2 (en) DIGITAL SIGNAL PROCESSING METHOD, LEARNING METHOD, DEVICE THEREOF, AND PROGRAM STORAGE MEDIUM
JP4645866B2 (en) DIGITAL SIGNAL PROCESSING METHOD, LEARNING METHOD, DEVICE THEREOF, AND PROGRAM STORAGE MEDIUM
JP2002049398A (en) Digital signal processing method, learning method, and their apparatus, and program storage media therefor
JP3346200B2 (en) Voice recognition device
JPH0235994B2 (en)