JPH0698398A - Non-voice section detecting/expanding device/method - Google Patents

Non-voice section detecting/expanding device/method

Info

Publication number
JPH0698398A
JPH0698398A JP5153282A JP15328293A JPH0698398A JP H0698398 A JPH0698398 A JP H0698398A JP 5153282 A JP5153282 A JP 5153282A JP 15328293 A JP15328293 A JP 15328293A JP H0698398 A JPH0698398 A JP H0698398A
Authority
JP
Japan
Prior art keywords
silent
silent section
detecting
envelope
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5153282A
Other languages
Japanese (ja)
Inventor
Yoshito Nene
義人 禰寝
Hiroshi Ikeda
宏 池田
Yukio Kumagai
幸夫 熊谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP5153282A priority Critical patent/JPH0698398A/en
Publication of JPH0698398A publication Critical patent/JPH0698398A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To prevent a non-voice section detecting/expanding device/method which controls the expanded variable of the non-voice section in response to the sound power. CONSTITUTION:The input voice signals are stored in a memory 111 and also in an envelope curve detecting means 12. The detected envelope curve information is stored in a memory 112 and then in a maximum/minimum value detecting means 13. Then the maximum and minimum values are stored in a memory 113. The voice are outputted being expanded between those memories.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、補聴器等で用いられる
衰えた聴覚特性を補助するための音声信号処理に関し、
とくに音声中の無音区間を検出し伸長するための音声の
無音区間検出伸長装置及び音声の無音区間検出伸長方法
並びにそれを用いた機器に係る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to audio signal processing for assisting a deteriorated auditory characteristic used in a hearing aid or the like,
In particular, the present invention relates to an apparatus for detecting and expanding a silent section of a voice for detecting and expanding a silent section in a voice, a method for detecting and expanding a silent section of a voice, and a device using the same.

【0002】[0002]

【従来の技術】難聴者の聴覚を補助する補聴器において
は、従来アナログ回路を用いて音声の振幅及びその周波
数特性を加工するアナログ型補聴器が主に使用されてき
た。これに対し近年、ディジタル信号処理を応用したデ
ィジタル補聴器の研究開発が盛んに行われている。この
研究開発動向については、例えば日本音響学会誌(19
89年45巻7号、P549〜P555)「補聴器の最
近の動向」等に詳述されている。このディジタル補聴器
における音声信号処理は、ディジタル信号処理プロセッ
サ(以下DSPと略す)を使用したディジタル信号処理
により行われる。その処理内容はプログラムによって記
述されている。このためディジタル補聴器は従来の補聴
器に比較して、音声処理の内容の変更がメモリ上のプロ
グラムの変更で行なうことができ、個々の難聴者に対し
て音声の明瞭度を最大にするための調整がより容易に行
えるようになる。また、ディジタル補聴器はアナログ型
補聴器に代わるという意味から、全ての必要とする処理
がリアルタイム処理すなわち使用者に感じられない程度
の時間遅れ内に終了することが前提になっている。
2. Description of the Related Art In a hearing aid that assists the hearing of a hearing-impaired person, an analog-type hearing aid that processes an amplitude and a frequency characteristic of a voice using an analog circuit has been mainly used. On the other hand, in recent years, research and development of digital hearing aids applying digital signal processing have been actively conducted. Regarding this research and development trend, for example, the Acoustical Society of Japan (19)
1989, Vol. 45, No. 7, P549-P555) "Recent trends in hearing aids" and the like. Audio signal processing in this digital hearing aid is performed by digital signal processing using a digital signal processor (hereinafter abbreviated as DSP). The processing contents are described by the program. Therefore, compared to conventional hearing aids, digital hearing aids can change the contents of voice processing by changing the program on the memory, and adjustments are made to maximize the intelligibility of voices for individual hearing impaired persons. Can be done more easily. Further, in the sense that the digital hearing aid replaces the analog hearing aid, it is premised that all necessary processing is completed in real time, that is, within a time delay that is not felt by the user.

【0003】ディジタル補聴器に用いられる音声信号処
理には、難聴者の周波数分解能、時間分解能、スペクト
ル弁別能、音像合成能力等の劣化を補う処理がある。こ
れらの処理については、例えば日本音響学会誌(198
7年43巻5号、P356〜P361)「音声特徴抽出
機能を備えたディジタル補聴器」等に詳しくまとめられ
ている。この中で、聴覚機能の特に時間分解能の劣化を
補う処理の一つとして、音声中の無音区間を伸長する方
法が挙げられている。この無音区間を伸長する方法は、
音声の子音部と母音部の間にわずかな無音区間を挿入し
たり、単語間の無音区間の長さを伸ばすことで、上述の
継時マスキングを防ごうとするもので、難聴者の継時マ
スキングを低減させると同時に、音声理解の速度の低下
を補う効果もある。
Audio signal processing used in a digital hearing aid includes processing for compensating for the deterioration of the frequency resolution, time resolution, spectral discrimination ability, sound image synthesis ability, etc. of a hearing-impaired person. For these processes, for example, the Journal of Acoustical Society of Japan (198
7:43, No. 5, P 356 to P 361) “Digital hearing aid with audio feature extraction function” and the like. Among them, as one of the processes for compensating for the deterioration of the auditory function, especially the time resolution, there is a method of extending a silent section in a voice. The method of extending this silent section is
By inserting a small silence interval between the consonant part and the vowel part of the speech, or by extending the length of the silence interval between words, it is intended to prevent the above-mentioned continuous masking. At the same time as it reduces masking, it also has the effect of compensating for the slowdown in voice understanding.

【0004】高齢者に多い感音性難聴者を対象とした場
合、音声を加工してその明瞭度を向上させるためには、
単に音声の周波数特性を加工して、使用者の周波数分解
能を補助するだけではなく、時間分解能の劣化を補うた
めの処理も同時に行なうことが望まれる。この時間分解
能の劣化の具体的な例としては、直前に発せられた強い
音声の成分によって、そのすぐあとの弱い音声成分が聞
き取れなくなるという「継時マスキング」の現象が挙げ
られる。この現象により難聴者は、「音声は聞こえてい
るが言葉として聞き取れない」という状況に陥ることが
多い。この現象については、例えば、電子情報通信学会
技術研究報告(SP90−97)「破裂音の有声・無声
知覚への継時マスキングの影響」等に詳しく報告されて
いる。
In the case of a sensorineural hearing-impaired person, which is common in the elderly, in order to process the voice and improve its intelligibility,
It is desired that not only the frequency characteristics of the voice are processed to assist the frequency resolution of the user, but also the processing for compensating for the deterioration of the time resolution is simultaneously performed. As a concrete example of the deterioration of the time resolution, there is a phenomenon of "continuous masking" in which a strong voice component emitted immediately before makes it impossible to hear a weak voice component immediately after. Due to this phenomenon, a hearing-impaired person often falls into a situation where "sound can be heard but cannot be heard as words". This phenomenon has been reported in detail in, for example, Technical Report of IEICE (SP90-97) "Effect of continuous masking on voiced / unvoiced perception of plosives".

【0005】[0005]

【発明が解決しようとする課題】従来の補聴を目的とし
た無音区間の検出および伸長に関する技術の研究におい
て、研究室レベルの実験では、音声波形をCRT画面上
に表示して目で波形の形状を見て行なう方法や、S/N
比の高い音声資料のみを用いて単純な閾値によって処理
する方法が取られていた。
In the conventional research on the technology relating to the detection and extension of the silent section for the purpose of hearing aid, in a laboratory level experiment, a speech waveform is displayed on a CRT screen and the waveform shape is visually observed. And S / N
A method of processing with a simple threshold using only audio material with a high ratio has been adopted.

【0006】上記の無音区間の伸長処理を行なうために
は、時間領域において音声波形中の無音区間を検出する
ことが必要となる。背景雑音などの影響により音声波形
が定常的ではないことから、無音区間の検出では、その
時々の音声波形の状態に合わせて、雑音成分により音声
のレベル変動が生じてもその影響を受けにくい無音区間
の検出のためのアルゴリズムやパラメータを適切に選択
しなければならないという問題がある。
In order to perform the above-described expansion processing of the silent section, it is necessary to detect the silent section in the voice waveform in the time domain. Since the voice waveform is not stationary due to the influence of background noise, etc., in the detection of the silent section, the silence that is not easily affected even if the voice level changes due to the noise component according to the state of the voice waveform at that time. There is a problem in that an algorithm and parameters for detecting the section must be selected appropriately.

【0007】しかし、上記従来の技術は、単に無音区間
を検出する単純な手法を与えるもので、入力音声信号に
応じて、動的にしかもリアルタイムで無音区間を伸長す
るものではなかった。このため、上述のような使用に際
して生じる実際的な問題を解決する手段にはなっていな
い。
However, the above-mentioned conventional technique merely provides a simple method for detecting a silent interval, and does not dynamically expand the silent interval in real time according to an input voice signal. For this reason, it is not a means for solving the practical problems that may occur during use as described above.

【0008】本発明の目的は上記問題を解決し、衰えた
聴覚特性を補助するため音声中の無音区間を検出し伸長
するための音声の無音区間検出伸長装置及び音声の無音
区間検出伸長方法を提供することにある。より具体的に
は、音声のパワーに応じて無音区間の伸長量を制御する
ことが可能で、かつ、雑音成分の影響を受けにくい、無
音区間検出伸長装置及び方法並びにそれを用いた機器を
提供することにある。
An object of the present invention is to solve the above problems and to provide an apparatus for detecting and expanding a silent section of a voice and a method for detecting and expanding a silent section of a voice for detecting and expanding a silent section in a voice in order to assist a deteriorated auditory characteristic. To provide. More specifically, the present invention provides a silent interval detection / expansion device and method that can control the expansion amount of a silent interval according to the power of voice and is less susceptible to noise components, and a device using the same. To do.

【0009】[0009]

【課題を解決するための手段】上記目的を達成するた
め、入力音声信号から無音区間を検出し、無音区間を伸
長する。このとき、単に一定時間の無音区間を機械的に
挿入するのではなく、継時マスキングを抑えるため無音
区間伸長の度合いを音声のパワーに応じて制御する。無
音区間の検出では、背景雑音等の影響を受けにくくし、
音声パワーの検出を行ないこれを無音区間の伸長のパラ
メータとして利用し、無音区間の伸長によって聴覚を補
助する。
In order to achieve the above object, a silent section is detected from an input voice signal and the silent section is extended. At this time, the degree of expansion of the silent section is controlled according to the power of the voice in order to suppress continuous masking, instead of merely mechanically inserting the silent section for a fixed time. In the detection of silent sections, it is less susceptible to the effects of background noise,
The voice power is detected and used as a parameter for expanding the silent section, and the hearing is assisted by expanding the silent section.

【0010】すなわち、音声を入力し音声波形処理を行
ない音声の出力を行なう聴覚を補助する音声の無音区間
検出伸長装置において、入力音声信号中の無音区間を検
出する無音区間検出手段と、この無音区間検出手段によ
り検出された無音区間の信号を入力音声信号の無音区間
に繰り返して追加し無音区間を伸長する無音区間伸長手
段とを含み、無音区間の信号の繰返しの量を無音区間の
直前の入力音声信号のパワーに比例させて無音区間を伸
長する。また、無音区間伸長手段は無音区間の開始時点
と終了時点を含む無音区間内のいずれかの時点にある一
部分を、繰返し無音区間に追加する。
That is, in a soundless section detecting and expanding device for aurally assisting a voice which inputs a sound, performs a sound waveform processing, and outputs a sound, a silent section detecting means for detecting a silent section in an input sound signal and the silent section. A silent interval signal detected by the interval detecting means is repeatedly added to the silent interval of the input voice signal to expand the silent interval, and the silent interval expanding means is included. The silent section is extended in proportion to the power of the input audio signal. In addition, the silent section expansion means repeatedly adds a part at any time point within the silent section including the start point and the end point of the silent section to the silent section.

【0011】また、音声を入力し音声波形処理を行ない
音声の出力を行なう聴覚を補助する音声の無音区間検出
伸長方法において、入力音声信号中の無音区間を検出
し、この無音区間の信号を入力音声信号の無音区間に繰
り返して追加して無音区間を伸長する無音区間検出伸長
方法であり、無音区間の信号の繰返しの量を無音区間の
直前の入力音声信号のパワーに比例させ、無音区間の開
始時点と終了時点を含む無音区間内のいずれかの時点
に、無音区間の信号の一部分を繰返して無音区間に追加
する。
Further, in a method for detecting and expanding a silent section of a voice for assisting hearing, which inputs a voice, performs a voice waveform processing, and outputs a voice, a silent section in an input voice signal is detected and a signal in the silent section is input. This is a silent interval detection / expansion method that expands the silent interval by repeatedly adding it to the silent interval of the audio signal, and makes the amount of signal repetition in the silent interval proportional to the power of the input audio signal immediately before the silent interval, A part of the signal of the silent section is repeated and added to the silent section at any point in the silent section including the start point and the end point.

【0012】より具体的には、上記目的を達成するため
の第1の手段は、無音区間の伸長処理を施そうとする音
声波形をメモリに記録し、記録と同時に音声波形の包絡
線を検出する手段と、この包絡線の最大値および最小値
を検出する手段と、この最大値および最小値から無音区
間の検出のための閾値を計算する手段とを設け、記録さ
れた音声を再生する際に、音声の包絡線が連続して閾値
以下になる部分を無音区間として検出する。
More specifically, the first means for achieving the above object is to record the voice waveform to be subjected to the expansion processing of the silent section in the memory, and detect the envelope of the voice waveform simultaneously with the recording. Means for detecting the maximum value and the minimum value of the envelope, and means for calculating the threshold value for the detection of the silent section from the maximum value and the minimum value, to reproduce the recorded voice. First, the part where the envelope of the voice is continuously below the threshold is detected as a silent section.

【0013】また、上記目的を達成するための第2の手
段は、無音区間の伸長処理を施そうとする音声波形の包
絡線を検出する手段と、包絡線波形の微分値を計算する
手段を設け、微分値が負から正に変化するまでの時間を
無音区間として判別し、かつ微分値のピーク値に比例し
て無音区間を伸長する量を決定する。
A second means for achieving the above object is a means for detecting an envelope curve of a voice waveform to be subjected to a silent zone expansion process, and a means for calculating a differential value of the envelope waveform. The time required for the differential value to change from negative to positive is determined as the silent section, and the amount of expansion of the silent section is determined in proportion to the peak value of the differential value.

【0014】さらに、上記目的を達成するための第3の
手段は、無音区間の伸長処理を施そうとする音声波形の
包絡線を検出する手段と、包絡線波形を一定時間遅延さ
せる手段と、包絡線の積分値と遅延した包絡線の積分値
の差分から、包絡線の立上り・立下がりを検出するOF
Fニューロン回路とを設け、OFFニューロン回路が包
絡線の立下がりを検出してから立上りを検出するまでの
時間を無音区間として判別し、かつ包絡線の立上り・立
下がりを検出する際のOFFニューロン回路の出力に比
例して無音区間を伸長する量を決定する。
Further, a third means for achieving the above object is a means for detecting an envelope of a voice waveform to be subjected to a silent zone expansion process, and a means for delaying the envelope waveform for a predetermined time. OF that detects rising and falling edges of the envelope from the difference between the integral value of the envelope and the integrated value of the delayed envelope
An F neuron circuit is provided, the OFF neuron circuit discriminates the time from the detection of the falling edge of the envelope to the detection of the rising edge as a silent section, and the OFF neuron when detecting the rising and falling edges of the envelope. Determines the amount by which the silent interval is extended in proportion to the output of the circuit.

【0015】[0015]

【作用】上記第1の手段においては、音声波形の包絡線
を検出する手段により、入力音声の包絡線を検出し、メ
モリ等の記録媒体に入力音声と包絡線とを同時に記録す
るため、音声再生時における包絡線検出を省略すること
ができ、再生時の無音区間の伸長をリアルタイムで行な
うために都合が良い。また、記録された包絡線情報の最
大値と最小値から無音区間の検出のための閾値を決定す
ることにより、処理対象となる音声のレベル変動に応じ
て閾値を設定することが可能となり、雑音成分により音
声のレベル変動が生じても、その影響を受けにくい無音
区間の検出が可能となる。
In the first means, the envelope of the voice waveform is detected by the means for detecting the envelope of the voice waveform, and the input voice and the envelope are simultaneously recorded in a recording medium such as a memory. Envelope detection at the time of reproduction can be omitted, which is convenient for expanding the silent section at the time of reproduction in real time. Further, by determining the threshold value for the detection of the silent section from the maximum value and the minimum value of the recorded envelope information, it becomes possible to set the threshold value according to the level fluctuation of the speech to be processed, Even if the level of the voice changes due to the component, it is possible to detect the silent section that is hardly affected by the change.

【0016】上記第2の手段においては、包絡線の微分
値を基に音声の立上り・立下りの検出を行なうため、定
常的な雑音成分が音声に含まれた場合でも、無音区間の
検出を行なうことが可能となる。また、微分値のピーク
値に比例して無音区間の伸長量を決定するため、急峻な
立ち下がりのあとの無音区間は長く伸長され、緩やかな
立ち下がりのあとの無音区間はあまり伸長されない。こ
れにより、継時マスキングが生じやすい強いパワーを持
つ音声の後の無音区間がより伸長されるようになり、継
時マスキング防止に適した、音声パワーに応じた無音区
間の伸長を実現することが可能となる。
In the second means, since the rising and falling edges of the voice are detected based on the differential value of the envelope, the silent section can be detected even when a stationary noise component is included in the voice. It becomes possible to do it. Further, since the amount of expansion of the silent section is determined in proportion to the peak value of the differential value, the silent section after the steep falling is expanded long, and the silent section after the gentle falling is not expanded very much. As a result, the silent section after the voice having a strong power where continuous masking easily occurs is further expanded, and it is possible to realize the expansion of the silent section according to the voice power, which is suitable for preventing continuous masking. It will be possible.

【0017】上記第3の手段においては、OFFニュー
ロン回路が包絡線と遅延した包絡線の差分を取り、入力
音声の立上り・立ち下がりを検出する。このため音声に
定常的な雑音成分が音声に含まれた場合でも、差分と取
ることによりその影響を低減することが可能となる。ま
た、OFFニューロン回路の出力は包絡線の値に比例す
るので、このOFFニューロン回路の出力に比例して無
音区間の伸長量を決定することで、音声のパワーに応じ
た無音区間の伸長が可能となる。
In the third means, the OFF neuron circuit takes the difference between the envelope and the delayed envelope to detect the rising and falling edges of the input voice. Therefore, even if the voice includes a stationary noise component, the influence can be reduced by taking the difference as the difference. Also, since the output of the OFF neuron circuit is proportional to the value of the envelope, by determining the expansion amount of the silent section in proportion to the output of this OFF neuron circuit, it is possible to expand the silent section according to the power of the voice. Becomes

【0018】[0018]

【実施例】以下、本発明を実施例を用いて詳細に説明す
る。図1は、本発明の第1の実施例である、包絡線の閾
値処理を用いる無音区間伸長手段1のブロック図であ
る。この包絡線の閾値処理を用いる無音区間伸長手段1
の概要は次の通りである。
EXAMPLES The present invention will be described in detail below with reference to examples. FIG. 1 is a block diagram of a silent interval expansion means 1 using envelope threshold processing, which is a first embodiment of the present invention. Silent section decompression means 1 using this envelope threshold processing
The outline of is as follows.

【0019】入力音声信号はA/D変換器(図示せず)
によりディジタル信号に変換され、ディジタル信号に変
換された入力音声信号はメモリ111に格納されると同
時に入力音声信号の包絡線を検出する包絡線検出手段1
2に入力される。検出された包絡線情報はメモリ11の
包絡線情報格納手段112に格納され、さらに、包絡線
の最大値と最小値を検出する最大値最小値検出手段13
に入力され、最大値と最小値はメモリ11の最大値最小
値格納手段113に格納される。メモリ11に格納され
た音声を再生する際には、音声情報格納手段111と、
包絡線情報格納手段112と、最大値最小値格納手段1
13の内容が、無音区間伸長手段14に入力され、音声
情報Data中の無音区間を、包絡線情報Env.と最大値Max.
最小値Min.を用いて検出し、無音区間の伸長を行ない、
無音区間が伸長された音声の出力を行なう。
The input voice signal is an A / D converter (not shown)
An envelope detecting means 1 for detecting the envelope of the input voice signal at the same time that the input voice signal converted into a digital signal by the
Entered in 2. The detected envelope information is stored in the envelope information storage means 112 of the memory 11, and further the maximum value minimum value detection means 13 for detecting the maximum value and the minimum value of the envelope.
The maximum value and the minimum value are stored in the maximum value / minimum value storage means 113 of the memory 11. When reproducing the voice stored in the memory 11, the voice information storage means 111,
Envelope information storage means 112 and maximum / minimum value storage means 1
The content of No. 13 is input to the silent section expansion means 14, and the silent section in the voice information Data is set to the envelope information Env. And the maximum value Max.
Detect using the minimum value Min., Expand the silent section,
Outputs the voice in which the silent section is expanded.

【0020】詳しく説明すると、情報を格納するメモリ
11はその内部が3つの部分に区切られている。入力さ
れた音声信号は、音声情報格納手段111に格納される
と同時に包絡線検出手段12に入力される。包絡線検出
手段は検出した包絡線情報Env.をメモリ11の包絡線情
報格納手段112に格納する。さらに包絡線情報は、包
絡線の最大値と最小値を検出する最大値最小値検出手段
13に入力され、検出された包絡線の最大値Max.と最小
値Min.はメモリ11の最大値最小値格納手段113に格
納される。上記包絡線の検出は、例えば、入力音声デー
タの一定区間の平均値を次々に時間平均演算することで
実現する。この結果メモリ11には、一定時間内に入力
された音声情報と、それに時間的に対応した包絡線情報
と、その一定時間内の包絡線情報の最大値・最小値が格
納されている。メモリ11に格納された音声を再生する
際には、メモリ11の音声情報格納手段111に格納さ
れた音声情報Dataと、メモリ11の包絡線情報格納手段
112に格納された包絡線情報Env.と、メモリ11の最
大値最小値格納手段113に格納された包絡線の最大値
Max.最小値Min.が、無音区間伸長手段14に入力され
る。この無音区間伸長手段14は音声情報格納手段11
1から与えられた音声情報中の無音区間を、包絡線格納
手段112から与えられる包絡線情報と最大値最小値格
納手段113から与えられる包絡線の最大値・最小値を
用いて検出し、その後その無音区間の伸長を行ない、無
音区間が伸長された音声の出力を行なう。
More specifically, the memory 11 for storing information is divided into three parts inside. The input voice signal is stored in the voice information storage means 111 and simultaneously input to the envelope detection means 12. The envelope detecting means stores the detected envelope information Env. In the envelope information storing means 112 of the memory 11. Further, the envelope information is input to the maximum value / minimum value detection means 13 for detecting the maximum value and the minimum value of the envelope, and the maximum value Max. And the minimum value Min. Of the detected envelope are the maximum and minimum values of the memory 11. It is stored in the value storage means 113. The detection of the envelope is realized by, for example, performing time averaging one after another on the average value of a certain section of the input voice data. As a result, the memory 11 stores the voice information input within a certain period of time, the envelope information temporally corresponding thereto, and the maximum and minimum values of the envelope information within the certain period of time. When reproducing the voice stored in the memory 11, the voice information Data stored in the voice information storage unit 111 of the memory 11 and the envelope information Env. Stored in the envelope information storage unit 112 of the memory 11. , The maximum value of the envelope stored in the maximum value minimum value storage means 113 of the memory 11
The Max. Minimum value Min. Is input to the silent section expansion means 14. The silent section expansion means 14 is a voice information storage means 11.
The silent section in the voice information given from 1 is detected using the envelope information given from the envelope storing means 112 and the maximum / minimum values of the envelope given from the maximum / minimum value storing means 113, and then detected. The silent section is expanded, and the voice with the expanded silent section is output.

【0021】上記無音区間伸長手段14の詳細を図2に
示す。この無音区間伸長手段14においては、まず閾値
設定手段141が最大値最小値格納手段113より与え
られた包絡線の最大値Max.最小値Min.から閾値Tを設定
する。この閾値Tの値は、最大値最小値格納手段113
より与えられた包絡線の最大値Max.と最小値Min.の間の
いずれかの値に設定される。次に無音区間検出手段14
2は、包絡線情報格納手段112より与えられた包絡線
情報Env.と上記閾値Tとの比較を行ない、閾値Tよりも
包絡線情報の値が小さくなる期間を無音区間として検出
する。(包絡線情報の値が予め設定された閾値よりも連
続して低くなる期間を求め、その期間が予め設定された
最短の無音区間よりも長い場合に無音区間として検出す
る。)次に波形加工手段143は、上記無音区間検出手
段142によって無音区間として検出された期間に対応
する期間を、音声情報格納手段111より与えられた音
声情報上に設定する。そして音声情報の出力に当たって
は、無音区間以外の音声情報はそのまま出力し、無音区
間に対応する音声情報は繰り返して出力する。さらにこ
の繰返し量は、繰り返される無音区間の直前の有音区間
の包絡線の値、あるいは最大値最小値格納手段113か
ら与えられた包絡線の最大値に比例した値に設定する。
但し、この繰返し量は整数に限定せず、例えば1.2回
とか3.4回のような実数も選べるものとする。これに
より、音声信号の大きさに応じた無音区間の伸長が実現
できる。
The details of the silent section expansion means 14 are shown in FIG. In the silent section expansion means 14, the threshold value setting means 141 first sets the threshold value T from the maximum value Max. Minimum value Min. Of the envelope given by the maximum value minimum value storage means 113. The value of this threshold value T is the maximum value minimum value storage means 113.
It is set to any value between the maximum value Max. And the minimum value Min. Of the envelope given by. Next, the silent section detecting means 14
2 compares the envelope information Env. Given from the envelope information storage means 112 with the threshold value T, and detects a period in which the value of the envelope information becomes smaller than the threshold value T as a silent section. (A period in which the value of the envelope information is continuously lower than a preset threshold value is obtained, and if the period is longer than the preset shortest silent period, it is detected as a silent period.) Next, waveform processing The means 143 sets the period corresponding to the period detected as the silent section by the silent section detecting means 142 on the voice information given from the voice information storage means 111. When outputting the voice information, the voice information other than the silent section is output as it is, and the voice information corresponding to the silent section is repeatedly output. Further, the repetition amount is set to a value of the envelope of the voiced section immediately before the repeated silent section, or a value proportional to the maximum value of the envelope given from the maximum / minimum value storage unit 113.
However, this repetition amount is not limited to an integer, and a real number such as 1.2 times or 3.4 times can be selected. As a result, it is possible to expand the silent section according to the size of the audio signal.

【0022】図3には上記無音区間の伸長処理の様子を
音声波形の例を用いて示したものである。この例では、
包絡線振幅が閾値Tよりも小さくなる期間が、t1とt
2の2か所にあり、各々a倍、b倍に伸長されて出力さ
れる。このa及びbの値は、各々の無音区間の直前の包
絡線振幅値を利用して決定される。閾値Tは常にメモリ
に記録されている包絡線の最大値と最小値の間の値が設
定されるので、包絡線振幅の小さい期間を必ず無音区間
として検出することができる。本実施例によれば、音声
を録音する際に包絡線情報と閾値決定のためのパラメー
タを検出して記録するため、再生時の信号処理量は極め
て少なくなる。このため、再生時に長い処理時間が必要
とされる別の処理、例えば音声の周波数特性加工など、
を同時にしかもリアルタイムで行なう場合には、信号処
理量の低減という点でその効果が大きい。本実施例では
入力音声信号をディジタル化して入力音声信号を処理す
る場合について説明したが、入力音声信号をディジタル
化しないでアナログ信号のまま入力音声信号をアナログ
処理による包絡線検出手段で包絡線を検出しその最大
値、最小値をディジタル化してメモリに記憶し、入力音
声信号および検出された包絡線情報をアナログ的に記憶
媒体に記憶し、アナログ処理により無音区間を検出し音
声波形を加工して無音区間を伸長することができるのは
言うまでもない。 次に、本発明の第2の実施例であ
る、包絡線の微分値を用いる無音区間伸長手段2のブロ
ック図を図4に示す。
FIG. 3 shows a state of the expansion processing of the silent section by using an example of a voice waveform. In this example,
The periods when the envelope amplitude is smaller than the threshold value T are t1 and t
It is located at two locations of 2 and is expanded a times and b times respectively and output. The values of a and b are determined using the envelope amplitude value immediately before each silent section. Since the threshold value T is always set to a value between the maximum value and the minimum value of the envelope recorded in the memory, it is always possible to detect a period with a small envelope amplitude as a silent section. According to the present embodiment, the envelope information and the parameter for determining the threshold value are detected and recorded when the voice is recorded, so that the amount of signal processing at the time of reproduction becomes extremely small. For this reason, other processing that requires a long processing time during reproduction, such as audio frequency characteristic processing,
When performing simultaneously in real time, the effect is large in terms of reduction of signal processing amount. In this embodiment, the case where the input voice signal is digitized and the input voice signal is processed has been described. However, the input voice signal is not digitized, but the input voice signal remains as an analog signal. The detected maximum value and minimum value are digitized and stored in the memory, the input voice signal and the detected envelope information are stored in a storage medium in an analog manner, and a silent section is detected by analog processing to process the voice waveform. It goes without saying that the silent section can be extended. Next, FIG. 4 shows a block diagram of the silent section expansion means 2 using the differential value of the envelope, which is the second embodiment of the present invention.

【0023】入力音声信号はA/D変換器(図示せず)
によりディジタル信号に変換され、ディジタル信号に変
換された入力音声信号は、包絡線検出手段22に入力さ
れると同時に遅延回路21に設けられたメモリ(図示せ
ず)入力される。包絡線検出手段22で検出された包絡
線情報Env.は微分回路23に入力される。微分回路23
は連続して入力される包絡線情報の微分値を計算し出力
する回路で、包絡線の立上り立ち下がりに対応して出力
が変化する。この微分回路の一例としては、図5(a)
に示すような、窓関数W(τ)を包絡線データに畳み込
み積分して微分値を得る方法がある。これを数式で表わ
すと次のようになる。
The input voice signal is an A / D converter (not shown)
The input voice signal converted into a digital signal by the input signal is input to the envelope detecting means 22 and simultaneously to a memory (not shown) provided in the delay circuit 21. The envelope information Env. Detected by the envelope detecting means 22 is input to the differentiating circuit 23. Differentiating circuit 23
Is a circuit that calculates and outputs the differential value of the envelope information that is continuously input, and the output changes according to the rising and falling edges of the envelope. An example of this differentiating circuit is shown in FIG.
There is a method of obtaining the differential value by convolving the window function W (τ) with the envelope data as shown in FIG. This can be expressed as a mathematical expression as follows.

【0024】[0024]

【数1】 [Equation 1]

【0025】一方、遅延回路21は上記の包絡線検出と
その微分値の計算にかかる時間だけ入力音声信号を遅延
させ無音区間伸長手段24に送る。次にこの遅延回路の
出力D-outと上記微分回路の出力Diff.は無音区間伸長手
段24に入力され、無音区間の検出と無音区間の伸長が
行われる。
On the other hand, the delay circuit 21 delays the input voice signal by the time required for the envelope detection and the calculation of its differential value, and sends the input voice signal to the silent section expansion means 24. Next, the output D-out of the delay circuit and the output Diff. Of the differentiating circuit are input to the silent section expansion means 24, and the silent section is detected and the silent section is expanded.

【0026】図6は無音区間伸長手段24の詳細を示し
たものである。このうち無音区間検出手段241は、微
分回路23の出力Diff.が負のピーク値から正のピーク
値に変化する期間を無音区間として検出する。(負のピ
ーク値から正のピーク値に変化するまでの期間を求め、
その期間が予め設定された最短の無音区間よりも長い場
合に、無音区間として検出する。)そして波形加工手段
242はこの検出結果に基づいて、遅延回路21の出力
D-outである音声信号中の無音区間の伸長を行なう。こ
こで行なう波形加工は、既に述べた第1の実施例と同様
の方法で行なう。
FIG. 6 shows details of the silent section expansion means 24. Of these, the silent section detecting means 241 detects a period in which the output Diff. Of the differentiating circuit 23 changes from a negative peak value to a positive peak value as a silent section. (Calculate the period from the negative peak value to the positive peak value,
When the period is longer than the preset shortest silent section, it is detected as a silent section. The waveform processing means 242 outputs the output of the delay circuit 21 based on the detection result.
Expands the silent section in the D-out audio signal. The waveform processing performed here is performed by the same method as that of the first embodiment described above.

【0027】図7には上記第2の実施例による、無音区
間の伸長処理の様子を音声波形の例を用いて示した。微
分回路の出力振幅は入力音声中の無音区間から有音区間
への遷移部分で正の、また有音区間から無音区間への遷
移部分で負のピークを生じる。この負から正へのピーク
間を無音区間として判定し、その無音区間の直前に生じ
た負のピークの絶対値に比例して、無音区間の伸長量す
なわち無音区間出力時の繰返し量を決定する。この例で
は、t1とt2の2か所にあり、各々a倍、b倍に伸長
されて出力されている。なお、ここでは窓関数W(τ)
の形を傾きが正の値を持つ直線状のものを用いて説明し
たが、これと傾きが逆の窓関数を用いた場合でも、微分
回路の出力が正から負になる期間を無音区間として検出
することにより、上記と全く同様の効果が得られること
は言うまでもない。また、窓関数W(τ)の形状も、図
5(b)に示すような非直線的なものとし、重み付き加
算を行っても全く同様の効果が得られることは自明であ
る。
FIG. 7 shows an example of the speech waveform of the expansion processing of the silent section according to the second embodiment. The output amplitude of the differentiating circuit has a positive peak at the transition part from the silent section to the sound section in the input voice, and a negative peak at the transition section from the sound section to the silent section. The peak interval from negative to positive is determined as a silent interval, and the expansion amount of the silent interval, that is, the repetition amount when outputting the silent interval is determined in proportion to the absolute value of the negative peak that occurs immediately before the silent interval. . In this example, there are two locations, t1 and t2, and they are output after being expanded a times and b times, respectively. Note that here, the window function W (τ)
Although the shape of has been described using a straight line with a positive slope, even when a window function with an inverse slope is used, the period during which the output of the differentiator circuit changes from positive to negative is regarded as a silent interval. It goes without saying that the same effect as described above can be obtained by the detection. Further, it is obvious that the window function W (τ) also has a non-linear shape as shown in FIG. 5B, and the same effect can be obtained by performing weighted addition.

【0028】本実施例によれば、無音区間の検出が包絡
線の変化によって検出されるため、定常的な雑音が音声
に重畳されていたとしても、包絡線信号が大きくなるだ
けであり、無音区間の検出には影響が少ない。本実施例
では入力音声信号をディジタル化して入力音声信号を処
理する場合について説明したが、入力音声信号をディジ
タル化しないでアナログ信号のまま入力音声信号をアナ
ログ処理による包絡線検出手段で包絡線を検出し、入力
音声信号にアナログ的に遅延を与え、アナログ処理によ
り包絡線情報を微分し、無音区間を検出し音声波形を加
工して無音区間を伸長することができるのは言うまでも
ない。このとき、窓関数を包絡線データに畳み込み積分
して微分値を得る数式表現は、上記(数1)において加
算記号Σを積分記号∫に置き換えアナログ処理すればよ
い。
According to the present embodiment, since the detection of the silent section is detected by the change of the envelope, even if the stationary noise is superposed on the voice, only the envelope signal becomes large, and the silence signal is generated. It has little effect on the detection of sections. In this embodiment, the case where the input voice signal is digitized and the input voice signal is processed has been described. However, the input voice signal is not digitized, but the input voice signal remains as an analog signal. It goes without saying that it is possible to detect and give an analog delay to the input voice signal, differentiate the envelope information by analog processing, detect the silent section, process the voice waveform, and extend the silent section. At this time, the mathematical expression for obtaining the differential value by convolving the window function with the envelope data to obtain the differential value may be analog processing by replacing the addition symbol Σ with the integration symbol ∫ in the above (Equation 1).

【0029】次に、本発明の第3の実施例である、OF
Fニューロン回路を用いた無音区間伸長手段3のブロッ
ク図を図8に示す。
Next, an OF, which is a third embodiment of the present invention, will be described.
FIG. 8 shows a block diagram of the silent section expansion means 3 using the F neuron circuit.

【0030】入力音声信号はA/D変換器(図示せず)
によりディジタル信号に変換され、ディジタル信号に変
換された入力音声信号は上記第2の実施例と同様に、無
音区間検出手段の包絡線検出手段32に入力されると同
時に遅延回路(2)31に設けられたメモリ(図示せず)
入力される。包絡線検出手段32で検出された包絡線情
報は遅延回路(1)35に設けられたメモリ(図示せず)
に入力される。ディジタル回路で構成したOFFニュー
ロン回路33は包絡線検出手段32で検出された包絡線
情報Env.と遅延回路35で遅延された包絡線情報D-env.
を受取り、包絡線の立上りと立ち下がりに対応した信号
N-outを出力する。一方、遅延回路(2)31は上記のOF
Fニューロン回路33の出力を得るまでに必要な時間だ
け入力音声を遅延させる。そしてこの遅延した入力音声
D-outは無音区間伸長手段34に入力される。無音区間
伸長手段34は、OFFニューロン回路の出力N-outを
利用して、遅延した入力音声D-out中の無音区間の検出
と伸長を行ない出力する。上記OFFニューロン回路3
3は、包絡線情報Env.と遅延した包絡線情報D-env.から
包絡線の立上りおよび立ち下がり、すなわち音声中の有
音区間から無音区間への遷移期間の検出を行なう。生体
の視覚・聴覚などの感覚系に広く存在するOFFニュー
ロンと呼ばれる神経細胞群は、与えられていた入力信号
がOFFになったときにのみ特異的に反応する神経組織
で、視聴覚系の情報処理に重要な役割を果たしている。
OFFニューロン回路はこのOFFニューロンの動作を
部分的に模擬し、入力信号の変化点を検出する回路であ
る。OFFニューロン回路は、例えば図9に示すよう
に、時々刻々と入力される包絡線信号Env.とそれを遅延
させた信号D-env.に一定の重み付けを行ない、それらを
加算した結果を出力することで実現できる。ここで包絡
線情報にかける重みWiは負の値に、遅延された包絡線
情報かける重みWeは正の値にする。これら2つの重み
の絶対値は等しくする。これによりこのOFFニューロ
ン回路は包絡線の立上り期間に負の値を出力し、立ち下
がり期間に正の値を出力する。また出力の大きさは入力
音声の包絡線の大きさに対応した値となる。さらにOF
Fニューロン回路の2つの入力信号は時間的な遅延のみ
が異なる全く同じ信号であることから、入力音声中に定
常的な雑音が含まれている場合でも、上記重み付き加算
演算によってこの影響はキャンセルされ出力に生じな
い。一方、無音区間伸長手段34は、上記OFFニュー
ロン回路の出力が正の値を出力してから、次に負の値を
出力するまでの期間を無音区間として検出し(正の値を
出力してから、次に負の値を出力する期間を求め、その
期間が予め設定された最短の無音区間よりも長い場合
に、無音区間として検出する。)、遅延回路(2)31に
よって遅延された入力信号中の対応する無音区間部分
を、繰り返して出力して無音区間の伸長を実現する。こ
こで、無音区間の繰返し量はその無音区間の検出の際に
使用したOFFニューロン回路の出力に比例するように
することによって、入力音声の大きさに応じた無音区間
の伸長が実現できる。
The input audio signal is an A / D converter (not shown)
The input voice signal converted into a digital signal by the input signal is input to the envelope detecting means 32 of the silent section detecting means and to the delay circuit (2) 31 at the same time as in the second embodiment. Provided memory (not shown)
Is entered. The envelope information detected by the envelope detecting means 32 is stored in a memory (not shown) provided in the delay circuit (1) 35.
Entered in. The OFF neuron circuit 33 configured by a digital circuit includes the envelope information Env. Detected by the envelope detecting means 32 and the envelope information D-env. Delayed by the delay circuit 35.
A signal corresponding to the rising and falling edges of the envelope
Output N-out. On the other hand, the delay circuit (2) 31 is
The input voice is delayed by the time required to obtain the output of the F neuron circuit 33. And this delayed input voice
The D-out is input to the silent section expansion means 34. The silent section expansion means 34 detects and expands a silent section in the delayed input voice D-out by using the output N-out of the OFF neuron circuit and outputs it. The OFF neuron circuit 3
3 detects the rising and falling edges of the envelope from the envelope information Env. And the delayed envelope information D-env., That is, the transition period from the voiced section to the silent section in the voice. The neuron group called OFF neuron, which is widely present in the visual and auditory sense systems of the living body, is a neural tissue that specifically reacts only when an input signal that has been applied turns OFF. Plays an important role in.
The OFF neuron circuit is a circuit that partially simulates the operation of the OFF neuron and detects the change point of the input signal. As shown in FIG. 9, for example, the OFF neuron circuit weights the envelope signal Env. That is input momentarily and the delayed signal D-env. It can be realized. Here, the weight Wi applied to the envelope information has a negative value, and the delayed weight We applied to the envelope information has a positive value. The absolute values of these two weights are made equal. As a result, the OFF neuron circuit outputs a negative value during the rising period of the envelope and a positive value during the falling period. Further, the magnitude of the output has a value corresponding to the magnitude of the envelope of the input voice. Further OF
Since the two input signals of the F neuron circuit are exactly the same signals differing only in time delay, even if the input voice contains stationary noise, this effect is canceled by the weighted addition operation. Output does not occur. On the other hand, the silent section expansion means 34 detects a period from when the output of the OFF neuron circuit outputs a positive value until the next negative value is output as a silent section (outputs a positive value. Then, a period for outputting the next negative value is obtained, and when the period is longer than a preset shortest silent period, it is detected as a silent period.), And the input delayed by the delay circuit (2) 31. The corresponding silent interval portion in the signal is repeatedly output to realize the expansion of the silent interval. Here, by setting the repetition amount of the silent section to be proportional to the output of the OFF neuron circuit used when detecting the silent section, the expansion of the silent section according to the volume of the input voice can be realized.

【0031】図10には無音区間の伸長処理の様子を音
声波形の例を用いて示した。入力信号の包絡線と遅延し
た包絡線の重み付き加算結果がOFFニューロン回路出
力である。この例ではWeを正、Wiを負の値としてい
るので、OFFニューロン回路出力は入力音声中の無音
区間から有音区間への遷移部分で負の、また有音区間か
ら無音区間への遷移部分で正のピークを生じる。この正
負のピーク間を無音区間として判定し、その無音区間の
直前に生じた正のピークの絶対値に比例して、無音区間
の伸長量すなわち無音区間出力時の繰返し量を決定す
る。この例では、t1とt2の2か所にあり、各々a
倍、b倍に伸長されて出力されている。
FIG. 10 shows an example of a voice waveform showing the process of expanding the silent section. The weighted addition result of the envelope of the input signal and the delayed envelope is the OFF neuron circuit output. In this example, since We has a positive value and Wi has a negative value, the OFF neuron circuit output is negative at the transition part from the silent section to the sound section in the input speech, and the transition part from the sound section to the silence section. Produces a positive peak at. The interval between the positive and negative peaks is determined as a silent section, and the expansion amount of the silent section, that is, the repetition amount when outputting the silent section is determined in proportion to the absolute value of the positive peak generated immediately before the silent section. In this example, there are two locations, t1 and t2, each of which is a
It is output after being doubled and doubled.

【0032】なお、上記OFFニューロン回路のWeお
よびWiの正負を逆にすることによって、OFFニュー
ロン回路の出力の正負を逆にし、OFFニューロン回路
出力が負の値から次に正の値になる間を無音区間として
検出しても、全く同様の効果が得られることは言うまで
もない。本実施例では入力音声信号をディジタル化して
入力音声信号を処理する場合について説明したが、入力
音声信号をディジタル化しないでアナログ信号のまま入
力音声信号をアナログ処理による包絡線検出手段で包絡
線を検出し、包絡線情報と入力音声信号にアナログ的に
遅延を与え、アナログ回路で構成されたOFFニューロ
ン回路の出力を利用し、無音区間の検出と無音区間を伸
長することができるのは言うまでもない。
By reversing the positive and negative of We and Wi of the OFF neuron circuit, the positive and negative of the output of the OFF neuron circuit is reversed, and the OFF neuron circuit output changes from a negative value to a positive value next. Needless to say, even if is detected as a silent section, the same effect can be obtained. In this embodiment, the case where the input voice signal is digitized and the input voice signal is processed has been described. However, the input voice signal is not digitized, but the input voice signal remains as an analog signal. It goes without saying that it is possible to detect and provide an analog delay to the envelope information and the input voice signal, and to utilize the output of the OFF neuron circuit composed of an analog circuit to detect the silent section and extend the silent section. .

【0033】ところで、上記の実施例では、無音区間と
して検出された部分を繰り返して出力することで無音区
間の伸長を行っているが、繰返して出力するデータの端
には前後の有音区間の一部が含まれることが多い。この
ような場合、繰返し短い音声が出力されて新たな雑音と
なる。これを避けるためには、無音区間として検出され
た部分をすべて繰り返さず、その無音区間の両端の一部
分を除いた中心部分を繰り返す方法を利用することがで
きる。一方、入力された音声情報に音声以外の雑音が含
まれている場合、包絡線の閾値処理よって検出された無
音区間にも雑音が含まれていることが多い。このような
場合に上記の無音区間の伸長を行なうと、雑音を繰り返
して出力することになり、周期的に聞こえる新たな雑音
成分を生じることになる。これを避けるためには、無音
区間を繰り返す時に、信号レベルを下げて繰り返す方法
を利用することができる。
By the way, in the above embodiment, the silent section is expanded by repeatedly outputting the part detected as the silent section. Often included in part. In such a case, a short voice is repeatedly output and becomes new noise. In order to avoid this, it is possible to use a method of not repeating all the portions detected as the silent section but repeating the central portion excluding a part of both ends of the silent section. On the other hand, when the input voice information includes noise other than voice, the silent section detected by the envelope threshold processing often also includes noise. In such a case, if the above-mentioned silent section is expanded, noise will be repeatedly output, and new noise components that are periodically heard will be generated. In order to avoid this, a method of lowering the signal level and repeating it can be used when repeating the silent section.

【0034】一方、これまでの説明では、1つの音声信
号を対象として説明してきたが、人間は普通、左右両耳
を使って音を聞いており、補聴器等の装置においても左
右両耳用に2チャネルの処理を行なうことが望ましい。
このような場合、無音区間の検出はどちらか片側のチャ
ネルで行ない、伸長処理は2チャネルに対して施す方法
が考えられる。また、無音区間の検出のためのチャネル
の選択には、利用者の効き耳側のチャネルを検出用チャ
ネルとする方法や、包絡線信号の大きさが大きい方を検
出用チャネルとする方法がある。さらに、両方のチャネ
ルの出力の平均値を算出し、この平均値信号の包絡線を
用いて無音区間の検出を行なう方法も可能である。
On the other hand, in the above description, one audio signal has been described as an object, but humans usually listen to the sound using both left and right ears, and even in a device such as a hearing aid, it is used for both left and right ears. It is desirable to perform 2-channel processing.
In such a case, it is conceivable that the silent section is detected in one of the channels and the expansion processing is performed in two channels. In addition, in selecting a channel for detecting a silent section, there is a method in which a channel on the side of the user's effective ear is used as a detection channel, or a method in which a larger envelope signal is used as a detection channel. . Further, a method of calculating the average value of the outputs of both channels and detecting the silent section by using the envelope of the average value signal is also possible.

【0035】ところで、本発明における無音区間検出伸
長手段は、電話器等の通信機器に応用することができ
る。先に説明した補聴器等への入力音声信号に対する音
声の無音区間の検出および伸長処理を、電話器等の通信
機器の通話装置に付加して、受話器から出る音声の無音
区間を伸長し、衰えた聴覚を補助することができる。電
話回線を通じて受話側に本発明を利用した場合、送話側
との時間ずれが問題になるが、送話側に対して予め時間
遅れが生じることを知らせておき、適当なポーズを会話
中におけば実用上問題がない。
By the way, the silent section detecting / expanding means of the present invention can be applied to a communication device such as a telephone. The above-described detection and expansion processing of the silent section of the voice for the input audio signal to the hearing aid is added to the communication device of the communication device such as the telephone to expand the silent section of the voice output from the handset and decay. Can assist hearing. When the present invention is applied to the receiving side through the telephone line, a time lag with the transmitting side becomes a problem, but the transmitting side is informed in advance that a time delay will occur, and an appropriate pause is made during the conversation. There is no problem in practical use.

【0036】図11は、本発明の上記第1、第2、およ
び第3の無音区間検出伸長手段を電話器に応用する場合
の構成を示した図である。同図において電話器4の受話
回路41は電話回線を通じて送られてきた信号から音声
信号を抽出する回路で、送話回路42は逆にハンドセッ
ト43中のマイクロホン432により得られた音声信号
を、電話回線用の信号に変換して電話回線に送出する回
路である。また無音区間伸長手段40は、上記第1から
第3の手段のうち、少なくとも1つを用いた音声の無音
区間伸長手段(図1、図4、または図8等参照)であ
る。電話回線がアナログ回線方式の場合には、音声信号
がディジタル符号化されていないため、受話回路を通し
て抽出されたアナログ音声信号を、A/D変換器48を
利用して一旦ディジタル信号に変換した後、先に説明し
た無音区間伸長処理を行い、D/A変換器49によって
アナログ信号に戻してハンドセット43内のスピーカ4
31から出力する。なお、ディジタル回線方式の場合に
は、送られて来る信号が既にディジタル符号化されてお
り、通常のディジタル電話器で行われている復号化処理
を受話回路41内で行い、ディジタル音声信号に変換し
た後、A/D変換器48を用いずに、無音区間伸長手段
によって上記の無音区間伸長処理行い、D/A変換器4
9によってアナログ信号に変換して出力することで、同
様の効果が得られることは言うまでもない。
FIG. 11 is a diagram showing a configuration in which the first, second, and third silent section detecting / expanding means of the present invention are applied to a telephone. In the figure, a receiver circuit 41 of the telephone 4 is a circuit for extracting a voice signal from a signal sent through a telephone line, and a transmitter circuit 42, on the contrary, transmits a voice signal obtained by a microphone 432 in a handset 43 to a telephone. It is a circuit that converts the signal for the line and sends it to the telephone line. The silent section expansion means 40 is a silent section expansion means for voice (see FIG. 1, FIG. 4, FIG. 8 or the like) using at least one of the first to third means. When the telephone line is the analog line system, the voice signal is not digitally encoded, and therefore the analog voice signal extracted through the receiving circuit is once converted into a digital signal by using the A / D converter 48. The speaker 4 in the handset 43 is converted to an analog signal by the D / A converter 49 by performing the silent section expansion process described above.
Output from 31. In the case of the digital line system, the signal transmitted is already digitally encoded, and the decoding process which is carried out by an ordinary digital telephone is performed in the receiving circuit 41 to be converted into a digital voice signal. After that, without using the A / D converter 48, the above-mentioned silent interval expansion processing is performed by the silent interval expansion means, and the D / A converter 4
Needless to say, the same effect can be obtained by converting into an analog signal and outputting the analog signal.

【0037】一方、本実施例による電話器は、使用者に
よって伸長量を変更する伸長量変更手段44を有してい
る。使用者は通話中に音声を聞きながら伸長量を、例え
ばボリュームを回すなどの手段により変化させ、最も聞
きやすい伸長量において通話を行なう。また本実施例で
はこの伸長量を表す信号処理パラメータを記憶するため
のパラメータ記憶手段45を有しており、例えば、通話
終了時にその通話で使われていたパラメータを記憶す
る。使用者が新たな通話を行なう際に、過去に使用した
条件と同じ条件で通話を行ないたいと希望する場合に
は、使用者はパラメータ選択手段46によってパラメー
タ記憶手段45中に記憶されているパラメータセットの
1つを選択し、このパラメータを無音区間伸長手段40
に転送する。
On the other hand, the telephone according to the present embodiment has the extension amount changing means 44 for changing the extension amount by the user. The user changes the extension amount while listening to the voice during the call by means such as turning the volume, and performs the call at the extension amount that is the most audible. Further, the present embodiment has a parameter storage means 45 for storing the signal processing parameter indicating the expansion amount, and stores, for example, the parameter used in the call at the end of the call. When the user wants to make a call under the same conditions as those used in the past when making a new call, the user selects the parameters stored in the parameter storage means 45 by the parameter selection means 46. One of the sets is selected, and this parameter is set to the silent section expansion means 40.
Transfer to.

【0038】さらに、本実施例の電話器のパラメータ選
択手段46には頻度検出手段47が具備されている。こ
の頻度検出手段47は、パラメータ記憶手段45に記憶
されている複数のパラメータセットの中で、最も高い頻
度で使用されたパラメータセットを検出する機能を有し
ており、この最も頻度の高いパラメータセットは、本電
話器により通話を開始する際に、初めに設定される初期
パラメータセットとして使用される。使用者が他のパラ
メータセットで通話を行ないたい場合には、上記パラメ
ータ選択手段46によって選択し直すことができる。
Further, the parameter selecting means 46 of the telephone of this embodiment is provided with a frequency detecting means 47. The frequency detection means 47 has a function of detecting the parameter set used most frequently among the plurality of parameter sets stored in the parameter storage means 45, and the parameter set most frequently used. Is used as an initial parameter set that is initially set when a call is started by this telephone. When the user wants to make a call with another parameter set, the parameter can be selected again by the parameter selecting means 46.

【0039】なお、伸長量変更手段44、パラメータ記
憶手段45、パラメータ選択手段46などを具備せず、
あらかじめ無音区間伸長手段40にデフォルト値を設定
しておき、外部からのスイッチ操作等によって、単に無
音区間伸長の選択/非選択を指定できるようなシンプル
な構成とすることも可能である。
The expansion amount changing means 44, the parameter storing means 45, the parameter selecting means 46, etc. are not provided,
It is also possible to set a default value in the silent section decompressing means 40 in advance, and have a simple configuration in which the selection / non-selection of the silent section expansion can be simply designated by an external switch operation or the like.

【0040】以上の説明では受話側に無音区間伸長手段
が用いられていたが、逆に送話側のマイクロホンの直後
に本発明の無音区間検出伸長手段を挿入し、送話者側で
音声の加工を行なえば、受話側には何等負担をかけずに
受話側の衰えた聴覚を補助することができる。またこの
場合には受話側に本発明を利用した場合に比べ、処理対
象の音声のS/Nが向上するため、正確な無音区間検出
及び伸長ができるという利点がある。またいわゆる留守
番電話に本発明を利用し、録音音声の聞き取り補助にも
用いることができる。
In the above description, the silent section expanding means is used on the receiving side, but conversely, the silent section detecting and expanding means of the present invention is inserted immediately after the microphone on the transmitting side so that the speaker side can reproduce the voice. If processing is performed, it is possible to assist the hearing side's weakened hearing without imposing any burden on the receiving side. Further, in this case, as compared with the case where the present invention is used on the receiving side, the S / N of the voice to be processed is improved, so that there is an advantage that the silent section can be accurately detected and expanded. Further, the present invention can be applied to a so-called answering machine, and can also be used to assist listening of recorded voice.

【0041】さらに本発明における無音区間伸長手段
は、音声信号を出力とする民生機器、例えばラジオ、テ
レビジョン等の音声出力を有する機器、に応用すること
ができる。図12は、本発明の上記第1から第3の無音
区間検出伸長手段をテレビジョン受信機に利用した実施
例を示す図である。放送電波に含まれるテレビジョン信
号はテレビ電波受信回路51により抽出され、抽出され
たテレビジョン信号は映像/音声信号分離手段52によ
って映像信号と音声信号に分離される。このうち映像信
号は画像信号処理回路54により処理された後、ディス
プレイ57に表示される。
Further, the silent section expansion means in the present invention can be applied to consumer equipment which outputs an audio signal, for example, equipment having audio output such as radio and television. FIG. 12 is a diagram showing an embodiment in which the first to third silent section detecting / expanding means of the present invention are used in a television receiver. The television signal included in the broadcast radio wave is extracted by the television radio wave receiving circuit 51, and the extracted television signal is separated into a video signal and an audio signal by the video / audio signal separating means 52. Of these, the video signal is processed by the image signal processing circuit 54 and then displayed on the display 57.

【0042】一方、分離された音声信号は、音声信号処
理回路53によって音声帯域のアナログ信号に変換され
た後、A/D変換器48でディジタル化され、無音区間
伸長手段40に渡される。この音声の特徴強調手段40
は、図11の電話器の実施例同様、上記第1から第3の
無音区間検出伸長手段の少なくとも1つを用いた無音区
間伸長手段(図1、図4、または図8等参照)で、上記
で説明した音声の無音区間の検出と伸長を行なう。そし
て無音区間伸長を受けたディジタル音声信号は、D/A
変換器49によってアナログ信号に変換された後、スピ
ーカ56によって出力される。
On the other hand, the separated audio signal is converted into an analog signal in the audio band by the audio signal processing circuit 53, digitized by the A / D converter 48, and passed to the silent section expansion means 40. This voice feature enhancement means 40
Is a silent section extending means (see FIG. 1, FIG. 4, or FIG. 8 etc.) using at least one of the first to third silent section detecting and extending means as in the embodiment of the telephone of FIG. The silent section of the voice described above is detected and expanded. The digital audio signal that has undergone the silent section expansion is D / A
After being converted into an analog signal by the converter 49, it is output by the speaker 56.

【0043】また、本実施例のテレビジョン受信機に
は、パラメータ記憶手段45、パラメータ選択手段4
6、および伸長量変更手段44が具備されているが、こ
れらの手段の機能は図11の電話器の実施例と同様であ
る。なお、本実施例においても、これらの手段を具備せ
ずに、あらかじめ無音区間伸長手段40にデフォルト値
を設定しておき、外部からのスイッチ操作等によって、
単に強調の選択/非選択を指定できるようなシンプルな
構成とすることも可能である。
In the television receiver of this embodiment, the parameter storage means 45 and the parameter selection means 4 are included.
6 and an expansion amount changing means 44 are provided, but the functions of these means are the same as those of the embodiment of the telephone in FIG. Note that, also in the present embodiment, these means are not provided, a default value is set in advance in the silent section expansion means 40, and a switch operation from the outside, etc.
It is also possible to adopt a simple configuration in which selection / non-selection of emphasis is simply designated.

【0044】図13は、本発明の無音区間検出伸長手段
をラジオ受信機に利用した実施例を示す図である。放送
電波に含まれるラジオ信号はラジオ電波受信回路61に
より抽出され、音声信号処理回路62によって音声帯域
のアナログ信号に変換された後、A/D変換器48でデ
ィジタル化され、無音区間伸長手段40に渡される。こ
の無音区間伸長手段40は、図11の電話器の実施例同
様、上記第1から第3の無音区間検出伸長手段の少なく
とも1つを用いた無音区間伸長手段(図1、図4、また
は図8等参照)で、上記で説明した音声の無音区間の検
出と伸長を行なう。そして無音区間伸長を受けたディジ
タル音声信号は、D/A変換器49によってアナログ信
号に変換された後、スピーカ64によって出力される。
FIG. 13 is a diagram showing an embodiment in which the silent section detecting / expanding means of the present invention is used in a radio receiver. The radio signal included in the broadcast wave is extracted by the radio wave reception circuit 61, converted into an analog signal in the voice band by the voice signal processing circuit 62, digitized by the A / D converter 48, and the silent section expansion means 40. Passed to. As in the embodiment of the telephone of FIG. 11, the silent section expansion means 40 is a silent section expansion means (FIG. 1, FIG. 4, or FIG. 4) using at least one of the first to third silent section detection expanding means. 8 etc.), the silent section of the voice described above is detected and expanded. The digital audio signal subjected to the silent section expansion is converted into an analog signal by the D / A converter 49, and then output by the speaker 64.

【0045】また、本実施例のラジオ受信機にも、パラ
メータ記憶手段45、パラメータ選択手段46、および
伸長量変更手段44が具備されているが、これらの手段
の機能は図11の電話器の実施例と同様である。なお、
本実施例においても、これらの手段を具備せずに、あら
かじめ無音区間伸長手段40にデフォルト値を設定して
おき、外部からのスイッチ操作等によって、単に強調の
選択/非選択を指定できるようなシンプルな構成とする
ことも可能である。
The radio receiver of this embodiment is also provided with a parameter storage means 45, a parameter selection means 46, and an expansion amount change means 44. The functions of these means are those of the telephone set of FIG. It is similar to the embodiment. In addition,
Also in this embodiment, without providing these means, a default value is set in advance in the silent section expansion means 40, and selection / non-selection of emphasis can be simply designated by a switch operation from the outside. It is also possible to have a simple configuration.

【0046】本発明の応用は、図11から図13に示し
た電話器、テレビジョン受信機、ラジオ受信機に限らず
広範な音声利用機器に適用可能である。例えば、テープ
レコーダ、VTR(ビデオテープレコーダ)、CD(コ
ンパクトディスク)、DCC(ディジタルコンパクトカ
セット)、MD(ミニディスク)などの音声録音機器、
WS(ワークステーション)やPC(パーソナルコンピ
ュータ)等に接続された音声出力機器、音声読み上げ機
能を搭載したWP(ワードプロセッサ)や電子メールの
他、産業の応用分野の機器やシステムにも適用可能であ
る。また、難聴児の教育現場などでは、マイクロフォン
の音声出力に適用して複数の難聴者に対して聴覚を補助
することができる。さらに、本発明におけるの無音区間
の検出方式は、自動音声認識処理における音声信号のセ
グメンテーション等にも利用可能であることも自明であ
る。
The application of the present invention is not limited to the telephone set, the television receiver, and the radio receiver shown in FIGS. 11 to 13, and can be applied to a wide range of voice utilizing devices. For example, tape recorders, VTRs (video tape recorders), CDs (compact discs), DCCs (digital compact cassettes), MDs (minidiscs), and other audio recording devices,
It can be applied to voice output devices connected to WS (workstation), PC (personal computer), etc., WP (word processor) equipped with voice reading function and electronic mail, as well as devices and systems in industrial application fields. . In addition, in an educational site of a hearing-impaired child or the like, it can be applied to voice output of a microphone to assist the hearing of a plurality of hearing-impaired persons. Furthermore, it is also obvious that the silent section detection method of the present invention can also be used for segmentation of a voice signal in automatic voice recognition processing.

【0047】また、本発明の無音区間検出および伸長手
段は、汎用のDSPを用いて容易に実現できるが、専用
のハードウエアや汎用のマイクロコンピュータを用いて
ソフトウエアにて実現しても構わない。
The silent section detecting and expanding means of the present invention can be easily realized by using a general-purpose DSP, but may be realized by software by using dedicated hardware or a general-purpose microcomputer. .

【0048】[0048]

【発明の効果】本発明によれば、雑音成分により音声の
レベル変動がある場合でも雑音の影響を受けずに、無音
区間の検出が可能となり、音声信号のパワーの大きさに
応じて無音区間の伸長量を制御することができる。すな
わち、入力音声信号に応じ動的にしかもリアルタイムで
無音区間を検出し無音区間を伸長することができる。本
発明の装置、方法を、衰えた聴覚を補助する補聴器等の
機器や、音声信号を出力とする民生機器に応用すること
によって、従来あまり考慮されていなかった難聴者の時
間分解能の低下、たとえば継時マスキングなどによる音
声明瞭度の低下を補い、難聴者にとっての音声の明瞭度
を向上することが可能となる。
According to the present invention, it is possible to detect a silent section without being affected by noise even if there is a change in voice level due to a noise component, and the silent section can be detected according to the magnitude of the power of the voice signal. It is possible to control the extension amount of. That is, the silent section can be dynamically detected in real time according to the input voice signal and the silent section can be extended. By applying the device and method of the present invention to a device such as a hearing aid or the like that assists a deteriorated hearing, or a consumer device that outputs a voice signal, the time resolution of a hearing-impaired person, which has not been considered so far, is reduced. It is possible to compensate for the decrease in voice intelligibility due to continuous masking and improve the voice intelligibility for the hearing impaired.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の第1の実施例を示すブロック図。FIG. 1 is a block diagram showing a first embodiment of the present invention.

【図2】図1中の無音区間伸長手段の詳細を示すブロッ
ク図。
FIG. 2 is a block diagram showing details of a silent section expansion means in FIG.

【図3】包絡線の閾値処理を用いた無音区間の伸長処理
を示す図。
FIG. 3 is a diagram illustrating a process of expanding a silent section using envelope threshold processing.

【図4】本発明の第2の実施例を示すブロック図。FIG. 4 is a block diagram showing a second embodiment of the present invention.

【図5】微分値を求めるために使用する窓関数の例を示
す図。
FIG. 5 is a diagram showing an example of a window function used to obtain a differential value.

【図6】図4中の無音区間の伸長手段の詳細を示すブロ
ック図。
FIG. 6 is a block diagram showing details of a decompression means for a silent section in FIG.

【図7】包絡線の微分値を用いた無音区間の伸長処理を
示す図。
FIG. 7 is a diagram showing a process of expanding a silent section using a differential value of an envelope.

【図8】本発明の第3の実施例を示すブロック図。FIG. 8 is a block diagram showing a third embodiment of the present invention.

【図9】図8中のOFFニューロン回路の詳細を説明す
る図。
9 is a diagram illustrating details of an OFF neuron circuit in FIG.

【図10】OFFニューロン回路を用いた無音区間の伸
長処理を示す図。
FIG. 10 is a diagram showing a decompression process of a silent section using an OFF neuron circuit.

【図11】本発明の無音区間伸長手段を用いた電話器の
構成図。
FIG. 11 is a block diagram of a telephone using the silent interval expansion means of the present invention.

【図12】本発明の無音区間伸長手段を用いたテレビジ
ョン受像機の構成図。
FIG. 12 is a block diagram of a television receiver using the silent section expansion means of the present invention.

【図13】本発明の無音区間伸長手段を用いたラジオ受
信機の構成図。
FIG. 13 is a configuration diagram of a radio receiver using the silent section expansion means of the present invention.

【符号の説明】[Explanation of symbols]

1…包絡線の閾値処理を用いる無音区間伸長手段 11…メモリ 111…音声情報格納手段 112…包絡線情報格納手段 113…最大値最小値格納手段 12…包絡線検出手段 13…最大値最小値検出手段 14…無音区間伸長手段 141…閾値設定手段 142…無音区間検出手段 143…波形加工手段 2…包絡線の微分値を用いる無音区間伸長手段 21…遅延回路 22…包絡線検出手段 23…微分回路 24…無音区間伸長手段 241…無音区間検出手段 242…波形加工手段 3…OFFニューロン回路を用いた無音区間伸長手段 31…遅延回路(2) 32…包絡線検出手段 33…OFFニューロン回路 34…無音区間伸長手段 35…遅延回路(1) Wi…負の値の重み係数 We…正の値の重み係数、 4…無音区間伸長手段を有する電話器 41…受話回路 42…送話回路 43…ハンドセット 44…伸長量変更手段 45…パラメータ記憶手段 46…パラメータ選択手段 47…頻度検出手段 5…無音区間伸長手段を有するテレビジョン受信機 51…テレビ電波受信回路 52…映像/音声信号分離手段 53…音声信号処理回路 54…画像信号処理回路 6…無音区間伸長手段を有するラジオ受信機 61…ラジオ電波受信回路 62…音声信号処理回路。 1 ... Silent section expansion means using envelope threshold processing 11 ... Memory 111 ... Voice information storage means 112 ... Envelope information storage means 113 ... Maximum value minimum value storage means 12 ... Envelope detection means 13 ... Maximum value minimum value detection Means 14 ... Silent section expanding means 141 ... Threshold setting means 142 ... Silent section detecting means 143 ... Waveform processing means 2 ... Silent section expanding means 21 using differential value of envelope 21 ... Delay circuit 22 ... Envelope detecting means 23 ... Differentiating circuit 24 ... Silent section expanding means 241 ... Silent section detecting means 242 ... Waveform processing means 3 ... Silent section expanding means using OFF neuron circuit 31 ... Delay circuit (2) 32 ... Envelope detecting means 33 ... OFF neuron circuit 34 ... Silent Interval expansion means 35 ... Delay circuit (1) Wi ... Negative value weighting coefficient We ... Positive value weighting coefficient, 4 ... Silent interval expansion means Telephone set 41 ... Receiving circuit 42 ... Sending circuit 43 ... Handset 44 ... Expansion amount changing means 45 ... Parameter storing means 46 ... Parameter selecting means 47 ... Frequency detecting means 5 ... Television receiver 51 having silent section expanding means 51 ... Television radio wave receiving circuit 52 ... Video / audio signal separating means 53 ... Audio signal processing circuit 54 ... Image signal processing circuit 6 ... Radio receiver 61 having silent section extending means 61 ... Radio electric wave receiving circuit 62 ... Audio signal processing circuit.

Claims (37)

【特許請求の範囲】[Claims] 【請求項1】聴覚を補助する音声の無音区間検出伸長装
置であって、 入力音声信号中の無音区間を検出する無音区間検出手段
と、前記無音区間検出手段により検出された無音区間の
信号を、前記無音区間の直前の前記入力音声信号のパワ
ーに比例させて伸長する無音区間伸長手段とを備えたこ
とを特徴とする音声の無音区間検出伸長装置。
1. A device for detecting and expanding a silent section of a voice for assisting hearing, comprising: a silent section detecting unit for detecting a silent section in an input voice signal; and a silent section signal detected by the silent section detecting unit. A silent interval detecting / expanding device for audio, comprising: a silent interval expanding means for expanding in proportion to the power of the input audio signal immediately before the silent interval.
【請求項2】請求項1記載において、ディジタル信号に
変換された入力音声信号から包絡線を検出する包絡線検
出手段と、前記包絡線の最大値および最小値を検出する
手段と、前記入力音声信号の音声情報、前記包絡線の情
報、前記最大値および最小値を少なくとも格納するメモ
リを備え、前記無音区間検出手段は、前記最大値および
最小値の間のいずれかの値に設定された閾値よりも包絡
線が小さくなる期間を無音区間として検出することを特
徴とする音声の無音区間検出伸長装置。
2. An envelope detecting means for detecting an envelope from an input voice signal converted into a digital signal, a means for detecting a maximum value and a minimum value of the envelope, and the input voice according to claim 1. A voice information of a signal, information of the envelope, a memory for storing at least the maximum value and the minimum value, and the silent section detecting means is a threshold value set to any value between the maximum value and the minimum value. An apparatus for detecting and expanding a silent section of a voice, which detects a period in which an envelope becomes smaller than that of a silent section.
【請求項3】請求項2記載において、前記包絡線検出手
段は、前記入力音声信号の前記入力音声信号の時間平均
演算によって前記入力音声信号の包絡線を検出し、前記
無音区間検出手段は、検出された包絡線の値が設定され
た閾値よりも連続して低くなる期間を求め、前記期間が
予め設定された最短の無音区間よりも長い場合に、前記
期間を無音区間として検出することを特徴とする音声の
無音区間検出伸長装置。
3. The envelope detecting means according to claim 2, wherein the envelope curve of the input voice signal is detected by a time average calculation of the input voice signal of the input voice signal, and the silent section detecting means is Obtaining a period in which the value of the detected envelope is continuously lower than the set threshold value, when the period is longer than the preset shortest silent section, to detect the period as a silent section, A device for detecting and expanding a silent section of a characteristic voice.
【請求項4】請求項1記載において、前記無音区間伸長
手段は、前記無音区間の直前の有音区間の包絡線の値、
または包絡線の最大値に比例した値に設定して前記無音
区間を伸長することを特徴とする音声の無音区間検出伸
長装置。
4. The silent segment expansion means according to claim 1, wherein a value of an envelope curve of a voiced segment immediately before the silent segment,
Alternatively, a voice silent section detecting and expanding apparatus for expanding a silent section by setting a value proportional to a maximum value of an envelope.
【請求項5】請求項4記載において、前記無音区間伸長
手段は、前記無音区間の開始時点と終了時点の両端を除
く中心部分を繰返し前記無音区間に追加することを特徴
とする音声の無音区間検出伸長装置。
5. The silent section of voice according to claim 4, wherein the silent section expanding unit repeatedly adds a central portion except for both ends of a start point and an end point of the silent section to the silent section. Detection and extension device.
【請求項6】請求項4記載において、前記無音区間伸長
手段は、前記無音区間の信号のレベルを前記入力音声信
号における前記無音区間の信号のレベルより低くして前
記無音区間に追加することを特徴とする音声の無音区間
検出伸長装置。
6. The silent section expansion means according to claim 4, wherein the silent section expansion unit lowers the signal level of the silent section to a level lower than the signal level of the silent section in the input voice signal and adds the signal to the silent section. A device for detecting and expanding a silent section of a characteristic voice.
【請求項7】請求項1記載において、ディジタル信号に
変換された入力音声信号から包絡線を検出する包絡線検
出手段と、前記包絡線の微分値を計算する微分回路と、
前記入力音声信号を前記微分回路の計算時間分遅延させ
る遅延回路を備え、前記無音区間検出手段は、前記微分
回路による包絡線の微分値が負のピーク値から正のピー
ク値に変化する期間を無音区間として検出することを特
徴とする音声の無音区間検出伸長装置。
7. The envelope detecting means for detecting an envelope from an input voice signal converted into a digital signal according to claim 1, and a differentiating circuit for calculating a differential value of the envelope.
A delay circuit for delaying the input voice signal by a calculation time of the differentiating circuit, and the silent section detecting means sets a period during which the differential value of the envelope of the differentiating circuit changes from a negative peak value to a positive peak value. An apparatus for detecting and expanding a silent section of a voice, which is detected as a silent section.
【請求項8】請求項7記載において、前記包絡線検出手
段は、前記入力音声信号の前記入力音声信号の時間平均
演算によって前記入力音声信号の包絡線を検出し、前記
無音区間検出手段は、前記微分回路による包絡線の微分
値が負のピーク値から正のピーク値に変化する期間を求
め、その期間が予め設定された最短の無音区間よりも長
い場合に、この期間を無音区間として検出することを特
徴とする音声の無音区間検出伸長装置。
8. The envelope detecting means according to claim 7, wherein the envelope of the input audio signal is detected by time-averaging the input audio signal of the input audio signal. Obtaining a period in which the differential value of the envelope by the differentiating circuit changes from a negative peak value to a positive peak value, and when the period is longer than a preset shortest silent section, this period is detected as a silent section. An apparatus for detecting and expanding a silent section of a voice, characterized by:
【請求項9】請求項7記載において、前記微分回路は、
微分値の算出を、ディジタル信号に変換された前記入力
音声信号と、原点に対して点対称な形状を有する窓関数
との畳み込み演算によって行なうことを特徴とする音声
の無音区間検出伸長装置。
9. The differentiating circuit according to claim 7,
An apparatus for detecting and expanding a silent section of a voice, characterized in that a differential value is calculated by a convolution operation of the input voice signal converted into a digital signal and a window function having a point-symmetrical shape with respect to the origin.
【請求項10】請求項9記載において、前記微分回路
は、正または負いずれかの傾きをもつ窓関数を用いて、
微分値の算出を行うことを特徴とする音声の無音区間検
出伸長装置。
10. The differentiating circuit according to claim 9, wherein a window function having a positive or negative slope is used,
An apparatus for detecting and expanding a silent section of a voice, characterized by calculating a differential value.
【請求項11】請求項9記載において、前記微分回路
は、非直線的な窓関数を用いて重み付き加算を行なうこ
とを特徴とする音声の無音区間検出伸長装置。
11. The apparatus for detecting and expanding a silent section of speech according to claim 9, wherein the differentiating circuit performs weighted addition using a non-linear window function.
【請求項12】請求項7記載において、前記無音区間伸
長手段は、前記無音区間の直前の微分値の負のピーク値
のパワーに比例させて前記無音区間を伸長することを特
徴とする音声の無音区間検出伸長装置。
12. The soundless segment expansion means according to claim 7, wherein the silent segment expansion unit expands the silent segment in proportion to the power of the negative peak value of the differential value immediately before the silent segment. Silent section detection and expansion device.
【請求項13】請求項12記載において、前記無音区間
伸長手段は、前記無音区間の開始時点と終了時点の両端
を除く中心部分を繰返し前記無音区間に追加することを
特徴とする音声の無音区間検出伸長装置。
13. The silent section of voice according to claim 12, wherein the silent section expanding unit repeatedly adds a central portion except for both ends of a start point and an end point of the silent section to the silent section. Detection and extension device.
【請求項14】請求項12記載において、前記無音区間
伸長手段は、前記無音区間の信号のレベルを前記入力音
声信号における前記無音区間の信号のレベルより低くし
て前記無音区間に追加することを特徴とする音声の無音
区間検出伸長装置。
14. The silent section expansion means according to claim 12, wherein the level of the signal of the silent section is made lower than the level of the signal of the silent section in the input voice signal and added to the silent section. A device for detecting and expanding a silent section of a characteristic voice.
【請求項15】請求項1記載において、ディジタル信号
に変換された入力音声信号から包絡線を検出する包絡線
検出手段と、前記包絡線の情報を遅延させる第1の遅延
回路と、前記包絡線の情報と、遅延させた包絡線の情報
を入力し、夫々の包絡線の情報に一定の重み付けを行な
い、それらを加算してOFFニューロンの動作を模擬
し、包絡線の立上りと立ち下がりに対応した信号を出力
するOFFニューロン回路と、前記入力音声信号を前記
OFFニューロン回路の計算時間分遅延させる第2の遅
延回路を備え、前記無音区間検出手段は、前記OFFニ
ューロン回路による出力が正の値を出力してから次に負
の値を出力するまでの期間を無音区間として検出するこ
とを特徴とする音声の無音区間検出伸長装置。
15. The envelope detecting means for detecting an envelope from an input audio signal converted into a digital signal, a first delay circuit for delaying information of the envelope, and the envelope according to claim 1. Information and delayed envelope information are input, each envelope information is weighted to a certain degree, and these are added to simulate the behavior of the OFF neuron, which corresponds to the rise and fall of the envelope. And a second delay circuit for delaying the input voice signal by the calculation time of the OFF neuron circuit, wherein the silent section detecting means outputs a positive value to the OFF neuron circuit. A silent interval detection / expansion device for voice, characterized in that a period from the output of the above to the output of the next negative value is detected as a silent interval.
【請求項16】請求項15記載において、前記包絡線検
出手段は、前記入力音声信号の前記入力音声信号の時間
平均演算によって前記入力音声信号の包絡線を検出し、
前記無音区間検出手段は、前記OFFニューロン回路に
よる出力が正の値を出力してから次に負の値を出力する
までの期間を求め、前記期間が予め設定された最短の無
音区間よりも長い場合に、前記期間を無音区間として検
出することを特徴とする音声の無音区間検出伸長装置。
16. The envelope detecting means according to claim 15, wherein the envelope of the input audio signal is detected by time-averaging the input audio signal of the input audio signal,
The silent section detecting means obtains a period from when the output from the OFF neuron circuit outputs a positive value to the next negative value, and the period is longer than a preset shortest silent section. In this case, the apparatus for detecting and expanding a silent section of voice, characterized in that the period is detected as a silent section.
【請求項17】請求項15記載において、前記OFFニ
ューロン回路は、正負を逆にし、負の値を出力してから
次に正の値を出力するまでの期間を無音区間として検出
することを特徴とする音声の無音区間検出伸長装置。
17. The OFF neuron circuit according to claim 15, wherein the positive and negative are reversed, and a period from the output of a negative value to the output of the next positive value is detected as a silent section. A device for detecting and expanding a silent section of a voice.
【請求項18】請求項15記載において、前記無音区間
伸長手段は、前記無音区間の直前の前記OFFニューロ
ン回路の出力のパワーに比例させて前記無音区間を伸長
することを特徴とする音声の無音区間検出伸長装置。
18. The sound silence section according to claim 15, wherein the silence section expansion means expands the silence section in proportion to the power of the output of the OFF neuron circuit immediately before the silence section. Section detection and extension device.
【請求項19】請求項18記載において、前記無音区間
伸長手段は、前記無音区間の開始時点と終了時点の両端
を除く中心部分を繰返し前記無音区間に追加することを
特徴とする音声の無音区間検出伸長装置。
19. The silent section of voice according to claim 18, wherein said silent section expanding means repeatedly adds a central portion except both ends of a start point and an end point of said silent section to said silent section. Detection and extension device.
【請求項20】請求項18記載において、前記無音区間
伸長手段は、前記無音区間の信号のレベルを前記入力音
声信号における前記無音区間の信号のレベルより低くし
て前記無音区間に追加することを特徴とする音声の無音
区間検出伸長装置。
20. The silent section expansion means according to claim 18, wherein the level of the signal in the silent section is made lower than the level of the signal in the silent section in the input voice signal and added to the silent section. A device for detecting and expanding a silent section of a characteristic voice.
【請求項21】請求項1記載において、前記無音区間検
出手段は、前記入力音声信号を聴取する人の耳に入力さ
れる2チャネルのいずれか一方のチャネルの入力音声信
号を用いて無音区間の検出を行ない、前記無音区間伸長
手段は、前記2チャネルの両方の入力音声信号に対して
無音区間を伸長することを特徴とする音声の無音区間検
出伸長装置。
21. The silent section detecting means according to claim 1, wherein the silent section is detected by using an input voice signal of one of two channels input to the ear of a person who listens to the input voice signal. A silent interval detecting / expanding device for voice, wherein the silent interval expanding means detects and expands a silent interval for both input audio signals of the two channels.
【請求項22】請求項21記載において、前記無音区間
検出手段は、前記一方のチャネルが前記2チャネルの入
力音声信号のうち入力音声信号の大きさが大きい方のチ
ャネルを用いることを特徴とする音声の無音区間検出伸
長装置。
22. The silent section detecting means according to claim 21, wherein the one channel uses one of the input audio signals of the two channels, whichever has a larger input audio signal. A device for detecting and expanding silent sections of voice.
【請求項23】請求項21記載において、前記無音区間
検出手段は、前記一方のチャネルが前記入力音声信号を
聴取する人の効き耳側のチャネルを用いることを特徴と
する音声の無音区間検出伸長装置。
23. The soundless section detecting and expanding apparatus according to claim 21, wherein said silent section detecting means uses a channel on the side of the effective ear of a person who listens to said input audio signal as said one channel. apparatus.
【請求項24】請求項1記載において、前記無音区間検
出手段は、前記入力音声信号を聴取する人の耳に入力さ
れる2チャネルの入力音声信号の平均値信号を用いて無
音区間の検出を行ない、前記無音区間伸長手段は、前記
2チャネルの両方の入力音声信号に対して無音区間を伸
長することを特徴とする音声の無音区間検出伸長装置。
24. The silent section detection means according to claim 1, wherein the silent section is detected by using an average value signal of two-channel input audio signals input to the ear of a person who listens to the input audio signal. A silent interval detecting / expanding device for audio, wherein the silent interval expanding means expands a silent interval for both input voice signals of the two channels.
【請求項25】入力音声信号中の無音区間を検出し、前
記検出された無音区間の信号を、前記無音区間の直前の
前記入力音声信号のパワーに比例させて伸長することに
より聴覚を補助することを特徴とする音声の無音区間検
出伸長方法。
25. A hearing aid is detected by detecting a silent section in an input audio signal and extending the signal of the detected silent section in proportion to the power of the input audio signal immediately before the silent section. A method for detecting and expanding a silent section of a voice, comprising:
【請求項26】請求項25記載において、ディジタル信
号に変換された入力音声信号から包絡線を検出し、前記
包絡線の最大値および最小値を検出し、前記入力音声信
号の音声情報、前記包絡線の情報、前記最大値および最
小値を少なくとも格納し、前記最大値および最小値の間
のいずれかの値に設定された閾値よりも包絡線が小さく
なる期間を無音区間として検出し、前記無音区間の直前
の前記入力音声信号のパワーに比例させて前記無音区間
を伸長することを特徴とする音声の無音区間検出伸長方
法。
26. The envelope according to claim 25, wherein an envelope is detected from the input voice signal converted into a digital signal, maximum and minimum values of the envelope are detected, and voice information of the input voice signal and the envelope are detected. At least the line information, the maximum value and the minimum value are stored, and a period in which the envelope becomes smaller than a threshold value set to any value between the maximum value and the minimum value is detected as a silent section, and the silent period is detected. A silent interval detecting and expanding method for voice, characterized in that the silent interval is expanded in proportion to the power of the input audio signal immediately before the interval.
【請求項27】請求項25記載において、ディジタル信
号に変換された入力音声信号から包絡線を検出し、前記
包絡線の微分値を計算し、前記入力音声信号を前記微分
値の計算時間分遅延させ、前記微分値が負のピーク値か
ら正のピーク値に変化する期間を無音区間として検出
し、前記無音区間の直前の微分値の負のピーク値のパワ
ーに比例させて前記無音区間を伸長することを特徴とす
る音声の無音区間検出伸長方法。
27. The envelope according to claim 25, wherein an envelope is detected from an input voice signal converted into a digital signal, a differential value of the envelope is calculated, and the input voice signal is delayed by a calculation time of the differential value. Then, the period in which the differential value changes from the negative peak value to the positive peak value is detected as a silent section, and the silent section is expanded in proportion to the power of the negative peak value of the differential value immediately before the silent section. A method for detecting and expanding a silent section of a voice, comprising:
【請求項28】請求項25記載において、ディジタル信
号に変換された入力音声信号から包絡線を検出し、前記
包絡線の情報を遅延させ、前記包絡線の情報と、遅延さ
せた包絡線の情報を入力し、夫々の包絡線の情報に一定
の重み付けを行ない、それらを加算してOFFニューロ
ンの動作を模擬し、包絡線の立上りと立ち下がりに対応
した信号を出力し、前記入力音声信号を前記OFFニュ
ーロンの計算時間分遅延させ、前記OFFニューロンが
正の値を出力してから次に負の値を出力するまでの期間
を無音区間として検出し、前記無音区間の直前の前記O
FFニューロン回路の出力のパワーに比例させて前記無
音区間を伸長することを特徴とする音声の無音区間検出
伸長方法。
28. The envelope according to claim 25, wherein an envelope is detected from an input voice signal converted into a digital signal, information on the envelope is delayed, information on the envelope, and information on the delayed envelope. Is input, a certain weight is applied to the information of each envelope, these are added to simulate the operation of the OFF neuron, a signal corresponding to the rising and falling of the envelope is output, and the input voice signal is The period from the time when the OFF neuron outputs a positive value to the time when the OFF neuron outputs a next negative value is detected as a silent section by delaying by the calculation time of the OFF neuron, and the O immediately before the silent section is detected.
A silent interval detecting and expanding method for voice, characterized in that the silent interval is expanded in proportion to the output power of the FF neuron circuit.
【請求項29】入力音声信号中の無音区間を検出し、検
出された無音区間の信号を、前記無音区間の直前の前記
入力音声信号のパワーに比例させて伸長する無音区間伸
長手段と、前記無音区間の伸長量を変更する無音区間伸
長量変更手段と、を備えた音声の無音区間検出伸長装置
を用いて、聴覚を補助することを特徴とする電話器。
29. A silent interval expansion means for detecting a silent interval in an input audio signal, and expanding the signal of the detected silent interval in proportion to the power of the input audio signal immediately before the silent interval, A telephone which assists hearing by using a voice silent period detection / expansion device including a silent period expansion amount changing means for changing the expansion amount of a silent period.
【請求項30】請求項29記載において、前記伸長量を
表すパラメータセットを記憶するパラメータ記憶手段
と、過去に使用した前記パラメータセットを前記パラメ
ータ記憶手段から選択するパラメータ選択手段を備えた
ことを特徴とする電話器。
30. The method according to claim 29, further comprising: parameter storage means for storing a parameter set representing the expansion amount, and parameter selection means for selecting the previously used parameter set from the parameter storage means. And a telephone.
【請求項31】請求項30記載において、前記パラメー
タ選択手段は、複数のパラメータセットの中で最も使用
頻度の高いパラメータセットを検出する頻度検出手段を
備えたことを特徴とする電話器。
31. The telephone set according to claim 30, wherein the parameter selection means includes a frequency detection means for detecting a parameter set that is most frequently used among a plurality of parameter sets.
【請求項32】入力音声信号中の無音区間を検出し、検
出された無音区間の信号を、前記無音区間の直前の前記
入力音声信号のパワーに比例させて伸長する無音区間伸
長手段と、前記無音区間の伸長量を変更する無音区間伸
長量変更手段と、を備えた音声の無音区間検出伸長装置
を用いて、聴覚を補助することを特徴とするテレビジョ
ン受信機。
32. A silent interval expansion means for detecting a silent interval in an input audio signal, and expanding the signal of the detected silent interval in proportion to the power of the input audio signal immediately before the silent interval, A television receiver, characterized in that a hearing aid is assisted by using a device for detecting and expanding a silent section of a voice, comprising a silent section expansion amount changing means for changing the expansion amount of a silent section.
【請求項33】請求項32記載において、前記伸長量を
表すパラメータセットを記憶するパラメータ記憶手段
と、過去に使用した前記パラメータセットを前記パラメ
ータ記憶手段から選択するパラメータ選択手段を備えた
ことを特徴とするテレビジョン受信機。
33. The method according to claim 32, further comprising parameter storage means for storing a parameter set representing the expansion amount and parameter selection means for selecting the parameter set used in the past from the parameter storage means. And a television receiver.
【請求項34】請求項33記載において、前記パラメー
タ選択手段は、複数のパラメータセットの中で最も使用
頻度の高いパラメータセットを検出する頻度検出手段を
備えたことを特徴とするテレビジョン受信機。
34. The television receiver according to claim 33, wherein the parameter selection means includes frequency detection means for detecting a parameter set having the highest frequency of use among a plurality of parameter sets.
【請求項35】入力音声信号中の無音区間を検出し、検
出された無音区間の信号を、前記無音区間の直前の前記
入力音声信号のパワーに比例させて伸長する無音区間伸
長手段と、前記無音区間の伸長量を変更する手段と、を
備えた音声の無音区間検出伸長装置を用いて、聴覚を補
助することを特徴とするラジオ受信機。
35. A silent interval expansion means for detecting a silent interval in an input audio signal, and expanding the detected signal in the silent interval in proportion to the power of the input audio signal immediately before the silent interval, A radio receiver characterized in that it assists hearing by using a device for detecting and expanding a silent section of a voice, comprising: a unit for changing the expansion amount of a silent section.
【請求項36】請求項35記載において、前記伸長量を
表すパラメータセットを記憶するパラメータ記憶手段
と、過去に使用した前記パラメータセットを前記パラメ
ータ記憶手段から選択するパラメータ選択手段を備えた
ことを特徴とするラジオ受信機。
36. The apparatus according to claim 35, further comprising parameter storage means for storing a parameter set representing the expansion amount, and parameter selection means for selecting the parameter set used in the past from the parameter storage means. And a radio receiver.
【請求項37】請求項36記載において、前記パラメー
タ選択手段は、複数のパラメータセットの中で最も使用
頻度の高いパラメータセットを検出する頻度検出手段を
備えたことを特徴とするラジオ受信機。
37. The radio receiver according to claim 36, wherein the parameter selecting means includes a frequency detecting means for detecting a parameter set having the highest frequency of use among a plurality of parameter sets.
JP5153282A 1992-06-25 1993-06-24 Non-voice section detecting/expanding device/method Pending JPH0698398A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5153282A JPH0698398A (en) 1992-06-25 1993-06-24 Non-voice section detecting/expanding device/method

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP16722892 1992-06-25
JP4-167228 1992-06-25
JP5153282A JPH0698398A (en) 1992-06-25 1993-06-24 Non-voice section detecting/expanding device/method

Publications (1)

Publication Number Publication Date
JPH0698398A true JPH0698398A (en) 1994-04-08

Family

ID=26481952

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5153282A Pending JPH0698398A (en) 1992-06-25 1993-06-24 Non-voice section detecting/expanding device/method

Country Status (1)

Country Link
JP (1) JPH0698398A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5867581A (en) * 1994-10-14 1999-02-02 Matsushita Electric Industrial Co., Ltd. Hearing aid
US6236970B1 (en) 1997-04-30 2001-05-22 Nippon Hoso Kyokai Adaptive speech rate conversion without extension of input data duration, using speech interval detection
KR20150056276A (en) * 2013-11-15 2015-05-26 현대모비스 주식회사 Pre-processing apparatus for speech recognition and method thereof

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5867581A (en) * 1994-10-14 1999-02-02 Matsushita Electric Industrial Co., Ltd. Hearing aid
US6236970B1 (en) 1997-04-30 2001-05-22 Nippon Hoso Kyokai Adaptive speech rate conversion without extension of input data duration, using speech interval detection
US6374213B2 (en) 1997-04-30 2002-04-16 Nippon Hoso Kyokai Adaptive speech rate conversion without extension of input data duration, using speech interval detection
KR20150056276A (en) * 2013-11-15 2015-05-26 현대모비스 주식회사 Pre-processing apparatus for speech recognition and method thereof

Similar Documents

Publication Publication Date Title
KR100283421B1 (en) Speech rate conversion method and apparatus
US6226605B1 (en) Digital voice processing apparatus providing frequency characteristic processing and/or time scale expansion
US5572593A (en) Method and apparatus for detecting and extending temporal gaps in speech signal and appliances using the same
KR20170071585A (en) Systems, methods, and devices for intelligent speech recognition and processing
JP2000152394A (en) Hearing aid for moderately hard of hearing, transmission system having provision for the moderately hard of hearing, recording and reproducing device for the moderately hard of hearing and reproducing device having provision for the moderately hard of hearing
JP2007219188A (en) Consonant processing device, speech information transmission device, and consonant processing method
JP3308567B2 (en) Digital voice processing apparatus and digital voice processing method
JPH0968997A (en) Method and device for processing voice
JP4147445B2 (en) Acoustic signal processing device
JP3961616B2 (en) Speech speed conversion method and hearing aid with speech speed conversion function
JPH0698398A (en) Non-voice section detecting/expanding device/method
JP4644876B2 (en) Audio processing device
JP3303446B2 (en) Audio signal processing device
JPH0916193A (en) Speech-rate conversion device
JP3420831B2 (en) Bone conduction voice noise elimination device
JP2905112B2 (en) Environmental sound analyzer
JPH07111527A (en) Voice processing method and device using the processing method
JP3298188B2 (en) Voice detection method
JP3102553B2 (en) Audio signal processing device
JPH06289896A (en) System and device for emphaizing feature of speech
JP2000349893A (en) Voice reproduction method and voice reproduction device
JPH09146587A (en) Speech speed changer
JP3008640B2 (en) Digital audio processing unit
JPH10111699A (en) Voice reproducer
JP4005166B2 (en) Audio signal processing circuit