JPH10333695A - Voice converting device - Google Patents

Voice converting device

Info

Publication number
JPH10333695A
JPH10333695A JP9146179A JP14617997A JPH10333695A JP H10333695 A JPH10333695 A JP H10333695A JP 9146179 A JP9146179 A JP 9146179A JP 14617997 A JP14617997 A JP 14617997A JP H10333695 A JPH10333695 A JP H10333695A
Authority
JP
Japan
Prior art keywords
voice
input
zero
power
amplitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9146179A
Other languages
Japanese (ja)
Inventor
Kiyo Hara
紀代 原
Kenji Matsui
謙二 松井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Technology Research Association of Medical and Welfare Apparatus
Original Assignee
Technology Research Association of Medical and Welfare Apparatus
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Technology Research Association of Medical and Welfare Apparatus filed Critical Technology Research Association of Medical and Welfare Apparatus
Priority to JP9146179A priority Critical patent/JPH10333695A/en
Publication of JPH10333695A publication Critical patent/JPH10333695A/en
Pending legal-status Critical Current

Links

Landscapes

  • Electrophonic Musical Instruments (AREA)

Abstract

PROBLEM TO BE SOLVED: To improve the clearness and hearing easiness of a gullet-pronounced voice, by detecting the zero intersection of the inputted voice, calculating the power of the voice, and amplitude-emphasizing the voice for every detected zone with a zero intersection detecting means. SOLUTION: The voice inputted from a voice input end 1 (such as a microphone) is A/D-converted by an A/D-converter 2 and accumulated in a wave-form memory section 3. A zero intersection detection section 4 detects the zero intersection of the accumulated voice wave-form and determines the processing zone. A power calculation section 5 obtains the power (amplitude square sum) of the wave-form in the processing zone. A power comparison section 6 compares the obtained power value with a threshold value set in advance. When the power value is larger than the threshold value, an amplitude emphasis section 7 conducts an amplitude emphasis processing. When the power value is smaller than the threshold value, no amplitude emphasis processing is conducted, and the voice is outputted to a voice output end 9 (such as a speaker) as it is via a D/A-converter 8. The inputted voice is A/D-converted, the zero intersection is detected, and the amplitude emphasis processing is conducted for the zone.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、入力された音声に
処理を施し、明瞭性や聞きやすさを向上させて出力する
音声変換装置に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice conversion apparatus for processing input voice and outputting the processed voice with improved clarity and audibility.

【0002】[0002]

【従来の技術】喉頭ガンによる咽頭摘出手術を受けた患
者は、声を失ってしまうが、声帯の代わりに食道を振動
させて発声する食道発声法を訓練することにより、発声
が可能となる。しかしながら、食道発声された声は、以
下のような問題点がある。 ・呼気の量が不十分なため、大きな声がでない、かすれ
声になってしまう。 ・基本周波数が低く、乱れている。 ・気孔音などのノイズが多い。
2. Description of the Related Art A patient who has undergone pharyngectomy surgery using a laryngeal cancer loses its voice. However, it is possible to produce a voice by training an esophageal vocalization method in which the esophagus is vibrated instead of the vocal cords. However, the esophagus uttered voice has the following problems.・ Insufficient volume of exhalation causes a loud or no faint voice.・ The fundamental frequency is low and disturbed.・ There is much noise such as stomatal noise.

【0003】声の大きさの問題を改良するために、アナ
ログ拡声装置なども販売されているが、ノイズも含めて
拡声してしまうため、十分有用とは言えない。
[0003] In order to improve the problem of loudness, analog loudspeakers and the like are sold, but they are not sufficiently useful because they loudspeakers including noise.

【0004】[0004]

【発明が解決しようとする課題】本発明は、前記従来技
術の項で説明した食道発声音声の問題点を軽減すること
を目的とする。
SUMMARY OF THE INVENTION An object of the present invention is to alleviate the problem of esophageal utterance voice described in the section of the prior art.

【0005】[0005]

【課題を解決するための手段】本発明は、上記問題点を
解決するために、音声を入力する音声入力手段と、入力
された音声をAD変換する手段と、入力された音声を記
憶する音声記憶手段と、入力された音声の零交差点を検
出する手段と音声のパワーを計算する手段と前記零交差
検出手段で検出された区間毎に振幅強調を行う手段を有
する音声変換装置である。
SUMMARY OF THE INVENTION In order to solve the above-mentioned problems, the present invention provides a voice input means for inputting voice, an A / D conversion means for input voice, and a voice for storing input voice. An audio conversion device includes a storage unit, a unit for detecting a zero-crossing point of an input voice, a unit for calculating the power of the voice, and a unit for performing amplitude emphasis for each section detected by the zero-crossing detection unit.

【0006】また、音声を入力する音声入力手段と、入
力された音声をAD変換する手段と、入力された音声を
記憶する音声記憶手段と、入力された音声の基本周波数
を検出する手段と音声のパワーを計算する手段と前記基
本周波数検出手段で検出された基本周期毎に振幅強調を
行う手段を有する音声変換装置である。
[0006] Also, a voice input means for inputting voice, a means for AD converting the input voice, a voice storage means for storing the input voice, a means for detecting a fundamental frequency of the input voice, and a voice And a means for performing amplitude emphasis for each fundamental period detected by the fundamental frequency detecting means.

【0007】また、音声を入力する音声入力手段と、入
力された音声をAD変換する手段と、入力された音声を
記憶する音声記憶手段と、入力された音声の零交差点を
検出する手段と振幅を一定倍する拡声手段と音声のパワ
ーを計算する手段と前記零交差検出手段で検出された区
間毎に振幅強調を行う手段を有する音声変換装置であ
る。
[0007] Further, a voice input means for inputting voice, a means for AD converting the input voice, a voice storage means for storing the input voice, a means for detecting a zero crossing point of the input voice and an amplitude. Is a voice conversion device having a loudspeaker for multiplying the constant by a factor, a calculator for calculating the power of the voice, and a unit for emphasizing the amplitude for each section detected by the zero-crossing detector.

【0008】また、音声を入力する音声入力手段と、入
力された音声をAD変換する手段と、入力された音声を
記憶する音声記憶手段と、入力された音声の零交差点を
検出する手段と有音/無音を判断する手段と前記零交差
検出手段で検出された区間毎に振幅強調を行う手段を有
する音声変換装置である。
[0008] Also, there are voice input means for inputting voice, means for AD converting input voice, voice storage means for storing input voice, and means for detecting a zero crossing point of input voice. This is a voice conversion device having means for judging sound / silence and means for performing amplitude emphasis for each section detected by the zero-crossing detecting means.

【0009】また、音声を入力する音声入力手段と、入
力された音声をAD変換する手段と、入力された音声を
記憶する音声記憶手段と、入力された音声の零交差点を
検出する手段と有声/無声を判断する手段と前記零交差
検出手段で検出された区間毎に振幅強調を行う手段を有
する音声変換装置である。
Also, a voice input means for inputting voice, a means for AD-converting the input voice, a voice storage means for storing the input voice, a means for detecting a zero crossing point of the input voice, and a voiced voice / A voice conversion device having means for determining unvoicedness and means for performing amplitude emphasis for each section detected by the zero-crossing detection means.

【0010】また、音声を入力する音声入力手段と、入
力された音声をAD変換する手段と、入力された音声を
記憶する音声記憶手段と、入力された音声の零交差点を
検出する手段と音声のパワーを計算する手段と前記零交
差検出手段で検出された区間毎に振幅強調を行う手段お
よび音声を分析する手段を有し、振幅強調に用いるパラ
メータを分析手段により決定する音声変換装置である。
[0010] Also, voice input means for inputting voice, means for A / D conversion of input voice, voice storage means for storing input voice, means for detecting a zero crossing point of input voice, and voice And a means for performing amplitude emphasis for each section detected by the zero-crossing detecting means, and a means for analyzing speech, and a parameter used for amplitude emphasis is determined by the analyzing means. .

【0011】(作用)上記の構成により、入力された音
声をA/D変換し、零交差点を検出して、その区間で振
幅強調処理を行うことにより、食道発声音声の明瞭度、
聞きやすさを改善することができる。
(Operation) According to the above configuration, the input voice is A / D converted, a zero-crossing point is detected, and amplitude emphasis processing is performed in that section, whereby the clarity of the esophageal voice is improved.
Listenability can be improved.

【0012】[0012]

【発明の実施の形態】BEST MODE FOR CARRYING OUT THE INVENTION

(実施例1)図1は、請求項1に記載の本発明の1実施
例の構成図である。音声入力端1(マイクなど)から入
力された音声は、A/D変換器2でA/D変換され、波
形記憶部3に蓄積される。4は零交差検出部で、蓄積さ
れた音声波形の零交差点を検出し、処理区間を決定す
る。パワー計算部5では、処理区間内の波形のパワー
(振幅二乗和)を求める。パワー比較部6で得られたパ
ワー値とあらかじめ設定された閾値との比較を行い、パ
ワー値が閾値より大きいときは、振幅強調部7で振幅強
調処理を行う。パワー値が閾値より小さいときは、振幅
強調処理は行わずそのままD/A変換器8を介して、音
声出力端9(スピーカなど)に出力する。
(Embodiment 1) FIG. 1 is a block diagram of one embodiment of the present invention described in claim 1. A sound input from a sound input terminal 1 (such as a microphone) is A / D converted by an A / D converter 2 and stored in a waveform storage unit 3. Reference numeral 4 denotes a zero-crossing detecting unit which detects a zero-crossing point of the stored speech waveform and determines a processing section. The power calculator 5 calculates the power (sum of amplitude squared) of the waveform in the processing section. The power value obtained by the power comparing section 6 is compared with a preset threshold value. When the power value is larger than the threshold value, the amplitude emphasizing section 7 performs amplitude emphasis processing. When the power value is smaller than the threshold value, the signal is output to the audio output terminal 9 (such as a speaker) via the D / A converter 8 without performing the amplitude emphasis processing.

【0013】次に各処理について詳しく説明する。図2
は、本発明を説明するための模式図である。縦軸に振
幅、横軸に時間をとって、入力された音声波形を示す。
入力された音声は、A/D変換器2でディジタル化さ
れ、数列、x(1),x(2),,,x(i),,,として波形記憶部3
に蓄積される。零交差検出部4では、音声波形x(i-
1)、x(i)の符号が異なる点(零交差点)を検出する。最
初の零交差点t0が検出されたあとは、一定区間(本実施
例では、2ms:サンプリング周波数10KHzの時
は、20サンプル分)経過後に次の零交差点t1を検出す
る。同様にt2を検出する。
Next, each processing will be described in detail. FIG.
FIG. 1 is a schematic diagram for explaining the present invention. The vertical axis represents the amplitude and the horizontal axis represents the time, and the input speech waveform is shown.
The input voice is digitized by the A / D converter 2 and converted into a sequence, x (1), x (2), x (i),.
Is accumulated in In the zero-crossing detection unit 4, the speech waveform x (i-
1) Detect a point (zero crossing point) where the sign of x (i) is different. After the first zero-crossing point t0 is detected, the next zero-crossing point t1 is detected after a lapse of a predetermined interval (2 ms in this embodiment: 20 samples at a sampling frequency of 10 KHz). Similarly, t2 is detected.

【0014】区間をT0「t0-t1]、T1[t1-t2]とあらわ
す。パワー計算部5では、各区間ごとの波形のパワーを
次の式で求める。
The sections are represented as T0 "t0-t1" and T1 [t1-t2] The power calculator 5 calculates the power of the waveform for each section by the following equation.

【0015】 得られたP(TO)が、あらかじめ設定された閾値Pminよ
り小さい時は、その区間はノイズであると判断して、振
幅強調処理を行わない。P(T0)>Pminの時には、S振幅
強調部7において次式により振幅強調を行う。
[0015] When the obtained P (TO) is smaller than the preset threshold value Pmin, the section is determined to be noise, and the amplitude emphasis processing is not performed. When P (T0)> Pmin, the S amplitude emphasizing section 7 performs amplitude emphasis by the following equation.

【0016】 Xmax(T0):区間T0における波形の最大値 Xmax :振幅強調の最大値(あらかじめ設定) r :振幅強調の割合(あらかじめ設定) α(T0) :区間T0における振幅強調係数 y(i) :振幅強調処理された波形 α(T0)=(Xmax−Xmax(T0))*r/Xmax(t0)+1 式(2) y(i)=α(T0)*x(i) 式(3) (注:*は、乗算をあらわす。) 本実施例では、A/Dで16ビット・10KHzのサン
プリングを行うものとし、Pmin=50、Xmax=819
2、r=0.2と設定する。
Xmax (T0): Maximum value of waveform in section T0 Xmax: Maximum value of amplitude enhancement (preset) r: Ratio of amplitude enhancement (preset) α (T0): Amplitude enhancement coefficient y (i in section T0 ): Waveform subjected to amplitude emphasis processing α (T0) = (Xmax−Xmax (T0)) * r / Xmax (t0) +1 Equation (2) y (i) = α (T0) * x (i) Equation (3) (Note: * indicates multiplication.) In this embodiment, A / D sampling is performed at 16 bits and 10 KHz, and Pmin = 50 and Xmax = 819.
2. Set r = 0.2.

【0017】図2に入力音声波形を実線で、振幅強調さ
れた波形を点線で示す。また、食道発声話者によって
「植える」と発声された音声波形を図3(a)に、本発明
の振幅強調を行った波形を、図3(b)に示す。図3から
もわかるように入力音声ではほとんど聞き取れなかった
「る」の部分が強調されて、処理音声では明瞭性が大き
く改善されている。
FIG. 2 shows the input speech waveform by a solid line and the amplitude-emphasized waveform by a dotted line. FIG. 3A shows a speech waveform uttered by the esophagus speaker as “planting”, and FIG. 3B shows a waveform subjected to amplitude emphasis according to the present invention. As can be seen from FIG. 3, the "ru" part, which was hardly heard in the input voice, is emphasized, and the clarity of the processed voice is greatly improved.

【0018】本発明の効果を確かめるために、シェッフ
ェの一対比較による評価試験を行った。(シェッフェの
一対比較については、日科技連:官能検査ハンドブック
p.356〜p.384に詳述されている。)食道発声音声を聞き
慣れていない被験者5名に、原音声、本発明により振幅
強調した音声を連続して提示し、明瞭で聞き易いのはど
ちらかを5段階で評価した。評価文章数は4である。分
散分析の結果、1%の危険率で、本発明方式の有効性が
示された。
In order to confirm the effects of the present invention, an evaluation test was performed by a paired comparison of Scheffe. (For paired comparisons of Scheffe, see Nikka Giren: Sensory test handbook
It is detailed on pages 356-384. 5) The original voice and the voice whose amplitude was emphasized according to the present invention were continuously presented to five subjects who were unfamiliar with the esophageal voice, and which was clear and easy to hear was evaluated on a five-point scale. The number of evaluation sentences is 4. Analysis of variance showed the effectiveness of the method of the present invention with a 1% risk factor.

【0019】(実施例2)図4は、請求項2に記載の本
発明の1実施例の構成図である。実施例1と同じ機能の
ものについては、同一の番号を付与しその説明を割愛す
る。実施例1の零交差検出部に替えて、基本周波数(ピ
ッチ)検出部10を有している。実施例1では、振幅強
調を零交差によって検出された区間に対して行ったが、
本実施例では、1ピッチ区間に対して行う。基本周波数
抽出の手法については、すでにいろいろな手法が広く知
られている。
(Embodiment 2) FIG. 4 is a block diagram of an embodiment of the present invention according to claim 2. The components having the same functions as those in the first embodiment are given the same numbers, and the description thereof is omitted. A fundamental frequency (pitch) detector 10 is provided in place of the zero-crossing detector of the first embodiment. In the first embodiment, the amplitude enhancement is performed on the section detected by the zero crossing.
In this embodiment, the operation is performed for one pitch section. Regarding the method of fundamental frequency extraction, various methods are already widely known.

【0020】実施例1同様、本発明においても、食道発
声音声の明瞭度や聞き易さを改善することができる。
As in the first embodiment, in the present invention, the clarity and audibility of the esophageal voice can be improved.

【0021】(実施例3)図5は、請求項3に記載の本
発明の1実施例の構成図である。実施例1と同じ機能の
ものについては、同じ番号を付与し、その説明を割愛す
る。実施例1の構成に加えて、零交差検出部4とパワー
計算部5の間に拡声部11が存在する。拡声11では、
入力された音声波形を以下の式で拡声する。
(Embodiment 3) FIG. 5 is a block diagram of an embodiment of the present invention according to claim 3. The components having the same functions as those of the first embodiment are denoted by the same reference numerals, and description thereof is omitted. In addition to the configuration of the first embodiment, a loudspeaker 11 exists between the zero-crossing detector 4 and the power calculator 5. In loudspeaker 11,
The input speech waveform is amplified by the following equation.

【0022】 x(i):入力波形 y(i):出力波形 α:倍率 >1 y(i)=α*x(i) 式(4) 本実施例では、α=1.5とする。X (i): input waveform y (i): output waveform α: magnification> 1 y (i) = α * x (i) Equation (4) In this embodiment, α = 1.5.

【0023】食道発声音声は、呼気量が不十分なため、
音量が不十分な場合がよくあるが、本方式によれば、あ
らかじめ拡声してからさらに振幅強調を行うため、食道
発声音声の明瞭度・聞き易さを大幅に改善することがで
きる。
The esophageal utterance voice has insufficient expiratory volume,
Although the sound volume is often insufficient, according to this method, the loudspeaker voice can be significantly improved in clarity and audibility since the voice is amplified in advance and then the amplitude is further emphasized.

【0024】(実施例4)図6は、請求項4に記載の本
発明の1実施例の構成図である。実施例1と同じ機能の
ものについては、同じ番号を付与し、その説明を割愛す
る。実施例1のパワー計算部、パワー比較部に代えて、
有音/無音判定部12が存在する。実施例1では、パワ
ーによって振幅強調処理を行うかどうかを判定していた
が、食道発声音声では、息継ぎ音や気道音などの雑音が
多くかつレベルも高いため、パワーのみで判断した場
合、ノイズまで強調してしまう場合がある。本発明で
は、この問題点を回避するために、有音/無音(ノイ
ズ)判定の結果によって、振幅強調処理を行う。有音/
無音の判定手法として、本実施例では以下の手法を用い
る。
(Embodiment 4) FIG. 6 is a block diagram of an embodiment of the present invention according to claim 4. The components having the same functions as those of the first embodiment are denoted by the same reference numerals, and description thereof is omitted. Instead of the power calculation unit and the power comparison unit of the first embodiment,
A sound / non-sound determining unit 12 is provided. In the first embodiment, whether or not to perform the amplitude emphasizing process is determined based on the power. However, in the esophageal vocal sound, since the noise such as the breathing sound and the airway sound is large and the level is high, the noise is determined when the power alone is used. May be emphasized. In the present invention, in order to avoid this problem, amplitude emphasis processing is performed based on the result of the sound / non-sound (noise) determination. Sound /
In the present embodiment, the following method is used as a silence determination method.

【0025】(1)入力音声から一定期間ごとのパワーを
求め、パワーが閾値1以下の時は無音と判定(実施例1
と同様)。
(1) The power for each fixed period is obtained from the input voice, and when the power is equal to or less than the threshold value 1, it is determined that there is no sound (the first embodiment).
the same as).

【0026】(2)パワーが閾値1以上、閾値2以下の時
は、LPCケプストラム係数を求めて、あらかじめノイ
ズとして求めておいたテンプレートとの距離計算を行
い、ノイズと判定されれば、振幅強調処理は行わない。
(2) When the power is equal to or more than the threshold value 1 and equal to or less than the threshold value 2, an LPC cepstrum coefficient is calculated, a distance calculation is performed with respect to a template previously determined as noise, and if noise is determined, amplitude enhancement is performed. No processing is performed.

【0027】(3)上記のいずれでもないとき、振幅強調
処理を行う。食道発声音声は、ノイズを伴うことが多く
あるが、本発明によれば、ノイズを強調することなく、
食道発声音声の明瞭性・聞き易さを大幅に改善すること
ができる。
(3) If none of the above, amplitude emphasis processing is performed. Esophageal vocal sounds are often accompanied by noise, but according to the present invention, without emphasizing noise,
The clarity and audibility of the esophageal voice can be greatly improved.

【0028】なお、本発明では、有音/無音(ノイズ)
の判定手法としてケプストラム距離を用いたが、これは
本発明を何ら拘束するものではない。
In the present invention, sound / silence (noise)
Although the cepstrum distance is used as the determination method of the above, this does not restrict the present invention at all.

【0029】(実施例5)図7は、請求項5に記載の本
発明の1実施例の構成図である。実施例1と同じ機能の
ものについては、同じ番号を付与し、その説明を割愛す
る。実施例1のパワー計算部、パワー比較部に代えて、
有声/無声判定部13が存在する。実施例1では、パワ
ーによって振幅強調処理を行うかどうかを判定していた
が、無声子音を強調しすぎると、かえって聞き難くなる
場合がある。本発明では、この問題点を回避するため
に、有声/無声判定を行ってその結果により、振幅強調
処理を行う。有声/無声の判定方法として、本実施例で
は以下の手法を用いる。
(Embodiment 5) FIG. 7 is a block diagram of an embodiment of the present invention according to claim 5. The components having the same functions as those of the first embodiment are denoted by the same reference numerals, and description thereof is omitted. Instead of the power calculation unit and the power comparison unit of the first embodiment,
A voiced / unvoiced determination unit 13 exists. In the first embodiment, whether or not to perform the amplitude emphasis processing is determined based on the power. However, if the unvoiced consonant is emphasized too much, it may be difficult to hear. In the present invention, in order to avoid this problem, voiced / unvoiced judgment is performed, and amplitude emphasis processing is performed based on the result. In this embodiment, the following method is used as a voiced / unvoiced determination method.

【0030】(1)入力音声から一定期間ごとのパワーを
求め、パワーが閾値1以下の時は無音と判定(実施例1
と同様)。
(1) The power for each fixed period is obtained from the input voice, and when the power is equal to or less than the threshold value 1, it is determined that there is no sound (the first embodiment).
the same as).

【0031】(2)パワーが閾値1以上の場合、一次のL
PCケプストラム係数を求めて、この値が閾値3以下の
時は、無声部であると判定して、振幅強調処理は行わな
い。
(2) When the power is equal to or larger than the threshold value 1, the primary L
The PC cepstrum coefficient is obtained, and when this value is equal to or less than the threshold value 3, it is determined to be a voiceless part, and the amplitude emphasis processing is not performed.

【0032】(3)上記のいずれでもないとき、振幅強調
処理を行う。このように、本発明によれば不要な子音部
を強調することを回避し、食道発声音声の明瞭性・聞き
易さを大幅に改善することができる。
(3) If none of the above, amplitude emphasis processing is performed. As described above, according to the present invention, it is possible to avoid emphasizing unnecessary consonants, and to significantly improve the clarity and audibility of the esophageal utterance voice.

【0033】なお、本発明では有声/無声判定の手法と
してケプストラム1次の係数を利用したが、これは本発
明を何ら拘束するものではない。
In the present invention, a first-order cepstrum coefficient is used as a voiced / unvoiced determination method, but this does not restrict the present invention.

【0034】(実施例6)図8は、請求項6に記載の本
発明の1実施例の構成図である。実施例1と同じ機能の
ものについては、同じ番号を付与し、その説明を割愛す
る。実施例1に加えて音声分析部14、および係数決定
部15が存在する。実施例1で説明したあらかじめ設定
された値、振幅強調の最大値Xmax および、振幅強調
の割合rは使用者に個別に決定した方が効果が大きい。
あるいは、同じ使用者であっても、声の調子などによっ
て変更した方が、より効果的となる。本実施例では、音
声分析時には、パワーを求めてXmaxの値を決定すると
同時に、r=0.1、0.2、0.3〜1.0の各値に対して振幅強
調音を作成し、確認の上最適なrの値を決定する。
(Embodiment 6) FIG. 8 is a block diagram of an embodiment of the present invention according to claim 6. The components having the same functions as those of the first embodiment are denoted by the same reference numerals, and description thereof is omitted. A voice analysis unit 14 and a coefficient determination unit 15 are provided in addition to the first embodiment. The preset value, the maximum value Xmax of the amplitude emphasis, and the ratio r of the amplitude emphasis described in the first embodiment are more effective when individually determined by the user.
Alternatively, even for the same user, it is more effective to change it according to the tone of the voice. In the present embodiment, at the time of voice analysis, the value of Xmax is determined by obtaining power, and at the same time, an amplitude emphasized sound is created for each value of r = 0.1, 0.2, 0.3 to 1.0, and the optimum r Determine the value.

【0035】なお、本実施例では、音声分析・係数設定
機能を音声変換装置に組み込んだ形として実現したが、
この機能を別途パソコン上に実現し、得られた係数だけ
を音声変換装置に設定する構成でも、実現可能である。
In this embodiment, the speech analysis and coefficient setting functions are implemented as a form incorporated in the speech converter.
It is also possible to realize this function by separately realizing this function on a personal computer and setting only the obtained coefficients in the voice conversion device.

【0036】[0036]

【発明の効果】以上ように本発明によれば、食道発声音
声の明瞭度・聞き易さを大きく改善することができる。
As described above, according to the present invention, the clarity and audibility of the esophageal voice can be greatly improved.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明実施例1の音声変換装置の構成図FIG. 1 is a configuration diagram of a voice conversion device according to a first embodiment of the present invention;

【図2】本発明実施例1のアルゴリズムを説明するため
の図
FIG. 2 is a diagram for explaining an algorithm according to the first embodiment of the present invention;

【図3】本発明実施例1の入力波形、出力波形を示す図FIG. 3 is a diagram showing an input waveform and an output waveform of the first embodiment of the present invention.

【図4】本発明実施例2の音声変換装置の構成図FIG. 4 is a configuration diagram of a voice conversion device according to a second embodiment of the present invention;

【図5】本発明実施例3の音声変換装置の構成図FIG. 5 is a configuration diagram of a voice conversion device according to a third embodiment of the present invention.

【図6】本発明実施例4の音声変換装置の構成図FIG. 6 is a configuration diagram of a voice conversion device according to a fourth embodiment of the present invention.

【図7】本発明実施例5の音声変換装置の構成図FIG. 7 is a configuration diagram of a voice conversion device according to a fifth embodiment of the present invention.

【図8】本発明実施例6の音声変換装置の構成図FIG. 8 is a configuration diagram of a voice conversion device according to a sixth embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1 音声入力端(マイク) 2 A/D 3 波形記憶部 4 零交差検出部 5 パワー計算部 6 パワー比較部 7 振幅強調部 8 D/A 9 音声出力端(スピーカ) 10 基本周波数検出部 11 振幅拡張部 12 有音/無音判定部 13 有声/無声判定部 14 音声分析部 15 係数決定部 Reference Signs List 1 audio input terminal (microphone) 2 A / D 3 waveform storage unit 4 zero-crossing detection unit 5 power calculation unit 6 power comparison unit 7 amplitude emphasis unit 8 D / A 9 audio output terminal (speaker) 10 fundamental frequency detection unit 11 amplitude Extension unit 12 Voiced / unvoiced determination unit 13 Voiced / unvoiced determination unit 14 Voice analysis unit 15 Coefficient determination unit

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】音声を入力する音声入力手段と、入力され
た音声をAD変換する手段と、入力された音声を記憶す
る音声記憶手段と、入力された音声の零交差点を検出す
る手段と音声のパワーを計算する手段と前記零交差検出
手段で検出された区間毎に振幅強調を行う手段を有する
ことを特徴とする音声変換装置。
1. A voice input means for inputting voice, a means for AD converting input voice, a voice storage means for storing input voice, a means for detecting a zero crossing point of input voice, and a voice And a means for calculating the power of the signal, and a means for performing amplitude emphasis for each section detected by the zero-crossing detecting means.
【請求項2】音声を入力する音声入力手段と、入力され
た音声をAD変換する手段と、入力された音声を記憶す
る音声記憶手段と、入力された音声の基本周波数を検出
する手段と音声のパワーを計算する手段と前記基本周波
数検出手段で検出された基本周期毎に振幅強調を行う手
段を有することを特徴とする音声変換装置。
2. A voice input means for inputting voice, a means for AD converting input voice, a voice storage means for storing input voice, a means for detecting a fundamental frequency of input voice, and a voice And a means for calculating the power of the fundamental frequency and a means for performing amplitude emphasis for each fundamental period detected by the fundamental frequency detecting means.
【請求項3】音声を入力する音声入力手段と、入力され
た音声をAD変換する手段と、入力された音声を記憶す
る音声記憶手段と、入力された音声の零交差点を検出す
る手段と振幅を一定倍する拡声手段と音声のパワーを計
算する手段と前記零交差検出手段で検出された区間毎に
振幅強調を行う手段を有することを特徴とする音声変換
装置。
3. A voice input means for inputting voice, an A / D conversion means for input voice, a voice storage means for storing input voice, a means for detecting a zero crossing point of the input voice, and an amplitude. A voice conversion device comprising: a loudspeaker for multiplying a constant by a factor; a calculator for calculating the power of voice; and a unit for performing amplitude emphasis for each section detected by the zero-crossing detector.
【請求項4】音声を入力する音声入力手段と、入力され
た音声をAD変換する手段と、入力された音声を記憶す
る音声記憶手段と、入力された音声の零交差点を検出す
る手段と有音/無音を判断する手段と前記零交差検出手
段で検出された区間毎に振幅強調を行う手段を有するこ
とを特徴とする音声変換装置。
4. A voice input means for inputting voice, a means for AD converting input voice, a voice storage means for storing input voice, and a means for detecting a zero crossing point of the input voice. A voice conversion apparatus comprising: means for determining sound / silence; and means for performing amplitude emphasis for each section detected by the zero-crossing detecting means.
【請求項5】音声を入力する音声入力手段と、入力され
た音声をAD変換する手段と、入力された音声を記憶す
る音声記憶手段と、入力された音声の零交差点を検出す
る手段と有声/無声を判断する手段と前記零交差検出手
段で検出された区間毎に振幅強調を行う手段を有するこ
とを特徴とする音声変換装置。
5. Voice input means for inputting voice, means for AD converting input voice, voice storage means for storing input voice, means for detecting a zero crossing point of input voice, and voiced. A voice conversion apparatus comprising: means for determining unvoicedness; and means for performing amplitude emphasis for each section detected by the zero-crossing detecting means.
【請求項6】音声を入力する音声入力手段と、入力され
た音声をAD変換する手段と、入力された音声を記憶す
る音声記憶手段と、入力された音声の零交差点を検出す
る手段と音声のパワーを計算する手段と前記零交差検出
手段で検出された区間毎に振幅強調を行う手段および音
声を分析する手段を有し、振幅強調に用いるパラメータ
を分析手段により決定することを特徴とする音声変換装
置。
6. Voice input means for inputting voice, means for AD converting input voice, voice storage means for storing input voice, means for detecting a zero-crossing point of input voice, and voice. And a means for performing amplitude emphasis for each section detected by the zero-crossing detection means and a means for analyzing voice, wherein parameters used for amplitude emphasis are determined by the analysis means. Voice converter.
JP9146179A 1997-06-04 1997-06-04 Voice converting device Pending JPH10333695A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9146179A JPH10333695A (en) 1997-06-04 1997-06-04 Voice converting device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9146179A JPH10333695A (en) 1997-06-04 1997-06-04 Voice converting device

Publications (1)

Publication Number Publication Date
JPH10333695A true JPH10333695A (en) 1998-12-18

Family

ID=15401931

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9146179A Pending JPH10333695A (en) 1997-06-04 1997-06-04 Voice converting device

Country Status (1)

Country Link
JP (1) JPH10333695A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002165153A (en) * 2000-11-27 2002-06-07 Asaka Co Ltd Time lag between video and audio correction method and apparatus
JP2007522493A (en) * 2004-01-13 2007-08-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Audio signal enhancement
WO2010087171A1 (en) * 2009-01-29 2010-08-05 パナソニック株式会社 Hearing aid and hearing aiding method

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002165153A (en) * 2000-11-27 2002-06-07 Asaka Co Ltd Time lag between video and audio correction method and apparatus
JP2007522493A (en) * 2004-01-13 2007-08-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Audio signal enhancement
WO2010087171A1 (en) * 2009-01-29 2010-08-05 パナソニック株式会社 Hearing aid and hearing aiding method
JPWO2010087171A1 (en) * 2009-01-29 2012-08-02 パナソニック株式会社 Hearing aid and hearing aid processing method
US8374877B2 (en) 2009-01-29 2013-02-12 Panasonic Corporation Hearing aid and hearing-aid processing method
JP2014194554A (en) * 2009-01-29 2014-10-09 Panasonic Corp Hearing aid and hearing aid processing method

Similar Documents

Publication Publication Date Title
JP3875513B2 (en) Method and apparatus for improving intelligibility of digitally compressed speech
Epps et al. A novel instrument to measure acoustic resonances of the vocal tract during phonation
Jovičić Formant feature differences between whispered and voiced sustained vowels
KR20110090066A (en) Portable sound source playing apparatus for testing hearing ability and method for performing thereof
JP6316425B2 (en) Hearing aid using fundamental frequency correction
Irino et al. Comparison of performance with voiced and whispered speech in word recognition and mean-formant-frequency discrimination
Wade et al. The role of vocal tract and subglottal resonances in producing vocal instabilities
JP2015068897A (en) Evaluation method and device for utterance and computer program for evaluating utterance
Jeon et al. Perceptual asymmetry between pitch peaks and valleys
JPH10333695A (en) Voice converting device
Young et al. Evaluation of noise excitation as a method for detection of hypernasality
JPH0229232B2 (en)
JP3354252B2 (en) Voice recognition device
JP2006154212A (en) Speech evaluation method and evaluation device
Abolhasanizadeh et al. The comparison of vowel space in normal children and children with Down syndrome
JP4778402B2 (en) Pause time length calculation device, program thereof, and speech synthesizer
JP3232112B2 (en) Measure boundary time extraction device
JP2002169579A (en) Device for embedding additional data in audio signal and device for reproducing additional data from audio signal
Jayan et al. Automated detection of transition segments for intensity and time-scale modification for speech intelligibility enhancement
Amin et al. Nine voices, one artist: Linguistic and acoustic analysis
Perkins Acoustic measurement of laryngeal constriction in thai consonants
JP2015087557A (en) Utterance mode detection device, and utterance mode detection method
US12009005B2 (en) Method for rating the speech quality of a speech signal by way of a hearing device
JP3632384B2 (en) Hearing aids
Loskutova et al. The Spectral Characteristics Research of the Voice-Speech Signal in Dysphonia