JPH08110796A - Voice emphasizing method and device - Google Patents

Voice emphasizing method and device

Info

Publication number
JPH08110796A
JPH08110796A JP6247503A JP24750394A JPH08110796A JP H08110796 A JPH08110796 A JP H08110796A JP 6247503 A JP6247503 A JP 6247503A JP 24750394 A JP24750394 A JP 24750394A JP H08110796 A JPH08110796 A JP H08110796A
Authority
JP
Japan
Prior art keywords
voice
acoustic feature
time
unit
emphasizing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6247503A
Other languages
Japanese (ja)
Inventor
Toshiyuki Aritsuka
俊之 在塚
Yoshito Nene
義人 禰寝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP6247503A priority Critical patent/JPH08110796A/en
Publication of JPH08110796A publication Critical patent/JPH08110796A/en
Pending legal-status Critical Current

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

PURPOSE: To conduct the tone quality improvement, audition compensation, and voice emphasis of the deteriorated voice by emphasizing the temporal change of the acoustic feature of a voice. CONSTITUTION: A voice processing device is provided with a means inputting a voice, a means analyzing and processing the voice, a means reproducing and outputting the voice, a feature quantity calculation section calculating the acoustic feature quantity of the voice from the voice wave-form, a feature quantity change quantity calculation section calculating the temporal change quantity for a unit time of the acoustic feature quantity, a temporal change quantity change section changing the temporal change quantity, an acoustic feature quantity change section changing the acoustic feature quantity with the changed temporal change quantity, and a wave-form reconstitution section 133 reconstituting the voice wave-form from the changed acoustic feature quantity.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は音響処理装置に関し、特
に劣化音声の音質改善、聴力障害者の聴力補償、および
音声強調を目的とする音声信号処理装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a sound processing device, and more particularly to a sound signal processing device for improving sound quality of deteriorated sound, compensating hearing for a hearing impaired person, and enhancing sound.

【0002】[0002]

【従来の技術】音声の聞きやすさは、発話者の発声器官
や発話方法、受話者の聴力、発話環境や受話環境、伝送
路の制約や情報圧縮等による音質の変化に影響される。
発話者の発声器官の障害や、発話時の発声器官の使い方
が不十分な場合は、音声の音響的特徴が発話者の意図と
異なるか不明瞭になることが考えられる。また、受話者
の聴力が低下している場合は、音響的特徴を十分にとら
えることが困難になる。発話環境や受話環境、伝送系等
に雑音が存在していたり、伝送路の通過帯域の制限や情
報圧縮によって音質が劣化している場合は、音響的特徴
が歪んだり、他の音によってマスクされることがある。
このような要因による聞きやすさの低下は、音声の音響
的特徴を加工する技術を用いることによって回復させる
ことが可能である。
2. Description of the Related Art The easiness of hearing a voice is affected by a voice organ of a speaker, a speech method, a hearing ability of a listener, a speech environment and a speech environment, a restriction of a transmission path, a change in sound quality due to information compression and the like.
If the speaker's vocal organs are damaged or if the vocal organs are not used properly during speech, the acoustic characteristics of the voice may be different or unclear from the speaker's intention. Further, when the hearing ability of the listener is deteriorated, it becomes difficult to sufficiently capture the acoustic features. If there is noise in the utterance environment, the receiving environment, the transmission system, etc., or if the sound quality is deteriorated due to the restriction of the pass band of the transmission path or information compression, the acoustic characteristics are distorted or masked by other sounds. Sometimes.
The deterioration of the audibility due to such factors can be recovered by using a technique for processing the acoustic characteristics of the voice.

【0003】音声の聞きやすさを向上させるための音響
的特徴の処理には、聴取者の可聴レベルに合わせた周波
数スペクトル形状の変更や、ホルマントピークの強調
等、周波数軸上で特性を変更する静的な加工によって音
質の明瞭度を上げる方法がある。
In order to process acoustic characteristics for improving the audibility of speech, characteristics on the frequency axis are changed such as changing the frequency spectrum shape according to the audible level of the listener and emphasizing the formant peak. There is a method of increasing the clarity of sound quality by static processing.

【0004】一方、音声の抑揚を表す時間的な変化を強
調する従来技術としては、「ホルマント変化の強調・抑
圧による音質制御」(都木、桑原、音講論1986年10月、
pp145-146)記載のように線形予測分析を行って抽出し
た母音ホルマントの時間変化を強調する方法がある。ま
た、「継時マスキングのの補償に基づく音声強調方法の
提案と評価」(鈴木他、信学技法、 SP91-135、Mar 199
2、pp31-37)記載のように波形に特定形状の窓関数を乗
ずることによって音声波形の音圧レベルの立ち上がり部
分を強調する方法がある。
On the other hand, as a conventional technique for emphasizing the temporal change that represents the intonation of speech, "sound quality control by emphasizing and suppressing formant changes" (Toki, Kuwahara, Onkyo, October 1986,
pp145-146), there is a method of emphasizing the temporal change of the vowel formants extracted by performing the linear prediction analysis. In addition, "Proposal and Evaluation of Speech Enhancement Method Based on Compensation of Continuous Masking" (Suzuki et al., IEEJ, SP91-135, Mar 199)
2, pp31-37), there is a method to emphasize the rising part of the sound pressure level of the speech waveform by multiplying the waveform by a window function of a specific shape.

【0005】音質向上以外の目的にも、音声の機械認識
精度を向上させるために、認識パラメータの時間変化を
強調することによって音韻性を高める方法として、例え
ば、「スペクトル変化強調による単語音声認識」(古
井、音声研究会資料、S85-77、Jan 1986、pp597-604)
がある。本方法では、対象時間区間におけるLPCケプ
ストラム包絡およびパワーの時間微分を2次の回帰係数
で近似し、該回帰係数に適当な係数を乗じた結果を該対
象時間区間におけるLPCケプストラム包絡およびパワ
ーにそれぞれ加えることによって時間変化を強調する。
For the purpose other than improving the sound quality, in order to improve the accuracy of machine recognition of speech, as a method of enhancing the phonological property by emphasizing the temporal change of the recognition parameter, for example, "word speech recognition by emphasizing spectrum change". (Furui, Voice Study Material, S85-77, Jan 1986, pp597-604)
There is. In this method, the time derivative of the LPC cepstrum envelope and power in the target time section is approximated by a quadratic regression coefficient, and the result obtained by multiplying the regression coefficient by an appropriate coefficient is added to the LPC cepstrum envelope and power in the target time section, respectively. Emphasize the change over time by adding.

【0006】発声速度を変更することによって聞きやす
さを向上させる方法としては、例えば「音声蓄積再生装
置」(特開平3-48300)記載のように、比較的パワーの
大きい有声音部分の周期的波形を挿入または削除するこ
とによって音声のピッチを変えずに発声速度のみを変更
する従来技術がある。
As a method for improving the easiness of hearing by changing the utterance speed, for example, as described in "Voice storage / reproduction device" (Japanese Patent Laid-Open No. 3-48300), a periodical portion of a voiced sound portion having a relatively large power is periodically used. There is a conventional technique in which only the speaking rate is changed without changing the pitch of the voice by inserting or deleting the waveform.

【0007】[0007]

【発明が解決しようとする課題】上記従来技術のうち、
周波数軸上で特性を加工する方法は、時間軸上の特徴の
変化を強調しない。
Of the above-mentioned conventional techniques,
The method of processing the characteristic on the frequency axis does not emphasize the change of the characteristic on the time axis.

【0008】また、ホルマント変化を強調する方法は、
強調に先立ってホルマント抽出を行う必要があるが、ホ
ルマントは一般に無声音では顕著でないため、通常の手
段でホルマントを抽出できる有声音のみにしか適用され
ない。従って無声音を含む連続音声の強調には向かない
という問題があった。
A method for emphasizing the change in formant is as follows.
Although it is necessary to perform formant extraction prior to emphasizing, formants are generally not prominent in unvoiced sounds, so they are applicable only to voiced sounds for which formants can be extracted by conventional means. Therefore, there is a problem that it is not suitable for emphasizing continuous voice including unvoiced sound.

【0009】スペクトル変化を強調する方法では、強調
対象として主にLPCケプストラム包絡を用いている
が、この強調は機械認識に用いる音響パラメータを対象
としており、強調後の音声復元が考慮されていないとい
う問題があった。また、本従来技術では、各分析フレー
ムごとに対象時間区間の原音のLPCケプストラム包絡
およびパワーに対して強調が行われ、前フレームの強調
結果が累積されないという問題があった。
In the method of emphasizing the spectrum change, the LPC cepstrum envelope is mainly used as an emphasizing object, but this emphasizing is intended for acoustic parameters used for machine recognition, and speech restoration after emphasizing is not considered. There was a problem. Further, the conventional technique has a problem that the LPC cepstrum envelope and power of the original sound in the target time section are emphasized for each analysis frame, and the emphasis result of the previous frame is not accumulated.

【0010】波形に特定形状の窓関数を乗ずる方法は、
音声区間の立ち上がりの音圧レベルを強調するが、音声
全体のパワーの時間変化が強調されないという問題があ
った。
A method for multiplying a waveform by a window function having a specific shape is as follows:
Although the sound pressure level at the rising edge of the voice section is emphasized, there is a problem that the temporal change of the power of the entire voice is not emphasized.

【0011】発声速度のみを変更する方法は、有声部波
形の短時間区間の時間構造は保存するが、連続的な時間
変化は崩れるため、発話速度を変更した音声が、人間が
その速度で発話した音声にくらべ特に遷移区間で不自然
な音質となる場合があるという問題があった。
According to the method of changing only the utterance speed, the time structure of the short time section of the voiced part waveform is preserved, but the continuous time change is broken, so that the voice with the changed utterance speed is spoken by the human at that speed. There is a problem that the sound quality may be unnatural especially in the transition section, as compared with the above speech.

【0012】[0012]

【課題を解決するための手段】上記の課題を解決するた
めに、本発明の音声強調方法およびこれを用いた装置で
は、音声波形から音声の音響的特徴量を計算する特徴量
計算部と、該音響的特徴量の単位時間あたりの時間変化
量を計算する特徴量変化量計算部と、該時間変化量を変
更する時間変化量変更部と、該変更後時間変化量を用い
て該音響的特徴量を変更する音響的特徴量変更部と、該
変更後音響的特徴量から音声波形を再構築する波形再構
築部を設けた。
In order to solve the above-mentioned problems, in a voice emphasizing method of the present invention and an apparatus using the same, a feature quantity calculating section for calculating an acoustic feature quantity of a voice from a voice waveform, A feature amount change amount calculation unit that calculates a time change amount of the acoustic feature amount per unit time, a time change amount change unit that changes the time change amount, and the acoustic amount using the changed time change amount. An acoustic feature amount changing unit that changes the feature amount and a waveform reconstructing unit that reconstructs a voice waveform from the changed acoustic feature amount are provided.

【0013】また、音声の音響的特徴量の中で、時間的
な特性の変化が顕著であるために音質に寄与する割合が
比較的大きい基本周波数、パワー、および周波数スペク
トルを用い、その時間変化を同時にまたは単独であるい
は組み合せて変更する手段を設けた。
Further, among the acoustic feature quantities of speech, a fundamental frequency, a power, and a frequency spectrum, which have a relatively large contribution to the sound quality due to a remarkable change in characteristics over time, are used, and their temporal changes are used. Are provided at the same time, individually or in combination.

【0014】音響的特徴量変更部が、対象時間区間より
単位時間前の音響的特徴量に、時間変化量変更部におい
て変更された単位時間あたりの音響的特徴量の時間変化
量を加えた結果を対象時間区間の音響的特徴量とするこ
とによって、対象時間区間の音響的特徴量を変更する手
段を設けた。
The result of the acoustic feature quantity changing unit adding the time change amount of the acoustic feature quantity per unit time changed by the time change amount changing unit to the acoustic feature quantity unit time before the target time section. A means for changing the acoustic characteristic amount of the target time section is provided by setting the acoustic characteristic amount of the target time section to.

【0015】該単位時間前の音響的特徴量として、それ
より単位時間前に音響的特徴量変更部によって変更した
音響的特徴量を用いた。
As the acoustic feature amount before the unit time, the acoustic feature amount changed by the acoustic feature amount changing unit before the unit time is used.

【0016】発話速度を変更する発話速度変換部および
時間変化を変更する音声強調部を設けた。
A speech rate conversion section for changing the speech rate and a voice emphasis section for changing the time change are provided.

【0017】周波数特性を変更する周波数特性変更部お
よび時間変化を変更する音声強調部を設けた。
A frequency characteristic changing section for changing the frequency characteristic and a voice emphasizing section for changing the time change are provided.

【0018】発話速度を変更する発話速度変換部および
周波数特性を変更する周波数特性変更部および時間変化
を変更する音声強調部を設けた。
A speech rate conversion section for changing the speech rate, a frequency characteristic changing section for changing the frequency characteristic, and a voice emphasizing section for changing the time change are provided.

【0019】[0019]

【作用】音声波形から音声の音響的特徴量を計算する特
徴量計算部と、該音響的特徴量の単位時間あたりの時間
変化量を計算する特徴量変化量計算部と、該時間変化量
を変更する時間変化量変更部と、該変更後時間変化量を
用いて該音響的特徴量を変更する音響的特徴量変更部
と、該変更後音響的特徴量から音声波形を再構築する波
形再構築部を設けることにより、音声の時間変化を変更
することが可能になる。
Operation: A feature amount calculation unit for calculating the acoustic feature amount of a voice from a voice waveform, a feature amount change amount calculation unit for calculating the time change amount of the acoustic feature amount per unit time, and the time change amount A time change amount changing unit for changing, an acoustic feature amount changing unit for changing the acoustic feature amount using the changed time change amount, and a waveform reconstructing unit for reconstructing a speech waveform from the changed acoustic feature amount. By providing the construction unit, it is possible to change the time change of the voice.

【0020】また、音声の音響的特徴量の中で、時間的
な特性の変化が顕著であるために音質に寄与する割合が
比較的大きい基本周波数、パワー、および周波数スペク
トルを用い、その時間変化を同時にまたは単独であるい
は組み合せて変更する手段を設けることにより、音声の
時間変化を効果的に変更することが可能になる。
In the acoustic feature quantity of the voice, the fundamental frequency, the power, and the frequency spectrum, which have a relatively large contribution to the sound quality because the characteristic changes with time are remarkable, are used. It is possible to effectively change the time change of the voice by providing a means for changing simultaneously, alone or in combination.

【0021】音響的特徴量変更部が、対象時間区間より
単位時間前の音響的特徴量に、時間変化量変更部におい
て変更された単位時間あたりの音響的特徴量の時間変化
量を加えた結果を対象時間区間の音響的特徴量とするこ
とによって、対象時間区間の音響的特徴量を変更する手
段を設けることにより、音声の音響的特徴の時間変化を
変更することが可能になる。
The result of the acoustic feature quantity changing unit adding the time change amount of the acoustic feature quantity per unit time changed by the time change amount changing unit to the acoustic feature quantity unit time before the target time section. Is set as the acoustic feature amount of the target time section, and by providing a means for changing the acoustic feature amount of the target time section, it is possible to change the temporal change of the acoustic feature of the voice.

【0022】該単位時間前の音響的特徴量として、それ
より単位時間前に音響的特徴量変更部によって変更した
音響的特徴量を用いることにより、音声の時間変化の変
更を累積することが可能になる。
By using, as the acoustic feature amount before the unit time, the acoustic feature amount changed by the acoustic feature amount changing unit before the unit time, it is possible to accumulate the change in the time change of the voice. become.

【0023】発話速度を変更する発話速度変換部および
時間変化を変更する音声強調部を設けることにより、発
話速度および時間変化を同時に変更することが可能にな
る。
By providing the speech speed conversion unit for changing the speech speed and the voice emphasizing unit for changing the time change, the speech speed and the time change can be changed at the same time.

【0024】周波数特性を変更する周波数特性変更部お
よび時間変化を強調する音声強調部を設けることによ
り、周波数特性および時間変化を同時に変更することが
可能になる。
By providing the frequency characteristic changing unit for changing the frequency characteristic and the voice emphasizing unit for emphasizing the time change, the frequency characteristic and the time change can be changed at the same time.

【0025】発話速度を変更する発話速度変換部および
周波数特性を変更する周波数特性変更部および時間変化
を強調する音声強調部を設けることにより、発話速度お
よび周波数特性および時間変化を同時に変更することが
可能になる。
By providing a speech rate conversion section for changing the speech rate, a frequency characteristic changing section for changing the frequency characteristic, and a voice emphasizing section for emphasizing the time change, the speech rate, the frequency characteristic and the time change can be changed at the same time. It will be possible.

【0026】[0026]

【実施例】以下、本発明の実施例を図を用いて説明す
る。
Embodiments of the present invention will be described below with reference to the drawings.

【0027】図1は本発明である音声強調装置の1実施
例を説明するブロック図である。図1において、入力音
声は、マイクロフォン101を通して電気信号102に
変換された後、A/D変換部103においてディジタル
波形信号104に変換される。フレーム処理部105
は、適当な時間間隔の分析周期で、数十ミリ〜百ミリ秒
程度の時間窓を用いてディジタル波形信号104から短
時間区間波形を切り出し、フレーム波形信号106とす
る。
FIG. 1 is a block diagram for explaining one embodiment of a voice emphasizing device according to the present invention. In FIG. 1, an input voice is converted into an electric signal 102 through a microphone 101 and then converted into a digital waveform signal 104 in an A / D converter 103. Frame processing unit 105
Is a frame waveform signal 106 obtained by cutting out a short-time section waveform from the digital waveform signal 104 using a time window of about several tens of milliseconds to hundreds of milliseconds at an analysis cycle of an appropriate time interval.

【0028】フレームパワー計算部107は、フレーム
波形信号106のフレーム平均パワー108を計算す
る。パワー変化量計算部109は、フレーム平均パワー
108の単位時間あたりの変化量110を計算する。フ
レーム平均パワーの単位時間あたりの変化量は、現在の
分析フレームのフレーム平均パワーと前フレームの強調
前のフレーム平均パワーとの差で表される。ただし、分
析周期が短い場合は、ばらつきを少なくするために前後
数フレーム分のフレーム平均パワーから回帰係数を計算
し、これを用いてもよい。パワー変化強調部111は、
フレーム平均パワーの単位時間あたりの変化量110に
適当な係数を乗じ、前フレームの強調後のフレーム平均
パワーに加えることによって、強調後フレーム平均パワ
ー112とする。
The frame power calculator 107 calculates the frame average power 108 of the frame waveform signal 106. The power change amount calculation unit 109 calculates a change amount 110 of the frame average power 108 per unit time. The amount of change in the frame average power per unit time is represented by the difference between the frame average power of the current analysis frame and the frame average power of the previous frame before enhancement. However, when the analysis cycle is short, a regression coefficient may be calculated from the frame average powers of several frames before and after it and used to reduce the variation. The power change emphasis unit 111
The post-enhancement frame average power 112 is obtained by multiplying the change amount 110 of the frame average power per unit time by an appropriate coefficient and adding it to the post-enhancement frame average power of the previous frame.

【0029】また、基本周波数抽出部113は、例えば
「ディジタル音声処理」(古井、東海大学出版会、19
85)に記載されている自己相関分析に基づいてフレー
ム波形信号106から分析フレームごとの基本周波数1
14を抽出する。基本周波数変化量計算部115は、基
本周波数114の単位時間あたりの変化量116を計算
する。基本周波数の単位時間あたりの変化量は、現在の
分析フレームの基本周波数と前フレームの強調前の基本
周波数との差で表される。ただし、分析周期が短い場合
は、ばらつきを少なくするために前後数フレーム分の基
本周波数から回帰係数を計算し、これを用いてもよい。
なお、無声音のように基本周波数が抽出できない場合
は、強調を行わないか、前後の有声音の基本周波数間を
線形あるいはスプライン関数等で補間することによって
内挿した基本周波数を用いて処理を行う。
In addition, the fundamental frequency extraction unit 113 is, for example, "digital audio processing" (Furui, Tokai University Press, 19
85) from the frame waveform signal 106 to the fundamental frequency 1 for each analysis frame based on the autocorrelation analysis.
14 is extracted. The basic frequency change amount calculation unit 115 calculates the change amount 116 of the basic frequency 114 per unit time. The amount of change in the fundamental frequency per unit time is represented by the difference between the fundamental frequency of the current analysis frame and the fundamental frequency of the previous frame before enhancement. However, when the analysis cycle is short, a regression coefficient may be calculated from the fundamental frequencies of several frames before and after it in order to reduce the variation, and this may be used.
When the fundamental frequency cannot be extracted like unvoiced sound, no enhancement is performed or processing is performed using the fundamental frequency interpolated by linearly interpolating the fundamental frequencies of the voiced sounds before and after or with a spline function. .

【0030】一方、フレーム波形信号106は、フーリ
エ変換部117において周波数スペクトル118に変換
される。スペクトル正規化部119は、周波数スペクト
ル118をフレーム平均パワー108で正規化し、正規
化周波数スペクトル120を計算する。スペクトル包絡
計算部121は、正規化周波数スペクトル120からス
ペクトル包絡122を計算する。本実施例では、スペク
トル包絡として、フーリエケプストラム包絡を用いる。
フーリエケプストラム包絡は、対数パワースペクトルの
ピーク包絡を、ケプストラム分析に基づいて計算するこ
とによって得られる。計算方法は、例えば「ディジタル
音声処理」(古井、東海大学出版会、1985)に記載
されている。スペクトル包絡変化量計算部123は、ス
ペクトル包絡122の単位時間あたりの変化量124を
計算する。スペクトル包絡の単位時間あたりの変化量
は、現在の分析フレームのスペクトル包絡と前フレーム
の強調前のスペクトル包絡との各周波数成分ごとの差で
表される。ただし、分析周期が短い場合は、ばらつきを
少なくするために前後数フレーム分のスペクトル包絡か
ら回帰係数を計算し、これを用いてもよい。スペクトル
変化強調部125では、スペクトル包絡の単位時間あた
りの変化量124に適当な係数を乗じ、前フレームの強
調後のスペクトル包絡に加えた結果が現在の分析フレー
ムの強調後のスペクトル包絡となるように現在の分析フ
レームの正規化スペクトル120を強調し、スペクトル
変化強調後正規化スペクトル126を得る。このとき、
強調後のスペクトル包絡と強調前のスペクトル包絡の差
を対数パワースペクトルから複素スペクトルに換算した
値を、正規化スペクトル120の各周波数成分の実部お
よび虚部にそれぞれ乗じ、位相を保存したままスペクト
ルの強調を行う。
On the other hand, the frame waveform signal 106 is converted into a frequency spectrum 118 by the Fourier transform unit 117. The spectrum normalization unit 119 normalizes the frequency spectrum 118 with the frame average power 108 to calculate a normalized frequency spectrum 120. The spectrum envelope calculation unit 121 calculates the spectrum envelope 122 from the normalized frequency spectrum 120. In this embodiment, the Fourier cepstrum envelope is used as the spectrum envelope.
The Fourier cepstrum envelope is obtained by calculating the peak envelope of the logarithmic power spectrum based on cepstrum analysis. The calculation method is described, for example, in "Digital Speech Processing" (Furui, Tokai University Press, 1985). The spectrum envelope change amount calculation unit 123 calculates a change amount 124 of the spectrum envelope 122 per unit time. The amount of change in the spectrum envelope per unit time is represented by the difference for each frequency component between the spectrum envelope of the current analysis frame and the spectrum envelope of the previous frame before enhancement. However, when the analysis cycle is short, the regression coefficient may be calculated from the spectral envelopes of several frames before and after it in order to reduce the variation, and this may be used. The spectrum change emphasizing unit 125 multiplies the amount of change 124 of the spectrum envelope per unit time by an appropriate coefficient and adds the result to the spectrum envelope after emphasis of the previous frame so that the result becomes the spectrum envelope after emphasis of the current analysis frame. Then, the normalized spectrum 120 of the current analysis frame is emphasized, and the normalized spectrum 126 after the spectrum change emphasis is obtained. At this time,
A value obtained by converting the difference between the spectrum envelope after emphasis and the spectrum envelope before emphasis into a complex spectrum from a logarithmic power spectrum is multiplied by the real part and the imaginary part of each frequency component of the normalized spectrum 120, and the spectrum is preserved while the phase is preserved. Emphasize.

【0031】基本周波数変化強調部127は、基本周波
数の単位時間あたりの変化量116に適当な係数を乗
じ、前フレームの強調後の基本周波数に加えることによ
って、強調後基本周波数とし、例えば、"Pitch-synchro
nous waveform processing techniques for text-to-sp
eech synthesis using diphones" (Charpentier and Mo
ulines、 Eurospeech 89、 vol 2、 Sep 1989、 pp13-1
9)記載の方法を用いてスペクトル変化強調後正規化スペ
クトル126の基本周波数を変更し、基本周波数変化強
調後正規化スペクトル128とする。基本周波数変化強
調後正規化スペクトル128は、逆フーリエ変換部12
9でフレーム波形信号130に逆変換される。フレーム
波形再合成部131は、フレーム波形信号130に強調
後フレーム平均パワー112を乗じ、パワー変化強調後
フレーム波形信号132を再合成する。パワー変化強調
後フレーム波形信号132は、波形再構築部133にお
いて連続波形134に再構築され、D/A変換部135
においてアナログ電気信号136に変換された後、スピ
ーカー137から強調された音声として出力される。
The fundamental frequency change emphasizing section 127 multiplies the variation 116 of the fundamental frequency per unit time by an appropriate coefficient and adds it to the emphasized fundamental frequency of the previous frame to obtain the enhanced fundamental frequency. Pitch-synchro
nous waveform processing techniques for text-to-sp
eech synthesis using diphones "(Charpentier and Mo
ulines, Eurospeech 89, vol 2, Sep 1989, pp13-1
9) The fundamental frequency of the normalized spectrum 126 after emphasis of spectrum change is changed by using the method described above to obtain the normalized spectrum 128 after emphasis of change of fundamental frequency. The normalized spectrum 128 after emphasizing the fundamental frequency change is obtained by the inverse Fourier transform unit 12
At 9, the frame waveform signal 130 is inversely converted. The frame waveform recombining unit 131 multiplies the frame waveform signal 130 by the post-enhancement frame average power 112 to resynthesize the power change emphasized frame waveform signal 132. The frame waveform signal 132 after power change enhancement is reconstructed into a continuous waveform 134 by the waveform reconstructing unit 133, and the D / A converting unit 135.
After being converted into an analog electric signal 136 in, the sound is output from the speaker 137 as emphasized sound.

【0032】なお、基本周波数抽出法は、上記実施例記
載の自己相関分析に基づく方法以外にも、ケプストラム
分析を用いる方法や、波形の零交差数の計測による方法
等があり、いずれの方法を用いても本音声強調装置を実
現することができる。
The fundamental frequency extraction method includes, in addition to the method based on the autocorrelation analysis described in the above embodiment, a method using a cepstrum analysis, a method by measuring the number of zero-crossings of a waveform, etc. The present speech emphasizing device can also be realized by using it.

【0033】また、本実施例においては、周波数スペク
トルの正規化に平均パワーを用いたが、周波数レベル最
大値で正規化することも可能である。
Further, in the present embodiment, the average power is used for normalizing the frequency spectrum, but it is also possible to normalize with the maximum value of the frequency level.

【0034】さらに、スペクトル包絡として、フーリエ
ケプストラム包絡を用いたが、対数パワースペクトル、
バークスペクトル、メルスペクトルを用いることも可能
である。ここで、バークスペクトルおよびメルスペクト
ルは、聴覚の周波数分解能に基づいており、バークスペ
クトルまたはメルスペクトルを用いることによって人間
の聴覚の周波数分析に近い方法で強調を行うことが可能
となる。ところで、バークスペクトルおよびメルスペク
トルは周波数が高くなるほど分解能が粗くなるため、こ
れらのスペクトルでは高い周波数成分に対応する各次の
成分に対しフーリエスペクトルの複数ポイントが割り当
てられる。このような場合は1つの次数に割り当てられ
るフーリエスペクトルの複数のポイントを、等しい割合
で強調する。バークスペクトルおよびメルスペクトル
は、例えば難波編「聴覚ハンドブック」(ナカニシヤ出
版、1984)記載の周波数軸の変換式や変換テーブルを用
いてフーリエスペクトルから換算することができる。周
波数スペクトルの時間変化強調にスペクトル包絡を用い
ず、複素周波数スペクトルを直接用いることも可能であ
るが、この場合は、周波数レベルのみでなく位相の時間
変化の強調も同時に行われる。
Further, as the spectrum envelope, the Fourier cepstrum envelope is used.
It is also possible to use a Bark spectrum or a mel spectrum. Here, the Bark spectrum and the mel spectrum are based on the frequency resolution of the auditory sense, and by using the Bark spectrum or the Mel spectrum, it is possible to perform the enhancement in a method close to the frequency analysis of the human auditory sense. By the way, since the resolution of the Bark spectrum and the mel spectrum becomes coarser as the frequency becomes higher, a plurality of points of the Fourier spectrum are assigned to each order component corresponding to the high frequency component in these spectra. In such a case, a plurality of points of the Fourier spectrum assigned to one order are emphasized in equal proportions. The Bark spectrum and the Mel spectrum can be converted from the Fourier spectrum by using a conversion formula or conversion table of the frequency axis described in “Hearing Handbook” edited by Namba (Nakanishiya Publishing Co., Ltd., 1984). It is also possible to directly use the complex frequency spectrum without using the spectrum envelope to emphasize the time change of the frequency spectrum, but in this case, not only the frequency level but also the time change of the phase are emphasized at the same time.

【0035】係数値は、変更する特徴量ごとに最適な値
を用いることが可能であり、必ずしも同じである必要は
ない。
As the coefficient value, an optimum value can be used for each characteristic amount to be changed, and it is not always necessary that the coefficient value is the same.

【0036】本実施例は分析フレームの時間的近傍の音
声信号のみを用いるため、受聴者に遅延を感じさせない
範囲の実時間で処理を行うことが可能であることは明ら
かである。
Since this embodiment uses only the audio signals in the temporal vicinity of the analysis frame, it is clear that the processing can be performed in real time within a range where the listener does not feel any delay.

【0037】図2は、特徴量の時間変化強調処理方法を
説明する図である。
FIG. 2 is a diagram for explaining a method of highlighting the time variation of the feature quantity.

【0038】図において、Fを原音の特徴量、F’を強
調後の特徴量とする。F、F’は時間の関数で、単位時
間ごとに離散的な値を持つとする。今、時間tにおける
原音の特徴量をF(t)、強調後の特徴量をF’(t)
とすると、t+1における強調後の特徴量F’(t+
1)は、時間tにおけるF(t)の傾きdF(t)/d
tを、
In the figure, F is the feature amount of the original sound, and F'is the feature amount after emphasis. F and F ′ are functions of time and have discrete values for each unit time. Now, the feature amount of the original sound at time t is F (t), and the feature amount after emphasis is F ′ (t).
Then, at t + 1, the emphasized feature amount F ′ (t +
1) is the slope dF (t) / d of F (t) at time t
t

【0039】[0039]

【数1】 [Equation 1]

【0040】とすると、強調係数aを用いて次式で表す
ことができる。
Then, it can be expressed by the following equation using the emphasis coefficient a.

【0041】[0041]

【数2】 [Equation 2]

【0042】同様に、F’(t+2)は、次式で表され
る。
Similarly, F '(t + 2) is expressed by the following equation.

【0043】[0043]

【数3】 (Equation 3)

【0044】従って、Therefore,

【0045】[0045]

【数4】 [Equation 4]

【0046】となり、特徴量の強調が累積される。本図
は簡単のため、特徴量をスカラーとしているが、特徴量
がベクトルの場合にも容易に拡張可能なことは明らかで
ある。ここで、aは、−1より大きい実数で、a>0の
とき時間変化を強調、−1<a<0のとき抑制する。a
=0の時は原音の時間変化が変更されない。
Then, the emphasis of the feature amount is accumulated. In the present figure, the feature amount is a scalar for simplification, but it is obvious that the feature amount can be easily expanded even when it is a vector. Here, a is a real number larger than -1, and emphasizes a temporal change when a> 0 and suppresses it when -1 <a <0. a
When = 0, the time change of the original sound is not changed.

【0047】図3は、特徴量がスカラーの場合の時間変
化強調の概念図である。時間変化量の強調によって特徴
量Fは、F’のように強調される。
FIG. 3 is a conceptual diagram of temporal change emphasis when the feature amount is a scalar. The feature amount F is emphasized like F ′ by emphasizing the time change amount.

【0048】なお、音声は音源や声道形状を変化させる
ことによって調音様式の異なる音声セグメントを連続的
に発声し、意図する言語を構成する。従って、発話が正
確でない場合や、聴取条件に制約がある場合は、各音声
セグメントの音響的特徴が連続発声によってなまけるこ
とによって聞きにくくなる。このような場合は、連続発
声された音声を、各音声セグメントごとの音響的特徴が
該音素本来の特徴となるように強調することによって聞
きやすさが向上すると考えられる。このような連続発声
された音声の各音声セグメントの境界は、音響的特徴量
の時間変化が極大の時点とみなすことができる。そこ
で、音響的特徴量の時間変化の極大値を検出し、このと
きのみa=0とすれば、時間変化の変更が音声セグメン
トごとに行われる。
It should be noted that by changing the sound source and the vocal tract shape, the voice continuously utters voice segments having different articulation styles to form the intended language. Therefore, when the utterance is not accurate or the listening condition is restricted, the acoustic feature of each voice segment is dulled by continuous utterance, which makes it difficult to hear. In such a case, it is considered that the audibility is improved by emphasizing the continuously uttered speech so that the acoustic feature of each voice segment becomes the original feature of the phoneme. The boundary of each voice segment of the continuously uttered voice can be regarded as the time point when the temporal change of the acoustic feature amount is the maximum. Therefore, if the maximum value of the temporal change of the acoustic feature amount is detected and a = 0 is set only at this time, the temporal change is changed for each voice segment.

【0049】図4は音響的特徴量の時間変化極大値検出
部を有する時間変化量変更部のブロック図である。図に
おいて、401は時間変化量変更部を表す。音響的特徴
量の時間変化量402は、時間変化量保持部403に格
納されると共に、時間変化量比較部404において、時
間変化量保持部において保持されていた前フレームの時
間変化量405との差を計算され、該差406が極大で
あるかを極大値検出部407において判定される。強調
係数決定部409は、該判定結果408をもとに時間変
化量が極大であれば強調係数410を0、それ以外の場
合は、予め定められた0以外の実数とする。時間変化量
変更部411は、該強調係数410を用いて時間変化量
402を変更し、変更後時間変化量412とする。
FIG. 4 is a block diagram of a time change amount changing unit having a time change maximum value detecting unit of the acoustic feature amount. In the figure, reference numeral 401 represents a time change amount changing unit. The time change amount 402 of the acoustic feature amount is stored in the time change amount holding unit 403, and the time change amount comparison unit 404 compares it with the time change amount 405 of the previous frame held in the time change amount holding unit. The difference is calculated, and the maximum value detection unit 407 determines whether the difference 406 is the maximum. Based on the determination result 408, the emphasis coefficient determination unit 409 sets the emphasis coefficient 410 to 0 if the amount of change with time is maximum, and otherwise sets a predetermined real number other than 0. The time change amount changing unit 411 changes the time change amount 402 using the emphasis coefficient 410 to obtain the changed time change amount 412.

【0050】一方、音声が十分ゆっくり発声された場合
は、母音等の比較的継続時間長の長い音声セグメントの
定常部は音声セグメント本来の音響的特徴を有する場合
がある。このような場合は、時間変化量が極小の時点を
定常部開始時間とみなし、時間変化を変更しないとによ
って原音の特徴を保存することが可能である。
On the other hand, when the voice is uttered sufficiently slowly, the stationary part of the voice segment having a relatively long duration such as a vowel may have the original acoustic characteristics of the voice segment. In such a case, it is possible to save the characteristics of the original sound by regarding the time point when the amount of time change is minimal as the stationary part start time and not changing the time change.

【0051】図5は、音響的特徴量の時間変化極小値検
出部を有する時間変化量変更部のブロック図である。図
において、501は時間変化量変更部を表す。音響的特
徴量の時間変化量502は、時間変化量保持部503に
格納されると共に、時間変化量比較部504において、
時間変化量保持部において保持されていた前フレームの
時間変化量505との差を計算され、該差506が極小
であるかを極小値検出部507において判定される。強
調係数決定部509は、該判定結果508をもとに時間
変化量が極小であれば強調係数510を0、それ以外の
場合は、予め定められた0以外の実数とする。時間変化
量変更部511は、該強調係数510を用いて時間変化
量502を変更し、変更後時間変化量512とする。
FIG. 5 is a block diagram of a time change amount changing unit having a time change minimum value detecting unit for the acoustic feature amount. In the figure, reference numeral 501 represents a time change amount changing unit. The time change amount 502 of the acoustic feature amount is stored in the time change amount holding unit 503, and the time change amount comparison unit 504
The difference from the time change amount 505 of the previous frame held in the time change amount holding unit is calculated, and the minimum value detection unit 507 determines whether the difference 506 is the minimum. Based on the determination result 508, the emphasis coefficient determination unit 509 sets the emphasis coefficient 510 to 0 when the time change amount is minimal, and otherwise sets a predetermined real number other than 0. The time change amount changing unit 511 changes the time change amount 502 using the emphasis coefficient 510 to obtain the changed time change amount 512.

【0052】さらに、時間変化量の絶対値を計算し、該
絶対値が予め定めたある値より小さい場合には、その区
間を定常区間とみなし、時間変化を変更しないとによっ
て原音の特徴を保存することが可能である。
Further, the absolute value of the time change amount is calculated, and when the absolute value is smaller than a predetermined value, the section is regarded as a steady section and the characteristic of the original sound is preserved by not changing the time change. It is possible to

【0053】図6は、音響的特徴量の時間変化極小値検
出部を有する時間変化量変更部のブロック図である。図
において、601は時間変化量変更部を表す。時間変化
量絶対値計算部603は、音響的特徴量の時間変化量6
02の絶対値604を計算し、時間変化量絶対値判定部
605において、該絶対値604が予め定められた値と
比較し、これより小さい場合は強調係数608を0、そ
れ以外の場合は、予め定められた0以外の実数とする。
時間変化量変更部609は、該強調係数608を用いて
時間変化量602を変更し、変更後時間変化量610と
する。
FIG. 6 is a block diagram of a time change amount changing unit having a time change minimum value detecting unit for the acoustic feature amount. In the figure, 601 represents a time change amount changing unit. The time change amount absolute value calculation unit 603 calculates the time change amount 6 of the acoustic feature amount.
The absolute value 604 of 02 is calculated, and in the time change amount absolute value determination unit 605, the absolute value 604 is compared with a predetermined value, and if it is smaller than this, the emphasis coefficient 608 is set to 0, otherwise, It is a real number other than 0, which is determined in advance.
The time change amount changing unit 609 changes the time change amount 602 using the emphasis coefficient 608 to obtain the changed time change amount 610.

【0054】通常、音響的特徴量の時間変化は、音声セ
グメントの境界で極大、音声セグメント中心部で極小と
なる。そこで、該時間変化量の絶対値によって強調係数
をかえることによって、強調後の音響的特徴量の時間変
化を制御することが可能となる。該時間変化量の絶対値
が大きいほど系数値を大きくした場合は、音声セグメン
ト境界付近の変化より強調し、中心付近の変化の強調を
少なくするため、セグメント境界がより明確になり、セ
グメント内の特徴の定常部の持続時間が増加する。図7
に該時間変化量の絶対値が大きいほど系数値を大きくし
た場合の時間変化強調の概念図を示す。
Normally, the temporal change of the acoustic feature amount is maximum at the boundary of the voice segment and minimum at the center of the voice segment. Therefore, by changing the emphasis coefficient according to the absolute value of the temporal change amount, it becomes possible to control the temporal change of the emphasized acoustic feature amount. When the system value is increased as the absolute value of the time change amount is increased, the change is emphasized more than the change near the voice segment boundary and the change near the center is less emphasized, so that the segment boundary becomes clearer. The duration of the stationary part of the feature is increased. Figure 7
A conceptual diagram of time change emphasis when the system numerical value is increased as the absolute value of the time change amount is increased is shown in FIG.

【0055】また、該時間変化量の絶対値が小さいほど
系数値を大きくした場合は、音声セグメント境界付近の
変化の強調を少なくし、中心付近の変化の強調を大きく
するため、セグメント境界で原音の持つ特徴量の変化を
保存することが可能となる。図8に該時間変化量の絶対
値が小さいほど系数値を大きくした場合の時間変化強調
の概念図を示す。
When the system value is increased as the absolute value of the time variation is smaller, the emphasis of the change near the voice segment boundary is reduced and the emphasis of the change near the center is increased to increase the original sound at the segment boundary. It is possible to save the change in the feature amount of. FIG. 8 shows a conceptual diagram of time variation emphasis when the system numerical value is increased as the absolute value of the time variation is smaller.

【0056】一般に、音声を構成する様々な調音様式の
セグメントの中で、無声子音のように声帯振動を伴わな
いセグメントでは、パワーが小さく、周波数スペクトル
に対する調音結合の影響が顕著でないと考えられる。ま
た、無声音では、声帯が振動しないため、基本周波数が
抽出できない。そこで、比較的パワーの小さい部分を無
声部とみなし、予め適当に定めた閾値より音声パワーが
小さい場合には、周波数スペクトルや基本周波数等の時
間変化強調の時間変化強調を行わないことによって処理
量を削減することが可能である。 図9にパワー判定部
を有する音声強調装置の構成例を示す。図において、入
力音声は、マイクロフォン901を通して電気信号90
2に変換された後、A/D変換部903においてディジ
タル波形信号904に変換される。フレーム処理部90
5は、適当な時間間隔の分析周期で、数十ミリ〜百ミリ
秒程度の時間窓を用いてディジタル波形信号904から
短時間区間波形を切り出し、フレーム波形信号906と
する。フレームパワー計算部907は、フレーム波形信
号906のフレーム平均パワー908を計算する。フレ
ーム平均パワー908は、パワー判定部909において
予め定めた閾値と比較され、該閾値より大きいと判定さ
れたときに、スペクトルおよび基本周波数強調指令91
0を出す。フレームレベル時間変化強調部911は、ス
ペクトルおよび基本周波数強調指令910が検出された
場合はフレーム波形信号906のスペクトルおよび基本
周波数強調を行い、スペクトルおよび基本周波数強調指
令910が検出されない場合はフレーム波形信号906
のスペクトルおよび基本周波数を変更しない。このと
き、平均パワー強調処理は、スペクトルおよび基本周波
数強調指令910によらず行う。強調後フレーム波形信
号912は、波形再構築部913において連続波形91
4に再構築され、D/A変換部915においてアナログ
電気信号916に変換された後、スピーカー917から
強調された音声として出力される。
In general, among the various articulatory modal segments that make up a voice, it is considered that a segment that does not accompany vocal cord vibration, such as a voiceless consonant, has a small power and that the effect of articulatory coupling on the frequency spectrum is not significant. Further, in unvoiced sound, the fundamental frequency cannot be extracted because the vocal cords do not vibrate. Therefore, if the voice power is smaller than a threshold value set in advance, the portion with relatively small power is regarded as the unvoiced portion, and the processing amount is reduced by not performing the time change emphasis of the time change emphasis of the frequency spectrum or the fundamental frequency. Can be reduced. FIG. 9 shows a configuration example of a voice enhancement device having a power determination unit. In the figure, an input voice is an electric signal 90 through a microphone 901.
After being converted into 2, it is converted into a digital waveform signal 904 in the A / D converter 903. Frame processing unit 90
Reference numeral 5 is an analysis cycle at an appropriate time interval, and a short-time section waveform is cut out from the digital waveform signal 904 using a time window of about several tens of millimeters to hundreds of milliseconds to form a frame waveform signal 906. The frame power calculator 907 calculates the frame average power 908 of the frame waveform signal 906. The frame average power 908 is compared with a predetermined threshold value in the power determination unit 909, and when it is determined to be larger than the threshold value, the spectrum and fundamental frequency emphasis command 91
Give 0. The frame level time change emphasis unit 911 performs the spectrum and fundamental frequency emphasis of the frame waveform signal 906 when the spectrum and fundamental frequency emphasis instruction 910 is detected, and the frame waveform signal 906 when the spectrum and fundamental frequency emphasis instruction 910 is not detected. 906
Do not change the spectrum and fundamental frequency of. At this time, the average power emphasis processing is performed regardless of the spectrum and fundamental frequency emphasis instruction 910. The emphasized frame waveform signal 912 is converted into a continuous waveform 91 by the waveform reconstructing unit 913.
4 is reconstructed, converted into an analog electric signal 916 in the D / A conversion unit 915, and then output as emphasized sound from the speaker 917.

【0057】図10は、本発明を用いて時間変化を強調
した音声の例である。図の(a)が「パンを焼く」と発
声された原音声のスペクトログラム、(b)が時間変化
強調音声のスペクトログラムである。図10より、スペ
クトルの全体の時間変化が強調されていることがわか
る。
FIG. 10 is an example of a voice emphasizing a temporal change using the present invention. In the figure, (a) is a spectrogram of the original voice uttered as "baking bread", and (b) is a spectrogram of the time-change emphasized voice. It can be seen from FIG. 10 that the time change of the entire spectrum is emphasized.

【0058】図11に、本発明である音声強調装置の構
成例を示す。入力音声のアナログ電気信号1101は、
アンプ1102によってレベル調整された後フィルタ1
103必要帯域外を除去し、A/D変換部1104でデ
ィジタル信号に変換された後、DSPで音声強調処理さ
れる。音声強調プログラムおよびデータは、プログラム
メモリ1106およびデータメモり1107よりそれぞ
れロードされる。音声強調されたディジタル信号は、D
/A変換部1108でアナログ信号に変換された後必要
帯域外を除去し、アンプ1110でレベル調整された
後、強調後音声アナログ電気信号1111として出力さ
れる。
FIG. 11 shows an example of the configuration of the voice emphasizing device according to the present invention. The analog electrical signal 1101 of the input voice is
Filter 1 after level adjustment by amplifier 1102
103 A band outside the required band is removed, and after being converted into a digital signal by the A / D conversion unit 1104, a voice enhancement process is performed by the DSP. The voice emphasis program and data are loaded from the program memory 1106 and the data memory 1107, respectively. The voice-enhanced digital signal is D
After being converted into an analog signal by the A / A conversion unit 1108, the outside of the required band is removed, the level is adjusted by the amplifier 1110, and the amplified analog audio electric signal 1111 is output.

【0059】図12に、本発明である音声強調装置を直
接用いた実施例を示す。音声は、マイクロフォン120
1を用いて入力され、アナログ電気信号に変換され、強
調音声アナログ電気信号は、スピーカー1202で、音
声に変換されて出力される。本実施例を発話障害者が用
いれば、発話を補償することも可能である。
FIG. 12 shows an embodiment in which the voice emphasizing device of the present invention is directly used. The voice is the microphone 120.
1 is input and converted into an analog electric signal, and the emphasized voice analog electric signal is converted into voice and output by the speaker 1202. If the speech impaired person uses this embodiment, it is possible to compensate the speech.

【0060】図13に、本発明である音声強調装置をア
ナログ回線用電話機に応用した例を示す。伝送路130
1を通ってアナログ電話機1302に入力した音声は、
音声強調装置で強調された後、ハンドセット1303の
スピーカー1304から出力される。受話者の発話はハ
ンドセット1303のマイクロフォン1305から入力
され、直接アナログ電話機に送信される。
FIG. 13 shows an example in which the voice emphasizing device of the present invention is applied to an analog line telephone. Transmission line 130
The voice input to the analog telephone 1302 through 1 is
After being emphasized by the voice emphasizing device, the sound is output from the speaker 1304 of the handset 1303. The utterance of the listener is input from the microphone 1305 of the handset 1303 and directly transmitted to the analog telephone.

【0061】図14に本発明である音声強調装置をディ
ジタル回線用電話機に応用した例を示す。本実施例で
は、入力音声が、すでにディジタル信号であるため、A
/D変換処理を省略することが可能である。
FIG. 14 shows an example in which the voice emphasizing device of the present invention is applied to a telephone for digital lines. In this embodiment, since the input voice is already a digital signal, A
The / D conversion process can be omitted.

【0062】図15は、本発明である音声強調装置をテ
レビジョン、ラジオ等の送信機の前処理部として用いた
場合の実施例である。
FIG. 15 shows an embodiment in which the voice emphasizing device according to the present invention is used as a preprocessing unit of a transmitter such as a television or a radio.

【0063】図16は、本発明である音声強調装置をテ
レビジョン、ラジオ等の受信機の後処理部として用いた
場合の実施例である。
FIG. 16 shows an embodiment in which the voice emphasizing device of the present invention is used as a post-processing unit of a receiver such as a television or a radio.

【0064】図17は、本発明である音声強調装置の時
間変化量の強調量を、外部より調節可能とする構成例で
ある。強調量は、調節つまみ1701を用いて強調量コ
ントローラ1702において調節される。
FIG. 17 shows an example of a configuration in which the emphasis amount of the time change amount of the voice emphasizing device according to the present invention can be adjusted from the outside. The emphasis amount is adjusted in the emphasis amount controller 1702 using the adjustment knob 1701.

【0065】図18は、調節つまみを音響的特徴量ごと
に複数個有する音声強調装置の構成例である。強調され
る複数の音響的特徴量の強調量は、調節つまみ1801
を用いて特徴量ごとに強調量コントローラ1802で調
節される。
FIG. 18 shows an example of the configuration of a voice emphasizing device having a plurality of adjustment knobs for each acoustic feature amount. The amount of emphasis of the plurality of acoustic feature values to be emphasized is adjusted by the adjustment knob 1801.
Is adjusted by the emphasis amount controller 1802 for each feature amount.

【0066】図19は、発話速度変換部および時間変化
強調部を有する音声変換装置の構成例である。本構成例
では、発話速度変換部が前段に、時間変化強調部が後段
に構成されているが、逆に、時間変化強調部を前段に、
発話速度変換部を後段に構成することも可能である。
FIG. 19 shows an example of the configuration of a voice conversion device having a speech rate conversion unit and a time change emphasis unit. In this configuration example, the speech speed conversion unit is arranged in the front stage and the time change emphasis unit is arranged in the rear stage, but conversely, the time change emphasis unit is arranged in the front stage.
It is also possible to configure the speech rate conversion unit in the subsequent stage.

【0067】図20は、周波数特性変更部および時間変
化強調部を有する音声変換装置の構成例である。本構成
例では、周波数特性変更部が前段に、時間変化強調部が
後段に構成されているが、逆に、時間変化強調部を前段
に、周波数特性変更部を後段に構成することも可能であ
る。なお、周波数特性の変更は、例えば、「聴覚補償装
置」(特願平4-254355)記載の方法を用いて周囲環境や
受聴者の聴力に合わせて行うことができる。
FIG. 20 shows an example of the configuration of a voice conversion device having a frequency characteristic changing section and a time change emphasizing section. In this configuration example, the frequency characteristic changing unit is arranged in the front stage and the time change emphasizing unit is arranged in the rear stage, but it is also possible to conversely configure the time change emphasizing unit in the front stage and the frequency characteristic changing unit in the rear stage. is there. Note that the frequency characteristic can be changed, for example, by using the method described in "Hearing compensation device" (Japanese Patent Application No. 4-254355) in accordance with the surrounding environment and the hearing ability of the listener.

【0068】図21は、周波数特性変更部および時間変
化強調部および発話速度変換部を有する音声変換装置の
構成例である。本構成例では、周波数特性変更部、時間
変化強調部、発話速度変換部の順に構成されているが、
強調の順序を変更することも可能である。
FIG. 21 shows an example of the configuration of a voice conversion device having a frequency characteristic changing section, a time change emphasizing section, and a speech rate converting section. In this configuration example, the frequency characteristic changing unit, the time change emphasizing unit, and the speech speed converting unit are configured in this order.
It is also possible to change the order of emphasis.

【0069】なお、図19および図21に示した構成例
において、発話速度の変換倍率と、時間変化強調部にお
ける時間変化量の強調倍率を等しくすれば、原音の時間
変化を保存したまま発話速度を変換することが可能とな
る。
In the configuration examples shown in FIGS. 19 and 21, if the conversion rate of the utterance speed is made equal to the emphasis rate of the time change amount in the time change emphasis section, the utterance speed is kept while the time change of the original sound is preserved. Can be converted.

【0070】一般に、調音器官の変化パターンは臨界制
動2次系で表すことができるといわれている。従って、
調音器官の変動に基づく音響的特徴量の時間変化パター
ンも、臨界制動2次系のモデルで近似することが可能で
あると考えられる。そこで、音響的特徴量の時間変化を
臨界制動2次系モデルを用いて近似し、該モデルの時間
変化をもって音響的特徴量の時間変化とすることによっ
て音響的特徴量の時間変化を変更することが可能であ
る。本方法を実現するために、本発明である音声強調装
置の特徴量変化量計算部に、特徴量の時間変化極大点、
および極小点を逐次検出する極大点検出部および極小点
検出部および臨界制動2次系モデル推定部を設けるもの
とする。
Generally, it is said that the change pattern of the articulatory organ can be expressed by a critical damping secondary system. Therefore,
It is considered that the temporal change pattern of the acoustic feature amount based on the change of the articulatory organ can also be approximated by the model of the secondary system of critical braking. Therefore, the time change of the acoustic feature quantity is changed by approximating the time change of the acoustic feature quantity by using a critical braking quadratic system model, and setting the time change of the model as the time change of the acoustic feature quantity. Is possible. In order to realize this method, the feature amount change amount calculation unit of the speech enhancement apparatus according to the present invention includes a feature amount time change maximum point,
Also, a maximum point detection unit, a minimum point detection unit, and a critical braking secondary system model estimation unit that sequentially detect the minimum points are provided.

【0071】図22は、臨界制動2次系モデルを用いて
特徴量の時間変化を変更する時間変化量変更部の構成例
である。図において、2201は時間変化量変更部を表
す。時間変化極大点検出部2203は、音響的特徴量の
時間変化量2202の時系列より極大点を検出し、極大
点検出信号2204を出力する。時間変化極小点検出部
2205は、音響的特徴量の時間変化量2202の時系
列より極小点を検出し、極小点検出信号2206を出力
する。モデル推定部2207は、極大点より後方数十ミ
リ秒の短区間の時系列を用いて界制動2次系モデルのパ
ラメータを推定し、該モデルを該極大点より後方に隣接
する極小値まで外挿し、また、極大点より前方数十ミリ
秒の短区間の時系列を用いて界制動2次系モデルのパラ
メータを推定し、該モデルを該極大点より前方に隣接す
る極小値まで外挿することによって特徴量の変更後時間
変化量2208を決定する。強調係数決定部2209
は、変更後時間変化量2208と、原音声の特徴量の時
間変化量の差をとることにより、強調係数2210を計
算する。時間変化量変更部2211は、該強調係数22
10を用いて時間変化量2202を変更し、変更後時間
変化量2212とする。
FIG. 22 shows an example of the configuration of a time change amount changing unit for changing the time change of the characteristic amount using the critical braking secondary system model. In the figure, 2201 represents a time change amount changing unit. The time change maximum point detection unit 2203 detects a maximum point from the time series of the time change amount 2202 of the acoustic feature amount, and outputs a maximum point detection signal 2204. The time change minimum point detection unit 2205 detects a minimum point from the time series of the time change amount 2202 of the acoustic feature amount, and outputs a minimum point detection signal 2206. The model estimating unit 2207 estimates the parameters of the field braking quadratic system model using a time series of a short section of several tens of milliseconds behind the maximum point, and removes the model up to a minimum value adjacent to the maximum point behind the maximum point. Also, the parameters of the field braking quadratic system model are estimated using a time series of a short section of several tens of milliseconds ahead of the maximum point, and the model is extrapolated to a minimum value adjacent in front of the maximum point. By doing so, the time change amount 2208 after the change of the feature amount is determined. Enhancement coefficient determination unit 2209
Calculates the emphasis coefficient 2210 by taking the difference between the changed time change amount 2208 and the time change amount of the feature amount of the original voice. The time change amount changing unit 2211 is configured to change the emphasis coefficient 22.
10 is used to change the time change amount 2202 to be the changed time change amount 2212.

【0072】図23は、音響的特徴量の時間変化を、該
時間変化極大点の近傍の音響的特徴量の時間系列を臨界
制動2次系モデルで近似し、該モデルを外挿することに
よって変更した場合の概念図である。ここで、230
1、2303は特徴量の時間変化極小点、2302、2
304は特徴量の時間変化極小点を表す。今、極大点2
302に注目すれば、2302より前方に隣接する極小
点2303まで、2302より前方数十ミリ秒から推定
した臨界制動2次系モデルを外挿し、変更後特徴量とす
る。また、2302より後方に隣接する極小点2301
まで、2302より後方数十ミリ秒から推定した臨界制
動2次系モデルを外挿し、変更後特徴量とする。これに
より、特徴量の時間変化は、臨界制動2次系モデルを用
いて変更される。なお、短区間の特徴量時系列から臨界
制動2次系モデルのパラメータを推定する方法は、例え
ば、"Spectrum target prediction model and its appl
ication to speech recognition" (Akagi、 Tohkura、
Computer Speech and Language (1990) 4、 325-344)に
記載されている。
FIG. 23 shows the time variation of the acoustic feature quantity by approximating the time series of the acoustic feature quantity in the vicinity of the time change maximum point by a critical damping quadratic system model and extrapolating the model. It is a conceptual diagram when it changes. Where 230
1, 2303 are local minimum points 2302, 2
Reference numeral 304 represents a local minimum change point of the feature amount. Now the maximum point 2
Focusing on 302, the critical braking quadratic system model estimated from several tens of milliseconds ahead of 2302 is extrapolated up to the minimum point 2303 adjacent to the front of 2302, and is set as the changed feature amount. Further, the minimum point 2301 adjacent to the rear of 2302
Up to 2302, a critical braking secondary system model estimated from several tens of milliseconds behind is extrapolated to obtain the changed feature amount. As a result, the change over time in the feature quantity is changed using the critical braking quadratic system model. A method of estimating the parameters of the critical braking secondary system model from the feature time series of the short section is described in, for example, "Spectrum target prediction model and its appl.
ication to speech recognition "(Akagi, Tohkura,
Computer Speech and Language (1990) 4, 325-344).

【0073】図24は、動画の対象部分に合わせた音声
付与方法を表した概念図である。動画の出演者等の対象
に対し、吹き替えやアテレコ等で、別に録音した音声を
対応付ける場合、通常は動画を見ながら音声を吹き込ん
だり、対象時間を指定して該対象時間に納まるように発
声を調整する。本実施例では、本発明にかかる音声変換
方法を用いて、動画とは別に録音した音声の発話速度を
変更して動画の出現部分に対応付ける。図において、例
えば動画中のある対象の出現部分1の持続時間をT1、
該出現部分1に対応付けて付与する目的で予め録音され
た音声1の持続時間をT1’としたとき、本発明にかか
る音声変換装置を用いて付与音声1の持続時間T1’を
出現部分1の持続時間T1に変換することによって対象
の出現部分1に対応付けて付与音声1を付与することが
可能となる。
FIG. 24 is a conceptual diagram showing a voice adding method adapted to a target portion of a moving image. When associating voices recorded separately by dubbing or ateleco, etc., with the target such as the performer of the video, usually the voice is blown while watching the video, or the utterance is made so that the target time is specified and the target time is reached. adjust. In the present embodiment, the voice conversion method according to the present invention is used to change the utterance speed of the voice recorded separately from the moving image and associate it with the appearance portion of the moving image. In the figure, for example, the duration of the appearance part 1 of a certain object in the moving image is T1,
Assuming that the duration of the voice 1 recorded in advance for the purpose of assigning it in association with the appearance portion 1 is T1 ′, the duration T1 ′ of the addition voice 1 is calculated using the voice conversion device according to the present invention. By converting the duration T1 into the duration T1, it is possible to attach the added voice 1 in association with the appearance portion 1 of the target.

【0074】[0074]

【発明の効果】音声波形から音声の音響的特徴量を計算
する特徴量計算部と、該音響的特徴量の単位時間あたり
の時間変化量を計算する特徴量変化量計算部と、該時間
変化量を変更する時間変化量変更部と、該変更後時間変
化量を用いて該音響的特徴量を変更する音響的特徴量変
更部と、該変更後音響的特徴量から音声波形を再構築す
る波形再構築部を設けたことにより、音声の時間変化を
変更することが可能になった。
EFFECTS OF THE INVENTION A feature amount calculation unit for calculating an acoustic feature amount of a voice from a voice waveform, a feature amount change amount calculation unit for calculating a time change amount of the acoustic feature amount per unit time, and the time change. Amount change unit for changing the amount, an acoustic feature amount change unit for changing the acoustic feature amount using the changed time change amount, and a voice waveform reconstructed from the changed acoustic feature amount By providing the waveform reconstructing unit, it became possible to change the time change of the voice.

【0075】また、音声の音響的特徴量の中で、時間的
な特性の変化が顕著であるために音質に寄与する割合が
比較的大きい基本周波数、パワー、および周波数スペク
トルを用い、その時間変化を同時にまたは単独であるい
は組み合せて変更する手段を設けたことにより、音声の
時間変化を効果的に変更することが可能になった。
Further, among the acoustic feature quantities of the voice, the fundamental frequency, power, and frequency spectrum, which have a relatively large contribution to the sound quality due to the remarkable temporal characteristic change, are used and the temporal change thereof is used. By providing a means for changing the voices simultaneously, alone or in combination, it becomes possible to effectively change the time change of the voice.

【0076】音響的特徴量変更部が、対象時間区間より
単位時間前の音響的特徴量に、時間変化量変更部におい
て変更された単位時間あたりの音響的特徴量の時間変化
量を加えた結果を対象時間区間の音響的特徴量とするこ
とによって、対象時間区間の音響的特徴量を変更する手
段を設けたことにより、音声の音響的特徴の時間変化を
変更することが可能になった。
The result of the acoustic feature quantity changing unit adding the time change amount of the acoustic feature quantity per unit time changed by the time change amount changing unit to the acoustic feature quantity unit time before the target time section. By providing a means for changing the acoustic feature amount of the target time section by setting the above as the acoustic feature amount of the target time section, it is possible to change the temporal change of the acoustic feature of the voice.

【0077】該単位時間前の音響的特徴量として、それ
より単位時間前に音響的特徴量変更部によって変更した
音響的特徴量を用いたことにより、音声の時間変化の変
更を累積することが可能になった。
As the acoustic feature amount before the unit time, the acoustic feature amount changed by the acoustic feature amount changing unit before the unit time is used, and thus the change in the time change of the voice can be accumulated. It became possible.

【0078】発話速度を変更する発話速度変換部および
時間変化を変更する音声強調部を設けたことにより、発
話速度および時間変化を同時に変更することが可能にな
った。
By providing the speech speed conversion unit for changing the speech speed and the voice emphasizing unit for changing the time change, it becomes possible to change the speech speed and the time change at the same time.

【0079】周波数特性を変更する周波数特性変更部お
よび時間変化を強調する音声強調部を設けたことによ
り、周波数特性および時間変化を同時に変更することが
可能になった。
By providing the frequency characteristic changing unit for changing the frequency characteristic and the voice emphasizing unit for emphasizing the time change, it becomes possible to change the frequency characteristic and the time change at the same time.

【0080】発話速度を変更する発話速度変換部および
周波数特性を変更する周波数特性変更部および時間変化
を強調する音声強調部を設けたことにより、発話速度お
よび周波数特性および時間変化を同時に変更することが
可能になった。
By changing the utterance speed conversion unit for changing the utterance speed, the frequency characteristic changing unit for changing the frequency characteristic, and the voice emphasizing unit for emphasizing the time change, it is possible to change the utterance speed, the frequency characteristic, and the time change at the same time. Became possible.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明である音声強調装置の1実施例を説明す
るブロック図である。
FIG. 1 is a block diagram illustrating an embodiment of a voice emphasizing device according to the present invention.

【図2】特徴量の時間変化強調処理方法を表す概念図で
ある。
FIG. 2 is a conceptual diagram showing a method of time-varying emphasis processing of a feature amount.

【図3】時間変化強調概念図である。FIG. 3 is a conceptual diagram of time change emphasis.

【図4】時間変化極大値検出部を有する時間変化量変更
部の構成例である。
FIG. 4 is a configuration example of a time change amount changing unit having a time change maximum value detecting unit.

【図5】時間変化極小値検出部を有する時間変化量変更
部の構成例である。
FIG. 5 is a configuration example of a time change amount changing unit having a time change minimum value detecting unit.

【図6】時間変化量絶対値判定部を有する時間変化量変
更部の構成例である。
FIG. 6 is a configuration example of a time change amount changing unit having a time change amount absolute value determination unit.

【図7】時間変化が大きいほど強調を大きくした場合の
音声強調概念図である。
FIG. 7 is a conceptual diagram of voice emphasis when the emphasis is increased as the time change is large.

【図8】時間変化が小さいほど強調を大きくした場合の
音声強調概念図
FIG. 8 is a conceptual diagram of voice enhancement when the enhancement is increased as the time change is smaller.

【図9】パワー判定部を有する音声強調装置の構成例で
ある。
FIG. 9 is a configuration example of a voice enhancement device having a power determination unit.

【図10】本発明を用いて時間変化を強調した音声の例
である。
FIG. 10 is an example of a voice emphasizing a temporal change using the present invention.

【図11】音声強調装置の構成例である。FIG. 11 is a configuration example of a voice enhancement device.

【図12】音声強調装置を直接用いた実施例である。FIG. 12 shows an example in which a voice emphasizing device is directly used.

【図13】音声強調装置をアナロブ回線用の電話機に応
用した例である。
FIG. 13 is an example in which the voice emphasizing device is applied to a telephone for an analog line.

【図14】音声強調装置をディジタル回線用の電話機に
応用した例である。
FIG. 14 is an example in which the voice emphasizing device is applied to a telephone for a digital line.

【図15】音声強調装置を送信機の前処理部として用い
た場合の実施例である。
FIG. 15 shows an example in which the voice enhancement device is used as a pre-processing unit of a transmitter.

【図16】音声強調装置を受信機の後処理部として用い
た場合の実施例である。
FIG. 16 shows an example in which the voice enhancement device is used as a post-processing unit of a receiver.

【図17】強調量可変の音声強調装置の構成例である。FIG. 17 is a configuration example of a voice enhancement device with variable enhancement amount.

【図18】複数の調節つまみを有する強調量可変の音声
強調装置の構成例である。
FIG. 18 is a configuration example of a voice enhancement device having a variable amount of enhancement having a plurality of adjustment knobs.

【図19】発話速度変換部および時間変化強調部を有す
る音声変換装置の構成例である。
FIG. 19 is a configuration example of a voice conversion device having a speech rate conversion unit and a time change emphasis unit.

【図20】周波数特性変更部および時間変化強調部を有
する音声変換装置の構成例である。
FIG. 20 is a configuration example of a voice conversion device having a frequency characteristic changing unit and a time change emphasizing unit.

【図21】周波数特性変更部および時間変化強調部およ
び発話速度変換部を有する音声変換装置の構成例であ
る。
FIG. 21 is a configuration example of a voice conversion device having a frequency characteristic changing unit, a time change emphasizing unit, and a speech rate converting unit.

【図22】臨界制動2次系モデルを用いた時間変化量変
更部である。
FIG. 22 is a time change amount changing unit using a critical braking secondary system model.

【図23】臨界制動2次系モデルを用いた時間変化強調
概念図である。
FIG. 23 is a conceptual diagram of temporal change emphasis using a critical braking secondary system model.

【図24】動画の対象部分に合わせた音声付与方法の概
念図である。
[Fig. 24] Fig. 24 is a conceptual diagram of a sound adding method adapted to a target portion of a moving image.

【符号の説明】[Explanation of symbols]

101…マイクロフォン、102…電気信号、104…
ディジタル波形信号、106…フレーム波形信号、10
8…フレーム平均パワー、110…フレーム平均パワー
の単位時間あたりの変化量、112…強調後フレーム平
均パワー、114…基本周波数、116…基本周波数の
単位時間あたりの変化量、118…周波数スペクトル、
120…正規化周波数スペクトル、122…スペクトル
包絡、124…スペクトル包絡の単位時間あたりの変化
量、126…スペクトル変化強調後正規化スペクトル、
128…基本周波数変化強調後正規化スペクトル、13
0…フレーム波形信号、132…パワー変化強調後フレ
ーム波形信号、134…連続波形、136…アナログ電
気信号、137…スピーカー、401…時間変化量変更
部、402…音響的特徴量の時間変化量、405…前フ
レームの時間変化量、406…現在の分析フレームと前
フレームの時間変化量の差、408…極大値判定結果、
410…強調係数、412…変更後時間変化量、501
…時間変化量変更部、502…音響的特徴量の時間変化
量、505…前フレームの時間変化量、506…現在の
分析フレームと前フレームの時間変化量の差、508…
極小値判定結果判定結果、510…強調係数、512…
変更後時間変化量、601…時間変化量変更部、602
…音響的特徴量の時間変化量、604…音響的特徴量の
時間変化量の絶対値、608…強調係数、610…変更
後時間変化量、901…マイクロフォン、902…電気
信号、904…ディジタル波形信号、906…フレーム
波形信号、908…フレーム平均パワー、910…スペ
クトルおよび基本周波数強調指令、912…強調後フレ
ーム波形信号、914…連続波形、916…アナログ電
気信号、917…スピーカー、1101…入力音声のア
ナログ電気信号、1102…アンプ、1110…アン
プ、1111…強調後音声アナログ電気信号、1201
…マイクロフォン、1202…スピーカー、1301…
伝送路、1303…ハンドセット、1304…スピーカ
ー、1305…マイクロフォン、1701…調節つま
み、1801…調節つまみ、2201…時間変化量変更
部、2202音響的特徴量の時間変化量、2204…極
大点検出信号、2206…極小点検出信号、2208…
特徴量の変更後時間変化量、2210…強調係数、22
12…変更後時間変化量、2301、2303…特徴量
の時間変化極小点、2302、2304…特徴量の時間
変化極小点。
101 ... Microphone, 102 ... Electric signal, 104 ...
Digital waveform signal, 106 ... Frame waveform signal, 10
8 ... Frame average power, 110 ... Change amount of frame average power per unit time, 112 ... Frame average power after enhancement, 114 ... Basic frequency, 116 ... Change amount of basic frequency per unit time, 118 ... Frequency spectrum,
120 ... Normalized frequency spectrum, 122 ... Spectrum envelope, 124 ... Change amount of spectrum envelope per unit time, 126 ... Normalized spectrum after emphasis of spectrum change,
128 ... Normalized spectrum after enhancement of fundamental frequency, 13
0 ... Frame waveform signal, 132 ... Frame waveform signal after power change enhancement, 134 ... Continuous waveform, 136 ... Analog electric signal, 137 ... Speaker, 401 ... Time change amount changing unit, 402 ... Time change amount of acoustic feature amount, 405 ... Time change amount of previous frame, 406 ... Difference between time change amount of current analysis frame and previous frame, 408 ... Maximum value determination result,
410 ... emphasis coefficient, 412 ... post-change time change amount, 501
... Time change amount changing unit, 502 ... Time change amount of acoustic feature amount, 505 ... Time change amount of previous frame, 506 ... Difference between time change amount of current analysis frame and previous frame, 508 ...
Minimum value determination result Determination result 510 ... enhancement coefficient 512 ...
Time change amount after change, 601 ... Time change amount change unit, 602
... time change amount of acoustic feature amount, 604 ... absolute value of time change amount of acoustic feature amount, 608 ... enhancement coefficient, 610 ... changed time change amount, 901 ... microphone, 902 ... electrical signal, 904 ... digital waveform Signal, 906 ... Frame waveform signal, 908 ... Frame average power, 910 ... Spectrum and fundamental frequency enhancement command, 912 ... Frame waveform signal after enhancement, 914 ... Continuous waveform, 916 ... Analog electric signal, 917 ... Speaker, 1101 ... Input voice Analog electrical signal 1102 ... Amplifier, 1110 ... Amplifier, 1111 ... Voice analog electrical signal after emphasis, 1201
… Microphone, 1202… Speaker, 1301…
Transmission line 1303 ... Handset, 1304 ... Speaker, 1305 ... Microphone, 1701 ... Adjustment knob, 1801 ... Adjustment knob, 2201 ... Time change amount change unit, 2202 Acoustic feature amount time change amount, 2204 ... Maximum point detection signal, 2206 ... Minimum point detection signal, 2208 ...
Amount of time change after change of feature amount 2210 ... Enhancement coefficient, 22
12 ... Amount of time change after change 2301, 2303 ... Minimum point of time change of feature amount 2302, 2304 ... Minimum point of time change of feature amount.

Claims (36)

【特許請求の範囲】[Claims] 【請求項1】少なくとも音声を入力する手段と、音声を
分析して加工する手段と、音声を再生して出力する手段
を有する音響処理装置において、音声波形から音声の音
響的特徴量を計算する特徴量計算部と、該音響的特徴量
の単位時間あたりの時間変化量を計算する特徴量変化量
計算部と、該時間変化量を変更する時間変化量変更部
と、該変更後時間変化量を用いて該音響的特徴量を変更
する音響的特徴量変更部と、該変更後音響的特徴量から
音声波形を再構築する波形再構築部を有することを特徴
とする音声強調方法およびこれを用いた装置。
1. An acoustic processing device having at least a means for inputting a voice, a means for analyzing and processing the voice, and a means for reproducing and outputting the voice, and calculating an acoustic feature amount of the voice from a voice waveform. A feature amount calculation unit, a feature amount change amount calculation unit that calculates the time change amount of the acoustic feature amount per unit time, a time change amount change unit that changes the time change amount, and the changed time change amount. And a waveform reconstructing unit for reconstructing a speech waveform from the post-modification acoustic feature amount. The equipment used.
【請求項2】請求項1記載の音声強調方法およびこれを
用いた装置において、音響的特徴量が基本周波数および
またはパワーおよびまたは短時間区間周波数スペクトル
であることを特徴とする音声強調方法およびこれを用い
た装置。
2. A speech enhancement method according to claim 1, and a device using the same, wherein the acoustic feature quantity is a fundamental frequency and / or power and / or a short-term frequency spectrum, and the speech enhancement method. Equipment using.
【請求項3】請求項2記載の音声強調方法およびこれを
用いた装置において、周波数スペクトルを平均パワーで
正規化することを特徴とする音声強調方法およびこれを
用いた装置。
3. The speech enhancement method according to claim 2 and the apparatus using the same, wherein the speech enhancement method and the apparatus using the same are characterized by normalizing a frequency spectrum with an average power.
【請求項4】請求項2記載の音声強調方法およびこれを
用いた装置において、周波数スペクトルを周波数レベル
最大値で正規化することを特徴とする音声強調方法およ
びこれを用いた装置。
4. A speech enhancement method according to claim 2 and a device using the same, wherein a speech spectrum enhancement method and a device using the same are characterized by normalizing a frequency spectrum with a frequency level maximum value.
【請求項5】請求項2記載の音声強調方法およびこれを
用いた装置において、音響的特徴量変更部が、周波数ス
ペクトルの変更を、対数パワースペクトルの時間変化に
基づいて行うことを特徴とする音声強調方法およびこれ
を用いた装置。
5. The speech enhancement method according to claim 2 and the apparatus using the same, wherein the acoustic feature quantity changing unit changes the frequency spectrum based on a time change of the logarithmic power spectrum. Speech enhancement method and apparatus using the same.
【請求項6】請求項2記載の音声強調方法およびこれを
用いた装置において、音響的特徴量変更部が、周波数ス
ペクトルの変更を、ケプストラム包絡の時間変化に基づ
いて行うことを特徴とする音声強調方法およびこれを用
いた装置。
6. The voice emphasizing method according to claim 2 and a device using the same, wherein the acoustic feature amount changing unit changes the frequency spectrum based on a time change of the cepstrum envelope. Emphasizing method and apparatus using the same.
【請求項7】請求項2記載の音声強調方法およびこれを
用いた装置において、音響的特徴量変更部が、周波数ス
ペクトルの変更を、バークスペクトルの時間変化に基づ
いて行うことを特徴とする音声強調方法およびこれを用
いた装置。
7. The voice enhancement method according to claim 2 and a device using the same, wherein the acoustic feature quantity changing unit changes the frequency spectrum based on a temporal change of the Bark spectrum. Emphasizing method and apparatus using the same.
【請求項8】請求項2記載の音声強調方法およびこれを
用いた装置において、音響的特徴量変更部が、周波数ス
ペクトルの変更を、メルスペクトルの時間変化に基づい
て行うことを特徴とする音声強調方法およびこれを用い
た装置。
8. The voice enhancement method according to claim 2 and a device using the same, wherein the acoustic feature quantity changing unit changes the frequency spectrum based on a temporal change of the mel spectrum. Emphasizing method and apparatus using the same.
【請求項9】請求項2記載の音声強調方法およびこれを
用いた装置において、音響的特徴量変更部が、周波数ス
ペクトルの位相を変更しないことを特徴とする音声強調
方法およびこれを用いた装置。
9. The speech enhancement method according to claim 2, and the apparatus using the same, wherein the acoustic feature quantity changing unit does not change the phase of the frequency spectrum and the apparatus using the speech enhancement method. .
【請求項10】音響的特徴量変更部が、対象時間区間よ
り単位時間前の音響的特徴量に、時間変化量変更部にお
いて変更された単位時間あたりの音響的特徴量の時間変
化量を加えた結果を対象時間区間の音響的特徴量とする
ことによって、対象時間区間の音響的特徴量を変更する
ことを特徴とする請求項1記載の音声強調方法およびこ
れを用いた装置。
10. The acoustic feature amount changing unit adds the time change amount of the acoustic feature amount per unit time changed in the time change amount changing unit to the acoustic feature amount unit time before the target time section. The audio enhancement method according to claim 1, wherein the acoustic feature quantity of the target time section is changed by setting the result as the acoustic feature quantity of the target time section.
【請求項11】請求項10記載の音響的特徴量変更部に
おいて、該単位時間前の音響的特徴量として、それより
単位時間前に請求項8記載の音響的特徴量変更部によっ
て変更した音響的特徴量を用いることを特徴とする請求
項1記載の音声強調方法およびこれを用いた装置。
11. The acoustic feature quantity changing unit according to claim 10, wherein the acoustic feature quantity before the unit time is changed by the acoustic feature quantity changing unit according to claim 8 before the unit time. The speech enhancement method according to claim 1, and a device using the speech enhancement method.
【請求項12】請求項10および11記載の音響的特徴
量変更部において、音響的特徴量の時間変化量の極大値
を計算する極大値計算部を有し、時間変化量が極大の場
合に音響的特徴量を変更しないことを特徴とする請求項
1記載の音声強調装置。
12. The acoustic feature amount changing unit according to claim 10 or 11, further comprising a maximum value calculating unit for calculating a maximum value of a time change amount of the acoustic feature amount, and when the time change amount is a maximum value. The voice enhancement device according to claim 1, wherein the acoustic feature amount is not changed.
【請求項13】請求項10および11記載の音響的特徴
量変更部において、音響的特徴量の時間変化量の極小値
を計算する極小値計算部を有し、時間変化量が極小の場
合に音響的特徴量を変更しないことを特徴とする請求項
1記載の音声強調装置。
13. The acoustic feature quantity changing unit according to claim 10 or 11, further comprising a local minimum value calculating unit for calculating a local minimum value of the temporal change quantity of the acoustic feature quantity, and when the temporal change quantity is a minimum value. The voice enhancement device according to claim 1, wherein the acoustic feature amount is not changed.
【請求項14】請求項10および11記載の音響的特徴
量変更部において、音響的特徴量の時間変化量の絶対値
を計算する絶対値計算部を有し、該絶対値が指定の値よ
り小さい場合に音響的特徴量を変更しないことを特徴と
する請求項1記載の音声強調装置。
14. The acoustic feature amount changing unit according to claim 10 or 11, further comprising an absolute value calculating unit for calculating an absolute value of a temporal change amount of the acoustic feature amount, wherein the absolute value is greater than a specified value. The voice enhancement device according to claim 1, wherein the acoustic feature amount is not changed when the voice feature amount is small.
【請求項15】時間変化量変更部が、音響的特徴量の単
位時間あたりの時間変化量に1より大きい係数を乗ずる
ことによって時間変化量を変更することを特徴とする請
求項1記載の音声強調方法およびこれを用いた装置。
15. The voice according to claim 1, wherein the time change amount changing unit changes the time change amount by multiplying the time change amount of the acoustic feature amount per unit time by a coefficient larger than 1. Emphasizing method and apparatus using the same.
【請求項16】時間変化量変更部が、音響的特徴量の単
位時間あたりの時間変化量に1より小さい正の係数を乗
ずることによって時間変化量を変更することを特徴とす
る請求項1記載の音声強調方法およびこれを用いた装
置。
16. The time change amount changing unit changes the time change amount by multiplying the time change amount of the acoustic feature amount per unit time by a positive coefficient smaller than 1. Speech enhancement method and apparatus using the same.
【請求項17】請求項15および16記載の時間変化量
変更部において、音響的特徴量の単位時間あたりの時間
変化量の絶対値を計算する絶対値計算部を有し、該絶対
値によって乗ずる系数値を変更することを特徴とする請
求項1記載の音声強調方法およびこれを用いた装置。
17. The time change amount changing unit according to claim 15 or 16, further comprising an absolute value calculating unit for calculating an absolute value of the time change amount of the acoustic feature amount per unit time, and multiplying by the absolute value. The voice enhancement method according to claim 1, wherein the system numerical value is changed, and an apparatus using the same.
【請求項18】請求項17記載の時間変化量変更部にお
いて、音響的特徴量の単位時間あたりの時間変化量の絶
対値が大きいほど乗ずる系数値を大きくすることを特徴
とする請求項1記載の音声強調方法およびこれを用いた
装置。
18. The time change amount changing unit according to claim 17, wherein the larger the absolute value of the time change amount of the acoustic feature value per unit time, the larger the system numerical value to be multiplied. Speech enhancement method and apparatus using the same.
【請求項19】請求項17記載の時間変化量変更部にお
いて、音響的特徴量の単位時間あたりの時間変化量の絶
対値が大きいほど乗ずる系数値を小さくすることを特徴
とする請求項1記載の音声強調方法およびこれを用いた
装置。
19. The time change amount changing unit according to claim 17, wherein the larger the absolute value of the time change amount of the acoustic feature amount per unit time, the smaller the system numerical value to be multiplied. Speech enhancement method and apparatus using the same.
【請求項20】請求項15および16記載の時間変化量
変更部において、音響的特徴量によって異なる系数値を
用いることを特徴とする請求項1記載の音声強調方法お
よびこれを用いた装置。
20. The voice enhancement method according to claim 1, and the apparatus using the same, wherein the time change amount changing unit according to any one of claims 15 and 16 uses different system numerical values depending on acoustic feature values.
【請求項21】パワーが予め定めた閾値より小さい場合
に音響的特徴量を変更しないことを特徴とする請求項1
記載の音声強調装置。
21. The acoustic feature quantity is not changed when the power is smaller than a predetermined threshold value.
The voice enhancement device described.
【請求項22】外部より調節可能な調節部を設けること
によって音声の音響的特徴量の時間変化量の変更を外部
より調節することを特徴とする音声強調装置。
22. A voice emphasizing device characterized by externally adjusting the change of the temporal change amount of the acoustic feature amount of the voice by providing an adjusting unit adjustable from the outside.
【請求項23】発話速度を変更する発話速度変換部およ
び請求項1記載の音声強調方法を用いて音声を強調する
音声強調部を有することを特徴とする音声変換方法およ
びこれを用いた装置。
23. A speech conversion method and a device using the same, comprising a speech rate conversion section for changing a speech rate and a speech enhancement section for enhancing speech by using the speech enhancement method according to claim 1.
【請求項24】周波数特性を変更する周波数特性変更部
および請求項1記載の音声強調方法を用いて音声を強調
する音声強調部を有することを特徴とする音声変換方法
およびこれを用いた装置。
24. A voice conversion method and a device using the same, comprising a frequency characteristic changing unit for changing frequency characteristics and a voice emphasizing unit for emphasizing voice by using the voice emphasizing method according to claim 1.
【請求項25】発話速度を変更する発話速度変換部およ
び周波数特性を変更する周波数特性変更部および請求項
1記載の音声強調方法を用いて音声を強調する音声強調
部を有することを特徴とする音声変換方法およびこれを
用いた装置。
25. A speech rate conversion section for changing a speech rate, a frequency characteristic changing section for changing frequency characteristics, and a voice emphasizing section for emphasizing a voice by using the voice emphasizing method according to claim 1. Speech conversion method and device using the same.
【請求項26】発話速度変換部における発話速度の変換
倍率と音声強調部における時間変化の強調倍率が等しい
ことを特徴とする請求項23および25記載の音声変換
方法およびこれを用いた装置。
26. The speech conversion method according to claim 23 or 25, and the apparatus using the same, wherein the conversion rate of the speech rate in the speech rate conversion section is equal to the enhancement rate of the temporal change in the speech enhancement section.
【請求項27】請求項1記載の音声強調方法または請求
項23〜25記載の音声変換方法を用いて、画像の全体
または特定の部位に対応付けて発声された音声を強調す
ることを特徴とする音声登録装置。
27. A voice enhancement method according to claim 1 or a voice conversion method according to any one of claims 23 to 25 is used to enhance a voice uttered in association with an entire image or a specific part. Voice registration device.
【請求項28】請求項1記載の音声強調方法または請求
項23〜25記載の音声変換方法を用いて、予め動画像
の動きに対応付けて発声された音声を強調することを特
徴とする音声登録装置。
28. A voice characterized by using the voice enhancement method according to claim 1 or the voice conversion method according to any one of claims 23 to 25 to enhance a voice uttered in advance in association with a motion of a moving image. Registration device.
【請求項29】請求項28記載の音声登録装置におい
て、発話速度変換部が動画像の指定時間区間に対応付け
て発声された音声の発話速度を変更することを特徴とす
る音声登録装置。
29. The voice registration device according to claim 28, wherein the utterance speed conversion unit changes the utterance speed of the uttered voice in association with the designated time period of the moving image.
【請求項30】請求項1記載の音声強調方法または請求
項23〜25記載の音声変換方法を用いて音声を強調す
る音声強調部を有する発話障害補償装置。
30. A speech disorder compensating apparatus having a voice emphasizing unit for emphasizing a voice using the voice emphasizing method according to claim 1 or the voice converting method according to any one of claims 23 to 25.
【請求項31】請求項1記載の音声強調方法または請求
項23〜25記載の音声変換方法を用いて音声を強調す
る音声強調部を有する聴覚障害補償装置。
31. A deafness compensating apparatus having a voice emphasizing unit for emphasizing a voice using the voice emphasizing method according to claim 1 or the voice converting method according to any one of claims 23 to 25.
【請求項32】請求項1記載の音声強調方法または請求
項23〜25記載の音声変換方法を用いて音声を強調す
る音声強調部を有する通信装置。
32. A communication device having a voice emphasizing unit for emphasizing a voice using the voice emphasizing method according to claim 1 or the voice converting method according to any one of claims 23 to 25.
【請求項33】請求項1記載の音声強調方法または請求
項23〜25記載の音声変換方法を用いて音声を強調す
る音声強調部を有する放送装置。
33. A broadcasting apparatus having a voice emphasizing unit for emphasizing a voice by using the voice emphasizing method according to claim 1 or the voice converting method according to any one of claims 23 to 25.
【請求項34】音響的特徴量の時間変化の極大点を検出
する極大点計算部と、音響的特徴量の時間変化の極小点
を検出する極小値計算部を有し、音響的特徴量変更部
が、該極大点近傍における音響的特徴量の時間変化を近
似する関数を計算し、該関数を外挿することにより該極
大点の前の音響的特徴量の時間変化の極小点から次の音
響的特徴量の時間変化の極小点までの音響的特徴量を変
更することを特徴とする請求項1記載の音声強調方法お
よびこれを用いた装置。
34. An acoustic feature quantity change section having a maximum point calculation section for detecting a maximum change point of the acoustic feature quantity over time and a minimum value calculation section for detecting a minimum point of the acoustic feature quantity over time. Calculates the function approximating the temporal change of the acoustic feature quantity in the vicinity of the local maximum point and extrapolates the function to calculate the following from the minimum point of the temporal change of the acoustic feature quantity before the local maximum point. 2. The speech enhancement method according to claim 1, wherein the acoustic feature up to the minimum point of the temporal change of the acoustic feature is changed, and a device using the method.
【請求項35】音響的特徴量の時間変化の極大点を検出
する極大点計算部と、音響的特徴量の時間変化の極小点
を検出する極小点計算部を有し、音響的特徴量変更部
が、該極大点より後の近傍における音響的特徴量の時間
変化を近似する関数を計算し、該関数を外挿することに
より該極大点から次の音響的特徴量の時間変化の極小点
までの音響的特徴量を変更し、また、該極大点より前の
近傍における音響的特徴量の時間変化を近似する関数を
計算し、該関数を外挿することにより該極大点から前の
音響的特徴量の時間変化の極小点までの音響的特徴量を
変更することを特徴とする請求項1記載の音声強調方法
およびこれを用いた装置。
35. An acoustic feature amount change section having a maximum point calculation unit for detecting a maximum change point of the acoustic feature amount over time and a minimum point calculation unit for detecting a minimum point of the acoustic feature amount over time. Part calculates a function approximating the temporal change of the acoustic feature quantity in the vicinity after the local maximum point, and extrapolates the function to obtain a local minimum point of the temporal change of the next acoustic feature quantity from the local maximum point. Up to the maximum point, and a function approximating the time change of the acoustic feature in the vicinity before the maximum point is calculated, and by extrapolating the function, the sound before the maximum point is calculated. The speech enhancement method according to claim 1, wherein the acoustic feature up to the minimum point of the temporal change of the dynamic feature is changed, and a device using the method.
【請求項36】音響的特徴量の時間変化を近似する関数
を、臨界制動2次系微分方程式を用いて計算することを
特徴とする請求項34および35記載の音声強調方法お
よびこれを用いた装置。
36. A speech emphasizing method according to claim 34 or 35, wherein a function approximating a time change of an acoustic feature is calculated by using a critical damping quadratic differential equation. apparatus.
JP6247503A 1994-10-13 1994-10-13 Voice emphasizing method and device Pending JPH08110796A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6247503A JPH08110796A (en) 1994-10-13 1994-10-13 Voice emphasizing method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6247503A JPH08110796A (en) 1994-10-13 1994-10-13 Voice emphasizing method and device

Publications (1)

Publication Number Publication Date
JPH08110796A true JPH08110796A (en) 1996-04-30

Family

ID=17164447

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6247503A Pending JPH08110796A (en) 1994-10-13 1994-10-13 Voice emphasizing method and device

Country Status (1)

Country Link
JP (1) JPH08110796A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006010907A (en) * 2004-06-24 2006-01-12 Yamaha Corp Device and program for imparting sound effect
JP2006505167A (en) * 2002-11-01 2006-02-09 シンクロ アーツ リミテッド Method and apparatus for use in sound replacement that automatically synchronizes with an image
JP2008191368A (en) * 2007-02-05 2008-08-21 Casio Comput Co Ltd Apparatus and method for constructing speech synthesis dictionary, and program
JP2009048003A (en) * 2007-08-21 2009-03-05 Toshiba Corp Voice translation device and method
JP2015219285A (en) * 2014-05-14 2015-12-07 沖電気工業株式会社 Speech enhancement device, program, and speech decryption device, program
JP2019133685A (en) * 2013-09-06 2019-08-08 イマージョン コーポレーションImmersion Corporation Systems and methods for generating haptic effects associated with transitions in audio signals

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006505167A (en) * 2002-11-01 2006-02-09 シンクロ アーツ リミテッド Method and apparatus for use in sound replacement that automatically synchronizes with an image
JP2006010907A (en) * 2004-06-24 2006-01-12 Yamaha Corp Device and program for imparting sound effect
JP4654615B2 (en) * 2004-06-24 2011-03-23 ヤマハ株式会社 Voice effect imparting device and voice effect imparting program
JP2008191368A (en) * 2007-02-05 2008-08-21 Casio Comput Co Ltd Apparatus and method for constructing speech synthesis dictionary, and program
JP2009048003A (en) * 2007-08-21 2009-03-05 Toshiba Corp Voice translation device and method
JP2019133685A (en) * 2013-09-06 2019-08-08 イマージョン コーポレーションImmersion Corporation Systems and methods for generating haptic effects associated with transitions in audio signals
JP2015219285A (en) * 2014-05-14 2015-12-07 沖電気工業株式会社 Speech enhancement device, program, and speech decryption device, program

Similar Documents

Publication Publication Date Title
US5828994A (en) Non-uniform time scale modification of recorded audio
JP4764995B2 (en) Improve the quality of acoustic signals including noise
EP1252621B1 (en) System and method for modifying speech signals
Iseli et al. Age, sex, and vowel dependencies of acoustic measures related to the voice source
Childers et al. Voice conversion: Factors responsible for quality
Kim et al. Nonlinear enhancement of onset for robust speech recognition.
Raitio et al. Analysis and synthesis of shouted speech
Nathwani et al. Speech intelligibility improvement in car noise environment by voice transformation
US20100217584A1 (en) Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
Pulakka et al. Bandwidth extension of telephone speech to low frequencies using sinusoidal synthesis and a Gaussian mixture model
US10176824B2 (en) Method and system for consonant-vowel ratio modification for improving speech perception
US20050246170A1 (en) Audio signal processing apparatus and method
Ferreira Implantation of voicing on whispered speech using frequency-domain parametric modelling of source and filter information
Chennupati et al. Spectral and temporal manipulations of SFF envelopes for enhancement of speech intelligibility in noise
Ferreira et al. Impact of a shift-invariant harmonic phase model in fully parametric harmonic voice representation and time/frequency synthesis
Rahman et al. Amplitude variation of bone-conducted speech compared with air-conducted speech
Raitio et al. Vocal effort modeling in neural TTS for improving the intelligibility of synthetic speech in noise
JPH08110796A (en) Voice emphasizing method and device
JP2904279B2 (en) Voice synthesis method and apparatus
Babacan et al. Parametric representation for singing voice synthesis: A comparative evaluation
JPH10149198A (en) Noise reduction device
Acero Source-filter models for time-scale pitch-scale modification of speech
RU2589298C1 (en) Method of increasing legible and informative audio signals in the noise situation
Alku et al. On the linearity of the relationship between the sound pressure level and the negative peak amplitude of the differentiated glottal flow in vowel production
Sharma et al. Improvement of syllable based TTS system in assamese using prosody modification