JP2007219188A - Consonant processing device, speech information transmission device, and consonant processing method - Google Patents
Consonant processing device, speech information transmission device, and consonant processing method Download PDFInfo
- Publication number
- JP2007219188A JP2007219188A JP2006040187A JP2006040187A JP2007219188A JP 2007219188 A JP2007219188 A JP 2007219188A JP 2006040187 A JP2006040187 A JP 2006040187A JP 2006040187 A JP2006040187 A JP 2006040187A JP 2007219188 A JP2007219188 A JP 2007219188A
- Authority
- JP
- Japan
- Prior art keywords
- consonant
- amplification
- frame
- audio signal
- amplification target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、リアルタイムの音声情報伝達が行え、信号処理が簡単で、騒音の多い環境でも、高齢者や聴覚障害者でも子音または音節の端点が聞き取り易く、安価に製造できる子音加工装置と、これを搭載した音声情報伝達装置及び子音加工方法に関する。 The present invention provides a consonant processing device that can transmit audio information in real time, has simple signal processing, and is easy to hear the end points of consonants or syllables even in a noisy environment or an elderly person or a hearing impaired person, and can be manufactured at low cost. The present invention relates to a voice information transmission device and a consonant processing method.
聴力が低下した高齢者や聴覚障害者は、一般の人と比べてどうしても言葉を聞き取る力が低下する。このような高齢者や聴覚障害者にとって、飛行場等の構内放送や電車、バス内の案内放送、自動販売機やATMのガイド音声など、周囲に騒音の多い公共空間における各種音声の内容を正確に聞き取るのは難しい。中でも緊急時における避難誘導の音声は、内容が理解できないと大きな事故に繋がりかねない。 Elderly people with reduced hearing ability and hearing-impaired people are inevitably less able to hear words than ordinary people. For such elderly people and hearing-impaired persons, the contents of various voices in public spaces with a lot of noise, such as on-site broadcasts such as airfields, guidance broadcasts in trains, buses, vending machines and ATM guidance voices, are accurate. It is difficult to hear. In particular, the voice of evacuation guidance in an emergency can lead to a major accident if the contents are not understood.
このような言葉の聞き取り力が衰えた高齢者や聴覚障害者のために、受信機を携帯してもらって電波や赤外線などの通信媒体を介して、音声を送信するワイヤレス放送システムが開発されている。このようなシステムでは、発声者は騒音の少ない静かな場所で、口元近くに配置したマイクに向けて発声し、そのクリアな音声が通信媒体を介して直接使用者に送られる。従って、使用者はどんな騒音環境下においても、常にクリアな音声を聴取できる。 Wireless broadcasting systems have been developed that carry receivers and transmit sound via radio or infrared communication media for the elderly and hearing impaired people who have weakened their ability to hear such words. . In such a system, the speaker speaks to a microphone placed near the mouth in a quiet place with little noise, and the clear sound is sent directly to the user via the communication medium. Therefore, the user can always listen to clear sound in any noise environment.
また、補聴器などの聴覚補助機器では、周囲の騒音を抑制する騒音抑制機能(noise reduction)や、後述するような音声の中の子音のみを強調する子音強調機能(consonant enhancement)などを備えた機種が提案されている。とくに子音強調は、音声の子音の振幅が母音に比べて小さいために、高齢者や聴覚障害者が、子音部を聞き取ることが困難であるという事実に着目して開発された技術である。 In addition, hearing aids and other hearing aids are equipped with a noise reduction function that suppresses ambient noise, a consonant enhancement function that emphasizes only consonants in speech as described below, etc. Has been proposed. In particular, consonant emphasis is a technology developed by focusing on the fact that it is difficult for the elderly and the hearing impaired to hear the consonant part because the consonant amplitude of speech is smaller than that of vowels.
しかし、このような現象は聴力の低下に由来するものには限られない。聴力が低下していない人間でも、構内放送や案内放送などのアナウンス放送装置、携帯電話、その他の音声情報伝達装置は、騒音の多い環境下では騒音で音声が聞き取れなくなる。これに対して、出力の大きなスピーカやイヤホンを搭載して音量を大きくすればよいが、聴覚の許容限界を越えてしまう可能性がある上に、装置の大きさに限界があり、また、音の歪み等が大きくなる。 However, such a phenomenon is not limited to that resulting from a decrease in hearing. Even for humans whose hearing ability has not deteriorated, announcement broadcasting devices such as private broadcasting and guidance broadcasting, mobile phones, and other voice information transmission devices cannot hear sound due to noise in a noisy environment. On the other hand, it is only necessary to increase the volume by installing speakers or earphones with high output, but there is a possibility that the permissible limit of hearing may be exceeded, and there is a limit to the size of the device. Distortion etc. become large.
このため、音声を聞き取り易くする目的で音声強調の幾つかの手法が提案されるに至った。この音声強調というのは、音声の周波数スペクトルの所定帯域におけるスペクトル振幅を増幅し、聞く側からみて音声の明瞭度を向上させることであり、これは、所定の周波数帯域パワーを増幅すると共に、増幅帯域と異なる帯域のスペクトル振幅を減衰させることである。(特許文献1参照)。 For this reason, several methods of speech enhancement have been proposed for the purpose of making speech easy to hear. This voice enhancement is to amplify the spectrum amplitude in a predetermined band of the frequency spectrum of the voice and improve the intelligibility of the voice as seen from the listening side. This amplifies the predetermined frequency band power and amplifies it. It is to attenuate the spectrum amplitude of a band different from the band. (See Patent Document 1).
ここで、音声の発生するメカニズムについて説明すると、声帯が振動すると、声帯から唇までの声道で音声波が生成され、この声道で生成された音声波を唇及び舌等とを介して音声として放射する。すなわち、声帯が一定周期(ピッチ周期)の振動をすると、声道は、肺からの空気を喉等の形状(例えば太さ)で共振させて母音を生成する。このとき、喉等の形状を変化させることで「あ」、「い」、「う」等の母音に調音し、音声波として放射する。そして、唇及び舌等では、口内で破裂音や摩擦音、また、鼻音、その他の音を発生して子音とし、通常は子音と母音とが合わさって空間に放射されるものである。 Here, the mechanism of sound generation will be explained. When the vocal cords vibrate, a voice wave is generated in the vocal tract from the vocal cords to the lips, and the voice wave generated in the vocal tract is voiced through the lips and the tongue. Radiates as. That is, when the vocal cords vibrate at a constant cycle (pitch cycle), the vocal tract resonates air from the lungs with a shape (eg, thickness) such as a throat to generate vowels. At this time, by changing the shape of the throat or the like, the vowels such as “A”, “I”, “U” are tuned and radiated as voice waves. On the lips, tongue, and the like, plosive sounds, friction sounds, nasal sounds, and other sounds are generated in the mouth as consonants. Normally, consonants and vowels are combined and emitted into the space.
ところで、日本語はCV(Consonant-Vowel)型の言語であり、例えば日本語で「か」という発音は、「くっ」という子音(C)と「あ」という母音(V)とから構成され、子音と母音とが合わさって放射される。また、例えば英語はCVC(Consonant-Vowel- Consonant)型の言語でもあり、子音、母音、子音の順に配列されることが多いことが知られている。 By the way, Japanese is a CV (Consonant-Vowel) type language. For example, the pronunciation of “ka” in Japanese is composed of a consonant (C) “ku” and a vowel (V) “a”. Consonants and vowels are emitted together. For example, English is also a CVC (Consonant-Vowel-Consonant) type language, and it is known that consonants, vowels, and consonants are often arranged in this order.
従って、日本語の場合、「ん」「っ」を除いて他の行の発音は、このような子音(C)と母音(V)の組合せなどで発音され、言葉を発するときは、多くの場合各音において、まず唇及び舌等を使って声帯からの音が妨げられて子音が調音され、次いで、声帯からの音が妨げられることなく母音が強い音で発声されることになる。 Therefore, in the case of Japanese, the pronunciation of the other lines except “n” and “tsu” is pronounced with such a combination of consonant (C) and vowel (V). In each case, the sound from the vocal cords is first disturbed using the lips and tongue, etc., and the consonant is tuned, and then the vowel is uttered with a strong sound without disturbing the sound from the vocal cords.
このため、子音は母音に比べて音声の振幅が小さく、音声情報伝達装置の音声は周囲の環境等では雑音に紛れて聞こえなくなる。このため、例えば、音声を明瞭に聞き分けることが可能な補聴器等の音声情報伝達装置が提案された(特許文献2参照)。 For this reason, the consonant has a smaller voice amplitude than the vowel, and the voice of the voice information transmission device cannot be heard in the surrounding environment due to noise. For this reason, for example, a voice information transmission device such as a hearing aid that can clearly hear the voice has been proposed (see Patent Document 2).
特許文献2の音声情報伝達装置は、外部から音声が入力されるマイクロフォンと、入力された音声信号に基づいて子音明瞭化信号を生成する音声信号処理部と、搬送波信号を生成する搬送波信号発生部と、搬送波信号を子音明瞭化信号に基づいて振幅変調する振幅変調部と、振幅変調された出力信号に基づく機械的振動を伝達する振動子とから構成され、この音声信号処理部が、子音抽出部で音声信号に含まれる子音部を抽出すると共に、反復処理部で抽出された子音部子音部が複数回反復されて音声信号に付加して子音明瞭化信号を生成するものである。
The audio information transmission apparatus of
音声信号における子音部は、母音部との間にVOT(Voice Onset Time)が数十ms程度存在する。このVOTは、子音の破裂から声帯が振動するまでの時間であり、無音に近い状態である。したがって、子音部の立ち上がりや母音に比べて振幅は小さく、適当な基準値を設定し、振幅がこの基準値以下となる状態が所定時間(例えば、10ms程度)以上続く領域をVOTとして判別することにより、子音部の残余部分や母音部と区別して、子音部の終期を特定することができるというものである。 The consonant part in the audio signal has a VOT (Voice Onset Time) of about several tens of ms between the vowel part. This VOT is the time from the burst of a consonant until the vocal cords vibrate, and is in a state close to silence. Therefore, the amplitude is smaller than the rise of the consonant part and the vowel, an appropriate reference value is set, and a region where the amplitude is below the reference value continues for a predetermined time (for example, about 10 ms) is determined as VOT. Thus, the end of the consonant part can be identified by distinguishing from the remaining part of the consonant part and the vowel part.
同様に、母音部の後、次に続く子音部との間にも、通常は数十ms以上の無音区間が存在する。従って、VOTの検出と同様にしてこの無音区間を判別することにより、次の子音部の始期を特定するものである。 Similarly, a silent section of several tens of ms or more usually exists between the vowel part and the subsequent consonant part. Therefore, the beginning of the next consonant part is specified by discriminating this silent section in the same manner as the detection of VOT.
また、特許文献2と同様、上述した特許文献1においても、携帯電話等の受話音声の明瞭度を改善し、入力音声に雑音が含まれる場合に音声品質の劣化及び雑音の増加を抑圧する音声強調装置が提案されている。
Similarly to
特許文献1の音声強調装置は、入力音声信号の音声品質を推定し音声品質推定値(推定S/N比)を出力する音声品質推定部と、音声品質推定部にて出力された音声品質推定値に基づいて、入力音声信号の声道特性の調整(ホルマントの増幅、アンチホルマントの減衰)と、入力音声信号の残差信号の強調(ピッチの強調)を行う音声強調処理部とを備えたものである。なお、この残差信号とは、音声波から線形予測可能な部分の除去により分離されたもの音源信号で、これの自己相関を算出することにより、音源のピッチ周期が得られるものである。
The speech enhancement apparatus of
以上説明したように、子音は母音に比べて音が弱く、音声情報伝達装置の音声は周囲の環境等次第で雑音に紛れて聞こえなくなるという問題があった。 As described above, there is a problem that the consonant is weaker than the vowel, and the voice of the voice information transmission device cannot be heard due to noise depending on the surrounding environment.
上述したワイヤレス放送システムは、そのようなシステムが備えられている限定された公共空間でなければ利用できない上に、使用者が受信機を携帯せねばならない。しかも、この放送システムは大規模で高価であるため、あらゆる公共空間に設けることは難しく、また、使用者全員が受信機を携帯することも困難なため、普及は難しいという問題があった。 The above-described wireless broadcasting system can only be used in a limited public space equipped with such a system, and the user must carry a receiver. Moreover, since this broadcasting system is large and expensive, it is difficult to install it in any public space, and it is difficult for all users to carry the receiver, so that there is a problem that it is difficult to spread.
また、補聴器等にも問題がある。まず、使用者が装用していなければ役に立たないし、補聴器への入力は音声と周囲の騒音が混在した音となる。従って、騒音抑制機構や子音強調機構によって、この双方の音が混在した中から騒音のみを抑制したり、子音のみを強調したりしなければならない。しかし、これらは騒音の種類など、場合によってうまく動作しないこともあるし、子音強調は静寂下においても難しい。このため従来は振幅エンベロープ、無声閉鎖子音の破裂に伴う無音区間、その他の周波数領域の情報など、複数の手がかりを並列的に利用して子音を検出することで、検出の正確さを上げている。しかし、このための処理は複雑になり、リアルタイム(実時間)若しくはこれに近い時間(準リアルタイム)内に子音強調して音声情報伝達を行うことの障害となっていた。 There are also problems with hearing aids and the like. First, it is useless if the user is not wearing it, and the input to the hearing aid is a sound in which voice and ambient noise are mixed. Therefore, it is necessary to suppress only the noise or to emphasize only the consonant from the mixture of both sounds by the noise suppression mechanism and the consonant enhancement mechanism. However, they may not work well depending on the type of noise, and consonant enhancement is difficult even in silence. For this reason, in the past, detection accuracy has been improved by detecting consonants using multiple cues in parallel, such as amplitude envelopes, silence intervals associated with bursts of silent closed consonants, and other frequency domain information. . However, the processing for this is complicated, and it has been an obstacle to performing speech information transmission by emphasizing consonants in real time (real time) or a time close to this (semi-real time).
特許文献1の音声強調装置は、入力音声信号のS/N比を推定し、このS/N比に基づいて、ホルマント周波数を中心とするホルマントの電力(パワー)に正のゲインを与える処理を行うと共に、アンチホルマント周波数を中心とするアンチホルマントの電力(パワー)に負のゲインを与える処理を行い、また、ピッチを強調して聞き取り易くするものである。しかし、処理が複雑で時間がかかり、高コストで、リアルタイムに近い時間内に音声情報伝達処理を行うには課題が多いものであった。そして、この特許文献1の音声強調装置は、日本語の音声は子音と母音の組合せからなり、子音は母音に比べて音が弱いという特性を活かしていない。
The speech enhancement device of
これに対して、特許文献2の音声情報伝達装置は、音声信号に含まれる子音部を抽出すると共に、抽出された子音部子音部が複数回反復されて音声信号に付加して子音明瞭化信号を生成する。このため、音声の聞き分けの改善にはなったが、各音で子音部分が繰返され、各音の子音部分で遅れが生じ、これが積み重なって、リアルタイムに近い時間内に音声情報伝達が行えるものではなかった。VOTや無音区間の判別のためには、このVOTや無音区間の情報が必要で、このため音声信号を一旦記憶してから処理することが必要であり、処理が複雑で時間がかかる点は特許文献1と変わらない。
On the other hand, the speech information transmission apparatus of
このように従来の技術は、複数の手がかりを並列的に利用して子音の検出を行い、このためその子音強調処理は非常に複雑であり、リアルタイム若しくはこれに近い時間内に音声情報伝達が行えるものではなかった。また、これらの技術は予め強調処理を施した音を記憶しておく必要があり、柔軟性が要求される音声情報伝達装置においては利用が難しい技術であった。 As described above, the conventional technique uses a plurality of cues in parallel to detect consonants, and therefore the consonant enhancement processing is very complicated, and voice information can be transmitted in real time or in a time close to this. It was not a thing. In addition, these techniques need to store sound that has been subjected to enhancement processing in advance, and are difficult to use in a voice information transmission device that requires flexibility.
そこで本発明は、リアルタイムに近い時間内に音声情報伝達が行え、信号処理が簡単で、騒音の多い環境でも、高齢者や聴覚障害者でも子音や音節の端点が聞き取り易く、安価に製造できる子音加工装置と音声情報伝達装置を提供することを目的とする。 Therefore, the present invention is a consonant that can transmit voice information in a time close to real time, is simple in signal processing, is easy to hear the end points of consonants and syllables even in noisy environments, elderly people and hearing impaired people, and can be manufactured at low cost. An object is to provide a processing device and a voice information transmission device.
また、本発明は、リアルタイムに近い時間内に音声情報伝達が行え、信号処理が簡単で、騒音の多い環境でも、高齢者や聴覚障害者でも子音や音節の端点が聞き取り易い子音加工方法を提供することを目的とする。 In addition, the present invention provides a consonant processing method that can transmit voice information in a time close to real time, is simple in signal processing, and is easy to hear the end points of consonants and syllables even in a noisy environment, even in elderly people or hearing impaired people. The purpose is to do.
本発明の子音加工装置は、入力された音声信号から複数の時間フレームによってそれぞれでフレーム信号を抽出するフレーム分割部と、フレーム信号のそれぞれで平均パワーを算出するパワー算出部と、フレーム信号間で平均パワーを互いに比較する比較部と、比較部の比較結果に基づいて音声信号の増幅対象点または増幅対象幅が子音または音節の端点であるか否かを判定する子音判定部と、子音判定部が子音または音節の端点と判断した場合は音声信号の増幅対象点または増幅対象幅を増幅すると共に、子音または音節の端点でないと判断した場合は増幅しない増幅部とを備えたことを主要な特徴とする。 A consonant processing device according to the present invention includes a frame dividing unit that extracts a frame signal from a plurality of time frames from an input audio signal, a power calculation unit that calculates an average power for each of the frame signals, and a frame signal. A comparison unit that compares average power with each other, a consonant determination unit that determines whether the amplification target point or amplification target width of the audio signal is an end point of a consonant or syllable based on the comparison result of the comparison unit, and a consonant determination unit Amplifying the sound signal amplification target point or amplification target width when it is determined as a consonant or syllable end point, and an amplification unit that does not amplify when it is determined not to be a consonant or syllable end point And
本発明の子音加工装置、音声情報伝達装置及び子音加工方法によれば、複数の時間フレームによって複数のフレーム信号を抽出し、このフレーム信号の平均パワーを計算して比較するだけで子音強調が行えるから、並列的に様々の処理を行う必要がなく、リアルタイムに近い時間内に音声情報伝達が行え、信号処理が簡単で、騒音下、あるいは音声が他の音響信号と競合する状況であっても、また、難聴者、高齢者でも子音または音節の端点が聞き取り易くなり、これにより音声の明瞭さを損なうことなく音声全体の強さを減らすことができ、環境騒音が増加するのを防ぐことができる。また、安価に製造できる子音加工装置、音声情報伝達装置を提供することができる。 According to the consonant processing device, the speech information transmission device, and the consonant processing method of the present invention, it is possible to perform consonant enhancement only by extracting a plurality of frame signals from a plurality of time frames and calculating and comparing the average power of the frame signals. Therefore, it is not necessary to perform various processes in parallel, voice information can be transmitted in a time close to real time, signal processing is simple, even in situations where noise or voice competes with other acoustic signals. In addition, it becomes easier for hearing-impaired and elderly people to hear the end points of consonants or syllables, thereby reducing the overall strength of the speech without impairing the clarity of the speech and preventing the increase in environmental noise. it can. Further, it is possible to provide a consonant processing device and a voice information transmission device that can be manufactured at low cost.
本発明の第1の形態は、入力された音声信号から複数の時間フレームによってそれぞれでフレーム信号を抽出するフレーム分割部と、フレーム信号のそれぞれで平均パワーを算出するパワー算出部と、フレーム信号間で平均パワーを互いに比較する比較部と、比較部の比較結果に基づいて音声信号の増幅対象点または増幅対象幅が子音または音節の端点であるか否かを判定する子音判定部と、子音判定部が子音または音節の端点と判断した場合は音声信号の増幅対象点または増幅対象幅を増幅すると共に、子音または音節の端点でないと判断した場合は増幅しない増幅部とを備えたことを特徴とする子音加工装置である。この構成により、複数の時間フレームによって複数のフレーム信号を抽出し、このフレーム信号の平均パワーを計算して比較するだけで子音強調が行えるから、並列的に様々の処理を行う必要がなく、リアルタイムに近い時間内に音声情報伝達が行え、信号処理が簡単で、騒音下、あるいは音声が他の音響信号と競合する状況であっても、また、難聴者、高齢者でも子音または音節の端点が聞き取り易くなり、これにより音声の明瞭さを損なうことなく音声全体の強さを減らすことができ、環境騒音が増加するのを防ぐことができ、安価に製造できる子音加工装置を提供することができる。 According to a first aspect of the present invention, a frame division unit that extracts a frame signal from each of a plurality of time frames from an input audio signal, a power calculation unit that calculates an average power for each of the frame signals, and a frame signal A comparison unit that compares the average power with each other, a consonant determination unit that determines whether the amplification target point or the amplification target width of the audio signal is an end point of a consonant or a syllable based on a comparison result of the comparison unit, and a consonant determination And an amplification unit that amplifies the amplification target point or amplification target width of the audio signal when it is determined to be an end point of a consonant or syllable, and does not amplify when it is determined that it is not an end point of a consonant or syllable. Is a consonant processing device. With this configuration, it is possible to perform consonant enhancement simply by extracting multiple frame signals using multiple time frames, calculating the average power of these frame signals, and comparing them, making it unnecessary to perform various processes in parallel. Audio information can be transmitted within a short time, signal processing is simple, even under noisy conditions, or when the voice is competing with other acoustic signals. This makes it easy to hear, thereby reducing the strength of the entire voice without losing the clarity of the voice, preventing an increase in environmental noise, and providing a consonant processing device that can be manufactured at low cost. .
本発明の第2の形態は、入力された音声信号から複数の時間フレームによってそれぞれでフレーム信号を抽出するフレーム分割部と、フレーム信号のそれぞれで平均パワーを算出するパワー算出部と、フレーム信号間で平均パワーを互いに比較する比較部と、比較部の比較結果に基づいて音声信号が子音または音節の端点であるか否かを判定する子音判定部と、子音判定部が子音または音節の端点と判断した場合は音声信号の増幅対象点または増幅対象幅の増幅度を増幅方向に決定すると共に、子音または音節の端点でないと判断した場合は音声信号を増幅しない旨決定する増幅度決定部と、増幅度決定部が決定した増幅度に応じて音声信号を増幅する増幅部とを備えたことを特徴とする子音加工装置である。この構成により、前記第1の形態の作用効果に加えて、増幅度決定部によって増幅度を調整でき、さらに聞き取り容易な子音加工装置を提供することができる。 According to a second aspect of the present invention, a frame dividing unit that extracts a frame signal from a plurality of time frames from an input audio signal, a power calculation unit that calculates an average power for each of the frame signals, and a frame signal A comparison unit that compares the average power with each other, a consonant determination unit that determines whether the audio signal is an end point of a consonant or a syllable based on a comparison result of the comparison unit, and a consonant determination unit that is an end point of a consonant or a syllable If determined, the amplification target point of the audio signal or the amplification degree of the amplification target width is determined in the amplification direction, and if it is determined that it is not the end point of the consonant or syllable, the amplification degree determination unit determines that the audio signal is not amplified, A consonant processing apparatus comprising: an amplifying unit that amplifies an audio signal in accordance with the amplification degree determined by the amplification degree determining unit. With this configuration, in addition to the effects of the first embodiment, the amplification degree can be adjusted by the amplification degree determination unit, and a consonant processing device that can be easily heard can be provided.
本発明の第3の形態は、第1または第2の形態に従属する形態であって、比較部が、各フレーム信号のデシベル表示した平均パワーの差を算出することにより比較することを特徴とする子音加工装置であり、差を演算するだけであるから容易に信号処理でき、リアルタイムに近い時間内に音声情報伝達が行える。 A third aspect of the present invention is a form subordinate to the first or second form, characterized in that the comparison unit performs comparison by calculating a difference in decibel average power of each frame signal. This is a consonant processing device that simply calculates the difference, so that signal processing can be easily performed, and voice information can be transmitted in a time close to real time.
本発明の第4の形態は、第1または第2の形態に従属する形態であって、比較部が、各フレーム信号の平均パワーの比率を算出することにより比較することを特徴とする子音加工装置であり、比率を演算するだけであるから容易に信号処理でき、リアルタイムに近い時間内に音声情報伝達が行える。 A fourth form of the present invention is a form subordinate to the first or second form, wherein the comparison unit compares by calculating the ratio of the average power of each frame signal. Since it is a device and only calculates the ratio, it can easily process signals and transmit voice information in a time close to real time.
本発明の第5の形態は、第1〜第4のいずれかの形態の子音加工装置において、時間フレームには子音を抽出可能な抽出幅の時間フレームが設けられ、増幅対象点または増幅対象幅がこの時間フレームの抽出幅の中央位置に設定されることを特徴とする子音加工装置であり、VCV型の信号処理が好適に行え、構成が簡単で効果的に増幅できる。 According to a fifth aspect of the present invention, in the consonant processing device according to any one of the first to fourth aspects, the time frame is provided with a time frame having an extraction width from which a consonant can be extracted. Is a consonant processing device characterized in that it is set at the center position of the extraction width of this time frame, VCV type signal processing can be suitably performed, and the configuration can be simplified and effectively amplified.
本発明の第6の形態は、第1〜第4のいずれかの形態の子音加工装置において、時間フレームに連続する2つの時間フレームが設けられた場合に、増幅対象点または増幅対象幅が2つの時間フレームの境界に設定されることを特徴とする子音加工装置であり、CV型の信号処理が好適に行え、構成が簡単で効果的に増幅できる。 According to a sixth aspect of the present invention, in the consonant processing device according to any one of the first to fourth aspects, when two time frames continuous to the time frame are provided, the amplification target point or the amplification target width is 2 It is a consonant processing device characterized in that it is set at the boundary of two time frames, CV type signal processing can be suitably performed, the configuration is simple, and it can be amplified effectively.
本発明の第7の形態は、第3の形態の子音加工装置において、デシベル表示した平均パワーの差が0以下の場合には、増幅対象点または増幅対象幅の音声信号の振幅を増幅し、該デシベル表示した差が0より大きい場合には増幅しないことを特徴とする子音加工装置であり、前記形態の作用効果に加えて、さらに信号処理が簡単になる。 In the consonant processing device according to the third aspect of the present invention, in the consonant processing device according to the third aspect, when the difference in average power displayed in decibels is 0 or less, the amplitude of the audio signal at the amplification target point or the amplification target width is amplified. The consonant processing device is characterized in that it does not amplify when the decibel-displayed difference is larger than 0. In addition to the operational effects of the above-described embodiment, signal processing is further simplified.
本発明の第8の形態は、第3の形態の子音加工装置において、平均パワー間の比率が1以下の場合には、増幅対象点または増幅対象幅の音声信号の振幅を増幅し、該平均パワーの比率が1より大きい場合には増幅しないことを特徴とする請求項4記載の子音加工装置であり、前記形態の作用効果に加えて、さらに信号処理が簡単になる。
According to an eighth aspect of the present invention, in the consonant processing device of the third aspect, when the ratio between the average powers is 1 or less, the amplitude of the audio signal at the amplification target point or the amplification target width is amplified and the
本発明の第9の形態は、第1、第3〜第6のいずれかの形態の子音加工装置において、増幅部が、子音判定部が子音または音節の端点と判断した場合は音声信号の増幅対象点または増幅対象幅を増幅するのに代えて、子音または音節の端点と判断した場合に音声信号の増幅対象点または増幅対象幅を逆に抑制することを特徴とする子音加工装置である。この構成により、聞き取り難い音声を設けて聴力検査や聞き取り訓練に供することができる。 According to a ninth aspect of the present invention, in the consonant processing device according to any one of the first, third to sixth aspects, when the amplifying unit determines that the consonant determining unit is an end point of a consonant or a syllable, the sound signal is amplified. Instead of amplifying the target point or the amplification target width, a consonant processing device is characterized in that when it is determined as a consonant or an end point of a syllable, the amplification target point or the amplification target width of the audio signal is suppressed. With this configuration, it is possible to provide a sound that is difficult to hear and to be used for hearing tests and listening training.
本発明の第10の形態は、第2〜第6のいずれかの形態の子音加工装置において、増幅度決定部が、子音判定部が子音または音節の端点と判断した場合に音声信号の増幅対象点または増幅対象幅の増幅度を増幅方向に決定するのに代えて、増幅度決定部が、前記子音判定部が子音または音節の端点と判断した場合に前記音声信号の増幅対象点または増幅対象幅の増幅度を逆に抑制方向にする旨の決定を行うことを特徴とする子音加工装置である。この構成により、増幅対象点または増幅対象幅が抑制され、聞き取り難い音声を設けて聴力検査や聞き取り訓練に供することができる。 According to a tenth aspect of the present invention, in the consonant processing device according to any one of the second to sixth aspects, when the amplification degree determination unit determines that the consonant determination unit is an end point of a consonant or a syllable, Instead of determining the amplification degree of the point or the amplification target width in the amplification direction, the amplification degree determination unit determines that the consonant determination unit determines that it is an end point of a consonant or syllable, or the amplification target point or amplification target of the audio signal A consonant processing device that performs a determination to reverse the width amplification degree in a suppression direction. With this configuration, the amplification target point or the amplification target width is suppressed, and it is possible to provide a sound that is difficult to hear and to be used for hearing test or listening training.
本発明の第11の形態は、第1〜8の形態の子音加工装置において、平均パワー間のフレーム分割部に音声信号を入力する前に、所定の周波数成分を通過させるフィルタ部が設けられたことを特徴とする子音加工装置であり、子音強調の明瞭性を増すことができる。 According to an eleventh aspect of the present invention, in the consonant processing device according to any one of the first to eighth aspects, a filter unit that allows a predetermined frequency component to pass is provided before an audio signal is input to a frame division unit between average powers. The consonant processing apparatus is characterized by the fact that the clarity of consonant enhancement can be increased.
本発明の第12の形態は、第1〜第11のいずれかの形態に従属する形態であって、増幅部が、感音性難聴者の感覚量である音の大きさを健聴者の感覚量である音の大きさに一致させる補充現象の補正特性に従って物理的な音圧を増幅することを特徴とする請求項1〜8のいずれかに記載の子音加工装置であり、健聴者の聞き取り易いと感じられる強さに子音または音節の端点を増幅することができる。
A twelfth aspect of the present invention is a form subordinate to any one of the first to eleventh aspects, in which the amplifying unit determines the loudness as a sensory amount of a sound-sensitive deaf person. The consonant processing device according to
本発明の第13の形態は、第1〜第12のいずれかの形態に従属する子音加工装置と、該子音加工装置からの子音加工された音声信号に基づいて子音強調された音声を出力するスピーカを備えたことを特徴とする音声情報伝達装置である。この構成により、並列的に様々の処理を行う必要がなく、リアルタイムに近い時間内に音声情報伝達が行え、信号処理が簡単で、騒音下、あるいは音声が他の音響信号と競合する状況であっても、また、難聴者、高齢者でも子音または音節の端点が聞き取り易くなり、これにより音声の明瞭さを損なうことなく音声全体の強さを減らすことができ、環境騒音が増加するのを防ぐことができ、安価な音声情報伝達装置を提供することができる。 According to a thirteenth aspect of the present invention, a consonant processing device subordinate to any one of the first to twelfth embodiments and a consonant-enhanced sound based on a consonant-processed audio signal from the consonant processing device are output. A voice information transmission device including a speaker. With this configuration, it is not necessary to perform various processes in parallel, voice information can be transmitted in a time close to real time, signal processing is simple, and there is a situation where noise or voice competes with other acoustic signals. However, it is easier for deaf and elderly people to hear the end points of consonants or syllables, thereby reducing the overall strength of the speech without compromising the clarity of the speech and preventing an increase in environmental noise. Therefore, an inexpensive audio information transmission device can be provided.
本発明の第14の形態は、入力された音声信号から複数の時間フレームによってそれぞれでフレーム信号を抽出し、フレーム信号のそれぞれで平均パワーを算出し、フレーム信号間で平均パワーを互いに比較し、この比較結果に基づいて音声信号の増幅対象点または増幅対象幅が子音または音節の端点であるか否かを判定し、子音または音節の端点と判断される場合は音声信号の増幅対象点または増幅対象幅を増幅し、子音でないと判断した場合は増幅しないことを特徴とする子音加工方法である。この構成により、並列的に様々の処理を行う必要がなく、リアルタイムに近い時間内に音声情報伝達が行え、信号処理が簡単で、騒音下、あるいは音声が他の音響信号と競合する状況であっても、また、難聴者、高齢者でも子音または音節の端点が聞き取り易くなり、これにより音声全体の強さを減らすことができ、環境騒音が増加するのを防ぐことができる。 In the fourteenth aspect of the present invention, a frame signal is extracted for each of a plurality of time frames from an input audio signal, an average power is calculated for each of the frame signals, and the average power is compared between the frame signals. Based on the comparison result, it is determined whether or not the amplification target point or amplification target width of the audio signal is a consonant or syllable end point. In this consonant processing method, the target width is amplified and is not amplified when it is determined that the target width is not a consonant. With this configuration, it is not necessary to perform various processes in parallel, voice information can be transmitted in a time close to real time, signal processing is simple, and there is a situation where noise or voice competes with other acoustic signals. However, the end points of consonants or syllables can be easily heard even by a hearing-impaired person or an elderly person, thereby reducing the strength of the entire voice and preventing an increase in environmental noise.
本発明の第15の形態は、第14の形態の子音加工方法において、子音または音節の端点と判断される場合は音声信号の増幅対象点または増幅対象幅を増幅するのに代えて、子音または音節の端点と判断された場合は音声信号の増幅対象点または増幅対象幅を逆に抑制することを特徴とする子音加工方法である。この構成により、聞き取り難い音声を設けて聴力検査や聞き取り訓練に供することができる。 According to a fifteenth aspect of the present invention, in the consonant processing method according to the fourteenth aspect, when it is determined that the end point of a consonant or a syllable, a consonant or a consonant A consonant processing method is characterized in that when it is determined as an end point of a syllable, the amplification target point or the amplification target width of the voice signal is conversely suppressed. With this configuration, it is possible to provide a sound that is difficult to hear and to be used for hearing tests and listening training.
本発明の第13の形態は、第12の形態に従属する形態であって、増幅度が、感音性難聴者の感覚量である音の大きさを健聴者の感覚量である音の大きさに一致させる補充現象の補正特性に従って物理的な音圧を増幅することを特徴とする子音加工方法であり、聴覚正常者の聞き取り易いと感じられる状態に子音または音節の端点を増幅することができる。 A thirteenth aspect of the present invention is a form subordinate to the twelfth aspect, in which the amplification level is the amount of sound that is a sensory amount of a hearing-impaired deaf person, and the volume of sound that is a sensory amount of a normal hearing person. A consonant processing method characterized by amplifying a physical sound pressure in accordance with a correction characteristic of a supplementary phenomenon that matches the depth, and amplifying the end points of consonants or syllables in a state where it is felt that a normal hearing person can easily hear. it can.
(実施例1)
以下、本発明の実施例1における子音加工装置と音声情報伝達装置、子音加工方法について説明する。
Example 1
Hereinafter, a consonant processing device, a voice information transmission device, and a consonant processing method according to
実施例1の音強調処理装置が行う子音強調は、日本語のように音節がCV型をもつ言語の構造の場合に、すなわち子音(Cの直後に母音(V)が続く頻度が高い場合の子音強調に好適なものである。なお、本明細書おいて子音強調というが、これは子音だけでなく音節の端点も含めて強調するものである。 The consonant enhancement performed by the sound enhancement processing apparatus according to the first embodiment is performed when the syllable has a CV-type language structure as in Japanese, that is, when the frequency of consonant (the vowel (V) immediately follows C is high). In this specification, the term “consonant enhancement” is used to emphasize not only consonants but also the end points of syllables.
図1は本発明の実施例1における子音加工装置とこれを搭載した音声情報伝達装置の構成図、図2は本発明の実施例1における子音加工装置の処理の説明図、図7(a)は本発明の実施例1における増幅時の増幅度の説明図である。
FIG. 1 is a configuration diagram of a consonant processing device and a voice information transmission device equipped with the consonant processing device in
図1において、1は音声信号が入力されると図2に示すように複数の時間フレームでそれぞれフレーム信号を抽出するフレーム分割部である。そして、1aはフレーム分割部1を構成し、子音の長さの1/3程度の幅のフレーム信号を抽出するための第1時間フレーム、また、1bは第1時間フレーム1aを包含し、子音を抽出可能な抽出幅の第2時間フレーム、さらに1cは第2時間フレーム1bを包含し音節の長さの1〜3倍程度を抽出可能な第3時間フレームである。
In FIG. 1,
第1時間フレーム1a、第2時間フレーム1b、第3時間フレーム1cは方形窓、ハミング窓等の窓関数を乗じる機能を備えたもので、実施例1においては方形窓が採用されている。
The
すなわち、t=Tの時点の音声信号に対して、第1時間フレーム1aは窓関数w1(t)=1(ここでT−τ1≦t≦T+τ1)、w1(t)=0(それ以外のとき)で構成され、第2時間フレーム1bは窓関数w2(t)=1(ここでT−τ2≦t≦T+τ2)、w2(t)=0(それ以外のとき)、第3時間フレーム1cも窓関数w3(t)=1(ここでT−τ3≦t≦T+τ3)、w3(t)=0(それ以外のとき)で構成される。いずれも単位はmsである。
That is, for the audio signal at the time of t = T, the
なお、第1時間フレーム1a、第2時間フレーム1b、第3時間フレーム1cの中央位置(t=T)は全て一致する必要はないが、図1に示す音声信号の波形においては中央位置が一致しており、この中央位置がこれらの時間フレームにおける音声信号の増幅対象点である。これは点を増幅するだけでなく、所定の幅を増幅するものであってもよい。この場合、本明細書ではこれを増幅対象幅という。この増幅位置または増幅対象幅は、少なくとも第2時間フレーム1bの中央位置に設定されるのが好適である。なお、第2時間フレーム1bは第3の時間フレーム1cの後端部よりに設けられる方が処理の速さを高める可能性があり、第2時間フレーム1bの中央位置をこの後端部よりに配置するのが好適である。
Note that the center positions (t = T) of the
窓関数のτ1,τ2,τ3は、経験的に定められるパラメータであり、実施例1においてはτ1=7.5ms程度、τ2=25ms程度(子音を抽出可能な長さ)、τ3=200ms程度(音節の長さの1〜4倍程度を抽出可能な長さ)に設定される。日本語の場合、一般的に子音の長さは数十ms程度、1音節の長さは100〜400msの程度である。 The window functions τ 1 , τ 2 , and τ 3 are empirically determined parameters. In the first embodiment, τ 1 = about 7.5 ms, τ 2 = about 25 ms (the length that can extract consonants), τ 3 is set to about 200 ms (a length capable of extracting about 1 to 4 times the syllable length). In the case of Japanese, the length of a consonant is generally about several tens of ms, and the length of one syllable is about 100 to 400 ms.
従って、音声信号p(t)に対して、第1時間フレーム1aからはy1(t)=w1(t)・p(t)が出力され、第2時間フレーム1bからはy2(t)=w2(t)・p(t)、第3時間フレーム1cからはy3(t)=w3(t)・p(t)の演算によりフレーム信号が抽出される。デジタル信号の場合は、例えばy3(t)を説明すると、T−τ3≦t<T、T<t≦τ3+Tの間がそれぞれN個の時系列値とt=Tの時系列値とからなり、全体で(2N+1)個の時系列値で演算される。y1(t)、y2(t)の時系列値も同様で、y3(t)の入力時系列値と重複した値を用いる。
Therefore, the audio signal p (t), from the first time frame 1a y 1 (t) = w 1 (t) · p (t) is output from the
このように本実施例1の子音加工装置は、フレーム分割部1などでA/D変換を行い、後述する増幅度の決定などまで含めてデジタル回路もしくはプロセッサでデジタル処理しているが、アナログ回路を使ってアナログ処理することもできる。なお、プロセッサでデジタル処理するときは、図示はしないが、メモリを設けてプログラムや設定値を格納し、これを読み出して演算する。
As described above, the consonant processing apparatus according to the first embodiment performs A / D conversion by the
次に、図1において、2は第1時間フレーム1a、第2時間フレーム1b、第3時間フレーム1cで抽出されたフレーム信号y1(t)、y2(t)、y3(t)の平均パワーを計算するパワー算出部である。2aは第1パワー算出部であり、第1時間フレーム1aから出力されたy1(t)の振幅の2乗である平均パワーP1をデシベル表示した平均パワーL1を演算する。同様に、2bは第2パワー算出部であり、第2時間フレーム1bから出力されたy2(t)の平均パワーP2をデシベル表示した平均パワーL2を演算する。さらに、2cは第3パワー算出部であって、第3時間フレーム1cから出力されたy3(t)の平均パワーP3をデシベル表示した平均パワーL3を演算する。なお、平均パワーPi(i=1,2,3)は(数1)で表され、2N+1は時系列値のそれぞれの総数である。平均パワーL1,L2,L3の単位はdBである。
Next, in FIG. 1,
なお、以下、デシベル表示した平均パワーLi(i=1,2,3)を使って差で説明するが、平均パワーPiの比率Kij=Pi/Pj(i,j=1,2,3;i<j)を使用して演算することもできる。この比率Kijを使用した場合の説明は後述の実施例4で行う。さらに、平均パワーPiの対数をとってデシベル表示のLi(i=1,2,3)とするのでなく、平均パワーPi自体の差Pi−Pjを演算しても同様の作用効果が得られる。しかし詳細な説明はデシベル表示の説明に譲って省略する。 Hereinafter, the difference is described using the average power L i (i = 1, 2, 3) expressed in decibels, but the ratio of the average power P i K ij = P i / P j (i, j = 1, 2, 3; i <j). The case where this ratio K ij is used will be described in Example 4 described later. Further, the same effect can be obtained by calculating the difference P i -P j of the average power P i itself instead of taking the logarithm of the average power P i and making it L i (i = 1, 2, 3) in decibels. An effect is obtained. However, the detailed description will be omitted to the description of the decibel display.
続いて、3は各フレーム信号の平均パワーL1,L2,L3の差を計算して比較する比較部であり、4は比較部3の比較結果に基づいて音声信号が子音であるか否かを判定する子音判定部である。また、5は増幅までの処理に必要な時間だけ音声信号を遅延しあるいはデータをバッファする遅延部、6は子音判定部4が子音と判断したとき音声信号の増幅対象点の増幅度を変更し、子音でないと判断した場合は増幅度を変更しない増幅部である。
Subsequently, 3 is a comparison unit that calculates and compares the difference between the average powers L 1 , L 2 , and L 3 of each frame signal, and 4 indicates whether the audio signal is a consonant based on the comparison result of the
そして、10は音声信号を入力されたとき子音を強調して出力する実施例1の子音加工装置であり、定用途向け集積回路などとして構成される。また、11は音声を入力するためのマイク、12は音声を出力するためのスピーカ、20は子音加工装置10を搭載した音声情報伝達装置である。
音声情報伝達装置20は、子音加工装置10によって子音強調された音声信号をスピーカ12から出力し、上述のワイヤレス放送システム、構内放送や案内放送などのアナウンス放送装置、携帯端末等の携帯型情報機器、その他の音声情報伝達装置、補聴器などに利用できる。なお、マイク11を備えていない音声情報伝達装置20の場合、例えば、自動販売機やATMのガイド音声などの場合は、予め録音された音信号について子音加工装置10による音の加工を行えばよい。
The audio
さて、実施例1の子音加工装置10は、日本語のように子音、母音が続くCV型の構造をもつ言語に有効な装置であり、比較部3はこのような構造を利用して以下のような基準で各フレーム信号の平均パワーの比較を行い、子音判定部4が子音または音節の端点か否かを判定する。
The
すなわち、先ず第1に、デシベル表示の平均パワーL1がデシベル表示の平均パワーL2より所定の閾値(実施例1では5dB)以上高い場合(すなわちL1>L2+5)は、15ms(子音の長さの約1/3程度)程度のごく狭い幅で振幅が増加しているだけであるから、この増加は雑音の増加とみなす。比較部3はL1−L2を計算し、閾値より大きいか、以下かを算出する。閾値より大きい場合、子音判定部4は音声信号を雑音と判断する。閾値以下の場合は、次の基準で判定される。
That is, firstly, when the average power L 1 of the decibel display is higher than the average power L 2 of the decibel display by a predetermined threshold (5 dB in the first embodiment) or more (that is, L 1 > L 2 +5), 15 ms (consonant) Therefore, this increase is regarded as an increase in noise. The
第2に、L1−L2が閾値(5dB)以下であって、L2<L3であれば、第2時間フレーム1bにおける50ms(子音の長さより少し長い)の間の平均パワーL2が、第3時間フレーム1cの400ms(数音節の長さ)の平均パワーL3より低いことになり、ここには子音または音節の端点があると考えられる。
Second, if L 1 -L 2 is less than or equal to the threshold (5 dB) and L 2 <L 3 , the average power L 2 during 50 ms (slightly longer than the length of the consonant) in the
すなわち、子音、母音と続くとき、子音または音節の端点は母音に比べて平均パワーが小さいため、L2とL3のレベルを比較してL2が小さければ第2時間フレーム1bに子音または音節の端点があると推定するものである。この状態を図2に示す。
That is, when the consonant or vowel continues, the end point of the consonant or syllable has a lower average power than the vowel, so if the L 2 and L 3 levels are compared and L 2 is small, the consonant or syllable is displayed in the
図2において、窓関数w2(t)で抽出したフレーム信号の平均パワーL2は小さく、窓関数w3(t)で抽出したフレーム信号の平均パワーL3は平均パワーL2に比べて大きい。それ故、第2時間フレーム1bで抽出したフレーム信号は子音または音節の端点であって、前後、あるいは前の部分または後の部分に母音が存在すると推定できる。このとき比較部3はL2−L3を計算し、L2<L3であれば、子音判定部4は第2時間フレーム1bのフレーム信号が子音または音節の端点と判断し、増幅を行う。
In FIG. 2, the average power L 2 of the frame signal extracted by the window function w 2 (t) is small, and the average power L 3 of the frame signal extracted by the window function w 3 (t) is larger than the average power L 2. . Therefore, it can be estimated that the frame signal extracted in the
これにより実施例1の増幅部6は、以上説明した子音判定部4の判定に基づいて、L1−L2>5の場合には増幅を行わず、L1−L2<5であって、L2−L3が0〜−20dBの範囲内であれば一定の増幅度λ0、例えば10dB増幅する。但し、L1−L2<5であっても、L2−L3<−20の条件を充たす場合、雑音との判別が難しくなるため増幅部6は増幅の程度を弱める。なお、このとき子音判定部4がこの判断を行うのでもよい。このような増幅特性を図示すると、図7(a)のようになる。きわめて簡単な構成で容易に子音強調が可能になる。なお、図7(a)は一例としてあげたもので、急に増幅をやめると、増幅度が不連続に変化して違和感のある音声となるので、一点鎖線のような低減の仕方、若しくは、さらにより滑らかな低減の仕方をするのが好ましい。 Accordingly, the amplification unit 6 of the first embodiment does not perform amplification when L 1 −L 2 > 5 based on the determination of the consonant determination unit 4 described above, and L 1 −L 2 <5. , L 2 −L 3 is within a range of 0 to −20 dB, a constant amplification factor λ 0 , for example, 10 dB is amplified. However, even if L 1 −L 2 <5, when the condition of L 2 −L 3 <−20 is satisfied, the amplification unit 6 weakens the degree of amplification because it becomes difficult to distinguish from noise. At this time, the consonant determination unit 4 may make this determination. Such an amplification characteristic is illustrated in FIG. Consonant enhancement can be easily performed with a very simple configuration. Note that FIG. 7A is given as an example. If the amplification is suddenly stopped, the amplification level changes discontinuously and the sound becomes uncomfortable, so a reduction method such as a one-dot chain line, or It is preferable to use a smoother reduction method.
このように実施例1の子音加工装置、音声情報伝達装置及び子音加工方法は、複数の時間フレームによって複数のフレーム信号を抽出し、このフレーム信号の平均パワーを計算して比較するだけで子音強調が行えるから、並列的に様々の処理を行う必要がなく、リアルタイムに近い時間内に音声情報伝達が行え、論理判断が少なく信号処理が簡単で、騒音下、あるいは音声が他の音響信号と競合する状況であっても、また、難聴者、高齢者でも子音が聞き取り易くなり、これにより音声の明瞭さを損なうことなく音声全体の強さを減らすことができ、境騒音が増加するのを防ぐことができる。また、構成が簡単で安価に製造できる子音強調処理装置等の子音加工装置、音声情報伝達装置を提供することができる。 As described above, the consonant processing device, the speech information transmission device, and the consonant processing method according to the first embodiment extract a plurality of frame signals by using a plurality of time frames, and calculate and compare the average power of the frame signals to enhance the consonant. Therefore, there is no need to perform various processes in parallel, voice information can be transmitted in a time close to real time, signal judgment is simple, signal processing is simple, and noise or voice competes with other acoustic signals. This makes it easier to hear consonant sounds even for people who are hard of hearing or for elderly people, thereby reducing the overall strength of the voice without compromising the clarity of the voice and preventing an increase in boundary noise. be able to. Further, it is possible to provide a consonant processing device such as a consonant enhancement processing device and a voice information transmission device that are simple in configuration and can be manufactured at low cost.
(実施例2)
以下、本発明の実施例2における子音加工装置と音声情報伝達装置、子音加工方法について説明する。実施例2の子音加工装置と音声情報伝達装置は、子音と判断されたときに、比較部の比較結果に応じて増幅度を調整するものである。そして、実施例2の子音強調もとくにCV型の言語の子音強調に好適なものである。
(Example 2)
Hereinafter, the consonant processing device, the voice information transmission device, and the consonant processing method according to the second embodiment of the present invention will be described. The consonant processing device and the voice information transmission device according to the second embodiment adjust the amplification degree according to the comparison result of the comparison unit when it is determined as a consonant. The consonant enhancement according to the second embodiment is also particularly suitable for consonant enhancement in a CV type language.
図3は本発明の実施例2における子音加工装置とこれを搭載した音声情報伝達装置の構成図、図4(a)は補充現象の説明図、図4(b)は静寂な環境での音と雑音中での音の比較図、図7(b)は本発明の実施例2における増幅時の増幅度の説明図の説明図である。なお、実施例2と実施例1とで同一符号は同様の構成であり、音声信号の処理も比較結果に応じて増幅度を決定する点を除いては実施例1と同様であるから、これらの説明は省略する。 FIG. 3 is a block diagram of a consonant processing device and a voice information transmission device equipped with the consonant processing device according to the second embodiment of the present invention, FIG. 4 (a) is an explanatory diagram of a supplementary phenomenon, and FIG. 4 (b) is a sound in a quiet environment. FIG. 7B is an explanatory diagram of an amplification factor at the time of amplification in the second embodiment of the present invention. The same reference numerals are used in the second embodiment and the first embodiment, and the processing of the audio signal is the same as that of the first embodiment except that the amplification degree is determined according to the comparison result. Description of is omitted.
図3において、1はフレーム分割部、1aは第1時間フレーム、1bは第2時間フレーム、1cは第3時間フレームである。また、2はパワー算出部、2aは第1パワー算出部、2bは第2パワー算出部、2cは第3パワー算出部、3は比較部であり、4は子音判定部、5は遅延部、6は増幅部である。そして、10は実施例2の子音加工装置、11はマイク、12はスピーカ、20は実施例2の音声情報伝達装置である。これらは実施例1と同様の構成である。
In FIG. 3, 1 is a frame dividing unit, 1a is a first time frame, 1b is a second time frame, and 1c is a third time frame. 2 is a power calculation unit, 2a is a first power calculation unit, 2b is a second power calculation unit, 2c is a third power calculation unit, 3 is a comparison unit, 4 is a consonant determination unit, 5 is a delay unit, Reference numeral 6 denotes an amplification unit.
実施例2の特徴的な点は、実施例1が一定の増幅度λ0で増幅したのに対して、比較部3の比較結果に応じて増幅度λを調整する点である。図3において、7は増幅度λの値を決定する増幅度決定部である。
The characteristic point of the second embodiment is that the amplification factor λ is adjusted according to the comparison result of the
増幅度決定部7は、音比較部3が子音または音節の端点と判断した場合に音声信号の増幅対象点または増幅対象幅の増幅度を決定し、子音または音節の端点でないと判断した場合は音声信号を増幅しない旨決定する。増幅度λは、デシベル表示でL2<L3であれば、音声信号が雑音ではないと判断されたとき、L2とL3のレベル差が大きければ大きいほど大きな値にされる。
When the
ここで、実施例2で行う増幅度λについて説明する。実施例2の増幅度λは感音性難聴者に対する補充現象の補正特性と同様の特性を採用する。この補充現象とは、物理的な刺激音の音圧の増加に対して感覚量である音の大きさの増加が、所定範囲の強さの音に対して健聴者より感音性難聴者の方が大きい現象のことである。 Here, the amplification factor λ performed in the second embodiment will be described. The amplification factor λ of the second embodiment employs a characteristic similar to the correction characteristic of the supplementary phenomenon for the sound-sensitive deaf person. This supplementary phenomenon means that the increase in sound volume, which is the amount of sensation, with respect to the increase in the sound pressure of a physical stimulus sound, This is a larger phenomenon.
このため、補充現象においては、図4(a)に示すように、所定範囲の強さの音に対して、小さい音ほど大きく補正し、大きな音ほど小さく補正する。これにより、人間の聴覚系が対応し、弱くて聞き取りにくい音を聞き取り易い強さの音に補正することができる。図4(b)は、静寂な環境と雑音中と主観的に認識できる音にどれだけの差が生じるのか、実験したものである。図中Pは静寂な環境で聞いたときの音の強さであり、Nは同一の音を白色雑音中で聞いたときの音の強さである。この結果をみると、Nは図4(a)の補充現象と同様な特性を示している。 For this reason, in the replenishment phenomenon, as shown in FIG. 4A, the louder the sound with a predetermined range, the larger the sound is corrected and the smaller the sound is corrected. As a result, it is possible to correct a weak sound that is compatible with the human auditory system and is difficult to hear into a sound that is easy to hear. FIG. 4B is an experiment of how much difference occurs between a quiet environment and noise that can be subjectively recognized as noise. In the figure, P is the intensity of sound when listening in a quiet environment, and N is the intensity of sound when listening to the same sound in white noise. From this result, N shows the same characteristics as the replenishment phenomenon shown in FIG.
従って、実施例2で行う増幅は、増幅対象点の音声信号の増幅度を以下のように調整する。先ず第1に、デシベル表示の平均パワーL1がデシベル表示の平均パワーL2より所定の閾値(実施例2では5dB)以上高い場合(すなわちL1>L2+5)は、15ms(子音の長さの約1/3程度)程度のごく狭い範囲で振幅が増加しているだけであるから、この増加は雑音の増加とみなし、L1−L2を計算して、閾値より大きいか、以下かを算出する。閾値より大きい場合、子音判定部4は音声信号を雑音と判断する。閾値以下の場合は、次の基準で判定する。
Therefore, the amplification performed in the second embodiment adjusts the amplification degree of the audio signal at the amplification target point as follows. First, when the average power L 1 of decibels or more decibels of average power L 2 than the predetermined threshold value (Example 2, 5 dB) high (i.e. L 1>
第2に、L1−L2が閾値(5dB)以下であって、L3−20<L2<L3であれば、子音判定部4は子音または音節の端点と判断して増幅度λをλ=c・(L3−L2)として決定する。ここでc=0.9である。なお、デシベル表示した平均パワーの差(L3−L2)ではなく、平均パワーP2、P3の比率K23=P2/P3でも表現できる。このときλはλ=(K23 1/2)dとなる。この係数cの意味については図8を用いて実施例4で説明する。このとき、L3とL2のレベル差若しくはK23が大きいときほど大きく増幅することになり、20dBの差を2dBにまで圧縮することができる。なお、L2−L3=−20dBのときには増幅度λが18dBで最大となる。 Second, if L 1 -L 2 is equal to or less than the threshold (5 dB) and L 3 -20 <L 2 <L 3 , the consonant determination unit 4 determines that the end point of the consonant or syllable is the amplification factor λ Is determined as λ = c · (L 3 −L 2 ). Here, c = 0.9. It can be expressed not by the average power difference (L 3 −L 2 ) expressed in decibels but by the ratio of the average powers P 2 and P 3 , K 23 = P 2 / P 3 . At this time, λ becomes λ = (K 23 1/2 ) d . The meaning of the coefficient c will be described in Example 4 with reference to FIG. At this time, the larger the level difference between L 3 and L 2 , or the larger K 23 , the larger the amplification, and the 20 dB difference can be compressed to 2 dB. When L 2 −L 3 = −20 dB, the amplification factor λ becomes maximum at 18 dB.
さらに、L1−L2が閾値(5dB)以下で、L2<L3−20の場合、L2がL3より20dB以上低い場合は、前後の音声信号と比べてパワーが小さく、無理に増幅しても雑音との判別が難しくなるため、徐々に増幅度を低下させる。例えば、図7(b)のように、増幅度λをL2−L3が10dB下がるごとに4.5dB下げ、L2−L3が−60dBのときに増幅度λを0とする。しかし、図7(b)は一例としてあげたもので、ステップ状に低下させると、増幅度が不連続に変化するところで違和感のある音声となるので、より滑らかな一点鎖線のような低減の仕方をするのが好ましい。できれば、急激な変化をしないさらに滑らかな低減の仕方をするのが好ましい。 Furthermore, when L 1 -L 2 is equal to or less than the threshold value (5 dB) and L 2 <L 3 -20, if L 2 is 20 dB or more lower than L 3 , the power is small compared with the preceding and following audio signals, and it is impossible. Even if it is amplified, it becomes difficult to distinguish it from noise, so the degree of amplification is gradually reduced. For example, as shown in FIG. 7B, the amplification factor λ is decreased by 4.5 dB every time L 2 -L 3 decreases by 10 dB, and the amplification factor λ is set to 0 when L 2 -L 3 is −60 dB. However, FIG. 7 (b) is given as an example. If the stepwise reduction is performed, the sound becomes uncomfortable where the amplification degree changes discontinuously. It is preferable to If possible, it is preferable to perform a smoother reduction method that does not cause a sudden change.
なお、以上説明した子音加工装置、音声情報伝達装置及び子音加工方法は、子音強調処理装置、それを搭載した音声情報伝達装置、子音強調方法として有効であり、上述したようにL3−20<L2<L3の場合に増幅度を正の値にして音声信号を増幅方向に増幅したが、逆に増幅度λを負にすることにより音声信号を抑制方向にすることもできる。例えば、聴力障害者などに対する聴力検査、外国語学習者などに対する聞き取り訓練等を行う場合に、騒音を長時間にわたって聞かせ続けると聴力の低下、不快感を招くが、この手段、方法によれば、このような聴力検査装置や聞き取り訓練装置に有効な子音抑制処理装置、子音抑制方法となり、音声の加工が可能になる。 The consonant processing device, the speech information transmission device, and the consonant processing method described above are effective as a consonant enhancement processing device, a speech information transmission device equipped with the consonant enhancement processing device, and a consonant enhancement method. As described above, L 3 −20 < In the case of L 2 <L 3 , the amplification level is set to a positive value and the audio signal is amplified in the amplification direction, but conversely, the audio signal can be set to the suppression direction by making the amplification level λ negative. For example, when performing hearing tests for hearing impaired persons, listening training for foreign language learners, etc., continuing to listen to noise over a long period of time results in decreased hearing and discomfort. It becomes a consonant suppression processing apparatus and a consonant suppression method effective for such a hearing test apparatus and a listening training apparatus, and it becomes possible to process speech.
このように実施例2は、日本語のように重要な情報が音節の始まりに存在することが多いCV型の言語のほかに、英語等のような他の多様な言語に対しても、きわめて簡単な構成で容易に子音強調が可能になる。なお、音環境、使用目的に応じて、時間フレーム1の抽出幅、偏りや、最大ゲインなどのパラメータを変えることができる。
As described above, the second embodiment is extremely effective not only for CV type languages in which important information is often present at the beginning of syllables, but also for various other languages such as English. Consonant enhancement can be easily performed with a simple configuration. Note that parameters such as the extraction width, bias, and maximum gain of the
実施例2の子音加工装置、音声情報伝達装置及び子音加工方法は、複数の時間フレームによってそれぞれフレーム信号を抽出し、このフレーム信号の平均パワーを計算して比較するだけで子音強調が行えるから、並列的に様々の処理を行う必要がなく、リアルタイムに近い時間内に音声情報伝達が行え、論理判断が少なく信号処理が簡単で、騒音下、あるいは音声が他の音響信号と競合する状況であっても、また、難聴者、高齢者でも子音が聞き取り易くなり、これにより音声全体の強さを減らすことができ、環境が騒音化するのを防ぐことができる。また、多くの言語の子音強調に汎用的に利用でき、増幅度を簡単に調整できるため構成が簡単で安価な子音強調処理装置等の子音加工装置、音声情報伝達装置を提供することができる。 Since the consonant processing device, the voice information transmitting device, and the consonant processing method of the second embodiment extract the frame signal by each of a plurality of time frames, and calculate and compare the average power of the frame signal, the consonant enhancement can be performed. There is no need to perform various processes in parallel, voice information can be transmitted in near real time, there are few logic judgments, signal processing is simple, and there is a situation where noise or voice competes with other acoustic signals. However, consonant sounds can be easily heard even by a hearing impaired person or an elderly person, thereby reducing the strength of the entire voice and preventing the environment from becoming noisy. Further, it is possible to provide a consonant processing device such as a consonant emphasis processing device and a voice information transmission device that can be widely used for consonant emphasis in many languages and that the amplification degree can be easily adjusted.
また、子音抑制処理装置等として利用して増幅度を負にした場合、音声を子音または音節の端点が聞き取り難い音声に加工することができ、聴力検査、聞き取り訓練等に利用できる。 Further, when the amplification degree is set to a negative value by using it as a consonant suppression processing device or the like, the voice can be processed into a voice in which the end point of the consonant or syllable is difficult to hear, and can be used for hearing test, listening training and the like.
(実施例3)
本発明の実施例3における子音加工装置と音声情報伝達装置、子音加工方法について説明する。実施例3の子音加工装置と音声情報伝達装置も、CV型の言語の子音強調に好適なものである。
(Example 3)
A consonant processing device, a voice information transmission device, and a consonant processing method according to
図5は本発明の実施例3における子音加工装置とこれを搭載した音声情報伝達装置の構成図、図6は本発明の実施例3における子音加工装置の処理の説明図、図7(c)は本発明の実施例3における増幅時の増幅度の説明図である。なお、実施例3と実施例2とで同一符号は同様の構成であり、時間フレームの構成が異なるだけで、その余の点は実施例2と同様であるから、子音加工装置と音声情報伝達装置の基本的な構成の説明は実施例2に譲って省略する。 FIG. 5 is a configuration diagram of a consonant processing device and a voice information transmission device equipped with the consonant processing device according to the third embodiment of the present invention. FIG. 6 is an explanatory diagram of processing of the consonant processing device according to the third embodiment of the present invention. These are explanatory drawings of the degree of amplification at the time of amplification in Example 3 of the present invention. It should be noted that the same reference numerals in the third and second embodiments have the same configuration, and only the configuration of the time frame is different, and the other points are the same as in the second embodiment. The description of the basic configuration of the apparatus will be omitted to the second embodiment.
図6は、1はフレーム分割部、1aは第1時間フレーム、1bは第2時間フレームである。また、2はパワー算出部、2aは第1パワー算出部、2bは第2パワー算出部、3は比較部であり、4は子音判定部、5は遅延部、6は増幅部、7は増幅度決定部である。そして、10は実施例2の子音加工装置、11はマイク、12はスピーカ、20は実施例2の音声情報伝達装置である。これらは実施例2と同様の構成である。
In FIG. 6, 1 is a frame dividing unit, 1a is a first time frame, and 1b is a second time frame. 2 is a power calculation unit, 2a is a first power calculation unit, 2b is a second power calculation unit, 3 is a comparison unit, 4 is a consonant determination unit, 5 is a delay unit, 6 is an amplification unit, and 7 is amplification. It is a degree determination part.
実施例3の特徴的な点は、実施例2が第3時間フレーム1cによって1〜3音節分を抽出して前後、あるいは前の部分または後の部分の音節から増幅の判断を行ったのに対して、第2時間フレーム1bに連続して第4時間フレーム1dを設け、後続の音節と比較することによって増幅度λを調整する点である。
The characteristic point of the third embodiment is that the second embodiment extracts 1 to 3 syllables by the
図6において、1dは第4時間フレームであり、子音を抽出可能な抽出幅を有して第2時間フレーム1bの直後に設けられる。また、2dは第3パワー算出部であり、第4時間フレーム1dから出力されたフレーム信号y4(t)の平均パワーP4をデシベル表示した平均パワーL4を演算する。なお、平均パワーP4は(数1)において、i=4とする。
In FIG. 6,
実施例3の第1時間フレーム1aは窓関数w1(t)=1(ここでT−τ1≦t≦T+τ1)、w1(t)=0(それ以外のとき)で構成され、第2時間フレーム1bは窓関数w2(t)=1(ここでT−τ2≦t≦T+τ2)、w2(t)=0(それ以外のとき)、第4時間フレーム1dは窓関数w4(t)=1(ここでT+τ2≦t≦T+τ2+2τ4)、w4(t)=0(それ以外のとき)で構成される。単位はmsである。τ2=τ4であるが、τ2とτ4を異なったパラメータとすることもできる。
The
このτ1,τ2,τ4は経験的に定められるもので、実施例2においてはτ1=7.5ms程度、τ2,τ4=25ms程度に設定される。従って、w1(t)=1(ここでT−7.5≦t≦T+7.5)、w1(t)=0(それ以外のとき)で構成され、第2時間フレーム1bは窓関数w2(t)=1(ここでT−25≦t≦T+25)、w2(t)=0(それ以外のとき)、第4時間フレーム1dは窓関数w4(t)=1(ここでT+25≦t≦T+75)、w4(t)=0(それ以外のとき)となる。
These τ 1 , τ 2 , and τ 4 are determined empirically. In the second embodiment, τ 1 = 7.5 ms and τ 2 , τ 4 = 25 ms are set. Accordingly, w 1 (t) = 1 (here, T−7.5 ≦ t ≦ T + 7.5), w 1 (t) = 0 (otherwise), and the
次に、実施例3で行う増幅について説明する。先ず第1に、平均パワーL1が平均パワーL2より所定の閾値(実施例2では5dB)以上高い場合(すなわちL1>L2+5)は、15ms程度のごく狭い範囲で振幅が増加しているだけであるから、この増加は雑音の増加とみなし、L1−L2を計算して、閾値より大きいか、以下かを算出する。閾値より大きい場合、子音判定部4は音声信号を雑音と判断する。閾値以下の場合は、次の基準で判定する。 Next, amplification performed in the third embodiment will be described. First of all, when the average power L 1 is higher than the average power L 2 by a predetermined threshold (5 dB in the second embodiment) or more (that is, L 1 > L 2 +5), the amplitude increases in a very narrow range of about 15 ms. Therefore, this increase is regarded as an increase in noise, and L 1 -L 2 is calculated to calculate whether it is greater than or less than the threshold. When it is larger than the threshold, the consonant determination unit 4 determines that the voice signal is noise. If it is less than or equal to the threshold value, it is determined according to the following criteria.
第2に、L1−L2が閾値(5dB)以下であって、L4−20<L2<L4であれば、子音判定部4は子音または音節の端点と判断して増幅度λをλ=c・(L4−L2)として決定する。ここでc=0.72である。なお、デシベル表示した平均パワーの差(L4−L2)ではなく、平均パワーP2、P4の比率K24=P2/P4でも表現できる。このときλはλ=(K24 1/2)dとなる。dも係数である。係数cの意味については図8を用いて実施例4で説明する。これらは、子音と母音が交互に続く配列のとき、子音または音節の端点は母音に比べて平均パワーが小さいため、L2のレベルとL4のレベルを比較してL2が小さければ、第2時間フレーム1bに子音あるいは音節の始点があると考え、増幅対象点または増幅対象幅を増幅することを意味する。
Secondly, if L 1 −L 2 is equal to or less than the threshold (5 dB) and L 4 −20 <L 2 <L 4 , the consonant determination unit 4 determines that the end point of the consonant or syllable and determines the amplification factor λ Is determined as λ = c · (L 4 −L 2 ). Here, c = 0.72. It can be expressed not by the average power difference (L 4 −L 2 ) expressed in decibels but also by the ratio of the average powers P 2 and P 4 , K 24 = P 2 / P 4 . At this time, λ becomes λ = (K 24 1/2 ) d . d is also a coefficient. The meaning of the coefficient c will be described in Example 4 with reference to FIG. These, when consonants and vowels followed alternating arrangement, since the end point of the consonant or syllable less average power than the vowels, the smaller the L 2 compares the level of L 2 level and L 4, the It means that the start point of the consonant or syllable is considered in the 2-
なお、図6に示す実施例3の増幅対象点は、第2時間フレーム1b、第4時間フレーム1dの境界の点である。実施例1,2と同様に、第1時間フレーム1a、第2時間フレーム1bの中央位置の音声信号を増幅するのでもよいが、第2時間フレーム1b、第4時間フレーム1dを設けた場合、この境界を増幅する方が効果を期待でき、実施例3においてはこの境界を増幅対象点としている。また、第2時間フレーム1b、第4時間フレーム1dの双方に跨って第1時間フレーム1aを配置し、境界または付近の増幅対象点または増幅対象幅を増幅するか否かを決定することもできる。このとき、第1時間フレーム1aを包含する第5時間フレーム(図示しない)を設けて、音声信号が雑音であるか否かを判断し、雑音でないと判断された場合にのみ増幅対象点または増幅対象幅を増幅するのが好適である。
Note that the amplification target points in Example 3 shown in FIG. 6 are the boundary points between the
デシベル表示した平均パワーL4とL2のレベル差が大きいときほど大きく増幅し、20dBの差を5.6dBにまで圧縮することができる。L2−L4=−20dBのときには増幅度が14.4dBで最大となる。 The larger the level difference between the average powers L 4 and L 2 displayed in decibels, the larger the amplification, and the difference of 20 dB can be compressed to 5.6 dB. When L 2 −L 4 = −20 dB, the amplification degree is maximum at 14.4 dB.
なお、以上説明した子音加工装置、音声情報伝達装置及び子音加工方法は、子音強調処理装置、それを搭載した音声情報伝達装置、子音強調方法として有効であり、L3−20<L2<L3の場合に増幅度λを上げたが、逆に増幅を抑制して増幅度λを負にすることもできる。例えば、聴力障害者などに対する聴力検査、聞き取り訓練等を行う場合に、騒音を長時間にわたって聞かせ続けると聴力の低下、不快感を招くが、この手段、方法によれば、このような聴力検査装置や聞き取り訓練装置に有効な子音抑制処理装置、子音抑制方法となり、音声の加工が可能になる。 The consonant processing device, the speech information transmission device, and the consonant processing method described above are effective as a consonant enhancement processing device, a speech information transmission device including the consonant enhancement processing device, and a consonant enhancement method, and L 3 -20 <L 2 <L. Although the amplification factor λ is increased in the case of 3 , the amplification factor λ can be made negative by suppressing the amplification. For example, when performing hearing tests, hearing training, etc. for persons with hearing impairment, etc., if the noise continues to be heard for a long time, hearing loss is reduced and uncomfortable feelings. And a consonant suppression processing device and a consonant suppression method that are effective for a listening training apparatus, and voice processing becomes possible.
さらに、L1−L2が閾値(5dB)以下で、L2<L4−20の場合、L2がL4より20dB以上低い場合は、前後の音声信号と比べてパワーが小さく、無理に増幅しても雑音との判別が難しくなるため、徐々に増幅度を低下させる。例えば、図7(c)のように、増幅度λをL2−L4が10dB下がるごとに3.6dB下げ、L2−L3が−60dBのときに増幅度λを0とするものである。しかし、図7(c)は一例としてあげたもので、ステップ状に低下させると、増幅度が不連続に変化するところで違和感のある音声となるので、より滑らかな一点鎖線のような低減の仕方をするのが好ましい。 Furthermore, when L 1 -L 2 is equal to or less than the threshold value (5 dB) and L 2 <L 4 -20, if L 2 is 20 dB or more lower than L 4 , the power is small compared to the previous and next audio signals, and it is impossible. Even if it is amplified, it becomes difficult to distinguish it from noise, so the degree of amplification is gradually reduced. For example, as shown in FIG. 7C, the amplification factor λ is decreased by 3.6 dB every time L 2 -L 4 decreases by 10 dB, and the amplification factor λ is set to 0 when L 2 -L 3 is −60 dB. is there. However, FIG. 7 (c) is given as an example, and if it is lowered in a stepped manner, the sound becomes uncomfortable where the amplification level changes discontinuously. It is preferable to
このように実施例3は、とくに日本語やイタリア語のように重要な情報が音節の始まりに存在することが多いCV型の言語に対して、きわめて簡単な構成で容易に子音強調が可能になる。なお、音環境、使用目的に応じて、時間フレーム1の抽出幅、偏りや、最大ゲインなどのパラメータを変えることができる。
As described above, the third embodiment makes it possible to easily emphasize consonants with a very simple configuration, especially for a CV type language in which important information is often present at the beginning of syllables, such as Japanese and Italian. Become. Note that parameters such as the extraction width, bias, and maximum gain of the
さらに、実施例1,2のフレーム分割は日本語でも外国語でも子音強調を行える汎用性のあるものであるが、実施例3のフレーム分割は日本語等のCV型の言語の子音強調を効果的に行えるものである。従って、実施例3のフレーム分割を単独で使用しても、実施例1,2のフレーム分割と組合せて使用することもできる。このとき、2つの処理を並行して行い、増幅度の大きい方を選ぶようにすればよい。 Furthermore, the frame divisions of the first and second embodiments are versatile enough to perform consonant enhancement in both Japanese and foreign languages, but the frame division of the third embodiment is effective for consonant enhancement of CV type languages such as Japanese. It can be done. Therefore, the frame division of the third embodiment can be used alone or in combination with the frame division of the first and second embodiments. At this time, the two processes may be performed in parallel to select the one with the larger amplification degree.
なお、実施例3の子音加工装置と音声情報伝達装置は、子音と母音の判断を逆にするだけで、VC(Vowel- Consonant)型の子音強調処理に応用することができる。子音判定部4が子音または音節の端点でないと判断した場合には、音声信号の増幅対象点または増幅対象幅を増幅せず、子音または音節の端点と判断した場合に音声信号の増幅対象点または増幅対象幅を増幅すればよい。この場合、音節の終端部が強調され、音節の終端部が強調され、CV型言語以外の外国語の子音強調が効果的に行える。日本語においても、撥音「ん」、発声のさいに母音が脱落し無声化した音節などに対して効果がある。 Note that the consonant processing device and the speech information transmission device of the third embodiment can be applied to a VC (Vowel-Consonant) type consonant enhancement process only by reversing the determination of consonants and vowels. When the consonant determination unit 4 determines that it is not the end point of a consonant or syllable, it does not amplify the amplification target point or the amplification target width of the audio signal, but when it is determined as the end point of a consonant or syllable, What is necessary is just to amplify the amplification object width. In this case, the end part of the syllable is emphasized, the end part of the syllable is emphasized, and consonant emphasis of foreign languages other than the CV type language can be effectively performed. Even in Japanese, it is effective for sound-repellent “n”, syllables that are voicing and become silent when uttered.
また、増幅度を負にした場合、音声を子音または音節の端点が聞き取り難い音声に加工することができ、聴力検査、聞き取り訓練等に利用できる。 Further, when the amplification degree is negative, the voice can be processed into a voice in which the end points of consonants or syllables are difficult to hear, and can be used for hearing test, listening training and the like.
以上説明したように、実施例3の子音加工装置、音声情報伝達装置及び子音加工方法は、フレーム信号の平均パワーの差を比較するだけで子音強調が行えるから、並列的に様々の処理を行う必要がなく、リアルタイムに近い時間内に音声情報伝達が行え、論理判断が少なく信号処理が簡単で、騒音下、あるいは音声が他の音響信号と競合する状況であっても、また、難聴者、高齢者でも子音が聞き取り易くなり、これにより音声の明瞭さを損なうことなく音声全体の強さを減らすことができ、境騒音が増加するのを防ぐことができる。また、日本語等のCV型の言語の子音強調に好適で、増幅度を簡単に調整できるため構成が簡単で、安価に製造できる音強調処理装置等の子音加工装置、音声情報伝達装置を提供することができる。そして、子音または音節の端点でないと判断した場合には、音声信号の増幅対象点または増幅対象幅を増幅せず、子音または音節の端点と判断した場合に音声信号の増幅対象点または増幅対象幅を増幅すると、音節の終端部が強調され、CV型言語以外の外国語などの子音強調が効果的に行え、また、子音抑制処理装置等として利用すれば、音声を聴力検査、聞き取り訓練等のために加工できる。 As described above, the consonant processing device, the speech information transmission device, and the consonant processing method of the third embodiment can perform consonant enhancement only by comparing the difference in average power of frame signals, and thus perform various processes in parallel. It is not necessary, can transmit voice information in a time close to real time, has few logic judgments, is easy to process signals, even under noisy conditions or when the voice competes with other acoustic signals. Even elderly people can easily hear consonants, thereby reducing the strength of the whole voice without impairing the clarity of the voice, and preventing an increase in boundary noise. Moreover, it is suitable for consonant enhancement of CV type languages such as Japanese, and provides a consonant processing device such as a sound enhancement processing device and a voice information transmission device that can be manufactured at low cost because the amplification degree can be easily adjusted. can do. If it is determined that it is not the end point of a consonant or syllable, the amplification target point or amplification target width of the audio signal is not amplified, and if it is determined that it is an end point of a consonant or syllable, the amplification target point or amplification target width of the audio signal , The end of the syllable is emphasized, and consonant enhancement such as foreign languages other than the CV type language can be effectively performed. Also, when used as a consonant suppression processing device, the speech is used for hearing test, listening training, etc. Can be processed for.
(実施例4)
本発明の実施例4における子音加工装置と音声情報伝達装置、子音加工方法について説明する。図8は本発明の実施例4における子音加工装置の増幅特性の説明図、図9は音声刺激のパターン説明図、図10は音声刺激ごとの子音強調処理前後の正答率の比較図である。
Example 4
A consonant processing device, a voice information transmission device, and a consonant processing method according to Embodiment 4 of the present invention will be described. FIG. 8 is an explanatory diagram of the amplification characteristics of the consonant processing device according to the fourth embodiment of the present invention, FIG. 9 is an explanatory diagram of a voice stimulus pattern, and FIG. 10 is a comparison diagram of correct answer rates before and after consonant enhancement processing for each voice stimulus.
実施例3の比較部3はデシベル表示した平均パワーLi(i=1,2,4)の差を計算して増幅度を計算したが、実施例4は各時間フレームの平均パワーPi(i=1,2,4)の比率を計算して増幅度を計算するものである。従って、実施例4と実施例3とで同一符号は同様の構成であり、比較部3の計算方法が異なるだけで、その余の点は実施例3と同様である。これらの詳細な説明は実施例3に譲ってここでは省略する。従って、図5、図6を参照する。
The
実施例4においては、比較部3が各フレーム信号の平均パワーPi(i=1,2,4)の比率Kij=Pi/Pj(i,j=1,2,4;i<j)を計算し、増幅度決定部7で増幅度を算出する。L1とL2の関係は実施例3と同様に比率で雑音を判別できればよい。そこで、以下L2とL4の関係を説明する。
In the fourth embodiment, the
比較部3は、第2パワー算出部2bからの出力であるデシベル表示したL2、第4パワー算出部2dからの出力であるデシベル表示したL4の差L2−L4を算出し、L2−L4>0であれば増幅度決定部7は増幅を行わない。比率K24=P2/P4で判定する場合、K24>1となる。これは図10においてA点よりLが大きい場合である。
これに対し、L2−L4≦0、あるいは比率K24≦1の場合、増幅度決定部7は増幅を行う。この場合、増幅度λ=c・(L2−L4)となる。図8においては、このcは(線分βγ)/(線分αγ)で表される比で表される。cを増やすほど増幅度が大きくなり、c
が0のときには音声信号が増幅されない。破線上のγ点の入力があったとき、L2<L4であれば、出力は線分βγ分持ち上げられ、β点にまで増幅されることを意味する。
On the other hand, when L 2 −L 4 ≦ 0 or the ratio K 24 ≦ 1, the amplification degree determination unit 7 performs amplification. In this case, the amplification degree is λ = c · (L 2 −L 4 ). In FIG. 8, this c is represented by a ratio represented by (line segment βγ) / (line segment αγ). Increasing c increases the degree of amplification, and c
When is 0, the audio signal is not amplified. If there is an input of a γ point on the broken line, if L 2 <L 4 , it means that the output is lifted by the line segment βγ and amplified to the β point.
図8においてB点はニーポイント(増幅度の切り換わり点)であって、これ以下のレベルの入出力信号はノイズと判別が難しくなるので、増幅度を下げている。図8の場合、ニーポイントB点を−20dBとし、ニーポイントB点より小さな入出力信号に対しては、増幅度を徐々に下げ、ニーポイントB点で増幅度が最大となる。 In FIG. 8, point B is a knee point (amplification degree switching point), and an input / output signal at a level below this becomes difficult to distinguish from noise, so the amplification degree is lowered. In the case of FIG. 8, the knee point B point is set to −20 dB, and for input / output signals smaller than the knee point B point, the amplification degree is gradually decreased, and the amplification degree is maximized at the knee point B point.
また、実施例4の子音加工装置と音声情報伝達装置は、デシベル表示した平均パワーの差L2−L4がL2−L4>0、L2−L4≦0、あるいは平均パワーP2,P4の比率K24>1とK24≦1における判断を逆にすることなどで、VC型の子音強調処理に応用することができる。すなわち、増幅対象点または増幅対象幅の増幅度の判断を逆にすることで、音節の終端部が強調され、CV型言語以外の外国語の子音強調が効果的に行える。そして、このフレーム分割を実施例1,2,3のフレーム分割と組合せて使用することもできる。組合せる場合、2つの処理を並行して行い、増幅度の大きい方を選ぶようにすればよい。これにより、音節の最終端と判断される場合に比率K24が1以下であれば音声信号を増幅するので、音節の最後を明瞭にすることができる。 Further, in the consonant processing device and the speech information transmission device according to the fourth embodiment, the average power difference L 2 −L 4 expressed in decibels is L 2 −L 4 > 0, L 2 −L 4 ≦ 0, or the average power P 2. , P 4 ratios K 24 > 1 and K 24 ≦ 1, for example, can be applied to VC-type consonant enhancement processing. That is, by inverting the determination of the amplification target point or the amplification degree of the amplification target width, the terminal part of the syllable is emphasized, and consonant enhancement of foreign languages other than the CV type language can be effectively performed. This frame division can also be used in combination with the frame divisions of the first, second, and third embodiments. When combining, two processes should be performed in parallel and the one with the larger amplification degree may be selected. Thus, the ratio K 24 amplifies the audio signal if 1 or less when it is determined that the final end of the syllable, it is possible to clarify the last syllable.
さて、実施例4の子音加工装置の有効性を確認するために、明瞭度を検証した。音声刺激としては、「人工内耳装用による語音聴取評価検査(CI2004)」(日本人工内耳研究会編)に収録されている成人用子音検査の音源を用いた。この音源には、「aba」,「ada」,「aga」,「aha」,「aka」,「ama」,「ana」,「apa」,「ara」,「asa」,「ata」,「awa」,「aya」,「aza」の14種類のVCV音節が設けられている。この音源を44.1kHzで、子音強調処理を施したものと処理しないものを用意し、図9に示すように上限、下限周波数が8000Hz、50Hzの背景雑音を加えて、音声刺激とした。背景雑音の継続時間は5000ms、500msの立ち上がり及び立ち下りを設け、5000msの継続時間の中央に子音強調処理を施した音声刺激を配した。次の音声刺激までの時間間隔は2000msとした。 Now, in order to confirm the effectiveness of the consonant processing device of Example 4, the intelligibility was verified. As a voice stimulus, a sound source for adult consonant examination recorded in “Evaluation test for speech listening by wearing a cochlear implant (CI2004)” (edited by the Japan Cochlear Implant Research Group) was used. The sound source includes “aba”, “ada”, “aga”, “aha”, “aka”, “ama”, “ana”, “apa”, “ara”, “asa”, “ata”, “ Fourteen types of VCV syllables “awa”, “aya”, and “aza” are provided. This sound source was prepared at 44.1 kHz and subjected to consonant emphasis processing and not processed, and as shown in FIG. 9, background noise having upper and lower limit frequencies of 8000 Hz and 50 Hz was added to obtain a voice stimulus. The background noise has a duration of 5000 ms and a rise and fall of 500 ms, and a voice stimulus subjected to consonant enhancement processing is arranged at the center of the duration of 5000 ms. The time interval until the next voice stimulus was 2000 ms.
この音声刺激を正常な聴力をもつ14人の実験参加者に与え、子音強調処理を施したものと処理しないものとで正答率を比較した。図10は音声刺激ごとの子音強調処理前後の正答率を比較したものである。図10で両者の全体の平均値を比較すると、子音強調処理を施したものの方が処理しないものより高いことが分かる。実施例1の子音加工装置が有効に機能していることが分かる。 This voice stimulus was given to 14 experimental participants with normal hearing ability, and the correct answer rates were compared between those subjected to consonant enhancement processing and those not processed. FIG. 10 compares the correct answer rate before and after the consonant enhancement processing for each voice stimulus. Comparing the average value of both of them in FIG. 10, it can be seen that the one subjected to the consonant enhancement process is higher than the one not processed. It turns out that the consonant processing apparatus of Example 1 is functioning effectively.
この中で、とくに「asa」,「aza」の正答率が高いのは、「s」や「z」のエネルギーの大半が8000Hz以上で背景雑音によってマスクされなかったからと考えられるし、摩擦音は摩擦性の雑音、及び前後の母音との遷移部(VOTや無音区間)に特徴があるため、「s」や「z」はこの遷移部より雑音部(子音部)に多くの音声情報をもっているとみられることから、実施例1の増幅部6による子音強調処理が有効に機能し、明瞭度を増したと考えられる。 Among them, the correct answer rate of “asa” and “aza” is particularly high because most of the energy of “s” and “z” is over 8000 Hz and was not masked by background noise. S and “z” are considered to have more audio information in the noise part (consonant part) than in this transition part. Therefore, it is considered that the consonant enhancement processing by the amplifying unit 6 of Example 1 functions effectively, and the clarity is increased.
これに対し、「aba」,「ada」,「aga」は有声閉鎖子音であり、第2ホルマント遷移の形状が音声の識別に大きな影響を与える。有声破裂子音はこの第2ホルマント遷移に多くの音声情報を有しているとみられ、また、第2ホルマント遷移部の振幅は母音に対して大きい値を示すために、実施例1の増幅部6による子音強調処理を行ったものと行わなかったものとで、明瞭度にはそれほど差が出なかったものと考えられる。 On the other hand, “aba”, “ada”, and “aga” are voiced closed consonants, and the shape of the second formant transition has a great influence on the voice identification. The voiced burst consonant is considered to have a lot of voice information in the second formant transition, and the amplitude of the second formant transition part shows a large value with respect to the vowel. It is considered that there was not much difference in clarity between those with and without the consonant enhancement processing.
このように実施例4の子音加工装置、音声情報伝達装置及び子音加工方法は、フレーム信号の平均パワーの比率を比較するだけで子音強調が行えるから、並列的に様々の処理を行う必要がなく、リアルタイムに近い時間内に音声情報伝達が行え、信号処理が簡単で、騒音下、あるいは音声が他の音響信号と競合する状況であっても、また、難聴者、高齢者でも子音が聞き取り易くなり、これにより音声の明瞭さを損なうことなく音声全体の強さを減らすことができ、環境騒音が増加するのを防ぐことができる。また、日本語等のCV型の言語の子音強調に好適で、増幅度を簡単に調整できるため構成が簡単で、安価に製造できる子音強調処理装置等の子音加工装置、音声情報伝達装置を提供することができる。 As described above, the consonant processing device, the speech information transmission device, and the consonant processing method of the fourth embodiment can perform consonant enhancement only by comparing the ratios of the average powers of the frame signals. Therefore, it is not necessary to perform various processes in parallel. Voice information can be transmitted in a time close to real time, signal processing is simple, and consonants are easy to hear even in deaf and elderly people, even under noisy conditions or when the voice competes with other acoustic signals. Thus, the strength of the entire voice can be reduced without impairing the clarity of the voice, and an increase in environmental noise can be prevented. Also suitable for consonant emphasis in CV type languages such as Japanese, and providing a consonant processing device such as a consonant emphasis processing device and a voice information transmission device that can be manufactured at low cost because the amplification level can be easily adjusted. can do.
また、実施例3と同様に増幅度を負にした場合、子音抑制処理装置等として音声を子音または音節の端点が聞き取り難い音声に加工することができ、聴力検査、聞き取り訓練等に利用できる。 Further, when the amplification degree is negative as in the third embodiment, the speech can be processed into speech in which consonant or syllable end points are difficult to hear as a consonant suppression processing device or the like, which can be used for hearing test, listening training, and the like.
(実施例5)
以下、本発明の実施例5における子音加工装置と音声情報伝達装置、子音加工方法について説明する。図11は本発明の実施例5における子音加工装置とこれを搭載した音声情報伝達装置の構成図である。
(Example 5)
Hereinafter, a consonant processing device, a voice information transmission device, and a consonant processing method according to
実施例5における子音加工装置は、音声信号の子音あるいは音節の境界をより明瞭に検出するために、予め音声信号を処理して時間フレーム1に入力するものである。
The consonant processing apparatus according to the fifth embodiment processes a speech signal in advance and inputs it into the
図11に示す8はフレーム分割部1の直前に置かれたフィルタ部である。フィルタ部8は、3000Hz以下の周波数成分を通過させ1000Hz近辺にピークがあるような特性を有しており、これによって子音または音節の境界をより適切に検出することが可能になる。なお、実施例5は、実施例1の子音加工装置10と音声情報伝達装置20にフィルタ部8を設けたものを示しているが、フィルタ部8を実施例2〜4の子音加工装置10と音声情報伝達装置20に設けるのでも同様である。これらは図示しない。
Reference numeral 8 shown in FIG. 11 denotes a filter unit placed immediately before the
このように実施例5の子音加工装置、音声情報伝達装置及び子音加工方法は、簡単に子音若しくは音節の境界を明瞭に検出することができ、騒音下、あるいは音声が他の音響信号と競合する状況であっても、また、難聴者、高齢者でも聞き取り易くなる。 As described above, the consonant processing device, the voice information transmitting device, and the consonant processing method of the fifth embodiment can easily detect the boundary between consonants or syllables easily, and the noise or the voice competes with other acoustic signals. Even in situations, it is easy for the hearing impaired and elderly people to hear.
本発明は、アナウンス放送装置や携帯電話等、補聴器等の音声情報伝達装置に適用できる。 The present invention can be applied to audio information transmission devices such as hearing aids, such as announcement broadcasting devices and mobile phones.
1 フレーム分割部
1a 第1時間フレーム
1b 第2時間フレーム
1c 第3時間フレーム
1d 第4時間フレーム
2 パワー算出部
2a 第1パワー算出部
2b 第2パワー算出部
2c 第3パワー算出部
2d 第4パワー算出部
3 比較部
4 子音判定部
5 遅延部
6 増幅部
7 増幅度決定部
8 フィルタ部
10 子音加工装置
11 マイク
12 スピーカ
20 音声情報伝達装置
DESCRIPTION OF
Claims (16)
前記フレーム信号のそれぞれで平均パワーを算出するパワー算出部と、
前記フレーム信号間で平均パワーを互いに比較する比較部と、
前記比較部の比較結果に基づいて前記音声信号の増幅対象点または増幅対象幅が子音または音節の端点であるか否かを判定する子音判定部と、
前記子音判定部が子音または音節の端点と判断した場合は前記音声信号の増幅対象点または増幅対象幅を増幅すると共に、子音または音節の端点でないと判断した場合は増幅しない増幅部とを備えたことを特徴とする子音加工装置。 A frame dividing unit that extracts a frame signal from each of a plurality of time frames from an input audio signal;
A power calculator that calculates an average power for each of the frame signals;
A comparison unit for comparing average powers between the frame signals;
A consonant determination unit that determines whether an amplification target point or an amplification target width of the audio signal is an end point of a consonant or a syllable based on a comparison result of the comparison unit;
When the consonant determination unit determines that it is an end point of a consonant or syllable, the amplification unit includes an amplification unit that amplifies the amplification target point or the amplification target width of the audio signal and does not amplify when it is determined that it is not the end point of a consonant or syllable A consonant processing apparatus characterized by that.
前記フレーム信号のそれぞれで平均パワーを算出するパワー算出部と、
前記フレーム信号間で平均パワーを互いに比較する比較部と、
前記比較部の比較結果に基づいて前記音声信号の増幅対象点または増幅対象幅が子音または音節の端点であるか否かを判定する子音判定部と、
前記子音判定部が子音または音節の端点と判断した場合は前記音声信号の増幅対象点または増幅対象幅の増幅度を増幅方向に決定すると共に、子音または音節の端点でないと判断した場合は前記音声信号を増幅しない旨決定する増幅度決定部と、
前記増幅度決定部が決定した増幅度に応じて前記音声信号を増幅する増幅部とを備えたことを特徴とする子音加工装置。 A frame dividing unit that extracts a frame signal from each of a plurality of time frames from an input audio signal;
A power calculator that calculates an average power for each of the frame signals;
A comparison unit for comparing average powers between the frame signals;
A consonant determination unit that determines whether an amplification target point or an amplification target width of the audio signal is an end point of a consonant or a syllable based on a comparison result of the comparison unit;
When the consonant determination unit determines that it is an end point of a consonant or syllable, it determines the amplification target point or amplification target width of the audio signal in the amplification direction, and when it determines that it is not an end point of a consonant or syllable An amplification degree determination unit that determines that the signal is not amplified;
A consonant processing apparatus comprising: an amplification unit that amplifies the audio signal in accordance with the amplification degree determined by the amplification degree determination unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006040187A JP4876245B2 (en) | 2006-02-17 | 2006-02-17 | Consonant processing device, voice information transmission device, and consonant processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006040187A JP4876245B2 (en) | 2006-02-17 | 2006-02-17 | Consonant processing device, voice information transmission device, and consonant processing method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007219188A true JP2007219188A (en) | 2007-08-30 |
JP4876245B2 JP4876245B2 (en) | 2012-02-15 |
Family
ID=38496566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006040187A Active JP4876245B2 (en) | 2006-02-17 | 2006-02-17 | Consonant processing device, voice information transmission device, and consonant processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4876245B2 (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010091897A (en) * | 2008-10-10 | 2010-04-22 | Kyushu Univ | Voice signal emphasis device |
WO2010087171A1 (en) * | 2009-01-29 | 2010-08-05 | パナソニック株式会社 | Hearing aid and hearing aiding method |
CN102222507A (en) * | 2011-06-07 | 2011-10-19 | 中国科学院声学研究所 | Method and equipment for compensating hearing loss of Chinese language |
JP2013152442A (en) * | 2011-12-27 | 2013-08-08 | Panasonic Corp | Speech enhancement device |
JP2014209182A (en) * | 2013-03-27 | 2014-11-06 | パナソニック株式会社 | Sound emphasizing device and method |
WO2019216037A1 (en) * | 2018-05-10 | 2019-11-14 | 日本電信電話株式会社 | Pitch enhancement device, method, program and recording medium therefor |
WO2024024122A1 (en) * | 2022-07-26 | 2024-02-01 | パナソニックIpマネジメント株式会社 | Voice processing method, program, and voice processing system |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60147797A (en) * | 1984-01-12 | 1985-08-03 | 松下電器産業株式会社 | Voice recognition equipment |
JPH01260499A (en) * | 1988-04-12 | 1989-10-17 | Matsushita Electric Ind Co Ltd | Consonant recognizing method |
JPH0283595A (en) * | 1988-09-21 | 1990-03-23 | Matsushita Electric Ind Co Ltd | Speech recognizing method |
JPH07129190A (en) * | 1993-09-10 | 1995-05-19 | Hitachi Ltd | Talk speed change method and device and electronic device |
JPH0916193A (en) * | 1995-06-30 | 1997-01-17 | Hitachi Ltd | Speech-rate conversion device |
WO2004111996A1 (en) * | 2003-06-11 | 2004-12-23 | Matsushita Electric Industrial Co., Ltd. | Acoustic interval detection method and device |
-
2006
- 2006-02-17 JP JP2006040187A patent/JP4876245B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60147797A (en) * | 1984-01-12 | 1985-08-03 | 松下電器産業株式会社 | Voice recognition equipment |
JPH01260499A (en) * | 1988-04-12 | 1989-10-17 | Matsushita Electric Ind Co Ltd | Consonant recognizing method |
JPH0283595A (en) * | 1988-09-21 | 1990-03-23 | Matsushita Electric Ind Co Ltd | Speech recognizing method |
JPH07129190A (en) * | 1993-09-10 | 1995-05-19 | Hitachi Ltd | Talk speed change method and device and electronic device |
JPH0916193A (en) * | 1995-06-30 | 1997-01-17 | Hitachi Ltd | Speech-rate conversion device |
WO2004111996A1 (en) * | 2003-06-11 | 2004-12-23 | Matsushita Electric Industrial Co., Ltd. | Acoustic interval detection method and device |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010091897A (en) * | 2008-10-10 | 2010-04-22 | Kyushu Univ | Voice signal emphasis device |
WO2010087171A1 (en) * | 2009-01-29 | 2010-08-05 | パナソニック株式会社 | Hearing aid and hearing aiding method |
US8374877B2 (en) | 2009-01-29 | 2013-02-12 | Panasonic Corporation | Hearing aid and hearing-aid processing method |
CN102222507A (en) * | 2011-06-07 | 2011-10-19 | 中国科学院声学研究所 | Method and equipment for compensating hearing loss of Chinese language |
JP2013152442A (en) * | 2011-12-27 | 2013-08-08 | Panasonic Corp | Speech enhancement device |
US8892434B2 (en) | 2011-12-27 | 2014-11-18 | Panasonic Corporation | Voice emphasis device |
JP2014209182A (en) * | 2013-03-27 | 2014-11-06 | パナソニック株式会社 | Sound emphasizing device and method |
US9245537B2 (en) | 2013-03-27 | 2016-01-26 | Panasonic Intellectual Property Management Co., Ltd. | Speech enhancement apparatus and method for emphasizing consonant portion to improve articulation of audio signal |
WO2019216037A1 (en) * | 2018-05-10 | 2019-11-14 | 日本電信電話株式会社 | Pitch enhancement device, method, program and recording medium therefor |
JPWO2019216037A1 (en) * | 2018-05-10 | 2021-05-13 | 日本電信電話株式会社 | Pitch enhancer, its method, program, and recording medium |
WO2024024122A1 (en) * | 2022-07-26 | 2024-02-01 | パナソニックIpマネジメント株式会社 | Voice processing method, program, and voice processing system |
Also Published As
Publication number | Publication date |
---|---|
JP4876245B2 (en) | 2012-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10475467B2 (en) | Systems, methods and devices for intelligent speech recognition and processing | |
US8374877B2 (en) | Hearing aid and hearing-aid processing method | |
JP4876245B2 (en) | Consonant processing device, voice information transmission device, and consonant processing method | |
US20100131268A1 (en) | Voice-estimation interface and communication system | |
US8582792B2 (en) | Method and hearing aid for enhancing the accuracy of sounds heard by a hearing-impaired listener | |
US20060126859A1 (en) | Sound system improving speech intelligibility | |
Monson et al. | Detection of high-frequency energy level changes in speech and singing | |
JP5115818B2 (en) | Speech signal enhancement device | |
Kleczkowski et al. | Lombard effect in Polish speech and its comparison in English speech | |
KR100956167B1 (en) | Creation Method of channel of digital hearing-aid and Multi-channel digital hearing-aid | |
JPH08179792A (en) | Speech processing device | |
Hodoshima | Effects of Urgent Speech and Preceding Sounds on Speech Intelligibility in Noisy and Reverberant Environments. | |
Vaughan et al. | Time-expanded speech and speech recognition in older adults. | |
JP2008102551A (en) | Apparatus for processing voice signal and processing method thereof | |
JP2008085520A (en) | Broadcaster | |
KR101682796B1 (en) | Method for listening intelligibility using syllable-type-based phoneme weighting techniques in noisy environments, and recording medium thereof | |
JP2006208820A (en) | Speech processor | |
Hodoshima et al. | Intelligibility of speech spoken in noise and reverberation | |
JP2005202335A (en) | Method, device, and program for speech processing | |
Howell | Effect of speaking environment on speech production and perception | |
JPS5879400A (en) | Hearing aid | |
JP3632384B2 (en) | Hearing aids | |
Jayan et al. | Automated CVR modification for improving perception of stop consonants | |
Auinger et al. | Speech Segregation in Active Middle Ear Stimulation: Masking Release With Changing Fundamental Frequency | |
Sakamoto et al. | Effect of speed difference between time-expanded speech and moving image of talker’s face on word intelligibility |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090114 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110303 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110311 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110526 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110711 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110728 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110914 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111031 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |