JP2004004952A - Voice synthesizer and voice synthetic method - Google Patents
Voice synthesizer and voice synthetic method Download PDFInfo
- Publication number
- JP2004004952A JP2004004952A JP2003282641A JP2003282641A JP2004004952A JP 2004004952 A JP2004004952 A JP 2004004952A JP 2003282641 A JP2003282641 A JP 2003282641A JP 2003282641 A JP2003282641 A JP 2003282641A JP 2004004952 A JP2004004952 A JP 2004004952A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- speech
- emphasis
- synthesis
- khz
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明はテキストを音声に変換する音声規則合成システムにおいて、特に聴覚障害者に対する、あるいは騒音下で使用する場合に音声伝達を行う技術に関するものである。 {Circle over (1)} The present invention relates to a speech rule synthesis system for converting text to speech, and more particularly to a technique for transmitting speech to a hearing-impaired person or when used under noise.
テキストを音声に変換する音声規則合成技術は、文字で伝送されてきた情報を人間にとってわかりやすい形式で伝達する一つの手段として重要である。例えば情報ネットワークを通じて送られる情報の大半はテキストであり、大量のテキスト情報をそのまま人間に伝えるためには表示能力の大きいディスプレイを用いるか、紙に印字する必要がある。 音 声 Speech rule synthesis technology that converts text to speech is important as one means of transmitting information transmitted in characters in a format that is easy for humans to understand. For example, most of the information sent through an information network is text, and in order to convey a large amount of text information as it is, it is necessary to use a display having a large display capability or print it on paper.
しかし、情報端末が小型化し、携帯に用いられるようになると、大型のディスプレイやプリンタを用いることができないため、音声に変換することがもっとも効果的である。図55は従来の音声合成装置の代表的な装置の構成ブロック図である。図55の10は目的とするテキストを入力するテキスト入力手段、20はテキストの構文解析を行う言語処理手段、30mは音声を合成する音声合成部、40mは合成音声の声質を操作する操作手段、50mは操作手段の入力に従って声質を制御する声質制御手段、60は電気音響変換器である。前記の音声合成部30mは言語処理から入力された読み情報および韻律情報に従い音声合成部を制御する音声合成制御手段70m、音声を母音/子音/母音の連鎖などの所望の合成単位で記憶しておく素片データベース80、合成単位をつなぎ合わせて合成音声を生成する素片接続手段90mを有する。
However, when information terminals are downsized and become portable, large-sized displays and printers cannot be used, so converting to voice is most effective. FIG. 55 is a configuration block diagram of a typical device of a conventional speech synthesizer. In FIG. 55, 10 is a text input unit for inputting a target text, 20 is a language processing unit for parsing the text, 30 m is a voice synthesizing unit for synthesizing voice, 40 m is an operating unit for operating voice quality of the synthesized voice, 50 m is voice quality control means for controlling voice quality according to the input of the operation means, and 60 is an electroacoustic transducer. The speech synthesizer 30m controls the speech synthesizer according to the reading information and the prosody information input from the language processing, and stores the speech in a desired synthesis unit such as a vowel / consonant / vowel chain. It has a
以上のように構成された従来の音声合成装置において、以下その動作を説明する。 The operation of the conventional speech synthesizer configured as described above will be described below.
まずテキスト入力手段10は言語処理手段20に目的のテキストを入力する。次に言語処理手段20はテキスト入力手段10より入力されたテキストを構文解析を行い、読み情報、韻律情報を生成し音声合成制御手段70mに出力する。素片データベース80は音声合成制御手段70mより入力された読み情報に従って素片接続手段90mに合成単位を出力する。素片接続手段90mは音声合成制御手段70mより入力された韻律情報および声質制御手段50mより入力された制御信号に従って素片データベース80より入力された合成単位を接続し合成音声を生成し、電気音響変換器60を通して合成音声を出力する。
First, the text input means 10 inputs a target text to the language processing means 20. Next, the language processing means 20 performs a syntax analysis on the text input from the text input means 10, generates reading information and prosody information, and outputs the information to the speech synthesis control means 70m. The
次に音声素片の作成方法について述べる。音声素片はあらかじめ録音された音声の波形からCV、VCV、CVCなどの単位で切り出して作成される。ここでCは子音を、Vは母音を表す。これらの合成単位を用いる合成方式をそれぞれCV方式、VCV方式、CVC方式などと呼ぶ。 (4) Next, a method for creating a speech unit will be described. A speech unit is created by cutting out a waveform of a previously recorded speech in units of CV, VCV, CVC, or the like. Here, C represents a consonant, and V represents a vowel. A combining method using these combining units is called a CV method, a VCV method, a CVC method, or the like.
CV方式の場合、子音kと母音aの組み合わせである「ka」などを一つの単位とする。VCV方式の場合、母音aと子音kと母音aの組み合わせである「aka」、CVC方式の場合、子音kと母音aと子音tの組み合わせである「kat」などが合成の単位である。それぞれに素片の種類の数や合成音の品質など一長一短があるが、いずれの方式も音声素片を次々と接続していくことにより合成音を生成する。 In the case of the CV method, a unit such as “ka” which is a combination of a consonant k and a vowel a is used. In the case of the VCV method, “aka” is a combination of a vowel a, a consonant k, and a vowel a, and in the case of the CVC method, “kat” is a combination of a consonant k, a vowel a, and a consonant t. Each of them has advantages and disadvantages such as the number of types of segments and the quality of synthesized speech, but in each system, synthesized speech is generated by connecting speech segments one after another.
このような合成方式で用いる音声素片を作成する時に、前処理によって合成時に必要となる変形を行いやすい形にしておくと、合成時の計算量が削減できる。例えば、合成時には目的のピッチパターンになるようにピッチ修正を行う必要があるが、事前にピッチ周期単位で窓掛けにより波形を切り出しておく方法が特願平6−302471に述べられている。その方法を図面を参照しながら説明する。 作成 When creating a speech unit used in such a synthesis method, if the pre-processing is performed so as to easily perform the deformation required at the time of synthesis, the amount of calculation at the time of synthesis can be reduced. For example, at the time of synthesis, it is necessary to correct the pitch so that a desired pitch pattern is obtained, but a method in which a waveform is cut out in advance by windowing in units of a pitch cycle is described in Japanese Patent Application No. 6-302471. The method will be described with reference to the drawings.
図56は波形の切り出し方法を示している。図56のように波形のピッチ周期に対応したピーク位置にマークを付与しておき、そのマークを中心にピッチ周期の2倍以下の長さの窓で切り出しを行う。こうして切り出された波形をピッチ波形と呼ぶ。また、ピッチの概念がない無声子音部は連続した波形としてそのまま切り出しておく。これを初期波形と呼ぶ。 FIG. 56 shows a method of cutting out a waveform. As shown in FIG. 56, a mark is provided at the peak position corresponding to the pitch period of the waveform, and a cutout is made around the mark with a window having a length of twice or less the pitch period. The waveform cut out in this way is called a pitch waveform. Unvoiced consonants having no concept of pitch are cut out as a continuous waveform. This is called an initial waveform.
図57は合成時の処理を示している。図のように目的のピッチ周期になるように重ね合わせを行う。ピッチを上げるときは互いの間隔を狭めて重ね合わせを行い、ピッチを下げるときは逆に間隔を広げて重ね合わせを行う。 FIG. 57 shows a process at the time of synthesis. As shown in the figure, superimposition is performed so that a desired pitch period is obtained. When increasing the pitch, the overlapping is performed by narrowing the interval between each other, and when decreasing the pitch, the overlapping is performed by increasing the interval.
このような音声合成装置と音声素片作成方法においては、騒音下での使用や聴覚に障害がある人が使用する際には合成された音声が聞き取りにくいという問題がある。現状の音声合成技術は健聴者が静寂な環境下で使用する場合においても十分な明瞭度を達成することは難しいが、騒音下で使用する場合や聴覚障害者が使用する場合には更に深刻な明瞭度低下がある。これは、合成音は限られた音声素片を用いていることや、合成時の接続処理や変形処理によって、欠落している情報が多く、騒音によるマスキングや聴覚障害の影響を受けやすいためであり、従来技術においては、騒音下や聴覚障害のある場合に音声の認識に必要な情報を伝達することが困難であるという課題を有していた。 (4) In such a speech synthesizer and a speech unit creating method, there is a problem that a synthesized speech is difficult to hear when used under noise or when a person with hearing impairment uses. Although current speech synthesis technology cannot achieve sufficient intelligibility even when used in a quiet environment by hearing people, it is more serious when used in noise or when used by hearing-impaired people. There is a decrease in clarity. This is because synthesized speech uses a limited number of speech units, and because of connection processing and deformation processing during synthesis, there is a lot of missing information, and it is susceptible to noise masking and hearing impairment. In the related art, there is a problem that it is difficult to transmit information necessary for voice recognition under noise or hearing impairment.
本発明は上記の従来の問題を解決しようとするもので、テキストに従って音声を合成する音声合成部と、その音声合成部で合成された音声に単一あるいは複数の音韻強調処理を行う強調処理部とを備えた音声合成装置である。 SUMMARY OF THE INVENTION The present invention is directed to overcoming the above-mentioned conventional problems. A speech synthesis unit that synthesizes speech in accordance with text, and an emphasis processing unit that performs single or multiple phoneme emphasis processing on the speech synthesized by the speech synthesis unit And a speech synthesizer comprising:
好ましくは、強調処理は音韻情報に基づき子音あるいは子音とそれに続く母音への渡りの振幅強調処理を行う子音強調処理である。 Preferably, the emphasis processing is a consonant emphasis processing for performing amplitude emphasis processing of a consonant or a consonant and a subsequent vowel based on phoneme information.
好ましくは、強調処理は音韻情報に基づき子音の周波数帯域の強調処理を行う帯域強調処理である。 Preferably, the emphasis process is a band emphasis process for emphasizing a consonant frequency band based on phoneme information.
以上説明したように、本発明によれば、聴覚障害のある使用者や、騒音下での使用でも情報を確実に伝達することができ、その実用的効果は大きい。 As described above, according to the present invention, information can be reliably transmitted even to a hearing impaired user or use under noisy conditions, and its practical effect is large.
本発明の一実施形態では、使用者の聴覚特性に合わせて合成した音声に強調処理あるいは振幅のダイナミックレンジを圧縮する処理を施す、あるいは使用場面の騒音環境に合わせて合成した音声に強調処理あるいは振幅のダイナミックレンジを圧縮する処理を施す。また、使用者の聴覚特性に合わせてデータベースに記憶された合成単位に強調処理あるいは振幅のダイナミックレンジを圧縮する処理を施した後に音声を合成する、あるいは使用場面の騒音環境に合わせてデータベースに記憶された合成単位に強調処理あるいは振幅のダイナミックレンジを圧縮する処理を施した後に音声を合成する。また、あらかじめ強調処理あるいは振幅のダイナミックレンジを圧縮する処理を施した合成単位を用いて音声を合成する。また、音声の合成を中断した際に言語処理結果に基づき停止位置以前で内容理解のしやすいテキスト上の点まで戻って音声の合成を再開する。また、言語処理に基づき強調処理を行う部分を設定することにより、聴覚障害のある使用者や、騒音下での使用でも情報を確実に伝達することができる。 In one embodiment of the present invention, the voice synthesized according to the user's auditory characteristics is subjected to an emphasis process or a process of compressing the dynamic range of the amplitude, or the voice synthesized according to the noise environment of the use scene is subjected to the emphasis process or A process for compressing the dynamic range of the amplitude is performed. In addition, speech is synthesized after applying emphasis processing or processing for compressing the dynamic range of amplitude to the synthesis unit stored in the database according to the hearing characteristics of the user, or stored in the database according to the noise environment of the use scene. After performing the emphasis processing or the processing of compressing the dynamic range of the amplitude on the synthesized unit, the voice is synthesized. Also, speech is synthesized using a synthesis unit that has been subjected to an emphasis process or a process of compressing the dynamic range of the amplitude in advance. When the speech synthesis is interrupted, the speech synthesis is resumed by returning to a point on the text where the content is easy to understand before the stop position based on the result of the language processing. In addition, by setting a portion for performing the emphasis processing based on the language processing, information can be reliably transmitted even to a user with a hearing impairment or use under noise.
そして本発明の第一の実施形態は、テキストに従って音声を合成する音声合成部と、その音声合成部で合成された音声に単一あるいは複数の音韻強調処理を行う強調処理部とを備えた音声合成装置である。 According to a first embodiment of the present invention, there is provided a speech synthesizer for synthesizing speech in accordance with a text, and an emphasis processing unit for performing single or plural phoneme emphasis processes on the speech synthesized by the speech synthesizer. It is a synthesis device.
好ましくは、強調処理はフォルマント強調処理である。 Preferably, the enhancement process is a formant enhancement process.
好ましくは、フォルマント強調処理は音声のスペクトルのピークの強調処理である。 Preferably, the formant enhancement process is an enhancement process of a peak of a voice spectrum.
好ましくは、フォルマント強調処理は音声合成部より強調処理部に入力された音韻情報に基づく音韻ごとにあらかじめ定められたフォルマント周波数を含む帯域の強調処理である。 Preferably, the formant emphasis process is a process of emphasizing a band including a predetermined formant frequency for each phoneme based on the phoneme information input from the speech synthesis unit to the emphasis processing unit.
好ましくは、フォルマント強調処理は音声合成部より強調処理部に入力されたフォルマント情報に基づくフォルマント周波数を含む帯域の強調処理である請求項2記載の音声合成装置。 音 声 Preferably, the formant enhancement process is an enhancement process of a band including a formant frequency based on the formant information input from the speech synthesis unit to the enhancement processing unit.
好ましくは、強調処理は音韻情報に基づき子音あるいは子音とそれに続く母音への渡りの振幅強調処理を行う子音強調処理である。 Preferably, the emphasis processing is a consonant emphasis processing for performing amplitude emphasis processing of a consonant or a consonant and a subsequent vowel based on phoneme information.
好ましくは、強調処理は音韻情報に基づき子音の周波数帯域の強調処理を行う帯域強調処理である。 Preferably, the emphasis process is a band emphasis process for emphasizing a consonant frequency band based on phoneme information.
好ましくは、マイクロフォンと、そのマイクロフォンより入力された環境音を分析しその環境音の物理特性に基づいて強調処理部を制御する制御部とを備える。更に、制御部はマイクロフォンより入力された環境音を分析しその環境音の物理特性に基づいて強調処理部で用いる強調処理方法を選択する。 Preferably, a microphone and a control unit for analyzing the environmental sound input from the microphone and controlling the emphasis processing unit based on the physical characteristics of the environmental sound are provided. Further, the control unit analyzes the environmental sound input from the microphone and selects an enhancement processing method used in the enhancement processing unit based on the physical characteristics of the environmental sound.
好ましくは、使用者が強調の処理方法および程度を調節するための操作手段と、その操作手段より入力された信号に基づいて強調処理部を制御する制御部とを備える。 Preferably, the control device includes an operation unit for a user to adjust a processing method and a degree of emphasis, and a control unit for controlling the emphasis processing unit based on a signal input from the operation unit.
好ましくは、使用者の聴覚特性や好みを測定する測定部と、前記使用者の聴覚特性や好みに基づいて強調処理部を制御する制御部とを備える。更に制御部は測定部より入力された使用者の聴覚特性や好みに基づき強調処理部で用いる強調処理方法を選択する。 Preferably, there is provided a measuring unit for measuring the auditory characteristics and preferences of the user, and a control unit for controlling the emphasis processing unit based on the auditory characteristics and preferences of the user. Further, the control section selects an emphasis processing method used in the emphasis processing section based on the user's auditory characteristics and preferences input from the measurement section.
好ましくは、使用者の聴覚特性や好みを記憶する記憶手段と、前記使用者の聴覚特性や好みに基づいて強調処理部を制御する制御部とを備える。更に好ましくは、制御部は記憶手段に記憶された使用者の聴覚特性や好みに基づき強調処理部で用いる強調処理方法を選択する。 Preferably, there are provided storage means for storing the hearing characteristics and preferences of the user, and a control unit for controlling the emphasis processing unit based on the hearing characteristics and preferences of the user. More preferably, the control unit selects an emphasis processing method used in the emphasis processing unit based on the user's auditory characteristics and preferences stored in the storage unit.
好ましくは、聴覚特性読み取り手段と、制御部とを備え、前記聴覚特性読み取り手段によって記録媒体に格納された使用者の聴覚特性や好みを参照して前記制御部で強調処理部を制御する。更に制御部は聴覚特性読み取り手段によって読み出された使用者の聴覚特性や好みに基づき強調処理部で用いる強調処理方法を選択する。 Preferably, the apparatus further includes a hearing characteristic reading unit and a control unit, and the control unit controls the emphasis processing unit with reference to a user's hearing characteristics and preferences stored in a recording medium by the hearing characteristic reading unit. Further, the control unit selects an emphasis processing method to be used by the emphasis processing unit based on the user's auditory characteristics and preferences read by the auditory characteristics reader.
本発明の第ニの実施形態は、音声を母音/子音/母音の連鎖などの所望の合成単位で記憶しておく音声素片データベースと、前記合成単位に強調処理を施す素片変形部と、その素片変形部により強調処理を施された合成単位を目的のテキストによって接続して音声を合成する音声合成部とを備えた音声合成装置である。 A second embodiment of the present invention provides a speech unit database that stores speech in a desired synthesis unit such as a vowel / consonant / vowel chain, a unit transformation unit that emphasizes the synthesis unit, The speech synthesis device includes a speech synthesis unit that synthesizes speech by connecting the synthesis units that have been subjected to the emphasis processing by the unit deformation unit using a target text.
好ましくは、強調処理はフォルマント強調処理である。 Preferably, the enhancement process is a formant enhancement process.
好ましくは、フォルマント強調処理は音声のスペクトルのピークの強調処理である。 Preferably, the formant enhancement process is an enhancement process of a peak of a voice spectrum.
好ましくは、フォルマント強調処理は音韻情報に基づく音韻ごとにあらかじめ定められたフォルマント周波数を含む帯域の強調処理である。 Preferably, the formant enhancement process is an enhancement process of a band including a formant frequency predetermined for each phoneme based on the phoneme information.
好ましくは、フォルマント強調処理はフォルマント情報に基づくフォルマント周波数を含む帯域の強調処理である。 Preferably, the formant enhancement process is an enhancement process of a band including a formant frequency based on the formant information.
好ましくは、強調処理は音韻情報に基づき子音あるいは子音とそれに続く母音への渡りの振幅強調処理を行う子音強調処理である。 Preferably, the emphasis processing is a consonant emphasis processing for performing amplitude emphasis processing of a consonant or a consonant and a subsequent vowel based on phoneme information.
好ましくは、強調処理は音韻情報に基づき子音の周波数帯域の強調処理を行う帯域強調処理である。 Preferably, the emphasis process is a band emphasis process for emphasizing a consonant frequency band based on phoneme information.
好ましくは、強調処理は言語情報に基づき子音のクロージャーを延長するクロージャー強調処理である。 Preferably, the emphasis process is a closure emphasis process for extending a consonant closure based on linguistic information.
好ましくは、強調処理は言語情報に基づき音韻長を延長する延長処理である。 Preferably, the emphasis processing is an extension processing for extending a phoneme length based on linguistic information.
好ましくは、マイクロフォンと、そのマイクロフォンより入力された環境音を分析しその環境音の物理特性に基づいて素片変形部を制御する制御部とを備える。更に制御部はマイクロフォンより入力された環境音を分析しその環境音の物理特性に基づいて素片変形部で用いる強調処理方法を選択する。 Preferably, a microphone and a control unit for analyzing the environmental sound input from the microphone and controlling the unit deformation unit based on the physical characteristics of the environmental sound are provided. Further, the control unit analyzes the environmental sound input from the microphone, and selects an emphasis processing method used in the unit deformation unit based on the physical characteristics of the environmental sound.
好ましくは、使用者が強調の処理方法および程度を調節するための操作手段と、その操作手段より入力された信号に基づいて素片変形部を制御する制御部とを備える。 Preferably, the apparatus includes operating means for allowing a user to adjust a processing method and a degree of emphasis, and a control section for controlling a segment deforming section based on a signal input from the operating means.
好ましくは、使用者の聴覚特性や好みを測定する測定部と、前記使用者の聴覚特性や好みに基づいて素片変形部を制御する制御部とを備える。更に制御部は測定部より入力された使用者の聴覚特性や好みに基づき素片変形部で用いる強調処理方法を選択する。 Preferably, the apparatus further includes a measuring unit for measuring the hearing characteristics and preferences of the user, and a control unit for controlling the segment deformation unit based on the hearing characteristics and preferences of the user. Further, the control unit selects an emphasis processing method to be used in the unit deformation unit based on the user's auditory characteristics and preferences input from the measurement unit.
好ましくは、使用者の聴覚特性や好みを記憶する記憶手段と、前記使用者の聴覚特性や好みに基づいて素片変形部を制御する制御部とを備える。更に制御部は記憶手段に記憶された使用者の聴覚特性や好みに基づき素片変形部で用いる強調処理方法を選択する。 Preferably, there are provided storage means for storing the hearing characteristics and preferences of the user, and a control unit for controlling the segment deformation unit based on the hearing characteristics and preferences of the user. Further, the control unit selects an emphasis processing method to be used in the unit deformation unit based on the user's auditory characteristics and preferences stored in the storage unit.
好ましくは、聴覚特性読み取り手段と、制御部とを備え、前記聴覚特性読み取り手段によって記録媒体に格納された使用者の聴覚特性や好みを参照して前記制御部で素片変形部を制御する。更に制御部は聴覚特性読み取り手段によって読み出された使用者の聴覚特性や好みに基づき素片変形部で用いる強調処理方法を選択する。 Preferably, there is provided a hearing characteristic reading unit and a control unit, and the control unit controls the segment deforming unit with reference to the user's hearing characteristics and preferences stored in a recording medium by the hearing characteristic reading unit. Further, the control unit selects an emphasis processing method to be used in the unit deformation unit based on the user's auditory characteristics and preferences read by the auditory characteristic reading unit.
本発明の第三の実施形態は、あらかじめ音韻強調処理を施した音声を母音/子音/母音の連鎖などの所望の合成単位で記憶しておく音声素片データベースと、前記合成単位を目的のテキストによって接続して音声を合成する音声合成部とを備えた音声合成装置である。 In a third embodiment of the present invention, a speech unit database for storing speech subjected to phonological enhancement processing in advance in a desired synthesis unit such as a vowel / consonant / vowel chain, and And a voice synthesizing unit for synthesizing voice by connecting the voice synthesizers.
好ましくは、強調の方法および程度の異なる複数の音声素片データベースと、マイクロフォンと、そのマイクロフォンより入力された環境音を分析しその環境音の物理特性に基づいて音声合成部が音声合成に使用する前記音声素片データベースを選択する制御部とを備える。 Preferably, a plurality of speech unit databases having different emphasis methods and degrees, a microphone, and an environmental sound input from the microphone are analyzed, and the voice synthesizer uses the voice for voice synthesis based on physical characteristics of the environmental sound. A control unit for selecting the speech unit database.
好ましくは、強調の方法および程度の異なる複数の音声素片データベースと、使用者が強調の状態を調節するための操作手段と、その操作手段より入力された信号に基づいて音声合成部が音声合成に使用する前記音声素片データベースを選択する制御部とを備える。 Preferably, a plurality of speech unit databases having different emphasis methods and degrees, operation means for a user to adjust the state of emphasis, and a speech synthesis unit based on a signal input from the operation means, And a control unit for selecting the speech unit database to be used for the communication.
好ましくは、強調の方法および程度の異なる複数の音声素片データベースと、使用者の聴覚特性や好みを測定する測定部と、前記使用者の聴覚特性や好みに基づいて音声合成部が音声合成に使用する前記音声素片データベースを選択する制御部とを備える。 Preferably, a plurality of speech unit databases having different emphasis methods and degrees, a measuring unit for measuring the auditory characteristics and preferences of the user, and a speech synthesizer for speech synthesis based on the auditory characteristics and preferences of the user. A control unit for selecting the speech unit database to be used.
好ましくは、強調の方法および程度の異なる複数の音声素片データベースと、使用者の聴覚特性や好みを記憶する記憶手段と、前記使用者の聴覚特性や好みに基づいて音声合成部が音声合成に使用する前記音声素片データベースを選択する制御部とを備える。 Preferably, a plurality of speech unit databases having different emphasis methods and degrees, storage means for storing user's auditory characteristics and preferences, and a speech synthesizer for speech synthesis based on the user's auditory characteristics and preferences. A control unit for selecting the speech unit database to be used.
好ましくは、強調の方法および程度の異なる複数の音声素片データベースを格納した記憶媒体と、音声素片データベース読み取り手段とを備える。 Preferably, there is provided a storage medium storing a plurality of speech unit databases having different emphasis methods and degrees, and speech unit database reading means.
本発明の第四の実施形態は、テキストに従って音声を合成する音声合成部で合成された音声に単一あるいは複数の音韻強調処理を行う音声合成方法である。 The fourth embodiment of the present invention is a speech synthesizing method in which a speech synthesized by a speech synthesizing unit for synthesizing speech in accordance with a text is subjected to one or more phoneme emphasis processes.
本発明の第五の実施形態は、音声を母音/子音/母音の連鎖などの所望の合成単位で記憶しておく音声素片データベースから出力された前記音声の合成単位に強調処理を施し、前記強調処理を施された合成単位を目的のテキストによって接続して音声を合成する音声合成方法である。 According to a fifth embodiment of the present invention, the speech synthesis unit output from a speech unit database storing speech in a desired synthesis unit such as a vowel / consonant / vowel combination is subjected to emphasis processing. This is a speech synthesizing method for synthesizing speech by connecting the synthesized units subjected to the emphasis processing by a target text.
本発明の第六の実施形態は、あらかじめ音韻強調処理を施した音声を母音/子音/母音の連鎖などの所望の合成単位で記憶しておく音声素片データベースから出力された前記音声の合成単位を目的のテキストによって接続して音声を合成する音声合成方法である。 According to a sixth embodiment of the present invention, a speech synthesis unit output from a speech unit database storing speech subjected to phoneme emphasis processing in advance in a desired synthesis unit such as a chain of vowels / consonants / vowels. Is a speech synthesis method in which the speech is synthesized by connecting to the target text.
(実施例1)
以下本発明の第1の実施例について、図面を参照しながら説明する。
(Example 1)
Hereinafter, a first embodiment of the present invention will be described with reference to the drawings.
図1は本発明の音声合成装置の第1の実施例を示す構成ブロック図である。図2に第1の実施例の動作を説明するための流れ図を、図3、図4、図5、図6に動作を説明するための流れ図の一部を示す。図7、図8に第1の実施例の強調処理の模式図をしめす。図1において図55と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図55の音声合成部30mが音声合成部30aに置き換わり、声質制御手段50mが声質制御手段50aに置き換わり、操作手段40mがマイクロフォン110に置き換わり、聴覚特性測定手段120が付け加わった以外は図55と同一な構成である。前記の音声合成部30aは、言語処理手段20より入力された読み情報、韻律情報、強調部情報に基づき音声合成部30aを制御する音声合成制御手段70a、音声を母音/子音/母音の連鎖などの所望の合成単位で記憶しておく素片データベース80、素片データベース80に記憶された合成単位に強調処理を施す音韻強調処理手段130a、音韻強調処理手段130aで処理された合成単位をつなげて合成音声を生成する素片接続手段90aおよび素片接続手段90aで生成された合成音声に振幅のダイナミックレンジを圧縮する圧縮処理を施す圧縮処理手段140aを有する。
FIG. 1 is a block diagram showing the configuration of a first embodiment of the speech synthesizer of the present invention. FIG. 2 shows a flowchart for explaining the operation of the first embodiment, and FIGS. 3, 4, 5, and 6 show a part of the flowchart for explaining the operation. FIGS. 7 and 8 are schematic diagrams of the emphasizing process of the first embodiment. In FIG. 1, the same components or portions as those in FIG. 55 are denoted by the same reference numerals, and thus description thereof will be omitted, and only different portions will be described. 55 is the same as FIG. 55 except that the voice synthesis unit 30m is replaced by the voice synthesis unit 30a, the voice quality control unit 50m is replaced by the voice quality control unit 50a, the operation unit 40m is replaced by the
以上のように構成されたこの実施例の音声合成装置において、以下その動作を図1、図2、図3、図4、図5、図6に従って説明する。 The operation of the speech synthesizing apparatus according to this embodiment configured as described above will be described below with reference to FIGS. 1, 2, 3, 4, 5, and 6.
まず聴覚特性測定手段120で使用者の聴覚特性を測定し、測定結果を声質制御手段50aに出力する。(ステップ1000)。測定方法は例えば1992年、Audiology Japan巻35、401頁から402頁や平成5年,音響学会講演論文集春季、329頁〜330頁に示された測定方法のようにするものとする。声質制御手段50aは聴覚特性測定手段120より入力された測定結果に基づき強調処理の設定を決定する(ステップ1100)。まず使用者の周波数分解能を示すp値を15と比較する(ステップ1110)。ステップ1110においてp値が15未満の場合はフォルマント強調情報を真とする(ステップ1120)。もしステップ1110においてp値が15以上の場合はフォルマント強調情報を偽とする(ステップ1125)。次に使用者の時間分解能を示すギャップ検出閾値と10msを比較する(ステップ1130)。ステップ1130においてギャップの検出閾値が10ms以上である場合子音強調情報を真とする(ステップ1140)。もしステップ1130でギャップの検出閾値が10ms未満の場合は子音強調情報を偽とする(ステップ1150)。次に使用者の2kHz未満の平均聴力レベルと2kHz以上の平均聴力レベルを比較する(ステップ1160)。ステップ1160において2kHz以上の平均聴力レベルから2kHz未満の平均聴力レベルを減じた値が30dB以上の場合は帯域強調情報を真とする(ステップ1170)。もしステップ1170において2kHz以上の平均聴力レベルから2kHz未満の平均聴力レベルを減じた値が30dB未満の場合は帯域強調情報を偽とする(ステップ1180)。テキスト入力手段10は言語処理手段20に目的のテキストを入力する(ステップ1200)。次に言語処理手段20はテキスト入力手段10より入力されたテキストの構文解析を行い、読み情報、韻律情報および強調部情報を生成し音声合成制御手段70aに出力する(ステップ1300)。素片データベース80は音声合成制御手段70aより入力された読み情報に従って音韻強調処理手段130aに合成単位を出力する(ステップ1400)。音韻強調処理手段130aは音声合成制御手段70aより入力された強調部情報と声質制御手段50aより入力された制御信号に従って合成単位に強調処理を施す(ステップ1500)。音韻強調処理手段130aは音声合成制御手段70aより入力された強調部情報が真か偽かを判定する(ステップ1510)。ステップ1510において強調部情報が真である場合、合成単位中の母音定常部の時間長を20%延長し(ステップ1520)。声質制御手段50aより入力されたフォルマント強調情報が真か偽かを判定する(ステップ1530)。もしステップ1510において強調部情報が偽である場合、声質制御手段50aより入力されたフォルマント強調情報が真か偽かを判定する(ステップ1530)。ステップ1530においてフォルマント強調情報が真である場合、図7に示すように音韻強調処理手段130aは素片データベース80に記憶された合成単位に対応するフォルマント情報に従って、図7b)に示すようにフォルマントを含む帯域を選択的に通過させるようフィルタバンクの各フィルタの中心周波数および帯域幅を設定し、図7c)に示すようにフォルマントを含む帯域とフォルマントを含まない帯域とのコントラストを強調する(ステップ1540)。次に声質制御手段50aより入力された子音強調情報が真か偽かを判定する(ステップ1550)。もしステップ1530においてフォルマント強調情報が偽である場合、声質制御手段50aより入力された子音強調情報が真か偽かを判定する(ステップ1550)。ステップ1550において子音強調情報が真である場合、音韻強調処理手段130aは図8に示すような素片データベース80に記憶された合成単位に対応するラベル情報に従って、合成単位中の子音および子音から母音への渡りの振幅を図8に示すように増幅する(ステップ1560)。次に声質制御手段50aより入力された帯域強調情報が真か偽かを判定する(ステップ1570)。もしステップ1560において子音強調情報が偽である場合、声質制御手段50aより入力された帯域強調情報が真か偽かを判定する(ステップ1570)。ステップ1570において帯域強調情報が真である場合、音韻強調処理手段130aは合成単位中の子音に2kHz以上の帯域を強調する高帯域強調処理を行い(ステップ1580)、合成単位を素片接続手段90aに出力する(ステップ1590)。もしステップ1570において帯域強調情報が偽である場合、音韻強調処理手段130aは合成単位を素片接続手段90に出力する(ステップ1590)。素片接続手段90aは音声合成制御手段70aより入力された韻律情報および強調部情報に従って音韻強調処理手段130aより入力された合成単位を合成し合成音声を生成する(ステップ1600)。まず素片接続手段90aは音声合成制御手段70aより入力された強調部情報が真か偽かを判定する(ステップ1610)。ステップ1610において強調部情報が真の場合、素片接続手段90aは合成単位に対応するクロージャーの値を20%延長し(ステップ1620)、音声合成制御手段70aより入力された韻律情報に従って合成音声を生成し(ステップ1630)、圧縮処理手段140aに出力する(ステップ1640)。もしステップ1610において強調処理情報が偽の場合、素片接続手段90aは音声合成制御手段70aより入力された韻律情報に従って合成音声を生成し(ステップ1630)圧縮処理手段140aに出力する(ステップ1640)。圧縮処理手段140aは声質制御手段50aの制御信号に従って素片接続手段90aで生成された合成音声の振幅のダイナミックレンジを圧縮する(ステップ1700)。まず声質制御手段50aはマイクロフォン110より入力された環境音を1kHz以下、1kHz〜2kHz、2kHz〜4kHz、4kHz以上の帯域に分割し、帯域ごとに100msの平均レベルを求める(ステップ1710)。1kHz以下の環境音の平均レベルと20dBSPL/Hzとを比較する(ステップ1730)。ステップ1730において1kHz以下の環境音の平均レベルが20dBSPL/Hz以上である場合、声質制御手段50aは合成音声の1kHz以下の成分のレベルのダイナミックレンジが1kHz以下の環境音の平均レベルの値〜90dBSPLとなるように圧縮処理のパラメータを設定し(ステップ1740)、1kHz〜2kHzの環境音の平均レベルと20dBSPL/Hzとを比較する(ステップ1750)。もしステップ1730において1kHz以下の環境音が20dBSPL/Hz未満である場合、1kHz〜2kHzの環境音の平均レベルと20dBSPL/Hzとを比較する(ステップ1750)。ステップ1750において1kHz〜2kHzの環境音の平均レベルが20dBSPL/Hz以上である場合、声質制御手段50aは合成音声の1kHz〜2kHzの成分のレベルのダイナミックレンジが1kHz〜2kHzの環境音の平均レベルの値〜90dBSPLとなるように圧縮処理のパラメータを設定し(ステップ1760)、2kHz〜4kHzの環境音の平均レベルと15dBSPL/Hzとを比較する(ステップ1770)。もしステップ1750において1kHz〜2kHzの環境音が20dBSPL/Hz未満である場合、2kHz〜4kHzの環境音の平均レベルと15dBSPL/Hzとを比較する(ステップ1770)。ステップ1770において2kHz〜4kHzの環境音の平均レベルが15dBSPL/Hz以上である場合、声質制御手段50aは合成音声の2kHz〜4kHzの成分のレベルのダイナミックレンジが2kHz〜4kHzの環境音の平均レベルの値〜80dBSPLとなるように圧縮処理のパラメータを設定し(ステップ1780)、4kHz以上の環境音の平均レベルと10dBSPL/Hzとを比較する(ステップ1790)。もしステップ1770において2kHz〜4kHzの環境音が15dBSPL/Hz未満である場合、4kHz以上の環境音の平均レベルと10dBSPL/Hzとを比較する(ステップ1790)。ステップ1790において4kHz以上の環境音の平均レベルが10dBSPL/Hz以上である場合、声質制御手段50aは合成音声の4kHz以上の成分のレベルのダイナミックレンジが4kHz以上の環境音の平均レベルの値〜60dBSPLとなるように圧縮処理のパラメータを設定し(ステップ1800)、圧縮処理手段140aに制御信号を出力する(ステップ1810)。もしステップ1790において4kHz以上の環境音の平均レベルが10dBSPL/Hz未満である場合、圧縮処理手段140aに制御信号を出力する(ステップ1810)。圧縮処理手段140aは声質制御手段50aより入力された制御信号に基づき素片接続手段90aより入力された合成音声に圧縮処理を行う(ステップ1820)。圧縮処理の方法は例えば1991年音響学会誌、巻47、373頁から379頁に示された処理のようにするものとする。圧縮処理手段140aは電気音響変換器60を通して合成音声を出力する(ステップ1900)。
{Circle around (1)} First, the hearing characteristics of the user are measured by the hearing
(実施例2)
以下本発明の第2の実施例について、図面を参照しながら説明する。
(Example 2)
Hereinafter, a second embodiment of the present invention will be described with reference to the drawings.
図9は本発明の音声合成装置の第2の実施例を示す構成ブロック図である。図10に第2の実施例の動作を説明するための流れ図を、図11に動作を説明するための流れ図の一部を示す。図9において図1と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図1の音声合成部30aが音声合成部30bに置き換わり、声質制御手段50aが声質制御手段50bに置き換わり、マイクロフォン110が操作手段40bに置き換わり、聴覚特性測定手段120が聴覚特性記憶手段220に置き換わった以外は図1と同一な構成である。前記の音声合成部30bは、音声合成制御手段70b、合成単位を記憶しておくデータベース部200b、合成単位に振幅のダイナミックレンジを圧縮する圧縮処理を施す圧縮処理手段140b、圧縮処理手段140bで処理された合成単位をつなげて合成音声を生成する素片接続手段90bを有する。前記のデータベース部200bは異なる複数の強調処理を施された素片を施された強調処理ごとに記憶する複数の素片データベース280a〜nと、複数の素片データベース280a〜nと圧縮処理手段140bとの接続を切り替えるスイッチ210bとを有する。
FIG. 9 is a block diagram showing the configuration of a second embodiment of the speech synthesizer of the present invention. FIG. 10 shows a flowchart for explaining the operation of the second embodiment, and FIG. 11 shows a part of the flowchart for explaining the operation. In FIG. 9, the same components or portions as those in FIG. The voice synthesis unit 30a of FIG. 1 has been replaced by the voice synthesis unit 30b, the voice quality control unit 50a has been replaced by the voice quality control unit 50b, the
以上のように構成されたこの実施例の音声合成装置において、以下その動作を図9、図10、図11に従って説明する。 The operation of the speech synthesizing apparatus according to this embodiment configured as described above will be described below with reference to FIGS. 9, 10, and 11.
図10、図11において図2、図4と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。まず聴覚特性記憶手段220に記憶されたあらかじめ測定された聴覚特性を声質制御手段50bに出力する。(ステップ2000)。声質制御手段50bは聴覚特性記憶手段220より入力された聴覚特性に基づき圧縮処理のパラメータを設定し圧縮処理手段140bへ出力する(ステップ2100)。圧縮処理のパラメータ設定方法は例えば聴覚研究会資料、資料番H−95−4、1頁〜8頁に示された設定方法のようにする。テキスト入力手段10は言語処理手段20に目的のテキストを入力する(ステップ1200)。次に言語処理手段20はテキスト入力手段10より入力されたテキストの構文解析を行い、読み情報、韻律情報および強調部情報を生成し音声合成制御手段70bに出力する(ステップ1300)。使用者は操作手段40bに強調の種類および強調の程度を入力し、操作手段40bは入力結果を強調選択情報として声質制御手段50bに出力する(ステップ2400)。声質制御手段50bは操作手段40bより入力された強調選択情報に最も近い強調が施された素片データベースを素片データベース280a〜nより選択し、スイッチ210bを切り替えて圧縮処理手段140bに接続する(ステップ2500)。ステップ2500で圧縮処理手段140bと接続された素片データベース280は音声合成制御手段70bより入力された読み情報に従って圧縮処理手段140bに合成単位を出力する(ステップ2600)。圧縮処理手段140bは声質制御手段50bより入力された圧縮処理パラメータに従って素片データベース280より入力された合成単位の振幅のダイナミックレンジを圧縮し、素片接続手段90bに出力する(ステップ2700)。素片接続手段90bは音声合成制御手段70bより入力された韻律情報および強調部情報に従って圧縮処理手段140bより入力された合成単位を合成し合成音声を生成する(ステップ2800)。まず素片接続手段90bは音声合成制御手段70bより入力された強調部情報が真か偽かを判定する(ステップ1610)。ステップ1610において強調部情報が真の場合、素片接続手段90bは合成単位中の母音定常部の時間長を20%延長し(ステップ2920)、さらに合成単位に対応するクロージャーの値を20%延長し(ステップ1620)、音声合成制御手段70bより入力された韻律情報に従って合成音声を生成する(ステップ2930)。もしステップ1610において強調処理情報が偽の場合、素片接続手段90bは音声合成制御手段70bより入力された韻律情報に従って合成音声を生成する(ステップ2930)。素片接続手段90bは電気音響変換器60を通して合成音声を出力する(ステップ1900)。
、 In FIGS. 10 and 11, the same operations as those in FIGS. 2 and 4 are denoted by the same reference numerals, and the description thereof will not be repeated. Only different parts will be described. First, the pre-measured hearing characteristics stored in the hearing characteristics storage means 220 are output to the voice quality control means 50b. (Step 2000). The voice quality control means 50b sets parameters for compression processing based on the auditory characteristics input from the auditory characteristic storage means 220, and outputs the parameters to the compression processing means 140b (step 2100). The parameter setting method of the compression process is, for example, the setting method described in Auditory Study Group Material, Material No. H-95-4, pp. 1-8. The text input means 10 inputs a target text to the language processing means 20 (step 1200). Next, the
(実施例3)
以下本発明の第3の実施例について、図面を参照しながら説明する。
(Example 3)
Hereinafter, a third embodiment of the present invention will be described with reference to the drawings.
図12は本発明の音声合成装置の第3の実施例を示す構成ブロック図である。図13に第3の実施例の動作を説明するための流れ図を示す。第3の実施例の構成において図9に示した第2の実施例の構成と同一物または部分については説明を省略し、異なった部分についてのみ説明する。図9の聴覚特性記憶手段220が聴覚特性読み取り手段310に置き換わり、音声合成部30bが音声合成部30cに置き換わり、声質制御手段50bが声質制御手段50cに置き換わり、素片データベース380a〜n、聴覚特性320a〜nがつけ加わった以外は図9と同一な構成である。前記の音声合成部30cは図9の音声合成制御手段70bが音声合成制御手段70cに置き換わり、データベース部200bが素片データベース読み取り手段300に置き換わった以外は図9の音声合成部30bと同一な構成である。素片データベース380a〜nは複数の異なる強調の種類と強調の程度の強調処理を施した合成単位を強調処理ごとに格納した記憶媒体である。素片データベース読み取り手段300は圧縮処理手段140bが参照する素片データベース380を読みとるものである。聴覚特性320a〜nはあらかじめ測定された複数の使用者の聴覚特性を個人ごとに格納した記憶媒体である。聴覚特性読み取り手段310は声質制御手段50cが参照する聴覚特性を読みとるものである。
FIG. 12 is a block diagram showing the configuration of a third embodiment of the speech synthesizer of the present invention. FIG. 13 is a flowchart for explaining the operation of the third embodiment. In the configuration of the third embodiment, the description of the same components or portions as those of the second embodiment shown in FIG. 9 will be omitted, and only different portions will be described. The auditory
以上のように構成されたこの実施例の音声合成装置において、以下その動作を図12、図13に従って説明する。 The operation of the speech synthesizing apparatus of the present embodiment configured as described above will be described below with reference to FIGS.
図13において図10と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。まず聴覚特性読み取り手段310により、あらかじめセットした使用者に対応する聴覚特性320を読み出し、声質制御手段50cに出力する。(ステップ3000)。声質制御手段50cは聴覚特性読み取り手段310より入力された聴覚特性に基づき圧縮処理のパラメータを設定し圧縮処理手段140bへ出力する(ステップ2100)。テキスト入力手段10は言語処理手段20に目的のテキストを入力する(ステップ1200)。次に言語処理手段20はテキスト入力手段10より入力されたテキストを構文解析を行い、読み情報、韻律情報および強調部情報を生成し音声合成制御手段70cに出力する(ステップ1300)。素片データベース読み取り手段300は音声合成制御手段70cより入力された読み情報に従って、あらかじめ使用者の好みおよび使用する場面に応じてセットされた素片データベース380より合成単位を読み出し圧縮処理手段140bに出力する(ステップ3600)。圧縮処理手段140bは声質制御手段50cより入力された圧縮処理パラメータに従って素片データベース380より入力された合成単位の振幅のダイナミックレンジを圧縮し、素片接続手段90bに出力する(ステップ2700)。素片接続手段90bは音声合成制御手段70cより入力された韻律情報および強調部情報に従って圧縮処理手段140bより入力された合成単位を合成し合成音声を生成する(ステップ2800)。素片接続手段90bは電気音響変換器60を通して合成音声を出力する(ステップ1900)。
In FIG. 13, the same operations as those in FIG. 10 are denoted by the same reference numerals, and the description thereof will not be repeated. Only different parts will be described. First, the auditory characteristic reading means 310 reads out the auditory characteristic 320 corresponding to the preset user and outputs it to the voice quality control means 50c. (Step 3000). The voice
(実施例4)
以下本発明の第4の実施例について、図面を参照しながら説明する。
(Example 4)
Hereinafter, a fourth embodiment of the present invention will be described with reference to the drawings.
図14は本発明の音声合成装置の第4の実施例を示す構成ブロック図である。図15に第4の実施例の動作を説明するための流れ図を、図16、図17に動作を説明するための流れ図の一部を示す。図14において図1と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図1の音声合成部30aが音声合成部30dに置き換わり、声質制御手段50aが声質制御手段50dに置き換わり、聴覚特性測定手段120が削除された以外は図1と同一な構成である。前記の音声合成部30dは、音声合成制御手段70d、合成単位を記憶しておく素片データベース80、素片データベース80に記憶された合成単位をつなげて合成音声を生成する素片接続手段90d、および素片接続手段90dで生成された合成音声に強調処理を施す音声音韻強調処理手段130dを有する。
FIG. 14 is a block diagram showing the configuration of a fourth embodiment of the speech synthesizer of the present invention. FIG. 15 shows a flowchart for explaining the operation of the fourth embodiment, and FIGS. 16 and 17 show a part of the flowchart for explaining the operation. In FIG. 14, the same components or portions as those in FIG. 1 are denoted by the same reference numerals, and the description thereof will be omitted. The configuration is the same as that of FIG. 1 except that the voice synthesis unit 30a in FIG. 1 is replaced with the voice synthesis unit 30d, the voice quality control unit 50a is replaced with the voice quality control unit 50d, and the auditory
以上のように構成されたこの実施例の音声合成装置において、以下その動作を図14、図15、図16、図17、図18に従って説明する。図15、図16、図17、図18において図2、図4、図5、図6と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。 The operation of the speech synthesizing apparatus according to this embodiment configured as described above will be described below with reference to FIGS. 14, 15, 16, 17, and 18. 15, 16, 17, and 18, the same operations as those in FIGS. 2, 4, 5, and 6 are denoted by the same reference numerals, and the description thereof will not be repeated. Only different parts will be described.
まずテキスト入力手段10は言語処理手段20に目的のテキストを入力する(ステップ1200)。次に言語処理手段20はテキスト入力手段10より入力されたテキストを構文解析を行い、読み情報、韻律情報および強調部情報を生成し音声合成制御手段70dに出力する(ステップ1300)。素片データベース80は音声合成制御手段70dより入力された読み情報に従って素片接続手段90dに合成単位を出力する(ステップ4400)。素片接続手段90dは音声合成制御手段70dより入力された韻律情報および強調部情報に従って素片データベース80より入力された合成単位を接続して合成音声を生成し、音韻強調処理手段130dに出力する(ステップ1600)。声質制御手段50dは強調処理方法の設定を行う(ステップ4700)。まず声質制御手段50dはマイクロフォン110より入力された環境音を1kHz以下、1kHz〜2kHz、2kHz〜4kHz、4kHz以上の帯域に分割し、帯域ごとに100msの平均レベルを求める(ステップ1710)。1kHz以下の環境音の平均レベル、1kHz〜2kHzの環境音の平均レベルと20dBSPL/Hz、他の帯域の環境音の平均レベルと15dBSPL/Hzを比較する(ステップ4720)。1kHz以下の環境音の平均レベルが20dBSPL/Hz以上で、かつ1kHz〜2kHzの環境音の平均レベルが20dBSPL/Hz以上で、かつ他の帯域の環境音の平均レベルが15dBSPL/Hz未満の場合、フォルマント強調情報を真とし(ステップ4730)、子音強調情報を偽とする(4780)。次に全帯域の帯域強調情報を偽とし(ステップ4800)、制御信号を音韻強調処理手段130dに出力する(ステップ4810)。もしステップ4720で1kHz以下の環境音の平均レベルが20dBSPL/Hz以上で、かつ1kHz〜2kHzの環境音の平均レベルが20dBSPL/Hz以上で、かつ他の帯域の環境音の平均レベルが15dBSPL/Hz未満でない場合は、フォルマント強調情報を偽とし(ステップ4740)、1kHz〜2kHzの環境音の平均レベルと20dBSPL/Hz、他の帯域の環境音の平均レベルと15dBSPL/Hzを比較する(ステップ4750)。ステップ4750で1kHz〜2kHzの環境音の平均レベルが20dBSPL/Hz以上、かつ2kHz〜4kHzの環境音の平均レベルが15dBSPL/Hz以上、かつ1kHz以下の環境音の平均レベルが20dBSPL/Hz未満、かつ4kHz以上の環境音の平均レベルが15dBSPL/Hz未満である場合、子音強調情報を真とし(ステップ4760)、全帯域の帯域強調情報を偽とし(ステップ4800)、制御信号を音韻強調処理手段130dに出力する(ステップ4810)。もしステップ4750で1kHz〜2kHzの環境音の平均レベルが20dBSPL/Hz以上、かつ2kHz〜4kHzの環境音の平均レベルが15dBSPL/Hz以上、かつ1kHz以下の環境音の平均レベルが20dBSPL/Hz未満、かつ4kHz以上の環境音の平均レベルが15dBSPL/Hz未満でない場合、子音強調情報を偽とし(ステップ4770)、各帯域の帯域強調情報を設定する(ステップ4790)。1kHz以下・BR>フ環境音の平均レベルと20dBSPL/Hzとを比較する(ステップ1730)。ステップ1730において1kHz以下の環境音の平均レベルが20dBSPL/Hz以上である場合、1kHz以下の帯域強調情報を真とし(ステップ4791)、1kHz〜2kHzの環境音の平均レベルと20dBSPL/Hzとを比較する(ステップ1750)。もしステップ1730において1kHz以下の環境音が20dBSPL/Hz未満である場合、1kHz以下の帯域強調情報を偽とし(ステップ4792)、1kHz〜2kHzの環境音の平均レベルと20dBSPL/Hzとを比較する(ステップ1750)。ステップ1750において1kHz〜2kHzの環境音の平均レベルが20dBSPL/Hz以上である場合、1kHz〜2kHzの帯域強調情報を真とし(ステップ4793)、2kHz〜4kHzの環境音の平均レベルと15dBSPL/Hzとを比較する(ステップ1770)。もしステップ1750において1kHz〜2kHzの環境音が20dBSPL/Hz未満である場合、1kHz〜2kHzの帯域強調情報を偽とし(ステップ4794)、2kHz〜4kHzの環境音の平均レベルと15dBSPL/Hzとを比較する(ステップ1770)。ステップ1770において2kHz〜4kHzの環境音の平均レベルが15dBSPL/Hz以上である場合、2kHz〜4kHzの帯域強調情報を真とし(ステップ4795)、4kHz以上の環境音の平均レベルと15dBSPL/Hzとを比較する(ステップ1790)。もしステップ1770において2kHz〜4kHzの環境音が15dBSPL/Hz未満である場合、2kHz〜4kHzの帯域強調情報を偽とし(ステップ4796)、4kHz以上の環境音の平均レベルと15dBSPL/Hzとを比較する(ステップ1790)。ステップ1790において4kHz以上の環境音の平均レベルが15dBSPL/Hz以上である場合、4kHz以上の帯域強調情報を真とし(ステップ4797)、制御信号を音韻強調処理手段130dに出力する(ステップ4810)。もしステップ1790において4kHz以上の環境音の平均レベルが15dBSPL/Hz未満である場合、4kHz以上の帯域強調情報を偽とし(ステップ4798)、制御信号を音韻強調処理手段130dに出力する(ステップ4810)。音韻強調処理手段130dは音声合成制御手段70dより入力された強調部情報および声質制御手段50dより入力された制御信号に従って強調処理を行う(ステップ4900)。音韻強調処理手段130dは音声合成制御手段70dより入力された強調部情報が真か偽かを判定する(ステップ1510)。ステップ1510において強調部情報が真である場合、合成単位中の母音定常部の時間長を20%延長し(ステップ1520)。声質制御手段50dより入力されたフォルマント強調情報が真か偽かを判定する(ステップ1530)。もしステップ1510において強調部情報が偽である場合、声質制御手段50dより入力されたフォルマント強調情報が真か偽かを判定する(ステップ1530)。ステップ1530においてフォルマント強調情報が真である場合、素片接続手段90dより入力された合成音声のスペクトル包絡を求め、スペクトルピークを強調する(ステップ4910)。スペクトルピークの強調の方法については例えば平成5年、日本音響学会講演論文集春季285頁〜286頁に示すような方法を用いるものとする。次に声質制御手段50dより入力された子音強調情報が真か偽かを判定する(ステップ1550)。もしステップ1530においてフォルマント強調情報が偽である場合、声質制御手段50dより入力された子音強調情報が真か偽かを判定する(ステップ1550)。ステップ1550において子音強調情報が真である場合、音韻強調処理手段130dは合成単位中の子音および子音から母音への渡りの振幅を増幅する(ステップ4920)。子音強調の方法は例えば1992年、電子情報通信学会技術研究報告、巻91、513号31頁〜38頁に示すような方法を用いるものとする。次に声質制御手段50dより入力された1kHz以下の帯域強調情報が真か偽かを判定する(ステップ4930)。もしステップ1560において子音強調情報が偽である場合、声質制御手段50より入力された1kHz以下の帯域強調情報が真か偽かを判定する(ステップ4930)。ステップ4930において1kHz以下の帯域強調情報が真である場合、音韻強調処理手段130dは素片接続手段90dより入力された合成音声の1kHz以下の帯域成分の強調処理を行い(ステップ4940)、1kHz〜2kHzの帯域強調情報が真か偽かを判定する(ステップ4950)。もしステップ4930において1kHz以下の帯域強調情報が偽である場合、1kHz〜2kHzの帯域強調情報が真か偽かを判定する(ステップ4950)。ステップ4950において1kHz〜2kHzの帯域強調情報が真である場合、音韻強調処理手段130dは素片接続手段90dより入力された合成音声の1kHz〜2kHzの帯域成分の強調処理を行い(ステップ4960)、2kHz〜4kHzの帯域強調情報が真か偽かを判定する(ステップ4970)。もしステップ4950において1kHz〜2kHzの帯域強調情報が偽である場合、2kHz〜4kHzの帯域強調情報が真か偽かを判定する(ステップ4970)。ステップ4970において2kHz〜4kHzの帯域強調情報が真である場合、音韻強調処理手段130dは素片接続手段90dより入力された合成音声の2kHz〜4kHzの帯域成分の強調処理を行い(ステップ4980)、4kHz以上の帯域強調情報が真か偽かを判定する(ステップ4990)。もしステップ4970において2kHz〜4kHzの帯域強調情報が偽である場合、4kHz以上の帯域強調情報が真か偽かを判定する(ステップ4990)。ステップ4990において4kHz以上の帯域強調情報が真である場合、音韻強調処理手段130dは素片接続手段90dより入力された合成音声の4kHz以上の帯域成分の強調処理を行い(ステップ5000)、電気音響変換器60を通して合成音声を出力する(ステップ1900)。もしステップ4990において4kHz以上の帯域強調情報が偽である場合、電気音響変換器60を通して合成音声を出力する(ステップ1900)。
First, the text input means 10 inputs a target text to the language processing means 20 (step 1200). Next, the
(実施例5)
以下本発明の第5の実施例について、図面を参照しながら説明する。
(Example 5)
Hereinafter, a fifth embodiment of the present invention will be described with reference to the drawings.
図19は本発明の音声合成装置の第5の実施例を示す構成ブロック図である。図20に第5の実施例の動作を説明するための流れ図をを示す。図19において図9と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図9の音声合成部30bが音声合成部30eに置き換わり、声質制御手段50bが声質制御手段50eに置き換わり、操作手段40bが操作手段40eに置き換わり、声質制御手段50bが声質制御手段50eに置き換わり、聴覚特性記憶手段220が削除された以外は図9と同一な構成である。前記の音声合成部30eは、音声合成制御手段70e、合成単位を記憶しておくデータベース部200e、合成単位をつなげて合成音声を生成する素片接続手段90eを有する。前記のデータベース部200eは異なるパラメータを用いた複数の圧縮処理を施された素片を圧縮処理に用いられたパラメータごとに記憶する複数の素片データベース580a〜nと、複数の素片データベース580a〜nと素片接続手段90eとの接続を切り替えるスイッチ210eとを有する。
FIG. 19 is a configuration block diagram showing a fifth embodiment of the speech synthesizer of the present invention. FIG. 20 is a flowchart for explaining the operation of the fifth embodiment. In FIG. 19, the same reference numerals are given to the same components or portions as those in FIG. The voice synthesizer 30b of FIG. 9 is replaced by the
以上のように構成されたこの実施例の音声合成装置において、以下その動作を図19、図20に従って説明する。 The operation of the speech synthesizing apparatus according to this embodiment configured as described above will be described below with reference to FIGS. 19 and 20.
図20において図10と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。まずテキスト入力手段10は言語処理手段20に目的のテキストを入力する(ステップ1200)。次に言語処理手段20はテキスト入力手段10より入力されたテキストの構文解析を行い、読み情報、韻律情報および強調部情報を生成し音声合成制御手段70eに出力する(ステップ1300)。使用者は操作手段40eに圧縮の程度を入力し、操作手段40eは入力結果を圧縮率選択情報として声質制御手段50eに出力する(ステップ5400)。声質制御手段50eは操作手段40eより入力された圧縮率選択情報に最も近い圧縮率で圧縮が施された素片データベースを素片データベース580a〜nより選択し、スイッチ210eを切り替えて素片接続手段90eに接続する(ステップ5500)。ステップ5500で素片接続手段90eと接続された素片データベース580は音声合成制御手段70eより入力された読み情報に従って素片接続手段90eに合成単位を出力する(ステップ5600)。素片接続手段90eは音声合成制御手段70eより入力された韻律情報および強調部情報に従って素片データベース580より入力された合成単位を接続して合成音声を生成し(ステップ2800)、電気音響変換器60を通して合成音声を出力する(ステップ1900)。
20. In FIG. 20, the same operations as those in FIG. 10 are denoted by the same reference numerals, and thus description thereof will be omitted, and only different portions will be described. First, the text input means 10 inputs a target text to the language processing means 20 (step 1200). Next, the
(実施例6)
以下本発明の第6の実施例について、図面を参照しながら説明する。
(Example 6)
Hereinafter, a sixth embodiment of the present invention will be described with reference to the drawings.
図21は本発明の音声合成装置の第6の実施例を示す構成ブロック図である。図22に第6の実施例の動作を説明するための流れ図を示す。第6の実施例の構成において図12に示した第3の実施例の構成と同一物または部分については説明を省略し、異なった部分についてのみ説明する。図12の音声合成部30cが音声合成部30fに置き換わり、素片データベース380a〜nが素片データベース680a〜nに置き換わり、聴覚特性読み取り手段310、声質制御手段50c、聴覚特性読み取り手段310、聴覚特性a〜nが削除された以外は図12と同一な構成である。前記の音声合成部30fは図12の音声合成制御手段70cが音声合成制御手段70fに置き換わり、素片接続手段90bが素片接続手段90fに置き換わり、圧縮処理手段140bが削除された以外は図12の音声合成部30cと同一な構成である。素片データベース680a〜nは異なるパラメータを用いた複数の圧縮処理を施された素片を圧縮処理に用いられたパラメータごとに格納した記憶媒体である。素片データベース読み取り手段300は素片接続手段90fが参照する素片データベース680を読み取るものである。
FIG. 21 is a configuration block diagram showing a sixth embodiment of the speech synthesizer of the present invention. FIG. 22 is a flowchart for explaining the operation of the sixth embodiment. In the configuration of the sixth embodiment, the description of the same components or portions as those of the third embodiment shown in FIG. 12 will be omitted, and only different portions will be described. The voice synthesis unit 30c in FIG. 12 is replaced by the voice synthesis unit 30f, the
以上のように構成されたこの実施例の音声合成装置において、以下その動作を図21、図22に従って説明する。 The operation of the speech synthesizing apparatus according to this embodiment configured as described above will be described below with reference to FIGS. 21 and 22.
図22において図13と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。まずテキスト入力手段10は言語処理手段20に目的のテキストを入力する(ステップ1200)。次に言語処理手段20はテキスト入力手段10より入力されたテキストの構文解析を行い、読み情報、韻律情報および強調部情報を生成し音声合成制御手段70fに出力する(ステップ1300)。素片データベース読み取り手段300は音声合成制御手段70fより入力された読み情報に従って、あらかじめ使用者の好みおよび使用する場面に応じてセットされた素片データベース680より合成単位を読み出し素片接続手段90fに出力する(ステップ6600)。素片接続手段90fは音声合成制御手段70fより入力された韻律情報および強調部情報に従って素片データベース読み取り手段300より入力された合成単位を接続して合成音声を生成し(ステップ2800)、電気音響変換器60を通して合成音声を出力する(ステップ1900)。
に お い て In FIG. 22, the same operations as those in FIG. 13 are denoted by the same reference numerals, and the description thereof will not be repeated. Only different parts will be described. First, the text input means 10 inputs a target text to the language processing means 20 (step 1200). Next, the
(実施例7)
以下本発明の第7の実施例について、図面を参照しながら説明する。
(Example 7)
Hereinafter, a seventh embodiment of the present invention will be described with reference to the drawings.
図23は本発明の音声合成装置の第7の実施例を示す構成ブロック図である。図24に第7の実施例の動作を説明するための流れ図を、図25に動作を説明するための流れ図の一部を示す。図23において図1と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図1の音声合成部30aが音声合成部30gに置き換わり、声質制御手段50aが声質制御手段50gに置き換わった以外は図1と同一な構成である。前記の音声合成部30gは、図1の音声合成部30aの音声合成制御手段70aが音声合成制御手段70gに置き換わり、圧縮処理手段140aが圧縮処理手段140gに置き換わり、素片接続手段90aが素片接続手段90gに置き換わり、音韻強調処理手段130aが削除された以外は図1の音声合成部30aと同一な構成である。 FIG. 23 is a configuration block diagram showing a seventh embodiment of the speech synthesizer of the present invention. FIG. 24 is a flowchart for explaining the operation of the seventh embodiment, and FIG. 25 is a part of a flowchart for explaining the operation. In FIG. 23, the same components or parts as those in FIG. The configuration is the same as that of FIG. 1 except that the voice synthesis unit 30a in FIG. 1 is replaced with a voice synthesis unit 30g, and the voice quality control unit 50a is replaced with a voice quality control unit 50g. The voice synthesizing unit 30g of the voice synthesizing unit 30a shown in FIG. The configuration is the same as that of the speech synthesis unit 30a in FIG.
以上のように構成されたこの実施例の音声合成装置において、以下その動作を図23、図24、図25に従って説明する。 The operation of the speech synthesizing apparatus according to this embodiment configured as described above will be described below with reference to FIGS. 23, 24 and 25.
まず聴覚特性測定手段120で使用者の聴覚特性を測定し、測定結果を声質制御手段50gに出力する。(ステップ1000)。テキスト入力手段10は言語処理手段20に目的のテキストを入力する(ステップ1200)。次に言語処理手段20はテキスト入力手段10より入力されたテキストを構文解析を行い、読み情報、韻律情報および強調部情報を生成し音声合成制御手段70gに出力する(ステップ1300)。素片データベース80は音声合成制御手段70gより入力された読み情報に従って圧縮処理手段140gに合成単位を出力する(ステップ7400)。圧縮処理手段140gは声質制御手段50gより入力された制御信号に従って素片データベース80から入力された合成単位の振幅のダイナミックレンジを圧縮する(ステップ7500)。まず声質制御手段50gはマイクロフォン110より入力された環境音を1kHz以下、1kHz〜2kHz、2kHz〜4kHz、4kHz以上の帯域に分割し、帯域ごとに100msの平均レベルを求める(ステップ1710)。1kHz以下の環境音の平均レベルと聴覚特性測定手段120より入力された使用者の500Hzの最小可聴値とを比較する(ステップ7720)。ステップ7720において1kHz以下の環境音の平均レベルが使用者の500Hzの最小可聴値以上である場合、声質制御手段50gは合成単位の1kHz以下の成分のレベルのダイナミックレンジが1kHz以下の環境音の平均レベルの値に聴覚特性測定手段120より入力された使用者の500Hzの最小可聴値を加えた値〜90dBSPLとなるように圧縮処理のパラメータを設定し(ステップ7730)、1kHz〜2kHzの環境音の平均レベルと聴覚特性測定手段120より入力された使用者の1kHzの最小可聴値とを比較する(ステップ7750)。もしステップ7730において1kHz以下の環境音が使用者の500Hzの最小可聴値未満である場合、聴覚特性測定手段120より入力された測定結果に基づき圧縮処理のパラメータを設定し(ステップ7740)、1kHz〜2kHzの環境音の平均レベルと聴覚特性測定手段120より入力された使用者の1kHzの最小可聴値とを比較する(ステップ7750)。圧縮処理パラメータの設定方法は例えば実施例2および実施例3と同様とする。ステップ7750において1kHz〜2kHzの環境音の平均レベルが聴覚特性測定手段120より入力された使用者の1kHzの最小可聴値以上である場合、声質制御手段50gは合成単位の1kHz〜2kHzの成分のレベルのダイナミックレンジが1kHz〜2kHzの環境音の平均レベルの値に聴覚特性測定手段120より入力された使用者の1kHzの最小可聴値を加えた値〜90dBSPLとなるように圧縮処理のパラメータを設定し(ステップ7760)、2kHz〜4kHzの環境音の平均レベルと聴覚特性測定手段120より入力された使用者の2kHzの最小可聴値とを比較する(ステップ7780)。もしステップ7750において1kHz〜2kHzの環境音が使用者の1kHzの最小可聴値未満である場合、聴覚特性測定手段120より入力された測定結果に基づき圧縮処理のパラメータを設定し(ステップ7770)、2kHz〜4kHzの環境音の平均レベルと聴覚特性測定手段120より入力された使用者の2kHzの最小可聴値とを比較する(ステップ7780)。ステップ7780において2kHz〜4kHzの環境音の平均レベルが聴覚特性測定手段120より入力された使用者の2kHzの最小可聴値以上である場合、声質制御手段50gは合成単位の2kHz〜4kHzの成分のレベルのダイナミックレンジが2kHz〜4kHzの環境音の平均レベルの値に聴覚特性測定手段120より入力された使用者の2kHzの最小可聴値を加えた値〜90dBSPLとなるように圧縮処理のパラメータを設定し(ステップ7790)、4kHz以上の環境音の平均レベルと聴覚特性測定手段120より入力された使用者の4kHzの最小可聴値とを比較する(ステップ7810)。もしステップ7780において2kHz〜4kHzの環境音が使用者の2kHzの最小可聴値未満である場合、聴覚特性測定手段120より入力された測定結果に基づき圧縮処理のパラメータを設定し(ステップ7800)、4kHz以上の環境音の平均レベルと聴覚特性測定手段120より入力された使用者の4kHzの最小可聴値とを比較する(ステップ7810)。ステップ7810において4kHz以上の環境音の平均レベルが聴覚特性測定手段120より入力された使用者の4kHzの最小可聴値以上である場合、声質制御手段50gは合成単位の4kHz以上の成分のレベルのダイナミックレンジが4kHz以上の環境音の平均レベルの値に聴覚特性測定手段120より入力された使用者の4kHzの最小可聴値を加えた値〜90dBSPLとなるように圧縮処理のパラメータを設定し(ステップ7820)、圧縮処理手段140gに制御信号を出力する(ステップ1810)。もしステップ7810において4kHz以上の環境音が使用者の4kHzの最小可聴値未満である場合、聴覚特性測定手段120より入力された測定結果に基づき圧縮処理のパラメータを設定し(ステップ7830)、圧縮処理手段140gに制御信号を出力する(ステップ1810)。圧縮処理手段140gは声質制御手段50gより入力された制御信号に基づき素片データベース80より入力された合成単位に圧縮処理を施し、素片接続手段90gに出力する(ステップ7840)。素片接続手段90gは音声合成制御手段70gより入力された韻律情報および強調部情報に従って圧縮処理手段140gより入力された合成単位を接続して合成音声を生成し(ステップ7900)、電気音響変換器60を通して合成音声を出力する(ステップ1900)。
{Circle around (1)} First, the auditory
(実施例8)
以下本発明の第8の実施例について、図面を参照しながら説明する。
(Example 8)
Hereinafter, an eighth embodiment of the present invention will be described with reference to the drawings.
図26は本発明の音声合成装置の第8の実施例を示す構成ブロック図である。図27に第8の実施例の動作を説明するための流れ図を、図28に第8の実施例の動作の一部を説明するための流れ図を示す。図29に第8の実施例のフォルマント強調の処理結果の模式図を示す。第8の実施例の構成において図12に示した第3の実施例の構成と同一物または部分については説明を省略し、異なった部分についてのみ説明する。図12の音声合成部30cが音声合成部30hに置き換わり、声質制御手段50cが声質制御手段50hに置き換わり、素片データベース380a〜nが削除された以外は図12と同一な構成である。前記の音声合成部30hは図12の音声合成制御手段70cが音声合成制御手段70hに置き換わり、素片データベース読み取り手段300が素片データベース80に置き換わり、圧縮処理手段140bが音韻強調処理手段130hに置き換わり、強調フィルタ部800がつけ加わった以外は図12の音声合成部30cと同一な構成である。前記の強調フィルタ部800はあらかじめ各音韻ごとにフォルマントを強調するよう設定されたフォルマント強調フィルタ810a〜nと、フォルマント強調フィルタ810と音韻強調処理手段130hの接続を切り替えるスイッチ820とを有する。
FIG. 26 is a block diagram showing the configuration of an eighth embodiment of the speech synthesizer of the present invention. FIG. 27 is a flowchart for explaining the operation of the eighth embodiment, and FIG. 28 is a flowchart for explaining a part of the operation of the eighth embodiment. FIG. 29 shows a schematic diagram of the processing result of the formant enhancement according to the eighth embodiment. In the configuration of the eighth embodiment, the description of the same components or portions as those of the third embodiment shown in FIG. 12 will be omitted, and only different portions will be described. The configuration is the same as that of FIG. 12 except that the voice synthesis unit 30c in FIG. 12 is replaced by the voice synthesis unit 30h, the voice
以上のように構成されたこの実施例の音声合成装置において、以下その動作を図26、図27、図28、図29に従って説明する。 The operation of the speech synthesizing apparatus of this embodiment having the above-described configuration will be described below with reference to FIGS. 26, 27, 28, and 29.
図27、図28、図29において図2、図4、図13と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。まず聴覚特性読み取り手段310により、あらかじめセットした使用者に対応する聴覚特性を読み出し、声質制御手段50hに出力する。(ステップ3000)。声質制御手段50は聴覚特性読み取り手段310より入力された聴覚特性に基づき強調処理の設定を決定し音韻強調処理手段130hへ出力する(ステップ1100)。テキスト入力手段10は言語処理手段20に目的のテキストを入力する(ステップ1200)。次に言語処理手段20はテキスト入力手段10より入力されたテキストの構文解析を行い、読み情報、韻律情報および強調部情報を生成し音声合成制御手段70hに出力する(ステップ1300)。素片データベース80は音声合成制御手段70hより入力された読み情報に従って音韻強調処理手段130hに合成単位を出力する(ステップ1400)。音韻強調処理手段130hは音声合成制御手段70hより入力された強調部情報と声質制御手段50hより入力された制御信号に従って合成単位に強調処理を施す(ステップ8500)。音韻強調処理手段130hは音声合成制御手段70hより入力された強調部情報が真か偽かを判定する(ステップ1510)。ステップ1510において強調部情報が真である場合、合成単位中の母音定常部の時間長を20%延長し(ステップ1520)。声質制御手段50hより入力されたフォルマント強調情報が真か偽かを判定する(ステップ1530)。もしステップ1510において強調部情報が偽である場合、声質制御手段50hより入力されたフォルマント強調情報が真か偽かを判定する(ステップ1530)。ステップ1530においてフォルマント強調情報が真である場合、音声合成制御手段70hより出力された制御信号により素片データベース80より出力された合成単位に対応するフォルマント強調フィルタ810にスイッチ820を接続する(ステップ8510)。図28に示すように、ステップ8510で接続されたあらかじめ音韻ごとに設定されたフィルタバンクを用いて、フォルマントを含む帯域を選択的に通過させ、図7c)に示すようにフォルマントを含む帯域とフォルマントを含まない帯域とのコントラストを強調する(ステップ8540)。次に声質制御手段50より入力された子音強調情報が真か偽かを判定する(ステップ1550)。もしステップ1530においてフォルマント強調情報が偽である場合、声質制御手段50hより入力された子音強調情報が真か偽かを判定する(ステップ1550)。ステップ1550において子音強調情報が真である場合、合成単位中の子音および子音から母音への渡りの振幅を増幅する(ステップ1560)。次に声質制御手段50hより入力された帯域強調情報が真か偽かを判定する(ステップ1570)。もしステップ1560において子音強調情報が偽である場合、声質制御手段50hより入力された帯域強調情報が真か偽かを判定する(ステップ1570)。ステップ1570において帯域強調情報が真である場合、合成単位中の子音に2kHz以上の帯域を強調する高帯域強調処理を行い(ステップ1580)、音韻強調処理手段130hは合成単位を素片接続手段90hに出力する(ステップ1590)。もしステップ1570において帯域強調情報が偽である場合、音韻強調処理手段130hは合成単位を素片接続手段90hに出力する(ステップ1590)。素片接続手段90hは音声合成制御手段70hより入力された韻律情報および強調部情報に従って音韻強調処理手段130hより入力された合成単位を接続して合成音声を生成し(ステップ1600)、電気音響変換器60を通して合成音声を出力する(ステップ1900)。
In FIGS. 27, 28, and 29, the same operations as those in FIGS. 2, 4, and 13 are denoted by the same reference numerals, and description thereof will be omitted. Only different parts will be described. First, the auditory characteristic reading means 310 reads the auditory characteristic corresponding to the preset user and outputs it to the voice quality control means 50h. (Step 3000). The voice quality control unit 50 determines the setting of the emphasizing process based on the auditory characteristics input from the auditory
(実施例9)
以下本発明の第9の実施例について、図面を参照しながら説明する。
(Example 9)
Hereinafter, a ninth embodiment of the present invention will be described with reference to the drawings.
図30は本発明の音声合成装置の第9の実施例を示す構成ブロック図である。図31に第9の実施例の動作を説明するための流れ図を、図32に動作を説明するための流れ図の一部を示す。図30において図42と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図42の声質制御手段50mが声質制御手段50iに置き換わり、操作手段40mがマイクロフォン110に置き換わった以外は図42と同一な構成である。
FIG. 30 is a block diagram showing the configuration of a ninth embodiment of the speech synthesizer of the present invention. FIG. 31 is a flowchart for explaining the operation of the ninth embodiment, and FIG. 32 is a part of a flowchart for explaining the operation. 30, the same components or portions as those in FIG. 42 are denoted by the same reference numerals, and the description thereof will not be repeated. 42 has the same configuration as that of FIG. 42 except that voice quality control means 50m is replaced by voice quality control means 50i and operation means 40m is replaced by
以上のように構成されたこの実施例の音声合成装置において、以下その動作を図30、図31、図32に従って説明する。図31において図2と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。 The operation of the speech synthesizing apparatus according to this embodiment configured as described above will be described below with reference to FIGS. 30, 31, and 32. In FIG. 31, the same operations as those in FIG. 2 are denoted by the same reference numerals, and thus description thereof will be omitted, and only different portions will be described.
声質制御手段50iは合成音声の基本周波数の設定をする(ステップ9100)。まずマイクロフォン110は声質制御手段50iに環境音信号を出力する(ステップ9110)。声質制御手段50iはマイクロフォン110より入力された環境音のレベルと30dB(A)を比較する(ステップ9120)。ステップ9120で環境音のレベルが30dB(A)以上の場合、基本周波数をあらかじめ定められた標準値より20%高く設定し(ステップ9130)、テキスト入力手段10は言語処理手段20に目的のテキストを入力する(ステップ1200)。ステップ9120で環境音のレベルが30dB(A)未満の場合、テキスト入力手段10は言語処理手段20に目的のテキストを入力する(ステップ1200)。次に言語処理手段20はテキスト入力手段10より入力されたテキストを構文解析を行い、読み情報および韻律情報を生成し音声合成制御手段70mに出力する(ステップ1300)。素片データベース80は音声合成制御手段70mより入力された読み情報に従って素片接続手段90mに合成単位を出力する(ステップ9400)。素片接続手段90mは音声合成制御手段70mより入力された韻律情報および声質制御手段50iより入力された制御信号に従って素片データベース80より入力された合成単位を接続して合成音声を生成し(ステップ9500)、電気音響変換器60を通して合成音声を出力する(ステップ1900)。
The voice quality control means 50i sets the fundamental frequency of the synthesized voice (step 9100). First, the
(実施例10)
以下本発明の第10の実施例について、図面を参照しながら説明する。
(Example 10)
Hereinafter, a tenth embodiment of the present invention will be described with reference to the drawings.
図33は本発明の音声合成装置の第10の実施例を示す構成ブロック図である。図34に第10の実施例の動作を説明するための流れ図を、図35に動作を説明するための流れ図の一部を示す。図33において図30と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図30の声質制御手段50iが声質制御手段50jに置き換わり、マイクロフォン110が聴覚特性測定手段120に置き換わった以外は図30と同一な構成である。
FIG. 33 is a block diagram showing the configuration of a tenth embodiment of the speech synthesizer of the present invention. FIG. 34 is a flow chart for explaining the operation of the tenth embodiment, and FIG. 35 is a part of a flow chart for explaining the operation. 33, the same components or portions as those in FIG. 30 are denoted by the same reference numerals, and the description thereof will not be repeated. 30 has the same configuration as that of FIG. 30 except that voice quality control means 50i is replaced by voice quality control means 50j and
以上のように構成されたこの実施例の音声合成装置において、以下その動作を図33、図34、図35に従って説明する。図34、図35において図31、図32と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。 動作 The operation of the speech synthesizer of this embodiment configured as described above will be described below with reference to FIGS. 33, 34 and 35. 34 and 35, the same operations as those in FIGS. 31 and 32 are denoted by the same reference numerals, and the description thereof will not be repeated. Only different parts will be described.
聴覚特性測定手段120で使用者の聴覚特性を測定する(ステップ10000)。聴覚特性の測定方法については例えば実施例1と同様とする。声質制御手段50jは聴覚特性測定手段120より入力された使用者の聴覚特性および好みに従って合成音声の基本周波数の設定をする(ステップ10100)。聴覚特性測定手段120より聴覚特性の測定結果を声質制御手段50jに出力する。(ステップ10110)。声質制御手段50jは使用者の2kHz未満の平均聴力レベルと2kHz以上の平均聴力レベルを比較する(ステップ10120)。ステップ10120において2kHz以上の平均聴力レベルから2kHz未満の平均聴力レベルを減じた値が30dB以上の場合は、合成音声の基本周波数をあらかじめ定められた標準値より20%高く設定し(ステップ9130)、テキスト入力手段10は言語処理手段20に目的のテキストを入力する(ステップ1200)。ステップ10120で2kHz以上の平均聴力レベルから2kHz未満の平均聴力レベルを減じた値が30dB未満の場合、テキスト入力手段10は言語処理手段20に目的のテキストを入力する(ステップ1200)。次に言語処理手段20はテキスト入力手段10より入力されたテキストの構文解析を行い、読み情報および韻律情報を生成し音声合成制御手段70mに出力する(ステップ1300)。素片データベース80は音声合成制御手段70mより入力された読み情報に従って素片接続手段90mに合成単位を出力する(ステップ9400)。素片接続手段90mは音声合成制御手段70mより入力された韻律情報および声質制御手段50jより入力された制御信号に従って素片データベース80より入力された合成単位を合成し合成音声を生成し(ステップ9500)、電気音響変換器60を通して合成音声を出力する(ステップ1900)。
(4) The hearing characteristics of the user are measured by the hearing characteristics measuring means 120 (step 10000). The method of measuring the auditory characteristics is, for example, the same as in the first embodiment. The voice quality control means 50j sets the fundamental frequency of the synthesized voice in accordance with the user's auditory characteristics and preferences inputted from the auditory characteristic measuring means 120 (step 10100). The auditory characteristic measuring means 120 outputs the measurement result of the auditory characteristic to the voice quality control means 50j. (Step 10110). The voice quality control means 50j compares the user's average hearing level below 2 kHz with the average hearing level above 2 kHz (step 10120). If the value obtained by subtracting the average hearing level of less than 2 kHz from the average hearing level of 2 kHz or more in
(実施例11)
以下本発明の第11の実施例について、図面を参照しながら説明する。
(Example 11)
Hereinafter, an eleventh embodiment of the present invention will be described with reference to the drawings.
図36は本発明の音声合成装置の第11の実施例を示す構成ブロック図である。図37に第11の実施例の動作を説明するための流れ図を、図38に動作を説明するための流れ図の一部を示す。図36において図33と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図33の声質制御手段50jが声質制御手段50kに置き換わり、聴覚特性測定手段120が聴覚特性記憶手段220に置き換わった以外は図33と同一な構成である。 FIG. 36 is a block diagram showing a configuration of an eleventh embodiment of the speech synthesizer of the present invention. FIG. 37 is a flowchart for explaining the operation of the eleventh embodiment, and FIG. 38 is a part of a flowchart for explaining the operation. 36, the same components or portions as those in FIG. 33 are denoted by the same reference numerals, and the description thereof will be omitted. Only different portions will be described. The configuration is the same as that of FIG. 33 except that the voice quality control means 50j in FIG. 33 is replaced by the voice quality control means 50k, and the auditory characteristic measuring means 120 is replaced by the auditory characteristic storage means 220.
以上のように構成されたこの実施例の音声合成装置において、以下その動作を図36、図37、図38に従って説明する。図37において図34と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。 The operation of the speech synthesizing apparatus according to this embodiment having the above-described configuration will be described below with reference to FIGS. 36, 37, and 38. In FIG. 37, the same operations as those in FIG. 34 are denoted by the same reference numerals, and description thereof will be omitted. Only different portions will be described.
声質制御手段50kは合成音声の基本周波数の設定をする(ステップ11100)。まず聴覚特性記憶手段220よりあらかじめ測定された使用者の聴覚特性を声質制御手段50kに出力する。(ステップ11110)。声質制御手段50kは使用者の平均聴力レベルと40dBHLを比較する(ステップ11120)。ステップ11120において使用者の平均聴力レベルが40dBHL以上の場合は、合成音声の話速をあらかじめ定められた標準値より10%遅く設定し(ステップ11130)、テキスト入力手段10は言語処理手段20に目的のテキストを入力する(ステップ1200)。ステップ11120で使用者の平均聴力レベルが40dBHL未満の場合、テキスト入力手段10は言語処理手段20に目的のテキストを入力する(ステップ1200)。次に言語処理手段20はテキスト入力手段10より入力されたテキストを構文解析を行い、読み情報および韻律情報を生成し音声合成制御手段70mに出力する(ステップ1300)。素片データベース80は音声合成制御手段70mより入力された読み情報に従って素片接続手段90mに合成単位を出力する(ステップ9400)。素片接続手段90mは音声合成制御手段70mより入力された韻律情報および声質制御手段50kより入力された制御信号に従って素片データベース80より入力された合成単位を合成し合成音声を生成し(ステップ9500)、電気音響変換器60を通して合成音声を出力する(ステップ1900)。
The voice quality control means 50k sets the fundamental frequency of the synthesized voice (step 11100). First, the auditory
(実施例12)
以下本発明の第12の実施例について、図面を参照しながら説明する。
(Example 12)
Hereinafter, a twelfth embodiment of the present invention will be described with reference to the drawings.
図39は本発明の音声合成装置の第12の実施例を示す構成ブロック図である。図40に第12の実施例の動作を説明するための流れ図を、図41に動作を説明するための流れ図の一部を示す。図39において図36と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図36の声質制御手段50kが声質制御手段50lに置き換わり、聴覚特性記憶手段220が聴覚特性読み取り手段310に置き換わり、聴覚特性320a〜nがつけ加わった以外は図36と同一な構成である。
FIG. 39 is a structural block diagram showing a twelfth embodiment of the speech synthesizer of the present invention. FIG. 40 shows a flowchart for explaining the operation of the twelfth embodiment, and FIG. 41 shows a part of a flowchart for explaining the operation. In FIG. 39, the same components or portions as those in FIG. 36 are denoted by the same reference numerals, and therefore description thereof will be omitted, and only different portions will be described. The configuration is the same as that of FIG. 36 except that the voice
以上のように構成されたこの実施例の音声合成装置において、以下その動作を図39、図40、図41に従って説明する。図40、図41において図37、図38と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。 The operation of the speech synthesizing apparatus according to this embodiment configured as described above will be described below with reference to FIGS. 39, 40, and 41. In FIGS. 40 and 41, the same operations as those in FIGS. 37 and 38 are denoted by the same reference numerals, and the description thereof will be omitted. Only different parts will be described.
声質制御手段50lは合成音声の基本周波数の設定をする(ステップ12100)。まず聴覚特性読み取り手段310はあらかじめセットされた使用者の聴覚特性320を読み取り、声質制御手段50lに出力する。(ステップ12110)。声質制御手段50は使用者の平均聴力レベルと40dBHLを比較する(ステップ11120)。ステップ11120において使用者の平均聴力レベルが40dBHL以上の場合は、合成音声の話速をあらかじめ定められた標準値より10%遅く設定し(ステップ11130)、テキスト入力手段10は言語処理手段20に目的のテキストを入力する(ステップ1200)。ステップ11120で使用者の平均聴力レベルが40dBHL未満の場合、テキスト入力手段10は言語処理手段20に目的のテキストを入力する(ステップ1200)。次に言語処理手段20はテキスト入力手段10より入力されたテキストの構文解析を行い、読み情報および韻律情報を生成し音声合成制御手段70mに出力する(ステップ1300)。素片データベース80は音声合成制御手段70mより入力された読み情報に従って素片接続手段90mに合成単位を出力する(ステップ9400)。素片接続手段90mは音声合成制御手段70mより入力された韻律情報および声質制御手段50mより入力された制御信号に従って素片データベース80より入力された合成単位を接続して合成音声を生成し(ステップ9500)、電気音響変換器60を通して合成音声を出力する(ステップ1900)。
The voice quality control unit 501 sets the fundamental frequency of the synthesized voice (step 12100). First, the auditory characteristic reading means 310 reads the user's auditory characteristic 320 set in advance and outputs it to the voice quality control means 501. (Step 12110). The voice quality control means 50 compares the average hearing level of the user with 40 dBHL (step 11120). If the average hearing level of the user is equal to or higher than 40 dBHL in
(実施例13)
以下本発明の第13の実施例について、図面を参照しながら説明する。
(Example 13)
Hereinafter, a thirteenth embodiment of the present invention will be described with reference to the drawings.
図42は本発明の音声合成装置の第13の実施例を示す構成ブロック図である。図43に第13の実施例の動作を説明するための流れ図をを示す。図42において図30と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図30の言語処理手段20が言語処理部900に置き換わり、音声合成部30mが音声合成部30nに置き換わり、声質制御手段50iが削除され、マイクロフォン110が音声合成制御手段70nに接続された以外は図30と同一な構成である。前記の言語処理部900は構文解析手段910と音声合成開始位置決定手段920とを有する。前記の音声合成部30nは音声合成制御手段70nと、素片データベース80、素片接続手段90nとを有する。
FIG. 42 is a configuration block diagram showing a thirteenth embodiment of the speech synthesizer of the present invention. FIG. 43 is a flowchart for explaining the operation of the thirteenth embodiment. 42, the same components or portions as those in FIG. 30 are denoted by the same reference numerals, and the description thereof will not be repeated. 30 except that the
以上のように構成されたこの実施例の音声合成装置において、以下その動作を図42、図43に従って説明する。図43において図31と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。 The operation of the speech synthesizing apparatus according to this embodiment configured as described above will be described below with reference to FIGS. 42 and 43. In FIG. 43, the same operations as those in FIG. 31 are denoted by the same reference numerals, and description thereof will be omitted. Only different parts will be described.
まずテキスト入力手段10は構文解析手段910に目的のテキストを入力する(ステップ13100)。次に構文解析手段910はテキスト入力手段10より入力されたテキストを構文解析を行い、構文情報を生成し音声合成開始位置決定手段920へ出力し、読み情報および韻律情報を生成し音声合成制御手段70nに出力する(ステップ13200)。音声合成開始位置決定手段920は構文解析手段910より入力された構文情報に従って音声合成開始位置を決定し、音声合成制御手段70nに開始位置情報を出力する(ステップ13300)。音声合成制御手段70nはマイクロフォン110より環境音信号を取り込み、環境音の100msの平均レベルと70dB(A)とを比較する(ステップ13400)。ステップ13400において環境音の平均レベルが70dB(A)未満の場合、素片データベース80は音声合成制御手段70nより入力された読み情報に従って素片接続手段90nに合成単位を出力する(ステップ9400)。もしステップ13400で環境音の平均レベルが70dB(A)以上である場合、音声合成制御手段70nは音声合成停止信号を素片接続手段90nに出力し、合成音声の生成を停止する(ステップ13500)。音声合成制御手段70nは環境音の平均レベルと70dB(A)とを比較し(ステップ13600)、環境音の平均レベルが70dB(A)以上である場合は、ステップ13600を繰り返す。ステップ13600において環境音の平均レベルが70dB(A)未満である場合にのみ、音声合成開始位置決定手段920より入力された開始位置情報に従い、停止位置よりテキスト上の位置が前で最も停止位置に近い音声合成開始位置から音声合成を再開し(ステップ13700)、素片データベース80は音声合成制御手段70nより入力された読み情報に従って素片接続手段90nに合成単位を出力する(ステップ9400)。素片接続手段90nは音声合成制御手段70nより入力された韻律情報に従って素片データベース80より入力された合成単位を接続して合成音声を生成し(ステップ9500)、電気音響変換器60を通して合成音声を出力する(ステップ1900)。
First, the text input means 10 inputs a target text to the syntax analysis means 910 (step 13100). Next, the syntactic analysis means 910 analyzes the text input from the text input means 10, generates syntactic information, outputs the syntactic information to the speech synthesis start position determining means 920, generates reading information and prosody information, and generates speech information. 70n (step 13200). Speech synthesis start position determination means 920 determines a speech synthesis start position according to the syntax information input from syntax analysis means 910, and outputs start position information to speech synthesis control means 70n (step 13300). The voice synthesis control unit 70n takes in the environmental sound signal from the
(実施例14)
以下本発明の第14の実施例について、図面を参照しながら説明する。
(Example 14)
Hereinafter, a fourteenth embodiment of the present invention will be described with reference to the drawings.
図44は本発明の音声合成装置の第14の実施例を示す構成ブロック図である。図45に第14の実施例の動作を説明するための流れ図をを示す。図44において図42と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図42の音声合成部30nが音声合成部30oに置き換わり、マイクロフォン110が操作手段40oに置き換わった以外は図42と同一な構成である。前記の音声合成部30oは音声合成制御手段70oと、素片データベース80、素片接続手段90nとを有する。
FIG. 44 is a configuration block diagram showing a fourteenth embodiment of the speech synthesizer of the present invention. FIG. 45 is a flowchart for explaining the operation of the fourteenth embodiment. 44, the same components or portions as those in FIG. 42 are denoted by the same reference numerals, and the description thereof will not be repeated. Only different portions will be described. 42 has the same configuration as that of FIG. 42 except that the voice synthesis unit 30n is replaced by the voice synthesis unit 30o and the
以上のように構成されたこの実施例の音声合成装置において、以下その動作を図44、図45に従って説明する。図45において図43と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。 The operation of the speech synthesizer according to the present embodiment configured as described above will be described below with reference to FIGS. 44 and 45. In FIG. 45, the same operations as those in FIG. 43 are denoted by the same reference numerals, and the description thereof will be omitted. Only different parts will be described.
まずテキスト入力手段10は構文解析手段910に目的のテキストを入力する(ステップ13100)。次に構文解析手段910はテキスト入力手段10より入力されたテキストの構文解析を行い、構文情報を生成し音声合成開始位置決定手段920へ出力し、読み情報および韻律情報を生成し音声合成制御手段70oに出力する(ステップ13200)。音声合成開始位置決定手段920は構文解析手段910より入力された構文情報に従って音声合成開始位置を決定し、音声合成制御手段70oに開始位置情報を出力する(ステップ13300)。音声合成制御手段70oは操作手段40oより操作信号を取り込み、使用者が音声合成停止信号を入力したか否かを判定する(ステップ14400)。ステップ14400において音声合成停止信号が入力されていない場合、素片データベース80は音声合成制御手段70nより入力された読み情報に従って素片接続手段90nに合成単位を出力する(ステップ9400)。もしステップ14400で音声合成停止信号が入力されている場合、音声合成制御手段70oは音声合成停止信号を素片接続手段90nに出力し、合成音声の生成を停止する(ステップ13500)。音声合成制御手段70oは操作装置より操作信号を取り込み、使用者が音声合成再開信号を入力したか否かを判定し(ステップ14600)、音声合成再開信号が入力されていない場合は、ステップ14600を繰り返す。ステップ14600において音声合成再開信号が入力された場合にのみ、音声合成開始位置決定手段920より入力された開始位置情報に従い、停止位置よりテキスト上の位置が前で最も停止位置に近い音声合成開始位置から音声合成を再開し(ステップ13700)、素片データベース80は音声合成制御手段70oより入力された読み情報に従って素片接続手段90nに合成単位を出力する(ステップ9400)。素片接続手段90nは音声合成制御手段70oより入力された韻律情報に従って素片データベース80より入力された合成単位を接続して合成音声を生成し(ステップ9500)、電気音響変換器60を通して合成音声を出力する(ステップ1900)。
First, the text input means 10 inputs a target text to the syntax analysis means 910 (step 13100). Next, the syntactic analysis means 910 analyzes the syntax of the text input from the text input means 10, generates syntax information and outputs it to the speech synthesis start position determination means 920, generates reading information and prosody information, and generates speech information. 70o (Step 13200). Speech synthesis start position determination means 920 determines a speech synthesis start position according to the syntax information input from syntax analysis means 910, and outputs start position information to speech synthesis control means 70o (step 13300). The voice synthesis control unit 70o receives the operation signal from the operation unit 40o, and determines whether or not the user has input a voice synthesis stop signal (step 14400). If the speech synthesis stop signal has not been input in
(実施例15)
以下本発明の第15の実施例について、図面を参照しながら説明する。
(Example 15)
Hereinafter, a fifteenth embodiment of the present invention will be described with reference to the drawings.
図46は本発明の音声合成装置の第15の実施例を示す構成ブロック図である。図47に第15の実施例の動作を説明するための流れ図を示す。図46において図42と同一物または部分については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。図42の言語処理部900nが言語処理部900pに置き換わり、言語処理部900pにおいては構文解析手段910から構文解析結果を受け取り強調すべき単語を決定する強調語決定手段が追加されている。一方、図42の音声合成部30nが音声合成部30pに置き換わり、音声合成部30pにおいては音声合成制御手段70pと接続される計時手段940と、素片データベースの素片出力を入力とし、音声合成制御手段からの制御信号に基づいて素片に強調処理を施し、素片接続手段へ出力する音韻強調処理手段130pが追加されている。さらに、強調語決定手段930から強調語情報を音声合成制御手段が受け取るという構成になっている。以上の変更以外は図42と同一な構成である。
FIG. 46 is a configuration block diagram showing a fifteenth embodiment of the speech synthesizer of the present invention. FIG. 47 is a flowchart for explaining the operation of the fifteenth embodiment. In FIG. 46, the same components or portions as those in FIG. 42 are denoted by the same reference numerals, and the description thereof will be omitted. Only different portions will be described. The language processing unit 900n in FIG. 42 is replaced with a language processing unit 900p. The language processing unit 900p further includes an emphasized word determination unit that receives a syntax analysis result from the
以上のように構成されたこの実施例の音声合成装置において、以下その動作を図46、図47に従って説明する。図47において図43と同一の動作については同一符号を付しているので説明を省略し、異なった部分についてのみ説明する。まずテキスト入力手段10は構文解析手段910に目的のテキストを入力する(ステップ13100)。次に構文解析手段910はテキスト入力手段10より入力されたテキストの構文解析を行い、構文情報を生成し音声合成開始位置決定手段920、および、強調語決定手段930へ出力し、読み情報および韻律情報を生成し音声合成制御手段70pに出力する(ステップ13200)。音声合成開始位置決定手段920は構文解析手段910より入力された構文情報に従って音声合成開始位置を決定し、音声合成制御手段70pに開始位置情報を出力する(ステップ13300a)。同時に、強調語決定手段930は構文解析手段910より入力された構文情報に従って強調すべき単語を決定し、音声合成制御手段70pに強調語情報を出力する(ステップ13300b)。音声合成制御手段70pはマイクロフォン110より環境音信号を取り込み、環境音の100msの平均レベルと70dB(A)を比較する(ステップ13400)。ステップ13400において環境音の平均レベルが70dB(A)未満の場合、素片データベース80は音声合成制御手段70pより入力された読み情報に従って音韻強調処理手段130pに合成単位を出力し、音韻強調処理手段130pでは強調処理を行わず、そのまま素片接続手段90nに合成単位を出力する(ステップ9400a)。もしステップ13400で環境音の平均レベルが70dB(A)以上である場合、音声合成制御手段70nは音声合成停止信号を素片接続手段90nに出力し、合成音声の生成を停止する(ステップ13500)。そして、計時手段940に計測開始の信号を送り時間計測を開始する(ステップ14100)。音声合成制御手段70pは環境音の平均レベルと70dB(A)とを比較し(ステップ13600)、環境音の平均レベルが70dB(A)以上である場合は、ステップ13600を繰り返す。ステップ13600において環境音の平均レベルが70dB(A)未満である場合には、計時手段940に計測終了の信号を送り時間計測を終了し、経過時間を取り込む(ステップ14200)。音声合成制御手段70pは、経過時間が0より1秒未満の場合は音声合成開始位置のランクを1に設定し、経過時間が1秒以上2秒未満の場合は音声合成開始位置のランクを2に設定し、経過時間が2秒以上3秒未満の場合は音声合成開始位置のランクを3に設定し、経過時間が3秒以上の場合は音声合成開始位置のランクを4に設定する(ステップ14300)。音声合成制御手段は、音声合成を停止した位置より前で停止位置にもっとも近く、かつ、ステップ14300で決定したランクの値以上のランクをもつ音声合成開始位置より音声合成を再開する。ステップ14300で決定したランク値以上のランクをもつ音声合成開始位置が見つからなければ、文頭から音声合成を再開する(ステップ14400)。さらに、音声合成を再開する開始位置の繰り返し回数を1つ増やす(ステップ14500)。素片データベース80は音声合成制御手段70pより入力された読み情報に従って音韻強調処理手段130pへ合成単位を出力する(ステップ14600)。音声合成制御手段70pは、音声合成を再開する開始位置の繰り返し回数が2以上かどうかを判断する(ステップ14700)。ステップ14700において繰り返し回数が2以上の場合、開始位置から停止位置の区間で音韻強調処理手段130pに強調制御信号を出力し、音韻強調処理手段130pにおいて合成単位ごとの強調処理を行う(ステップ14800)。ステップ14700において繰り返し回数が2未満の場合は、音声合成制御手段70pは強調制御信号の出力をせず、音韻強調処理手段130pでは素片の強調処理を行わない。素片接続手段90pは音声合成制御手段70pより入力された韻律情報に従って、素片強調処理手段から入力された合成単位を接続して合成音声を生成し(ステップ9500)、電気音響変換器60を通して合成音声を出力する(ステップ1900)。
The operation of the speech synthesizing apparatus according to this embodiment configured as described above will be described below with reference to FIGS. 46 and 47. In FIG. 47, the same operations as those in FIG. 43 are denoted by the same reference numerals, and description thereof will be omitted. Only different parts will be described. First, the text input means 10 inputs a target text to the syntax analysis means 910 (step 13100). Next, the syntactic analysis means 910 analyzes the syntax of the text input from the text input means 10, generates syntactic information, outputs the syntactic information to the speech synthesis start position determining means 920 and the emphasized word determining means 930, and reads the reading information and the prosody. Information is generated and output to the voice synthesis control means 70p (step 13200). Speech synthesis start position determination means 920 determines a speech synthesis start position according to the syntax information input from syntax analysis means 910, and outputs start position information to speech synthesis control means 70p (
(実施例16)
以下本発明の第16の実施例について、図面を参照しながら説明する。
(Example 16)
Hereinafter, a sixteenth embodiment of the present invention will be described with reference to the drawings.
図48に本発明の一実施例の音声合成装置の言語処理部の構成図を示す。構文解析部101は、入力文に対して形態素解析、および、構文解析を行い、入力文を構成する単語列、文節列、文節間の係り受け構造を含んだ構文解析結果を出力する。音声合成開始位置規則保持部103は、音声合成開始位置決定部102において設定すべき音声合成開始位置の前後の文節、および、文節間の係り受け構造の条件を記述した規則を保持する。図49は、音声合成開始位置規則部103が保持する音声合成開始位置規則の一例を示す図である。音声合成開始位置決定部102は、音声合成開始位置を構文解析結果の文節列の間に設定する。図49において、前文節パターンとは、音声合成開始位置の直前に位置する文節の条件を指定するものである。同様に後文節パターンとは、音声合成開始位置の直後に位置する文節の条件を指定するものである。各文節パターンの形式をBNF表記で表すと、
<文節パターン> := *|(<文節名> <形態素列>)
<文節名> := 名詞句|述語句|副詞句|…
<形態素列> := *|(<形態素>)|(<形態素><形態素列>)
<形態素> := *|+|(<品詞> <表記>)
<品詞> := 名詞|助詞|読点|…
<表記> := *|は|から|、|…となる。「*」は任意の文節、任意の形態素列、任意の形態素、あるいは、任意の表記を表す。「+」は任意の形態素の並びを表す。ランクとは、該当する音声合成開始位置に割り当てられる値であり、制御部106がこの値に基づいて音声合成開始位置を選択する。本実施例においては、入力テキストを音声合成する際に音声合成開始位置において挿入されるポーズの長さが長いほどランクの値が大きくなるようにしてある。図49の一番目の音声合成開始位置規則は、助詞「は」で終わる名詞句と任意の文節との間にランク3の音声合成開始位置を設定するという意味である。音声合成開始位置決定部102は、構文解析部101が出力した構文解析結果に対して、音声合成開始位置規則保持部103に保持される音声合成開始位置規則と構文解析結果に含まれる文節列との照合を行い、照合が成功した箇所に音声合成開始位置およびランクを設定する。図50は、音声合成開始位置決定部の処理を示す図である。入力テキストは、構文解析部101によって処理され、図50に示すような文節列を生成する。この文節列に対して、音声合成開始位置決定部102は、文節列の先頭から2文節に対して音声合成開始位置規則を順に照合し、照合に成功した2文節の間に規則に記述されたランクをもつ音声合成開始位置を設定する。図50の例では、1番目の2文節間に図49の2番目の規則が、2番目の2文節間に図49の3番目の規則が、3番目の2文節間に図49の4番目の規則が、おのおの照合し、図50の一番下に示されるようなランクをもつ音声合成開始位置が設定される。どの音声合成開始位置規則にも照合しなかった2文節間には音声合成開始位置は設定されない。
FIG. 48 shows a configuration diagram of the language processing unit of the speech synthesizer according to one embodiment of the present invention. The
<Clause pattern>: = * | (<clause name><morphemesequence>)
<Clause name>: = noun phrase | predicate phrase | adverb phrase | ...
<Morpheme sequence>: = * | (<morpheme>) | (<morpheme><morphemesequence>)
<Morpheme>: = * | + | (<part of speech><notation>)
<Part of speech>: = noun | particle | reading |
<Notation>: = * | is |, |, | “*” Represents an arbitrary phrase, an arbitrary morpheme string, an arbitrary morpheme, or an arbitrary notation. “+” Represents an arbitrary arrangement of morphemes. The rank is a value assigned to the corresponding speech synthesis start position, and the
強調語決定部104は、構文解析部101が出力した構文解析結果に対して、強調語規則保持部105に保持される強調語規則と構文解析結果に含まれる単語列の照合を行い、強調して発音すべき単語を決定する。図51は、強調語保持部105が保持する強調語の規則の一例を示す図である。図51において、強調語条件は、強調すべき単語の条件を記述したものである。強調語の形式をBNF表記であらわすと、
<強調語条件> := (<品詞> <表記>)
<品詞> := 名詞|動詞|形容詞|…
<表記> := *|ある|ない|…となる。「*」は任意の表記を表す記号である。強調語条件に当てはまる単語に対して、右側の欄の強調ON/OFFの記述に従って、強調の情報を割り当てる。図52は、強調語決定部の処理を示す図である。図52において、入力テキストを構文解析部101が処理し、単語列を生成する。強調語決定部102は、単語列の先頭から順に強調語規則と照合し、照合に成功した場合には強調ON/OFFの情報を付与する。図52の単語の(形容詞 ない)については、強調語条件(形容詞 *)と強調語条件(形容詞 ない)の両方が照合するが、強調語条件(形容詞 ない)は表記が指定されているより詳細な条件であり、照合の際には優先される。照合の結果、図52の一番下のような強調語情報が得られる。どの強調語規則にも照合しなかった単語の強調はOFFである。
The emphasized
<Emphasis condition>: = (<part of speech><notation>)
<Part of speech>: = noun | verb | adjective |
<Notation>: = * | “*” Is a symbol representing an arbitrary notation. Emphasis information is assigned to a word that satisfies the emphasis word condition in accordance with the description of emphasis ON / OFF in the right-hand column. FIG. 52 is a diagram illustrating the processing of the emphasized word determination unit. In FIG. 52, the
(実施例17)
以下本発明の第17の実施例について、図面を参照しながら音声素片作成時における強調処理の一例を上げて説明する。
(Example 17)
Hereinafter, a seventeenth embodiment of the present invention will be described with reference to the drawings, taking an example of an emphasis process at the time of speech unit creation.
図53に第17の実施例による音声素片作成の動作を示す流れ図を、図54に振幅圧縮処理の入出力特性の模式図を示す。 FIG. 53 is a flowchart showing the operation of speech unit creation according to the seventeenth embodiment, and FIG. 54 is a schematic diagram of the input / output characteristics of the amplitude compression processing.
まず、対象となる音声波形から最初の波形を切り出す(ステップ15000)。次にステップ15000で切り出された切り出し波形データに、あらかじめ設定しておいた利得値Gを掛け(ステップ15010)、その結果の絶対値の最大値を求め、Amaxに記憶する(ステップ15020)。Amaxがあらかじめ設定しておいたAlimの値よりも大きい場合(ステップ15030)、切り出し波形を(Alim/Amax)倍する(ステップ15040)。また、AmaxがAlimより小さいか等しい場合は何もしない。今回切り出した波形が最後の波形であれば(ステップ15050)終了する。そうでなければ次の波形を切り出し(ステップ15060)、ステップ15010から繰り返す。
First, the first waveform is cut out from the target voice waveform (step 15000). Next, the cut-out waveform data cut out in
このようにすることにより、音声波形にリミッタを用いた場合に起こる時定数の問題などがなく、理想的な振幅圧縮が可能である。図53に示した振幅圧縮処理をリミッタの入出力特性に例えると図54(a)のように表すことができる。この曲線は例えば図54(b)や(c)などのように任意に選ぶことができるので様々な振幅圧縮処理が可能となる。また、対象となる音声素片の種別(無声子音、有声子音の別など)によって曲線を選ぶなど、音韻別の振幅圧縮も可能である。さらに、あらかじめ子音部の開始点、終了点などにラベルを付与しておくことにより、子音部と母音部を別の曲線で圧縮することもできる。 よ う By doing so, there is no problem of a time constant that occurs when a limiter is used for a sound waveform, and ideal amplitude compression can be performed. If the amplitude compression processing shown in FIG. 53 is compared to the input / output characteristics of the limiter, it can be expressed as shown in FIG. Since this curve can be arbitrarily selected as shown in, for example, FIGS. 54B and 54C, various amplitude compression processes can be performed. Further, amplitude compression for each phoneme is also possible, such as selecting a curve according to the type of the target speech unit (unvoiced consonant, voiced consonant, etc.). Further, by giving labels to the start point and end point of the consonant part in advance, the consonant part and the vowel part can be compressed with different curves.
上記のように様々な振幅圧縮法が選べることから、特定の子音の特定の部分を強調するなどの音韻強調法として有効である。すなわち音声素片作成時のこのような処理は、音声強調法として非常に自由度が高くきめ細かい処理が可能である。また、このような処理は完全に前処理として実行されるため、音声合成時の処理速度に何ら影響を与えないという利点もある。 る こ と Since various amplitude compression methods can be selected as described above, it is effective as a phoneme emphasis method for emphasizing a specific part of a specific consonant. In other words, such processing at the time of speech unit creation has a very high degree of freedom as a voice emphasis method, and allows detailed processing. In addition, since such processing is executed completely as preprocessing, there is an advantage that the processing speed during speech synthesis is not affected at all.
従って、いかなる複雑な音声強調処理を施すことも可能となる。そこで、フォルマント強調などの周波数領域の強調や、切り出しの対象となる音声波形を複数の帯域に分割して振幅圧縮などを施すことや、切り出し時に同等の処理を加えることにより、難聴者や騒音下での使用に適した合成音声を提供することが可能となる。特に、波形の切り出し時に補聴器の信号処理に相当する処理を加えることは、これまで時定数や未知の入力に対する処理の限界などによって不可能であったきめ細かい強調処理が可能となる。 Therefore, it is possible to perform any complicated voice emphasis processing. Therefore, by emphasizing the frequency domain such as formant emphasis, dividing the audio waveform to be cut out into multiple bands and applying amplitude compression, etc. It is possible to provide a synthesized speech suitable for use in a personal computer. In particular, it is possible to perform a fine emphasizing process which cannot be performed at the time of extracting a waveform by adding a process corresponding to a signal process of a hearing aid, which has been impossible due to a time constant or a limit of a process for an unknown input.
なお、実施例17では音声素片に対する処理として主に子音の強調を目的とする振幅の変形処理や周波数特性の変形処理について説明したが、例えば公知の時間長変形技術を用いて子音部分の長さを調整することで明瞭度向上を図るなど、様々な波形変形処理を行ってもよい。 In the seventeenth embodiment, as the processing on the speech unit, the processing of deforming the amplitude and the processing of changing the frequency characteristic mainly for the purpose of emphasizing the consonants have been described. Various waveform deformation processes may be performed, such as by improving the clarity by adjusting the depth.
なお、実施例15においてマイクロフォン110は環境音信号を取り込んだが、使用者の発声を取り込むものとしても良い。
In the fifteenth embodiment, the
なお、実施例15において素片の強調処理を行ったが、強調処理を施した素片データベースと強調処理を施さない素片データベースとを切り替える、あるいは素片接続後の合成音声に強調処理を行うものとしても良い。 In the fifteenth embodiment, the segment emphasizing process is performed. However, the segment database that has undergone the emphasizing process is switched between the segment database that has not undergone the emphasizing process, or the emphasis process is performed on the synthesized speech after the segment connection. It is good.
なお、実施例1、実施例8において強調処理は母音部の延長、クロージャーの延長、フォルマント強調、子音強調、および帯域強調としたが、これ以外の強調方法を用いても良い。 In the first and eighth embodiments, the emphasis processing is performed for the extension of the vowel part, the extension of the closure, the formant emphasis, the consonant emphasis, and the band emphasis, but other emphasis methods may be used.
なお、実施例1、実施例8においてpが15より小さい場合にフォルマント強調情報を真とするとしたが、これ以外の値としても良い。 In the first and eighth embodiments, the formant emphasis information is set to true when p is smaller than 15, but may be set to any other value.
なお、実施例1、実施例8においてギャップ検出域が10ms以上の場合に子音強調情報を真とするとしたが、これ以外の値としても良い。 In the first and eighth embodiments, the consonant emphasis information is set to true when the gap detection area is equal to or longer than 10 ms, but may be set to any other value.
なお、実施例1、実施例8において2kHz以上の平均聴力レベルと2kHz未満の平均聴力レベルの差が30dB以上の場合に帯域強調情報を真とするとしたが、2kHz以外の周波数を帯域の境界としても良い。また帯域間の平均聴力レベルの差の基準は30dB以外の値でも良い。 In the first and eighth embodiments, the band emphasis information is determined to be true when the difference between the average hearing level of 2 kHz or more and the average hearing level of less than 2 kHz is 30 dB or more. Is also good. The reference of the difference in the average hearing level between the bands may be a value other than 30 dB.
なお、実施例1、実施例2、実施例4、実施例8において強調部情報が真の場合に母音定常部を20%延長するとしたが、これ以外の値でも良い。また、子音部分の時間長を延長するとしても良い。 In the first, second, fourth, and eighth embodiments, the steady vowel part is extended by 20% when the emphasis part information is true, but other values may be used. Further, the time length of the consonant part may be extended.
なお、実施例1、実施例2において強調部情報が真の場合にクロージャーを20%延長するとしたが、これ以外の値でも良い。 In the first and second embodiments, the closure is extended by 20% when the emphasis part information is true, but other values may be used.
なお、実施例1、実施例4、実施例7において環境音を1kHz以下、1kHzから2kHz、2kHz〜4kHz、4kHz以上の帯域に分割したが、これ以外の分割の方法でも良い。 In the first, fourth, and seventh embodiments, the environmental sound is divided into bands of 1 kHz or less, 1 kHz to 2 kHz, 2 kHz to 4 kHz, and 4 kHz or more, but other division methods may be used.
なお、実施例1において1kHz以下、1kHzから2kHz、2kHz〜4kHz、4kHz以上の各帯域において、それぞれ20dBSPL/Hz、20dBSPL/Hz、15dBSPL/Hz、10dBSPL/Hz以上の環境があるときは圧縮パラメータを設定し、圧縮処理を行うとしたが、これ以外の値でも良い。 In the first embodiment, in each band of 1 kHz or less, 1 kHz to 2 kHz, 2 kHz to 4 kHz, and 4 kHz or more, when there is an environment of 20 dBSPL / Hz, 20 dBSPL / Hz, 15 dBSPL / Hz, and 10 dBSPL / Hz or more, the compression parameter is set. Although the setting is made and the compression process is performed, other values may be used.
なお、実施例4において1kHz以下の環境音平均レベルが20dBSPL/Hz以上かつ、1kHzから2kHzの環境音平均レベルが20dBSPL/Hzかつ、他の帯域の環境音平均レベルが15dBSPL/Hz以下である場合にフォルマント強調情報を真とするとしたが、これ以外の値でも良い。 In the fourth embodiment, the average environmental sound level of 1 kHz or less is 20 dBSPL / Hz or more, the average environmental sound level of 1 kHz to 2 kHz is 20 dBSPL / Hz, and the average environmental sound level of another band is 15 dBSPL / Hz or less. Although the formant emphasis information is set to true, other values may be used.
なお、実施例4において1kHzから2kHzの環境音平均レベルが20dBSPL/Hz以上かつ、2kHzから4kHzの環境音平均レベルが15dBSPL/Hzかつ、1kHz以下の環境音平均レベルが20dBSPL/Hz以下あるいは4kHZ以上の環境音平均レベルが15DBSPL/Hz以下の場合に子音強調情報を真としたが、これ以外の値としても良い。 In the fourth embodiment, the average environmental sound level from 1 kHz to 2 kHz is 20 dBSPL / Hz or higher, the average environmental sound level from 2 kHz to 4 kHz is 15 dBSPL / Hz, and the average environmental sound level below 1 kHz is 20 dBSPL / Hz or lower or 4 kHz or higher. The consonant emphasis information is determined to be true when the average environmental sound level is 15 DBSPL / Hz or less, but may be set to any other value.
なお、実施例4において1kHz以下、1kHzから2kHz、2kHz〜4kHz4kHz以上の各帯域において、それぞれ20dBSPL/Hz、20dBSPL/Hz、15dBSPL/Hz、10dBSPL/Hz以上の環境があるときは各帯域の帯域強調情報を真とするとしたが、これ以外の値としても良い。 In the fourth embodiment, in each band of 1 kHz or less, 1 kHz to 2 kHz, 2 kHz to 4 kHz and 4 kHz or more, when there is an environment of 20 dBSPL / Hz, 20 dBSPL / Hz, 15 dBSPL / Hz, and 10 dBSPL / Hz or more, each band is emphasized. Although the information is assumed to be true, other values may be used.
なお、実施例7においてステップ7500のように圧縮パラメータを設定したがこれ以外の基準および方法を用いても良い。
In the seventh embodiment, compression parameters are set as in
なお、実施例9において環境音の平均レベルが30dB(A)以上の場合に基本周波数を20%高くするとしたが、これ以外の基準値でもよい。また基本周波数の変更はこれ以外の値としても良い。 In the ninth embodiment, the basic frequency is increased by 20% when the average level of the environmental sound is equal to or higher than 30 dB (A). However, other reference values may be used. The change of the fundamental frequency may be any other value.
なお、実施例10において2kHz以上の平均聴力レベルと2kHz未満の平均聴力レベルの差が30dB以上の場合に基本周波数を20%低くするとしたが2kHz以外の周波数を帯域の境界としても良い。また、差の値の基準はこれ以外の値としても良い。また、基本周波数の変更はこれ以外の値としても良い。 In the tenth embodiment, when the difference between the average hearing level of 2 kHz or more and the average hearing level of less than 2 kHz is 30 dB or more, the fundamental frequency is lowered by 20%. However, a frequency other than 2 kHz may be used as a boundary of the band. Further, the reference of the difference value may be another value. Further, the change of the fundamental frequency may be any other value.
なお、実施例11、実施例12において平均聴力レベルが40dBHL以上の場合に和即を10%遅くするとしたが、平均聴力レベル以外の聴覚特性を判断に用いても良い。また、平均聴力レベルの基準はこれ以外の値としても良い。また、平均聴力レベルの基準を40dBHLとしたがこれ以外の値でも良い。また、話速を10%遅くするとしたがこれ以外の値としても良い。 In the eleventh and twelfth embodiments, it is assumed that when the average hearing level is 40 dBHL or more, the instantaneousness is delayed by 10%. However, auditory characteristics other than the average hearing level may be used for the determination. The standard of the average hearing level may be any other value. Although the standard of the average hearing level is set to 40 dBHL, other values may be used. In addition, it is assumed that the speech speed is reduced by 10%, but other values may be used.
なお、実施例13、実施例15において環境音の平均レベルが70dB(A)を越えた場合に音声合成を停止するとしたが、これ以外の値としても良い。なお、実施例2、実施例5、実施例8において素片データベースあるいはフォルマント強調フィルタの切替にスイッチを用いたが、ソフトウェア的に切り替えても良い。 In the thirteenth and fifteenth embodiments, the speech synthesis is stopped when the average level of the environmental sound exceeds 70 dB (A), but other values may be used. In the second, fifth, and eighth embodiments, the switch is used to switch the segment database or the formant emphasis filter. However, the switch may be switched by software.
以上説明したように、本実施形態によれば、使用者の聴覚特性に合わせて合成した音声に強調処理あるいは振幅のダイナミックレンジを圧縮する処理を施す、あるいは使用場面の騒音環境に合わせて合成した音声に強調処理あるいは振幅のダイナミックレンジを圧縮する処理を施す。また、データベースに記憶された合成単位に使用者の聴覚特性に合わせて強調処理あるいは振幅のダイナミックレンジを圧縮する処理を施した後に音声を合成する、あるいは使用場面の騒音環境に合わせてデータベースに記憶された合成単位に強調処理あるいは振幅のダイナミックレンジを圧縮する処理を施した後に音声を合成する。また、あらかじめ強調処理あるいは振幅のダイナミックレンジを圧縮する処理を施した合成単位を用いて音声を合成する。また、音声の合成を中断した際に言語処理結果に基づき停止位置以前で内容理解のしやすいテキスト上の点まで戻って音声の合成を再開する。また、言語処理に基づき強調処理を行う部分を設定することにより、聴覚障害のある使用者や、騒音下での使用でも情報を確実に伝達することができ、その実用的効果は大きい。 As described above, according to the present embodiment, the speech synthesized according to the auditory characteristics of the user is subjected to the emphasis processing or the processing of compressing the dynamic range of the amplitude, or synthesized according to the noise environment of the use scene. The voice is subjected to an emphasis process or a process of compressing the dynamic range of the amplitude. In addition, the synthesis unit stored in the database is subjected to an emphasis process or a process of compressing the dynamic range of the amplitude in accordance with the auditory characteristics of the user, and then synthesized, or stored in the database in accordance with the noise environment of the use scene. After performing the emphasis processing or the processing of compressing the dynamic range of the amplitude on the synthesized unit, the voice is synthesized. Also, speech is synthesized using a synthesis unit that has been subjected to an emphasis process or a process of compressing the dynamic range of the amplitude in advance. When the speech synthesis is interrupted, the speech synthesis is resumed by returning to a point on the text where the content is easy to understand before the stop position based on the result of the language processing. In addition, by setting a portion for performing the emphasis processing based on the language processing, information can be reliably transmitted even to a hearing impaired user or use under noise, and the practical effect is large.
以上説明したように、本発明によれば、聴覚障害のある使用者や、騒音下での使用でも情報を確実に伝達することができ、その実用的効果は大きい。 As described above, according to the present invention, information can be reliably transmitted even to a hearing impaired user or use under noisy conditions, and its practical effect is large.
10 テキスト入力手段
20 言語処理手段
30a,30b,30c,30d,30e,30f,30g,30h,30m,30n,30o,30p 音声合成部
40b,40e,40m,40o 操作手段
50a,50b,50c,50d,50e,50g,50h,50i,50j,50k,50l,50m 声質制御手段
60 電気音響変換器
70a,70b,70c,70d,70e,70f,70g,70h,70m,70n,70o,70p 音声合成制御手段
80,280a,280b,280c,280d,280n,380a,380b,380c,380d,380n,580a,580b,580c,580d,580n,680a,680b,680c,680d,680n 素片データベース
90a,90b,90d,90e,90f,90g,90h,90m,90n 素片接続手段
110 マイクロフォン
120 聴覚特性測定手段
130a,130d,130h,130p 音韻強調処理手段
140a,140b,140g 圧縮処理手段
200b,200e データベース部
210b,210e スイッチ
220 聴覚特性記憶手段
300 素片データベース読み取り手段
310 聴覚特性読み取り手段
320a,320b,320c,320d,320n 聴覚特性
800 強調フィルタ部
810a,810b,810c,810d,810n フォルマント強調フィルタ
820 スイッチ
900,900p 言語処理部
910 構文解析手段
920 音声合成開始位置決定手段
930 強調決定手段
940 時計手段
101 構文解析部
102 音声合成開始位置決定部
103 音声合成開始位置規則保持部
104 強調語決定部
105 強調語規則保持部
106 制御部
Reference Signs List 10 Text input means 20 Language processing means 30a, 30b, 30c, 30d, 30e, 30f, 30g, 30h, 30m, 30n, 30o, 30p Voice synthesizer 40b, 40e, 40m, 40o Operating means 50a, 50b, 50c, 50d , 50e, 50g, 50h, 50i, 50k, 50l, 50m Voice quality control means 60 Electroacoustic transducers 70a, 70b, 70c, 70d, 70e, 70f, 70g, 70h, 70m, 70n, 70o, 70p Voice synthesis control Means 80, 280a, 280b, 280c, 280d, 280n, 380a, 380b, 380c, 380d, 380n, 580a, 580b, 580c, 580d, 580n, 680a, 680b, 680c, 680d, 680n Unit database 90a, 90b, 9 d, 90e, 90f, 90g, 90h, 90m, 90n Unit connection means 110 Microphone 120 Hearing characteristic measurement means 130a, 130d, 130h, 130p Phoneme emphasis processing means 140a, 140b, 140g Compression processing means 200b, 200e Database section 210b, 210e switch 220 auditory characteristic storage means 300 unit database reading means 310 auditory characteristic reading means 320a, 320b, 320c, 320d, 320n auditory characteristic 800 emphasis filter section 810a, 810b, 810c, 810d, 810n formant emphasis filter 820 switch 900, 900p Language processing section 910 Syntax analysis section 920 Speech synthesis start position determination section 930 Emphasis determination section 940 Clock section 101 Syntax analysis section 1 2 speech synthesis start position determination unit 103 speech synthesis start position rule holding unit 104 intensifiers determining unit 105 intensifiers rule holding unit 106 control unit
Claims (35)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003282641A JP2004004952A (en) | 2003-07-30 | 2003-07-30 | Voice synthesizer and voice synthetic method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003282641A JP2004004952A (en) | 2003-07-30 | 2003-07-30 | Voice synthesizer and voice synthetic method |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP8237465A Division JPH1083193A (en) | 1996-09-09 | 1996-09-09 | Speech synthesizing device and formation of phoneme |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004004952A true JP2004004952A (en) | 2004-01-08 |
Family
ID=30438730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003282641A Pending JP2004004952A (en) | 2003-07-30 | 2003-07-30 | Voice synthesizer and voice synthetic method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004004952A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8190432B2 (en) | 2006-09-13 | 2012-05-29 | Fujitsu Limited | Speech enhancement apparatus, speech recording apparatus, speech enhancement program, speech recording program, speech enhancing method, and speech recording method |
JP2014232245A (en) * | 2013-05-30 | 2014-12-11 | 日本電信電話株式会社 | Sound clarifying device, method, and program |
CN110890101A (en) * | 2013-08-28 | 2020-03-17 | 杜比实验室特许公司 | Method and apparatus for decoding based on speech enhancement metadata |
-
2003
- 2003-07-30 JP JP2003282641A patent/JP2004004952A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8190432B2 (en) | 2006-09-13 | 2012-05-29 | Fujitsu Limited | Speech enhancement apparatus, speech recording apparatus, speech enhancement program, speech recording program, speech enhancing method, and speech recording method |
JP2014232245A (en) * | 2013-05-30 | 2014-12-11 | 日本電信電話株式会社 | Sound clarifying device, method, and program |
CN110890101A (en) * | 2013-08-28 | 2020-03-17 | 杜比实验室特许公司 | Method and apparatus for decoding based on speech enhancement metadata |
CN110890101B (en) * | 2013-08-28 | 2024-01-12 | 杜比实验室特许公司 | Method and apparatus for decoding based on speech enhancement metadata |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6751592B1 (en) | Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically | |
JP4355772B2 (en) | Force conversion device, speech conversion device, speech synthesis device, speech conversion method, speech synthesis method, and program | |
US7739113B2 (en) | Voice synthesizer, voice synthesizing method, and computer program | |
US8484035B2 (en) | Modification of voice waveforms to change social signaling | |
US20050119890A1 (en) | Speech synthesis apparatus and speech synthesis method | |
US20020143543A1 (en) | Compressing & using a concatenative speech database in text-to-speech systems | |
JPH086591A (en) | Voice output device | |
Thati et al. | Synthesis of laughter by modifying excitation characteristics | |
US7280969B2 (en) | Method and apparatus for producing natural sounding pitch contours in a speech synthesizer | |
JPH1083193A (en) | Speech synthesizing device and formation of phoneme | |
JP2004004952A (en) | Voice synthesizer and voice synthetic method | |
JP3750676B2 (en) | Speech synthesis apparatus and speech synthesis method | |
JP5518621B2 (en) | Speech synthesizer and computer program | |
JP2013033103A (en) | Voice quality conversion device and voice quality conversion method | |
JPH0580791A (en) | Device and method for speech rule synthesis | |
JP2001034284A (en) | Voice synthesizing method and voice synthesizer and recording medium recorded with text voice converting program | |
JP2004004954A (en) | Voice synthesizer and voice synthesizing method | |
JP3575919B2 (en) | Text-to-speech converter | |
JP4260071B2 (en) | Speech synthesis method, speech synthesis program, and speech synthesis apparatus | |
Thakur et al. | Study of various kinds of speech synthesizer technologies and expression for expressive text to speech conversion system | |
Dessai et al. | Development of Konkani TTS system using concatenative synthesis | |
JP2001350500A (en) | Speech speed changer | |
JPH06214585A (en) | Voice synthesizer | |
JP2005121869A (en) | Voice conversion function extracting device and voice property conversion apparatus using the same | |
JPH0756591A (en) | Device and method for voice synthesis and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050527 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20050708 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050712 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20051115 |