JP2015102771A - Voice generation device, and device and method for changing voices - Google Patents

Voice generation device, and device and method for changing voices Download PDF

Info

Publication number
JP2015102771A
JP2015102771A JP2013244523A JP2013244523A JP2015102771A JP 2015102771 A JP2015102771 A JP 2015102771A JP 2013244523 A JP2013244523 A JP 2013244523A JP 2013244523 A JP2013244523 A JP 2013244523A JP 2015102771 A JP2015102771 A JP 2015102771A
Authority
JP
Japan
Prior art keywords
speech
frequency
sentence
sound
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013244523A
Other languages
Japanese (ja)
Other versions
JP6260227B2 (en
Inventor
健太 南
Kenta Minami
健太 南
充伸 神沼
Mitsunobu Kaminuma
充伸 神沼
達也 北村
Tatsuya Kitamura
達也 北村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2013244523A priority Critical patent/JP6260227B2/en
Publication of JP2015102771A publication Critical patent/JP2015102771A/en
Application granted granted Critical
Publication of JP6260227B2 publication Critical patent/JP6260227B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a device for changing voices that is capable of effectively increasing or decreasing a degree of intimacy of voices with a simple structure.SOLUTION: One example of a device for changing voices is a voice synthesizer. When a text composed of a plurality of paragraphs is expressed with voice, a prosody information modifying unit 13 modifies prosody information so as to increase or decrease a frequency, of a last paragraph in the text, by only a constant frequency. A synthesis unit 14 synthesizes the prosody information modified by the prosody information modifying unit 13 and voice passage information to generate voice data of the text.

Description

本発明は、音声を聞いた人が感じる親しさの程度を増減させた音声を再生することができる音声発生装置、音声を聞いた人が感じる親しさの程度を増減させることができる音声変形装置及び方法に関する。   The present invention relates to a sound generation device that can reproduce a sound in which the degree of familiarity that a person who has heard the sound feels is increased or decreased, and a sound deformation device that can increase or decrease the degree of the degree of familiarity that a person who has heard the sound feels And a method.

近年、電子機器の操作方法を操作者に音声で説明する音声ガイダンスが普及している。音声ガイダンスに用いられる音声は、韻律が平坦で感情のこもっていない音声であることが多い。特許文献1には、無感情な音声に感情を付与する音声合成装置が記載されている。   In recent years, voice guidance that explains an operation method of an electronic device to an operator by voice has become widespread. The voice used for voice guidance is often a voice that has a flat prosody and no emotion. Patent Document 1 describes a speech synthesizer that adds emotion to emotionless speech.

特開平7−72900号公報JP-A-7-72900

従来の音声変形装置である特許文献1に記載の音声合成装置は、ニューラルネットワークを用いて無感情な音声のパラメータを感情のこもったパラメータに変換する学習を行わせることによって、無感情な音声に感情を付与する。よって、特許文献1に記載の音声変形装置においては、煩雑な構成・手順が必要となってしまうという問題点がある。   The speech synthesizer described in Patent Document 1 which is a conventional speech transformation device uses an neural network to learn to convert emotional speech parameters into emotional parameters, thereby producing emotional speech. Give emotions. Therefore, the voice transformation device described in Patent Document 1 has a problem that a complicated configuration and procedure are required.

本発明はこのような問題点に鑑み、音声を聞いた人が感じる親しさの程度を簡易に増減させた音声を再生することができる音声発生装置、簡易な構成・手順で音声の親しさの程度を効果的に増減させることができる音声変形装置及び方法を提供することを目的とする。   In view of the above problems, the present invention provides a sound generator that can reproduce a sound in which the degree of familiarity felt by a person who has heard the sound is easily increased or decreased, and the sound familiarity with a simple configuration and procedure. An object of the present invention is to provide an audio transformation device and method that can effectively increase or decrease the degree.

本発明は、複数の文節よりなる文章の最後の文節のみ周波数を一定の周波数だけ上昇または下降させた韻律情報を含む音声とすることによって、人が感じる音声の親しさの程度を変化させる。   In the present invention, only the last phrase of a sentence composed of a plurality of phrases is changed to a voice including prosodic information in which the frequency is increased or decreased by a certain frequency, thereby changing the degree of familiarity of the voice felt by a person.

本発明の音声発生装置によれば、音声を聞いた人が感じる親しさの程度を簡易に増減させた音声を再生することができる。本発明の音声変形装置及び方法によれば、簡易な構成・手順で音声の親しさの程度を効果的に増減させることができる。   According to the sound generation apparatus of the present invention, it is possible to reproduce sound in which the degree of familiarity felt by a person who has heard the sound is easily increased or decreased. According to the audio transformation device and method of the present invention, the degree of familiarity of audio can be effectively increased or decreased with a simple configuration / procedure.

第1実施形態の音声発生装置及び音声変形装置を示すブロック図である。It is a block diagram which shows the audio | voice generating apparatus and audio | voice deformation | transformation apparatus of 1st Embodiment. 第2実施形態の音声発生装置及び音声変形装置を示すブロック図である。It is a block diagram which shows the audio | voice generating apparatus and audio | voice deformation | transformation apparatus of 2nd Embodiment. 第3実施形態の音声発生装置及び音声変形装置を示すブロック図である。It is a block diagram which shows the audio | voice generator and audio | voice deformation | transformation apparatus of 3rd Embodiment. 実施形態の音声変形方法を説明するための第1の例文の振幅波形と第1の例文を構成する文節及び音素を示す図である。It is a figure which shows the phrase and phoneme which comprise the amplitude waveform of the 1st example sentence for demonstrating the audio | voice deformation | transformation method of embodiment, and a 1st example sentence. 実施形態の音声変形方法を説明するための第2の例文の振幅波形と第2の例文を構成する文節及び音素を示す図である。It is a figure which shows the phrase and phoneme which comprise the amplitude waveform of the 2nd example sentence for demonstrating the audio | voice deformation | transformation method of embodiment, and a 2nd example sentence. 文章における最後の文節の最初の音素の母音以降の周波数を上昇させる例を示す図である。It is a figure which shows the example which raises the frequency after the vowel of the first phoneme of the last clause in a sentence. 文章における最後の文節の周波数を上昇させたときの振幅と周波数の特性を示す図である。It is a figure which shows the characteristic of an amplitude and frequency when raising the frequency of the last clause in a text. 文章の韻律が示す周波数特性における、最後の文節の最初の音素に最も近い極点または変曲点を、周波数を上昇させる開始位置とする場合を説明するための図である。It is a figure for demonstrating the case where the pole or inflection point nearest to the first phoneme of the last phrase in the frequency characteristic indicated by the prosody of the sentence is set as a start position for increasing the frequency. 周波数を一定の周波数だけ上昇させる程度と効果との関係を説明するための評価結果を示す図である。It is a figure which shows the evaluation result for demonstrating the relationship between the grade which raises a frequency only by a fixed frequency, and an effect.

以下、各実施形態の音声発生装置、音声変形装置及び方法について、添付図面を参照して説明する。各実施形態の音声発生装置、音声変形装置及び方法は、音声に親しさを付与して音声の親しさの程度を増大させることができる。また、各実施形態の音声発生装置、音声変形装置及び方法は、音声の親しさの程度を減少させることもできる。以下の説明では、音声の親しさの程度を増大させる動作を中心に説明することとする。   Hereinafter, a sound generation device, a sound deformation device, and a method according to each embodiment will be described with reference to the accompanying drawings. The sound generation device, the sound deformation device, and the method of each embodiment can increase the degree of familiarity of the sound by giving the sound closeness. In addition, the sound generation device, the sound deformation device, and the method of each embodiment can reduce the degree of familiarity of sound. In the following description, the operation for increasing the degree of familiarity of sound will be mainly described.

<第1実施形態の音声発生装置及び音声変形装置>
図1に示す第1実施形態の音声発生装置及び音声変形装置は、音声合成によって音声データを生成する際に、音声の親しさの程度を増大させる構成例である。第1実施形態の音声発生装置及び音声変形装置は、文章を示すテキストデータに基づいて音声データを生成する音声合成装置である。
<Sound Generator and Sound Deformer of First Embodiment>
The voice generation device and the voice transformation device according to the first embodiment shown in FIG. 1 are configuration examples that increase the degree of familiarity of voice when generating voice data by voice synthesis. The speech generation device and speech transformation device of the first embodiment are speech synthesizers that generate speech data based on text data indicating sentences.

図1において、所定の文章を示すテキストデータは、韻律情報生成部11と韻律情報修正部13と合成部14とに入力される。テキストデータは、例えばアスキーコードである。   In FIG. 1, text data indicating a predetermined sentence is input to a prosody information generation unit 11, a prosody information correction unit 13, and a synthesis unit 14. The text data is, for example, an ASCII code.

韻律辞書12は、複数の韻律情報のパターンを保持している。韻律情報とは、音声における声質以外の部分であり、アクセントやリズム等を形成する部分である。韻律情報生成部11は、韻律辞書12より、入力されたテキストデータの文章の各文節に適したパターンの韻律情報を読み出して、文章の韻律情報を生成する。韻律情報は、韻律情報修正部13に入力される。   The prosodic dictionary 12 holds a plurality of prosodic information patterns. Prosodic information is a part other than the voice quality in speech, and is a part that forms accents, rhythms, and the like. The prosody information generation unit 11 reads prosody information of a pattern suitable for each clause of the sentence of the input text data from the prosody dictionary 12, and generates the prosody information of the sentence. The prosody information is input to the prosody information correction unit 13.

例えば、テキストデータが示す文章が「…を設定いたします」という文章であり、文節「…を」と文節「設定」との間、文節「設定」と文節「いたします」との間に、息継ぎの時間に相当する短時間の間隔を設けるとする。この場合、テキストデータ自体に間隔を設けてもよいし、韻律情報生成部11において間隔を設けた状態の韻律情報を生成してもよい。   For example, the sentence indicated by the text data is a sentence “I will set…”, and between the phrase “…” and the phrase “setting”, between the phrase “setting” and the phrase “I will” It is assumed that a short interval corresponding to this time is provided. In this case, the text data itself may be provided with an interval, or the prosodic information generation unit 11 may generate prosodic information with the interval provided.

韻律情報修正部13は、音声の親しさの程度を増大させるよう韻律情報を修正する。韻律情報修正部13における韻律情報の具体的な修正の仕方については後に詳述する。修正された韻律情報は合成部14に入力される。   The prosodic information correction unit 13 corrects the prosodic information so as to increase the degree of familiarity of the speech. A specific method of correcting the prosodic information in the prosodic information correcting unit 13 will be described in detail later. The modified prosody information is input to the synthesis unit 14.

音道辞書15は、複数の音道情報のパターンを保持している。音道情報とは、音声における声質の部分である。音道辞書15は、音道情報のパターンを文章単位で保持していてもよいし、単語単位で保持していてもよいし、音素単位で保持していてもよい。   The sound path dictionary 15 holds a plurality of sound path information patterns. The sound path information is a part of voice quality in speech. The sound path dictionary 15 may hold a pattern of sound path information in units of sentences, may be stored in units of words, or may be stored in units of phonemes.

合成部14は、入力されたテキストデータの文章に適したパターンの音道情報を読み出し、修正された韻律情報と音道情報とを合成することによってデジタル信号の音声データを生成する。音声データはD/A変換器16によってアナログ信号に変換されて、スピーカ17より音声として出力される。   The synthesizing unit 14 reads out the sound path information of a pattern suitable for the text of the input text data, and synthesizes the corrected prosodic information and the sound path information to generate sound data of a digital signal. The audio data is converted into an analog signal by the D / A converter 16 and output as sound from the speaker 17.

図1に示す音声合成装置によって構成した音声発生装置及び音声変形装置は、韻律情報生成部11〜音道辞書15の部分を、演算処理装置(マイクロプロセッサ)と記憶装置とを含むマイクロコンピュータで構成することができる。   The speech generation device and speech transformation device configured by the speech synthesizer shown in FIG. 1 includes a prosody information generation unit 11 to a sound path dictionary 15 as a microcomputer including an arithmetic processing device (microprocessor) and a storage device. can do.

<第2実施形態の音声発生装置及び音声変形装置>
図2に示す第2実施形態の音声発生装置及び音声変形装置は、音声データが予め音声ファイルとして形成されている場合に音声の親しさの程度を増大させる構成例である。第2実施形態の音声発生装置及び音声変形装置は、文章の音声データを含む音声ファイルと、文章を示すテキストデータと、テキストデータのタイミングデータとに基づいて、音声データの韻律情報を修正する音声処理装置である。
<Sound Generation Device and Sound Transformation Device of Second Embodiment>
The sound generation device and the sound deformation device of the second embodiment shown in FIG. 2 are configuration examples that increase the degree of familiarity of sound when the sound data is previously formed as a sound file. The voice generation device and the voice transformation device according to the second embodiment include a voice that corrects prosodic information of voice data based on a voice file including voice data of a sentence, text data indicating the sentence, and timing data of the text data. It is a processing device.

図2において、韻律・声道分離部21には文章の音声データを含む音声ファイルが入力される。音声ファイルは、例えばWAV形式である。音声ファイルはWAV形式に限定されない。   In FIG. 2, the prosody / vocal tract separation unit 21 receives an audio file including audio data of sentences. The audio file is, for example, in the WAV format. The audio file is not limited to the WAV format.

韻律・声道分離部21は、音声ファイルの音声データを韻律情報と声道情報とに分離する。声道情報保持部22は声道情報を保持する。韻律情報保持部23は韻律情報を保持する。   The prosody / vocal tract separation unit 21 separates audio data of the audio file into prosody information and vocal tract information. The vocal tract information holding unit 22 holds the vocal tract information. The prosodic information holding unit 23 holds prosodic information.

修正位置検出部26には、音声ファイルの音声データを示すテキストデータとタイミングデータとが入力される。タイミングデータは、音声データの時間位置を示す。タイミングデータによって、音素の発話開始位置や文節間に息継ぎの時間に相当する間隔を設定することができる。修正位置検出部26は、テキストデータ及びタイミングデータに基づいて、韻律情報修正部24において韻律情報を修正する際の修正位置を検出する。   Text data indicating the voice data of the voice file and timing data are input to the correction position detection unit 26. The timing data indicates the time position of the audio data. With the timing data, it is possible to set an interval corresponding to the breathing time between phoneme utterance start positions and phrases. The correction position detection unit 26 detects a correction position when the prosody information correction unit 24 corrects the prosody information based on the text data and the timing data.

韻律情報修正部24は、修正位置検出部26が検出した修正位置より韻律情報を修正することによって、音声の親しさの程度を増大させる。修正された韻律情報は合成部14に入力される。修正位置検出部26における修正位置の検出の仕方、及び、韻律情報修正部24における具体的な修正の仕方については後に詳述する。   The prosodic information correction unit 24 increases the degree of familiarity of the voice by correcting the prosodic information from the correction position detected by the correction position detection unit 26. The modified prosody information is input to the synthesis unit 14. A method of detecting the correction position in the correction position detection unit 26 and a specific correction method in the prosody information correction unit 24 will be described in detail later.

合成部14は、修正された韻律情報と声道情報保持部22に保持された声道情報とを合成することによってデジタル信号の音声データを生成する。音声データはD/A変換器27によってアナログ信号に変換されて、スピーカ28より音声として出力される。   The synthesizer 14 synthesizes the modified prosody information and the vocal tract information held in the vocal tract information holding unit 22 to generate voice data of a digital signal. The audio data is converted into an analog signal by the D / A converter 27 and output as audio from the speaker 28.

図2に示す音声処理装置によって構成した音声発生装置及び音声変形装置は、韻律・声道分離部21〜修正位置検出部26の部分を、演算処理装置と記憶装置とを含むマイクロコンピュータで構成することができる。   In the speech generation device and speech transformation device configured by the speech processing device shown in FIG. 2, the prosody / vocal tract separation unit 21 to the correction position detection unit 26 are configured by a microcomputer including an arithmetic processing device and a storage device. be able to.

<第3実施形態の音声発生装置及び音声変形装置>
図3に示す第3実施形態の音声発生装置及び音声変形装置は、人が話した音声の親しさの程度を増大させる構成例である。図3において、図2と同一部分には同一符号を付し、その説明を適宜省略する。
<Sound Generation Device and Sound Transformation Device of Third Embodiment>
The voice generation device and the voice transformation device according to the third embodiment shown in FIG. 3 are configuration examples that increase the degree of familiarity of voice spoken by a person. 3, the same parts as those in FIG. 2 are denoted by the same reference numerals, and the description thereof is omitted as appropriate.

第3実施形態の音声発生装置及び音声変形装置は、人が発する文章の音声をマイクロホンで収音した音声データと、音声データを音声認識することによって生成した文章を示すテキストデータとに基づいて、音声データの韻律情報を修正する音声処理装置である。   The voice generation device and the voice transformation device according to the third embodiment are based on voice data obtained by collecting a voice of a sentence uttered by a person with a microphone, and text data indicating a sentence generated by voice recognition of the voice data. This is a speech processing device for correcting prosodic information of speech data.

図3において、マイクロホン31は人が発した音声を収音してアナログの音声信号を出力する。A/D変換器32は、アナログの音声信号をデジタルの音声データに変換する。音声データは、韻律・声道分離部21と音声認識部33とに入力される。   In FIG. 3, a microphone 31 picks up a voice uttered by a person and outputs an analog voice signal. The A / D converter 32 converts an analog audio signal into digital audio data. The voice data is input to the prosody / vocal tract separation unit 21 and the voice recognition unit 33.

音声認識部33は、入力された音声データの音声を認識してテキストデータを出力する。テキストデータは、修正位置検出部34に入力される。修正位置検出部34は、例えば形態素解析の手法を用いて韻律情報を修正する際の修正位置を検出する。韻律情報修正部24は、修正位置検出部34が検出した修正位置より韻律情報を修正することによって、音声の親しさの程度を増大させる。   The voice recognition unit 33 recognizes the voice of the input voice data and outputs text data. The text data is input to the correction position detector 34. The correction position detection unit 34 detects a correction position when correcting the prosodic information using, for example, a morphological analysis technique. The prosodic information correction unit 24 increases the degree of familiarity of the voice by correcting the prosodic information from the correction position detected by the correction position detection unit 34.

図3に示す音声処理装置によって構成した音声発生装置及び音声変形装置は、マイクロホン31,A/D変換器32,D/A変換器27,スピーカ28以外の部分を、演算処理装置と記憶装置とを含むマイクロコンピュータで構成することができる。   The sound generating device and the sound deforming device configured by the sound processing device shown in FIG. 3 are the parts other than the microphone 31, the A / D converter 32, the D / A converter 27, and the speaker 28. It can comprise with the microcomputer containing.

<実施形態の音声変形方法>
図1の韻律情報修正部13、図2及び図3の韻律情報修正部24における韻律情報の修正方法、及び、図2の修正位置検出部26、図3の修正位置検出部34における修正位置の検出方法について説明する。
<Audio Deformation Method of Embodiment>
The prosody information correction unit 13 in FIG. 1, the prosody information correction method in the prosody information correction unit 24 in FIGS. 2 and 3, and the correction position detection unit 26 in FIG. 2 and the correction position in the correction position detection unit 34 in FIG. A detection method will be described.

図4の(a)は、第1の例文として「経由地にします」なる音声を発生させたときの振幅波形を示している。図4の(b)に示すように、「経由地にします」をローマ字表記した「KeIYuChiNiShiMaSu」のKe,I,Yu,Chi,Ni,Shi,Ma,Suはそれぞれ音素番号1〜8の音素を示している。音素番号1〜8の音素は、例えば時間位置2.22秒から2.85秒までのそれぞれの時間位置に位置している。   FIG. 4A shows an amplitude waveform when the first example sentence, “I will make a stopover”, is generated. As shown in Fig. 4 (b), Ke, I, Yu, Chi, Ni, Shi, Ma, and Su of "KeIYuChiNiShiMaSu" with "Make a stopover" in Roman letters are phonemes numbered 1-8. Show. The phonemes with phoneme numbers 1 to 8 are located at respective time positions from 2.22 seconds to 2.85 seconds, for example.

「KeIYuChi」は文節Ph1、「Ni」は文節Ph2、「ShiMaSu」は文節Ph3である。実施形態の音声変形方法においては、複数の文節を有する文章の音声を発生させるとき、文章における最後の文節のみ、周波数を一定の周波数だけ上昇させることによって、音声の親しさの程度を増大させる。   “KeIYuChi” is the phrase Ph1, “Ni” is the phrase Ph2, and “ShiMaSu” is the phrase Ph3. In the speech transformation method of the embodiment, when generating speech of a sentence having a plurality of phrases, only the last phrase in the sentence is increased in frequency by a certain frequency, thereby increasing the degree of familiarity of the speech.

図4の(b)に示す例では、図1の韻律情報修正部13、図2及び図3の韻律情報修正部24は、文節Ph3である「ShiMaSu」の部分の周波数を一定の周波数だけ上昇させる。図2の修正位置検出部26、図3の修正位置検出部34は、最後の文節である文節Ph3を検出する。   In the example shown in FIG. 4B, the prosody information correction unit 13 in FIG. 1 and the prosody information correction unit 24 in FIGS. 2 and 3 increase the frequency of the part “ShiMaSu” that is the phrase Ph3 by a certain frequency. Let The correction position detection unit 26 in FIG. 2 and the correction position detection unit 34 in FIG. 3 detect the phrase Ph3 that is the last phrase.

図5の(a),(b)は他の例を示す。図5の(a)は、第2の例文として「ゆっくり楽しんできて下さいね」なる音声を発生させたときの振幅波形を示している。   FIGS. 5A and 5B show another example. FIG. 5A shows an amplitude waveform when a voice “Please enjoy yourself slowly” is generated as a second example sentence.

図5の(b)に示すように、「ゆっくり楽しんできて下さいね」をローマ字表記した「YuKkuRiTaNoShiNDeKiTeKuDaSaINe」のYu,Kku,Ri,Ta,No,Shi,N,De,Ki,Te,Ku,Da,Sa,I,Neはそれぞれ音素番号1〜15の音素を示している。音素番号1〜15の音素は、例えば時間位置2.22秒から3.49秒までのそれぞれの時間位置に位置している。   As shown in Fig. 5B, "YuKkuRiTaNoShiNDeKiTeKuDaSaINe" Yu, Kku, Ri, Ta, No, Shi, N, De, Ki, Te, Ku, Da , Sa, I, Ne indicate phonemes with phoneme numbers 1 to 15, respectively. The phonemes with the phoneme numbers 1 to 15 are located at the respective time positions from 2.22 seconds to 3.49 seconds, for example.

「YuKkuRi」は文節Ph1、「TaNoShiNDe」は文節Ph2、「KiTe」は文節Ph3、「KuDaSaINe」は文節Ph4である。図5の(b)に示す例では、図1の韻律情報修正部13、図2及び図3の韻律情報修正部24は、文章における最後の文節である文節Ph4の「KuDaSaINe」の部分の周波数を一定の周波数だけ上昇させることによって、音声の親しさの程度を増大させる。   “YuKkuRi” is the phrase Ph1, “TaNoShiNDe” is the phrase Ph2, “KiTe” is the phrase Ph3, and “KuDaSaINe” is the phrase Ph4. In the example shown in FIG. 5B, the prosody information correction unit 13 in FIG. 1 and the prosody information correction unit 24 in FIGS. 2 and 3 perform the frequency of the “KuDaSaINe” portion of the phrase Ph4 which is the last phrase in the sentence. Is increased by a certain frequency to increase the degree of familiarity of the voice.

図5の(b)では、文節Ph4における音素「Ku」の時間位置は3.12と設定されている。この時間位置3.12は子音Kの位置を示す。よって、文節Ph4の「KuDaSaINe」の部分は、子音K以降の周波数が上昇することになる。   In FIG. 5B, the time position of the phoneme “Ku” in the phrase Ph4 is set to 3.12. This time position 3.12 indicates the position of the consonant K. Therefore, the frequency after the consonant K rises in the “KuDaSaINe” portion of the phrase Ph4.

図6に示す例では、音素「Ku」の子音Kの時間位置が3.12、母音uの時間位置が3.13と別々に設定されている。このような場合には、文節Ph4の「KuDaSaINe」の部分の音素「Ku」における母音u以降の周波数を上昇させてもよい。   In the example shown in FIG. 6, the time position of the consonant K of the phoneme “Ku” is set separately as 3.12 and the time position of the vowel u is set as 3.13 separately. In such a case, the frequency after the vowel u in the phoneme “Ku” in the “KuDaSaINe” portion of the phrase Ph4 may be increased.

文章における最後の文節のみ、周波数を一定の周波数だけ上昇させるとは、文章における最後の文節の最初の音素の子音以降の周波数を上昇させる場合と、母音以降の周波数を上昇させる場合との双方を含む。   To increase the frequency by a certain frequency only for the last phrase in the sentence means to increase the frequency after the first phoneme consonant of the last phrase in the sentence and to increase the frequency after the vowel. Including.

図7の(a),(b)は、図5の(b)における文節Ph4の部分の周波数を上昇させたときの振幅と周波数の特性を示している。図7の(b)に示す黒丸の点は、周波数特性における極大値もしくは極小値を示す極点、または、変曲点を示している。黒丸の点の位置は、音素の位置とは必ずしも一致しない。但し、音素の位置が極点または変曲点となる場合も多い。   FIGS. 7A and 7B show amplitude and frequency characteristics when the frequency of the phrase Ph4 in FIG. 5B is increased. Black dots shown in FIG. 7B indicate extreme points or inflection points indicating the maximum value or the minimum value in the frequency characteristics. The position of the black dot does not necessarily match the position of the phoneme. However, in many cases, the position of the phoneme is a pole or an inflection point.

図7の(a),(b)は、音素「Ku」における子音K以降の周波数を上昇させた場合を示している。図7の(b)において、破線は周波数を上昇させていない状態の特性、実線は周波数を上昇させた状態の特性を示している。ここでは、「KuDaSaINe」の部分の韻律の周波数を一律に40Hz上昇させた例を示している。   (A), (b) of FIG. 7 has shown the case where the frequency after the consonant K in phoneme "Ku" is raised. In FIG. 7B, the broken line indicates the characteristic when the frequency is not increased, and the solid line indicates the characteristic when the frequency is increased. Here, an example is shown in which the frequency of the prosody of “KuDaSaINe” is uniformly increased by 40 Hz.

周波数を上昇させても、図7の(a)に示す振幅の特性には影響を与えない。よって、周波数を上昇させていない状態と周波数を上昇させた状態とで、振幅の特性には変化はない。   Increasing the frequency does not affect the amplitude characteristics shown in FIG. Therefore, there is no change in the amplitude characteristics between the state where the frequency is not increased and the state where the frequency is increased.

図8を用いて、文章における最後の文節の周波数を上昇させる際のさらに詳細かつ好ましい音声変形方法について説明する。ここでは、「…を設定いたします」という文章の「…てい いた…」の部分を例にする。「…てい いた…」の部分の音声の韻律が図8の(a)に示すような周波数特性を有するとする。ここでは、簡略化のため周波数特性を概略的に示している。   With reference to FIG. 8, a more detailed and preferable speech transformation method for increasing the frequency of the last clause in a sentence will be described. In this example, the part of “... it was ...” in the sentence “I will set…” is taken as an example. It is assumed that the sound prosody of the portion “... Was ...” has a frequency characteristic as shown in FIG. Here, frequency characteristics are schematically shown for simplification.

図8の(a)〜(c)において、黒丸の点p1〜p6は、図7と同様、極点または変曲点を示している。点p1〜p6の位置は、音素の位置とは必ずしも一致しないが、音素の位置が極点または変曲点となる場合も多い。   8A to 8C, black circle points p1 to p6 indicate pole points or inflection points as in FIG. The positions of the points p1 to p6 do not necessarily coincide with the positions of the phonemes, but the positions of the phonemes are often extreme points or inflection points.

図1の韻律情報修正部13、図2及び図3の韻律情報修正部24は、最後の文節を構成する複数の音素のうちの最初の音素に最も近い位置であり、文章の韻律が示す周波数特性の極点または変曲点を、周波数を一定の周波数だけ上昇させる開始位置とすることができる。   The prosodic information correcting unit 13 in FIG. 1 and the prosodic information correcting unit 24 in FIGS. 2 and 3 are positions closest to the first phoneme among a plurality of phonemes constituting the last phrase, and the frequency indicated by the prosody of the sentence The characteristic pole or inflection point can be the starting position for increasing the frequency by a certain frequency.

図8の(a)の例では、「いた…」の最初の音素である「い」に最も近い極点または変曲点は点p6である。図1の韻律情報修正部13、図2及び図3の韻律情報修正部24は、点p6を周波数上昇の開始位置として、点p6より周波数を上昇させる。   In the example of FIG. 8A, the pole or inflection point closest to “I”, which is the first phoneme of “Ita ...”, is the point p6. The prosodic information correcting unit 13 in FIG. 1 and the prosodic information correcting unit 24 in FIGS. 2 and 3 increase the frequency from the point p6 with the point p6 as the starting position of the frequency increase.

図8の(b)は、点p6以降の周波数を上昇させた状態を示している。周波数の上昇によって、点p6は点p6’へと移る。   FIG. 8B shows a state in which the frequency after the point p6 is increased. As the frequency increases, point p6 moves to point p6 '.

図8の(b)に示すような周波数特性は、周波数が急激に変化する。そこで、周波数を一定の周波数だけ上昇させる開始位置(ここでは点p6(p6’))より所定時間前の位置より、開始位置まで周波数を連続的に変化させることが好ましい。開始位置より所定時間前の位置も、極点または変曲点であるのがよい。   In the frequency characteristics as shown in FIG. 8B, the frequency changes abruptly. Therefore, it is preferable to continuously change the frequency from a position a predetermined time before the start position (here, point p6 (p6 ')) where the frequency is increased by a certain frequency to the start position. The position a predetermined time before the start position may also be a pole or an inflection point.

図8の(c)の例では、所定時間前の位置を、開始位置より前に位置する極点または変曲点である点p5としている。点p5から点p6’まで周波数が連続的に上昇するように周波数を直線的に変化させてもよいし、上に凸の曲線状または下に凸の曲線状に変化させてもよい。   In the example of FIG. 8C, the position before the predetermined time is a point p5 that is a pole or an inflection point located before the start position. The frequency may be linearly changed so that the frequency continuously increases from the point p5 to the point p6 ', or may be changed to an upward convex curve or a downward convex curve.

ここで、点p5から点p6’までは0.05秒以上の時間があると自然に聞こえやすい。よって、開始位置である極点または変曲点と、開始位置の直前に位置する極点または変曲点との時間間隔が0.05秒未満である場合には、開始位置に対して、開始位置より前の0.05秒以上の時間間隔を有する極点または変曲点を選択するのがよい。   Here, if there is a time of 0.05 seconds or more from the point p5 to the point p6 ', it is easy to hear naturally. Therefore, when the time interval between the pole or inflection point that is the start position and the pole or inflection point located immediately before the start position is less than 0.05 seconds, A pole or inflection point having a time interval of 0.05 seconds or more is preferably selected.

文章における最後の文節のみ、周波数を一定の周波数だけ上昇させるとは、最後の文節を構成する複数の音素のうちの最初の音素に最も近い極点または変曲点以降を一定の周波数だけ上昇させる場合を含む。   To increase the frequency by a certain frequency only for the last phrase in a sentence means to increase the frequency after a pole or inflection point closest to the first phoneme among the phonemes making up the last phrase by a certain frequency including.

なお、「はい」や「すみません」のように文章が1つの文節のみからなる場合には、以上説明した最後の文節のみ周波数を上昇させる対象とはしない。   When the sentence is composed of only one phrase such as “Yes” or “Sorry”, only the last phrase described above is not set as a target for increasing the frequency.

図9を用いて、周波数を一定の周波数だけ上昇させる程度と、効果との関係について説明する。図9に示す実験結果は、文章における最後の文節のみ、周波数を+10Hzから+100Hzまでそれぞれ上昇させた音声を複数の人が聞き、親しさの程度の変化を評価して、評価結果を統計的に集計したものである。図9において、○は親しさの程度を増大させる効果が高い、△は効果が中程度、×は効果がない、を示している。   The relationship between the effect of increasing the frequency by a certain frequency and the effect will be described with reference to FIG. The experimental results shown in FIG. 9 show that only the last phrase in a sentence is heard by a plurality of people listening to voices whose frequencies are increased from +10 Hz to +100 Hz, and the degree of familiarity is evaluated. It is the total. In FIG. 9, ◯ indicates that the effect of increasing the degree of familiarity is high, Δ indicates that the effect is moderate, and x indicates that there is no effect.

周波数を+10Hz上昇させたとき、やや親しい音声になるものの、効果はわずかである。周波数+10Hz未満の上昇では、人は効果を感じることが困難である。よって、周波数を一定の周波数だけ上昇させる下限値は+10Hzである。一方、周波数を+90Hz上昇させると、機械的な音声となって逆に親しさを下げてしまう。よって、周波数を一定の周波数だけ上昇させる上限値は+80Hzである。   When the frequency is increased by +10 Hz, the sound becomes somewhat familiar, but the effect is slight. If the frequency is lower than +10 Hz, it is difficult for a person to feel the effect. Therefore, the lower limit value for increasing the frequency by a certain frequency is +10 Hz. On the other hand, when the frequency is increased by +90 Hz, it becomes a mechanical sound, and on the contrary, the familiarity is lowered. Therefore, the upper limit value for increasing the frequency by a certain frequency is +80 Hz.

このように、文章における最後の文節のみ周波数を一定の周波数だけ上昇させる程度は、+10Hz〜+80Hzが好適である。+10Hz〜+20Hzではやや親しい音声になり、効果は限定的である。+60Hz〜+80Hzでは親しい音声になるが、若干の不自然さが生じる。よって、文章における最後の文節のみ周波数を一定の周波数だけ上昇させる程度は、+30Hz〜+50Hzが特に好ましい。   Thus, +10 Hz to +80 Hz is preferable for increasing the frequency of the last phrase in the sentence by a certain frequency. At +10 Hz to +20 Hz, the sound becomes somewhat familiar, and the effect is limited. At +60 Hz to +80 Hz, the sound becomes close, but some unnaturalness occurs. Therefore, +30 Hz to +50 Hz is particularly preferable for increasing the frequency of the last clause in the sentence by a certain frequency.

ところで、文章における最後の文節のみ周波数を一定の周波数だけ下降させると、音声の親しさの程度が減少することも確認されている。各実施形態の音声発生装置、音声変形装置及び方法は、人が音声を聞いたときに感じる親しさの程度を意図的に減少させるために、文章における最後の文節のみ周波数を一定の周波数だけ下降させることも可能である。   By the way, it has also been confirmed that when the frequency of only the last phrase in the sentence is lowered by a certain frequency, the degree of familiarity of the voice decreases. In each embodiment, the sound generation device, the sound deformation device, and the method decrease the frequency of only the last phrase in a sentence by a certain frequency in order to intentionally reduce the degree of familiarity that a person feels when listening to the sound. It is also possible to make it.

以上のように、各実施形態の音声発生装置及び音声変形装置は、韻律情報修正部13,24と、合成部14,25とを備える。韻律情報修正部13,24は、複数の文節よりなる文章を音声で表現するに際し、文章の最後の文節のみ周波数を一定の周波数だけ上昇または下降させるように韻律情報を修正する。合成部14,25は、韻律情報修正部13,24によって修正された韻律情報と音道情報とを合成することにより、文章の音声データを生成する。   As described above, the sound generation device and the sound deformation device according to each embodiment include the prosodic information correction units 13 and 24 and the synthesis units 14 and 25. The prosodic information correction units 13 and 24 correct the prosodic information so that the frequency of only the last phrase of the sentence is increased or decreased by a certain frequency when the sentence composed of a plurality of phrases is expressed by speech. The synthesizing units 14 and 25 synthesize the prosodic information corrected by the prosody information correcting units 13 and 24 and the sound path information, thereby generating sentence voice data.

各実施形態の音声発生装置及び音声変形装置によれば、簡易な構成で音声の親しさの程度を効果的に増減させることができる。   According to the sound generation device and the sound deformation device of each embodiment, the degree of familiarity of sound can be effectively increased or decreased with a simple configuration.

韻律情報修正部13,24は、最後の文節を構成する複数の音素のうち、最初の音素の子音または母音の位置を、周波数を一定の周波数だけ上昇または下降させる開始位置とする。これによって、最後の文節のみ韻律情報を修正することができる。   The prosodic information correction units 13 and 24 set the position of the consonant or vowel of the first phoneme among the plurality of phonemes constituting the last phrase as a start position for increasing or decreasing the frequency by a certain frequency. Thereby, the prosodic information can be corrected only for the last phrase.

韻律情報修正部13,24は、最後の文節を構成する複数の音素のうちの最初の音素に最も近い位置であり、文章の韻律が示す周波数特性の極点または変曲点を、周波数を一定の周波数だけ上昇または下降させる開始位置としてもよい。これによって、最後の文節のみ韻律情報を修正することができる。   The prosodic information correction units 13 and 24 are positions closest to the first phoneme among a plurality of phonemes constituting the last phrase, and the frequency characteristic pole or inflection point indicated by the prosody of the sentence is set to a fixed frequency. It may be a starting position where the frequency is increased or decreased. Thereby, the prosodic information can be corrected only for the last phrase.

このとき、韻律情報修正部13,24は、開始位置より所定時間前の位置より開始位置まで周波数を連続的に変化させることが好ましい。このようにすれば、違和感がほとんどなく、音声の親しさの程度を増減させることができる。   At this time, it is preferable that the prosodic information correction units 13 and 24 continuously change the frequency from a position a predetermined time before the start position to the start position. In this way, there is almost no sense of incongruity, and the degree of familiarity of the voice can be increased or decreased.

韻律情報修正部13,24は、所定時間前の位置を、開始位置より前に位置する極点または変曲点とするのがよい。このようにすれば、周波数特性の変化に合わせて周波数を連続的に変化させることができる。   The prosodic information correction units 13 and 24 may set a position before a predetermined time as a pole or an inflection point located before the start position. In this way, it is possible to continuously change the frequency according to the change of the frequency characteristic.

実施形態の音声発生装置及び音声変形装置は、文章を示すテキストデータに基づいて音声データを生成する音声合成装置であってよい。音声発生装置及び音声変形装置を音声合成装置で構成すれば、音声合成によって音声の親しさの程度を増減させた音声データを生成することができる。   The speech generation device and the speech transformation device of the embodiment may be a speech synthesizer that generates speech data based on text data indicating a sentence. If the speech generation device and the speech transformation device are configured by a speech synthesizer, speech data in which the degree of familiarity of speech is increased or decreased by speech synthesis can be generated.

実施形態の音声発生装置及び音声変形装置は、文章の音声データを含む音声ファイルと、文章を示すテキストデータと、テキストデータのタイミングデータとに基づいて、音声データの韻律情報を修正する音声処理装置であってよい。音声発生装置及び音声変形装置をこのように動作する音声処理装置で構成すれば、音声ファイルとして記録された音声データの音声の親しさの程度を増減させることができる。   An audio generation device and an audio transformation device according to an embodiment correct an audio file including audio data of a sentence, text data indicating the sentence, and timing data of the text data, and correct the prosodic information of the audio data It may be. If the sound generation device and the sound deformation device are configured by the sound processing device operating in this way, the degree of familiarity of the sound of the sound data recorded as the sound file can be increased or decreased.

実施形態の音声発生装置及び音声変形装置は、人が発する文章の音声をマイクロホンで収音した音声データと、音声データを音声認識することによって生成した文章を示すテキストデータとに基づいて、音声データの韻律情報を修正する音声処理装置であってよい。音声発生装置及び音声変形装置をこのように動作する音声処理装置で構成すれば、人が発する音声の親しさの程度を増減させることができる。   The voice generation device and the voice transformation device according to the embodiment are based on voice data obtained by collecting voice of a sentence uttered by a person with a microphone, and text data indicating a sentence generated by voice recognition of the voice data. It may be a speech processing device that corrects the prosodic information. If the sound generation device and the sound deformation device are configured by the sound processing device operating in this way, the degree of familiarity of the sound uttered by a person can be increased or decreased.

実施形態の音声変形方法は、韻律情報修正工程と合成工程とを含む。韻律情報修正工程は、複数の文節よりなる文章の音声データを構成する韻律情報と音道情報とのうち、韻律情報における文章の最後の文節のみ周波数を一定の周波数だけ上昇または下降させるよう修正する。   The speech transformation method of the embodiment includes a prosody information correction step and a synthesis step. The prosodic information correction step corrects the frequency of only the last phrase of the sentence in the prosodic information to be increased or decreased by a certain frequency out of the prosodic information and the sound path information constituting the speech data of the sentence composed of a plurality of phrases. .

合成工程は、韻律情報修正工程にて修正された韻律情報と音道情報とを合成して、文章の音声データを発音させたときの音声が有する親しさの程度を変化させた音声データを生成する。   In the synthesis step, the prosody information corrected in the prosody information correction step and the sound path information are synthesized to generate voice data in which the degree of familiarity of the voice when the voice data of the sentence is pronounced is changed. To do.

実施形態の音声変形方法によれば、簡易な手順で音声の親しさの程度を効果的に増減させることができる。   According to the audio transformation method of the embodiment, the degree of familiarity of audio can be effectively increased or decreased by a simple procedure.

本発明は以上説明した各実施形態の音声発生装置、音声変形装置及び方法に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々変更可能である。   The present invention is not limited to the sound generation device, sound deformation device and method of each embodiment described above, and various modifications can be made without departing from the scope of the present invention.

図1〜図3に示す音声発生装置は、音声変形装置を備えた構成を示している。音声発生装置が音声変形装置を備えず、音声変形装置を音声発生装置の外部に設けてもよい。音声発生装置は、文章の最後の文節のみ周波数を一定の周波数だけ上昇または下降させた韻律情報を含むように生成された音声データを保持する記憶部と、記憶部より読み出された音声データを再生する音声再生部とを備える構成であってもよい。   The sound generator shown in FIGS. 1 to 3 shows a configuration including a sound deformation device. The voice generation device may not be provided with the voice transformation device, and the voice transformation device may be provided outside the voice generation device. The speech generator includes a storage unit that stores speech data generated to include prosodic information in which the frequency of only the last phrase of a sentence is increased or decreased by a certain frequency, and the speech data read from the storage unit The structure provided with the audio | voice reproduction | regeneration part to reproduce | regenerate may be sufficient.

図1におけるD/A変換器16及びスピーカ17、図2,図3におけるD/A変換器27及びスピーカ28は、音声再生部の少なくとも一部を構成する。音声発生装置が音声データを保持する記憶部を備える場合、記憶部から音声データを読み出す読み出し部も音声再生部の一部とすることができる。   The D / A converter 16 and the speaker 17 in FIG. 1 and the D / A converter 27 and the speaker 28 in FIGS. 2 and 3 constitute at least a part of the sound reproducing unit. When the sound generation device includes a storage unit that stores sound data, a reading unit that reads out sound data from the storage unit may be part of the sound reproduction unit.

このように、音声発生装置は、複数の文節よりなる文章の最後の文節のみ周波数を一定の周波数だけ上昇または下降させた韻律情報を含むように生成された音声データを再生する音声再生部を備えればよい。   As described above, the sound generation device includes a sound reproducing unit that reproduces sound data generated so as to include prosodic information in which only the last phrase of a sentence including a plurality of phrases is increased or decreased by a certain frequency. Just do it.

音声発生装置及び音声変形装置をハードウェアで構成してもよいし、ソフトウェアで構成してもよく、両者を混在させて構成してもよい。   The sound generation device and the sound deformation device may be configured by hardware, may be configured by software, or may be configured by mixing both.

音声を韻律情報と声道とに分離して合成する際に、例えば、vocoderと称される一般的な音声分析合成系を用いることが可能である。ソフトウェアとしては、音声分析用ソフトウェアPraatを用いることが可能である。Praatで使われているT-SOLAアルゴリズムを用いるとよい。   When separating and synthesizing speech into prosodic information and vocal tract, for example, a general speech analysis / synthesis system called vocoder can be used. As software, voice analysis software Praat can be used. Use the T-SOLA algorithm used in Praat.

本発明を、コンピュータに、音声変形方法における韻律情報修正工程と合成工程と同等の、韻律情報修正ステップと合成ステップとを実行させる音声変形プログラムによって実現することも可能である。   The present invention can also be realized by a speech transformation program that causes a computer to execute a prosodic information correction step and a synthesis step equivalent to the prosodic information correction step and the synthesis step in the speech transformation method.

13,24 韻律情報修正部
14,25 合成部
16,27 D/A変換器(音声再生部)
17,28 スピーカ(音声再生部)
13, 24 Prosodic information correction unit 14, 25 Compositing unit 16, 27 D / A converter (voice reproduction unit)
17, 28 Speaker (Audio playback unit)

Claims (10)

複数の文節よりなる文章の最後の文節のみ周波数を一定の周波数だけ上昇または下降させた韻律情報を含むように生成された音声データを再生する音声再生部を備えることを特徴とする音声発生装置。   An audio generator comprising: an audio reproduction unit that reproduces audio data generated so as to include prosodic information in which only the last phrase of a sentence composed of a plurality of phrases is increased or decreased by a certain frequency. 複数の文節よりなる文章を音声で表現するに際し、前記文章の最後の文節のみ周波数を一定の周波数だけ上昇または下降させるように韻律情報を修正する韻律情報修正部と、
前記韻律情報修正部によって修正された韻律情報と音道情報とを合成することにより、前記文章の音声データを生成する合成部と、
を備えることを特徴とする音声変形装置。
When expressing a sentence composed of a plurality of phrases by voice, the prosody information correction unit for correcting the prosody information so that the frequency of only the last phrase of the sentence is increased or decreased by a certain frequency;
A synthesizing unit that generates speech data of the sentence by synthesizing the prosodic information and the sound path information corrected by the prosody information correcting unit;
An audio deformation device comprising:
前記韻律情報修正部は、前記最後の文節を構成する複数の音素のうち、最初の音素の子音または母音の位置を、周波数を一定の周波数だけ上昇または下降させる開始位置とすることを特徴とする請求項2記載の音声変形装置。   The prosody information correcting unit sets a position of a consonant or a vowel of the first phoneme among a plurality of phonemes constituting the last phrase as a start position where the frequency is increased or decreased by a certain frequency. The sound deformation device according to claim 2. 前記韻律情報修正部は、前記最後の文節を構成する複数の音素のうちの最初の音素に最も近い位置であり、前記文章の韻律が示す周波数特性の極点または変曲点を、周波数を一定の周波数だけ上昇または下降させる開始位置とすることを特徴とする請求項2記載の音声変形装置。   The prosodic information correction unit is a position closest to the first phoneme of the plurality of phonemes constituting the last clause, and the frequency characteristic extreme point or inflection point indicated by the prosody of the sentence is set to a constant frequency. 3. The sound deformation device according to claim 2, wherein the sound deformation device is a start position where the frequency is increased or decreased by a frequency. 前記韻律情報修正部は、前記開始位置より所定時間前の位置より前記開始位置まで周波数を連続的に変化させることを特徴とする請求項4記載の音声変形装置。   5. The speech transformation device according to claim 4, wherein the prosodic information correction unit continuously changes the frequency from a position a predetermined time before the start position to the start position. 前記韻律情報修正部は、前記所定時間前の位置を、前記開始位置より前に位置する極点または変曲点とすることを特徴とする請求項5記載の音声変形装置。   6. The speech transformation device according to claim 5, wherein the prosodic information correction unit sets the position before the predetermined time as a pole or an inflection point located before the start position. 前記音声変形装置は、前記文章を示すテキストデータに基づいて前記音声データを生成する音声合成装置であることを特徴とする請求項2〜6のいずれか1項に記載の音声変形装置。   The speech transformation device according to claim 2, wherein the speech transformation device is a speech synthesizer that generates the speech data based on text data indicating the sentence. 前記音声変形装置は、前記文章の音声データを含む音声ファイルと、前記文章を示すテキストデータと、前記テキストデータのタイミングデータとに基づいて、前記音声データの韻律情報を修正する音声処理装置であることを特徴とする請求項2〜6のいずれか1項に記載の音声変形装置。   The speech transformation device is a speech processing device that corrects prosodic information of the speech data based on a speech file including speech data of the sentence, text data indicating the sentence, and timing data of the text data. The sound deformation device according to claim 2, wherein the sound deformation device is a sound device. 前記音声変形装置は、人が発する文章の音声をマイクロホンで収音した音声データと、前記音声データを音声認識することによって生成した前記文章を示すテキストデータとに基づいて、前記音声データの韻律情報を修正する音声処理装置であることを特徴とする請求項2〜6のいずれか1項に記載の音声変形装置。   The speech transformation device is characterized in that the prosody information of the speech data is based on speech data obtained by picking up speech of a sentence uttered by a person with a microphone, and text data indicating the sentence generated by speech recognition of the speech data. The speech transformation device according to claim 2, wherein the speech transformation device corrects the sound. 複数の文節よりなる文章の音声データを構成する韻律情報と音道情報とのうち、前記韻律情報における前記文章の最後の文節のみ周波数を一定の周波数だけ上昇または下降させるよう修正する韻律情報修正工程と、
前記韻律情報修正工程にて修正された韻律情報と前記音道情報とを合成して、前記文章の音声データを発音させたときの音声が有する親しさの程度を変化させた音声データを生成する合成工程と、
を含むことを特徴とする音声変形方法。
The prosodic information correction step of correcting the frequency of only the last phrase of the sentence in the prosodic information to be increased or decreased by a certain frequency among the prosodic information and the sound path information constituting the speech data of the sentence composed of a plurality of phrases When,
Synthesizing the prosodic information corrected in the prosodic information correcting step and the sound path information to generate voice data in which the degree of familiarity of the voice when the voice data of the sentence is pronounced is changed A synthesis process;
A method of transforming speech, comprising:
JP2013244523A 2013-11-27 2013-11-27 Speech synthesis apparatus and method Active JP6260227B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013244523A JP6260227B2 (en) 2013-11-27 2013-11-27 Speech synthesis apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013244523A JP6260227B2 (en) 2013-11-27 2013-11-27 Speech synthesis apparatus and method

Publications (2)

Publication Number Publication Date
JP2015102771A true JP2015102771A (en) 2015-06-04
JP6260227B2 JP6260227B2 (en) 2018-01-17

Family

ID=53378485

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013244523A Active JP6260227B2 (en) 2013-11-27 2013-11-27 Speech synthesis apparatus and method

Country Status (1)

Country Link
JP (1) JP6260227B2 (en)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05113795A (en) * 1991-05-31 1993-05-07 Oki Electric Ind Co Ltd Voice synthesizing device
JPH05134691A (en) * 1991-10-31 1993-05-28 Internatl Business Mach Corp <Ibm> Method and apparatus for speech synthesis
JPH06342297A (en) * 1993-06-02 1994-12-13 Sony Corp Speech synthesizing device
JPH11202884A (en) * 1997-05-21 1999-07-30 Nippon Telegr & Teleph Corp <Ntt> Method and device for editing and generating synthesized speech message and recording medium where same method is recorded
JP2002196800A (en) * 2000-12-22 2002-07-12 Sharp Corp Speech synthesizer
JP2004226505A (en) * 2003-01-20 2004-08-12 Toshiba Corp Pitch pattern generating method, and method, system, and program for speech synthesis
JP2007183421A (en) * 2006-01-06 2007-07-19 Matsushita Electric Ind Co Ltd Speech synthesizer apparatus
JP2009047957A (en) * 2007-08-21 2009-03-05 Toshiba Corp Pitch pattern generation method and system thereof

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05113795A (en) * 1991-05-31 1993-05-07 Oki Electric Ind Co Ltd Voice synthesizing device
JPH05134691A (en) * 1991-10-31 1993-05-28 Internatl Business Mach Corp <Ibm> Method and apparatus for speech synthesis
JPH06342297A (en) * 1993-06-02 1994-12-13 Sony Corp Speech synthesizing device
JPH11202884A (en) * 1997-05-21 1999-07-30 Nippon Telegr & Teleph Corp <Ntt> Method and device for editing and generating synthesized speech message and recording medium where same method is recorded
JP2002196800A (en) * 2000-12-22 2002-07-12 Sharp Corp Speech synthesizer
JP2004226505A (en) * 2003-01-20 2004-08-12 Toshiba Corp Pitch pattern generating method, and method, system, and program for speech synthesis
JP2007183421A (en) * 2006-01-06 2007-07-19 Matsushita Electric Ind Co Ltd Speech synthesizer apparatus
JP2009047957A (en) * 2007-08-21 2009-03-05 Toshiba Corp Pitch pattern generation method and system thereof

Also Published As

Publication number Publication date
JP6260227B2 (en) 2018-01-17

Similar Documents

Publication Publication Date Title
JP4363590B2 (en) Speech synthesis
US7979274B2 (en) Method and system for preventing speech comprehension by interactive voice response systems
JP4878538B2 (en) Speech synthesizer
WO2014046789A1 (en) System and method for voice transformation, speech synthesis, and speech recognition
US9147392B2 (en) Speech synthesis device and speech synthesis method
JP2008545995A (en) Hybrid speech synthesizer, method and application
CN111418006A (en) Speech synthesis method, speech synthesis device, and program
JP6291808B2 (en) Speech synthesis apparatus and method
JP2012042974A (en) Voice synthesizer
JP6260227B2 (en) Speech synthesis apparatus and method
JP6260228B2 (en) Speech synthesis apparatus and method
JP2000250401A (en) Method and device for learning language, and medium where program is recorded
JP3437064B2 (en) Speech synthesizer
JP2002525663A (en) Digital voice processing apparatus and method
JP2007139868A (en) Language learning device
JP2013033103A (en) Voice quality conversion device and voice quality conversion method
JP3578598B2 (en) Speech synthesizer
JP2006139162A (en) Language learning system
JPH07200554A (en) Sentence read-aloud device
Padda et al. A Step towards Making an Effective Text to speech Conversion System
JP3785892B2 (en) Speech synthesizer and recording medium
JP2008058379A (en) Speech synthesis system and filter device
JP2001125599A (en) Voice data synchronizing device and voice data generator
JP2018191234A (en) Sound acquisition device, sound acquisition method, and sound acquisition program
JP2016065976A (en) Voice deformation device and method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160926

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171020

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171127

R151 Written notification of patent or utility model registration

Ref document number: 6260227

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151