JP2008292587A - Rhythm creating device, rhythm creating method and rhythm creating program - Google Patents
Rhythm creating device, rhythm creating method and rhythm creating program Download PDFInfo
- Publication number
- JP2008292587A JP2008292587A JP2007135847A JP2007135847A JP2008292587A JP 2008292587 A JP2008292587 A JP 2008292587A JP 2007135847 A JP2007135847 A JP 2007135847A JP 2007135847 A JP2007135847 A JP 2007135847A JP 2008292587 A JP2008292587 A JP 2008292587A
- Authority
- JP
- Japan
- Prior art keywords
- prosody
- pattern
- speech
- extraction
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、任意のテキストと、このテキストの内容を読み上げた人間の音声とを受け付け、受け付けた任意のテキストおよび人間の音声に基づいて、韻律パターンを生成する韻律生成装置、韻律生成方法、および、韻律生成プログラムに関する。 The present invention accepts an arbitrary text and a human voice that reads out the content of the text, and generates a prosody pattern based on the received arbitrary text and human voice, a prosody generation method, and , Prosody generation program.
近年、テキストを音声に変換して出力する音声合成技術が各種のシステムあるいは装置に用いられている。例えば、IVR(自動音声応答:Interactive Voice Response)システム、車載情報端末、携帯電話での操作方法ガイダンスやメールの読み上げ、視覚障害者・発話障害者の支援システムなどである。このような音声合成技術においては、現状、人間の発声並みに自然で、表現力豊かな合成音声を生成することは困難である。 In recent years, speech synthesis technology for converting text into speech and outputting it has been used in various systems or apparatuses. For example, there are an IVR (Automatic Voice Response) system, an in-vehicle information terminal, an operation method guidance on a mobile phone, reading out an e-mail, a support system for visually handicapped and speech handicapped. In such a speech synthesis technology, it is difficult to generate a synthesized speech that is natural as human speech and rich in expressiveness.
すなわち、合成音声の韻律は、一般に、テキストにおける単語の読みや品詞を解析する形態素解析、文節や係り受けの解析といった言語解析に基づき、アクセントの設定、イントネーションの設定、ポーズや話速の設定などを経て決定される。しかしながら、現状の処理技術では、文章の意味や前後の文脈を考慮した解析を、人間のように正確に行うことは困難で、解析結果に誤りが含まれることがある。このため、音声合成技術により生成された合成音声は、人間の発声と比較して、声の高さ、イントネーション、リズムなどの喋り方を決める韻律が不自然な箇所が含まれることがある。 In other words, the prosody of synthesized speech is generally based on linguistic analysis such as morphological analysis that analyzes word reading and parts of speech in text, analysis of clauses and dependency, accent settings, intonation settings, pause and speech speed settings, etc. To be determined. However, with the current processing technology, it is difficult to perform an analysis that takes into account the meaning of the sentence and the context before and after like a human being, and the analysis result may include an error. For this reason, the synthesized speech generated by the speech synthesis technique may include portions where the prosody that determines how to speak, such as voice pitch, intonation, and rhythm, is unnatural compared to human speech.
そこで、合成音声の韻律の品質を高める方法として、予め合成音声するテキストが決まっている場合に、人間の発声から音声韻律パターンを抽出し、抽出した音声韻律パターンをそのまま用いて合成音声を生成する方法が知られている(例えば、特許文献1〜4参照)。この方法では、人間の発声とその音声韻律パターンの抽出作業が予め必要となるが、人間の発声から抽出された音声韻律パターンを用いて合成音声を生成するので、人間の発声並みに自然で、表現力豊かな合成音声を生成することができる。
しかしながら、上記従来の方法では、人間の発声から抽出された音声韻律パターンの抽出精度が低い場合、すなわち、音声韻律パターンの抽出誤りが生じている場合、韻律が不自然な合成音声になるという問題を生じる。 However, in the above-described conventional method, when the extraction accuracy of the speech prosody pattern extracted from the human utterance is low, that is, when the extraction error of the speech prosody pattern occurs, the problem is that the prosody becomes an unnatural synthetic speech. Produce.
具体的には、人間の発声から音声韻律パターンを抽出するためには、人間の発声中の各音素における開始点と終了点を検出する音素ラベリング技術、人間の発声中の各時刻におけるピッチを検出するピッチ抽出技術などが必要である。これらの技術には様々な優れた方式が開発されているが、人間の発声は非常に多様で不規則であることから、100%の精度で音声韻律パターンを抽出することは不可能である。このため、ユーザが、GUI装置などを用いて、音声韻律パターンの抽出誤りを修正する必要がある。この作業は、音声に関する専門的な知識を必要とし、かつ、手間と時間がかかる。 Specifically, in order to extract speech prosodic patterns from human speech, phoneme labeling technology that detects the start and end points of each phoneme in human speech, and the pitch at each time during human speech are detected. A pitch extraction technique is required. Various excellent methods have been developed for these techniques. However, since human utterances are very diverse and irregular, it is impossible to extract speech prosodic patterns with 100% accuracy. For this reason, the user needs to correct the extraction error of the speech prosodic pattern using a GUI device or the like. This work requires specialized knowledge about audio, and is time consuming and time consuming.
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、人間の発声から抽出された音声韻律パターンの抽出誤りを、人間の発声が有する自然性・表現力を損なうことなく、しかも、手間と時間をかけずに修正することにより、修正韻律パターンを生成することが可能な韻律生成装置、韻律生成方法、および、韻律生成プログラムを提供することにある。 The present invention has been made in view of the above-mentioned problems, and its purpose is to extract a speech prosody pattern extracted from a human utterance without impairing the naturalness and expressiveness of the human utterance. In addition, it is an object of the present invention to provide a prosody generation device, a prosody generation method, and a prosody generation program capable of generating a modified prosody pattern by correcting without taking time and effort.
上記目的を達成するために本発明における韻律生成装置は、任意のテキストが入力されるテキスト入力部と、前記テキストを言語解析することにより、前記テキストの読みを示す表音文字列データを生成する言語処理部と、前記表音文字列データ、および、韻律生成規則に基づいて、前記テキストの韻律を示す規則韻律パターンを生成する規則韻律生成部と、前記テキストを読み上げた人間の音声を音声データに変換する音声入力部と、前記音声データから前記人間の音声の韻律を示す音声韻律パターンを抽出する音声韻律抽出部と、前記音声韻律抽出部が前記音声データから前記音声韻律パターンを抽出する際における、当該抽出の信頼度を取得し、前記音声韻律パターンのうち前記信頼度が閾値以上のパターンを前記音声韻律抽出部による抽出の信頼性が高いパターンと判定し、前記音声韻律パターンのうち前記信頼度が閾値未満のパターンを前記音声韻律抽出部による抽出の信頼性が低いパターンと判定する信頼度判定部と、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が低いパターンの代わりに、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターン、および、前記規則韻律パターンに基づいて修正韻律パターンを生成する修正韻律生成部とを備えたことを特徴とする。なお、前記規則韻律パターン、前記音声韻律パターン、および、前記修正韻律パターンは、例えば、声の高さの変化パターンを表すピッチパターンである。 In order to achieve the above object, the prosody generation device according to the present invention generates a phonetic character string data indicating a reading of the text by performing a text analysis on the text input unit to which an arbitrary text is input and the text. Based on a language processing unit, the phonetic character string data, and a prosody generation rule, a regular prosody generation unit that generates a regular prosody pattern indicating the prosody of the text, and voice data of human speech read out from the text A speech input unit for converting to speech, a speech prosody extraction unit for extracting a speech prosody pattern indicating the prosody of the human speech from the speech data, and a speech prosody extraction unit for extracting the speech prosody pattern from the speech data In the speech prosody pattern, the speech prosody extraction unit extracts a pattern having the reliability greater than or equal to a threshold value. A reliability determination unit that determines a pattern with high extraction reliability and determines a pattern with a reliability less than a threshold among the speech prosodic patterns as a pattern with low extraction reliability by the speech prosody extraction unit; Based on the regular prosodic pattern and the regular prosody pattern of the speech prosody pattern, which are highly reliable in extraction by the speech prosody extractor, instead of the pattern of the prosody pattern which is not reliable by the speech prosody extractor. A modified prosody generation unit for generating a modified prosody pattern is provided. The regular prosodic pattern, the speech prosodic pattern, and the modified prosodic pattern are, for example, pitch patterns representing a voice pitch change pattern.
本発明の韻律生成装置によれば、修正韻律生成部により生成された修正韻律パターンは、音声韻律抽出部による抽出の信頼性が低いパターンの代わりに、音声韻律抽出部による抽出の信頼性が高いパターン、および、規則韻律パターンに基づいて生成されたパターンである。すなわち、修正韻律生成部により生成された修正韻律パターンは、音声韻律抽出部による抽出の信頼性が低いパターンを用いることなく、音声韻律抽出部による抽出の信頼性が高いパターン、および、適切な規則韻律パターンに基づいて生成されたパターンである。これにより、人間の発声から抽出された音声韻律パターンの抽出誤りを、人間の発声が有する自然性・表現力を損なうことなく、しかも、手間と時間をかけずに修正することにより、修正韻律パターンを生成することが可能となる。 According to the prosody generation device of the present invention, the modified prosody pattern generated by the modified prosody generation unit has high extraction reliability by the speech prosody extraction unit instead of the pattern with low extraction reliability by the speech prosody extraction unit. It is a pattern generated based on a pattern and a regular prosodic pattern. That is, the modified prosody pattern generated by the modified prosody generation unit does not use a pattern with low extraction reliability by the speech prosody extraction unit, and a pattern with high extraction reliability by the speech prosody extraction unit and an appropriate rule. It is a pattern generated based on the prosodic pattern. This makes it possible to correct errors in the extraction of speech prosodic patterns extracted from human utterances without compromising the naturalness and expressiveness of human utterances and without taking time and effort. Can be generated.
上記本発明における韻律生成装置においては、前記修正韻律生成部は、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンに近似するように前記規則韻律パターンを変形し、変形した規則韻律パターンと、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンとを接続することにより、修正韻律パターンを生成する韻律補完部を含む態様とするのが好ましい。 In the prosody generation device according to the present invention, the modified prosody generation unit modifies the regular prosody pattern so as to approximate a pattern with high reliability of extraction by the speech prosody extraction unit of the speech prosody pattern, It is preferable to include a prosody complementing unit that generates a modified prosody pattern by connecting the regular prosody pattern and a pattern having high extraction reliability by the speech prosody extraction unit among the speech prosody patterns.
上記構成によれば、韻律補完部により生成された修正韻律パターンは、音声韻律抽出部による抽出の信頼性が高いパターンに近似するように適切な規則韻律パターンを変形し、変形した規則韻律パターンと、音声韻律抽出部による抽出の信頼性が高いパターンとを接続することにより生成されたパターンである。これにより、人間の発声から抽出された音声韻律パターンの抽出誤りを、人間の発声が有する自然性・表現力を損なうことなく、しかも、手間と時間をかけずに修正することにより、修正韻律パターンを生成することが可能となる。 According to the above configuration, the modified prosodic pattern generated by the prosody complementing unit is transformed into an appropriate regular prosody pattern so as to approximate a pattern with high reliability of extraction by the speech prosody extracting unit, A pattern generated by connecting a pattern with high extraction reliability by the speech prosody extraction unit. This makes it possible to correct errors in the extraction of speech prosodic patterns extracted from human utterances without compromising the naturalness and expressiveness of human utterances and without taking time and effort. Can be generated.
上記本発明における韻律生成装置においては、前記修正韻律生成部は、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンに近似するように前記規則韻律パターンを変形し、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンを用いることなく、変形した規則韻律パターンを用いることにより、修正韻律パターンを生成する韻律修正部を含む態様とするのが好ましい。 In the prosody generation device according to the present invention, the modified prosody generation unit modifies the regular prosody pattern so as to approximate a pattern with high reliability of extraction by the speech prosody extraction unit of the speech prosody pattern, It is preferable to include a prosody modification unit that generates a modified prosody pattern by using a modified regular prosody pattern without using a pattern with high extraction reliability by the speech prosody extraction unit among the speech prosody patterns. .
上記構成によれば、韻律修正部により生成された修正韻律パターンは、音声韻律抽出部による抽出の信頼性が高いパターンに近似するように適切な規則韻律パターンを変形し、音声韻律抽出部による抽出の信頼性が高いパターンを用いることなく、変形した規則韻律パターンを用いることにより生成されたパターンである。これにより、人間の発声から抽出された音声韻律パターンの抽出誤りを、人間の発声が有する自然性・表現力を損なうことなく、しかも、手間と時間をかけずに修正することにより、修正韻律パターンを生成することが可能となる。 According to the above configuration, the modified prosody pattern generated by the prosody modification unit is modified by an appropriate regular prosody pattern so as to approximate a pattern with high reliability of extraction by the speech prosody extraction unit, and extracted by the speech prosody extraction unit. This is a pattern generated by using a modified regular prosodic pattern without using a pattern with high reliability. This makes it possible to correct errors in the extraction of speech prosodic patterns extracted from human utterances without compromising the naturalness and expressiveness of human utterances and without taking time and effort. Can be generated.
上記目的を達成するために本発明における韻律編集システムは、上記韻律生成装置と、前記韻律生成装置により生成された表音文字列データおよび修正韻律パターンの少なくとも1つを編集させるGUI装置とを備えたことを特徴とする。 To achieve the above object, a prosody editing system according to the present invention includes the prosody generation device and a GUI device that edits at least one of the phonetic character string data and the modified prosody pattern generated by the prosody generation device. It is characterized by that.
本発明の韻律編集システムによれば、GUI装置は、韻律生成装置により生成された表音文字列データおよび修正韻律パターンの少なくとも1つを編集させるので、韻律生成装置により生成された表音文字列データおよび修正韻律パターンの少なくとも1つに対して、ユーザは、木目細かい調整を行うことが可能となる。 According to the prosody editing system of the present invention, the GUI device edits at least one of the phonetic character string data and the modified prosody pattern generated by the prosody generating device, so that the phonetic character string generated by the prosody generating device is edited. The user can make fine adjustments to at least one of the data and the modified prosodic pattern.
上記目的を達成するために本発明における音声合成システムは、上記韻律生成装置と、前記韻律生成装置により生成された修正韻律パターンに基づいて、合成音声を生成し出力する音声合成装置とを備えたことを特徴とする。 To achieve the above object, a speech synthesis system according to the present invention includes the prosody generation device and a speech synthesis device that generates and outputs synthesized speech based on the modified prosodic pattern generated by the prosody generation device. It is characterized by that.
本発明の音声合成システムによれば、音声合成装置は、韻律生成装置により生成された修正韻律パターンに基づいて合成音声を生成し出力するので、出力された合成音声は、人間の発声が有する自然性・表現力を備えた合成音声となる。 According to the speech synthesis system of the present invention, the speech synthesizer generates and outputs a synthesized speech based on the modified prosodic pattern generated by the prosody generation device. Therefore, the output synthesized speech is a natural speech possessed by a human utterance. Synthetic speech with sex and expressive power.
上記目的を達成するために本発明における音声合成システムは、上記韻律生成装置と、前記韻律生成装置により生成された表音文字列データおよび修正韻律パターンの少なくとも1つを編集させるGUI装置と、前記韻律生成装置により生成された修正韻律パターン、および、前記GUI装置により編集された修正韻律パターンの少なくとも1つに基づいて、合成音声を生成し出力する音声合成装置とを備えたことを特徴とする。 In order to achieve the above object, a speech synthesis system according to the present invention includes the prosody generation device, a GUI device that edits at least one of the phonetic character string data and the modified prosody pattern generated by the prosody generation device, And a speech synthesizer that generates and outputs synthesized speech based on at least one of the modified prosodic pattern generated by the prosody generating device and the modified prosodic pattern edited by the GUI device. .
本発明の音声合成システムによれば、音声合成装置は、韻律生成装置により生成された修正韻律パターンおよびGUI装置により編集された修正韻律パターンの少なくとも1つに基づいて合成音声を生成し出力するので、出力された合成音声は、人間の発声が有する自然性・表現力を備えた合成音声となる。 According to the speech synthesis system of the present invention, the speech synthesizer generates and outputs a synthesized speech based on at least one of the modified prosodic pattern generated by the prosody generating device and the modified prosodic pattern edited by the GUI device. The output synthesized speech is a synthesized speech having the naturalness and expressiveness that human speech has.
上記目的を達成するために本発明における韻律生成方法は、コンピュータが備えるテキスト入力部が、任意のテキストが入力されるテキスト入力工程と、前記コンピュータが備える言語処理部が、前記テキストを言語解析することにより、前記テキストの読みを示す表音文字列データを生成する言語処理工程と、前記コンピュータが備える規則韻律生成部が、前記表音文字列データ、および、統計的な韻律に関するデータに基づいて、前記テキストの韻律を示す規則韻律パターンを生成する規則韻律生成工程と、前記コンピュータが備える音声入力部が、前記テキストを読み上げた人間の音声を音声データに変換する音声入力工程と、前記コンピュータが備える音声韻律抽出部が、前記音声データから前記人間の音声の韻律を示す音声韻律パターンを抽出する音声韻律抽出工程と、前記コンピュータが備える信頼度判定部が、前記音声韻律抽出工程にて前記音声データから前記音声韻律パターンが抽出された際における、当該抽出の信頼度を取得し、前記音声韻律パターンのうち前記信頼度が閾値以上のパターンを前記音声韻律抽出工程による抽出の信頼性が高いパターンと判定し、前記音声韻律パターンのうち前記信頼度が閾値未満のパターンを前記音声韻律抽出工程による抽出の信頼性が低いパターンと判定する信頼度判定工程と、前記コンピュータが備える修正韻律生成部が、前記音声韻律パターンのうち前記音声韻律抽出工程による抽出の信頼性が低いパターンの代わりに、前記音声韻律パターンのうち前記音声韻律抽出工程による抽出の信頼性が高いパターン、および、前記規則韻律パターンに基づいて修正韻律パターンを生成する修正韻律生成工程とを含むことを特徴とする。 In order to achieve the above object, in the prosody generation method according to the present invention, a text input unit included in a computer performs a text input process in which an arbitrary text is input, and a language processing unit included in the computer performs language analysis on the text. Thus, a language processing step for generating phonetic character string data indicating the reading of the text, and a regular prosody generation unit provided in the computer are based on the phonetic character string data and statistical prosody data. A regular prosody generation step of generating a regular prosody pattern indicating the prosody of the text, a speech input unit included in the computer, a speech input step of converting a human speech read out from the text into speech data, and the computer A speech prosody extraction unit comprising a speech prosody parameter indicating the prosody of the human speech from the speech data; A speech prosody extraction step for extracting a speech pattern, and a reliability determination unit included in the computer obtains the reliability of the extraction when the speech prosody pattern is extracted from the speech data in the speech prosody extraction step And determining a pattern having a reliability greater than or equal to a threshold value among the speech prosodic patterns as a pattern having a high extraction reliability by the speech prosody extraction step, and selecting a pattern having the reliability less than the threshold among the speech prosodic patterns A reliability determination step for determining a pattern with low extraction reliability by the phonetic prosody extraction step, and a pattern with low extraction reliability by the phonetic prosody extraction step among the phonetic prosody patterns by the modified prosody generation unit included in the computer Instead of the pattern of the phonetic prosody pattern that is highly reliable for extraction by the phonetic prosody extraction step, and Characterized in that it comprises a modified prosody generation step of generating a modified prosody pattern based on the serial rule prosody pattern.
上記目的を達成するために本発明における韻律生成プログラムは、任意のテキストが入力されるテキスト入力処理と、前記テキストを言語解析することにより、前記テキストの読みを示す表音文字列データを生成する言語処理と、前記表音文字列データ、および、統計的な韻律に関するデータに基づいて、前記テキストの韻律を示す規則韻律パターンを生成する規則韻律生成処理と、前記テキストを読み上げた人間の音声を音声データに変換する音声入力処理と、前記音声データから前記人間の音声の韻律を示す音声韻律パターンを抽出する音声韻律抽出処理と、前記音声韻律抽出処理にて前記音声データから前記音声韻律パターンが抽出された際における、当該抽出の信頼度を取得し、前記音声韻律パターンのうち前記信頼度が閾値以上のパターンを前記音声韻律抽出処理による抽出の信頼性が高いパターンと判定し、前記音声韻律パターンのうち前記信頼度が閾値未満のパターンを前記音声韻律抽出処理による抽出の信頼性が低いパターンと判定する信頼性判定処理と、前記音声韻律パターンのうち前記音声韻律抽出処理による抽出の信頼性が低いパターンの代わりに、前記音声韻律パターンのうち前記音声韻律抽出処理による抽出の信頼性が高いパターン、および、前記規則韻律パターンに基づいて修正韻律パターンを生成する修正韻律生成処理とをコンピュータに実行させることを特徴とする。 In order to achieve the above object, the prosody generation program according to the present invention generates a phonetic character string data indicating a reading of the text by performing a text input process in which an arbitrary text is input and language analysis of the text. Based on language processing, the phonetic character string data, and data on statistical prosody, regular prosody generation processing for generating a regular prosody pattern indicating the prosody of the text, and human speech read out from the text The speech prosody pattern is extracted from the speech data by speech input processing for converting to speech data, speech prosody extraction processing for extracting speech prosody patterns indicating the prosody of the human speech from the speech data, and speech prosody extraction processing. The reliability of the extraction at the time of extraction is acquired, and the reliability of the speech prosodic pattern is equal to or greater than a threshold value A turn is determined as a pattern with high extraction reliability by the speech prosody extraction process, and a pattern whose reliability is less than a threshold is determined as a pattern with low extraction reliability by the speech prosody extraction process. A pattern having a high reliability of extraction by the speech prosody extraction process among the speech prosodic patterns, instead of a pattern having a low reliability of the extraction by the speech prosody extraction process of the speech prosody pattern, and The computer is caused to execute a modified prosody generation process for generating a modified prosody pattern based on the regular prosody pattern.
なお、本発明における韻律生成方法および韻律生成プログラムは、上記の韻律生成装置と同様の効果を得る。 It should be noted that the prosody generation method and prosody generation program according to the present invention achieve the same effects as the above-mentioned prosody generation apparatus.
以上のように、本発明の韻律生成装置、韻律生成方法、および、韻律生成プログラムは、人間の発声から抽出された音声韻律パターンの抽出誤りを、人間の発声が有する自然性・表現力を損なうことなく、しかも、手間と時間をかけずに修正することにより、修正韻律パターンを生成することが可能であるという効果を奏する。 As described above, the prosody generation device, the prosody generation method, and the prosody generation program according to the present invention impair the naturalness and expressiveness of the human utterance due to the extraction error of the speech prosodic pattern extracted from the human utterance. In addition, there is an effect that it is possible to generate a modified prosodic pattern by correcting without taking time and effort.
以下、本発明のより具体的な実施形態について図面を参照しながら詳細に説明する。 Hereinafter, more specific embodiments of the present invention will be described in detail with reference to the drawings.
[実施の形態1]
図1は、本実施形態に係る音声合成システム1の概略構成を示すブロック図である。すなわち、本実施形態に係る音声合成システム1は、韻律生成装置2、および、音声合成装置3を備えている。韻律生成装置2と音声合成装置3とは有線または無線により互いに接続されている。韻律生成装置2は、任意のテキストと、このテキストを読み上げた人間の音声とを受け付け、受け付けた任意のテキストおよび人間の音声に基づいて、修正韻律パターンを生成する装置である。音声合成装置3は、韻律生成装置2により生成された修正韻律パターンを受け付け、受け付けた修正韻律パターンに基づいて、合成音声を生成し出力する装置である。韻律生成装置2および音声合成装置3は、例えば、パーソナルコンピュータ、サーバマシンなどの汎用コンピュータによって構成される。なお、韻律生成装置2および音声合成装置3は、例えば、車載情報端末、携帯電話、家電製品などの電子機器に組み込まれたコンピュータによって構成されていてもよい。また、韻律生成装置2および音声合成装置3は、同一のハードウェア内にそれぞれ存在していてもよいし、異なるハードウェア内にそれぞれ存在していてもよい。
[Embodiment 1]
FIG. 1 is a block diagram showing a schematic configuration of a
(韻律生成装置の構成)
韻律生成装置2は、テキスト入力部21、単語辞書22、言語処理部23、規則韻律生成部24、音声入力部25、音声韻律抽出部26、および、修正韻律生成部27を備えている。
(Configuration of prosody generation device)
The
テキスト入力部21は、任意のテキストが入力される。本実施形態においては、テキスト入力部21は、「音声ガイダンスに従ってプッシュボタンを押してください。」を表すテキストが入力されたものとする。テキスト入力部21は、例えば、キーボード、マウスなどの入力デバイスを介してユーザからテキストの入力を受け付けてもよいし、コンピュータが備えるメモリなどに記録されたデータを読み取ることによってテキストを受け付けてもよい。テキスト入力部21は、入力されたテキストを言語処理部23に出力する。
An arbitrary text is input to the
単語辞書22は、複数の単語の表記、読み、品詞、アクセント情報を格納する。アクセント情報は、例えば、アクセント型を示すデータである。例えば、韻律生成装置2が単語データを記録した記録媒体を読み取ることによって、単語辞書22には、上記の単語の表記、読み、品詞、アクセント情報が格納される。
The
言語処理部23は、単語辞書22を用いて、テキスト入力部21から出力されたテキストに対して形態素解析を行う。テキストは、言語処理部23において単語辞書22を用いて形態素解析を行うことにより、複数の単語に分割される。図2は、本実施形態に係る言語処理部23がテキストに対して形態素解析を行った結果を示す概念図である。図2に示すように、言語処理部23は、分割された各単語について、単語辞書22を用いることにより、品詞、および、読みを生成する。品詞は、普通名詞、動詞連用形、形容詞、形容動詞、格助詞、接続助詞などを含む。ここで、普通名詞、動詞連用形、形容詞、形容動詞などは、自立語に分類される。格助詞、接続助詞などは、付属語に分類される。読みは、単語の読みを示す。なお、読みは、アクセント核を含んでいる。ここで、アクセント核は、アクセントが「高」から「低」へ移行する位置である。本実施形態においては、アクセント核を「’」の記号で表し、例えば、「オ’ンセー」のように表記する。なお、形態素解析の方法として、例えば、ビタビ(Viterbi)アルゴリズムや最長一致法などが挙げられるが、本実施形態で用いられる形態素解析の方法は、特定のものに限定されない。
The
また、言語処理部23は、テキスト入力部21から出力されたテキストに対して行った形態素解析の結果に基づいて、複数の文節とその読みを生成する。図3は、本実施形態に係る言語処理部23により生成された複数の文節とその読みを示す概念図である。図3に示すように、言語処理部23は、「音声ガイダンスに」、「従って」、「プッシュボタンを」、「押してください。」の4つの文節を生成する。文節は、自立語の後に付属語が接続されたものである。例えば、「音声ガイダンスに」という文節は、普通名詞である「音声」および「ガイダンス」の複合名詞である「音声ガイダンス」が1個の自立語として扱われ、その後に、格助詞(付属語)である「に」が接続されている。また、言語処理部23は、任意のアクセント結合規則に従い、生成された文節に対して、適宜アクセント核を新たに設定することにより、読みを生成する。例えば、「音声」、「ガイダンス」、「に」のそれぞれの単語の読み「オ’ンセー」、「ガ’イダンス」、「ニ」がアクセント結合され、「オンセーガ’イダンスニ」という文節の読みが生成される。
Further, the
さらに、言語処理部23は、任意の規則に従って、生成された複数の文節間の係り受け(修飾)関係の解析を行う。本実施形態においては、言語処理部23は、「音声ガイダンスに→従って」、「従って→押してください。」、「プッシュボタンを→押してください。」という係り受け関係を特定する。
Furthermore, the
言語処理部23は、上記の形態素解析、係り受け解析などの言語解析の結果に基づいて、表音文字列データを生成する。表音文字列データは、テキストの読みを示すデータである。本実施形態においては、言語処理部23は、「オンセーガ’イダンスニ_シタガッテ,プッシュボ’タンオ_オシテクダサ’イ.」を示す表音文字列データを生成する。ここで、「_」は、アクセント句の境界を表す記号である。アクセント句は、アクセントを構成する単位であって、上記の文節に概ね対応する。「,」は、アクセント句の境界を表す記号であり、かつ、フレーズの境界を表す記号である。フレーズは、文あるいは節を統語論的に分析した際の単位であって、複数の単語からなる。すなわち、本実施形態においては、「オンセーガ’イダンスニ_シタガッテ」、「プッシュボ’タンオ_オシテクダサ’イ.」がそれぞれ1フレーズとなる。「’」は、アクセント核を表す記号である。なお、上記の表音文字列データのフォーマットは、単なる一例であり、表音文字列データの表し方は、これに限定されない。言語処理部23は、生成した表音文字列データを規則韻律生成部24および音声韻律抽出部26に出力する。
The
規則韻律生成部24は、言語処理部23から出力された表音文字列データを音素記号列に変換する。本実施形態においては、規則韻律生成部24は、表音文字列データ「オンセーガ’イダンスニ_シタガッテ,プッシュボ’タンオ_オシテクダサ’イ.」を、音素記号列「oNse−gaidaNsunishitagaqteQpuqshbotaNooshitekudasaiQ」に変換する。ここで、「Q」は、ポーズを表す記号である。「N」は、「ン」を表す記号であって、「ニ」を表す記号である「ni」と区別するために、大文字にて表記している。規則韻律生成部24は、変換した音素記号列に基づいて、規則韻律パターンを生成する。なお、規則韻律パターンは、音素時間長パターン、規則ピッチパターン、および、パワーパターンを含む。このため、規則韻律生成部24は、音素時間長生成部24a、ピッチパターン生成部24b、および、パワー生成部24cを有している。
The regular
音素時間長生成部24aは、人間の発声における統計的な音素時間長を示すデータを記録した音素時間長テーブルを有している。音素時間長生成部24aは、音素記号列の各音素に基づいて、音素時間長テーブルからデータを抽出し、抽出したデータを結合することにより、音素時間長パターンを生成する。なお、音素時間長テーブルには、例えば、音素「a」の音素時間長を示すデータ、音素「i」の音素時間長を示すデータ、音素「u」の音素時間長を示すデータ、・・・が順に記録されている。
The phoneme time
ピッチパターン生成部24bは、フレーズから生成されたフレーズ成分に、アクセント句から生成されたアクセント句成分を重畳することにより、規則ピッチパターンを生成する。図4は、フレーズ成分にアクセント句成分が重畳された状態を示す概念図である。図4に示すように、フレーズ成分F1には、アクセント句成分A1およびA2が重畳され、フレーズ成分F2には、アクセント句成分A3およびA4が重畳される。ここで、フレーズ成分F1およびF2は、右下がりの三角形のモデルとして表される。すなわち、一般に、人間の発声は、その出始めでは声は高いが、次第に声門下圧の低下などによって声の高さが低下する。つまり、フレーズ成分F1およびF2は、ピッチが時刻と共に低下する特性を表す声立て成分である。なお、右下がりの三角形のモデルが、統計的な規則ピッチパターンに関するデータであって、ピッチパターン生成部24bの図示しないメモリに予め記録されている。
The pitch
また、アクセント句成分A1〜A4は、台形のモデルとして表される。ここで、例えば、アクセント句成分A1の場合について考える。アクセント句成分A1に対応する音素記号列「oNse−gaidaNsuni」は、表音文字列データ「オンセーガ’イダンスニ」に対応する。すなわち、一般に、人間の発声は、アクセント核が位置する前の部分「オンセーガ」の声が高くなり、アクセント核が位置する後の部分「イダンスニ」の声が低くなる。つまり、アクセント句成分A1は、音素記号列「oNse−ga」が高い特性を表す成分である。これと同様に、アクセント句成分A2は、音素記号列「shitagaqte」が高い特性を表す成分である。アクセント句成分A3は、音素記号列「puqshbo」が高い特性を表す成分である。アクセント句成分A4は、音素記号列「oshitekudasa」が高い特性を表す成分である。なお、台形のモデルが、統計的な規則ピッチパターンに関するデータであって、ピッチパターン生成部24bの図示しないメモリに予め記録されている。
Accent phrase components A 1 to A 4 are represented as trapezoidal models. Here, for example, consider the case of the accent phrase component A 1 . The phoneme symbol string “oNse-gaidaNsuni” corresponding to the accent phrase component A 1 corresponds to the phonetic character string data “Onsega 'Idanni”. That is, in general, the voice of the part “Onsega” before the accent core is high and the voice of the part “Idannis” after the accent core is low in human speech. That is, the accent phrase component A 1 is a component that represents a high characteristic of the phoneme symbol string “oNse-ga”. Similarly, the accent phrase component A 2 is a component that represents a characteristic that the phoneme symbol string “shitagaqte” is high. The accent phrase component A 3 is a component that represents a high characteristic of the phoneme symbol string “puqshbo”. The accent phrase component A 4 is a component that represents a high characteristic of the phoneme symbol string “ositekudasa”. The trapezoidal model is data relating to a statistical regular pitch pattern, and is recorded in advance in a memory (not shown) of the pitch
ピッチパターン生成部24bは、フレーズ成分にアクセント句成分が重畳された場合における外形のパターンを規則ピッチパターンとする。図5は、本実施形態に係るピッチパターン生成部24bにより生成された規則ピッチパターンの一例を示す概念図である。図5に示すように、規則ピッチパターンは、フレーズ成分F1に、アクセント句成分A1およびA2が重畳され、かつ、フレーズ成分F2に、アクセント句成分A3およびA4が重畳された場合における外形のパターンである。
The pitch
パワー生成部24cは、各音素に固有のパワー値を記録したパワー値テーブルを有している。なお、パワー値は、統計的なパワーに関するデータであって、声の大きさを表す値である。パワー生成部24cは、音素記号列の各音素に基づいて、パワー値テーブルからパワー値を抽出する。ここで、一般に、同じ音素であっても、規則ピッチパターンが高いほどパワー値は大きく、規則ピッチパターンが低いほどパワー値は小さくなる。パワー生成部24cは、パワー値テーブルから抽出したパワー値を、規則ピッチパターンの高低に応じて補正することにより、パワーパターンを生成する。
The
すなわち、上記の方法によって生成された音素時間長パターン、規則ピッチパターン、および、パワーパターンを含む規則韻律パターンは、統計的には妥当な韻律パターンとなるが、平均的な韻律パターンであるため、表現力にやや乏しい韻律パターンとなる。韻律生成部24は、音素時間長パターン、規則ピッチパターン、および、パワーパターンを含む規則韻律パターンを修正韻律生成部27に出力する。なお、音素時間長パターン、規則ピッチパターン、および、パワーパターンの生成方法は、上記の方法に限定されない。また、上記では、音素時間長パターン、規則ピッチパターン、および、パワーパターンの生成に統計的なデータを使用する例を示したが、ヒューリスティックに生成された韻律生成規則に基づいて、音素時間長パターン、規則ピッチパターン、および、パワーパターンの生成を行うことも可能である。
That is, the regular prosodic pattern including the phoneme duration pattern, the regular pitch pattern, and the power pattern generated by the above method is a statistically valid prosodic pattern, but is an average prosodic pattern. The prosodic pattern is somewhat poor in expressiveness. The
音声入力部25は、テキスト入力部21が受け付けたテキストを読み上げた人間の音声を受け付ける機能を有している。このため、音声入力部25は、例えば、マイクロフォンから構成される。本実施形態においては、音声入力部25は、「音声ガイダンスに従ってプッシュボタンを押してください。」を読み上げた人間の音声を受け付ける。音声入力部25は、受け付けた人間の音声を計算機で処理可能なデジタルの音声データに変換する。音声入力部25は、変換した音声データを音声韻律抽出部26に出力する。なお、音声入力部25は、予め録音装置に録音された人間の発声を再生することによって得られるアナログ音声の他、CD(Compact Disc)あるいはMD(Mini Disc)などの記録媒体に記録されたデジタルの音声データや、有線あるいは無線の通信網で送信されるデジタルの音声データなどを直接受け付けてもよい。また、音声入力部25は、受け付けた音声データが圧縮されている場合、圧縮されている音声データを伸長する機能を有していてもよい。
The
音声韻律抽出部26は、規則韻律生成部24と同様、言語処理部23から出力された表音文字列データを音素記号列に変換する。本実施形態においては、音声韻律抽出部26は、表音文字列データ「オンセーガ’イダンスニ_シタガッテ,プッシュボ’タンオ_オシテクダサ’イ.」を、音素記号列「oNse−gaidaNsunishitagaqteQpuqshbotaNooshitekudasaiQ」に変換する。音声韻律抽出部26は、変換した音素記号列に基づいて、音声入力部25から出力された音声データから音声韻律パターンを抽出する。なお、音声韻律パターンは、音素時間長パターン、音声ピッチパターン、および、パワーパターンを含む。このため、音声韻律抽出部26は、音素時間長抽出部26a、ピッチパターン抽出部26b、信頼度判定部26c、および、パワー抽出部26dを有している。
Similar to the regular
音素時間長抽出部26aは、どの音素がどういう特徴量になりやすいかという情報を統計的にモデル化したデータを記録した音素モデルを有している。音素時間長抽出部26aは、音素記号列の各音素に基づいて、音素モデルからモデル化したデータを抽出する。音素時間長抽出部26aは、抽出したデータと音声データとを照合することにより、抽出したデータと最も類似する音声データの区間を特定する。音素時間長抽出部26aは、特定した区間に音素境界を設定することにより、音声データから音素時間長パターンを抽出する。このような抽出方法は、一般に、音素ラベリングと呼ばれている。なお、音素モデルは、例えば、MFCC(Mel Frequency Cepstral Coefficients)などのパラメータを用いて表される。また、音声入力部25から出力された音声データもMFCCなどのパラメータに変換した後に、HMM(Hidden Markov Model)、DP(Dynamic Programming)などの照合方法によって照合することが一般的である。
The phoneme time
ピッチパターン抽出部26bは、相関処理法を用いることにより、音声データから音声ピッチパターンを抽出する。ここで、相関処理法は、相関処理が波形の位相歪みに強いことを利用した方法である。本実施形態においては、相関処理法の一例として、自己相関関数(ACF:autocorrelation function)を用いた場合について説明するが、これに限定されない。例えば、自己相関関数に代えて、変形相関、SIFTアルゴリズム、平均振幅差関数(AMDF)などの他の相関処理法を用いてもよい。また、相関処理法に代えて、波形処理法、スペクトル処理法などの他の方法を用いてもよい。
The pitch
ここで、自己相関関数は、音声データ自体にどの程度の類似性があるのかを表す関数である。自己相関関数は、下記の(数1)にて定義される。なお、下記の(数1)において、φ(m)は相関値を表す。x(n)は音声データの時系列を表す。Nは切り出して分析に用いる音声データの標本数を表す。mは0、1、2、・・・、N−1である。 Here, the autocorrelation function is a function representing how much similarity the audio data itself has. The autocorrelation function is defined by the following (Equation 1). In the following (Equation 1), φ (m) represents a correlation value. x (n) represents a time series of audio data. N represents the number of samples of audio data that are cut out and used for analysis. m is 0, 1, 2,..., N−1.
つまり、ピッチパターン抽出部26bは、音声データの時系列x(n)を上記の(数1)に適用することにより、相関値φ(m)を算出する。ピッチパターン抽出部26bは、算出した相関値φ(m)から極大値(ピーク値)を抽出し、極大値の周期の逆数を算出することにより、音声データから音声ピッチパターンを抽出する。このとき、信頼度判定部26cは、ピッチパターン抽出部26bが音声データから音声ピッチパターンを抽出する際における、抽出の信頼度を取得する。本実施形態においては、信頼度判定部26cは、ピッチパターン抽出部26bが算出した相関値φ(m)をそのまま信頼度として利用する。また、信頼度判定部26cは、音声ピッチパターンのうち信頼度が閾値以上のパターンをピッチパターン抽出部26bによる抽出の信頼性が高いパターンと判定する。一方、信頼度判定部26cは、音声ピッチパターンのうち信頼度が閾値未満のパターンをピッチパターン抽出部26bによる抽出の信頼性が低いパターンと判定する。
That is, the pitch
以下では、ピッチパターン抽出部26bによる音声ピッチパターンの抽出処理、および、信頼度判定部26cによる信頼性の判定処理について、図6および図7を参照しながら具体的に説明する。図6は、任意の母音の音声データの時系列x(n)を示す概念図である。図6に示す音声データの時系列x(n)を上記の(数1)に適用すると、相関値φ(m)が求まる。図7は、図6に示す音声データの時系列x(n)を上記の(数1)に適用した場合における相関値φ(m)を示す概念図である。図7に示すように、相関値φ(m)は、A、B、Cの時点で極大値となるが、ピッチパターン抽出部26bは、最も値が大きいCの時点における極大値Mを選択する。ピッチパターン抽出部26bは、Cの時点における極大値Mの周期Tの逆数を算出することにより、音声データから音声ピッチパターンを抽出する。
Hereinafter, the voice pitch pattern extraction processing by the pitch
ここで、信頼度判定部26cは、Cの時点における極大値Mが閾値S以上であるか否かを判定する。つまり、信頼度判定部26cは、極大値Mが閾値S以上であれば、ピッチパターン抽出部26bによる抽出の信頼性は高いと判定する。一方、信頼度判定部26cは、極大値Mが閾値S未満であれば、ピッチパターン抽出部26bによる抽出の信頼性は低いと判定する。図6に示す例では、Cの時点における極大値Mは閾値S以上であるので、信頼度判定部26cは、ピッチパターン抽出部26bによる抽出の信頼性は高いと判定する。すなわち、一般に、母音a,i,u,e,o、撥音N、半母音y,w、鼻音n,mなどの音声データの時系列は、はっきりとした周期性を有するので(例えば、図6参照)、相関値φ(m)の極大値が閾値S以上となり易く、ピッチパターン抽出部26cによる抽出の信頼性は高くなる。一方、有声破裂音/摩擦音b,d,g,j,zなどの音声データの時系列は、あいまいな周期性を有するので、相関値φ(m)の極大値が閾値S未満となり易く、ピッチパターン抽出部26cによる抽出の信頼性は低くなる。なお、無声破裂音/摩擦音p,t,k,s,sh,h、促音q、ポーズQなどの音声データの時系列は、周期性がないため極大値が観測されず、結果としてピッチは抽出されない。ここで、母音、撥音、半母音、鼻音などであっても、直前あるいは直後に有声破裂音/摩擦音、ポーズQなどがあれば、相関値φ(m)である極大値が閾値S未満となり易く、ピッチパターン抽出部26cによる抽出の信頼性は低くなる。なお、閾値Sは、信頼度判定部26cの図示しないメモリに予め記録されている。
Here, the
図8は、本実施形態に係るピッチパターン抽出部26bにより抽出された音声ピッチパターンの一例を示す概念図である。図8に示すように、音声ピッチパターンは、信頼度判定部26cにより抽出の信頼性が高いと判定されたピッチについては実線のパターンにて表し、信頼度判定部26cにより抽出の信頼性が低いと判定されたピッチについては点線のパターンにて表している。すなわち、図8における点線のパターンは、信頼度判定部26cにより抽出の信頼性が低いと判定されたパターンであるので、ピッチパターン抽出部26bによる音声ピッチパターンの抽出誤りが生じているパターンである可能性が高い。つまり、図8に示す音声ピッチパターンをそのまま用いて合成音声を生成すると、点線のパターンに対応する音素の部分で韻律が不自然な合成音声となる可能性が高い。
FIG. 8 is a conceptual diagram showing an example of a voice pitch pattern extracted by the pitch
パワー抽出部26dは、音声入力部25から出力された音声データからパワーパターンを抽出する。パワーパターンは、音声データに例えば20msec程度の一定の窓長を設定し、この窓内の音声データの自乗和をとることにより算出される。
The
音声韻律抽出部26は、上記の方法によって抽出された音素時間長パターン、音声ピッチパターン、および、パワーパターンを含む音声韻律パターンを修正韻律生成部27に出力する。なお、音素時間長パターン、音声ピッチパターン、および、パワーパターンの抽出方法は、上記の方法に限定されない。
The speech
修正韻律生成部27は、音声ピッチパターンのうちピッチパターン抽出部26bによる抽出の信頼性が低いパターンの代わりに、音声ピッチパターンのうちピッチパターン抽出部26bによる抽出の信頼性が高いパターン、および、規則ピッチパターンに基づいて修正ピッチパターンを生成する。このため、修正韻律生成部27は、韻律補完部27aを有している。
The modified
韻律補完部27aは、音声韻律抽出部26から出力された音声ピッチパターンのうち、ピッチパターン抽出部26bによる抽出の信頼性が高いパターンを抽出する。図9は、図8に示す音声ピッチパターンのうち、ピッチパターン抽出部26bによる抽出の信頼性が高いパターンの一例を示す概念図である。すなわち、図9に示すパターンは、図8に示す音声ピッチパターンのうち、実線のパターンのみを抽出したパターンである。
The
また、韻律補完部27aは、音声ピッチパターンのうちピッチパターン抽出部26bによる抽出の信頼性が高いパターン(図9参照)に近似するように、規則韻律生成部24から出力された規則ピッチパターンを変形する。ここで、図9に示すパターンのアクセント句における時系列をP(n)、図5に示す規則ピッチパターンのアクセント句における時系列をQ(n)、変形後の規則ピッチパターンのアクセント句における時系列をQ´(n)とする。本実施形態においては、韻律補完部27aは、下記の(数2)および(数3)を用いることにより、時系列Q(n)を時系列Q´(n)に変形する。なお、(数2)において、Pdは、Q(n)の傾斜変更量を表す。Tsは、Q(n)の時間伸縮率を表す。Tmは、Q(n)の時間移動幅を表す。Fsは、Q(n)のピッチ伸縮率を表す。Fmは、Q(n)のピッチ移動幅を表す。また、(数3)において、Dは、P(n)とQ´(n)との誤差を表す。つまり、本実施形態に係る韻律補完部27aは、(数3)における誤差Dが最小となるように、(数2)のPd、Ts、Tm、Fs、Fmを算出し、算出したPd、Ts、Tm、Fs、Fmに基づいて、時系列Q(n)を時系列Q´(n)に変形する。韻律補完部27aは、これをアクセント句毎に行う。なお、時系列Q(n)を時系列Q´(n)に変形する方法はこれに限定されない。例えば、韻律補完部27aは、フレーズ毎に処理を行ってもよいし、下記の(数2)および(数3)に代えて、任意の公知の数式を用いてもよい。
Further, the
図10は、音声ピッチパターンのうちピッチパターン抽出部26bによる抽出の信頼性が高いと判定されたパターン(図9参照)に近似するように変形された規則ピッチパターンの一例を示す概念図である。図10に示すように、変形された規則ピッチパターンは、点線のパターンにて表している。なお、図10に示す実線のパターンは、図9に示すパターンである。
FIG. 10 is a conceptual diagram illustrating an example of a regular pitch pattern modified to approximate a pattern (see FIG. 9) determined to have high extraction reliability by the pitch
韻律補完部27aは、上記にて変形された規則ピッチパターンと、音声ピッチパターンのうちピッチパターン抽出部26cによる抽出の信頼性が高いパターンとを接続することにより、修正ピッチパターンを生成する。すなわち、韻律補完部27aは、図10に示す実線のパターンをそのまま用い、この実線のパターンと点線のパターンとを接続する。さらに、韻律補完部27aは、実線のパターンと点線のパターンとの接続部分を滑らかにするために、任意の公知の手法に従ってスムージングを行う。図11は、韻律補完部27aによりスムージングされたピッチパターンの一例を示す概念図である。図11に示す○印は、実線のパターンと点線のパターンとの接続部分であって、スムージングされた箇所を示す。このような処理を行うことにより、修正ピッチパターンが生成される。図12は、韻律補完部27aにより生成された修正ピッチパターンの一例を示す概念図である。
The
なお、韻律補完部27aは、音声韻律抽出部26から出力された音素時間長パターン、および、パワーパターンについてもそれぞれ抽出誤りを修正する。例えば、音素時間長パターンの場合、まず、信頼度判定部26cは、音素時間長抽出部26aが音声データから音素時間長パターンを抽出する際におけるこの抽出の信頼度を算出する。例えば、信頼度判定部26cは、音素モデルから抽出したモデル化したデータと、音声データの各区間とを照合することにより算出された類似度を信頼度として利用する。また、信頼度判定部26cは、音素時間長パターンのうち信頼度が閾値以上のパターンを音素時間長抽出部26aによる抽出の信頼性が高いパターンと判定する。一方、信頼度判定部26cは、音素時間長パターンのうち信頼度が閾値未満のパターンを音素時間長抽出部26aによる抽出の信頼性が低いパターンと判定する。これにより、韻律補完部27aは、音素時間長パターンのうち音素時間長抽出部26aによる抽出の信頼性が低いパターンの代わりに、音素時間長パターンのうち音素時間長抽出部26aによる抽出の信頼性が高いパターン、および、音素時間長生成部24aにより生成された音素時間長パターンに基づいて修正音素時間長パターンを生成する。また、例えば、パワーパターンの場合、韻律補完部27aは、任意の公知の手法に従って抽出誤りを修正し、修正パワーパターンを生成する。
The
韻律補完部27aは、上記の方法によって生成された修正音素時間長パターン、修正ピッチパターン、および、修正パワーパターンを含む修正韻律パターンを音声合成装置3に出力する。
The
ところで、上記の韻律生成装置2は、パーソナルコンピュータなどの任意のコンピュータにプログラムをインストールすることによっても実現される。すなわち、上記のテキスト入力部21、言語処理部23、規則韻律生成部24、音声入力部25、音声韻律抽出部26、および、修正韻律生成部27は、コンピュータのCPUがこれらの機能を実現するプログラムに従って動作することによって具現化される。したがって、テキスト入力部21、言語処理部23、規則韻律生成部24、音声入力部25、音声韻律抽出部26、および、修正韻律生成部27の機能を実現するためのプログラムまたはそれを記録した記録媒体も、本発明の一実施形態である。また、単語辞書22は、コンピュータの内蔵記憶装置またはこのコンピュータからアクセス可能な記憶装置によって具現化される。
By the way, the above-mentioned
(音声合成装置の構成)
音声合成装置3は、波形辞書31、波形生成部32、および、合成音声出力部33を備えている。
(Configuration of speech synthesizer)
The
波形辞書31は、複数の波形データを格納する。例えば、音声合成装置3が波形データを記録した記録媒体を読み取ることによって、波形辞書31には、上記の波形データが格納される。
The
波形生成部32は、韻律生成装置2から出力された修正韻律パターンに基づいて、波形辞書31を用いて合成音声の波形を生成する。波形生成部32は、生成した合成音声の波形を合成音声出力部33に出力する。
The
合成音声出力部33は、波形生成部32から出力された合成音声の波形に基づいて、合成音声を生成する。合成音声出力部33は、生成した合成音声を音声合成装置3の外部に出力する。すなわち、合成音声出力部33により出力された合成音声は、韻律生成装置2により生成された修正韻律パターンを用いているので、人間の発声が有する自然性・表現力を備えた合成音声となる。
The synthesized
ところで、上記の音声合成装置3は、パーソナルコンピュータなどの任意のコンピュータにプログラムをインストールすることによっても実現される。すなわち、上記の波形生成部32および合成音声出力部33は、コンピュータのCPUがこれらの機能を実現するプログラムに従って動作することによって具現化される。したがって、波形生成部32および合成音声出力部33の機能を実現するためのプログラムまたはそれを記録した記録媒体も、本発明の一実施形態である。また、波形辞書31は、コンピュータの内蔵記憶装置またはこのコンピュータからアクセス可能な記憶装置によって具現化される。
By the way, the
以上、音声合成システム1の構成について説明したが、音声合成システム1の構成は、図1に示す構成に限定されない。例えば、韻律生成装置2におけるテキスト入力部21の代わりに、音声認識部を備えるようにしてもよい。
The configuration of the
図13は、本実施形態の変形例に係る音声合成システム1aの概略構成を示すブロック図である。図13において、図1と同様の機能を有する構成については、同じ参照符号を付記している。韻律生成装置2は、図1に示すテキスト入力部21の代わりに、音声認識部28を備えている。音声認識部28は、人間の音声を認識する機能を有している。このため、音声認識部28は、音声入力部25から出力された音声データを特徴量に変換する。音声認識部28は、変換した特徴量を用いて、音響モデルおよび言語モデル(共に図示せず)を参照しながら、人間の音声を表すのに最も確率的に高い語彙や文字並びを認識結果として出力する。つまり、音声認識部28は、認識結果を言語処理部23に出力する。これにより、ユーザが、韻律生成装置2にテキストを入力する必要がないので、ユーザによる手間を削減することが可能となる。
FIG. 13 is a block diagram illustrating a schematic configuration of a speech synthesis system 1a according to a modification of the present embodiment. 13, components having the same functions as those in FIG. 1 are denoted by the same reference numerals. The
(音声合成システムの動作)
次に、上記の構成に係る音声合成システム1の動作について、図14を参照しながら説明する。
(Operation of speech synthesis system)
Next, the operation of the
図14は、音声合成システム1の動作の一例を示すフローチャートである。すなわち、図14に示すように、テキスト入力部21は、任意のテキストが入力される(工程Op1)。言語処理部23は、単語辞書22を用いて、工程Op1にて入力されたテキストに対して言語解析を行う(工程Op2)。なお、言語解析は、上記の形態素解析、係り受け解析などである。言語処理部23は、工程Op2の言語解析の結果に基づいて、テキストの読みを示す表音文字列データを生成する(工程Op3)。規則韻律生成部24は、工程Op3にて生成された表音文字列データを音素記号列に変換し、変換した音素記号列に基づいて、規則韻律パターンを生成する(工程Op4)。なお、規則韻律パターンは、音素時間長パターン、規則ピッチパターン、および、パワーパターンを含む。
FIG. 14 is a flowchart showing an example of the operation of the
音声入力部25は、工程Op1にて入力されたテキストを読み上げた人間の音声を受け付け、受け付けた人間の音声を音声データに変換する(工程Op5)。音声韻律抽出部26は、工程Op3にて生成された表音文字列データを音素記号列に変換し、変換した音素記号列に基づいて、工程Op5にて変換された音声データから音声韻律パターンを抽出する(工程Op6)。なお、音声韻律パターンは、音素時間長パターン、音声ピッチパターン、および、パワーパターンを含む。ここで、例えば、音声韻律抽出部26のピッチパターン抽出部26bは、上記の(数1)にて定義される自己相関関数を用いることにより、工程Op5にて変換された音声データから音声ピッチパターンを抽出する。
The
信頼度判定部26cは、ピッチパターン抽出部26bが音声データから音声ピッチパターンを抽出する際におけるこの抽出の信頼度を算出する(工程Op7)。本実施形態においては、信頼度判定部26cは、ピッチパターン抽出部26bが算出した相関値φ(m)をそのまま信頼度として利用する。また、信頼度判定部26cは、音声ピッチパターンのうち信頼度が閾値以上のパターンをピッチパターン抽出部26bによる抽出の信頼性が高いパターンと判定し、音声ピッチパターンのうち信頼度が閾値未満のパターンをピッチパターン抽出部26bによる抽出の信頼性が低いパターンと判定する(工程Op8)。
The
韻律補完部27aは、工程Op8にて信頼性が高いと判定されたパターン(図9参照)に近似するように、工程Op4にて生成された規則ピッチパターンを変形する(工程Op9)。例えば、韻律補完部27aは、上記の(数2)および(数3)を用いることにより、規則ピッチパターンを変形する。そして、韻律補完部27aは、工程Op8にて信頼性が高いと判定されたパターンをそのまま用い、工程Op8にて信頼性が高いと判定されたパターンと、工程Op9にて変形された規則ピッチパターンとを接続する(工程Op10)。韻律補完部27aは、工程Op10にて接続された接続部分を滑らかにするために、任意の公知の手法に従ってスムージングを行い、修正ピッチパターンを生成する(工程Op11)。そして、韻律補完部27aは、工程Op11にて生成された修正ピッチパターンを含む修正韻律パターンを音声合成装置3に出力する(工程Op12)。
The
次に、音声合成装置3の波形生成部32は、工程Op12にて出力された修正韻律パターンに基づいて、波形辞書31を用いて合成音声の波形を生成する(工程Op13)。合成音声出力部33は、工程Op13にて生成された合成音声の波形に基づいて、合成音声を生成する(工程Op14)。合成音声出力部33は、工程Op14にて生成された合成音声を音声合成装置3の外部に出力する(工程Op15)。
Next, the
以上のように、本実施形態に係る韻律生成装置2によれば、韻律補完部27aにより生成された修正ピッチパターンは、ピッチパターン抽出部26bによる抽出の信頼性が高いパターンに近似するように適切な規則ピッチパターンを変形し、変形した規則ピッチパターンと、ピッチパターン抽出部26bによる抽出の信頼性が高いパターンとを接続することにより生成されたパターンである。これにより、人間の発声から抽出された音声ピッチパターンの抽出誤りを、人間の発声が有する自然性・表現力を損なうことなく、しかも、手間と時間をかけずに修正することにより、修正ピッチパターンを生成することが可能となる。
As described above, according to the
[実施の形態2]
図15は、本実施形態に係る音声合成システム10の概略構成を示すブロック図である。すなわち、本実施形態に係る音声合成システム10は、図1に示す韻律生成装置2の代わりに、韻律生成装置4を備えている。なお、図15において、図1と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。
[Embodiment 2]
FIG. 15 is a block diagram illustrating a schematic configuration of the
韻律生成装置4は、図1に示す修正韻律生成部27の代わりに、修正韻律生成部41を備えている。なお、上記の修正韻律生成部41は、コンピュータのCPUがこの機能を実現するプログラムに従って動作することによっても具現化される。
The prosody generation device 4 includes a modified
修正韻律生成部41は、音声ピッチパターンのうちピッチパターン抽出部26bによる抽出の信頼性が低いパターンの代わりに、音声ピッチパターンのうちピッチパターン抽出部26bによる抽出の信頼性が高いパターン、および、規則ピッチパターンに基づいて修正ピッチパターンを生成する。このため、修正韻律生成部41は、韻律修正部41aを有している。
The modified
韻律修正部41aは、音声韻律抽出部26から出力された音声ピッチパターンのうち、ピッチパターン抽出部26bによる抽出の信頼性が高いパターンを抽出する(図9参照)。また、韻律修正部41aは、音声韻律抽出部26から出力された音声ピッチパターンのうち、ピッチパターン抽出部26bによる抽出の信頼性が高いパターン(図9参照)に近似するように、規則韻律生成部24から出力された規則ピッチパターンを変形する(図10参照)。ここまでは図1に示す韻律補完部27aの処理と同様である。
The
図16は、図10に示す太線のパターンを除去し、変形された規則ピッチパターンのみを示した概念図である。韻律修正部41aは、変形された規則ピッチパターンにおけるアクセント句の境界部分を滑らかにするために、任意の公知の手法に従ってスムージングを行う。図17は、韻律修正部41aによりスムージングされたピッチパターンの一例を示す概念図である。図17に示す○印は、変形された規則ピッチパターンにおけるアクセント句の境界部分であって、スムージングされた箇所を示す。このような処理を行うことにより、修正ピッチパターンが生成される。図18は、韻律修正部41aにより生成された修正ピッチパターンの一例を示す概念図である。韻律修正部41aは、図18に示す修正ピッチパターンを音声合成装置3に出力する。
FIG. 16 is a conceptual diagram showing only a modified regular pitch pattern by removing the thick line pattern shown in FIG. The
以上のように、本実施形態に係る韻律生成装置4によれば、韻律修正部41aにより生成された修正ピッチパターンは、ピッチパターン抽出部26bによる抽出の信頼性が高いパターンに近似するように適切な規則ピッチパターンを変形し、ピッチパターン抽出部26bによる抽出の信頼性が高いパターンを用いることなく、変形した規則ピッチパターンを用いることにより生成されたパターンである。これにより、人間の発声から抽出された音声ピッチパターンの抽出誤りを、人間の発声が有する自然性・表現力を損なうことなく、しかも、手間と時間をかけずに修正することにより、修正ピッチパターンを生成することが可能となる。
As described above, according to the prosody generation device 4 according to the present embodiment, the corrected pitch pattern generated by the
[実施の形態3]
図19は、本実施形態に係る音声合成システム(韻律編集システム)11の概略構成を示すブロック図である。すなわち、本実施形態に係る音声合成システム11は、図1に示す音声合成システム1に加えて、GUI(Graphical User Interface)装置5を備えている。GUI装置5と韻律生成装置2とは有線または無線により互いに接続されている。また、GUI装置5と音声合成装置3とは有線または無線により互いに接続されている。なお、図19において、図1と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。また、図19において、韻律生成装置2の各構成部材21〜27、および、音声合成装置3の各構成部材31〜33の図示を省略している。さらに、上記のGUI装置5は、図13に示す音声合成システム1a、および、図15に示す音声合成システム10に備えられていてもよい。
[Embodiment 3]
FIG. 19 is a block diagram showing a schematic configuration of the speech synthesis system (prosody editing system) 11 according to the present embodiment. That is, the
GUI装置5は、韻律生成装置2により生成された表音文字列データおよび修正韻律パターンをユーザに編集させる装置である。このため、GUI装置5は、ユーザに対して表音文字列データおよび修正韻律パターンを提示し、入力デバイスを用いて提示された表音文字列データおよび修正韻律パターンを編集可能なユーザインターフェース機能を提供する。それゆえ、GUI装置5は、表示部51、および、編集部52を備えている。なお、上記の表示部51および編集部52は、コンピュータのCPUがこの機能を実現するプログラムに従って動作することによっても具現化される。
The
表示部51は、液晶ディスプレイ、有機ELディスプレイ、プラズマディスプレイ、CRTディスプレイなどの任意の表示デバイスから構成される。編集部52は、キーボード、マウス、テンキー、タッチパネルなどの任意の入力デバイスから構成される。
The
図20は、表示部51に表示される表示画面の一例を示す概念図である。図20に示すように、表示部51の表示画面は、テキスト編集部51a、言語処理ボタン51b、言語処理結果編集部51c、規則韻律生成ボタン51d、規則韻律パターン表示部51e、音声入力ボタン51f、音声韻律抽出ボタン51g、音声韻律パターン表示部51h、自動修正ボタン51i、修正韻律パターン表示部51j、および、波形生成ボタン51kを有している。
FIG. 20 is a conceptual diagram illustrating an example of a display screen displayed on the
テキスト編集部51aは、任意のテキストをユーザに入力させる。図20に示す例では、テキスト編集部51aには、「音声ガイダンスに従ってプッシュボタンを押してください。」を表すテキストがユーザにより入力されている。なお、GUI装置5に予め用意されているテキストファイルをユーザが指定し、指定したテキストファイルを開くことにより、テキスト編集部51aにテキストが入力されるようにしてもよい。
The
言語処理ボタン51bは、韻律生成装置2の言語処理部23に対して、テキスト編集部51aに入力されたテキストの言語解析を指示するためのボタンである。
The
言語処理結果編集部51cは、言語処理部23による言語解析の結果に基づいて生成された表音文字列データを表示する。図20に示す例では、言語処理結果編集部51cには、表音文字列データ「オンセーガ’イダンスニ_シタガッテ,プッシュボ’タンオ_オシテクダサ’イ.」が表示されている。また、言語処理結果編集部51cは、表示された表音文字列データをユーザに編集させる機能を有している。これにより、言語処理部23による言語解析が誤っている場合、すなわち、表示された表音文字列データが誤っている場合、例えば、ユーザは、アクセント核の位置を変更し、あるいは、アクセント句やフレーズの境界を変更することにより、正しい表音文字列データに変更することが可能となる。
The language processing
規則韻律生成ボタン51dは、韻律生成装置2の規則韻律生成部24に対して、言語処理結果編集部51cに表示された表音文字列データに基づいて規則韻律パターンを生成するように指示するボタンである。
The rule
規則韻律パターン表示部51eは、規則韻律生成部24により生成された規則韻律パターンを表示する。図20に示す例では、規則韻律パターン表示部51eには、規則韻律パターンのうち、規則ピッチパターンおよび音素時間長パターンが表示されている。なお、規則韻律パターン表示部51eには、パワーパターンが表示されていてもよい。
The regular prosody
音声入力ボタン51fは、テキスト編集部51aに入力されたテキストを読み上げた人間の音声をGUI装置5に入力させるためのボタンである。例えば、ユーザが、音声入力ボタン51fを指示し、テキストを読み上げると、テキストを読み上げた人間の音声がGUI装置5に録音される。このため、GUI装置5にはマイクロフォンが内蔵または接続されている。なお、ユーザが、音声入力ボタン51fを指示すると、音声データファイルが表示され、表示された音声データファイルを指示することにより、人間の音声をGUI装置5に入力させるようにしてもよい。
The
音声韻律抽出ボタン51gは、韻律生成装置2の音声韻律抽出部26に対して、音声入力ボタン51fにより入力された人間の音声から音声韻律パターンを抽出するように指示するボタンである。
The speech
音声韻律パターン表示部51hは、音声韻律抽出部26により抽出された音声韻律パターンを表示する。図20に示す例では、音声韻律パターン表示部51hには、音声韻律パターンのうち、音声ピッチパターンおよび音素時間長パターンが表示されている。音声ピッチパターンは、信頼度判定部26cにより抽出の信頼性が高いと判定されたピッチについては実線のパターンにて表し、信頼度判定部26cにより抽出の信頼性が低いと判定されたピッチについては点線のパターンにて表している。なお、音声韻律パターン表示部51hには、パワーパターンが表示されていてもよい。
The speech prosody
自動修正ボタン51iは、韻律生成装置2の韻律補完部27aに対して、音声韻律パターン表示部51hに表示された抽出の信頼性が高い音声ピッチパターン、および、規則韻律パターン表示部51eに表示された規則ピッチパターンに基づいて修正ピッチパターンを生成するように指示するボタンである。なお、自動修正ボタン51iは、修正ピッチパターンを生成することに加えて、修正音素時間長パターンの生成を指示するボタンでもある。
The
修正韻律パターン表示部51jは、韻律補完部27aにより生成された修正韻律パターンを表示する。図20に示す例では、修正韻律パターン表示部51jには、修正韻律パターンのうち、修正ピッチパターンおよび修正音素時間長パターンが表示されている。なお、修正韻律パターン表示部51eには、修正パワーパターンが表示されていてもよい。ここで、本実施形態においては、修正韻律パターン表示部51jは、表示された修正ピッチパターンを、ユーザが入力デバイスを用いて操作することにより移動させ、修正ピッチパターンを新たに再設定させることができる。一例として、ユーザは、マウスのポインタを移動させたい修正ピッチパターンに触れた状態でその触れた位置(指示位置)を上方向または下方向に移動(ドラッグ)させ、所望の位置でドロップすると、修正ピッチパターンは、移動された所望の位置に配置される。なお、修正韻律パターン表示部51jは、修正ピッチパターンを、スペクトログラムに重ねて表示することが好ましい。
The modified prosodic
波形生成ボタン51kは、音声合成装置3の波形生成部32に対して、修正韻律パターン表示部51eに表示された修正韻律パターンに基づいて合成音声の波形を生成するように指示するボタンである。これにより、音声合成装置3は、波形生成ボタン51kにより生成された合成音声の波形に基づいて、合成音声を出力することが可能となる。それゆえ、ユーザは、音声合成装置3から出力された合成音声に基づいて、修正韻律パターン表示部51jに表示された修正ピッチパターンを変更することが可能となる。
The
以上のように、本実施形態に係る音声合成システム11によれば、GUI装置5は、韻律生成装置2により生成された表音文字列データおよび修正韻律パターンの少なくとも1つを編集させるので、韻律生成装置2により生成された表音文字列データおよび修正韻律パターンの少なくとも1つに対して、ユーザは、木目細かい調整を行うことが可能となる。
As described above, according to the
なお、第1〜第3の実施形態において、韻律生成装置またはGUI装置から出力された修正韻律パターンを音声合成装置に出力し、音声合成装置が、修正韻律パターンに基づいて合成音声を生成し出力する例について説明したが、これに限定されない。例えば、韻律生成装置またはGUI装置から出力された修正韻律パターンを用いて、音声合成用の韻律辞書、音声合成用の波形辞書、音声認識用の音響モデルなどを生成するようにしてもよい。 In the first to third embodiments, the modified prosody pattern output from the prosody generation device or the GUI device is output to the speech synthesizer, and the speech synthesizer generates and outputs synthesized speech based on the modified prosodic pattern. Although the example to do was demonstrated, it is not limited to this. For example, a prosody dictionary for speech synthesis, a waveform dictionary for speech synthesis, an acoustic model for speech recognition, and the like may be generated using the modified prosody pattern output from the prosody generation device or the GUI device.
すなわち、本発明は上述した第1〜第3の実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。 That is, the present invention is not limited to the first to third embodiments described above, and various modifications can be made within the scope of the claims. That is, embodiments obtained by combining technical means appropriately changed within the scope of the claims are also included in the technical scope of the present invention.
以上の実施の形態に関し、更に以下の付記を開示する。 Regarding the above embodiment, the following additional notes are disclosed.
(付記1)
任意のテキストが入力されるテキスト入力部と、
前記テキストを言語解析することにより、前記テキストの読みを示す表音文字列データを生成する言語処理部と、
前記表音文字列データ、および、韻律生成規則に基づいて、前記テキストの韻律を示す規則韻律パターンを生成する規則韻律生成部と、
前記テキストを読み上げた人間の音声を音声データに変換する音声入力部と、
前記音声データから前記人間の音声の韻律を示す音声韻律パターンを抽出する音声韻律抽出部と、
前記音声韻律抽出部が前記音声データから前記音声韻律パターンを抽出する際における、当該抽出の信頼度を取得し、前記音声韻律パターンのうち前記信頼度が閾値以上のパターンを前記音声韻律抽出部による抽出の信頼性が高いパターンと判定し、前記音声韻律パターンのうち前記信頼度が閾値未満のパターンを前記音声韻律抽出部による抽出の信頼性が低いパターンと判定する信頼度判定部と、
前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が低いパターンの代わりに、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターン、および、前記規則韻律パターンに基づいて修正韻律パターンを生成する修正韻律生成部とを備えたことを特徴とする韻律生成装置。
(Appendix 1)
A text input part for inputting arbitrary text;
A language processing unit that generates phonetic character string data indicating the reading of the text by performing language analysis on the text;
A regular prosody generation unit that generates a regular prosody pattern indicating the prosody of the text based on the phonetic character string data and the prosody generation rules;
A voice input unit for converting the voice of a human who has read the text into voice data;
A speech prosody extraction unit that extracts a speech prosody pattern indicating the prosody of the human speech from the speech data;
When the speech prosody extraction unit extracts the speech prosody pattern from the speech data, the speech prosody extraction unit acquires the reliability of the extraction, and among the speech prosody patterns, the reliability of the speech prosody pattern is greater than or equal to a threshold by the speech prosody extraction unit A reliability determination unit that determines a pattern with high extraction reliability and determines a pattern having a reliability less than a threshold among the speech prosody patterns as a pattern with low extraction reliability by the speech prosody extraction unit;
Instead of a pattern with low extraction reliability by the speech prosody extraction unit in the speech prosody pattern, a pattern with high extraction reliability by the speech prosody extraction unit in the speech prosody pattern, and a regular prosody pattern A prosody generation device comprising: a modified prosody generation unit that generates a modified prosody pattern based on the prosody pattern.
(付記2)
前記修正韻律生成部は、
前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンに近似するように前記規則韻律パターンを変形し、変形した規則韻律パターンと、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンとを接続することにより、修正韻律パターンを生成する韻律補完部を含む、請求項1に記載の韻律生成装置。
(Appendix 2)
The modified prosody generation unit includes:
The regular prosody pattern is modified so as to approximate a pattern with high extraction reliability by the speech prosody extraction unit of the speech prosody pattern, and the speech prosody extraction unit of the speech prosody pattern is modified. The prosody generation device according to
(付記3)
前記修正韻律生成部は、
前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンに近似するように前記規則韻律パターンを変形し、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンを用いることなく、変形した規則韻律パターンを用いることにより、修正韻律パターンを生成する韻律修正部を含む、請求項1に記載の韻律生成装置。
(Appendix 3)
The modified prosody generation unit includes:
The regular prosody pattern is modified so as to approximate a pattern with high extraction reliability by the speech prosody extraction unit of the speech prosody pattern, and the extraction reliability by the speech prosody extraction unit of the speech prosody pattern is high The prosody generation device according to
(付記4)
前記規則韻律パターン、前記音声韻律パターン、および、前記修正韻律パターンは、声の高さの変化パターンを表すピッチパターンである、付記1〜3のいずれか一項に記載の韻律生成装置。
(Appendix 4)
The prosodic generation device according to any one of
(付記5)
付記1〜4のいずれか一項に記載の韻律生成装置と、
前記韻律生成装置により生成された表音文字列データおよび修正韻律パターンの少なくとも1つを編集させるGUI装置とを備えたことを特徴とする韻律編集システム。
(Appendix 5)
The prosody generation device according to any one of
A prosody editing system comprising: a GUI device that edits at least one of the phonetic character string data and the modified prosody pattern generated by the prosody generation device.
(付記6)
付記1〜4のいずれか一項に記載の韻律生成装置と、
前記韻律生成装置により生成された修正韻律パターンに基づいて、合成音声を生成し出力する音声合成装置とを備えたことを特徴とする音声合成システム。
(Appendix 6)
The prosody generation device according to any one of
A speech synthesis system comprising: a speech synthesizer that generates and outputs synthesized speech based on the modified prosodic pattern generated by the prosody generation device.
(付記7)
付記1〜4のいずれか一項に記載の韻律生成装置と、
前記韻律生成装置により生成された表音文字列データおよび修正韻律パターンの少なくとも1つを編集させるGUI装置と、
前記韻律生成装置により生成された修正韻律パターン、および、前記GUI装置により編集された修正韻律パターンの少なくとも1つに基づいて、合成音声を生成し出力する音声合成装置とを備えたことを特徴とする音声合成システム。
(Appendix 7)
The prosody generation device according to any one of
A GUI device for editing at least one of the phonetic character string data and the modified prosody pattern generated by the prosody generation device;
A speech synthesizer that generates and outputs synthesized speech based on at least one of the modified prosodic pattern generated by the prosody generating device and the modified prosodic pattern edited by the GUI device; A speech synthesis system.
(付記8)
コンピュータが備えるテキスト入力部が、任意のテキストが入力されるテキスト入力工程と、
前記コンピュータが備える言語処理部が、前記テキストを言語解析することにより、前記テキストの読みを示す表音文字列データを生成する言語処理工程と、
前記コンピュータが備える規則韻律生成部が、前記表音文字列データ、および、韻律生成規則に基づいて、前記テキストの韻律を示す規則韻律パターンを生成する規則韻律生成工程と、
前記コンピュータが備える音声入力部が、前記テキストを読み上げた人間の音声を音声データに変換する音声入力工程と、
前記コンピュータが備える音声韻律抽出部が、前記音声データから前記人間の音声の韻律を示す音声韻律パターンを抽出する音声韻律抽出工程と、
前記コンピュータが備える信頼度判定部が、前記音声韻律抽出工程にて前記音声データから前記音声韻律パターンが抽出された際における、当該抽出の信頼度を取得し、前記音声韻律パターンのうち前記信頼度が閾値以上のパターンを前記音声韻律抽出工程による抽出の信頼性が高いパターンと判定し、前記音声韻律パターンのうち前記信頼度が閾値未満のパターンを前記音声韻律抽出工程による抽出の信頼性が低いパターンと判定する信頼度判定工程と、
前記コンピュータが備える修正韻律生成部が、前記音声韻律パターンのうち前記音声韻律抽出工程による抽出の信頼性が低いパターンの代わりに、前記音声韻律パターンのうち前記音声韻律抽出工程による抽出の信頼性が高いパターン、および、前記規則韻律パターンに基づいて修正韻律パターンを生成する修正韻律生成工程とを含むことを特徴とする韻律生成方法。
(Appendix 8)
A text input unit provided in the computer, a text input process in which arbitrary text is input;
A language processing step of the computer includes a language processing step of generating phonetic character string data indicating reading of the text by analyzing the text.
A regular prosody generation step of generating a regular prosody pattern indicating a prosody of the text based on the phonetic character string data and the prosody generation rule,
A voice input step in which the voice input unit included in the computer converts human voice read out from the text into voice data;
A speech prosody extraction step in which the speech prosody extraction unit provided in the computer extracts a speech prosody pattern indicating the prosody of the human speech from the speech data;
A reliability determination unit included in the computer acquires the reliability of the extraction when the speech prosody pattern is extracted from the speech data in the speech prosody extraction step, and the reliability of the speech prosody pattern Is determined to be a pattern having a high extraction reliability by the speech prosody extraction step, and a pattern having a reliability less than the threshold among the speech prosody extraction steps has a low extraction reliability by the speech prosody extraction step A reliability determination step for determining a pattern;
The modified prosody generation unit included in the computer has an extraction reliability of the speech prosody pattern extracted from the speech prosody pattern by the speech prosody extraction step instead of a pattern having a low reliability of extraction by the speech prosody extraction step. A prosody generation method comprising: a high pattern; and a modified prosody generation step of generating a modified prosody pattern based on the regular prosody pattern.
(付記9)
任意のテキストが入力されるテキスト入力処理と、
前記テキストを言語解析することにより、前記テキストの読みを示す表音文字列データを生成する言語処理と、
前記表音文字列データ、および、韻律生成規則に基づいて、前記テキストの韻律を示す規則韻律パターンを生成する規則韻律生成処理と、
前記テキストを読み上げた人間の音声を音声データに変換する音声入力処理と、
前記音声データから前記人間の音声の韻律を示す音声韻律パターンを抽出する音声韻律抽出処理と、
前記音声韻律抽出処理にて前記音声データから前記音声韻律パターンが抽出された際における、当該抽出の信頼度を取得し、前記音声韻律パターンのうち前記信頼度が閾値以上のパターンを前記音声韻律抽出処理による抽出の信頼性が高いパターンと判定し、前記音声韻律パターンのうち前記信頼度が閾値未満のパターンを前記音声韻律抽出処理による抽出の信頼性が低いパターンと判定する信頼性判定処理と、
前記音声韻律パターンのうち前記音声韻律抽出処理による抽出の信頼性が低いパターンの代わりに、前記音声韻律パターンのうち前記音声韻律抽出処理による抽出の信頼性が高いパターン、および、前記規則韻律パターンに基づいて修正韻律パターンを生成する修正韻律生成処理とをコンピュータに実行させることを特徴とする韻律生成プログラム。
(Appendix 9)
Text input processing where arbitrary text is input,
Linguistic processing for generating phonetic character string data indicating the reading of the text by language analysis of the text;
A regular prosody generation process for generating a regular prosody pattern indicating the prosody of the text based on the phonetic character string data and the prosody generation rules;
A voice input process for converting a human voice read out from the text into voice data;
A speech prosody extraction process for extracting a speech prosody pattern indicating the prosody of the human speech from the speech data;
When the speech prosody pattern is extracted from the speech data in the speech prosody extraction process, the reliability of the extraction is obtained, and the speech prosody extraction is performed for a pattern having the reliability greater than or equal to a threshold among the speech prosody patterns. A reliability determination process for determining a pattern with high reliability of extraction by processing, and determining a pattern having the reliability less than a threshold among the speech prosodic patterns as a pattern with low extraction reliability by the speech prosody extraction process;
Instead of a pattern with low extraction reliability by the voice prosody extraction process in the phonetic prosody pattern, a pattern with high extraction reliability by the voice prosody extraction process and a regular prosody pattern in the voice prosody pattern A prosody generation program that causes a computer to execute a modified prosody generation process that generates a modified prosody pattern based on the computer program.
以上のように、本発明は、任意のテキストと、このテキストを読み上げた人間の音声とを受け付け、受け付けた任意のテキストおよび人間の音声に基づいて、韻律パターンを生成する韻律生成装置、韻律生成方法、または、韻律生成プログラムとして有用である。 As described above, the present invention accepts an arbitrary text and a human voice that is read out from the text, and generates a prosodic pattern based on the received arbitrary text and the human voice. It is useful as a method or prosody generation program.
1、1a、10、11 音声合成システム
2、4 韻律生成装置
3 音声合成装置
5 GUI装置
21 テキスト入力部
23 言語処理部
24 規則韻律生成部
24a 音素時間長生成部
24b ピッチパターン生成部
24c パワー生成部
25 音声入力部
26 音声韻律抽出部
26a 音素時間長抽出部
26b ピッチパターン抽出部
26c 信頼度判定部
26d パワー抽出部
27、41 修正韻律生成部
27a 韻律補完部
41a 韻律修正部
1, 1a, 10, 11
Claims (7)
前記テキストを言語解析することにより、前記テキストの読みを示す表音文字列データを生成する言語処理部と、
前記表音文字列データ、および、韻律生成規則に基づいて、前記テキストの韻律を示す規則韻律パターンを生成する規則韻律生成部と、
前記テキストを読み上げた人間の音声を音声データに変換する音声入力部と、
前記音声データから前記人間の音声の韻律を示す音声韻律パターンを抽出する音声韻律抽出部と、
前記音声韻律抽出部が前記音声データから前記音声韻律パターンを抽出する際における、当該抽出の信頼度を取得し、前記音声韻律パターンのうち前記信頼度が閾値以上のパターンを前記音声韻律抽出部による抽出の信頼性が高いパターンと判定し、前記音声韻律パターンのうち前記信頼度が閾値未満のパターンを前記音声韻律抽出部による抽出の信頼性が低いパターンと判定する信頼度判定部と、
前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が低いパターンの代わりに、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターン、および、前記規則韻律パターンに基づいて修正韻律パターンを生成する修正韻律生成部とを備えたことを特徴とする韻律生成装置。 A text input part for inputting arbitrary text;
A language processing unit that generates phonetic character string data indicating the reading of the text by performing language analysis on the text;
A regular prosody generation unit that generates a regular prosody pattern indicating the prosody of the text based on the phonetic character string data and the prosody generation rules;
A voice input unit for converting the voice of a human who has read the text into voice data;
A speech prosody extraction unit that extracts a speech prosody pattern indicating the prosody of the human speech from the speech data;
When the speech prosody extraction unit extracts the speech prosody pattern from the speech data, the speech prosody extraction unit acquires the reliability of the extraction, and among the speech prosody patterns, the reliability of the speech prosody pattern is greater than or equal to a threshold by the speech prosody extraction unit A reliability determination unit that determines a pattern with high extraction reliability and determines a pattern having a reliability less than a threshold among the speech prosody patterns as a pattern with low extraction reliability by the speech prosody extraction unit;
Instead of a pattern with low extraction reliability by the speech prosody extraction unit in the speech prosody pattern, a pattern with high extraction reliability by the speech prosody extraction unit in the speech prosody pattern, and a regular prosody pattern A prosody generation device comprising: a modified prosody generation unit that generates a modified prosody pattern based on the prosody pattern.
前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンに近似するように前記規則韻律パターンを変形し、変形した規則韻律パターンと、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンとを接続することにより、修正韻律パターンを生成する韻律補完部を含む、請求項1に記載の韻律生成装置。 The modified prosody generation unit includes:
The regular prosody pattern is modified so as to approximate a pattern with high extraction reliability by the speech prosody extraction unit of the speech prosody pattern, and the speech prosody extraction unit of the speech prosody pattern is modified. The prosody generation device according to claim 1, further comprising a prosody complementing unit that generates a modified prosody pattern by connecting a pattern having high extraction reliability.
前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンに近似するように前記規則韻律パターンを変形し、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンを用いることなく、変形した規則韻律パターンを用いることにより、修正韻律パターンを生成する韻律修正部を含む、請求項1に記載の韻律生成装置。 The modified prosody generation unit includes:
The regular prosody pattern is modified so as to approximate a pattern with high extraction reliability by the speech prosody extraction unit of the speech prosody pattern, and the extraction reliability by the speech prosody extraction unit of the speech prosody pattern is high The prosody generation device according to claim 1, further comprising a prosody modification unit that generates a modified prosody pattern by using a modified regular prosody pattern without using a pattern.
前記韻律生成装置により生成された表音文字列データおよび修正韻律パターンの少なくとも1つを編集させるGUI装置とを備えたことを特徴とする韻律編集システム。 The prosody generation device according to any one of claims 1 to 4,
A prosody editing system comprising: a GUI device that edits at least one of the phonetic character string data and the modified prosody pattern generated by the prosody generation device.
前記コンピュータが備える言語処理部が、前記テキストを言語解析することにより、前記テキストの読みを示す表音文字列データを生成する言語処理工程と、
前記コンピュータが備える規則韻律生成部が、前記表音文字列データ、および、韻律生成規則に基づいて、前記テキストの韻律を示す規則韻律パターンを生成する規則韻律生成工程と、
前記コンピュータが備える音声入力部が、前記テキストを読み上げた人間の音声を音声データに変換する音声入力工程と、
前記コンピュータが備える音声韻律抽出部が、前記音声データから前記人間の音声の韻律を示す音声韻律パターンを抽出する音声韻律抽出工程と、
前記コンピュータが備える信頼度判定部が、前記音声韻律抽出工程にて前記音声データから前記音声韻律パターンが抽出された際における、当該抽出の信頼度を取得し、前記音声韻律パターンのうち前記信頼度が閾値以上のパターンを前記音声韻律抽出工程による抽出の信頼性が高いパターンと判定し、前記音声韻律パターンのうち前記信頼度が閾値未満のパターンを前記音声韻律抽出工程による抽出の信頼性が低いパターンと判定する信頼度判定工程と、
前記コンピュータが備える修正韻律生成部が、前記音声韻律パターンのうち前記音声韻律抽出工程による抽出の信頼性が低いパターンの代わりに、前記音声韻律パターンのうち前記音声韻律抽出工程による抽出の信頼性が高いパターン、および、前記規則韻律パターンに基づいて修正韻律パターンを生成する修正韻律生成工程とを含むことを特徴とする韻律生成方法。 A text input unit provided in the computer, a text input process in which arbitrary text is input;
A language processing step of the computer includes a language processing step of generating phonetic character string data indicating reading of the text by analyzing the text.
A regular prosody generation step of generating a regular prosody pattern indicating a prosody of the text based on the phonetic character string data and the prosody generation rule,
A voice input step in which the voice input unit included in the computer converts human voice read out from the text into voice data;
A speech prosody extraction step in which the speech prosody extraction unit provided in the computer extracts a speech prosody pattern indicating the prosody of the human speech from the speech data;
A reliability determination unit included in the computer acquires the reliability of the extraction when the speech prosody pattern is extracted from the speech data in the speech prosody extraction step, and the reliability of the speech prosody pattern Is determined to be a pattern having a high extraction reliability by the speech prosody extraction step, and a pattern having a reliability less than the threshold among the speech prosody extraction steps has a low extraction reliability by the speech prosody extraction step A reliability determination step for determining a pattern;
The modified prosody generation unit included in the computer has an extraction reliability of the speech prosody pattern extracted from the speech prosody pattern by the speech prosody extraction step instead of a pattern having a low reliability of extraction by the speech prosody extraction step. A prosody generation method comprising: a high pattern; and a modified prosody generation step of generating a modified prosody pattern based on the regular prosody pattern.
前記テキストを言語解析することにより、前記テキストの読みを示す表音文字列データを生成する言語処理と、
前記表音文字列データ、および、韻律生成規則に基づいて、前記テキストの韻律を示す規則韻律パターンを生成する規則韻律生成処理と、
前記テキストを読み上げた人間の音声を音声データに変換する音声入力処理と、
前記音声データから前記人間の音声の韻律を示す音声韻律パターンを抽出する音声韻律抽出処理と、
前記音声韻律抽出処理にて前記音声データから前記音声韻律パターンが抽出された際における、当該抽出の信頼度を取得し、前記音声韻律パターンのうち前記信頼度が閾値以上のパターンを前記音声韻律抽出処理による抽出の信頼性が高いパターンと判定し、前記音声韻律パターンのうち前記信頼度が閾値未満のパターンを前記音声韻律抽出処理による抽出の信頼性が低いパターンと判定する信頼性判定処理と、
前記音声韻律パターンのうち前記音声韻律抽出処理による抽出の信頼性が低いパターンの代わりに、前記音声韻律パターンのうち前記音声韻律抽出処理による抽出の信頼性が高いパターン、および、前記規則韻律パターンに基づいて修正韻律パターンを生成する修正韻律生成処理とをコンピュータに実行させることを特徴とする韻律生成プログラム。 Text input processing where arbitrary text is input,
Linguistic processing for generating phonetic character string data indicating the reading of the text by language analysis of the text;
A regular prosody generation process for generating a regular prosody pattern indicating the prosody of the text based on the phonetic character string data and the prosody generation rules;
A voice input process for converting a human voice read out from the text into voice data;
A speech prosody extraction process for extracting a speech prosody pattern indicating the prosody of the human speech from the speech data;
When the speech prosody pattern is extracted from the speech data in the speech prosody extraction process, the reliability of the extraction is obtained, and the speech prosody extraction is performed for a pattern having the reliability greater than or equal to a threshold among the speech prosody patterns. A reliability determination process for determining a pattern with high reliability of extraction by processing, and determining a pattern having the reliability less than a threshold among the speech prosodic patterns as a pattern with low extraction reliability by the speech prosody extraction process;
Instead of a pattern with low extraction reliability by the voice prosody extraction process in the phonetic prosody pattern, a pattern with high extraction reliability by the voice prosody extraction process and a regular prosody pattern in the voice prosody pattern A prosody generation program that causes a computer to execute a modified prosody generation process that generates a modified prosody pattern based on the computer program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007135847A JP5029884B2 (en) | 2007-05-22 | 2007-05-22 | Prosody generation device, prosody generation method, and prosody generation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007135847A JP5029884B2 (en) | 2007-05-22 | 2007-05-22 | Prosody generation device, prosody generation method, and prosody generation program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008292587A true JP2008292587A (en) | 2008-12-04 |
JP5029884B2 JP5029884B2 (en) | 2012-09-19 |
Family
ID=40167393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007135847A Expired - Fee Related JP5029884B2 (en) | 2007-05-22 | 2007-05-22 | Prosody generation device, prosody generation method, and prosody generation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5029884B2 (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012194264A (en) * | 2011-03-15 | 2012-10-11 | Fujitsu Frontech Ltd | Automatic transaction device, voice reading-aloud method, and voice reading-aloud program |
WO2016043322A1 (en) * | 2014-09-19 | 2016-03-24 | 株式会社コティレドン・テクノロジー | Speech synthesis method, program, and device |
JP6004358B1 (en) * | 2015-11-25 | 2016-10-05 | 株式会社テクノスピーチ | Speech synthesis apparatus and speech synthesis method |
JP2018097115A (en) * | 2016-12-12 | 2018-06-21 | 日本電信電話株式会社 | Fundamental frequency model parameter estimation device, method, and program |
JP2020166298A (en) * | 2020-07-01 | 2020-10-08 | ヤマハ株式会社 | Voice synthesis method |
US11495206B2 (en) | 2017-11-29 | 2022-11-08 | Yamaha Corporation | Voice synthesis method, voice synthesis apparatus, and recording medium |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09292897A (en) * | 1996-04-26 | 1997-11-11 | Sanyo Electric Co Ltd | Voice synthesizing device |
JPH10153998A (en) * | 1996-09-24 | 1998-06-09 | Nippon Telegr & Teleph Corp <Ntt> | Auxiliary information utilizing type voice synthesizing method, recording medium recording procedure performing this method, and device performing this method |
JP2002258885A (en) * | 2001-02-27 | 2002-09-11 | Sharp Corp | Device for combining text voices, and program recording medium |
JP2006337476A (en) * | 2005-05-31 | 2006-12-14 | Canon Inc | Voice synthesis method and system |
-
2007
- 2007-05-22 JP JP2007135847A patent/JP5029884B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09292897A (en) * | 1996-04-26 | 1997-11-11 | Sanyo Electric Co Ltd | Voice synthesizing device |
JPH10153998A (en) * | 1996-09-24 | 1998-06-09 | Nippon Telegr & Teleph Corp <Ntt> | Auxiliary information utilizing type voice synthesizing method, recording medium recording procedure performing this method, and device performing this method |
JP2002258885A (en) * | 2001-02-27 | 2002-09-11 | Sharp Corp | Device for combining text voices, and program recording medium |
JP2006337476A (en) * | 2005-05-31 | 2006-12-14 | Canon Inc | Voice synthesis method and system |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012194264A (en) * | 2011-03-15 | 2012-10-11 | Fujitsu Frontech Ltd | Automatic transaction device, voice reading-aloud method, and voice reading-aloud program |
WO2016043322A1 (en) * | 2014-09-19 | 2016-03-24 | 株式会社コティレドン・テクノロジー | Speech synthesis method, program, and device |
JP6004358B1 (en) * | 2015-11-25 | 2016-10-05 | 株式会社テクノスピーチ | Speech synthesis apparatus and speech synthesis method |
JP2018097115A (en) * | 2016-12-12 | 2018-06-21 | 日本電信電話株式会社 | Fundamental frequency model parameter estimation device, method, and program |
US11495206B2 (en) | 2017-11-29 | 2022-11-08 | Yamaha Corporation | Voice synthesis method, voice synthesis apparatus, and recording medium |
JP2020166298A (en) * | 2020-07-01 | 2020-10-08 | ヤマハ株式会社 | Voice synthesis method |
JP7180642B2 (en) | 2020-07-01 | 2022-11-30 | ヤマハ株式会社 | Speech synthesis method, speech synthesis system and program |
Also Published As
Publication number | Publication date |
---|---|
JP5029884B2 (en) | 2012-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5119700B2 (en) | Prosody modification device, prosody modification method, and prosody modification program | |
US8219398B2 (en) | Computerized speech synthesizer for synthesizing speech from text | |
US6751592B1 (en) | Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically | |
JP4054507B2 (en) | Voice information processing method and apparatus, and storage medium | |
JP2005208652A (en) | Segmental tonal modeling for tonal language | |
US20100066742A1 (en) | Stylized prosody for speech synthesis-based applications | |
JP5029884B2 (en) | Prosody generation device, prosody generation method, and prosody generation program | |
JP6127422B2 (en) | Speech recognition apparatus and method, and semiconductor integrated circuit device | |
JP5398295B2 (en) | Audio processing apparatus, audio processing method, and audio processing program | |
JP2006227589A (en) | Device and method for speech synthesis | |
JP6013104B2 (en) | Speech synthesis method, apparatus, and program | |
JP5807921B2 (en) | Quantitative F0 pattern generation device and method, model learning device for F0 pattern generation, and computer program | |
O'Shaughnessy | Modern methods of speech synthesis | |
WO2007030233A2 (en) | Speech dialog method and device | |
KR20010018064A (en) | Apparatus and method for text-to-speech conversion using phonetic environment and intervening pause duration | |
JP2003186489A (en) | Voice information database generation system, device and method for sound-recorded document creation, device and method for sound recording management, and device and method for labeling | |
JP4841339B2 (en) | Prosody correction device, speech synthesis device, prosody correction method, speech synthesis method, prosody correction program, and speech synthesis program | |
WO2008056604A1 (en) | Sound collection system, sound collection method, and collection processing program | |
JP6436806B2 (en) | Speech synthesis data creation method and speech synthesis data creation device | |
JP5975033B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
JP2021148942A (en) | Voice quality conversion system and voice quality conversion method | |
JPH07140996A (en) | Speech rule synthesizer | |
JP6137708B2 (en) | Quantitative F0 pattern generation device, model learning device for F0 pattern generation, and computer program | |
JP2013195928A (en) | Synthesis unit segmentation device | |
JP6191094B2 (en) | Speech segment extractor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100204 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110707 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110719 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110915 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120531 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120613 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150706 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |