JP2007249022A - Speech synthesizer and speech synthesizing method - Google Patents
Speech synthesizer and speech synthesizing method Download PDFInfo
- Publication number
- JP2007249022A JP2007249022A JP2006075058A JP2006075058A JP2007249022A JP 2007249022 A JP2007249022 A JP 2007249022A JP 2006075058 A JP2006075058 A JP 2006075058A JP 2006075058 A JP2006075058 A JP 2006075058A JP 2007249022 A JP2007249022 A JP 2007249022A
- Authority
- JP
- Japan
- Prior art keywords
- rule
- accent
- text
- character string
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
Description
本発明は、制御ルールを含むテキストを処理する音声合成装置および音声合成方法に関する。 The present invention relates to a speech synthesizer and a speech synthesis method for processing text including control rules.
カーナビゲーションなどの機器では、ユーザに対する応答メッセージに音声合成を利用する。音声合成を用いて応答メッセージを生成する際、言語解析の誤りを避けるために、読みやアクセントなどの制御タグを含むテキストを用意することが一般的である。しかしながら、メッセージの一部分が可変である場合、可変部の読みやアクセントを事前に指定することは困難である。特許文献1には、システムがあらかじめ保持しているアクセントルールを可変部に適用し動的にアクセントを生成する技術が記載されている。
しかしながら、特許文献1では、テキストを記述するユーザが可変部に適用されるルールを指定することができないため、所望の合成音声を生成できない場合があるという問題点があった。
However, in
本発明は上記の課題に鑑みてなされたものであり、可変部に適用されるルールを記述したテキストを処理することが可能な音声合成装置を提供することを目的とする。 The present invention has been made in view of the above problems, and an object of the present invention is to provide a speech synthesizer capable of processing a text describing a rule applied to a variable part.
上記の目的を達成するための本発明による音声合成装置は、音声合成対象のテキストの可変部に代入する文字列を取得する取得手段と、前記テキストからルール識別子を抽出する抽出処理手段と、前記取得手段で取得した文字列からルールに関係する情報を取り出す取り出し手段と、前記ルール集合と前記ルール識別子から適用すべきルールを選択し、選択したルールに従って、ルールに関係する情報をもとに少なくとも可変部を処理する処理手段とを備えることを特徴とする。 To achieve the above object, a speech synthesizer according to the present invention includes an acquisition unit that acquires a character string to be substituted into a variable part of a text to be synthesized, an extraction processing unit that extracts a rule identifier from the text, Extraction means for extracting information related to the rule from the character string acquired by the acquisition means, a rule to be applied is selected from the rule set and the rule identifier, and at least based on the information related to the rule according to the selected rule And processing means for processing the variable part.
また、上記の目的を達成するための本発明による音声合成装置は、音声合成対象のテキストの可変部に代入される文字列を取得する取得手段と、前記テキストからルールを抽出する抽出処理手段と、前記取得手段で取得した文字列からルールに関係する情報を取り出す取り出し手段と、前記ルールに関係する情報とルールに従って少なくとも可変部を処理する処理手段とを備えることを特徴とする。 In addition, a speech synthesizer according to the present invention for achieving the above object includes an acquisition unit that acquires a character string to be substituted into a variable part of a text to be synthesized, and an extraction processing unit that extracts a rule from the text. The image processing apparatus includes: extraction means for extracting information related to the rule from the character string acquired by the acquisition means; and processing means for processing at least the variable part according to the information related to the rule and the rule.
本発明によれば、テキストを記述するユーザが可変部に適用されるルールを指定できるようになるため、ユーザの所望する合成音声を容易に生成することが可能となる。 According to the present invention, a user who describes a text can specify a rule to be applied to the variable part, and thus it is possible to easily generate a synthesized speech desired by the user.
以下、添付の図面を参照して本発明の好適な実施形態について詳細に説明する。 Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings.
(第1実施形態)
第1実施形態では、留守番電話の留守番メッセージを提供する音声合成装置を例にあげて説明する。本音声合成装置により、ユーザは所望の文字列(通常は自分の名前)を留守番メッセージに設定することができる。また、ここではユーザが入力する文字列データはアクセント記号付きの仮名レベルの読み記号列である。
(First embodiment)
In the first embodiment, a voice synthesizer that provides an answering machine message for an answering machine will be described as an example. With this speech synthesizer, the user can set a desired character string (usually his name) in an answering message. Here, the character string data input by the user is a kana level reading symbol string with an accent symbol.
留守番電話の開発者は、留守番メッセージのテンプレート(図6の(a)参照)を作成する。音声合成用記号で記述されたテンプレートは、固定部、可変部、およびルールの3つのパートの組み合わせで構成される。固定部は、留守番メッセージの固定メッセージ部分であり、可変部はユーザが入力する任意の文字列であり、ルールはその文字列に対して適用されるルールの識別番号である。 The developer of the answering machine creates an answering message template (see FIG. 6A). A template described by a speech synthesis symbol is composed of a combination of three parts: a fixed part, a variable part, and a rule. The fixed part is a fixed message part of the answering message, the variable part is an arbitrary character string input by the user, and the rule is an identification number of a rule applied to the character string.
本実施形態では、可変部の前後に挿入されるポーズ生成ルールを例に挙げて説明することにする。 In the present embodiment, a pose generation rule inserted before and after the variable part will be described as an example.
図4は、ポーズ生成ルールの例である。ルール1は聞き取りやすさを優先する場合に好適なルールである。ルール2は留守番メッセージの自然性を優先する場合に好適なルールでる。また、ルール3は、情報伝達を優先する場合に好適なルールである。図2のポーズルール集合201には、これら3種類のポーズ生成ルールが格納されており、音声合成装置はこれらのポーズ生成ルールを使い分けることが可能である。
FIG. 4 is an example of a pose generation rule.
よって、留守番電話開発者は、購買層ターゲットに応じて最適なポーズ生成ルールを選択(テンプレートに記述)することが可能である。例えば、高齢者向けの留守番電話を開発する場合はルール1を選択するのが良い。また、一般向け留守番電話にはルール2が適しているといえる。
Therefore, the answering machine developer can select (describe in the template) an optimal pose generation rule according to the purchase target. For example, when developing an answering machine for elderly people, it is preferable to select
図1は第1実施形態における音声合成装置のハードウエア構成を示すブロック図である。 FIG. 1 is a block diagram showing a hardware configuration of the speech synthesizer in the first embodiment.
図1において、101は制御メモリであり、本実施形態の音声合成処理の手順や必要な固定的データが格納される。102は中央処理装置であり、数値演算/制御等の処理を行う。103はメモリであり、一時的なデータが格納される。104は外部記憶装置であり、テキストやルールが格納されている。105は入力装置であり、ユーザが本装置に対してデータを入力したり、動作を指示したりするのに用いられる。106は出力装置であり、中央処理装置102の制御下でユーザに対して各種の情報を提示する。107は音声出力装置であり、音声合成された内容を出力する。108はバスであり、各装置間のデータのやり取りはこのバスを通じて行われる。
In FIG. 1,
図2は第1実施形態における音声合成装置のモジュール構成を示すブロック図である。 FIG. 2 is a block diagram showing a module configuration of the speech synthesizer in the first embodiment.
図2において、ポーズルール集合201は図4に示すようなポーズ生成ルールが格納されている。テキスト保持部202は、図6の(a)に示すような留守番メッセージのテンプレートが格納されている。このテンプレートに従って生成されたテキストが音声合成対象となる。入力処理部203は、ユーザが入力する所望の文字列を受理する。文字列保持部204は、ユーザが入力した文字列を保持する。抽出処理部205は、テキスト保持部202が保持するテンプレートからルールを識別する識別子であるルール番号を抽出する。ルール番号保持部206は、抽出されたルール番号を保持する。モーラ数解析部207は、文字列保持部204が保持する文字列のモーラ数をカウントする。モーラ数保持部208は、モーラ数解析部207が求めたモーラ数を保持する。ポーズ生成部209は、ポーズ生成ルールとルール番号から適用するルールを決定し、可変部前後のポーズをモーラ数に応じて生成する。韻律処理部210はポーズ生成の結果とテキストと文字列から韻律を生成する。波形生成部211は韻律情報をもとに合成音声を生成する。音声出力部212は、合成音声を出力する。
In FIG. 2, the pose rule set 201 stores pose generation rules as shown in FIG. The
図3は第1実施形態における音声合成装置の処理の流れを示すフローチャートである。該フローチャートを実行するための制御プログラムは、制御メモリ101、メモリ103、外部記憶装置104等に記憶されている。
FIG. 3 is a flowchart showing the flow of processing of the speech synthesizer in the first embodiment. A control program for executing the flowchart is stored in the
ステップS301では、入力処理部203がユーザの入力を検知する。ユーザが入力するまでステップS301に留まる。ユーザの入力を検知した場合は、ユーザの入力を取得して文字列保持部204に保持し、ステップS302に移る。なお、ユーザが入力した文字列は、テンプレートの可変部に利用される変数に相当するので、以下の説明では変数と呼ぶことにする。
In step S301, the
ステップS302では、抽出処理部205がテキスト保持部202に保持されているテンプレートからルール番号を抽出し、ルール番号保持部206に保持した後、ステップS303に移る。
In step S302, the
ステップS303では、モーラ数解析部207が変数のモーラ数を求め、モーラ数保持部208に保持してステップS304に移る。
In step S303, the mora
ステップS304では、ポーズ生成部209が、ポーズルール集合201とルール番号保持部206が保持するルール番号から、適用するポーズ生成ルールを選択する。さらに、モーラ数保持部208が保持するモーラ数をもとに、変数(すなわち可変部)の両側に挿入するポーズを生成した後、ステップS305に移る。
In step S304, the pose generation unit 209 selects a pose generation rule to be applied from the rule numbers held by the pose rule set 201 and the rule
ステップS305では、韻律生成部210が、文字列保持部204が保持する変数とテキスト保持部202が保持するテンプレートとポーズ生成部209が生成したポーズ情報から韻律情報を生成して、ステップS306に移る。
In step S305, the
ステップS306では、波形生成部211が韻律情報をもとに、文字列保持部204が保持する文字列をテンプレートの代入したテキストに対応する合成音声を生成して、ステップS307に移る。ステップS307では、音声出力部212が合成音声を出力して終了する。
In step S306, the
図5は、図4に示したポーズ生成ルールのルール1を適用した場合の、ポーズ生成結果を音声合成用記号で示した図である。図5(a)は、留守番メッセ−ジのテンプレートである。図5(b)は、変数(すなわち、ユーザが入力した文字列)が「タナカ」である場合のポーズ生成結果を示している。変数のモーラ数が4モーラ以下であるので、可変部の両端に100msのポーズが挿入される。図5(c)および(d)は、それぞれ変数が「タナカサ’トシ」「タナカカブシキガ’イシャ」である場合のポーズ生成結果を示している。変数のモーラ数がどちらも5以上であるので、可変部の前に200ms、後ろに300msのポーズが挿入される。
FIG. 5 is a diagram showing a pose generation result by using a speech synthesis symbol when
一方、図6は、図4に示したポーズ生成ルールのルール2を適用した場合の、ポーズ生成結果を音声合成用記号で示した図である。図6(a)は、留守番メッセ−ジのテンプレートである。図6(b)は、変数が「タナカ」である場合のポーズ生成結果を示している。変数のモーラ数が4モーラ以下であるので、可変部の両端にポーズは挿入されない。図6(c)は、変数が「タナカサ’トシ」である場合のポーズ生成結果を示している。変数のモーラ数が5以上であるので、可変部の前に100msのポーズが挿入される。また、図6(d)は、変数が「タナカカブシキガ’イシャ」である場合のポーズ生成結果を示している。変数のモーラ数が8以上であるので、可変部の前後に100msのポーズが挿入される。
On the other hand, FIG. 6 is a diagram showing a pose generation result by using a speech synthesis symbol when the
以上説明したように、可変部の制御ルールを記述したテキストを処理可能な音声合成装置を提供することにより、留守番電話の開発者は、留守番メッセージのテンプレートにポーズ生成ルールの識別番号を記述することができる。このため、音声合成自体のアルゴリズムを変更することなく、購買層ターゲットに応じた留守番電話の開発がテンプレートの記述を書き換えるという簡単な処理だけで行うことができる。言い換えれば、ある機器を開発する際に、その機器に適した音声合成の制御を機器の開発者が選択できる枠組みを提供することが可能である。 As described above, by providing a speech synthesizer capable of processing text describing the control rules of the variable part, the answering machine developer can describe the identification number of the pause generation rule in the answering message template. Can do. For this reason, without changing the algorithm of speech synthesis itself, the answering machine corresponding to the purchase target can be developed with a simple process of rewriting the template description. In other words, when developing a certain device, it is possible to provide a framework that allows the device developer to select speech synthesis control suitable for the device.
(第2実施形態)
第1実施形態では、制御ルールが可変部のみに作用する場合について説明したが、本発明はこれに限定されるものではなく、固定部を含めた部分に作用するよう構成してもよい。
(Second Embodiment)
In the first embodiment, the case where the control rule acts only on the variable portion has been described. However, the present invention is not limited to this, and the control rule may be configured to act on a portion including the fixed portion.
第2実施形態でも第1実施形態と同様に留守番電話の留守番メッセージを提供する音声合成装置について説明する。 In the second embodiment, a voice synthesizer that provides an answering machine message for an answering machine will be described as in the first embodiment.
図9は、付属語のアクセント結合ルールの例を示した図である。ルール1は、前接単語と後接単語が接続した場合のアクセント型が前接単語のアクセント型に従うというルールである。また、ルール2やルール3は、前接単語が平板型か有核型かによって、結合時のアクセント型が異なるタイプのルールである。一般的に、付属語のアクセント結合は後接する付属語に応じて適切なルールを適用することにより実現される。制御記号のないいわゆる漢字かな混じり文を単語辞書を用いて解析するような場合は、付属語の属性として前記アクセント結合ルールの番号が格納されているため、適切なアクセント結合を行うことが可能である。しかしながら、アクセント記号や音声表記からなる音声合成用記号列が入力される場合は、単語辞書を持たないため、単語が付属語かどうかを知ることもできないし、アクセント結合ルールのいずれを適用すべきかということもわからない。本実施形態では、そのような入力に対して適切にアクセント結合を実現する枠組みを提供するものである。
FIG. 9 is a diagram showing an example of an accent combining rule for attached words.
図7は第2実施形態における音声合成装置のモジュール構成を示すブロック図である。図7において、テキスト保持部202、入力処理部203、文字列保持部204、ルール番号保持部206、波形生成部211、音声出力部212は第1実施形態と同じ処理を行うため、図2の記号を用いることとし説明を省略する。
FIG. 7 is a block diagram showing a module configuration of the speech synthesizer in the second embodiment. In FIG. 7, the
アクセント結合ルール集合701は図9に示すようなアクセント結合ルールが格納されている。抽出処理部205は、テキスト保持部202が保持するテンプレートからルール番号を抽出し、さらに、可変部とともにルールを適用する固定部を抽出する。固定部保持部705は、ルールに関与する固定部を保持する。アクセント解析部702は、文字列保持部204が保持する文字列のアクセントを解析する。アクセント保持部703は、アクセント解析部702が求めたアクセント情報を保持する。アクセント結合部704は、アクセント結合ルールとルール番号から適用するルールを決定し、可変部と固定部保持部705が保持する固定部との結合アクセントを生成する。韻律生成部210は、アクセント結合の結果とテキストと文字列から韻律情報を生成する。
The accent combination rule set 701 stores accent combination rules as shown in FIG. The
図8は第2実施形態における音声合成装置の処理の流れを示すフローチャートである。ステップS801では、入力処理部203がユーザの入力を検知する。ユーザが入力するまでステップS801に留まる。ユーザの入力を検知した場合は、ユーザの入力を文字列保持部204に保持して、ステップS802に移る。なお、ユーザが入力した文字列は、テンプレートの可変部に利用される変数に相当するので、以下の説明では変数と呼ぶことにする。
FIG. 8 is a flowchart showing the flow of processing of the speech synthesizer in the second embodiment. In step S801, the
ステップS802では、抽出処理部205がテキスト保持部202に保持されているテンプレートからルール番号を抽出し、ルール番号保持部206に保持しする。さらに、ルールに関与する固定部を抽出し、固定部保持部705に保持した後、ステップS803に移る。ルールに関与する固定部は、本実施例の場合はテキスト内の可変部とルールに挟まれた部分とする。
In step S <b> 802, the
ステップS803では、アクセント解析部702が変数のアクセント情報を求め、アクセント保持部703に保持してステップS804に移る。アクセント解析部702が求めるアクセント情報としては、アクセント型、モーラ数が含まれる。さらには、アクセント型が有核型か平板型かという情報を含んでも良い。
In step S803, the
ステップS804では、アクセント結合部704が、アクセント結合ルール集合701とルール番号保持部206が保持するルール番号から、適用するアクセント結合ルールを決定する。さらに、アクセント保持部703が保持するアクセント情報と、固定部保持部705が保持する固定部とから、可変部(すなわち変数)と固定部とのアクセント結合を行った後、ステップS805に移る。
In step S <b> 804, the
ステップS805では、韻律生成部210が、文字列保持部204が保持する変数とテキスト保持部202が保持するテンプレートとアクセント結合部704が生成した結合アクセント情報から韻律情報を生成して、ステップS806に移る。
In step S805, the
ステップS806では、波形生成部211が韻律情報をもとに合成音声を生成して、ステップS807に移る。ステップS807では、音声出力部212が合成音声を出力して終了する。
In step S806, the
図10は、図9に示したアクセント結合ルールのルール2を適用した場合の、アクセント結合結果を音声合成用記号で示した図である。図10(a)は、留守番メッセ−ジのテンプレートである。図10(b)は、変数(すなわち、ユーザが入力した文字列)が「ヤマダ」である場合のアクセント結合結果を示している。変数のアクセントが平板型であるので、後接単語「デ’ス」のアクセント型に従って、アクセント核の位置が決定される。一方、図10(c)は、変数が「コ’モリ」である場合のアクセント結合結果を示している。変数のアクセントが有核型であるので、結合後のアクセント核の位置が変数のアクセント核の位置をそのまま継承している。
FIG. 10 is a diagram showing the result of accent combination when the
以上説明したように、第2実施形態では、アクセント結合ルールを記述したテキストを処理する音声合成装置を提供することにより、可変部のみならず固定部を含んだアクセントの結合を適切に制御することが可能となる。 As described above, in the second embodiment, by providing a speech synthesizer that processes text describing an accent combining rule, it is possible to appropriately control the combining of accents including not only variable parts but also fixed parts. Is possible.
(第3実施形態)
第1実施形態及び第2実施形態では、ポーズルール集合201またはアクセント結合ルール集合701のようにルールがあらかじめ格納されている場合について説明したが、これに限定されるものではなく、ルール自体をテキストに記述する場合もよいものとする。
(Third embodiment)
In the first embodiment and the second embodiment, the case where rules are stored in advance as in the pose rule set 201 or the accent combination rule set 701 has been described. However, the present invention is not limited to this, and the rule itself is a text. It is also good to describe in.
第3実施形態でも第2実施形態と同様にアクセント結合ルールを例に説明する。 In the third embodiment as well, as in the second embodiment, an accent combination rule will be described as an example.
図11は第3実施形態における音声合成装置のモジュール構成を示すブロック図である。 FIG. 11 is a block diagram showing a module configuration of the speech synthesizer in the third embodiment.
図11と図7の違いは、アクセント結合ルール集合701がないことと、ルール番号保持部206がルール保持部1101に変わった点の2点である。
The difference between FIG. 11 and FIG. 7 is two points, that is, there is no accent combination rule set 701 and the rule
抽出処理部205は、テキスト保持部202が保持するテンプレートからアクセント結合ルールを抽出し、さらに、可変部とともにアクセント結合ルールを適用する固定部を抽出する。ルール保持部1101は、抽出処理部205がテキストから抽出したアクセント結合ルールを保持する。アクセント結合部704は、アクセント結合ルールにしたがって、可変部と固定部保持部705が保持する固定部との結合アクセントを生成する。韻律生成部210は、アクセント結合の結果とテキストと文字列から韻律情報を生成する。
The
図12は第3実施形態における音声合成装置の処理の流れを示すフローチャートである。ステップS1201では、入力処理部203がユーザの入力を検知する。ユーザが入力するまでステップS1201に留まる。ユーザの入力を検知した場合は、ユーザの入力を文字列保持部204に保持して、ステップS1202に移る。なお、ユーザが入力した文字列は、テンプレートの可変部に利用される変数に相当するので、以下の説明では変数と呼ぶことにする。
FIG. 12 is a flowchart showing the flow of processing of the speech synthesizer in the third embodiment. In step S1201, the
ステップS1202では、抽出処理部205がテキスト保持部202に保持されているテンプレートからアクセント結合ルールを抽出し、ルール番号保持部206に保持しする。さらに、アクセント結合ルールに関与する固定部を抽出し、固定部保持部705に保持した後、ステップS1203に移る。アクセント結合ルールに関与する固定部は、本実施例の場合はテキスト内の可変部とアクセント結合ルールに挟まれた部分とする。
In step S 1202, the
ステップS1203では、アクセント解析部702が変数のアクセント情報を求め、アクセント保持部703に保持してステップS1204に移る。アクセント解析部702が求めるアクセント情報としては、アクセント型、モーラ数が含まれる。さらには、アクセント型が有核型か平板型かという情報を含んでも良い。
In step S1203, the
ステップS1204では、アクセント結合部704が、ルール保持部1101が保持するアクセント結合ルールに従って、アクセント保持部703が保持するアクセント情報と、固定部保持部705が保持する固定部とから、可変部(すなわち変数)と固定部とのアクセント結合を行った後、ステップS1205に移る。
In step S <b> 1204, the
ステップS1205では、韻律生成部210が、文字列保持部204が保持する変数とテキスト保持部202が保持するテンプレートとアクセント結合部704が生成した結合アクセント情報から韻律情報を生成して、ステップS1206に移る。
In step S1205, the
ステップS1206では、波形生成部211が韻律情報をもとに合成音声を生成して、ステップS1207に移る。ステップS1207では、音声出力部212が合成音声を出力して終了する。
In step S1206, the
図13は、図9におけるアクセント結合ルールのルール2をテキストに直接記述した場合の一例である。 FIG. 13 is an example in which rule 2 of the accent combination rule in FIG. 9 is described directly in the text.
以上説明したように、第3実施形態では、アクセント結合ルールを直接記述したテキストを処理する音声合成装置を提供することにより、あらかじめ用意されたアクセント結合規則に限定されることなく、アクセントの結合を適切に制御することが可能となる。 As described above, in the third embodiment, by providing a speech synthesizer that processes text that directly describes an accent combining rule, it is possible to combine accents without being limited to the accent combining rules prepared in advance. It becomes possible to control appropriately.
(その他の実施形態)
第1実施形態乃至第3実施形態では、ポーズ生成と付属語のアクセント結合に関するルールをテキストに記述した場合の音声合成装置の処理について説明したが、本発明はこれに限定されるものではない。読み、その他のアクセント生成、韻律生成、波形生成に関するルールを記述してもよいものとする。
(Other embodiments)
In the first to third embodiments, the processing of the speech synthesizer when the rules relating to the pose generation and the accent combination of the appendix are described in the text has been described, but the present invention is not limited to this. Rules regarding reading, other accent generation, prosody generation, and waveform generation may be described.
第1実施形態では、ルールの記述形式を可変部に後接する場合の例について説明したがこれに限定されるものではなく、可変部との関係が規定されている限りはいかなる位置に配置してもよいものとする。 In the first embodiment, the example in which the description format of the rule is followed by the variable part has been described. However, the present invention is not limited to this, and as long as the relationship with the variable part is defined, the rule may be placed at any position. It shall be good.
第2実施形態および第3実施形態では、ルールに関与する固定部が可変部とルールに挟まれる形で配置される場合について説明したが、本発明はこれに限定されるものではない。ルールに関与する固定部と可変部とルールとの関係が規定されている限りはいかなる位置に配置してもよいものとする。 In 2nd Embodiment and 3rd Embodiment, although the case where the fixing | fixed part which concerns on a rule was arrange | positioned between the variable part and the rule was demonstrated, this invention is not limited to this. As long as the relationship between the fixed part, the variable part, and the rule involved in the rule is defined, it may be arranged at any position.
さらに、テキストの記述形式も実施形態に記載した形式に限らず、解析可能な限りはいかなる形式であってもよいものとする。 Furthermore, the description format of the text is not limited to the format described in the embodiment, and may be any format as long as it can be analyzed.
なお、本発明の目的は次のようにしても達成される。即ち、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給する。そして、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行する。このようにしても目的が達成されることは言うまでもない。 The object of the present invention can also be achieved as follows. That is, a storage medium in which a program code of software that realizes the functions of the above-described embodiments is recorded is supplied to the system or apparatus. Then, the computer (or CPU or MPU) of the system or apparatus reads and executes the program code stored in the storage medium. It goes without saying that the purpose is achieved even in this way.
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。 In this case, the program code itself read from the storage medium realizes the functions of the above-described embodiments, and the storage medium storing the program code constitutes the present invention.
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。 As a storage medium for supplying the program code, for example, a flexible disk, a hard disk, an optical disk, a magneto-optical disk, a CD-ROM, a CD-R, a magnetic tape, a nonvolatile memory card, a ROM, or the like can be used.
また、本発明に係る実施の形態は、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現される場合に限られない。例えば、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 Further, the embodiment according to the present invention is not limited to the case where the functions of the above-described embodiment are realized by executing the program code read by the computer. For example, an OS (operating system) running on a computer performs part or all of actual processing based on an instruction of the program code, and the functions of the above-described embodiments may be realized by the processing. Needless to say, it is included.
さらに、本発明に係る実施形態の機能は次のようにしても実現される。即ち、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれる。そして、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行う。この処理により前述した実施形態の機能が実現されることは言うまでもない。 Furthermore, the functions of the embodiment according to the present invention are also realized as follows. That is, the program code read from the storage medium is written in a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer. Then, based on the instruction of the program code, the CPU provided in the function expansion board or function expansion unit performs part or all of the actual processing. It goes without saying that the functions of the above-described embodiments are realized by this processing.
101 制御メモリ(ROM)
102 中央処理装置
103 メモリ(RAM)
104 外部記憶装置
105 入力装置
106 出力装置
107 音声出力装置
108 バス
201 ポーズルール集合
202 テキスト保持部
203 入力処理部
204 文字列保持部
205 抽出処理部
206 ルール番号保持部
207 モーラ数解析部
208 モーラ数保持部
209 ポーズ生成部
210 韻律生成部
211 波形生成部
212 音声出力部
701 アクセント結合ルール集合
702 アクセント解析部
703 アクセント保持部
704 アクセント結合部
705 固定部保持部
1101 ルール保持部
101 Control memory (ROM)
102
104 External Storage Device 105 Input Device 106
Claims (7)
前記テキストからルール識別子を抽出する抽出処理手段と、
前記取得手段で取得した文字列からルールに関係する情報を取り出す取り出し手段と、
前記ルール集合と前記ルール識別子から適用すべきルールを選択し、選択したルールに従って、ルールに関係する情報をもとに少なくとも可変部を処理する処理手段と、
を備えることを特徴とする音声合成装置。 Acquisition means for acquiring a character string to be substituted into the variable part of the text to be synthesized;
Extraction processing means for extracting a rule identifier from the text;
Extraction means for extracting information related to the rule from the character string acquired by the acquisition means;
Processing means for selecting a rule to be applied from the rule set and the rule identifier, and processing at least a variable part based on information related to the rule according to the selected rule;
A speech synthesizer comprising:
前記処理手段は、ルールに関係する情報と選択したルールにしたがって可変部とルールに関与する固定部とを処理する、
ことを特徴とする請求項1記載の音声合成装置。 The extraction processing means extracts the rule identifier and a fixed part involved in the rule,
The processing means processes the variable part and the fixed part involved in the rule according to information related to the rule and the selected rule.
The speech synthesizer according to claim 1.
前記テキストからルールを抽出する抽出処理手段と、
前記取得手段で取得した文字列からルールに関係する情報を取り出す取り出し手段と、
前記ルールに関係する情報とルールに従って少なくとも可変部を処理する処理手段と、
を備えることを特徴とする音声合成装置。 Acquisition means for acquiring a character string to be substituted into the variable part of the text to be synthesized;
Extraction processing means for extracting rules from the text;
Extraction means for extracting information related to the rule from the character string acquired by the acquisition means;
Processing means for processing at least the variable part according to the information related to the rule and the rule;
A speech synthesizer comprising:
前記テキストからルール識別子を抽出する抽出処理ステップと、
前記取得ステップで取得した文字列からルールに関係する情報を取り出す取り出しステップと、
音声合成のためのルール集合と前記ルール識別子から適用すべきルールを選択し、選択したルールに従って、ルールに関係する情報をもとに少なくとも可変部を処理する処理ステップと、
を備えることを特徴とする音声合成方法。 An acquisition step of acquiring a character string to be substituted into the variable part of the text to be synthesized;
An extraction processing step for extracting a rule identifier from the text;
An extraction step of extracting information related to the rule from the character string acquired in the acquisition step;
A processing step of selecting a rule to be applied from a rule set for speech synthesis and the rule identifier, and processing at least a variable part based on information related to the rule according to the selected rule;
A speech synthesis method comprising:
前記処理ステップは、ルールに関係する情報と選択したルールにしたがって可変部とルールに関与する固定部とを処理する、
ことを特徴とする請求項4記載の音声合成方法。 The extraction processing step extracts the fixed part involved in the rule identifier and the rule,
The processing step processes the variable part and the fixed part involved in the rule according to the information related to the rule and the selected rule.
The speech synthesis method according to claim 4.
前記テキストからルールを抽出する抽出処理ステップと、
前記取得ステップで取得した文字列からルールに関係する情報を取り出す取り出しステップと、
前記ルールに関係する情報とルールに従って少なくとも可変部を処理する処理ステップと、
を備えることを特徴とする音声合成方法。 An acquisition step of acquiring a character string to be substituted into the variable part of the text to be synthesized;
An extraction processing step for extracting rules from the text;
An extraction step of extracting information related to the rule from the character string acquired in the acquisition step;
Processing steps for processing at least the variable part according to the information related to the rule and the rule;
A speech synthesis method comprising:
A control program for causing a computer to execute the speech synthesis method according to claim 4.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006075058A JP2007249022A (en) | 2006-03-17 | 2006-03-17 | Speech synthesizer and speech synthesizing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006075058A JP2007249022A (en) | 2006-03-17 | 2006-03-17 | Speech synthesizer and speech synthesizing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007249022A true JP2007249022A (en) | 2007-09-27 |
Family
ID=38593360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006075058A Withdrawn JP2007249022A (en) | 2006-03-17 | 2006-03-17 | Speech synthesizer and speech synthesizing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007249022A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019184080A (en) * | 2018-04-02 | 2019-10-24 | 株式会社パロマ | Gas cooking stove |
-
2006
- 2006-03-17 JP JP2006075058A patent/JP2007249022A/en not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019184080A (en) * | 2018-04-02 | 2019-10-24 | 株式会社パロマ | Gas cooking stove |
JP7153305B2 (en) | 2018-04-02 | 2022-10-14 | 株式会社パロマ | Gas stove |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4478939B2 (en) | Audio processing apparatus and computer program therefor | |
EP1970895A1 (en) | Speech synthesis apparatus and method | |
EP1071074A2 (en) | Speech synthesis employing prosody templates | |
JP4154015B2 (en) | Information processing apparatus and method | |
KR20170057623A (en) | An apparatus for the linguistically disabled to synthesize the pronunciation and the script of words of a plural of designated languages | |
JP2007086309A (en) | Voice synthesizer, voice synthesizing method, and program | |
JP2006236037A (en) | Voice interaction content creation method, device, program and recording medium | |
JP2007249022A (en) | Speech synthesizer and speech synthesizing method | |
JP2004334207A (en) | Assistance for dynamic pronunciation for training of japanese and chinese speech recognition system | |
JP6422647B2 (en) | Two-dimensional code recording method and two-dimensional code reader | |
JP4444141B2 (en) | Information processing apparatus, information processing method, information processing program, and computer-readable recording medium recording the same | |
JP2007127994A (en) | Voice synthesizing method, voice synthesizer, and program | |
JP2000214874A (en) | Sound synthesizing apparatus and its method, and computer-readable memory | |
JP2008158630A (en) | Image output device and image output method | |
JP2006047866A (en) | Electronic dictionary device and control method thereof | |
JP2007249023A (en) | Speech synthesizer and speech synthesizing method | |
JP2008152013A (en) | Voice synthesizing device and method | |
JP4208819B2 (en) | Speech synthesis dictionary registration method and apparatus | |
JP2006091105A (en) | Word learning device, and speech output method and program thereof | |
JP2007122510A (en) | Presenting device and presenting program | |
JP4617494B2 (en) | Speech synthesis apparatus, character allocation apparatus, and computer program | |
JP2002175176A (en) | Information presenting device and presenting method | |
JP2002073070A (en) | Voice processing method, voice processor, storage medium, and natural language processing method | |
JP2003280680A (en) | Speech synthesizing device, and method, program and storage medium therefor | |
JP2021056326A (en) | Voice synthesizer, method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20090602 |