JP2004347955A - 文セット自動生成方法、装置、プログラムおよびその記憶媒体 - Google Patents

文セット自動生成方法、装置、プログラムおよびその記憶媒体 Download PDF

Info

Publication number
JP2004347955A
JP2004347955A JP2003146242A JP2003146242A JP2004347955A JP 2004347955 A JP2004347955 A JP 2004347955A JP 2003146242 A JP2003146242 A JP 2003146242A JP 2003146242 A JP2003146242 A JP 2003146242A JP 2004347955 A JP2004347955 A JP 2004347955A
Authority
JP
Japan
Prior art keywords
word
symbol
sentence
task
sentence corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003146242A
Other languages
English (en)
Other versions
JP4173404B2 (ja
Inventor
Mitsuaki Isogai
光昭 磯貝
Hideyuki Mizuno
秀之 水野
Masanobu Abe
匡伸 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003146242A priority Critical patent/JP4173404B2/ja
Publication of JP2004347955A publication Critical patent/JP2004347955A/ja
Application granted granted Critical
Publication of JP4173404B2 publication Critical patent/JP4173404B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

【課題】文の1部を加工することにより頻出する可変単語を効率良く収集することができる文セットを自動的に生成する文セット自動生成方法、装置、プログラムおよびその記憶媒体を提供する。
【解決手段】選択テキストの候補となる特定タスクのテキストがタスク文コーパス記憶部1に格納されたタスク文コーパスと、当該特定タスクに特有な単語の単語リスト2を用い、単語リスト2中の単語がタスク文コーパスに出現する頻度を求め、タスク文コーパス中の当該単語部分を単語シンボルに置換してシンボル文コーパスを求め、シンボル文コーパスから候補テキストの組み合わせをシンボルテキストセットとして選択し、テキストセットに含まれる単語シンボル部分に対して、単語シンボルのテキストセット中における出現順序に対応して、単語の出現頻度順に、頻度上位の単語から順に埋め込む文セット自動生成方法。
【選択図】 図1

Description

【0001】
【産業上の利用分野】
この発明は、文セット自動生成方法、装置、プログラムおよびその記憶媒体に関し、特に、特定タスク用文セットを生成するに際して、母集団の文コーパスから文を抽出する場合に、文の1部を加工することにより頻出する可変単語を効率良く収集することができる文セットを自動的に生成する文セット自動生成方法、装置、プログラムおよびその記憶媒体に関する。
【0002】
【従来の技術】
近年の音声合成技術分野においては、大容量の記憶装置に数10分から数10時間の大量の肉声データを格納して音声データベースとし、入力されたテキストに応じて、適切な基準で音声データベースから適切な長さの音声素片を切り出してこれらを接続し、合成音声を作成するコーパスベース音声合成方法が提案されている(特許文献1 参照)。このコーパスベース音声合成方法は、長い音声単位が入力テキストに合致した場合は肉声に近い高品質な音声合成がなされる。このために、音声合成の用途を、例えば交通情報案内、天気予報案内、株価情報案内その他の長い音声単位を取り扱う特定のタスクに限定すれば、音声データベースとして比較的小さな音声データベースを使用することに依っても肉声に近い高品質な合成音声を生成することができる。
【0003】
この音声合成に用いる音声データベースを作成するには、肉声を収録するための読み上げ用文セット(テキストセット)を用意する必要がある。
従来、特定タスク用の文セットを生成する場合は、当該タスクによくありそうな文例を人手で考案したり、当該タスクの文例を収集してよくありそうな文を人手で選択したりして文セットを生成する。また、統計的な手法を用いて或る素片単位(1例として、3つ組み音韻)を定義し、文コーパスに含まれる素片単位の出現回数の表或いは出現率の表を作成し、文コーパス中の各文に含まれる単位の出現回数或いは出現率の累計値を選択基準スコアとして、スコアの高い文を文コーパスから逐次選択することにより文セットを生成する方法を利用して、特定タスクの文コーパスにこの方法を適用することにより、特定タスク用の文セットを生成したりしていた(非特許文献1 参照)。
【0004】
更に、特定タスクの文の特徴をよく表した文セット生成を可能とするために、素片単位として形態素、2連鎖形態素等の言語的な意味を持つ長い単位を用いた上で、各種の素片単位のスコアを荷重加算した複合スコアを文の選択基準のスコアとして用い、荷重加算の重み係数の設定によりタスク依存度を高める方法が提案されている(特許文献2 参照)。
しかし、これら従来の方法に依っては、特定の言い回しの中に、地名、気温、価格等の可変単語部分が存在する場合に、この可変単語を重複して収集する可能性があり、文セットに無駄が生ずる問題があった。以下、この点について説明する。
【0005】
従来法で生成した文セットに、次の様な文1〜文3があるものとする。
1.「明日の気温は10度の予想です。」
2.「温度は10度の見込みです。」
3.「最高気温は10度の見通しです。」
ここで、可変部分とは、例えば、「明日の気温は10度の予想です。」の「10度」の部分を指す。
【0006】
この例は、「10度」が3回出現するが、これは可変であるので、他の温度、例えば、
1’.「明日の気温は10度の予想です。」
2’.「温度は11度の見込みです。」
3’.「最高気温は12度の見通しです。」
とした方が、音声データベースの音声バリエーションが豊富になり、その結果、合成音声の品質は向上する。
【0007】
【特許文献1】特許第2761552号 明細書
【特許文献2】特願2003−036649号 明細書
【非特許文献1】Jan P.H.van Santen,”Diagnostic perceptual experiments for text−to−speech system evaluation”,Proc ICSLP92,pp555−558,1992)
【0008】
【発明が解決しようとする課題】
この発明は、上述した問題に鑑みてなされたものであり、特定タスク用文セットを生成するに際して、母集団の文コーパスから文を抽出する場合に、文の1部を加工することにより頻出する可変単語を効率良く収集することができる文セットを自動的に生成する文セット自動生成方法、装置、プログラムおよびその記憶媒体を提供するものである。
【0009】
【課題を解決するための手段】
選択テキストの候補となる特定タスクのテキストがディジタルデータとしてタスク文コーパス記憶部1に格納されたタスク文コーパスと、当該特定タスクに特有な単語の単語リスト2を用い、単語リスト2中の単語がタスク文コーパスに出現する頻度を求めてジャンル別単語頻度順テーブル3に格納する第1のステップと、単語リスト2に格納される単語がタスク文コーパスに出現した場合に、タスク文コーパス中の当該単語部分を単語シンボルに置換してシンボル文コーパスとしてシンボル文コーパス記憶部4に格納する第2のステップと、第2のステップにおいて求めたシンボル文コーパスから候補テキストの組み合わせをシンボルテキストセットとして選択してシンボルテキストセット記憶部5に格納する第3のステップと、第3のステップにおいて求めたテキストセットに含まれる単語シンボル部分に対して、単語シンボルのテキストセット中における出現順序に対応して、第1のステップにおいて求めた単語の出現頻度順に、頻度上位の単語から順に埋め込む第4のステップとを有する文セット自動生成方法を構成した。
【0010】
先の文セット自動生成方法において、単語埋込処理は、シンボルテキストセット記憶部5中の単語シンボルの出現順序を表す変数nを1にリセットし、シンボルテキストセット記憶部5中のn番目の単語シンボルとその前後環境を取得し、ジャンル別単語頻度順テーブル3とジャンル別埋込フラグテーブル7を用いて単語シンボルへ埋め込む単語を決定し、単語シンボル部分に決定された単語を埋め込み、終了判定処理を行う工程を有する文セット自動生成方法を構成した。
【0011】
そして、選択テキストの候補となる特定タスクのテキストがディジタルデータとして格納されたタスク文コーパス記憶部1を具備し、当該特定タスクに特有な単語を記憶する単語リスト2を具備し、単語リスト2中の単語がタスク文コーパスに出現する頻度を求めてジャンル別単語頻度順テーブル3に格納する単語出現頻度算出処理部11を具備し、単語リスト2に格納される単語がタスク文コーパスに出現した場合に、タスク文コーパス中の当該単語部分を単語シンボルに置換してシンボル文コーパス記憶部4に格納する単語シンボル置換処理部12を具備し、単語シンボル置換処理部12により求めたシンボル文コーパスから候補テキストの組み合わせをシンボルテキストとして選択してシンボルテキストセット記憶部5に格納するテキストセット選択処理部13を具備し、テキストセット選択処理部13により求めたテキストセットに含まれる単語シンボル部分に対して、単語シンボルのテキストセット中における出現順序に対応して、単語出現頻度算出処理部11により求めた単語の出現頻度順に、頻度上位の単語から順に埋め込む単語埋込処理部14を具備する文セット自動生成装置を構成した。
【0012】
また、タスク文コーパスが格納されたタスク文コーパス記憶部1と当該特定タスクに特有な単語の単語リスト2を参照して単語リスト2中の単語がタスク文コーパスに出現する頻度を求め、単語リスト2に格納される単語がタスク文コーパスに出現した場合に、タスク文コーパス中の当該単語部分を単語シンボルに置換してシンボル文コーパス記憶部4に格納し、シンボル文コーパスから候補テキストの組み合わせをシンボルテキストセットとして選択してシンボルテキストセット記憶部5に格納し、テキストセットに含まれる単語シンボル部分に対して、単語シンボルのテキストセット中における出現順序に対応して、単語の出現頻度順に、頻度上位の単語から順に埋め込む指令を、コンピュータに対してする文セット自動生成プログラムを構成した。
更に、先の文セット自動生成プログラムを記憶した記憶媒体を構成した。
【0013】
【発明の実施の形態】
この発明は、選択テキストの候補となる特定タスクのテキストがディジタルデータとしてタスク文コーパス記憶部に格納されたタスク文コーパスと、当該特定タスクに特有な単語の単語リストを用い、単語リスト中の単語がタスク文コーパスに出現する頻度を求め、単語リストに格納される単語がタスク文コーパスに出現した場合にタスク文コーパス中の当該単語部分を単語シンボルに置換し、シンボル文コーパスから候補テキストの組み合わせをシンボルテキストセットとして選択し、テキストセットに含まれる単語シンボル部分に対して、単語シンボルのテキストセット中における出現順序に対応して、単語の出現頻度順に、単語を頻度上位の単語から順に埋め込む文セット自動生成方法、装置、プログラムおよびその記憶媒体である。
【0014】
母集団の文コーパスから文を抽出する場合に、上述の如く文の1部を加工することにより頻出する可変単語を効率良く収集することができる。
この発明は、単語埋込処理において、単語シンボルの前、後或いは前後の音素或いは音節環境を考慮して、頻度上位の単語がより多くの環境を持つ様に、頻度上位の単語にとって初出の単語シンボルと環境の組み合わせが出現した場合には、頻度上位の単語を優先して埋込処理する構成とすることができる。
【0015】
また、この発明は、タスクを交通情報案内とする様な場合は、地名、路線名、方向、距離、時刻を単語のジャンル毎に用意し、単語のジャンル毎に独立に、単語頻度計算、単語シンボル置換処理、単語埋込処理を行う構成とすることができる。
この発明は、一例として音声合成に用いる音声データベースの構築に必要な文の読み上げ用の文の集合である文セットを生成するのに用いられる。
【0016】
【実施例】
この発明の実施例を図を参照して説明する。以下、交通情報案内をタスクの1例として用いて説明する。
図1において、タスク文コーパス記憶部1は、交通情報案内タスクから収集した大量のテキストを含んでいる。ジャンル別単語リスト2は当該タスクに特有な単語のジャンル、固有名詞、数値表現その他の事情を考慮して予め用意した単語リストである。ここで、単語のジャンルとして地名、路線名、方向、距離、時刻を定義している。これらは交通情報案内タスクにおいて可変な単語のジャンルの代表例である。単語リストの例を図2に示す。図2(a)は地名の単語リスト、図2(b)は路線名の単語リスト、図2(c)は方向の単語リスト、図2(d)は距離の単語リスト、図2(e)は時刻の単語リストである。
【0017】
この実施例においては、単語シンボルの置き換え処理に際して、単語シンボルの前後環境として音節環境を考慮している。
先ず、単語出現頻度算出部11は、ジャンル別単語リスト2中の単語がタスク文コーパス記憶部1に出現する頻度を単語のジャンル毎に求め、求められた単語出現頻度順を単語のジャンル毎に単語出現頻度順テーブル3に格納する。単語のジャンルを複数定義した場合は、この通りに単語のジャンル毎に単語出現頻度順テーブルを作成する。
【0018】
図3は単語のジャンル毎に求めた単語出現頻度順テーブルの例を示す。図3(a)は地名の単語出現頻度順テーブルであり、図3(b)は路線の単語出現頻度順テーブルであり、図3(c)は方向の単語出現頻度順テーブルであり、図3(d)は距離の単語出現頻度順テーブルであり、図3(e)は時刻の単語出現頻度順テーブルである。
単語シンボル置換処理部12は、タスク文コーパス記憶部1中の当該単語部分を単語シンボルに置換し、置換結果をシンボル文コーパス記憶部4に格納する。図4(a)はタスク文コーパス記憶部1に記憶される置換前のテキストの1例を示しており、図4(b)は図4(a)のテキスト中の可変単語部分である「4号線」、「上り」、「三宅坂」、「笹塚」を、これらをそれぞれ代表するシンボルである路線、方向、地名、地名に置換した結果を示す。図4(b)において記号<と記号>で囲まれた部分は単語のシンボルを示す。記号<と記号>で囲まれた文字列は単語のジャンルを示す。この置換処理は、タスク文コーパス記憶部1に含まれる全てのテキストに対して行う。
【0019】
テキストセット選択処理部13は、シンボル文コーパス記憶部4から、タスクに頻出する音響的或いは言語的な特徴を有するテキストの集合を選択し、シンボルテキストセットとしてシンボルテキストセット記憶部5に格納する。この選択には、先の特許文献2に記載される様なタスクに特徴的な表現を持つテキスト集合を効果的に選択することができる手法を用いる。また、単語シンボルは形態素の1種として扱う。
【0020】
単語埋込処理部14は、シンボルテキストセット記憶部5に含まれる単語シンボル部分に、単語出現頻度順テーブル3の単語出現頻度順序を元にして、単語を埋め込む。
以下、この単語埋込処理部14について、図5〜図12を用いて詳しく説明する。ここで、図5は図1の単語埋込処理部14の詳細を示す図である。図6は実施例における単語埋込処理の途中経過にある文を示す図である。図7は実施例における単語埋め込みフラグテーブル(地名)を示す図である。図8は実施例における単語埋め込みフラグテーブル(路線)を示す図である。図9は実施例における単語埋め込みフラグテーブル(方向)を示す図である。図10は実施例における単語埋め込みフラグテーブル(距離)を示す図である。図11は、実施例における単語埋め込みフラグテーブル(時刻)を示す図である。
【0021】
先ず、図5のS101において、シンボルテキストセット記憶部5中の単語シンボルの出現順序を表す変数nをリセット、即ち、n=1に設定する。
S102において、シンボルテキストセット記憶部5中のn番目の単語シンボルと、その前後環境を取得する。
S103において、ジャンル別単語頻度順テーブル3とジャンル別埋込フラグテーブル7を用いて、単語シンボルへ埋め込む単語を決定する。ジャンル別埋込フラグテーブル7は、どの単語と、環境を考慮した場合はどの環境の組み合わせが既に埋込済みであるかを記憶しておくテーブルである。単語シンボルのテキストセット記憶部5中での出現順序に対応して、単語出現頻度順に、頻度上位の単語から順に埋め込む。この処理の詳細を、例を用いて説明する。
【0022】
ここで、単語埋込処理が図6に示す段階まで進んでいるとする。下線部は既に埋め込まれた単語である。このとき、各単語ジャンルの単語埋め込みフラグテーブル7は、先の図7〜図11に示す状態にある。ここで、前後環境欄は、「前環境」および「後環境」の組み合わせを示す。ここにおける記号「#」は、環境が無音であること、即ち、単語が文頭、文末、ポーズ直前、ポーズ直後の何れかに位置することを示す。そして、図中の数値1は或る単語とその前後環境の組み合わせについて埋込済みであることを示し、0は未だ埋め込まれていないことを示す。図7に示す例は「の江戸橋と」、「の江戸橋で」、「の江戸橋#」および「の箱崎#」は既に埋込済みであることを示す。
【0023】
この図6の段階で、S102で取得する単語シンボルは、「中央環状線の上りの」に続く<地名>である。そして、記号<の左側が‘の’であると共に、記号>の右側が‘で’であるので、環境は「の−で」である。単語のジャンルは、地名であるので、図7の地名の単語埋込フラグテーブルを参照する。順位第1位の単語は「江戸橋」であるが、その環境「の−で」はフラグが1で既に埋込済みであり、「の江戸橋で」の組み合わせは既に埋込済みであることが分かる。そこで、次に、第2位「箱崎」の環境「の−で」のフラグを参照する。このフラグは0であり、「の箱崎で」の組み合わせは未だ埋め込まれていない。よって、埋め込むべき単語は「箱崎」であることが求まる。そして、単語埋込フラグテーブルの当該部分のフラグを1にする。なお、ここで、環境が単語埋込フラグテーブルで初出であった場合は、新しい環境列をテーブルに追加する。新しい環境の場合は、自動的に順位第1位の単語が埋込に用いられる。新しい環境の場合は、フラグは第1位の単語部分を1とおき、第2位以下は0とおく。
【0024】
S104において、単語シンボル部分に「箱崎」を埋め込む。
以上の処理を行った結果、図12に示される如く、「箱崎」が埋め込まれたテキストが置き換え済みテキストセット記憶部6に格納される。
S105において終了判定処理を行う。変数nが、テキストセット中の単語シンボルの総数Nと等しければ、終了する。
N>nであれば、S106でnを1加算し、次の単語シンボルの埋込処理を行うために、S102へと戻る。
【0025】
以上の実施例において、単語埋込処理は、単語シンボルの前、後或いは前後の音素或いは音節環境を考慮して、頻度上位の単語がより多くの環境を持つ様に、頻度上位の単語にとって初出の単語シンボルと環境の組み合わせが出現した場合は、頻度上位の単語を優先して埋込処理する構成とすることができる。そして、タスクを交通情報案内とする様な場合、地名、路線名、方向、距離、時刻を単語のジャンル毎に用意し、単語のジャンル毎に独立に、単語頻度計算、単語シンボル置換処理、単語埋込処理を行う構成とすることができる。
【0026】
以上の通りの処理により、タスク中の可変単語を、単語の環境を含めて重複なく文セットに含めることができる。そして、単語の出現頻度が高い程、より多くの環境バリエーションを持つ様な文セットを生成することができる。環境が一致していれば、合成音声の単語の接続部分が滑らかになるので合成音声の品質は向上する。即ち、頻出単語である程多くの環境バリエーションを持つことが望ましいので、この発明は合成音声の品質向上に効率的な文セットを提供することができるということができる。
【0027】
この発明は、コンピュータを主要な構成要素として構成することができる。この場合、テキスト選択および加工プログラムをCD−ROM 磁気ディスクその他の記録媒体からコンピュータにインストールし、或いは、通信回線を介してダウンロードしてそのプログラムをコンピュータで実行する。
この発明は、日本語テキストの文セットのみならず、他の言語のテキストにも適用することができる。
【0028】
【発明の効果】
上述した通りであって、この発明に依れば、特定タスク用文セットを生成するに際して、母集団の文コーパスから抽出した文の1部を加工することにより、当該タスクの可変単語を効率良く収集することができる文セットを自動的に生成することができる。
即ち、この発明に依れば、タスク中の可変単語を、単語の環境を含めて重複なく文セットに含めることができる。そして、単語の出現頻度が高い程、より多くの環境バリエーションを持つ様な文セットを生成することができる。環境が一致していれば、合成音声の単語の接続部分が滑らかになるので合成音声の品質は向上する。即ち、頻出単語である程多くの環境バリエーションを持つことが望ましいので、この発明は合成音声の品質向上に効率的な文セットを提供することができるということができる。
【図面の簡単な説明】
【図1】実施例を説明する図。
【図2】単語リストの実施例を示す図。
【図3】単語出現頻度順テーブルの実施例を示す図。
【図4】置換処理される文および単語シンボルに置換された文を示す図。
【図5】単語埋込処理部の実施例の詳細を示す図。
【図6】単語埋込処理の途中経過にある文を示す図。
【図7】単語埋め込みフラグテーブル(地名)の実施例を示す図。
【図8】単語埋め込みフラグテーブル(路線)の実施例を示す図。
【図9】単語埋め込みフラグテーブル(方向)の実施例を示す図。
【図10】単語埋め込みフラグテーブル(距離)の実施例を示す図。
【図11】単語埋め込みフラグテーブル(時刻)の実施例を示す図。
【図12】単語埋込処理を行った文の1例を示す図。
【符号の説明】
1 タスク文コーパス記憶部 2 ジャンル別単語リスト
3 単語出現頻度順テーブル 4 シンボル文コーパス記憶部
5 シンボルテキストセット記憶部 6 置き換え済みテキストセット記憶部
7 ジャンル別埋込フラグテーブル 11 単語出現頻度算出部
12 単語シンボル置換処理部 13 テキストセット選択処理部
14 単語埋込処理部

Claims (5)

  1. 選択テキストの候補となる特定タスクのテキストがディジタルデータとしてタスク文コーパス記憶部に格納されたタスク文コーパスと、当該特定タスクに特有な単語の単語リストを用い、
    単語リスト中の単語がタスク文コーパスに出現する頻度を求めてジャンル別単語頻度順テーブルに格納する第1のステップと、
    単語リストに格納される単語がタスク文コーパスに出現した場合に、タスク文コーパス中の当該単語部分を単語シンボルに置換してシンボル文コーパスとしてシンボル文コーパス記憶部に格納する第2のステップと、
    第2のステップにおいて求めたシンボル文コーパスから候補テキストの組み合わせをシンボルテキストセットとして選択してシンボルテキストセット記憶部に格納する第3のステップと、
    第3のステップにおいて求めたテキストセットに含まれる単語シンボル部分に対して、単語シンボルのテキストセット中における出現順序に対応して、第1のステップにおいて求めた単語の出現頻度順に、頻度上位の単語から順に埋め込む第4のステップと、
    を有することを特徴とする文セット自動生成方法。
  2. 請求項1に記載される文セット自動生成方法において、
    単語埋込処理は、シンボルテキストセット記憶部中の単語シンボルの出現順序を表す変数nを1にリセットし、
    シンボルテキストセット記憶部中のn番目の単語シンボルとその前後環境を取得し、
    ジャンル別単語頻度順テーブルとジャンル別埋込フラグテーブルを用いて単語シンボルへ埋め込む単語を決定し、
    単語シンボル部分に決定された単語を埋め込み、
    終了判定処理を行う、
    工程を有することを特徴とする文セット自動生成方法。
  3. 選択テキストの候補となる特定タスクのテキストがディジタルデータとして格納されたタスク文コーパス記憶部を具備し、
    当該特定タスクに特有な単語を記憶する単語リストを具備し、
    単語リスト中の単語がタスク文コーパスに出現する頻度を求めてジャンル別単語頻度順テーブルに格納する単語出現頻度算出処理部を具備し、
    単語リストに格納される単語がタスク文コーパスに出現した場合に、タスク文コーパス中の当該単語部分を単語シンボルに置換してシンボル文コーパス記憶部に格納する単語シンボル置換処理部を具備し、
    単語シンボル置換処理部により求めたシンボル文コーパスから候補テキストの組み合わせをシンボルテキストとして選択してシンボルテキストセット記憶部に格納するテキストセット選択処理部を具備し、
    テキストセット選択処理部により求めたテキストセットに含まれる単語シンボル部分に対して、単語シンボルのテキストセット中における出現順序に対応して単語出現頻度算出処理部により求めた単語の出現頻度順に、頻度上位の単語から順に埋め込む単語埋込処理部を具備する、
    ことを特徴とする文セット自動生成装置。
  4. タスク文コーパスが格納されたタスク文コーパス記憶部と当該特定タスクに特有な単語の単語リストを参照して単語リスト中の単語がタスク文コーパスに出現する頻度を求め、
    単語リストに格納される単語がタスク文コーパスに出現した場合に、タスク文コーパス中の当該単語部分を単語シンボルに置換してシンボル文コーパス記憶部に格納し、
    シンボル文コーパスから候補テキストの組み合わせをシンボルテキストセットとして選択してシンボルテキストセット記憶部に格納し、
    テキストセットに含まれる単語シンボル部分に対して、単語シンボルのテキストセット中における出現順序に対応して、単語の出現頻度順に、頻度上位の単語から順に埋め込む指令を、コンピュータに対してする文セット自動生成プログラム。
  5. 請求項4に記載される文セット自動生成プログラムを記憶した記憶媒体。
JP2003146242A 2003-05-23 2003-05-23 文セット自動生成装置、文セット自動生成プログラム、記憶媒体 Expired - Fee Related JP4173404B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003146242A JP4173404B2 (ja) 2003-05-23 2003-05-23 文セット自動生成装置、文セット自動生成プログラム、記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003146242A JP4173404B2 (ja) 2003-05-23 2003-05-23 文セット自動生成装置、文セット自動生成プログラム、記憶媒体

Publications (2)

Publication Number Publication Date
JP2004347955A true JP2004347955A (ja) 2004-12-09
JP4173404B2 JP4173404B2 (ja) 2008-10-29

Family

ID=33533158

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003146242A Expired - Fee Related JP4173404B2 (ja) 2003-05-23 2003-05-23 文セット自動生成装置、文セット自動生成プログラム、記憶媒体

Country Status (1)

Country Link
JP (1) JP4173404B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007322816A (ja) * 2006-06-01 2007-12-13 Oki Electric Ind Co Ltd コーパス設計方法、コーパス設計装置及びコーパス設計プログラム
JP2008203717A (ja) * 2007-02-22 2008-09-04 Oki Electric Ind Co Ltd コーパスベース音声合成のためのテキスト文セット選択方法、そのプログラム、及びその装置
JP2014115577A (ja) * 2012-12-12 2014-06-26 Nippon Hoso Kyokai <Nhk> 音声合成用読み上げ文生成装置及びそのプログラム
CN111402894A (zh) * 2020-03-25 2020-07-10 北京声智科技有限公司 语音识别方法及电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007322816A (ja) * 2006-06-01 2007-12-13 Oki Electric Ind Co Ltd コーパス設計方法、コーパス設計装置及びコーパス設計プログラム
JP2008203717A (ja) * 2007-02-22 2008-09-04 Oki Electric Ind Co Ltd コーパスベース音声合成のためのテキスト文セット選択方法、そのプログラム、及びその装置
JP2014115577A (ja) * 2012-12-12 2014-06-26 Nippon Hoso Kyokai <Nhk> 音声合成用読み上げ文生成装置及びそのプログラム
CN111402894A (zh) * 2020-03-25 2020-07-10 北京声智科技有限公司 语音识别方法及电子设备

Also Published As

Publication number Publication date
JP4173404B2 (ja) 2008-10-29

Similar Documents

Publication Publication Date Title
KR101076202B1 (ko) 음성 합성 장치, 음성 합성 방법 및 프로그램이 기록된 기록 매체
JP4516863B2 (ja) 音声合成装置、音声合成方法及びプログラム
US20100082328A1 (en) Systems and methods for speech preprocessing in text to speech synthesis
JP2006084715A (ja) 素片セット作成方法および装置
MXPA01006594A (es) Metodo y sistema para la preseleccion de unidades adecuadas para habla por concatenacion.
JP6669081B2 (ja) 音声処理装置、音声処理方法、およびプログラム
Levy et al. The effect of pitch, intensity and pause duration in punctuation detection
JP5343293B2 (ja) 音声編集合成装置及び音声編集合成方法
JP4639932B2 (ja) 音声合成装置
CN1787072B (zh) 基于韵律模型和参数选音的语音合成方法
JP4173404B2 (ja) 文セット自動生成装置、文セット自動生成プログラム、記憶媒体
JP4287785B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP2013186673A (ja) 機械翻訳装置及び機械翻訳プログラム
JP6170384B2 (ja) 音声データベース生成システム、音声データベース生成方法、及びプログラム
JP4170819B2 (ja) 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体
JP3960928B2 (ja) テキスト選択方法、装置及びプログラム
Breen et al. A phonologically motivated method of selecting non-uniform units
JP4640063B2 (ja) 音声合成方法,音声合成装置,およびコンピュータプログラム
JP2005018036A (ja) 音声合成装置、音声合成方法及びプログラム
JP4414864B2 (ja) 録音編集・テキスト音声合成併用型音声合成装置、録音編集・テキスト音声合成併用型音声合成プログラム、記録媒体
JP2005267053A (ja) 音声検索装置、音声検索サーバ、音声検索方法及び音声検索プログラム
JP6309852B2 (ja) 強調位置予測装置、強調位置予測方法及びプログラム
JP3892691B2 (ja) 音声合成方法及びその装置並びに音声合成プログラム
KR20100003574A (ko) 음성음원정보 생성 장치 및 시스템, 그리고 이를 이용한음성음원정보 생성 방법
JP2006243104A (ja) 音声合成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050727

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20050727

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080602

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080805

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080813

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110822

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120822

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130822

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees