JP4617494B2 - 音声合成装置及び文字割当装置並びにコンピュータプログラム - Google Patents

音声合成装置及び文字割当装置並びにコンピュータプログラム Download PDF

Info

Publication number
JP4617494B2
JP4617494B2 JP2004076303A JP2004076303A JP4617494B2 JP 4617494 B2 JP4617494 B2 JP 4617494B2 JP 2004076303 A JP2004076303 A JP 2004076303A JP 2004076303 A JP2004076303 A JP 2004076303A JP 4617494 B2 JP4617494 B2 JP 4617494B2
Authority
JP
Japan
Prior art keywords
morpheme
characters
tag
reading
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004076303A
Other languages
English (en)
Other versions
JP2005266085A (ja
Inventor
新吾 古城戸
恒 河井
みちよ 河野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2004076303A priority Critical patent/JP4617494B2/ja
Publication of JP2005266085A publication Critical patent/JP2005266085A/ja
Application granted granted Critical
Publication of JP4617494B2 publication Critical patent/JP4617494B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

この発明は音声合成に関し、特に、音声合成の進行と並行して何らかの処理を実行する際の制御を支援する装置、並びにそのような装置において単語の読みと表記文字との対応関係をとる文字割当装置に関する。
音声認識、音声合成は、人間とコンピュータを用いた諸システムとのインターフェースを実現する技術として重要である。これらと人工知能技術とを併用することにより、利用者は相手がコンピュータシステムであることを意識せずに様々なサービスを利用することができる。中でも、人間に対するシステム出力のためのインターフェースとして音声合成の重要性は大きい。
音声による対話で重要なのは、その自然さである。人間が音声による対話に不自然さを感じ取ると、それは発話にも影響を及ぼす。その結果、人間とシステムとの間の対話がうまく行かなくなるおそれもある。従って、音声による対話ができるだけ自然に行なえるよう、様々な工夫がされている。その典型的なものは、合成された音声そのものができるだけ自然に聞こえるよう、合成音声の音質を改良することである。
しかし、合成音声による対話を不自然に感じさせないために改良が必要なのは、合成音声の音質だけではない。例えば、合成音声とともに顔画像のアニメーションを表示させるようなアプリケーションでは、顔画像の動きと合成音声の進行とを同期させる必要がある。また、発話のテンポも微妙に調整する必要が生じるかもしれない。すなわち、音声合成と並行して、音声合成の速度調整、同時に表示される画像の制御など、何らかの処理を行なう場合、それらの処理を音声合成と連携して実行させる必要がある。
以下、そのための従来の方法について述べる。従来は、音声合成とともに行なう処理の制御を行なうために、発話の目標となるテキストにその制御内容を示すタグを付し、音声合成と同時にそのタグに記載された制御を実行する。典型的な例を図6に示す。
図6に示す例では、XML(eXtended Markup Language)による開始タグ「<RATE SPEED="-10">」と終了タグ「</RATE>」との組合せ、及び開始タグ「<RATE SPEED="+10">」と終了タグ「</RATE>」との組合せで、これらタグに囲まれた部分のテキストの音声合成の速度を指定している。音声合成時には、開始タグが検出されると、それ以後、対応する終了タグが見つかるまでに存在するテキストを、タグにより指定された速度で合成する。
かな漢字混じりの文を受けた場合、音声合成を行なうためにはその読みを取得する必要がある。そのために従来は、予め形態素とその読みとを辞書として準備しておき、入力されたかな漢字混じりの文をこの辞書を用いて形態素解析し、読み文字が付与された形態素列を得る。そして、得られた形態素列に対応する読みに従って音声合成を行なう。
しかし、このように形態素解析を行なう場合、上記したようなタグがテキストに挿入されていると、形態素解析が正しく行なわれないことがある。例を図7に示す。
図7に示す例は、「紫陽花」という語を二つに分けてそれぞれに別々のタグを付した例を示す。最初のタグ「VOLUME LEVEL="50"」と「</VOLUME>」とで囲まれた文字「紫」と、次のタグ「VOLUME LEVEL="100"」と「</VOLUME>」とで囲まれた文字列「陽花」とは、本来は「あじさい」という読みを持つ一つの語であるにもかかわらず、形態素解析では別々のものとして出力される。その結果、これらに対して得られる読みは「むらさきようはな」となってしまう。従ってこの読みに基づいて音声合成を行なうと、当初意図されたものとは異なる音声が合成されてしまう。
このような問題は、「紫陽花」とか「香具師」のように、表記文字を複数部分に分けると、各部分の表記文字の読みが本来のものと全く異なってしまう単語の場合に特有の問題である。複数部分に分けても正しい読みが得られればこうした問題は生じない。しかし現実問題として「紫陽花」とか「香具師」など、個々の表記文字の読みと全体の読みとが無関係の単語はかなりある。
これらの問題について、形態素解析と音声合成とに関する上記したような問題点を避けるためには、これらの語については必ず一つの単語として扱い、タグで複数の部分に分けることがないようにしなければならない。
しかし、音声合成を細かく制御するためには、各単語について上記したような制限を意識することなく、所望の形で分割してタグ付けし、しかも正しく音声合成を行なうことができるようにすることが望ましい。
それ故に本発明の目的は、単語を構成する表記文字の各々の読みが単語全体の読みと無関係であるような単語についても、任意の部分で分割してタグ付けしたテキストから音声合成することが可能な音声合成装置及びそのための文字割当装置を提供することである。
本発明の第1の局面に係る音声合成装置は、所定のマークアップ言語のタグを含む入力テキストに基づいて音声合成を行なう音声合成装置であって、入力テキストをタグとテキストとに分離するためのタグ分離手段と、テキスト分離手段により分離されたテキストに対して形態素解析を行ない、形態素単位で読み文字を取得するための形態素解析手段と、形態素解析手段により取得された読み文字が付与された形態素のシーケンスを受け、各形態素を構成する表記文字と、当該形態素に付与された読み文字との間の対応関係を所定の割当方式により割当てるための割当手段と、割当手段により読み文字の割当がされた表記文字からなる形態素のシーケンスを受け、タグ分離手段により分離されたタグを、形態素のシーケンスに含まれる読み文字からなるシーケンス中の、入力テキスト中での当該タグの位置に対応する位置に挿入するためのタグ挿入手段と、タグ挿入手段によりタグが挿入された読み文字からなるシーケンスに基づいて音声合成を行なうための音声合成手段とを含む。
好ましくは、割当手段は、各形態素の読み文字の数と、当該形態素を構成する表記文字の数との間に所定の複数の関係のいずれが成立しているかを判定するための判定手段と、判定手段による判定結果に応答して、複数の関係に対応して予め定められた複数の割当方法のいずれかを選択し、選択された割当方法に従って、各形態素の読み文字を、当該形態素を構成する表記文字に割当てるための手段とを含む。
さらに好ましくは、複数の割当方法は、互いに異なった割当方法である。
割当手段は、各形態素の読み文字の数と、当該形態素を構成する表記文字の数との間に成立する関係が所定の第1、第2、及び第3の関係のうちのいずれであるかを判定するための判定手段と、判定手段による判定結果に応答して、第1の割当方法と、当該第1の割当方法と異なる第2の割当方法と、第1の割当方法及び第2の割当方法のいずれとも異なる第3の割当方法とのうちのいずれかを選択して、選択された割当方法に従って、各形態素の読み文字を、当該形態を構成する表記文字に割当てるための手段とを含んでもよい。
本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記したいずれかの音声合成装置として動作させる。
本発明の第3の局面に係る文字割当装置は、読み文字が付与された形態素を受け、当該形態素を構成する表記文字と、当該形態素に付与された読み文字との間の対応関係を所定の割当方式により割当てる文字割当装置であって、形態素の読み文字の数と、当該形態素を構成する表記文字の数との間に所定の複数の関係のいずれが成立しているかを判定するための判定手段と、判定手段による判定結果に応答して、複数の関係に対応して予め定められた複数の割当手段のいずれかを選択し、選択された割当手段により、各形態素の読み文字を、当該形態を構成する表記文字に割当てるための手段とを含む。
好ましくは、複数の割当手段は、互いに異なった割当方法を実行する割当手段である。
より好ましくは、複数の関係は、形態素の読み文字の数と、当該形態素を構成する表記文字の数とが等しいという第1の関係を含み、複数の割当手段は、第1の関係が成立していることにより選択される第1の割当手段を含み、当該第1の割当手段は、形態素の読み文字と形態素の表記文字とを1対1で対応付ける。
さらに好ましくは、複数の関係は、形態素の読み文字の数が、当該形態素を構成する表記文字の数より大きいという第2の関係をさらに含み、複数の割当手段は、第2の関係が成立していることにより選択される第2の割当手段をさらに含み、当該第2の割当手段は、形態素の読み文字を形態素の表記文字の先頭から順に1文字ずつ割当てていく。
複数の関係は、形態素の読み文字の数が、当該形態素を構成する表記文字の数以下であるという第3の関係をさらに含んでもよく、複数の割当手段は、第3の関係が成立していることにより選択される第3の割当手段をさらに含んでもよく、当該第3の割当手段は、形態素の読み文字の数を形態素の表記文字の数で除した商に相当する数の読み文字を表記文字の先頭から順に割当て、さらに先頭から余りに相当する数の表記文字に1文字ずつ読み文字を割当てるものであってもよい。
本発明の第4の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記したいずれかの文字割当装置として動作させる。
−構成−
図1に、本発明の一実施の形態に係る音声合成システム10のブロック図を示す。図1を参照して、この音声合成システム10は、タグ付きのかな漢字混じりの入力テキスト20を受け、途中にタグが挿入された単語(形態素)も含めて正しい読み文字を単語に付し、かつ入力テキスト20と同様のタグ付けをした合成用テキスト24を出力するためのテキスト前処理装置22と、合成用テキスト24に含まれる単語シーケンスに含まれる読み文字に基づき、合成用テキスト24に含まれるタグにより指定された態様で音声合成を行なうための音声合成部26とを含む。
テキスト前処理装置22は、入力テキスト20を受け、タグと、タグを分離した後のテキストとを出力するためのタグ分離部32と、タグ分離部32により分離された分離後テキストを記憶するための分離後テキスト記憶部34と、タグ分離部32により分離されたタグを、分離後のテキスト中で当該タグを挿入すべき位置と関連付けて記憶するためのタグ記憶部36とを含む。この個所を記憶しておくことにより、各形態素に読み文字を付して得た読み文字のシーケンス中で、タグの当初の位置に対応する適切な位置にタグを挿入することができる。
テキスト前処理装置22はさらに、形態素解析のための形態素辞書40と、形態素辞書40を用いて分離後テキスト記憶部34に記憶されたテキストの形態素解析を行ない、形態素解析後テキスト42を出力するための形態素解析部38とを含む。
形態素解析後テキスト42は、図1に示すように各形態素と、各形態素に応じて形態素辞書40から読出された読みとが形態素単位で対応付けられたもののシーケンスである。
テキスト前処理装置22はさらに、形態素解析後テキスト42の各形態素に関し、従来技術で述べた問題点を解消するように、所定の文字割当方式に従って各形態素の読みを当該形態素の表記文字に割当てて割当後テキスト46を出力するための文字割当部44を含む。
割当後テキスト46を構成する形態素シーケンスの各形態素(例えば「紫陽花」)は、それを構成する文字(例えば文字70,72,74)ごとに、形態素解析部38によって当該形態素に付された読み(読み60,62,64)が割当てられたものである。本実施の形態に係る文字割当部44による文字割当の方法については、図2及び図3を参照して後述する。
テキスト前処理装置22はさらに、文字割当部44の出力する割当後テキスト46の所定個所に、タグ記憶部36に記憶されていたタグを挿入して合成用テキスト24を生成するためのタグ挿入部48を含む。
図2に、文字割当部44による文字割当の手順を示す。この手順は、例えばコンピュータ上で実行されるプログラムにより実現できる。図2に示す手順を、形態素ごとに実行すればよい。
図2を参照してこの処理は、処理対象の形態素の読みの数と表記文字の数とが一致するか否かを判定し、一致する場合にはステップ122に、それ以外の場合にはステップ124に、それぞれ分岐するステップ120を含む。ステップ122は、読みの数と表記文字の数とが一致するときに実行され、読みを各表記文字に1対1で割当てて処理を終了する。
ステップ124は、読みの数と表記文字の数とが一致しないときに実行され、読みの数が表記文字の数より大きいか否かを判定する。大きい場合にはステップ128に、それ以外のときにはステップ126に、それぞれ制御が分岐する。ステップ126では表記文字の先頭から1文字ずつ読みを割当てる処理が実行される。
本実施の形態では、ステップ128では、以下のような演算によって読みを形態素の各表記文字に割当てる。まず、読み/表記文字数を演算し、商と余りとを求める。各表記文字に、割当てられる読みの数としてこの商の値を割当てる。次に、表記文字の先頭から、割当てられる読みの数に順に1ずつ加算し、加算した数の合計が余りと等しくなった時点で処理を終了する。
「紫陽花」を例にとって説明する。この場合、読みは4、表記文字数は3であるから、図2のフローチャートではステップ120、124を経てステップ128の処理が行なわれる。上記した読み/表記文字数に上記した数を当てはめると、4/3=1…1、すなわち、商は1、余りは1となる。「紫」「陽」「花」にそれぞれ商の1ずつを割当てた後、余りの1を「紫」への割当読み数に加算する。この加算により余りは全て使い切ったことになる。従って「紫」「陽」「花」への読みの割当数はそれぞれ2,1,1となる。
「香具師」の場合であれば、読みは2、表記文字数は3である。この場合、ステップ120、124を経てステップ126の処理が実行される。すなわち、表記の先頭から読みが1文字ずつ割当てられる。従って「香」に「や」が、「具」に「し」が、それぞれ割当てられる。「師」には何も割当てられない。
−動作−
上記した音声合成システム10は以下のように動作する。まず、タグ付きの入力テキスト20がタグ分離部32に与えられる。タグ分離部32は、入力テキスト20からテキストとタグとを分離し、それぞれ分離後テキスト記憶部34及びタグ記憶部36に記憶させる。このとき、タグ記憶部36中の各タグには、分離後テキスト記憶部34中で当該タグを挿入すべき位置が記憶されている。
形態素解析部38は、形態素辞書40を参照して、分離後テキスト記憶部34に記憶されたテキストに対する形態素解析を行なう。分離後テキスト記憶部34のテキストにはタグは含まれていないので、従来技術の場合と異なり正しい形態素解析が行なわれ、各形態素には正しい読みが付される。形態素解析部38はこうして得られた形態素解析後テキスト42を文字割当部44に与える。
文字割当部44は、形態素解析後テキスト42から与えられる形態素ごとに、図2に示す割当処理を行ない、形態素の読みを、表記文字に割当てて割当後テキスト46として出力する。
タグ挿入部48は、このようにして表記文字に読みが割当てられた割当後テキスト46の、入力テキスト20においてタグが挿入されていた個所を探し、タグ記憶部36に記憶されていたタグを適切な挿入個所に挿入する。これにより、合成用テキスト24が得られる。
音声合成部26は、この合成用テキスト24に基づいて音声合成を行なう。この音声合成では形態素解析が正しく行なわれ、各形態素には正しい読みが割当てられているので、誤った音声合成を行なうことはない。また、各形態素では表記文字の各々と読みとの間の対応関係が付けられており、かつ入力テキスト20の中のタグは合成用テキスト24の中でも正しい位置に挿入されている。従って、入力テキスト20の表記文字を単位として、かつかな漢字混じり文中のタグにより指示された態様で、音声合成部26が音声合成を行なうことができる。入力テキスト20中に、タグが途中に挿入された単語が存在していても、その単語は正しい読みで、かつそのタグによる指示を正しく反映した形で音声合成される。
図3を参照して、「紫陽花」を具体例として上記動作の結果を説明する。この形態素の表記90は、「紫陽花」という3文字の文字列である。形態素解析の結果得られた読みは、「あじさい」とう4文字の読み92である。この読みを上記した割当方法により表記文字に割当てることで、図3に示すように「紫」には「あじ」が、「陽」には「さ」が、「花」には「い」が、それぞれ読みとして割当てられる。
これらの読みは、音声合成部26による音声合成処理の中でそれぞれ「a」「ji」「sa」「i」という音素列94に変換される。これら音素の継続長をそれぞれT1〜T6とすれば、音声合成時、「紫」(あじ)の部分の継続長はT1+T2+T3、「陽」(さ)の部分の継続長はT4+T5、「花」(い)の部分の継続長はT6となる。従って、本実施の形態の装置では、表記の1文字単位に発話長さとの対応をとることができ、表記文字の単位でその音声合成時の発話の態様を制御することができる。
−コンピュータによる実現−
この実施の形態の音声合成システム10は、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図4はこのコンピュータシステム330の外観を示し、図5はコンピュータシステム330の内部構成を示す。特に、文字割当部44については図2に示した制御構造をもつプログラムにより実現できる。
図4を参照して、このコンピュータシステム330は、FD(フレキシブルディスク)ドライブ352及びCD−ROM(コンパクトディスク読出専用メモリ)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342とを含む。
図5を参照して、コンピュータ340は、FDドライバ352及びCD−ROMドライブ350に加えて、CPU(中央処理装置)356と、CPU356、FDドライブ352及びCD−ROMドライブ350に接続されたバス366と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ(RAM)360とを含む。コンピュータシステム330はさらに、プリンタ344を含んでいる。
ここでは示さないが、コンピュータ340はさらにローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
コンピュータシステム330に音声合成システム10としての機能を実現させるためのコンピュータプログラムは、CD−ROMドライブ350又はFDドライブ352に挿入されるCD−ROM362又はFD364に記憶され、さらにハードディスク354に転送される。又は、プログラムは図示しないネットワークを通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。CD−ROM362から、FD364から、又はネットワークを介して、直接にRAM360にプログラムをロードしてもよい。
このプログラムは、コンピュータ340にこの実施の形態の音声合成システム10としての機能を実現させる複数の命令を含む。このために必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム(OS)又はサードパーティのプログラム、若しくはコンピュータ340にインストールされる各種ツールキットのモジュールにより提供される。従って、このプログラムはこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又は「ツール」を呼出すことにより、上記した音声合成システム10の各機能を実現する命令のみを含んでいればよい。コンピュータシステム330の動作は周知であるので、ここでは繰返さない。
なお上記した実施の形態では、商を割当てる場合に表記文字の先頭から順番に1文字ずつ割当てるようにした。しかし本発明はそのような実施の形態には限定されない。後ろから順番に割当てるようにしても良いし、重複がないような任意の順番で割当てるようにしてもよい。また、場合によっては重複を許してもよい。
また、上記した実施の形態ではXMLによるタグ付けを例として説明した。しかし、本発明はそのような実施の形態には限定されず、他のどのようなマークアップ言語を使用した場合でも適用できる。
さらに、上記した実施の形態に係る文字割当部44は、テキスト前処理装置22の一部としてではなく、他にも読みと表記文字との対応関係をとる必要がある場合に使用することができ、その場合にはテキストがマークアップされたものである必要はない。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
本発明の一実施の形態に係る音声合成システム10のブロック図である。 図1に示す文字割当部44を実現するための手続きのフローチャートである。 表記文字への読みの割当を示す図である。 本発明の一実施の形態に係る音声合成システム10を実現するコンピュータシステムの外観を示す図である。 図4に示すコンピュータシステムのブロック図である。 XMLによりタグ付けされた入力テキストの一例を示す図である。 XMLによりタグ付けされた入力テキストの他の一例を示す図である。
符号の説明
10 音声合成システム、20 入力テキスト、22 テキスト前処理装置、24 合成用テキスト、26 音声合成部、32 タグ分離部、34 分離後テキスト記憶部、36 タグ記憶部、38 形態素解析部、40 形態素辞書、42 形態素解析後テキスト、44 文字割当部、46 割当後テキスト、48 タグ挿入部

Claims (8)

  1. 所定のマークアップ言語のタグを含む入力テキストに基づいて音声合成を行なう音声合成装置であって、
    前記入力テキストをタグとテキストとに分離するためのタグ分離手段と、
    前記タグ分離手段により分離されたタグを、分離後の前記テキスト中で当該タグを挿入すべき位置と関連付けて記憶するためのタグ記憶手段と、
    前記タグ分離手段により分離されたテキストに対して形態素解析を行ない、形態素単位で読み文字を取得するための形態素解析手段と、
    前記形態素解析手段により取得された読み文字が付与された形態素のシーケンスを受け、各形態素を構成する表記文字と、当該形態素に付与された読み文字との間の対応関係を所定の割当方式により割当てるための割当手段と、
    前記割当手段により読み文字の割当がされた表記文字からなる形態素のシーケンスを受け、前記タグ記憶手段に記憶されているタグを、前記形態素のシーケンスに含まれる読み文字からなるシーケンス中の、前記タグ記憶手段に記憶されている前記当該タグを挿入すべき位置に対応する位置に挿入するためのタグ挿入手段と、
    前記タグ挿入手段によりタグが挿入された読み文字からなるシーケンスに基づいて音声合成を行なうための音声合成手段とを含む、音声合成装置。
  2. 前記割当手段は、各形態素の読み文字の数と、当該形態素を構成する表記文字の数との間に所定の複数の関係のいずれが成立しているかを判定するための判定手段と、
    前記判定手段による判定結果に応答して、前記複数の関係に対応して予め定められた複数の割当方法のいずれかを選択し、選択された割当方法に従って、各形態素の読み文字を、当該形態素を構成する表記文字に割当てるための手段とを含む、請求項1に記載の音声合成装置。
  3. 前記複数の割当方法は、互いに異なった割当方法である、請求項2に記載の音声合成装置。
  4. 前記割当手段は、各形態素の読み文字の数と、当該形態素を構成する表記文字の数との間に成立する関係が所定の第1、第2、及び第3の関係のうちのいずれであるかを判定するための判定手段と、
    前記判定手段による判定結果に応答して、第1の割当方法と、当該第1の割当方法と異なる第2の割当方法と、前記第1の割当方法及び前記第2の割当方法のいずれとも異なる第3の割当方法とのうちのいずれかを選択して、選択された割当方法に従って、各形態素の読み文字を、当該形態を構成する表記文字に割当てるための手段とを含む、請求項1に記載の音声合成装置。
  5. 前記第1の関係は、形態素の読み文字の数と、当該形態素を構成する表記文字の数とが等しいという関係であり、
    前記第1の割当方法は、前記形態素の読み文字と前記形態素の表記文字とを1対1で対応付ける方法であり、
    前記割当てるための手段は、前記判定手段によって、各形態素の読み文字の数と、当該形態素を構成する表記文字の数との間に成立する関係が前記第1の関係であると判定された場合に、前記第1の割当方法を選択する、請求項4に記載の音声合成装置。
  6. 前記第2の関係は、形態素の読み文字の数が、当該形態素を構成する表記文字の数以下であるという関係であり、
    前記第2の割当方法は、前記形態素の読み文字を前記形態素の表記文字の先頭から順に1文字ずつ割当てていく方法であり、
    前記割当てるための手段は、前記判定手段によって、各形態素の読み文字の数と、当該形態素を構成する表記文字の数との間に成立する関係が前記第2の関係であると判定された場合に、前記第2の割当方法を選択する、請求項4又は請求項5に記載の音声合成装置。
  7. 前記第3の関係は、形態素の読み文字の数が、当該形態素を構成する表記文字の数より大きいという関係であり、
    前記第3の割当方法は、前記形態素の読み文字の数を前記形態素の表記文字の数で除した商に相当する数の読み文字を表記文字の先頭から順に割当て、さらに先頭から余りに相当する数の表記文字に1文字ずつ読み文字を割当てる方法であり、
    前記割当てるための手段は、前記判定手段によって、各形態素の読み文字の数と、当該形態素を構成する表記文字の数との間に成立する関係が前記第3の関係であると判定された場合に、前記第3の割当方法を選択する、請求項4〜請求項6のいずれか1つに記載の音声合成装置。
  8. コンピュータにより実行されると、当該コンピュータを請求項1〜請求項のいずれかに記載の音声合成装置として動作させる、コンピュータプログラム。
JP2004076303A 2004-03-17 2004-03-17 音声合成装置及び文字割当装置並びにコンピュータプログラム Expired - Fee Related JP4617494B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004076303A JP4617494B2 (ja) 2004-03-17 2004-03-17 音声合成装置及び文字割当装置並びにコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004076303A JP4617494B2 (ja) 2004-03-17 2004-03-17 音声合成装置及び文字割当装置並びにコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2005266085A JP2005266085A (ja) 2005-09-29
JP4617494B2 true JP4617494B2 (ja) 2011-01-26

Family

ID=35090732

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004076303A Expired - Fee Related JP4617494B2 (ja) 2004-03-17 2004-03-17 音声合成装置及び文字割当装置並びにコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP4617494B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6142632B2 (ja) * 2013-04-02 2017-06-07 富士通株式会社 単語辞書登録用コンピュータプログラム、音声合成装置及び単語辞書登録登録方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001117574A (ja) * 1999-10-21 2001-04-27 Nec Corp 文書読み上げ装置および文書読み上げ方法ならびに文書読み上げプログラムを記録する記録媒体
JP2001256142A (ja) * 2000-03-09 2001-09-21 Toshiba Corp 音声情報提供方法及び音声情報提供装置
JP2002091474A (ja) * 2000-09-05 2002-03-27 Lucent Technol Inc 非言語依存韻律マークアップを用いてテキストからスピーチに処理する方法および装置
JP2002123505A (ja) * 2000-10-13 2002-04-26 Sharp Corp 文章表示機能付き情報処理装置及びその処理プログラムを記録した記録媒体
JP2003140678A (ja) * 2001-10-31 2003-05-16 Matsushita Electric Ind Co Ltd 合成音声の音質調整方法と音声合成装置
JP2004070876A (ja) * 2002-08-09 2004-03-04 Casio Comput Co Ltd 会話システム及び会話処理プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08185405A (ja) * 1994-12-27 1996-07-16 Sharp Corp 機械翻訳装置
JPH08227414A (ja) * 1995-02-20 1996-09-03 Canon Inc 文書処理装置及び方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001117574A (ja) * 1999-10-21 2001-04-27 Nec Corp 文書読み上げ装置および文書読み上げ方法ならびに文書読み上げプログラムを記録する記録媒体
JP2001256142A (ja) * 2000-03-09 2001-09-21 Toshiba Corp 音声情報提供方法及び音声情報提供装置
JP2002091474A (ja) * 2000-09-05 2002-03-27 Lucent Technol Inc 非言語依存韻律マークアップを用いてテキストからスピーチに処理する方法および装置
JP2002123505A (ja) * 2000-10-13 2002-04-26 Sharp Corp 文章表示機能付き情報処理装置及びその処理プログラムを記録した記録媒体
JP2003140678A (ja) * 2001-10-31 2003-05-16 Matsushita Electric Ind Co Ltd 合成音声の音質調整方法と音声合成装置
JP2004070876A (ja) * 2002-08-09 2004-03-04 Casio Comput Co Ltd 会話システム及び会話処理プログラム

Also Published As

Publication number Publication date
JP2005266085A (ja) 2005-09-29

Similar Documents

Publication Publication Date Title
US5850629A (en) User interface controller for text-to-speech synthesizer
JP3610083B2 (ja) マルチメディアプレゼンテーション装置および方法
CN109389968B (zh) 基于双音节混搭的波形拼接方法、装置、设备及存储介质
JP3450411B2 (ja) 音声情報処理方法及び装置
JP4478939B2 (ja) 音声処理装置およびそのためのコンピュータプログラム
KR100391243B1 (ko) 음조언어(tonallanguage)인식을위해콘텍스트의존형(contextdependent)부음절(sub-syllable)모델을생성하고사용하기위한시스템및방법
JP3083640B2 (ja) 音声合成方法および装置
CN116034424A (zh) 两级语音韵律迁移
KR20200141497A (ko) 클록워크 계층적 변이 인코더
JP7228998B2 (ja) 音声合成装置及びプログラム
US7099828B2 (en) Method and apparatus for word pronunciation composition
US20080243510A1 (en) Overlapping screen reading of non-sequential text
JP4617494B2 (ja) 音声合成装置及び文字割当装置並びにコンピュータプログラム
JP2006236037A (ja) 音声対話コンテンツ作成方法、装置、プログラム、記録媒体
JP2004334207A (ja) 日本語および中国語音声認識システムのトレーニングのための動的な発音の補助
US11250837B2 (en) Speech synthesis system, method and non-transitory computer readable medium with language option selection and acoustic models
US20030216921A1 (en) Method and system for limited domain text to speech (TTS) processing
JPH08272388A (ja) 音声合成装置及びその方法
JP7243418B2 (ja) 歌詞入力方法およびプログラム
CN114822492B (zh) 语音合成方法及装置、电子设备、计算机可读存储介质
Hill et al. Unrestricted text-to-speech revisited: rhythm and intonation.
JP5125404B2 (ja) 省略語判定装置、コンピュータプログラム、テキスト解析装置及び音声合成装置
JP2000214874A (ja) 音声合成装置及びその方法、コンピュ―タ可読メモリ
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
JP2003280680A (ja) 音声合成装置およびその方法およびそのプログラムならびに記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100401

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100907

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101005

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131105

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4617494

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees