JP2004326367A - テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置 - Google Patents

テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置 Download PDF

Info

Publication number
JP2004326367A
JP2004326367A JP2003119064A JP2003119064A JP2004326367A JP 2004326367 A JP2004326367 A JP 2004326367A JP 2003119064 A JP2003119064 A JP 2003119064A JP 2003119064 A JP2003119064 A JP 2003119064A JP 2004326367 A JP2004326367 A JP 2004326367A
Authority
JP
Japan
Prior art keywords
dictionary
abbreviation
text
word
text analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003119064A
Other languages
English (en)
Inventor
Masaya Nakamura
雅也 中村
Tomokazu Morio
智一 森尾
Osamu Kimura
治 木村
Kazuhiro Miki
一浩 三木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2003119064A priority Critical patent/JP2004326367A/ja
Publication of JP2004326367A publication Critical patent/JP2004326367A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】比較的簡単な構成で、テキスト文章中に含まれる省略語を正式名称に補完できるテキスト解析装置、テキスト解析方法を提供する。
【解決手段】テキスト解析装置は、入力されたテキスト文書を、単語辞書を参照してテキスト解析を行うとともに、単語辞書の見出しと照合しない入力テキストの部分文字列に対して、前記省略語辞書を参照してテキスト解析を行う言語解析手段と、省略語辞書を参照してテキスト解析が成功した場合に、省略語に対応する正式名称のテキスト解析結果を出力する省略語補完手段と、を用いて、省略語を正式名称に置き換えてテキスト解析を行う。
【選択図】 図2

Description

【0001】
【発明の属する技術分野】
本発明は、入力されたテキスト文章中に省略語が含まれている場合に、省略語を正式名称に補完するテキスト解析装置、テキスト解析方法、およびテキスト音声合成装置に関する。
【0002】
【従来の技術】
日本語テキスト文書をテキスト解析する場合には、品詞などの単語情報を格納した単語辞書を用いて、単語同士の文法的な接続関係をチェックしながら、テキスト文章の文頭から順に単語辞書と照合し、文字列を単語に解析していく。この場合に、入力した日本語テキスト文章中に含まれる省略語は、単語辞書に存在しないために、未定義単語とされてしまう。
【0003】
また、テキスト文章を音声に変換するテキスト音声合成装置がある。テキスト音声合成装置では、単語辞書には、通常、読みやアクセントなどの単語情報が格納されている。このため、単語情報が付加された単語列をテキスト解析結果として得ることができる。音声合成を行う場合には、この単語列に韻律を付加して、音声を合成する。しかし、テキスト文章中に単語辞書に未登録の省略語を含む場合には、合成音声で読み上げる際に、読み上げに誤りが生じる、不適切なアクセントやポーズをとるという問題がある。例えば、省略語「国連」が単語辞書に存在しなかった場合には、「国連」という単語に解析されず、「国」+「連」という別の単語に解析される。このため、「くにれん」と誤った読みで読まれる、または不適切なアクセントをとるという問題がある。
【0004】
未登録の省略語を認定する方法としては、例えばキー見出しとなる漢字1文字ごとに、その漢字1文字から派生する可能性のある短縮語があるかどうかの短縮語派生可能フラグを記述し、キー見出しとなる漢字1文字の後方に結合してこのキー見出しとなる漢字1文字とで短縮語を派生し得る後方言語の意味属性を記述している派生要素情報辞書を用いて、処理対象文字列を日本語単語辞書で処理する際に、処理対象文字列としての文字列上で後方の単語候補との間で、文法的な接続条件を満たしていない漢字1文字の単語候補があった場合に、短縮語を単語として認定し、品詞、読みを与える方法が知られている(例えば、特許文献1参照)。
【0005】
この方法によれば、文章中に含まれる短縮語が単語として認定される。しかし、このためには、文法的な接続条件を記述している文法辞書や、上記した派生要素情報辞書が必要である。これらの辞書を作成するには、手間がかかる。また、正確な辞書を作るのは不可能に近く、この方法は、実用に沿わない。
【0006】
一方、省略語を正式名称に補完する方法としては、例えば省略語の文字が全て含まれる正式名称を正式名称候補として、抽出する方法が挙げられる(例えば、特許文献2参照)。具体的には、(1)省略語として「AB」が入力された場合に、正式名称辞書の中から、「A」、「B」を含む語を探す、(2)複数の候補の中から、例えば「A」と「B」とが、離れているほうを優先するなどのアルゴリズムを用いて、正式名称候補に優先順位をつける。この方法を用いて、例えば、省略語「東大」を入力すると、「東京大学」、「東北大学」、「関東大震災」、「東京大会」などの候補が挙げられる。そして、候補の中から、正式名称を決定する。しかし、この文献に記載の方法では、省略語として指定された文字列を省略語補完装置で、補完処理をする。このため、通常のテキスト文章として入力された文章をテキスト解析するためには、別途、省略語を指定して処理するという操作を加える必要がある。
【0007】
また、特許文献1に記載の発明では、略語単語の認定精度が低下することによる略語単語の読み上げの誤りについて触れており、この発明を音声合成に用いることは予定している。しかし、この発明の構成では、読み情報しか付加されないので、文章全体に正しい韻律を付加することはできない。一方、特許文献2に記載の発明には、この装置を音声合成に用いることについてはなんら記載されていない。
【0008】
【特許文献1】
特開平6−161996号公報(請求項1、段落0002〜0005)
【特許文献2】
特開平11−353316号公報(請求項1、段落0012〜0019)
【0009】
【発明が解決しようとする課題】
本発明は、上記問題に鑑みなされたものであり、その目的は、比較的簡単な構成で、テキスト文章中に含まれる省略語を正式名称に補完できるテキスト解析装置、テキスト解析方法を提供することにある。
本発明の別の目的は、テキスト文章中に含まれる省略語を正式名称に補完すると同時に、音声合成に必要な単語情報を付加し、正しい読みやアクセントで音声が合成できるテキスト音声合成装置を提供することにある。
【0010】
【課題を解決するための手段】
上記目的を達成するため、本発明のテキスト解析装置では、単語辞書以外に、複数の単語からなる正式名称を格納する正式名称辞書と、正式名称から予測される省略語を格納する省略語辞書とを有し、単語辞書と省略語辞書に基づいてテキスト解析を行うとともに、省略語を正式名称に置き換える構成とする。すなわち、本発明のテキスト解析装置では、入力されたテキスト文書を、単語辞書を参照してテキスト解析を行うとともに、単語辞書の見出しと照合しない入力テキストの部分文字列に対して、前記省略語辞書を参照してテキスト解析を行う言語解析手段と、省略語辞書を参照してテキスト解析が成功した場合に、省略語に対応する正式名称のテキスト解析結果を出力する省略語補完手段と、を用いて、省略語を正式名称に置き換えてテキスト解析を行う。
【0011】
この構成によると、正式名称辞書と省略語辞書という比較的作成しやすい辞書に基づいて省略語を正式名称に置き換えることができる。また、単語辞書と照合しない文字列について正式名称辞書と省略語辞書とを用いて、テキスト解析するので、省略語を指定して処理するという工程を必要としない。
【0012】
前記省略語辞書は、同一の正式名称から所定のルールに基づいて導出された複数の省略語候補を格納するものであってもよい。
【0013】
この構成によれば、省略語辞書の容量を小さくすることができる。
【0014】
部分文字列を省略語辞書と照合し、同一の正式名称から導出された複数の省略語候補のうち、一つの省略語候補と整合した場合には、それ以外の省略語候補の全部または一部を削除する構成としてもよい。
【0015】
前記単語辞書には、各単語に単語番号が付与されており、前記正式名称辞書は、正式名称を構成する個々の単語に対応する単語辞書の単語番号と正式名称のアクセントとで、構成されていてもよい。
【0016】
本発明のテキスト解析方法は、入力されたテキスト文書を、単語辞書と、複合語からなる正式名称を格納する正式名称辞書と、正式名称から予測される省略語を格納する省略語辞書とを参照して単語に分割しテキスト解析を行うテキスト解析方法であって、(1)前記入力されたテキスト文章から、前記単語辞書に登録されている単語に一致する文字列を照合してテキスト解析を行う工程と、(2)前記入力されたテキスト文章から、前記単語辞書と照合しない入力テキストの部分文字列に対して、省略語辞書を参照してテキスト解析を行う工程と、(3)前記単語辞書と照合しない入力テキストの部分文字列が、省略語辞書に登録されている単語に一致する場合は、省略語に対応する正式名称を正式名称辞書に照合する工程と、(4)省略語を対応する正式名称に置き換えて、テキスト解析結果として出力する工程とを有する。
【0017】
本発明のテキスト音声合成装置は、入力されたテキスト文書を、単語に分割しテキスト解析を行い、発音情報を生成するテキスト解析部と、前記発音情報に基づいて音声を合成する音声合成部とを有するテキスト音声合成装置であって、前記テキスト解析部は、単語辞書と、複数の単語からなる正式名称を格納する正式名称辞書と、正式名称から予測される省略語を格納する省略語辞書とを有し、前記入力されたテキスト文章を、前記単語辞書を用いてテキスト解析を行い、前記入力されたテキスト文章のうち、前記単語辞書の見出しと照合しない入力テキストの部分文字列に対して、前記省略語辞書を参照してテキスト解析を行う言語解析手段と、省略語辞書を参照してテキスト解析が成功した場合に、省略語に対応する正式名称のテキスト解析結果を出力する省略語補完手段と、を有するものである。
【0018】
【発明の実施の形態】
以下に、本発明の実施の形態を、図面を参照しながら説明する。なお、本発明は、これらによって限定されるものではない。
【0019】
(実施の形態1)
【0020】
図1は、本発明のテキスト解析装置の構成を示す図である。図1に示すように、テキスト解析装置10は、制御部(CPU)101と、プログラムメモリ(ROM)102と、データメモリ(RAM、ROM)103と、入力部104と、ネットワークインターフェース105と、外部記憶部106と、出力部107とを含み構成され、これらの各部が、相互にバス108でバス接続されている。
【0021】
制御部101は、プログラムメモリ(RAM)102内に格納されているプログラムに従って動作し、この装置全体の動作を制御している。データメモリ(ROM)102は、制御部101で使用される各種制御データを記憶している。データメモリ(RAM)102は、制御部101による各種制御処理の実行時、ワークエリアとして使用され、各種データを一時的に保存する。プログラムメモリ102は、制御部101によって実行されるプログラムが格納されている。テキスト解析プログラムは、外部記憶部106または外部ネットワークよりネットワークインターフェース105を介してプログラムメモリ102に格納される。制御部101は、キーボードなどの入力部104により入力されたテキスト文章、外部ネットワークからネットワークインターフェース105を介して入力されたテキスト文章、あるいは外部記憶部106より入力されるテキスト文章をテキスト解析する。音声合成プログラムなどの他のプログラムも、同様にしてプログラムメモリ102に格納される。テキスト解析結果を制御部101で、音声合成プログラムにより処理することで、音声合成処理がされる。
【0022】
単語辞書は、外部記憶部106または外部ネットワークよりネットワークインターフェース105を介してデータメモリ(RAM)103に格納される、あるいはデータメモリ(ROM)103に直接書き込まれている。正式名称辞書は、外部記憶部106または外部ネットワークよりネットワークインターフェース105を介してデータメモリ(RAM)103に格納される。省略語辞書は、正式名称辞書から作成されデータメモリ(RAM)103に格納される。
【0023】
出力部107は、たとえば表示パネル、プリンタ、あるいは音声合成装置であり、制御部101から出力される指示に従って、データを表示、印刷、あるいは音声が出力される。
【0024】
ネットワークインターフェース105は、インターネットなどの外部ネットワークに接続され、ネットワークを介して到来したデータを受信して、制御部に出力する。外部記憶部106は、CD−ROM、DVD−ROMなどの記録媒体から、プログラムデータなどを呼び出して、制御部101に出力する。なお、こうして読み出されたプログラムデータは、制御部101の処理によってデータメモリ103などへインストールされる。
【0025】
本発明のテキスト解析装置10は、その出力部107に表示部を設ければ、テキスト解析結果を表示でき、プリンタを設ければ印刷できる。あるいは、上記したように、音声出力プログラムと音声合成装置を付加して、テキスト音声合成装置とすることもできる。
【0026】
図2は、本実施の形態のテキスト解析装置を組み込んだテキスト音声合成装置を説明する構成ブロック図である。テキスト解析装置(テキスト解析部)10は、言語解析部11と、単語辞書12と、省略語辞書13と、正式名称辞書14とから構成される。テキスト解析結果は、韻律付加部20に送られ韻律を付加された後、音声合成部30で音声データが合成される。図3は、入力されたテキスト文章が、本発明のテキスト解析装置で、テキスト解析されていく過程を示す図である。図3(1)は、入力されたテキスト文章を、図3(2)は、単語辞書と、省略語辞書とで、テキスト解析がされた文章を、図3(3)は、省略語が、正式名称に置き換えられた文章を示している。
【0027】
テキスト文章「電車で関空へ行く」が、文字が羅列された状態で、入力される(図3(1))。言語解析部11で、まず、単語辞書12と省略語辞書13とを用いて、形態素解析を行う。すなわち、単語を切り出し、さらに単語の読み、品詞、アクセントなどの単語情報が付加される。具体的には、上記テキスト文章は、図3(2)に示すように、「電車・で」「関空・へ」「行く」となる。「関空」は、省略語であるため、単語辞書12では、解析できない。そこで、「関空」は、省略語辞書13を用いて解析される。省略語辞書13で、「関空」は「関西国際空港」の省略語であると判断されると、正式名称辞書14から「関西国際空港」が出力され、「関空」が「関西国際空港」に置き換えられる。また、正式名称辞書14には、正式名称の読み、品詞、アクセントなどの単語情報が格納されており、これらの単語情報が付加される。これらの分割され、読みと、品詞情報とが付与された単語と、および置き換えられた正式名称とは、意味的、文法的なまとまりで結合し、複合語が形成される。この結果、図3(3)に示すようなテキスト解析結果が、出力される。テキスト解析結果は、韻律付加部20で、韻律を付加される。音声合成部30では、付与された読み、アクセント、韻律に従って、文字列を音声データに変換し出力する。
【0028】
図4は、本発明で使用される単語辞書12の一例を示す図である。図4から判るように、単語辞書12には、各単語に、単語番号、表記、読み、品詞、アクセントなどがそれぞれ登録されている。このため、単語を切り出すと同時に、読みやアクセントなどの単語情報を付加することができる。
【0029】
一方、省略語から、正式名称への補完には、省略語辞書13と正式名称辞書14を用いる。図5は、本実施の形態で使用される省略語辞書と正式名称辞書との関係を示す図である。正式名称辞書には、単語辞書に含まれる複合語で、省略される可能性がある語が挙げられている。各正式名称には、正式名称番号と、表記と、読み、品詞、アクセントとが、登録されている。アクセントは、複合語を構成する個々の言語要素のアクセントとは異なる、複合語独特のアクセントが登録されている。
【0030】
省略語辞書13は、原則として、正式名称辞書14に登録されている正式名称から、派生する全ての語を含む。すなわち、省略語辞書は、正式名称を構成する語を分割し、それらのあらゆる組み合わせから、予測される省略語を省略語候補として含む。例えば、正式名称「国際連合」から予測される省略語は、「国」、「際」、「連」、「合」、「国際」、「国連」、「国合」、「際連」、「際合」、「連合」、「国際連」、「国際合」、「国連合」、「際連合」となる。これらの省略語には、それぞれ正式名称に対応する番号が付され、省略語辞書に格納されている。
【0031】
また、複合語から予測される省略語を作成する際に、(1)先頭文字を必ず含める、(2)複合語を形成する1単語のみでは省略語を構成しない、(3)1文字では省略語を構成しないなどの条件を用いて、予測省略語を作成することもできる。このような構成にすると、省略語辞書のサイズを抑えることができる。この3個の条件を適用すると、例えば上記「国際連合」から予測される省略語は、「国連」、「国際連」、「国連合」の3個になる。図5には、上記3個の条件を適用した「関西国際空港」と「国際連合」とから予測される省略語辞書を表している。
【0032】
さらに、テキスト文章中の文字列が、省略語辞書中の省略語と照合し、正式名称に置き換えられた場合に、複数の省略語候補の中から、(1)文字列と照合した省略語のみを残して、他の省略語候補を削除する構成、あるいは(2)任意の省略語候補を残して、他の省略語候補を削除する構成とすることもできる。このような構成にすると、省略語辞書のサイズを事後的に抑えることができる。例えば、図5の「関西国際空港」の例でいうと、文字列「関空」が、「関西国際空港」に置き換えられた場合には、省略語「関空」と任意の省略語「関西空港」とを省略語辞書に残して、他の省略語候補を削除することができる。
【0033】
また、1の省略語に対応する、複数の異なる正式名称候補が存在する場合には、これらの正式名称候補を表示して、必要な正式名称を選択する構成とすることができる。
【0034】
次に、本発明のテキスト解析装置の動作について図6を用いて詳細に説明する。図6は、本発明にかかるテキスト解析装置の動作を示すフローチャートである。
【0035】
ステップS601では、入力部にてテキスト文章の入力が行われる。ステップS602では、このテキスト文章を単語辞書と省略語辞書とを用いて、辞書検索により、言語解析がなされる。すなわち、テキスト文章のテキストの表記と一致する見出しを持つ単語を単語辞書から読み出す。一方、単語辞書に一致する見出しを持つ単語がなく、省略語辞書にテキストの表記と一致する見出しを持つ単語がある場合には、省略語辞書から、この単語を読み出し、単語候補とする。このステップにおいて、単語、および単語候補が、文法的な接続条件を満たしていることを判断する。このようにして、入力されたテキスト文章の言語解析を行う。言語解析がされたテキスト文章は、ステップS603に進む。
【0036】
ステップS603では、テキスト解析されたテキスト文章の先頭の単語にテキストポインタを設定する。この設定をテキストポインタの初期化という。この処理を行ってステップS604に進む。
【0037】
ステップS604では、先頭の単語が、単語辞書から検索されたのか、省略語辞書で検索されたのかを、判断する。先頭の単語が、単語辞書から検索された場合には、ステップS606に進み、省略語辞書から検索された場合にはステップS605に進む。単語辞書から検索された単語は、ステップS606で、テキスト解析結果として出力される。
【0038】
ステップS605では、省略語辞書で照合した省略語に対応する正式名称を正式名称辞書から読み出し、省略語と置き換える。置き換えられた正式名称は、ステップS606に送られ、テキスト解析結果として出力される。
【0039】
一の省略語に対応する正式名称候補が複数存在する場合には、ステップS605とステップS606との間に、正式名称を選択するステップを設けてもよい。正式名称を選択するステップでは、一の省略語に対応する複数の正式名称候補を表示して、使用者が必要とする正式名称を選択する。
【0040】
一の正式名称に対して、複数の省略語候補が存在する場合には、正式名称を選択した後で、ステップS605とステップS606との間に、不要な省略語候補を省略語辞書から削除するステップを設けてもよい。削除の方法としては、テキスト文章の文字列と照合した省略語辞書に登録されている省略語を残して、他の省略語を全て削除する方法、あるいは置き換えられた正式名称に対応する省略語候補を全て表示し、使用者が必要とする省略語を一つまたは複数選択して、他の省略語候補を削除する方法などがある。
【0041】
ステップS607では、テキスト解析された全ての単語について、処理が終了したか否かを判断する。終了していない場合には、ステップS608へ、終了している場合には、テキスト解析を終了する。ステップS608では、ポインタを次の単語へと進め、ステップS604〜ステップS606を行う。
【0042】
テキスト解析結果に基づき、アクセント、韻律が付加されて音声合成を行うと、テキスト音声合成装置として、用いられる。
【0043】
(実施の形態2)
本実施の形態では、正式名称辞書の構成が異なる点を除けば、実施の形態1と同様である。図7に、本実施の形態にかかる正式名称辞書の一例を示す。すなわち、単語辞書に含まれる正式名称を単語解析しておき、単語辞書へのポインタとして保持する。例えば、正式名称番号S161である「国際連合」は、単語辞書の「国際」と「連合」との複合語である。したがって、それぞれの単語番号「T951」と、「T4535」とを、正式名称辞書の単語番号群に、「T951+T4535」の形で保持する。これにより、正式名称番号S163の表記は、「T951の表記+T4535の表記」=「国際+連合」から、「国際連合」となることがわかる。また、正式名称番号S163の読みは、「T951の読み+T4535の読み」=「こくさい+れんごう」から、「こくさいれんごう」となることがわかる。正式名称番号S163の品詞は、「T951の品詞+T4535の品詞」=「名詞+名詞」から、「名詞」となることがわかる。ただし、アクセントに関しては、単独語が複合されたときに、別個のアクセントを生ずる。したがって、図7に示すようにアクセントに関しては、正式名称のアクセント情報が格納される。
【0044】
本実施の形態によると、正式名称辞書に、表記、読み、品詞情報を格納しなくて良いので、正式名称辞書のデータ容量を削減できる。
【0045】
本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記憶した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成される。
【0046】
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成する。
【0047】
プログラムコードを供給するための記憶媒体としては、例えば、フロッピディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
【0048】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0049】
更に、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0050】
【発明の効果】
以上で説明したように、本発明では、複数の単語からなる正式名称を格納する正式名称辞書と、正式名称から予測される省略語を格納する省略語辞書という比較的簡単な構成で、省略語を補完することができるテキスト解析装置を得ることができる。また、テキスト解析の過程で、省略語が補完されるので、別途省略語を補完する処理を必要としない。
また、省略語を正式名称に補完する際に、単語情報を付加することができるので、正式名称についても、正しい読みやアクセントで音声が合成できるテキスト音声合成装置を得ることができる。
【図面の簡単な説明】
【図1】図1は、本発明のテキスト解析装置の構成を示す図である。
【図2】図2は、本実施の形態のテキスト解析装置を組み込んだテキスト音声合成装置を説明する構成ブロック図である。
【図3】図3は、入力されたテキスト文章が、本発明のテキスト解析装置で、テキスト解析されていく過程を示す図である。図3(1)は、入力されたテキスト文章を、図3(2)は、単語辞書と、省略語辞書とで、テキスト解析がされた文章を、図3(3)は、省略語が、正式名称に置き換えられた文章を示している。
【図4】図4は、本発明で使用される単語辞書の一例を示す図である。
【図5】図5は、本実施の形態で使用される省略語辞書と正式名称辞書との関係を示す図である。
【図6】図6は、本発明にかかるテキスト解析装置の動作を示すフローチャートである。
【図7】図7は、第2の実施の形態にかかる正式名称辞書の一例を示す。
【符号の説明】
10 テキスト解析装置
11 言語解析部
12 単語辞書
13 省略語辞書
14 正式名称辞書
20 韻律付加部
30 音声合成部
101 制御部(CPU)
102 プログラムメモリ
103 データメモリ
104 入力部
105 ネットワークインターフェース
106 外部記憶部
107 出力部
108 バス

Claims (8)

  1. 入力されたテキスト文書を、単語に分割しテキスト解析を行うテキスト解析装置であって、
    前記テキスト解析装置は、
    単語辞書と、複数の単語からなる正式名称を格納する正式名称辞書と、正式名称から予測される省略語を格納する省略語辞書とを有し、
    前記入力されたテキスト文章を、前記単語辞書を用いてテキスト解析を行い、前記単語辞書の見出しと照合しない入力テキストの部分文字列に対して、前記省略語辞書を参照してテキスト解析を行う言語解析手段と、
    省略語辞書を参照してテキスト解析が成功した場合に、省略語に対応する正式名称のテキスト解析結果を出力する省略語補完手段と、を有することを特徴とするテキスト解析装置。
  2. 前記省略語辞書は、同一の正式名称から所定のルールに基づいて導出された複数の省略語候補を格納することを特徴とする請求項1に記載のテキスト解析装置。
  3. 前記部分文字列を省略語辞書と照合し、同一の正式名称から導出された複数の省略語候補のうち、一つの省略語候補と整合した場合には、それ以外の省略語候補の全部または一部を削除することを特徴とする請求項1または2に記載のテキスト解析装置。
  4. 前記単語辞書には、各単語に単語番号が付与されており、
    前記正式名称辞書は、正式名称を構成する個々の単語に対応する単語辞書の単語番号と正式名称のアクセントとで、構成されていることを特徴とする請求項1〜請求項3のいずれかに記載のテキスト解析装置。
  5. 入力されたテキスト文書を、単語辞書と、複合語からなる正式名称を格納する正式名称辞書と、正式名称から予測される省略語を格納する省略語辞書とを参照して単語に分割しテキスト解析を行うテキスト解析方法であって、
    前記入力されたテキスト文章から、前記単語辞書に登録されている単語に一致する文字列を照合してテキスト解析を行う工程と、
    前記入力されたテキスト文章から、前記単語辞書と照合しない入力テキストの部分文字列に対して、省略語辞書を参照してテキスト解析を行う工程と、
    前記単語辞書と照合しない入力テキストの部分文字列が、省略語辞書に登録されている単語に一致する場合は、省略語に対応する正式名称を正式名称辞書に照合する工程と、
    省略語を対応する正式名称に置き換えて、テキスト解析結果として出力する工程とを有するテキスト解析方法。
  6. 入力されたテキスト文書を、単語に分割しテキスト解析を行い、発音情報を生成するテキスト解析部と、前記発音情報に基づいて音声を合成する音声合成部とを有するテキスト音声合成装置であって、
    前記テキスト解析部は、
    単語辞書と、複数の単語からなる正式名称を格納する正式名称辞書と、正式名称から予測される省略語を格納する省略語辞書とを有し、
    前記入力されたテキスト文章を、前記単語辞書を用いてテキスト解析を行い、前記単語辞書の見出しと照合しない入力テキストの部分文字列に対して、前記省略語辞書を参照してテキスト解析を行う言語解析手段と、
    省略語辞書を参照してテキスト解析が成功した場合に、省略語に対応する正式名称のテキスト解析結果を出力する省略語補完手段と、を有することを特徴とするテキスト音声合成装置。
  7. 入力されたテキスト文書を、単語辞書と、複合語からなる正式名称を格納する正式名称辞書と、正式名称から予測される省略語を格納する省略語辞書とを参照して単語に分割しテキスト解析を行うテキスト解析プログラムであって、
    前記入力されたテキスト文章から、前記単語辞書に登録されている単語に一致する文字列を照合するステップと、
    前記入力されたテキスト文章から、前記単語辞書と照合しない入力テキストの部分文字列に対して、省略語辞書を参照してテキスト解析を行うステップと、
    前記単語辞書と照合しない入力テキストの部分文字列が、省略語辞書に登録されている単語に一致する場合は、省略語に対応する正式名称を正式名称辞書に照合するステップと、
    省略語を対応する正式名称に置き換えて、テキスト解析結果として出力するステップとを、実行させることを特徴とするテキスト解析プログラム。
  8. 請求項7に記載のテキスト解析プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2003119064A 2003-04-23 2003-04-23 テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置 Pending JP2004326367A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003119064A JP2004326367A (ja) 2003-04-23 2003-04-23 テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003119064A JP2004326367A (ja) 2003-04-23 2003-04-23 テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置

Publications (1)

Publication Number Publication Date
JP2004326367A true JP2004326367A (ja) 2004-11-18

Family

ID=33498421

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003119064A Pending JP2004326367A (ja) 2003-04-23 2003-04-23 テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置

Country Status (1)

Country Link
JP (1) JP2004326367A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006195207A (ja) * 2005-01-14 2006-07-27 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
JP2007187687A (ja) * 2006-01-10 2007-07-26 Alpine Electronics Inc 音声変換処理装置
JP2007200252A (ja) * 2006-01-30 2007-08-09 Ricoh Co Ltd 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体
JP2009103921A (ja) * 2007-10-23 2009-05-14 Fujitsu Ltd 省略語判定装置、コンピュータプログラム、テキスト解析装置及び音声合成装置
JP2009217544A (ja) * 2008-03-11 2009-09-24 Yahoo Japan Corp 文字ベクトルを用いた略語生成装置、方法及びプログラム
CN103635961A (zh) * 2011-06-14 2014-03-12 三菱电机株式会社 发音信息生产装置、车载信息装置以及数据库生成方法
JP2015052858A (ja) * 2013-09-05 2015-03-19 京セラドキュメントソリューションズ株式会社 省略語管理プログラム、省略語管理装置、フルスペル表示プログラムおよびフルスペル表示装置
JP2015179310A (ja) * 2014-03-18 2015-10-08 富士通株式会社 正式名称の候補出力方法、正式名称の候補出力プログラム、および正式名称の候補出力システム
JP2017134693A (ja) * 2016-01-28 2017-08-03 富士通株式会社 意味情報登録支援プログラム、情報処理装置および意味情報登録支援方法
KR20190130905A (ko) * 2018-05-15 2019-11-25 한국전자통신연구원 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치 및 방법

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006195207A (ja) * 2005-01-14 2006-07-27 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
JP2007187687A (ja) * 2006-01-10 2007-07-26 Alpine Electronics Inc 音声変換処理装置
JP2007200252A (ja) * 2006-01-30 2007-08-09 Ricoh Co Ltd 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体
JP2009103921A (ja) * 2007-10-23 2009-05-14 Fujitsu Ltd 省略語判定装置、コンピュータプログラム、テキスト解析装置及び音声合成装置
JP2009217544A (ja) * 2008-03-11 2009-09-24 Yahoo Japan Corp 文字ベクトルを用いた略語生成装置、方法及びプログラム
CN103635961A (zh) * 2011-06-14 2014-03-12 三菱电机株式会社 发音信息生产装置、车载信息装置以及数据库生成方法
JP2015052858A (ja) * 2013-09-05 2015-03-19 京セラドキュメントソリューションズ株式会社 省略語管理プログラム、省略語管理装置、フルスペル表示プログラムおよびフルスペル表示装置
JP2015179310A (ja) * 2014-03-18 2015-10-08 富士通株式会社 正式名称の候補出力方法、正式名称の候補出力プログラム、および正式名称の候補出力システム
JP2017134693A (ja) * 2016-01-28 2017-08-03 富士通株式会社 意味情報登録支援プログラム、情報処理装置および意味情報登録支援方法
KR20190130905A (ko) * 2018-05-15 2019-11-25 한국전자통신연구원 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치 및 방법
KR102528779B1 (ko) 2018-05-15 2023-05-08 한국전자통신연구원 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치 및 방법

Similar Documents

Publication Publication Date Title
US8346537B2 (en) Input apparatus, input method and input program
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
US20010029443A1 (en) Machine translation system, machine translation method, and storage medium storing program for executing machine translation method
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
JP2004326367A (ja) テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置
JP2002149643A (ja) 日本語の表意文字の読み方を予測する方法
US20150073796A1 (en) Apparatus and method of generating language model for speech recognition
JP2006030326A (ja) 音声合成装置
JPH06282290A (ja) 自然言語処理装置およびその方法
JPH11238051A (ja) 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体
JP2019095603A (ja) 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法
JP6232724B2 (ja) 音声合成装置及び言語辞書登録方法
JP6197523B2 (ja) 音声合成装置、言語辞書修正方法及び言語辞書修正用コンピュータプログラム
JP3589972B2 (ja) 音声合成装置
JP5474723B2 (ja) 音声認識装置およびその制御プログラム
JP3983313B2 (ja) 音声合成装置及び音声合成方法
JP5169602B2 (ja) 形態素解析装置、形態素解析方法及びコンピュータプログラム
JPH07262191A (ja) 単語分割方法、および音声合成装置
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
KR101777141B1 (ko) 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법
JP2003202886A (ja) テキスト入力処理装置及び方法並びにプログラム
JP5125404B2 (ja) 省略語判定装置、コンピュータプログラム、テキスト解析装置及び音声合成装置
JP2003005776A (ja) 音声合成装置
JP2004294639A (ja) 音声合成用テキスト解析装置および音声合成装置
JP3048793B2 (ja) 文字変換装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070320

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070419

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070522