JP5125404B2 - 省略語判定装置、コンピュータプログラム、テキスト解析装置及び音声合成装置 - Google Patents

省略語判定装置、コンピュータプログラム、テキスト解析装置及び音声合成装置 Download PDF

Info

Publication number
JP5125404B2
JP5125404B2 JP2007275651A JP2007275651A JP5125404B2 JP 5125404 B2 JP5125404 B2 JP 5125404B2 JP 2007275651 A JP2007275651 A JP 2007275651A JP 2007275651 A JP2007275651 A JP 2007275651A JP 5125404 B2 JP5125404 B2 JP 5125404B2
Authority
JP
Japan
Prior art keywords
abbreviation
text data
data
text
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007275651A
Other languages
English (en)
Other versions
JP2009103921A (ja
Inventor
英樹 小島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2007275651A priority Critical patent/JP5125404B2/ja
Publication of JP2009103921A publication Critical patent/JP2009103921A/ja
Application granted granted Critical
Publication of JP5125404B2 publication Critical patent/JP5125404B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Description

本発明は、テキストデータが省略語であるか否かを判定する省略語判定装置、該省略語判定装置をコンピュータによって実現するためのコンピュータプログラム、前記省略語判定装置を備えたテキスト解析装置、及び該テキスト解析装置を備えた音声合成装置に関する。
テキストデータから音声を合成するテキスト音声合成技術は、例えば、IVR(自動音声応答:Interactive Voice Response)システム、車載情報端末及び携帯電話等における操作方法の音声ガイダンス、電子メールの読み上げ、視覚障害者・発話障害者の支援システム等に適用されている。
従来のテキスト音声合成装置は、形態素及び各形態素のアクセント型を対応付けて記憶する言語辞書が予め用意されており、入力されたテキストデータを言語辞書の登録内容に基づいて形態素に分割し、分割したそれぞれの形態素に対してアクセント型を付与する。また、従来のテキスト音声合成装置は、分割した形態素及び各形態素に付与されたアクセント型に基づいて、各形態素に対応する韻律を所定の韻律生成ルールに従って生成し、生成した韻律を音声波形に変換して合成音声を取得する。
このような従来のテキスト音声合成装置において、言語辞書に登録されていない形態素がテキストデータに含まれる場合、形態素に分割する際に誤った位置で分割されてしまう虞があり、形態素にアクセント型を付与する際に誤ったアクセント型が付与されてしまう虞がある。このように、誤った位置で形態素に分割された場合、又は誤ったアクセント型が付与された場合、正しい合成音声を生成することが困難であった。
また、従来のテキスト音声合成装置では、テキストデータを形態素に分割する際に、言語辞書に登録されていない形態素を抽出した場合、この形態素を未知語として分割し、各形態素(未知語)に、例えば後ろから3モーラ目にアクセント核を有するアクセント型を付与するように構成されている場合が多い。これは、「オーストラリア」、「チェルノブイリ」のような外来語は、後ろから3モーラ目にアクセント核を有するものが多いからである。
従来より、マツケン(登録商標)(松平健)、キムタク(木村拓也)、コスプレ(コスチュームプレイ)、地デジ(地上デジタル放送)、連ドラ(連続ドラマ)等の省略語が多用されている。このような省略語は言語辞書に登録されていないため、従来のテキスト音声合成装置では、未知語として扱う場合が多く、上述したように例えば後ろから3モーラ目にアクセント核を有するアクセント型を付与していた。しかし、このような省略語は、平板型(ゼロ型)のアクセント型である場合が多く、後ろから3モーラ目にアクセント核を有するアクセント型を付与した場合、正しい合成音声を生成することはできず、訛ったような読み方の合成音声を生成する可能性があった。
特許文献1には、省略語に対する正式名称を登録した正式名称辞書と、正式名称から予測される省略語を登録した省略語辞書とを予め用意しておき、テキスト文書中に省略語辞書に登録された省略語を検出した場合に、この省略語を、対応する正式名称に変換する装置が開示されている。このような装置を用いた場合、正式名称辞書に登録されていない省略語がテキスト文書中に含まれる場合であっても、未知語として扱わずに、省略語として適切に扱うことができる。
特開2004−326367号公報
上述した特許文献1のように省略語辞書を用いることにより、省略語辞書に登録されている省略語については、テキスト文書を形態素に分割する際に正しい形態素に分割することができると共に、正しいアクセント型を付与することができるので、正しい合成音声を生成することができる。しかし、省略語は日々新しい言葉が出てくるので、新しい省略語を省略語辞書に逐次登録することは不可能である。よって、省略語辞書を用いて省略語の判定を行う構成では、省略語辞書を逐次更新する必要があり、新しい省略語が登録されていない古い省略語辞書を用いた場合には適切に省略語を判定できないという問題を有する。
本発明は斯かる事情に鑑みてなされたものであり、その目的とするところは、テキストデータが人名を省略して生成された省略語であるか否かを容易に判定することが可能な省略語判定装置、該省略語判定装置をコンピュータによって実現するためのコンピュータプログラム、前記省略語判定装置を備えたテキスト解析装置及び該テキスト解析装置を備えた音声合成装置を提供することにある。
本発明の他の目的は、テキストデータが複合語を省略して生成された省略語であるか否かを容易に判定することが可能な省略語判定装置、該省略語判定装置をコンピュータによって実現するためのコンピュータプログラム、前記省略語判定装置を備えたテキスト解析装置及び該テキスト解析装置を備えた音声合成装置を提供することにある。
本発明に係る省略語判定装置は、テキストデータが省略語であるか否かを判定する省略語判定装置において、人名に用いられる姓及び名をそれぞれ人名記憶手段に記憶しており、テキストデータから先頭の所定数の文字データを抽出し、抽出した文字データを先頭に有する姓が人名記憶手段に記憶してあるか否かを判断する。また、省略語判定装置は、前記姓が人名記憶手段に記憶してあると判断した場合、前記抽出した文字データを除いた前記テキストデータから、先頭の所定数の文字データを抽出し、抽出した文字データを先頭に有する名が人名記憶手段に記憶してあるか否かを判断する。前記名が人名記憶手段に記憶してあると判断した場合、省略語判定装置は、前記テキストデータが省略語であると判定する。よって、テキストデータが、人名の姓及び名のそれぞれの先頭から所定数の文字を抽出して生成された省略語であるか否かを容易に判定することが可能となる。
本発明に係る省略語判定装置は、テキストデータが省略語であるか否かを判定する省略語判定装置において、複数の複合語及び各複合語を構成する構成語を対応付けて複合語記憶手段に記憶しており、テキストデータから先頭の所定数の文字データを抽出し、抽出した文字データを先頭に有する構成語を含む複合語が複合語記憶手段に記憶してあるか否かを判断する。また、省略語判定装置は、前記複合語が複合語記憶手段に記憶してあると判断した場合、前記抽出した文字データを除いた前記テキストデータから、先頭の所定数の文字データを抽出し、抽出した文字データを先頭に有する構成語が、複合語記憶手段に記憶してあると判断した複合語の構成語に含まれているか否かを判断する。前記構成語が含まれていると判断した場合、省略語判定装置は、前記テキストデータが省略語であると判定する。よって、テキストデータが、複合語を構成する2つの構成語のそれぞれの先頭から所定数の文字を抽出して生成された省略語であるか否かを容易に判定することが可能となる。
本発明に係る省略語判定装置は、テキストデータの先頭から2音節に相当する数の文字データを抽出し、抽出した文字データを先頭に有する姓が人名記憶手段に記憶してあるか否か、又は抽出した文字データを先頭に有する構成語を含む複合語が複合語記憶手段に記憶してあるか否かを判断する。また、省略語判定装置は、前記抽出した文字データを除いた前記テキストデータの先頭から、2音節に相当する数の文字データを抽出し、抽出した文字データを先頭に有する名が人名記憶手段に記憶してあるか否か、又は抽出した文字データを先頭に有する構成語が、複合語記憶手段に記憶してあると判断した複合語の構成語に含まれているか否かを判断する。よって、テキストデータが、人名の姓及び名のそれぞれの先頭から2音節に相当する数の文字を抽出して生成された省略語であるか否か、又は複合語を構成する2つの構成語のそれぞれの先頭から2音節に相当する数の文字を抽出して生成された省略語であるか否かを容易に判定することが可能となる。
本発明に係る省略語判定装置は、テキストデータの先頭から1音節に相当する数の文字データを抽出し、抽出した文字データを先頭に有する姓が人名記憶手段に記憶してあるか否か、又は抽出した文字データを先頭に有する構成語を含む複合語が複合語記憶手段に記憶してあるか否かを判断する。また、省略語判定装置は、前記抽出した文字データを除いた前記テキストデータの先頭から、2音節に相当する数の文字データを抽出し、抽出した文字データを先頭に有する名が人名記憶手段に記憶してあるか否か、又は抽出した文字データを先頭に有する構成語が、複合語記憶手段に記憶してあると判断した複合語の構成語に含まれているか否かを判断する。よって、テキストデータが、人名の姓の先頭から1音節に相当する数の文字を抽出し、名の先頭から2音節に相当する数の文字を抽出して生成された省略語であるか否か、又は複合語を構成する構成語の先頭から1音節に相当する数の文字を抽出し、他の構成語の先頭から2音節に相当する数の文字を抽出して生成された省略語であるか否かを容易に判定することが可能となる。
本発明に係る省略語判定装置は、複数のテキストデータを含む文書データをテキストデータに分割し、分割されたテキストデータから先頭の所定数の文字データを抽出し、抽出した文字データを先頭に有する姓が人名記憶手段に記憶してあるか否か、又は抽出した文字データを先頭に有する構成語を含む複合語が複合語記憶手段に記憶してあるか否かを判断する。また、省略語判定装置は、前記抽出した文字データを除いた前記テキストデータから先頭の所定数の文字データを抽出し、抽出した文字データを先頭に有する名が人名記憶手段に記憶してあるか否か、又は抽出した文字データを先頭に有する構成語が、複合語記憶手段に記憶してあると判断した複合語の構成語に含まれているか否かを判断する。前記名が人名記憶手段に記憶してあると判断した場合、又は前記構成語が含まれていると判断した場合、省略語判定装置は、前記テキストデータが省略語の候補であると判定する。また、省略語判定装置は、複数のテキストデータ及び各テキストデータと共起される共起データを対応付けて共起データ記憶手段に記憶しており、省略語の候補であると判定したテキストデータに対応する共起データを共起データ記憶手段から取得し、取得された共起データが前記文書データ中のテキストデータに含まれているか否かを判断し、含まれていると判断した場合、省略語の候補であると判定したテキストデータを省略語であると確定する。よって、テキストデータが、人名の姓及び名のそれぞれの先頭から所定数の文字を抽出して生成された省略語、又は複合語を構成する2つの構成語のそれぞれの先頭から所定数の文字を抽出して生成された省略語であるか否かを、当該テキストデータと共起されるデータが共起データであるか否かに基づいて確実に判定することが可能となる。
本発明に係る省略語判定方法は、テキストデータが省略語であるか否かを判定する省略語判定方法において、テキストデータから先頭の所定数の文字データを抽出し、抽出した文字データを先頭に有する姓が、人名に用いられる姓及び名をそれぞれ記憶する人名記憶手段に記憶してあるか否かを判断し、前記姓が人名記憶手段に記憶してあると判断した場合、前記抽出した文字データを除いた前記テキストデータから、先頭の所定数の文字データを抽出し、抽出した文字データを先頭に有する名が人名記憶手段に記憶してあるか否かを判断し、前記名が人名記憶手段に記憶してあると判断した場合、前記テキストデータが省略語であると判定する。
本発明に係る省略語判定方法は、テキストデータが省略語であるか否かを判定する省略語判定方法において、テキストデータから先頭の所定数の文字データを抽出し、抽出した文字データを先頭に有する構成語を含む複合語が、複数の複合語及び各複合語を構成する構成語を対応付けて記憶する複合語記憶手段に記憶してあるか否かを判断し、前記複合語が前記複合語記憶手段に記憶してあると判断した場合、前記抽出した文字データを除いた前記テキストデータから、先頭の所定数の文字データを抽出し、抽出した文字データを先頭に有する構成語が、複合語記憶手段に記憶してあると判断された複合語の構成語に含まれているか否かを判断し、前記構成語が含まれていると判断した場合、前記テキストデータが省略語であると判定する。
本発明に係るコンピュータプログラムは、コンピュータに読み取らせて実行させることにより、上述したような省略語判定装置をコンピュータによって実現することが可能となる。
本発明に係るテキスト解析装置は、テキストデータを解析するテキスト解析装置において、上述したいずれかの省略語判定装置を備え、形態素及びアクセント型を対応付けて形態素記憶手段に記憶しており、形態素記憶手段の記憶内容に基づいて、テキストデータを形態素に分割し、分割した形態素のそれぞれにアクセント型を付与する。前記省略語判定装置は、形態素記憶手段に記憶されていない形態素が省略語であるか否かを判定しており、テキスト解析装置は、省略語判定装置によって省略語であると判定された形態素に所定のアクセント型を付与する。よって、形態素記憶手段に記憶されていない形態素において、省略語であると判定された形態素と、他の形態素とにおいて異なるアクセント型を付与するので、省略語に適したアクセント型を付与することが可能となる。
本発明に係るテキスト解析装置は、省略語及びアクセント型を対応付けて省略語記憶手段に記憶しており、省略語記憶手段の記憶内容に基づいて、省略語判定装置によって省略語であると判定された形態素のそれぞれにアクセント型を付与すると共に、省略語記憶手段に記憶されていない形態素に所定のアクセント型を付与する。よって、予め省略語記憶手段に記憶してある省略語に対しては、それぞれ対応するアクセント型を付与し、省略語記憶手段に記憶されていない省略語に対しては、所定のアクセント型を付与するので、省略語に適したアクセント型を付与することが可能となる。
本発明に係るテキスト解析装置は、テキストデータを解析するテキスト解析装置において、上述した共起データ記憶手段を有する省略語判定装置を備え、テキストデータ及びアクセント型を対応付けてテキスト記憶手段に記憶している。前記省略語判定装置は、テキスト記憶手段の記憶内容に基づいて、文書データをテキストデータに分割し、分割したテキストデータのそれぞれにアクセント型を付与する。また、省略語判定装置は、テキスト記憶手段に記憶されていないテキストデータが省略語であるか否かを判定しており、テキスト解析装置は、省略語判定装置によって省略語であると判定されたテキストデータに所定のアクセント型を付与する。よって、テキスト記憶手段に記憶されていないテキストデータにおいて、省略語であると判定されたテキストデータと、他のテキストデータとにおいて異なるアクセント型を付与するので、省略語に適したアクセント型を付与することが可能となる。
本発明に係るテキスト解析装置は、省略語及びアクセント型を対応付けて省略語記憶手段に記憶しており、省略語記憶手段の記憶内容に基づいて、省略語判定装置によって省略語であると判定されたテキストデータのそれぞれにアクセント型を付与すると共に、省略語記憶手段に記憶されていないテキストデータに所定のアクセント型を付与する。よって、予め省略語記憶手段に記憶してある省略語に対しては、それぞれ対応するアクセント型を付与し、省略語記憶手段に記憶されていない省略語に対しては、所定のアクセント型を付与するので、省略語に適したアクセント型を付与することが可能となる。
本発明に係る音声合成装置は、テキストデータから合成音声を生成する音声合成装置において、上述したいずれかのテキスト解析装置を備え、テキスト解析装置の形態素分割手段が分割した形態素及び各形態素に付与されたアクセント型に基づいて、各形態素に対応する韻律を生成し、生成した韻律に基づいて合成音声を生成する。
本発明に係る音声合成装置は、テキストデータから合成音声を生成する音声合成装置において、上述した共起データ記憶手段を有する省略語判定装置を備えたテキスト解析装置を備え、省略語判定装置の分割手段が分割したテキストデータ及びテキスト解析装置が各テキストデータに付与したアクセント型に基づいて、各テキストデータに対応する韻律を生成し、生成した韻律に基づいて合成音声を生成する。
本発明では、テキストデータが、人名の姓に用いられる文字の先頭の所定数の文字と、人名の名に用いられる文字の先頭の所定数の文字とを組み合わせて構成される場合に、前記テキストデータを、人名を省略して生成された省略語であると判定する。なお、近年の省略語は、人名における姓の先頭の2音節と名の先頭の2音節とを組み合わせたものが多い。従って、例えば、人名の姓に用いられる文字の先頭の2文字と人名の名に用いられる文字の先頭の2文字とを組み合わせて構成されるテキストデータを省略語であると判定する場合、テキストデータが、例えば、マツケン(松平健)、キムタク(木村拓也)、ナカショー(中川翔子)等の省略語であるか否かを容易に判定することができる。
本発明では、テキストデータが、複合語を構成する2つの構成語のそれぞれの先頭の所定数の文字を組み合わせて構成される場合に、前記テキストデータを、複合語を省略して生成された省略語であると判定する。なお、近年の省略語は、複合語における正式名称を構成する最初の単語(構成語)の先頭の2音節と2番目の単語(構成語)の先頭の2音節とを組み合わせたものが多い。従って、例えば、最初の構成語の先頭の2文字と2番目の構成語の先頭の2文字とを組み合わせて構成されるテキストデータを省略語であると判定する場合、テキストデータが、例えば、コスプレ(コスチュームプレイ)、連ドラ(連続ドラマ)、筋トレ(筋肉トレーニング)等の省略語であるか否かを容易に判定することができる。また、最初の構成語の先頭の1文字と2番目の構成語の先頭の2文字とを組み合わせて構成されるテキストデータを省略語であると判定する場合、テキストデータが、例えば、地デジ(地上デジタル放送)等の省略語であるか否かを容易に判定することができる。
本発明では、文書データをテキストデータに分割し、分割されたテキストデータが省略語の候補であると判定された場合、このテキストデータと共起される共起データが、このテキストデータを含む文書データに含まれているか否かを判断し、含まれている場合、このテキストデータを省略語であると確定する。よって、省略語の候補と判定されたテキストデータが、本来の省略語であれば共起される可能性の高い共起データと共起されている場合にのみ、このテキストデータを省略語に確定するので、省略語の誤判定を防止することができる。具体的には、例えば、「マツケン」に対する共起データに「サンバ」が登録されており、「マツケンがサンバを踊った」という文書データ中のテキストデータ「マツケン」が省略語の候補であると判定された場合、「マツケン」の共起データである「サンバ」が文書データ中に含まれているので、この「マツケン」を省略語に特定することができる。
本発明では、形態素及びアクセント型を対応付けて記憶してある形態素記憶手段の記憶内容に基づいて、テキストデータを形態素に分割し、分割した形態素のそれぞれにアクセント型を付与する。また、形態素記憶手段に記憶されていない形態素が省略語判定装置によって省略語であると判定された場合、この形態素に所定のアクセント型を付与する。このように、形態素記憶手段に記憶されていない形態素において、省略語であると判定された形態素と、他の形態素とにおいて異なるアクセント型を付与するので、省略語に適したアクセント型を付与することができる。従って、このように各形態素に適切に付与されたアクセント型に基づいて、各形態素に対応する韻律を生成し、生成した韻律に基づいて合成音声を生成した場合、適切な韻律を生成することができ、また、適切な韻律に基づいて適切な合成音声を生成することができるので、形態素記憶手段に記憶されていない形態素(未知語)に対しても正しいアクセントで合成音声を出力することができる。
本発明では、省略語及びアクセント型を対応付けて記憶してある省略語記憶手段の記憶内容に基づいて、省略語判定装置によって省略語であると判定された形態素のそれぞれにアクセント型を付与すると共に、省略語記憶手段に記憶されていない形態素に所定のアクセント型を付与する。このように、省略語記憶手段に記憶してある省略語に対してはそれぞれ対応するアクセント型を付与するので、より適切なアクセント型を付与することができる。従って、このように各形態素に適切に付与されたアクセント型に基づいて、各形態素に対応する韻律を生成し、生成した韻律に基づいて合成音声を生成した場合、適切な韻律を生成することができ、また、適切な韻律に基づいて適切な合成音声を生成することができる。
本発明では、テキストデータ及びアクセント型を対応付けて記憶してあるテキスト記憶手段の記憶内容に基づいて、文書データをテキストデータに分割し、分割したテキストデータのそれぞれにアクセント型を付与する。また、テキスト記憶手段に記憶されていないテキストデータが省略語判定装置によって省略語であると判定された場合、このテキストデータに所定のアクセント型を付与する。このように、テキスト記憶手段に記憶されていないテキストデータにおいて、省略語であると判定されたテキストデータと、他のテキストデータとにおいて異なるアクセント型を付与するので、省略語に適したアクセント型を付与することができる。従って、このように各テキストデータに適切に付与されたアクセント型に基づいて、各テキストデータに対応する韻律を生成し、生成した韻律に基づいて合成音声を生成した場合、適切な韻律を生成することができ、また、適切な韻律に基づいて適切な合成音声を生成することができるので、テキスト記憶手段に記憶されていない形態素(未知語)に対しても正しいアクセントで合成音声を出力することができる。
本発明では、省略語及びアクセント型を対応付けて記憶してある省略語記憶手段の記憶内容に基づいて、省略語判定装置によって省略語であると判定されたテキストデータのそれぞれにアクセント型を付与すると共に、省略語記憶手段に記憶されていないテキストデータに所定のアクセント型を付与する。このように、省略語記憶手段に記憶してある省略語に対してはそれぞれ対応するアクセント型を付与するので、より適切なアクセント型を付与することができる。従って、このように各テキストデータに適切に付与されたアクセント型に基づいて、各テキストデータに対応する韻律を生成し、生成した韻律に基づいて合成音声を生成した場合、適切な韻律を生成することができ、また、適切な韻律に基づいて適切な合成音声を生成することができる。
以下に、本発明に係る省略語判定装置、テキスト解析装置及び音声合成装置を、各実施形態を示す図面に基づいて詳述する。なお、以下の各実施形態では、本発明に係るコンピュータプログラムを公知のパーソナルコンピュータ等に読み取らせ、パーソナルコンピュータのCPU等によって実行させることによって本発明に係る省略語判定装置、テキスト解析装置及び音声合成装置を実現する構成について説明する。しかし、等価な働きをするハードウェアによって本発明に係る省略語判定装置、テキスト解析装置及び音声合成装置を実現してもよい。
(実施形態1)
以下に、本発明に係る省略語判定装置を備えた本発明に係るテキスト解析装置を、実施形態1を示す図面に基づいて詳述する。図1は実施形態1に係るテキスト解析装置の構成例を示すブロック図である。本実施形態1に係るテキスト解析装置10は、制御部1、ROM2、RAM3、HDD4、操作部5、表示部6等を備え、これらのハードウェア各部はそれぞれバス1aを介して相互に接続されている。
制御部1は、CPU(Central Processing Unit )又はMPU(Micro Processor Unit)等で構成され、ROM2又はHDD4に予め記憶してある制御プログラムを適宜RAM3に読み出して実行すると共に、上述したハードウェア各部の動作を制御する。ROM2には、テキスト解析装置10を本発明の省略語判定装置及びテキスト解析装置として動作させるために必要な種々の制御プログラムが予め格納されている。RAM3はSRAM又はフラッシュメモリ等で構成されており、制御部1による制御プログラムの実行時に発生する種々のデータを一時的に記憶する。
操作部5は、キーボード及びマウス等であり、ユーザがテキスト解析装置10を操作するために必要な各種の操作キーを備えている。ユーザにより各操作キーが操作された場合、操作部5は操作された操作キーに対応した制御信号を制御部1へ送出し、制御部1は操作部5から取得した制御信号に対応した処理を実行する。
表示部6は、液晶ディスプレイ又はCRTディスプレイ等であり、制御部1からの指示に従って、テキスト解析装置10の動作状態、操作部5を介して入力された情報、ユーザに対して通知すべき情報等を表示する。
HDD4は大容量の記憶装置であり、HDD4には、テキスト解析装置10を本発明の省略語判定装置及びテキスト解析装置として動作させるために必要な種々の制御プログラム、テキストデータ、図2に示すような言語辞書4a、図3に示すような人名辞書4b、図4に示すような複合語辞書4c、ユーザに対して各種の情報を通知するための画面情報等が予め記憶されている。
なお、言語辞書4a、人名辞書4b及び複合語辞書4cは、HDD4に予め格納されているだけでなく、テキスト解析装置10が外部メモリ(図示せず)に記憶してあるデータの読み出しが可能なドライバ(図示せず)を備える場合には、外部メモリに記憶された各種辞書をドライバによって読み出してHDD4に格納させてもよい。また、テキスト解析装置10がインターネットのようなネットワークとの接続が可能な通信部(図示せず)を備える場合には、ネットワークを介して外部の装置から各種辞書をダウンロードしてHDD4に格納させてもよい。また、HDD4に記憶してあるテキストデータは、テキスト解析装置10で作成されたテキストデータであってもよく、外部の装置で作成されて外部メモリ(図示せず)又はネットワーク(図示せず)を介してテキスト解析装置10に読み取らせたテキストデータであってもよい。
図2は言語辞書4aの登録内容を示す模式図である。図2に示すように、言語辞書(形態素記憶手段)4aには、単語(形態素)の表記、読み及びアクセント型がそれぞれ対応付けて登録されている。なお、言語辞書4aに各形態素の品詞が登録されていてもよい。
図3は人名辞書4bの登録内容を示す模式図である。人名辞書(人名記憶手段)4bは、人名に用いられる姓及び名をそれぞれ記憶しており、図3(a)に示すような姓のリストと、図3(b)に示すような名のリストとを有する。
図4は複合語辞書4cの登録内容を示す模式図である。図4に示すように、複合語辞書(複合語記憶手段)4cには、複合語、複合語を構成する構成語及び各構成語の読みがそれぞれ対応付けて登録されている。なお、本実施形態1では、複合語辞書4cの構成語の欄に登録される各構成語が、複合語を構成する順に登録されている例で説明するが、登録順序はこれに限られない。ただし、構成語の欄に順次登録される各構成語と、読みの欄に順次登録される各構成語の読みとは対応付けて登録されることが望ましい。
以下に、上述した構成のテキスト解析装置10において、制御部1がROM2及びHDD4に記憶してある制御プログラムを実行することによって実現される各種の機能について説明する。図5はテキスト解析装置10の機能構成例を示す機能ブロック図である。本実施形態1のテキスト解析装置10において、制御部1は、ROM2及びHDD4に記憶してある制御プログラムを実行することによって、形態素解析部11、省略語判定部(本発明に係る省略語判定装置)12、省略語アクセント付与部13等の各機能を実現する。なお、以下では、テキスト解析装置10が「マツケンが、サンバを踊った。」のテキストデータを解析する処理を例に説明する。
形態素解析部(形態素分割手段)11は、HDD4に記憶してあるテキストデータをHDD4からRAM3に読み出し、言語辞書4aの登録内容に基づいて、RAM3に読み出したテキストデータを形態素に分割すると共に、分割した形態素のそれぞれにアクセント型を付与する。形態素解析部11は、分割した各形態素と、それぞれに付与したアクセント型とを対応付けて省略語判定部12へ送出する。なお、形態素解析部11は、言語辞書4aの登録内容に基づいてアクセント型を付与できなかった形態素(未知語)については、各形態素と、アクセント型が不明であること(未知語であること)を示す情報とを対応付けて省略語判定部12へ送出する。
本実施形態1の言語辞書4aには、「マツケン」は登録されていないため、「マツケン」は未知語として扱われる。従って、形態素解析部11は、テキストデータ「マツケンが、サンバを踊った。」を、「マツケン(未知語)・ガ(1モーラ0型)・サンバ(3モーラ1型)・オ(1モーラ0型)・オドッタ(4モーラ0型)」のように形態素に分割し、この表音文字列を省略語判定部12へ送出する。
なお、表音文字列の()内には、各形態素のアクセント型、又は各形態素が未知語である場合には未知語であることを示す情報が付与される。また、「踊った」は、厳密に言うと形態素ではなく、文節又はアクセント句と呼ばれるものだが、本発明の本質とは関係ないのでここでは1形態素として扱っている。
省略語判定部12は、人名辞書4b及び複合語辞書4cの登録内容に基づいて、形態素解析部11によって未知語であるとされた形態素が省略語であるか否かを判定する。ここでは、省略語判定部12は、「マツケン」が省略語であるか否かを判定する。なお、省略語判定部12による省略語の判定処理の詳細については後述する。
省略語判定部12は、形態素解析部11によって未知語であるとされた形態素が省略語であると判定した場合、省略語であると判定された形態素に、省略語であることを示す情報を対応付けて省略語アクセント付与部13へ送出する。具体的には、「マツケン」が省略語であると判定した場合、省略語判定部12は、「マツケン(省略語)・ガ(1モーラ0型)・サンバ(3モーラ1型)・オ(1モーラ0型)・オドッタ(4モーラ0型)」の表音文字列を省略語アクセント付与部13へ送出する。
一方、省略語判定部12は、形態素解析部11によって未知語であるとされた形態素が省略語でないと判定した場合、省略語でないと判定された形態素に、形態素解析部11から送出されてきた未知語であることを示す情報をそのまま対応付けて省略語アクセント付与部13へ送出する。具体的には、「マツケン」が省略語でないと判定した場合、省略語判定部12は、「マツケン(未知語)・ガ(1モーラ0型)・サンバ(3モーラ1型)・オ(1モーラ0型)・オドッタ(4モーラ0型)」の表音文字列を省略語アクセント付与部13へ送出する。
省略語アクセント付与部(アクセント付与手段)13は、省略語判定部12によって省略語であると判定された形態素に対して平板型(0型)のアクセント型(所定のアクセント型)を付与する。具体的には、省略語判定部12によって「マツケン」が省略語であると判定されていた場合、省略語アクセント付与部13は、省略語「マツケン」に対して4モーラ0型のアクセント型を付与し、省略語判定部12から送出されてきた表音文字列中の「マツケン」のアクセント型に「4モーラ0型」を割り当てる。
これにより、省略語アクセント付与部13は、「マツケン(4モーラ0型)・ガ(1モーラ0型)・サンバ(3モーラ1型)・オ(1モーラ0型)・オドッタ(4モーラ0型)」の表音文字列を出力する。なお、省略語判定部12によって「マツケン」が省略語でないと判定されていた場合、省略語アクセント付与部13は、省略語判定部12から送出されてきた表音文字列をそのまま出力する。
以下に、省略語判定部12による省略語の判定処理について説明する。なお、本実施形態1では、省略語判定部12は、形態素解析部11によって未知語であるとされた形態素が、人名を省略した省略語であるか否か、又は複合語を省略した省略語であるか否かを判定する。なお、近年の省略語は、人名における姓の先頭の2音節(2文字)と名の先頭の2音節(2文字)とを組み合わせたもの、複合語における正式名称を構成する最初の単語(構成語)の先頭の2音節(2文字)と2番目の単語(構成語)の先頭の2音節(2文字)とを組み合わせたもの、複合語における正式名称を構成する最初の単語(構成語)の先頭の1音節(1文字)と2番目の単語(構成語)の先頭の2音節(2文字)とを組み合わせたものが多い。従って、本実施形態1では、形態素解析部11によって未知語であるとされた形態素が、これらの省略語であるか否かを判定する。
本実施形態1の省略語判定部12は、まず、形態素解析部11から送出されてきた表音文字列から、形態素解析部11によって未知語とされた形態素を抽出し、抽出した未知語(形態素)が3音節であるか4音節であるかを判断する。なお、未知語が3音節である場合、例えば、人名における姓の先頭の1文字と名の先頭の2文字とを組み合わせた省略語、又は複合語を構成する最初の構成語の先頭の1文字と2番目の構成語の先頭の2文字とを組み合わせた省略語である可能性が高い。また、未知語が4音節である場合、例えば、人名における姓の先頭の2文字と名の先頭の2文字とを組み合わせた省略語、又は複合語を構成する最初の構成語の先頭の2文字と2番目の構成語の先頭の2文字とを組み合わせた省略語である可能性が高い。
従って、抽出した未知語が3音節である場合、省略語判定部(第1抽出手段)12は、3音節の未知語(テキストデータ)から先頭の1音節を抽出する。そして、省略語判定部12は、抽出した1音節が、人名辞書4bの姓のリストに登録されているいずれかの姓の先頭の1文字に一致するか否かを判断する。即ち、3音節の未知語の先頭の1音節を先頭に有する姓が姓のリストに登録されているか否かを判断する。抽出した1音節が姓のリストに登録されているいずれかの姓の先頭の1文字に一致すると判断した場合、省略語判定部(第2抽出手段)12は、抽出した1音節を除いた前記3音節の未知語から先頭の2音節を抽出する。即ち、3音節の未知語の後方の2音節を抽出する。
省略語判定部12は、抽出した2音節が、人名辞書4bの名のリストに登録されているいずれかの名の先頭の2文字に一致するか否かを判断する。即ち、3音節の未知語の後方の2音節を先頭に有する名が名のリストに登録されているか否かを判断する。抽出した2音節が名のリストに登録されているいずれかの名の先頭の2文字に一致すると判断した場合、省略語判定部(判定手段)12は、この未知語が人名を省略した省略語であると判定する。
なお、3音節の未知語の先頭の1音節が姓のリストに登録されているいずれの姓の先頭の1文字とも一致しない場合、即ち、3音節の未知語の先頭の1音節を先頭に有する姓が人名辞書4bの姓のリストに登録されていない場合、又は、3音節の未知語の後方の2音節が名のリストに登録されているいずれの名の先頭の2文字とも一致しない場合、即ち、3音節の未知語の後方の2音節を先頭に有する名が人名辞書4bの名のリストに登録されていない場合、省略語判定部12は、同様の処理を複合語辞書4cに基づいて行なう。
具体的には、省略語判定部(判断手段)12は、3音節の未知語(テキストデータ)から先頭の1音節を抽出し、抽出した1音節が、複合語辞書4cの構成語の欄に最初の構成語として登録されているいずれかの構成語の先頭の1文字に一致するか否かを判断する。即ち、3音節の未知語の先頭の1音節を先頭に有する構成語が、複合語辞書4cの構成語の欄に最初の構成語として登録されているか否かを判断する。抽出した1音節が最初の構成語として登録されているいずれかの構成語の先頭の1文字に一致すると判断した場合、省略語判定部12は、この構成語を含む複合語の2番目の構成語を複合語辞書4cから読み出すと共に、抽出した1音節を除いた前記3音節の未知語から先頭の2音節、即ち、3音節の未知語の後方の2音節を抽出する。
省略語判定部12は、抽出した2音節が、複合語辞書4cから読み出した2番目の構成語の先頭の2文字に一致するか否かを判断する。即ち、3音節の未知語の後方の2音節を先頭に有する構成語が、当該3音節の未知語の先頭の1音節を先頭に有する構成語が構成する複合語の2番目の構成語であるか否かを判断する。抽出した2音節が2番目の構成語の先頭の2文字に一致すると判断した場合、省略語判定部(判定手段)12は、この未知語が複合語を省略した省略語であると判定する。
なお、3音節の未知語の先頭の1音節が最初の構成語として登録されているいずれの構成語の先頭の1文字とも一致しない場合、即ち、3音節の未知語の先頭の1音節を先頭に有する構成語が複合語辞書4cに登録されていない場合、又は、3音節の未知語の後方の2音節が2番目の構成語の先頭の2文字に一致しない場合、省略語判定部12は、この未知語を省略語でないと判定する。
同様に、形態素解析部11によって未知語とされた形態素が4音節である場合、省略語判定部12は、4音節の未知語から先頭の2音節を抽出する。そして、省略語判定部12は、抽出した2音節が、人名辞書4bの姓のリストに登録されているいずれかの姓の先頭の2文字に一致するか否かを判断する。即ち、4音節の未知語の先頭の2音節を先頭に有する姓が姓のリストに登録されているか否かを判断する。抽出した2音節が姓のリストに登録されているいずれかの姓の先頭の2文字に一致すると判断した場合、省略語判定部12は、抽出した2音節を除いた前記4音節の未知語から先頭の2音節を抽出する。即ち、4音節の未知語の後方の2音節を抽出する。
省略語判定部12は、抽出した2音節が、人名辞書4bの名のリストに登録されているいずれかの名の先頭の2文字に一致するか否かを判断する。即ち、4音節の未知語の後方の2音節を先頭に有する名が名のリストに登録されているか否かを判断する。抽出した2音節が名のリストに登録されているいずれかの名の先頭の2文字に一致すると判断した場合、省略語判定部12は、この未知語が人名を省略した省略語であると判定する。
なお、4音節の未知語の先頭の2音節が姓のリストに登録されているいずれの姓の先頭の2文字とも一致しない場合、又は、4音節の未知語の後方の2音節が名のリストに登録されているいずれの名の先頭の2文字とも一致しない場合、省略語判定部12は、同様の処理を複合語辞書4cに基づいて行なう。
具体的には、省略語判定部12は、4音節の未知語から先頭の2音節を抽出し、抽出した2音節が、複合語辞書4cの構成語の欄に最初の構成語として登録されているいずれかの構成語の先頭の2文字に一致するか否かを判断する。即ち、4音節の未知語の先頭の2音節を先頭に有する構成語が、複合語辞書4cの構成語の欄に最初の構成語として登録されているか否かを判断する。抽出した2音節が最初の構成語として登録されているいずれかの構成語の先頭の2文字に一致すると判断した場合、省略語判定部12は、この構成語を含む複合語の2番目の構成語を複合語辞書4cから読み出すと共に、抽出した2音節を除いた前記3音節の未知語から先頭の2音節、即ち、4音節の未知語の後方の2音節を抽出する。
省略語判定部12は、抽出した2音節が、複合語辞書4cから読み出した2番目の構成語の先頭の2文字に一致するか否かを判断する。即ち、4音節の未知語の後方の2音節を先頭に有する構成語が、当該4音節の未知語の先頭の2音節を先頭に有する構成語が構成する複合語の2番目の構成語であるか否かを判断する。抽出した2音節が2番目の構成語の先頭の2文字に一致すると判断した場合、省略語判定部(判定手段)12は、この未知語が複合語を省略した省略語であると判定する。
なお、4音節の未知語の先頭の2音節が最初の構成語として登録されているいずれの構成語の先頭の2文字とも一致しない場合、又は4音節の未知語の後方の2音節が2番目の構成語の先頭の2文字に一致しない場合、省略語判定部12は、この未知語を省略語でないと判定する。
省略語判定部12は、上述した処理を、形態素解析部11から送出されてきた表音文字列中の全ての未知語に対して実行し、省略語であると判定された形態素(未知語)には、省略語であることを示す情報を対応付け、省略語でないと判定された形態素には、未知語であることを示す情報をそのまま対応付けて省略語アクセント付与部13へ送出する。
以下に、本実施形態1のテキスト解析装置10によるテキスト解析処理についてフローチャートに基づいて詳述する。図6はテキスト解析処理の手順を示すフローチャートである。なお、以下の処理は、テキスト解析装置10のROM2又はHDD4に記憶してある制御プログラムに従って制御部1によって実行される。
テキスト解析装置10のユーザが操作部5を操作することによって1つのテキストデータに基づくテキスト解析の実行を指示した場合、制御部1は、HDD4に記憶してあるテキストデータをRAM3に読み込む(S1)。制御部1(形態素解析部11)は、RAM3に読み込んだテキストデータを、言語辞書4aの登録内容に基づいて形態素に分割し、分割した形態素のそれぞれにアクセント型を付与し(S2)、各形態素にアクセント型を対応付けた表音文字列を生成する。
制御部1は、人名辞書4b及び複合語辞書4cの登録内容に基づいて省略語判定処理を実行し(S3)、ステップS2でアクセント型を付与できなかった形態素(未知語)が省略語であるか否かを判定する。なお、省略語判定処理の詳細については図7乃至図11に基づいて後述する。制御部1(省略語アクセント付与部13)は、ステップS3で省略語であると判定された形態素に対して平板型(0型)のアクセント型を付与し(S4)、テキスト解析処理を終了する。
以下に、上述したテキスト解析処理における省略語判定処理(図6中のステップS3)について説明する。図7乃至図11は省略語判定処理の手順を示すフローチャートである。なお、以下の処理は、テキスト解析装置10のROM2又はHDD4に記憶してある制御プログラムに従って制御部1(省略語判定部12)によって実行される。
制御部1は、図6中のステップS2で各形態素にアクセント型を対応付けた表音文字列を生成した場合、生成した表音文字列から未知語(形態素)を抽出し(S11)、抽出した未知語が3音節であるか否かを判断する(S12)。3音節であると判断した場合(S12:YES)、制御部1は、この未知語から先頭の1音節を抽出し(S13)、人名辞書4bの姓のリストから1単語を読み出す(S14)。制御部1は、ステップS13で抽出した1音節が、姓のリストから読み出した単語(姓)の先頭の1文字に一致するか否かを判断し(S15)、一致しないと判断した場合(S15:NO)、姓のリストから全ての単語の読み出しが終了したか否かを判断する(S16)。
姓のリストから全ての単語の読み出しが終了していないと判断した場合(S16:NO)、制御部1は、ステップS14へ処理を戻し、人名辞書4bの姓のリストから1単語を読み出し(S14)、ステップS13で抽出した1音節が姓のリストから読み出した単語の先頭の1文字に一致するか否かの判断を繰り返す。なお、姓のリストから全ての単語の読み出しが終了したと判断した場合(S16:YES)、即ち、ステップS13で抽出した1音節を先頭に有する姓が人名辞書4bの姓のリストに登録されていない場合、制御部1は、ステップS23へ処理を移行する。ステップS13で抽出した1音節が姓のリストから読み出した単語の先頭の1文字に一致すると判断した場合(S15:YES)、即ち、ステップS13で抽出した1音節を先頭に有する姓が人名辞書4bの姓のリストに登録されている場合、制御部1は、ステップS11で抽出した未知語の後方の2音節を抽出する(S17)。
制御部1は、人名辞書4bの名のリストから1単語を読み出し(S18)、ステップS17で抽出した2音節が、名のリストから読み出した単語(名)の先頭の2文字に一致するか否かを判断する(S19)。抽出した2音節が名のリストから読み出した単語の先頭の2文字に一致すると判断した場合(S19:YES)、即ち、ステップS17で抽出した2音節を先頭に有する名が人名辞書4bの名のリストに登録されている場合、制御部1は、ステップS11で抽出した未知語は省略語であると判定し(S20)、図6中のステップS2で各形態素にアクセント型を対応付けた表音文字列中の全ての未知語に対して上述した処理を終了したか否かを判断する(S21)。制御部1は、全ての未知語に対する処理を終了したと判断した場合(S21:YES)、省略語判定処理を終了し、終了していないと判断した場合(S21:NO)、ステップS11へ処理を戻し、表音文字列中の全ての未知語に対して上述した処理を繰り返す。
ステップS17で抽出した2音節が名のリストから読み出した単語の先頭の2文字に一致しないと判断した場合(S19:NO)、制御部1は、名のリストから全ての単語の読み出しが終了したか否かを判断し(S22)、全ての単語の読み出しが終了していないと判断した場合(S22:NO)、ステップS18へ処理を戻し、人名辞書4bの名のリストから1単語を読み出し(S18)、ステップS17で抽出した2音節が名のリストから読み出した単語の先頭の2文字に一致するか否かの判断を繰り返す。なお、名のリストから全ての単語の読み出しが終了したと判断した場合(S22:YES)、即ち、ステップS17で抽出した2音節を先頭に有する名が人名辞書4bの名のリストに登録されていない場合、制御部1は、ステップS23へ処理を移行する。
制御部1は、ステップS11で抽出した未知語から先頭の1音節を抽出し(S23)、複合語辞書4cの構成語の欄に最初の構成語として登録されている構成語を1つ読み出す(S24)。制御部1は、ステップS23で抽出した1音節が、複合語辞書4cから読み出した構成語の先頭の1文字に一致するか否かを判断し(S25)、一致しないと判断した場合(S25:NO)、複合語辞書4cから最初の構成語の全ての読み出しが終了したか否かを判断する(S26)。
複合語辞書4cから最初の構成語の全ての読み出しが終了していないと判断した場合(S26:NO)、制御部1は、ステップS24へ処理を戻し、複合語辞書4cの構成語の欄に最初の構成語として登録されている構成語を1つ読み出し(S24)、ステップS23で抽出した1音節が複合語辞書4cから読み出した構成語の先頭の1文字に一致するか否かの判断を繰り返す。なお、複合語辞書4cから最初の構成語の全ての読み出しが終了したと判断した場合(S26:YES)、即ち、ステップS23で抽出した1音節を先頭に有する最初の構成語が複合語辞書4cに登録されていない場合、制御部1は、ステップS11で抽出した未知語は省略語でないと判定し(S31)、ステップS21へ処理を移行する。
ステップS23で抽出した1音節が複合語辞書4cから読み出した構成語の先頭の1文字に一致すると判断した場合(S25:YES)、即ち、ステップS23で抽出した1音節を先頭に有する最初の構成語が複合語辞書4cに登録されている場合、制御部1は、ステップS11で抽出した未知語の後方の2音節を抽出する(S27)。制御部1は、ステップS24で読み出した最初の構成語を含む複合語の2番目の構成語を複合語辞書4cから読み出し(S28)、ステップS27で抽出した2音節が、複合語辞書4cから読み出した2番目の構成語の先頭の2文字に一致するか否かを判断する(S29)。
制御部1は、抽出した2音節が複合語辞書4cから読み出した2番目の構成語の先頭の2文字に一致すると判断した場合(S29:YES)、ステップS11で抽出した未知語は省略語であると判定し(S30)、ステップS21へ処理を移行する。また、制御部1は、抽出した2音節が複合語辞書4cから読み出した2番目の構成語の先頭の2文字に一致しないと判断した場合(S29:NO)、ステップS11で抽出した未知語は省略語でないと判定し(S31)、ステップS21へ処理を移行する。
一方、ステップS11で抽出した未知語が3音節でないと判断した場合(S12:NO)、制御部1は、この未知語が4音節であるか否かを判断し(S32)、4音節でないと判断した場合(S32:NO)、ステップS21へ処理を移行する。制御部1は、この未知語が4音節であると判断した場合(S32:YES)、この未知語から先頭の2音節を抽出し(S33)、人名辞書4bの姓のリストから1単語を読み出す(S34)。
制御部1は、ステップS33で抽出した2音節が、姓のリストから読み出した単語(姓)の先頭の2文字に一致するか否かを判断し(S35)、一致しないと判断した場合(S35:NO)、姓のリストから全ての単語の読み出しが終了したか否かを判断する(S36)。姓のリストから全ての単語の読み出しが終了していないと判断した場合(S36:NO)、制御部1は、ステップS34へ処理を戻し、人名辞書4bの姓のリストから1単語を読み出し(S34)、ステップS33で抽出した2音節が姓のリストから読み出した単語の先頭の2文字に一致するか否かの判断を繰り返す。なお、姓のリストから全ての単語の読み出しが終了したと判断した場合(S36:YES)、即ち、ステップS33で抽出した2音節を先頭に有する姓が人名辞書4bの姓のリストに登録されていない場合、制御部1は、ステップS42へ処理を移行する。
ステップS33で抽出した2音節が姓のリストから読み出した単語の先頭の2文字に一致すると判断した場合(S35:YES)、即ち、ステップS33で抽出した2音節を先頭に有する姓が人名辞書4bの姓のリストに登録されている場合、制御部1は、ステップS11で抽出した未知語の後方の2音節を抽出する(S37)。
制御部1は、人名辞書4bの名のリストから1単語を読み出し(S38)、ステップS37で抽出した2音節が、名のリストから読み出した単語(名)の先頭の2文字に一致するか否かを判断する(S39)。抽出した2音節が名のリストから読み出した単語の先頭の2文字に一致すると判断した場合(S39:YES)、即ち、ステップS37で抽出した2音節を先頭に有する名が人名辞書4bの名のリストに登録されている場合、制御部1は、ステップS11で抽出した未知語は省略語であると判定し(S40)、ステップS21へ処理を移行する。
ステップS37で抽出した2音節が名のリストから読み出した単語の先頭の2文字に一致しないと判断した場合(S39:NO)、制御部1は、名のリストから全ての単語の読み出しが終了したか否かを判断し(S41)、全ての単語の読み出しが終了していないと判断した場合(S41:NO)、ステップS38へ処理を戻し、人名辞書4bの名のリストから1単語を読み出し(S38)、ステップS37で抽出した2音節が名のリストから読み出した単語の先頭の2文字に一致するか否かの判断を繰り返す。なお、名のリストから全ての単語の読み出しが終了したと判断した場合(S41:YES)、即ち、ステップS37で抽出した2音節を先頭に有する名が人名辞書4bの名のリストに登録されていない場合、制御部1は、ステップS42へ処理を移行する。
制御部1は、ステップS11で抽出した未知語から先頭の2音節を抽出し(S42)、複合語辞書4cの構成語の欄に最初の構成語として登録されている構成語を1つ読み出す(S43)。制御部1は、ステップS42で抽出した2音節が、複合語辞書4cから読み出した構成語の先頭の2文字に一致するか否かを判断し(S44)、一致しないと判断した場合(S44:NO)、複合語辞書4cから最初の構成語の全ての読み出しが終了したか否かを判断する(S45)。
複合語辞書4cから最初の構成語の全ての読み出しが終了していないと判断した場合(S45:NO)、制御部1は、ステップS43へ処理を戻し、複合語辞書4cの構成語の欄に最初の構成語として登録されている構成語を1つ読み出し(S43)、ステップS42で抽出した2音節が複合語辞書4cから読み出した構成語の先頭の2文字に一致するか否かの判断を繰り返す。なお、複合語辞書4cから最初の構成語の全ての読み出しが終了したと判断した場合(S45:YES)、即ち、ステップS42で抽出した2音節を先頭に有する最初の構成語が複合語辞書4cに登録されていない場合、制御部1は、ステップS11で抽出した未知語は省略語でないと判定し(S50)、ステップS21へ処理を移行する。
ステップS42で抽出した2音節が複合語辞書4cから読み出した構成語の先頭の2文字に一致すると判断した場合(S44:YES)、即ち、ステップS42で抽出した2音節を先頭に有する最初の構成語が複合語辞書4cに登録されている場合、制御部1は、ステップS11で抽出した未知語の後方の2音節を抽出する(S46)。制御部1は、ステップS43で読み出した最初の構成語を含む複合語の2番目の構成語を複合語辞書4cから読み出し(S47)、ステップS46で抽出した2音節が、複合語辞書4cから読み出した2番目の構成語の先頭の2文字に一致するか否かを判断する(S48)。
制御部1は、抽出した2音節が複合語辞書4cから読み出した2番目の構成語の先頭の2文字に一致すると判断した場合(S48:YES)、ステップS11で抽出した未知語は省略語であると判定し(S49)、ステップS21へ処理を移行する。また、制御部1は、抽出した2音節が複合語辞書4cから読み出した2番目の構成語の先頭の2文字に一致しないと判断した場合(S48:NO)、ステップS11で抽出した未知語は省略語でないと判定し(S50)、ステップS21へ処理を移行する。
上述したように、本実施形態1のテキスト解析装置10では、言語辞書4aに基づいてアクセント型を付与できなかった形態素(未知語)に対して省略語判定処理を行なうことにより、人名を省略した省略語であるか複合語を省略した省略語であるかを判定することができる。また、省略語であると判定された未知語には所定のアクセント型(平板型のアクセント型)を付与し、省略語であると判定されなかった未知語には、例えば後ろから3モーラ目にアクセント核を有するアクセント型を付与することにより、省略語であると判定された未知語と、省略語でないと判定された未知語とにそれぞれ異なるアクセント型を付与することができるので、それぞれに適したアクセント型を付与することができる。
上述した実施形態1では、各未知語が、人名における姓の先頭の1音節と名の先頭の2音節とを組み合わせた省略語、人名における姓の先頭の2音節と名の先頭の2音節とを組み合わせた省略語、複合語を構成する最初の構成語の先頭の1音節と2番目の構成語の先頭の2音節とを組み合わせた省略語、複合語を構成する最初の構成語の先頭の2音節と2番目の構成語の先頭の2音節とを組み合わせた省略語のいずれかであるか否かを判定する構成であった。しかし、省略語を構成する文字数はこれらに限られず、また、操作部5を介してユーザからの設定によって、任意の文字数に変更可能とすることもできる。
上述した構成により、本実施形態1のテキスト解析装置10では、マツケン(松平健)、キムタク(木村拓也)、ナカショー(中川翔子)、コスプレ(コスチュームプレイ)、連ドラ(連続ドラマ)、筋トレ(筋肉トレーニング)、地デジ(地上デジタル放送)等の省略語がテキストデータに含まれている場合に、各単語を省略語であると適切に判定することができる。
(実施形態2)
以下に、本発明に係る省略語判定装置を備えた本発明に係るテキスト解析装置を、実施形態2を示す図面に基づいて詳述する。なお、本実施形態2のテキスト解析装置は、上述した実施形態1のテキスト解析装置10と同様の構成によって実現することができるので、同様の構成については同一の符号を付して説明を省略する。
図12は実施形態2のテキスト解析装置10の機能構成例を示す機能ブロック図である。本実施形態2のテキスト解析装置10において、制御部1は、ROM2又はHDD4に記憶してある制御プログラムを実行することにより、上述した実施形態1のテキスト解析装置10と同様に、形態素解析部11、省略語判定部12及び省略語アクセント付与部13等の各機能を実現する。
なお、本実施形態2のテキスト解析装置10のHDD4には、図13に示すような共起辞書4dが格納されている。図13は共起辞書4dの登録内容を示す模式図である。図13に示すように、共起辞書(共起データ記憶手段)4dには、単語(テキストデータ)の読み及び各単語と共起される共起単語(共起データ)がそれぞれ対応付けて登録されている。
以下に、上述した構成の本実施形態2のテキスト解析装置10によるテキスト解析処理について説明する。以下では、テキスト解析装置10が「マツケンが、サンバを踊った。」のテキストデータを解析する処理を例に説明する。
本実施形態2の形態素解析部11は、上述した実施形態1の形態素解析部11と同様に、HDD4に記憶してあるテキストデータ(文書データ)をHDD4からRAM3に読み出し、言語辞書(テキスト記憶手段)4aの登録内容に基づいて、RAM3に読み出したテキストデータ(文書データ)を形態素(テキストデータ)に分割すると共に、分割した形態素のそれぞれにアクセント型を付与する。具体的には、形態素解析部11は、実施形態1で説明したように、「マツケン(未知語)・ガ(1モーラ0型)・サンバ(3モーラ1型)・オ(1モーラ0型)・オドッタ(4モーラ0型)」の表音文字列を生成して省略語判定部12へ送出する。
本実施形態2の省略語判定部12は、まず、上述した実施形態1の省略語判定部12と同様の処理を行ない、人名辞書4b又は複合語辞書4cの登録内容に基づいて、形態素解析部11から送出されてきた表音文字列中の未知語(形態素)が、人名又は複合語を省略した省略語の候補であるか否かを判定する。ここでは、実施形態1で説明した通り、未知語「マツケン」が省略語の候補であると判定される。なお、本実施形態2の省略語判定部12は、各未知語が省略語の候補であると判定した場合、この省略語に対する正式名称を、人名辞書4b又は複合語辞書4cの登録内容に基づいて取得しておく。
具体的には、省略語判定部12は、未知語の先頭の1音節(又は2音節)が、人名辞書4bの姓のリストに登録されているいずれかの姓の先頭の1文字(又は2文字)に一致する場合、若しくは、複合語辞書4cに登録されている最初の構成語のいずれかの先頭の1文字(又は2文字)に一致する場合、それぞれ一致する姓又は構成語を読み出してRAM3に記憶しておく。また、省略語判定部12は、未知語の後方の2音節が、人名辞書4bの名のリストに登録されているいずれかの名の先頭の2文字に一致する場合、若しくは、複合語辞書4cに登録されている2番目の構成語の先頭の2文字に一致する場合、それぞれ一致する名又は構成語を読み出してRAM3に記憶しておく。これにより、省略語判定部12は、省略語の候補であると判定した未知語に対する正式名称を取得することができる。なお、ここでは、省略語の候補「マツケン」の正式名称「マツダイラケン」が取得される。
次に、省略語判定部12は、省略語の候補であると判定した未知語の正式名称に基づいて、この省略語に対する共起単語を共起辞書4dから取得する。ここでは、正式名称「マツダイラケン」に対する共起単語「サンバ」及び「暴れん坊将軍」が取得される。省略語判定部12は、形態素解析部11から送出されてきた表音文字列中に、共起辞書4dから取得した共起単語が含まれているか否かを判断し、含まれると判断した場合、省略語の候補であると判定していた未知語を省略語であると確定する。そして、省略語判定部12は、「マツケン(省略語)・ガ(1モーラ0型)・サンバ(3モーラ1型)・オ(1モーラ0型)・オドッタ(4モーラ0型)」の表音文字列を省略語アクセント付与部13へ送出する。
一方、形態素解析部11から送出されてきた表音文字列中に、共起辞書4dから取得した共起単語が含まれていないと判断した場合、省略語判定部12は、省略語の候補であると判定した未知語を省略語でないと確定し、例えば、「マツケン(未知語)・ガ(1モーラ0型)・サンバ(3モーラ1型)・オ(1モーラ0型)・オドッタ(4モーラ0型)」の表音文字列を省略語アクセント付与部13へ送出する。
省略語アクセント付与部13は、上述した実施形態1の省略語アクセント付与部13と同様に、省略語判定部12によって省略語であると判定された形態素に対して平板型(0型)のアクセント型を付与する。
上述したように、人名辞書4b及び複合語辞書4cの登録内容に基づいて、省略語の候補であると判定された未知語について、当該未知語を含むテキストデータ(文書データ)中に、当該未知語と共起される共起単語が含まれない場合は、この未知語が、当該省略語ではない可能性が高いため、当該省略語ではないと確定する。これにより、省略語の誤判定を防止することができ、真に省略語に対してのみ所定のアクセント型を付与することができる。
以下に、本実施形態2のテキスト解析装置10によるテキスト解析処理についてフローチャートに基づいて詳述する。図14はテキスト解析処理の手順を示すフローチャートである。なお、以下の処理は、テキスト解析装置10のROM2又はHDD4に記憶してある制御プログラムに従って制御部1によって実行される。
テキスト解析装置10のユーザが操作部5を操作することによって1つのテキストデータに基づくテキスト解析の実行を指示した場合、制御部1は、HDD4に記憶してあるテキストデータをRAM3に読み込む(S61)。制御部1(形態素解析部11)は、RAM3に読み込んだテキストデータを、言語辞書4aの登録内容に基づいて形態素に分割し、分割した形態素のそれぞれにアクセント型を付与し(S62)、各形態素にアクセント型を対応付けた表音文字列を生成する。
制御部1(省略語判定部12)は、人名辞書4b及び複合語辞書4cの登録内容に基づいて省略語判定処理を実行し(S63)、ステップS62でアクセント型を付与できなかった形態素(未知語)が省略語の候補であるか否かを判定する。なお、本実施形態2の省略語判定処理は、実施形態1において図7乃至図11に基づいて説明した処理と同様であるが、本実施形態2の制御部1(省略語判定部12)は、各未知語が省略語の候補であると判定した場合、この省略語に対する正式名称を、人名辞書4b又は複合語辞書4cの登録内容に基づいて取得する(S64)。
制御部1は、ステップS64で取得した正式名称に基づいて、この省略語に対する共起単語を共起辞書4dから取得し(S65)、ステップS62で生成した表音文字列中に、共起辞書4dから取得した共起単語が含まれるか否かを判断する(S66)。共起単語が含まれると判断した場合(S66:YES)、制御部1は、ステップS63で省略語の候補であると判定した未知語を省略語であると確定する(S67)。また、制御部1(省略語アクセント付与部13)は、ステップS67で省略語であると確定された形態素に対して平板型(0型)のアクセント型を付与し(S68)、テキスト解析処理を終了する。
一方、ステップS62で生成した表音文字列中に共起単語が含まれないと判断した場合(S66:NO)、制御部1は、ステップS63で省略語の候補であると判定した未知語を省略語でないと確定し(S69)、テキスト解析処理を終了する。
上述したように、本実施形態2のテキスト解析装置10では、人名辞書4b及び複合語辞書4cの登録内容に基づいて省略語の候補であると判定された未知語を含むテキストデータ(文書データ)中に、当該省略語と共起される共起単語が含まれない場合は、この未知語が当該省略語ではない可能性が高いため、当該省略語ではないと確定する。従って、省略語の候補であると判定された未知語が、当該省略語であれば共起される可能性の高い共起単語と共に用いられていれば、この未知語を省略語であると確定し、共起単語と共に用いられていなければ、この未知語を省略語でないと確定する。
これにより、省略語の誤判定を防止することができ、真の省略語に対してのみ省略語であると判定することができる。よって、省略語であると確定された未知語には所定のアクセント型を付与し、省略語でないと確定され未知語には、例えば後ろから3モーラ目にアクセント核を有するアクセント型を付与することにより、真の省略語と、省略語でない未知語とにそれぞれ異なるアクセント型を付与することができるので、それぞれに適したアクセント型を付与することができる。
(実施形態3)
以下に、本発明に係る省略語判定装置を備えた本発明に係るテキスト解析装置を、実施形態3を示す図面に基づいて詳述する。なお、本実施形態3のテキスト解析装置は、上述した実施形態1のテキスト解析装置10と同様の構成によって実現することができるので、同様の構成については同一の符号を付して説明を省略する。
上述した実施形態1のテキスト解析装置10において、制御部1(省略語アクセント付与部13)は、人名辞書4b及び複合語辞書4cの登録内容に基づいて省略語であると判定した未知語に対して平板型のアクセント型を付与するように構成されていた。
本実施形態3のテキスト解析装置10では、各省略語に対するアクセント型を登録してある例外省略語辞書4eがHDD4に予め格納されており、制御部1(省略語アクセント付与部13)は、人名辞書4b及び複合語辞書4cの登録内容に基づいて省略語であると判定した未知語(省略語)において、例外省略語辞書4eに登録されている省略語には例外省略語辞書4eに登録されているアクセント型を付与し、例外省略語辞書4eに登録されていない省略語には平板型のアクセント型を付与するように構成されている。
図15は実施形態3のテキスト解析装置10の機能構成例を示す機能ブロック図である。本実施形態3のテキスト解析装置10において、制御部1は、ROM2又はHDD4に記憶してある制御プログラムを実行することにより、上述した実施形態1のテキスト解析装置10と同様に、形態素解析部11、省略語判定部12及び省略語アクセント付与部13等の各機能を実現する。
なお、本実施形態3のテキスト解析装置10のHDD4には、図16に示すような例外省略語辞書4eが格納されている。図16は例外省略語辞書4eの登録内容を示す模式図である。図16に示すように、例外省略語辞書(省略語記憶手段)4eには、省略語及び各省略語のアクセント型がそれぞれ対応付けて登録されている。
以下に、上述した構成の本実施形態3のテキスト解析装置10によるテキスト解析処理について説明する。以下では、テキスト解析装置10が「ナカショーが、コスプレをした。」のテキストデータを解析する処理を例に説明する。
本実施形態3の形態素解析部11は、上述した実施形態1の形態素解析部11と同様に、HDD4に記憶してあるテキストデータをHDD4からRAM3に読み出し、言語辞書4aの登録内容に基づいて、RAM3に読み出したテキストデータを形態素に分割すると共に、分割した形態素のそれぞれにアクセント型を付与する。ここでは、形態素解析部11は、「ナカショー(未知語)・ガ(1モーラ0型)・コスプレ(未知語)・オ(1モーラ0型)・シタ(2モーラ0型)」の表音文字列を生成する。
本実施形態3の省略語判定部12は、上述した実施形態1の省略語判定部12と同様に、人名辞書4b及び複合語辞書4cの登録内容に基づいて、形態素解析部11によって生成された表音文字列中の未知語が省略語であるか否かを判定する。省略語判定部12は、省略語であると判定した未知語に対しては省略語であることを示す情報を対応付け、省略語でないと判定した未知語に対しては未知語であることを示す情報を対応付けた表音文字列を生成する。ここでは、省略語判定部12は、「ナカショー(省略語)・ガ(1モーラ0型)・コスプレ(省略語)・オ(1モーラ0型)・シタ(2モーラ0型)」の表音文字列を生成する。
本実施形態3の省略語アクセント付与部13は、省略語判定部12によって生成された表音文字列中の省略語を抽出し、抽出した省略語が例外省略語辞書4eに登録されているか否かを判断する。抽出した省略語が例外省略語辞書4eに登録されている場合、省略語アクセント付与部13は、抽出した省略語に対応するアクセント型を例外省略語辞書4eから読み出し、抽出した省略語に対して付与する。一方、抽出した省略語が例外省略語辞書4eに登録されていない場合、省略語アクセント付与部13は、抽出した省略語に対して平板型(0型)のアクセント型を付与する。
ここでは、省略語「ナカショー」は例外省略語辞書4eに登録されているので、省略語「ナカショー」には、そのアクセント型「4モーラ2型」を付与し、省略語「コスプレ」は例外省略語辞書4eに登録されていないので、省略語「コスプレ」には平板型のアクセント型を付与する。即ち、ここでは、省略語アクセント付与部13は、「ナカショー(4モーラ2型)・ガ(1モーラ0型)・コスプレ(4モーラ0型)・オ(1モーラ0型)・シタ(2モーラ0型)」の表音文字列を生成する。
なお、省略語アクセント付与部13は、上述した処理を、省略語判定部12によって生成された表音文字列中の全ての省略語に対して実行することにより、例外省略語辞書4eに登録されている省略語に対しては予め登録しておいたアクセント型を付与することができる。これにより、省略語「ナカショー」のように平板型のアクセント型でない省略語に対してはより適切なアクセント型を付与することができる。
以下に、本実施形態3のテキスト解析装置10によるテキスト解析処理についてフローチャートに基づいて詳述する。図17はテキスト解析処理の手順を示すフローチャートである。なお、以下の処理は、テキスト解析装置10のROM2又はHDD4に記憶してある制御プログラムに従って制御部1によって実行される。
テキスト解析装置10のユーザが操作部5を操作することによって1つのテキストデータに基づくテキスト解析の実行を指示した場合、制御部1は、HDD4に記憶してあるテキストデータをRAM3に読み込む(S71)。制御部1(形態素解析部11)は、RAM3に読み込んだテキストデータを、言語辞書4aの登録内容に基づいて形態素に分割し、分割した形態素のそれぞれにアクセント型を付与し(S72)、各形態素にアクセント型を対応付けた表音文字列を生成する。
制御部1(省略語判定部12)は、人名辞書4b及び複合語辞書4cの登録内容に基づいて省略語判定処理を実行し(S73)、ステップS72でアクセント型を付与できなかった形態素(未知語)が省略語の候補であるか否かを判定する。なお、本実施形態3の省略語判定処理は、実施形態1において図7乃至図11に基づいて説明した処理と同様である。
制御部1(省略語アクセント付与部13)は、ステップS73で生成した表音文字列から省略語を抽出し(S74)、抽出した省略語が例外省略語辞書4eに登録されているか否かを判断する(S75)。抽出した省略語が例外省略語辞書4eに登録されていると判断した場合(S75:YES)、制御部1は、抽出した省略語に対応するアクセント型を例外省略語辞書4eから読み出し、抽出した省略語に対して付与する(S76)。
抽出した省略語が例外省略語辞書4eに登録されていないと判断した場合(S75:NO)、制御部1は、抽出した省略語に対して平板型(0型)のアクセント型を付与する(S77)。制御部1は、ステップS73で生成した表音文字列中の全ての省略語に対して上述した処理が終了したか否かを判断しており(S78)、終了していないと判断した場合(S78:NO)、ステップS74へ処理を戻し、表音文字列から省略語を抽出し(S74)、抽出した省略語が例外省略語辞書4eに登録されているか否かの判断を繰り返す。表音文字列中の全ての省略語に対する処理が終了したと判断した場合(S78:YES)、制御部1は、上述したテキスト解析処理を終了する。
上述したように、本実施形態3のテキスト解析装置10では、人名辞書4b及び複合語辞書4cの登録内容に基づいて省略語であると判定された未知語に対するアクセント型が例外省略語辞書4eに登録されている場合、このアクセント型を省略語に付与することにより、平板型でないアクセント型の省略語に対して適切なアクセント型を付与することができる。また、人名辞書4b及び複合語辞書4cの登録内容に基づいて省略語であると判定された未知語に対するアクセント型が例外省略語辞書4eに登録されていない場合であっても、この省略語に平板型のアクセント型を付与することにより、省略語ではない未知語とは異なるアクセント型を付与することができる。従って、各省略語により適切に付与されたアクセント型に基づいて、各省略語に対応する韻律を生成し、生成した韻律に基づいて合成音声を生成した場合、適切な韻律を生成することができ、また、適切な韻律に基づいて適切な合成音声を生成することができる。
上述した本実施形態3は、実施形態1のテキスト解析装置10において、制御部1(省略語アクセント付与部13)が、例外省略語辞書4eに登録されている省略語に対しては、対応するアクセント型を付与し、例外省略語辞書4eに登録されていない省略語に対しては、平板型のアクセント型を付与する構成であり、実施形態1の変形例として説明した。しかし、実施形態2のテキスト解析装置10においても同様の変形例を適用することができる。即ち、本実施形態3の構成を実施形態2のテキスト解析装置10に適用した場合、人名辞書4b及び複合語辞書4cだけでなく、共起辞書4dに基づいて省略語であると特定された各単語に対して適切なアクセント型を付与することができる。
(実施形態4)
以下に、本発明に係る音声合成装置を、実施形態4を示す図面に基づいて詳述する。なお、本実施形態4の音声合成装置は、上述した実施形態1のテキスト解析装置10の構成を備えており、同様の構成については同一の符号を付して説明を省略する。図18は実施形態4に係る音声合成装置の構成例を示すブロック図である。本実施形態4に係る音声合成装置100は、図1に示した制御部1、ROM2、RAM3、HDD4、操作部5、表示部6のほかに、音声出力部7を備えており、これらのハードウェア各部はそれぞれバス1aを介して相互に接続されている。
音声出力部7は、音声増幅回路及びスピーカ等を備えており、例えばHDD4に記憶された音声情報(音声波形)に基づく音声を出力する。
HDD4には、テキストデータ、図2に示すような言語辞書4a、図3に示すような人名辞書4b、図4に示すような複合語辞書4c、ユーザに対して各種の情報を通知するための画面情報のほかに、音声合成装置100を本発明の音声合成装置として動作させるために必要な種々の制御プログラム、韻律生成ルール辞書4f、波形辞書4g等が予め記憶されている。
なお、韻律生成ルール辞書4f及び波形辞書4gの詳細については図示しないが、韻律生成ルール辞書4fには、各形態素の読み及びアクセント型に基づいて韻律データを生成する際のルールが登録されており、波形辞書4gには、複数の音素(音素列)からなる文章に対応して各音声の波形群が登録されている。
以下に、上述した構成の音声合成装置100において、制御部1がROM2及びHDD4に記憶してある制御プログラムを実行することによって実現される各種の機能について説明する。図19は実施形態4の音声合成装置100の機能構成例を示す機能ブロック図である。本実施形態4の音声合成装置100において、制御部1は、ROM2及びHDD4に記憶してある制御プログラムを実行することによって、上述した実施形態1のテキスト解析装置10、韻律生成部20、波形生成部30等の各機能を実現する。
韻律生成部20は、テキスト解析装置10によって生成された表音文字列に対応する韻律データを、韻律生成ルール辞書4fの登録内容に従って生成する。具体的には、韻律生成部20は、テキスト解析装置10から送出されてきた表音文字列において、各形態素の読み及びアクセント型に対応する韻律データを生成する。
波形生成部30は、韻律生成部20によって生成された韻律データを、波形辞書4gの登録内容に基づいて音声波形に変換して合成音声を生成する。具体的には、波形生成部30は、韻律生成部20から送出されてきた韻律データにおける各形態素に対応する音声波形を波形辞書4gから抽出し、抽出した音声波形と韻律データとに基づいて合成音声を生成する。なお、波形生成部30が生成した合成音声は、一旦RAM3又はHDD4に記憶された後、制御部1による制御に従った所定のタイミングで音声出力部7へ送出され、音声出力部7から音声出力される。
上述した構成により、本実施形態4の音声合成装置100は、テキスト解析装置10によってテキストデータを解析して表音文字列を生成し、生成した表音文字列に応じた合成音声を生成することができる。従って、上述した実施形態1のテキスト解析装置10のように、言語辞書4aに基づいて各形態素に適切なアクセント型を付与し、また、言語辞書4aに登録されていない未知語については、省略語である場合には省略語に適したアクセント型(平板型のアクセント型)を付与することにより、各形態素のそれぞれに適切なアクセント型を付与した場合、このようなアクセント型に基づいて適切な合成音声を生成することができる。
以下に、本実施形態4の音声合成装置100による合成音声の生成処理についてフローチャートに基づいて詳述する。図20は合成音声の生成処理の手順を示すフローチャートである。なお、以下の処理は、音声合成装置100のROM2又はHDD4に記憶してある制御プログラムに従って制御部1によって実行される。
音声合成装置100のユーザが操作部5を操作することによって1つのテキストデータに基づく合成音声の生成処理の実行を指示した場合、制御部1は、HDD4に記憶してあるテキストデータをRAM3に読み込む(S81)。制御部1(形態素解析部11)は、RAM3に読み込んだテキストデータを、言語辞書4aの登録内容に基づいて形態素に分割し、分割した形態素のそれぞれにアクセント型を付与し(S82)、各形態素にアクセント型を対応付けた表音文字列を生成する。
制御部1(省略語判定部12)は、人名辞書4b及び複合語辞書4cの登録内容に基づいて省略語判定処理を実行し(S83)、ステップS82でアクセント型を付与できなかった形態素(未知語)が省略語であるか否かを判定する。なお、本実施形態4の省略語判定処理は、実施形態1において図7乃至図11に基づいて説明した処理と同様である。
制御部1(省略語アクセント付与部13)は、ステップS83で省略語であると判定された形態素に対して平板型(0型)のアクセント型を付与する(S84)。制御部1(韻律生成部20)は、得られた表音文字列に対応する韻律データを、韻律生成ルール辞書4fの登録内容に基づいて生成する(S85)。制御部1(波形生成部30)は、生成した韻律データを、波形辞書4gの登録内容に基づいて音声波形を生成し(S86)、合成音声(音声波形)の生成処理を終了する。
上述したように、本実施形態4の音声合成装置100では、実施形態1で説明したように、言語辞書4aに基づいてアクセント型を付与できなかった形態素(未知語)が省略語であるか否かを判定し、省略語であるか否かに応じて適切なアクセント型を各未知語に付与することにより、適切に付与されたアクセント型に基づいて適切な韻律を生成することができ、また、適切な韻律に基づいて適切な合成音声を生成することができる。従って、言語辞書4aに登録されていない未知語に対しても正しいアクセント、イントネーションでの合成音声を生成することができる。
上述した本実施形態4では、実施形態1のテキスト解析装置10を備えた音声合成装置100を例に本発明を説明したが、本発明の音声合成装置は、上述した実施形態2,3のテキスト解析装置10を備えた構成とすることもできる。なお、上述した実施形態3のテキスト解析装置10を備えた構成とした場合、音声合成装置100は、省略語判定処理によって省略語であると判定された未知語で、例外省略語辞書4eに登録されている省略語には予め登録しておいたアクセント型を付与することができるので、平板型のアクセント型でない省略語に対してより適切なアクセント型を付与することができ、このようなアクセント型に基づいてより適切な合成音声を生成することができる。
上述したように、本発明に係る省略語判定装置は、言語辞書4aに登録されていない形態素(未知語)が、人名を省略した省略語である場合、又は複合語を省略した省略語である場合、このような省略語には平板型のアクセント型を付与し、それ以外の未知語には従来から行なっているように、例えば後ろから3モーラ目にアクセント核を有するアクセント型を付与することにより、省略語と、省略語ではない未知語とにおいてそれぞれ異なるアクセント型を付与することができる。
なお、人名を省略した省略語及び複合語を省略した省略語は、平板型のアクセント型を有する場合が多いので、このような省略語には平板型のアクセント型を付与することにより、このような省略語を含む文書であっても、適切なアクセントでの合成音声を生成することができ、このような合成音声に基づいて、より自然な音声の出力が可能となる。また、本発明は、日々出現する新しい省略語を辞書に登録しておく構成ではなく、人名辞書4b及び複合語辞書4cの登録内容に基づいて省略語であるか否かを判断する構成であるので、省略語を辞書に登録する作業を行なうことなく、文書中の省略語を適切に判定し、省略語に対して適切なアクセント型を付与することができる。
(付記1)
テキストデータが省略語であるか否かを判定する省略語判定装置において、
人名に用いられる姓及び名をそれぞれ記憶する人名記憶手段と、
前記テキストデータから先頭の所定数の文字データを抽出する第1抽出手段と、
該第1抽出手段が抽出した文字データを先頭に有する姓が前記人名記憶手段に記憶してあるか否かを判断する手段と、
前記姓が前記人名記憶手段に記憶してあると判断した場合、前記第1抽出手段が抽出した文字データを除いた前記テキストデータから、先頭の所定数の文字データを抽出する第2抽出手段と、
該第2抽出手段が抽出した文字データを先頭に有する名が前記人名記憶手段に記憶してあるか否かを判断する手段と、
前記名が前記人名記憶手段に記憶してあると判断した場合、前記テキストデータが省略語であると判定する判定手段と
を備えることを特徴とする省略語判定装置。
(付記2)
テキストデータが省略語であるか否かを判定する省略語判定装置において、
複数の複合語及び各複合語を構成する構成語を対応付けて記憶する複合語記憶手段と、
前記テキストデータから先頭の所定数の文字データを抽出する第1抽出手段と、
該第1抽出手段が抽出した文字データを先頭に有する構成語を含む複合語が前記複合語記憶手段に記憶してあるか否かを判断する判断手段と、
前記複合語が前記複合語記憶手段に記憶してあると判断した場合、前記第1抽出手段が抽出した文字データを除いた前記テキストデータから、先頭の所定数の文字データを抽出する第2抽出手段と、
該第2抽出手段が抽出した文字データを先頭に有する構成語が、前記判断手段が前記複合語記憶手段に記憶してあると判断した複合語の構成語に含まれているか否かを判断する手段と、
前記構成語が含まれていると判断した場合、前記テキストデータが省略語であると判定する判定手段と
を備えることを特徴とする省略語判定装置。
(付記3)
前記第1抽出手段は、前記テキストデータの先頭から、2音節に相当する数の文字データを抽出するように構成されており、
前記第2抽出手段は、前記第1抽出手段が抽出した文字データを除いた前記テキストデータの先頭から、2音節に相当する数の文字データを抽出するように構成されていることを特徴とする付記1又は2に記載の省略語判定装置。
(付記4)
前記第1抽出手段は、前記テキストデータの先頭から、1音節に相当する数の文字データを抽出するように構成されており、
前記第2抽出手段は、前記第1抽出手段が抽出した文字データを除いた前記テキストデータの先頭から、2音節に相当する数の文字データを抽出するように構成されていることを特徴とする付記1又は2に記載の省略語判定装置。
(付記5)
複数のテキストデータを含む文書データをテキストデータに分割する分割手段を備え、
前記第1抽出手段は、分割されたテキストデータのそれぞれから先頭の所定数の文字データを抽出するように構成されており、
前記第2抽出手段は、前記第1抽出手段が抽出した文字データを除いた前記分割されたテキストデータのそれぞれから、先頭の所定数の文字データを抽出するように構成されており、
前記判定手段は、前記分割されたテキストデータのそれぞれが省略語の候補であるか否かを判定するように構成されており、
複数のテキストデータ及び各テキストデータと共起される共起データを対応付けて記憶する共起データ記憶手段と、
前記判定手段が省略語の候補であると判定したテキストデータに対応する共起データを前記共起データ記憶手段から取得する手段と、
前記文書データ中のテキストデータに、前記共起データ記憶手段から取得された共起データが含まれているか否かを判断する手段と、
前記共起データが含まれていると判断した場合、前記判定手段が省略語の候補であると判定したテキストデータを省略語であると確定する手段と
を備えることを特徴とする付記1乃至4のいずれかひとつに記載の省略語判定装置。
(付記6)
テキストデータが省略語であるか否かを判定する省略語判定方法において、
前記テキストデータから先頭の所定数の文字データを抽出する第1抽出ステップと、
該第1抽出ステップで抽出した文字データを先頭に有する姓が、人名に用いられる姓及び名をそれぞれ記憶する人名記憶手段に記憶してあるか否かを判断するステップと、
前記姓が前記人名記憶手段に記憶してあると判断した場合、前記第1抽出ステップで抽出した文字データを除いた前記テキストデータから、先頭の所定数の文字データを抽出する第2抽出ステップと、
該第2抽出ステップで抽出した文字データを先頭に有する名が前記人名記憶手段に記憶してあるか否かを判断するステップと、
前記名が前記人名記憶手段に記憶してあると判断した場合、前記テキストデータが省略語であると判定するステップと
を含むことを特徴とする省略語判定方法。
(付記7)
テキストデータが省略語であるか否かを判定する省略語判定方法において、
前記テキストデータから先頭の所定数の文字データを抽出する第1抽出ステップと、
該第1抽出ステップで抽出した文字データを先頭に有する構成語を含む複合語が、複数の複合語及び各複合語を構成する構成語を対応付けて記憶する複合語記憶手段に記憶してあるか否かを判断する判断ステップと、
前記複合語が前記複合語記憶手段に記憶してあると判断した場合、前記第1抽出ステップで抽出した文字データを除いた前記テキストデータから、先頭の所定数の文字データを抽出する第2抽出ステップと、
該第2抽出ステップで抽出した文字データを先頭に有する構成語が、前記判断ステップで前記複合語記憶手段に記憶してあると判断された複合語の構成語に含まれているか否かを判断するステップと、
前記構成語が含まれていると判断した場合、前記テキストデータが省略語であると判定するステップと
を含むことを特徴とする省略語判定方法。
(付記8)
コンピュータに、テキストデータが省略語であるか否かを判定させるためのコンピュータプログラムにおいて、
人名に用いられる姓及び名をそれぞれ記憶する人名記憶手段を備えたコンピュータに、
前記テキストデータから先頭の所定数の文字データを抽出する第1抽出ステップと、
該第1抽出ステップで抽出した文字データを先頭に有する姓が前記人名記憶手段に記憶してあるか否かを判断するステップと、
前記姓が前記人名記憶手段に記憶してあると判断した場合、前記第1抽出ステップで抽出した文字データを除いた前記テキストデータから、先頭の所定数の文字データを抽出する第2抽出ステップと、
該第2抽出ステップで抽出した文字データを先頭に有する名が前記人名記憶手段に記憶してあるか否かを判断するステップと、
前記名が前記人名記憶手段に記憶してあると判断した場合、前記テキストデータが省略語であると判定するステップと
を実行させるためのコンピュータプログラム。
(付記9)
コンピュータに、テキストデータが省略語であるか否かを判定させるためのコンピュータプログラムにおいて、
複数の複合語及び各複合語を構成する構成語を対応付けて記憶する複合語記憶手段を備えたコンピュータに、
前記テキストデータから先頭の所定数の文字データを抽出する第1抽出ステップと、
該第1抽出ステップで抽出した文字データを先頭に有する構成語を含む複合語が前記複合語記憶手段に記憶してあるか否かを判断する判断ステップと、
前記複合語が前記複合語記憶手段に記憶してあると判断した場合、前記第1抽出ステップで抽出した文字データを除いた前記テキストデータから、先頭の所定数の文字データを抽出する第2抽出ステップと、
該第2抽出ステップで抽出した文字データを先頭に有する構成語が、前記判断ステップで前記複合語記憶手段に記憶してあると判断された複合語の構成語に含まれているか否かを判断するステップと、
前記構成語が含まれていると判断した場合、前記テキストデータが省略語であると判定するステップと
を実行させるためのコンピュータプログラム。
(付記10)
テキストデータを解析するテキスト解析装置において、
付記1乃至4のいずれかひとつに記載の省略語判定装置と、
形態素及びアクセント型を対応付けて記憶する形態素記憶手段と、
該形態素記憶手段の記憶内容に基づいて、テキストデータを形態素に分割する形態素分割手段と、
前記形態素記憶手段の記憶内容に基づいて、前記形態素分割手段が分割した形態素のそれぞれにアクセント型を付与する手段とを備え、
前記省略語判定装置は、前記形態素記憶手段に記憶されていない形態素が省略語であるか否かを判定するように構成されており、
前記省略語判定装置によって省略語であると判定された形態素に所定のアクセント型を付与するアクセント付与手段を備えることを特徴とするテキスト解析装置。
(付記11)
省略語及びアクセント型を対応付けて記憶する省略語記憶手段を備え、
前記アクセント付与手段は、
前記省略語記憶手段の記憶内容に基づいて、前記省略語判定装置によって省略語であると判定された形態素のそれぞれにアクセント型を付与する手段と、
前記省略語記憶手段に記憶されていない形態素に所定のアクセント型を付与する手段とを備えることを特徴とする付記10に記載のテキスト解析装置。
(付記12)
テキストデータを解析するテキスト解析装置において、
付記5に記載の省略語判定装置と、
テキストデータ及びアクセント型を対応付けて記憶するテキスト記憶手段とを備え、
前記省略語判定装置の分割手段は、前記テキスト記憶手段の記憶内容に基づいて、文書データをテキストデータに分割するように構成されており、
前記テキスト記憶手段の記憶内容に基づいて、前記分割手段が分割したテキストデータのそれぞれにアクセント型を付与する手段を備え、
前記省略語判定装置は、前記テキスト記憶手段に記憶されていないテキストデータが省略語であるか否かを判定するように構成されており、
前記省略語判定装置によって省略語であると判定されたテキストデータに所定のアクセント型を付与する手段を備えることを特徴とするテキスト解析装置。
(付記13)
省略語及びアクセント型を対応付けて記憶する省略語記憶手段を備え、
前記アクセント付与手段は、
前記省略語記憶手段の記憶内容に基づいて、前記省略語判定装置によって省略語であると判定されたテキストデータのそれぞれにアクセント型を付与する手段と、
前記省略語記憶手段に記憶されていないテキストデータに所定のアクセント型を付与する手段とを備えることを特徴とする付記12に記載のテキスト解析装置。
(付記14)
テキストデータから合成音声を生成する音声合成装置において、
付記10又は11に記載のテキスト解析装置と、
該テキスト解析装置の形態素分割手段が分割した形態素及び各形態素に付与されたアクセント型に基づいて、各形態素に対応する韻律を生成する韻律生成手段と、
該韻律生成手段が生成した韻律に基づいて合成音声を生成する波形生成手段と
を備えることを特徴とする音声合成装置。
(付記15)
テキストデータから合成音声を生成する音声合成装置において、
付記12又は13に記載のテキスト解析装置と、
前記省略語判定装置の分割手段が分割したテキストデータ及び前記テキスト解析装置が各テキストデータに付与したアクセント型に基づいて、各テキストデータに対応する韻律を生成する韻律生成手段と、
該韻律生成手段が生成した韻律に基づいて合成音声を生成する波形生成手段と
を備えることを特徴とする音声合成装置。
実施形態1に係るテキスト解析装置の構成例を示すブロック図である。 言語辞書の登録内容を示す模式図である。 人名辞書の登録内容を示す模式図である。 複合語辞書の登録内容を示す模式図である。 テキスト解析装置の機能構成例を示す機能ブロック図である。 テキスト解析処理の手順を示すフローチャートである。 省略語判定処理の手順を示すフローチャートである。 省略語判定処理の手順を示すフローチャートである。 省略語判定処理の手順を示すフローチャートである。 省略語判定処理の手順を示すフローチャートである。 省略語判定処理の手順を示すフローチャートである。 実施形態2のテキスト解析装置の機能構成例を示す機能ブロック図である。 共起辞書の登録内容を示す模式図である。 テキスト解析処理の手順を示すフローチャートである。 実施形態3のテキスト解析装置の機能構成例を示す機能ブロック図である。 例外省略語辞書の登録内容を示す模式図である。 テキスト解析処理の手順を示すフローチャートである。 実施形態4に係る音声合成装置の構成例を示すブロック図である。 実施形態4の音声合成装置の機能構成例を示す機能ブロック図である。 合成音声の生成処理の手順を示すフローチャートである。
符号の説明
10 テキスト解析装置
1 制御部
11 形態素解析部(形態素分割手段)
12 省略語判定部(第1抽出手段、第2抽出手段、判定手段、判断手段)
13 省略語アクセント付与部(アクセント付与手段)
4a 言語辞書(形態素記憶手段)
4b 人名辞書(人名記憶手段)
4c 複合語辞書(複合語記憶手段)
4d 共起辞書(共起データ記憶手段)
4e 例外省略語辞書(省略語記憶手段)
20 韻律生成部(韻律生成手段)
30 波形生成部(波形生成手段)

Claims (15)

  1. テキストデータを解析するテキスト解析装置において、
    人名に用いられる姓及び名をそれぞれ記憶する人名記憶手段と、
    複数のテキストデータ及び各テキストデータと共起される共起データを対応付けて記憶する共起データ記憶手段と、
    テキストデータ及びアクセント型を対応付けて記憶するテキスト記憶手段と、
    該テキスト記憶手段の記憶内容に基づいて、複数のテキストデータを含む文書データをテキストデータに分割する分割手段と、
    前記テキスト記憶手段の記憶内容に基づいて、前記分割手段が分割したテキストデータのそれぞれにアクセント型を付与する手段と、
    前記分割手段にて分割されたテキストデータのうちで、前記テキスト記憶手段に記憶されていないテキストデータのそれぞれから先頭の所定数の文字データを抽出する第1抽出手段と、
    該第1抽出手段が抽出した文字データを先頭に有する姓が前記人名記憶手段に記憶してあるか否かを判断する手段と、
    前記姓が前記人名記憶手段に記憶してあると判断した場合、前記第1抽出手段が抽出した文字データを除いた前記テキストデータのそれぞれから、先頭の所定数の文字データを抽出する第2抽出手段と、
    該第2抽出手段が抽出した文字データを先頭に有する名が前記人名記憶手段に記憶してあるか否かを判断する手段と、
    前記名が前記人名記憶手段に記憶してあると判断した場合、前記テキストデータのそれぞれが省略語の候補であると判定する判定手段と
    該判定手段が省略語の候補であると判定したテキストデータに対応する共起データを前記共起データ記憶手段から取得する手段と、
    前記文書データ中のテキストデータに、前記共起データ記憶手段から取得された共起データが含まれているか否かを判断する手段と、
    前記共起データが含まれていると判断した場合、前記判定手段が省略語の候補であると判定したテキストデータを省略語であると確定する手段と、
    省略語であると確定されたテキストデータに所定のアクセント型を付与する手段と
    を備えることを特徴とするテキスト解析装置
  2. テキストデータを解析するテキスト解析装置において、
    複数の複合語及び各複合語を構成する構成語を対応付けて記憶する複合語記憶手段と、
    複数のテキストデータ及び各テキストデータと共起される共起データを対応付けて記憶する共起データ記憶手段と、
    テキストデータ及びアクセント型を対応付けて記憶するテキスト記憶手段と、
    該テキスト記憶手段の記憶内容に基づいて、複数のテキストデータを含む文書データをテキストデータに分割する分割手段と、
    前記テキスト記憶手段の記憶内容に基づいて、前記分割手段が分割したテキストデータのそれぞれにアクセント型を付与する手段と、
    前記分割手段にて分割されたテキストデータのうちで、前記テキスト記憶手段に記憶されていないテキストデータのそれぞれから先頭の所定数の文字データを抽出する第1抽出手段と、
    該第1抽出手段が抽出した文字データを先頭に有する構成語を含む複合語が前記複合語記憶手段に記憶してあるか否かを判断する判断手段と、
    前記複合語が前記複合語記憶手段に記憶してあると判断した場合、前記第1抽出手段が抽出した文字データを除いた前記テキストデータのそれぞれから、先頭の所定数の文字データを抽出する第2抽出手段と、
    該第2抽出手段が抽出した文字データを先頭に有する構成語が、前記判断手段が前記複合語記憶手段に記憶してあると判断した複合語の構成語に含まれているか否かを判断する手段と、
    前記構成語が含まれていると判断した場合、前記テキストデータのそれぞれが省略語の候補であると判定する判定手段と
    該判定手段が省略語の候補であると判定したテキストデータに対応する共起データを前記共起データ記憶手段から取得する手段と、
    前記文書データ中のテキストデータに、前記共起データ記憶手段から取得された共起データが含まれているか否かを判断する手段と、
    前記共起データが含まれていると判断した場合、前記判定手段が省略語の候補であると判定したテキストデータを省略語であると確定する手段と、
    省略語であると確定されたテキストデータに所定のアクセント型を付与する手段と
    を備えることを特徴とするテキスト解析装置
  3. テキストデータから合成音声を生成する音声合成装置において、
    請求項1又は2に記載のテキスト解析装置と、
    該テキスト解析装置の分割手段が分割したテキストデータ及び各テキストデータに付与されたアクセント型に基づいて、各テキストデータに対応する韻律を生成する韻律生成手段と、
    該韻律生成手段が生成した韻律に基づいて合成音声を生成する波形生成手段と
    を備えることを特徴とする音声合成装置
  4. テキストデータが省略語であるか否かを判定する省略語判定装置において、
    人名に用いられる姓及び名をそれぞれ記憶する人名記憶手段と、
    前記テキストデータの先頭から、2音節に相当する数の文字データを抽出する第1抽出手段と、
    該第1抽出手段が抽出した文字データを先頭に有する姓が前記人名記憶手段に記憶してあるか否かを判断する手段と、
    前記姓が前記人名記憶手段に記憶してあると判断した場合、前記第1抽出手段が抽出した文字データを除いた前記テキストデータの先頭から、2音節に相当する数の文字データを抽出する第2抽出手段と、
    該第2抽出手段が抽出した文字データを先頭に有する名が前記人名記憶手段に記憶してあるか否かを判断する手段と、
    前記名が前記人名記憶手段に記憶してあると判断した場合、前記テキストデータが省略語であると判定する判定手段と
    を備えることを特徴とする省略語判定装置
  5. テキストデータが省略語であるか否かを判定する省略語判定装置において、
    人名に用いられる姓及び名をそれぞれ記憶する人名記憶手段と、
    前記テキストデータの先頭から、1音節に相当する数の文字データを抽出する第1抽出手段と、
    該第1抽出手段が抽出した文字データを先頭に有する姓が前記人名記憶手段に記憶してあるか否かを判断する手段と、
    前記姓が前記人名記憶手段に記憶してあると判断した場合、前記第1抽出手段が抽出した文字データを除いた前記テキストデータの先頭から、2音節に相当する数の文字データを抽出する第2抽出手段と、
    該第2抽出手段が抽出した文字データを先頭に有する名が前記人名記憶手段に記憶してあるか否かを判断する手段と、
    前記名が前記人名記憶手段に記憶してあると判断した場合、前記テキストデータが省略語であると判定する判定手段と
    を備えることを特徴とする省略語判定装置
  6. テキストデータが省略語であるか否かを判定する省略語判定装置において、
    複数の複合語及び各複合語を構成する構成語を対応付けて記憶する複合語記憶手段と、
    前記テキストデータの先頭から、2音節に相当する数の文字データを抽出する第1抽出手段と、
    該第1抽出手段が抽出した文字データを先頭に有する構成語を含む複合語が前記複合語記憶手段に記憶してあるか否かを判断する判断手段と、
    前記複合語が前記複合語記憶手段に記憶してあると判断した場合、前記第1抽出手段が抽出した文字データを除いた前記テキストデータの先頭から、2音節に相当する数の文字データを抽出する第2抽出手段と、
    該第2抽出手段が抽出した文字データを先頭に有する構成語が、前記判断手段が前記複合語記憶手段に記憶してあると判断した複合語の構成語に含まれているか否かを判断する手段と、
    前記構成語が含まれていると判断した場合、前記テキストデータが省略語であると判定する判定手段と
    を備えることを特徴とする省略語判定装置
  7. テキストデータが省略語であるか否かを判定する省略語判定装置において、
    複数の複合語及び各複合語を構成する構成語を対応付けて記憶する複合語記憶手段と、
    前記テキストデータの先頭から、1音節に相当する数の文字データを抽出する第1抽出手段と、
    該第1抽出手段が抽出した文字データを先頭に有する構成語を含む複合語が前記複合語記憶手段に記憶してあるか否かを判断する判断手段と、
    前記複合語が前記複合語記憶手段に記憶してあると判断した場合、前記第1抽出手段が抽出した文字データを除いた前記テキストデータの先頭から、2音節に相当する数の文字データを抽出する第2抽出手段と、
    該第2抽出手段が抽出した文字データを先頭に有する構成語が、前記判断手段が前記複合語記憶手段に記憶してあると判断した複合語の構成語に含まれているか否かを判断する手段と、
    前記構成語が含まれていると判断した場合、前記テキストデータが省略語であると判定する判定手段と
    を備えることを特徴とする省略語判定装置
  8. 複数のテキストデータを含む文書データをテキストデータに分割する分割手段を備え、
    前記第1抽出手段は、分割されたテキストデータのそれぞれから先頭の所定数の文字データを抽出するように構成されており、
    前記第2抽出手段は、前記第1抽出手段が抽出した文字データを除いた前記分割されたテキストデータのそれぞれから、先頭の所定数の文字データを抽出するように構成されており、
    前記判定手段は、前記分割されたテキストデータのそれぞれが省略語の候補であるか否かを判定するように構成されており、
    複数のテキストデータ及び各テキストデータと共起される共起データを対応付けて記憶する共起データ記憶手段と、
    前記判定手段が省略語の候補であると判定したテキストデータに対応する共起データを前記共起データ記憶手段から取得する手段と、
    前記文書データ中のテキストデータに、前記共起データ記憶手段から取得された共起データが含まれているか否かを判断する手段と、
    前記共起データが含まれていると判断した場合、前記判定手段が省略語の候補であると判定したテキストデータを省略語であると確定する手段と
    を備えることを特徴とする請求項4から7までのいずれかひとつに記載の省略語判定装置
  9. コンピュータに、テキストデータが省略語であるか否かを判定させるためのコンピュータプログラムにおいて、
    人名に用いられる姓及び名をそれぞれ記憶する人名記憶手段を備えたコンピュータに、
    前記テキストデータの先頭から、2音節に相当する数の文字データを抽出する第1抽出ステップと、
    該第1抽出ステップで抽出した文字データを先頭に有する姓が前記人名記憶手段に記憶してあるか否かを判断するステップと、
    前記姓が前記人名記憶手段に記憶してあると判断した場合、前記第1抽出ステップで抽出した文字データを除いた前記テキストデータの先頭から、2音節に相当する数の文字データを抽出する第2抽出ステップと、
    該第2抽出ステップで抽出した文字データを先頭に有する名が前記人名記憶手段に記憶してあるか否かを判断するステップと、
    前記名が前記人名記憶手段に記憶してあると判断した場合、前記テキストデータが省略語であると判定するステップと
    を実行させるためのコンピュータプログラム。
  10. コンピュータに、テキストデータが省略語であるか否かを判定させるためのコンピュータプログラムにおいて、
    人名に用いられる姓及び名をそれぞれ記憶する人名記憶手段を備えたコンピュータに、
    前記テキストデータの先頭から、1音節に相当する数の文字データを抽出する第1抽出ステップと、
    該第1抽出ステップで抽出した文字データを先頭に有する姓が前記人名記憶手段に記憶してあるか否かを判断するステップと、
    前記姓が前記人名記憶手段に記憶してあると判断した場合、前記第1抽出ステップで抽出した文字データを除いた前記テキストデータの先頭から、2音節に相当する数の文字データを抽出する第2抽出ステップと、
    該第2抽出ステップで抽出した文字データを先頭に有する名が前記人名記憶手段に記憶してあるか否かを判断するステップと、
    前記名が前記人名記憶手段に記憶してあると判断した場合、前記テキストデータが省略語であると判定するステップと
    を実行させるためのコンピュータプログラム。
  11. コンピュータに、テキストデータが省略語であるか否かを判定させるためのコンピュータプログラムにおいて、
    複数の複合語及び各複合語を構成する構成語を対応付けて記憶する複合語記憶手段を備えたコンピュータに、
    前記テキストデータの先頭から、2音節に相当する数の文字データを抽出する第1抽出ステップと、
    該第1抽出ステップで抽出した文字データを先頭に有する構成語を含む複合語が前記複合語記憶手段に記憶してあるか否かを判断する判断ステップと、
    前記複合語が前記複合語記憶手段に記憶してあると判断した場合、前記第1抽出ステップで抽出した文字データを除いた前記テキストデータの先頭から、2音節に相当する数の文字データを抽出する第2抽出ステップと、
    該第2抽出ステップで抽出した文字データを先頭に有する構成語が、前記判断ステップで前記複合語記憶手段に記憶してあると判断された複合語の構成語に含まれているか否かを判断するステップと、
    前記構成語が含まれていると判断した場合、前記テキストデータが省略語であると判定するステップと
    を実行させるためのコンピュータプログラム。
  12. コンピュータに、テキストデータが省略語であるか否かを判定させるためのコンピュータプログラムにおいて、
    複数の複合語及び各複合語を構成する構成語を対応付けて記憶する複合語記憶手段を備えたコンピュータに、
    前記テキストデータの先頭から、1音節に相当する数の文字データを抽出する第1抽出ステップと、
    該第1抽出ステップで抽出した文字データを先頭に有する構成語を含む複合語が前記複合語記憶手段に記憶してあるか否かを判断する判断ステップと、
    前記複合語が前記複合語記憶手段に記憶してあると判断した場合、前記第1抽出ステップで抽出した文字データを除いた前記テキストデータの先頭から、2音節に相当する数の文字データを抽出する第2抽出ステップと、
    該第2抽出ステップで抽出した文字データを先頭に有する構成語が、前記判断ステップで前記複合語記憶手段に記憶してあると判断された複合語の構成語に含まれているか否かを判断するステップと、
    前記構成語が含まれていると判断した場合、前記テキストデータが省略語であると判定するステップと
    を実行させるためのコンピュータプログラム。
  13. テキストデータを解析するテキスト解析装置において、
    請求項4から7までのいずれかひとつに記載の省略語判定装置と、
    形態素及びアクセント型を対応付けて記憶する形態素記憶手段と、
    該形態素記憶手段の記憶内容に基づいて、テキストデータを形態素に分割する形態素分割手段と、
    前記形態素記憶手段の記憶内容に基づいて、前記形態素分割手段が分割した形態素のそれぞれにアクセント型を付与する手段とを備え、
    前記省略語判定装置は、前記形態素記憶手段に記憶されていない形態素が省略語であるか否かを判定するように構成されており、
    前記省略語判定装置によって省略語であると判定された形態素に所定のアクセント型を付与するアクセント付与手段を備えることを特徴とするテキスト解析装置。
  14. テキストデータを解析するテキスト解析装置において、
    請求項8に記載の省略語判定装置と、
    テキストデータ及びアクセント型を対応付けて記憶するテキスト記憶手段とを備え、
    前記省略語判定装置の分割手段は、前記テキスト記憶手段の記憶内容に基づいて、文書データをテキストデータに分割するように構成されており、
    前記テキスト記憶手段の記憶内容に基づいて、前記分割手段が分割したテキストデータのそれぞれにアクセント型を付与する手段を備え、
    前記省略語判定装置は、前記テキスト記憶手段に記憶されていないテキストデータが省略語であるか否かを判定するように構成されており、
    前記省略語判定装置によって省略語であると判定されたテキストデータに所定のアクセント型を付与する手段を備えることを特徴とするテキスト解析装置。
  15. テキストデータから合成音声を生成する音声合成装置において、
    請求項13に記載のテキスト解析装置と、
    該テキスト解析装置の形態素分割手段が分割した形態素及び各形態素に付与されたアクセント型に基づいて、各形態素に対応する韻律を生成する韻律生成手段と、
    該韻律生成手段が生成した韻律に基づいて合成音声を生成する波形生成手段と
    を備えることを特徴とする音声合成装置。
JP2007275651A 2007-10-23 2007-10-23 省略語判定装置、コンピュータプログラム、テキスト解析装置及び音声合成装置 Expired - Fee Related JP5125404B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007275651A JP5125404B2 (ja) 2007-10-23 2007-10-23 省略語判定装置、コンピュータプログラム、テキスト解析装置及び音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007275651A JP5125404B2 (ja) 2007-10-23 2007-10-23 省略語判定装置、コンピュータプログラム、テキスト解析装置及び音声合成装置

Publications (2)

Publication Number Publication Date
JP2009103921A JP2009103921A (ja) 2009-05-14
JP5125404B2 true JP5125404B2 (ja) 2013-01-23

Family

ID=40705661

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007275651A Expired - Fee Related JP5125404B2 (ja) 2007-10-23 2007-10-23 省略語判定装置、コンピュータプログラム、テキスト解析装置及び音声合成装置

Country Status (1)

Country Link
JP (1) JP5125404B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112012006308B4 (de) * 2012-05-02 2016-02-04 Mitsubishi Electric Corporation Sprachsynthesevorrichtung

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2792147B2 (ja) * 1989-10-18 1998-08-27 松下電器産業株式会社 文字処理方法およびその装置
JPH09237277A (ja) * 1996-02-29 1997-09-09 Hitachi Ltd 複合名詞解析方法
JPH11109991A (ja) * 1997-10-08 1999-04-23 Mitsubishi Electric Corp マンマシンインターフェースシステム
JP3317904B2 (ja) * 1998-09-02 2002-08-26 日本電気株式会社 省略名称抽出装置、方法および記録媒体
JP2000251017A (ja) * 1999-02-25 2000-09-14 Toshiba Corp 単語辞書作成装置および単語認識装置
JP2003333161A (ja) * 2002-05-09 2003-11-21 Nec Corp 通信端末およびメモリダイヤル検索方法
JP2004326367A (ja) * 2003-04-23 2004-11-18 Sharp Corp テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置
JP3998668B2 (ja) * 2004-07-14 2007-10-31 沖電気工業株式会社 形態素解析装置、方法及びプログラム

Also Published As

Publication number Publication date
JP2009103921A (ja) 2009-05-14

Similar Documents

Publication Publication Date Title
Schultz et al. Multilingual speech processing
US6879957B1 (en) Method for producing a speech rendition of text from diphone sounds
US20070255567A1 (en) System and method for generating a pronunciation dictionary
JP5198046B2 (ja) 音声処理装置及びそのプログラム
JP4811557B2 (ja) 音声再生装置及び発話支援装置
KR20170057623A (ko) 언어장애인을 위한 다언어 어휘의 발음 합성 및 문자화 장치
JP5088109B2 (ja) 形態素解析装置、形態素解析方法、コンピュータプログラム、音声合成装置及び音声照合装置
JP5125404B2 (ja) 省略語判定装置、コンピュータプログラム、テキスト解析装置及び音声合成装置
JPH06282290A (ja) 自然言語処理装置およびその方法
JP6998017B2 (ja) 音声合成用データ生成装置、音声合成用データ生成方法及び音声合成システム
Nandutu et al. Luganda text-to-speech machine
JP2007086404A (ja) 音声合成装置
JP6197523B2 (ja) 音声合成装置、言語辞書修正方法及び言語辞書修正用コンピュータプログラム
Ekpenyong et al. Towards an unrestricted domain TTS system for African tone languages
JP2003202886A (ja) テキスト入力処理装置及び方法並びにプログラム
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
JP2002123281A (ja) 音声合成装置
JPH09258763A (ja) 音声合成装置
JP4208819B2 (ja) 音声合成辞書登録方法および装置
JP2004258561A (ja) 歌唱合成用データ入力プログラムおよび歌唱合成用データ入力装置
JP2008250090A (ja) 発音学習支援装置及び発音学習支援プログラム
JPH03245192A (ja) 外国語単語の発音決定方法
JP2023006055A (ja) プログラム、情報処理装置、方法
JP2006098552A (ja) 音声情報生成装置、音声情報生成プログラム及び音声情報生成方法
Das et al. Twee: A Novel Text-To-Speech Engine

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100616

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120706

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121002

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121015

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151109

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees