JP4773813B2

JP4773813B2 - 読み付与装置、読み付与方法及びプログラム

Info

Publication number: JP4773813B2
Application number: JP2005353991A
Authority: JP
Inventors: 久子浅野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-12-07
Filing date: 2005-12-07
Publication date: 2011-09-14
Anticipated expiration: 2025-12-07
Also published as: JP2007156273A

Description

本発明は、テキストに読みを付与する技術に関する。

日本語テキストに読みを付与する場合、対象となる日本語テキストの形態素解析を行い、その形態素解析結果から得られる読み（単語辞書に登録されている読み）を、当該日本語テキストに付与する方法を採ることが一般的である（例えば、非特許文献１参照）。
浅野久子他、「多段解析法による形態素解析を用いた音声合成用読み韻律設定方法とその単語辞書構成」、自然言語処理、Vol.6, No.2, 1999

しかしながら、従来の読み付与方法では、特に対話調の発声において行われるような、正規の日本語の文法からかけ離れた読みを付与することが困難であるという問題点があった。
すなわち、例えば対話調の発声などでは、自然に、ある読みに対して長音を追加したり（例：「それで」→「それでー」）、促音を追加したり（例：「すごく」→「すっごく」）、削除したり（例：「言っている」→「いって＿る」）、置換したり（例：「いいかも」→「いっかも」、「いちにち」→「いちんち」）することがある。非特許文献１のような従来方法によってこのような対話調の読みを付与する場合、このような対話調のテキストを入力テキストとして用意しなければならない。しかし、このような対話調の発話は、通常、意図的に行われているものではない。そのため、このような対話調のテキストを入力として期待するのは難しい。

また、従来の読み付与方法によって付与される読みは単語辞書に登録されている読みである。しかし、通常、単語辞書には対話調の読みは登録されていない。そのため、たとえ対話調のテキストが入力されたとしても対話調の読みを付与することはできない。
さらに、対話調の読みは多様であるため、対話調の読みの全てを単語辞書に登録することは現実的ではない。また、たとえ対話調の読みの全てを単語辞書に登録することができたとしても、その単語辞書のデータ量は膨大となり、単語辞書の検索処理が増大することになる。

以上のような問題は、対話調の読みを付与する場合に限らず、方言の読みを付与する場合等正規の日本語の文法からかけ離れた読みを付与する場合に共通する問題である。
本発明は、このような点に鑑みてなされたものであり、正規の日本語の文法からかけ離れた読みを容易に付与することが可能な技術を提供することを目的とする。

本発明では上記課題を解決するために、まず、形態素解析部が、テキストに対する形態素解析処理を行い、当該テキストを構成する各単語と、それらの属性値とを対応付けた単語情報列を生成し、当該単語情報列を出力する。次に、セグメント情報生成部が、単語情報列の単語又はそれを細分化した単位であるセグメントと、当該単語に対応付けられた属性値から抽出した特徴値とを、それぞれ対応付けたセグメント情報列を生成し、当該セグメント情報列を出力する。そして、分類処理部が、セグメント情報列の特徴値と分類規則情報とを用い、各セグメントの読み替え処理内容を決定し、当該読み替え処理内容を示す分類結果情報を出力する。その後、変換処理部が、分類結果情報と変換規則情報とを用い、各セグメントの読み替え処理を行う。

ここで、セグメント情報生成部が生成するセグメント情報列は、形態素解析結果から抽出した特徴値によって構成される。よって、このようなセグメント情報列は、規則的な手法（例えば、統計学的な手法）に基づく分類処理に適したものである。これにより、分類処理部は、セグメント情報列の特徴値と分類規則情報とを用い、容易に各セグメントの読み替え処理内容を決定することができる。このように各セグメントの読み替え処理内容が決定した後は、セグメント単位で変換規則を適用し、各セグメントの読み替え処理を行えばよい。

また、本発明において好ましくは、テキストは、その内容の種別を示す付加情報に対応付けられてテキスト記憶部に格納され、分類処理部は、各セグメントに対応する付加情報をも特徴値とし、当該付加情報とセグメント情報列の特徴値と分類規則情報とを用い、各セグメントの読み替え処理内容を決定する。
ここで、テキストの内容種別を示す付加情報をも特徴値とすることにより、分類処理部が行う分類処理の精度が向上する。
また、本発明において好ましくは、変換規則情報によって特定される読み替え位置の例外となる単語を特定するための情報と、当該単語の読み替え処理内容毎の読み替え位置を示す読み替え位置情報とを対応付けたテーブルである例外読み辞書を格納する例外読み辞書記憶部を有する。そして、検索部が、処理対象のセグメントが例外読み辞書の単語と一致する単語を有し、なおかつ、一致した当該例外読み辞書の単語に対応付けられた読み替え位置情報が、当該処理対象のセグメントの分類結果情報が示す当該セグメントの読み替え処理内容に対応するものであるか否かを判断し、その判断結果を出力する。さらに、変換処理部は、処理対象のセグメントが例外読み辞書の単語と一致する単語を有し、なおかつ、一致した当該例外読み辞書の単語に対応付けられた読み替え位置情報が、当該処理対象のセグメントの分類結果情報が示す当該セグメントの読み替え処理内容に対応すると判断された場合、これらの条件を満たす読み替え位置情報を用い、当該セグメントの読み替え処理を行う。これにより、規則的な手法の原則から外れる例外的な読みにも対応することができる。

また、本発明において好ましくは、セグメント情報生成部がセグメント情報列を生成する際に属性値から抽出する特徴値は、当該セグメントの末尾モーラの読みが長音であるか否かを示す特徴値を含む。
ここで、長音を有する単語の多くが末尾モーラに長音を有する。すなわち、末尾モーラに長音を有する単語の特徴が表れている可能性が高い。よって、セグメントの末尾モーラの読みが長音であるか否かを特徴値にすることによって少ない情報量でセグメントの特徴を捉えることができる。これにより、演算処理を効率化できる。

また、本発明において好ましくは、分類規則情報は、特徴値を変数とした分類モデル式であり、分類処理部は、セグメント情報列の特徴値を、分類モデル式である分類規則情報に代入し、その演算結果によって各セグメントの読み替え処理内容を決定する。
このように分類モデル式を用いた統計的な手法を用いることにより、少ない演算量で読み付与を行うことができる。
また、本発明において好ましくは、変換規則情報は、分類結果情報が示す読み替え処理内容がセグメント中に長音を追加する処理であった場合に、セグメント中のモーラを所定の順序で検索し、長音又は促音以外であると判断されたモーラの直後に長音を追加する処理を特定するための情報を含み、変換処理部は、分類処理部から出力された分類結果情報が示す読み替え処理内容がセグメント中に長音を追加する処理であるか否かを判断し、変換規則情報が特定する処理を実行する。

日本語の場合、２つの長音が連続することはなく、促音の直後に長音がつながることもない。長音又は促音以外であると判断されたモーラの直後に長音を追加するのは、このような日本語の特徴を捉えたものである。これにより、効率的な処理を実現できる。
また、本発明において好ましくは、変換規則情報は、分類結果情報が示す読み替え処理内容がセグメント中に促音を追加する処理であった場合に、セグメント中のモーラを所定の順序で検索し、促音以外であると判断されたモーラの直後に促音を追加する処理を特定するための情報を含み、変換処理部は、分類処理部から出力された分類結果情報が示す読み替え処理内容がセグメント中に促音を追加する処理であるか否かを判断し、変換規則情報が特定する処理を実行する。

日本語の場合、２つの促音が連続することはない。促音以外であると判断されたモーラの直後に長音を追加するのは、このような日本語の特徴を捉えたものである。これにより、効率的な処理を実現できる。
また、本発明において好ましくは、変換規則情報に示された、セグメント中のモーラを検索する所定の順序は、セグメントの末尾モーラから先頭モーラに向かう順序である。単語中において促音等が追加される可能性が高いのは末尾モーラ或いは末尾に近いモーラである。このようにセグメントの末尾モーラから先頭モーラに向かう順序で検索することによって効率的な処理が可能となる。

以上のように本発明では、正規の日本語の文法からかけ離れた読みを容易に付与することが可能となる。

以下、本発明を実施するための最良の形態を図面を参照して説明する。
〔第１の実施の形態〕
まず、本発明の第１の実施の形態について説明する。
本形態では、まず、読みを付与するテキストの形態素解析処理を行い、その解析結果から分類規則に従った分類処理に適したセグメント情報列を生成する。次に、このセグメント情報列と分類規則情報とを用い、各セグメントの読み替え処理内容を決定し、さらに分類結果情報と変換規則情報とを用い、各セグメントの読み替え処理を行う。本形態では、読み替え処理として長音を追加する場合を例にとって説明する。

＜ハードウェア構成＞
図１は、本形態における読み付与装置１００のハードウェア構成を例示したブロック図である。
図１に例示するように、この例の読み付与装置１００は、ＣＰＵ（Central Processing Unit）１１、入力部１２、出力部１３、補助記憶装置１４、ＲＯＭ（Read Only Memory）１５、ＲＡＭ（Random Access Memory）１６及びバス１７を有している。
この例のＣＰＵ１１は、制御部１１ａ、演算部１１ｂ及びレジスタ１１ｃを有し、レジスタ１１ｃに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、この例の入力部１２は、データが入力される入力ポート、キーボード、マウス等であり、出力部１３は、データを出力する出力ポート、ディスプレイ等である。補助記憶装置１４は、例えば、ハードディスク、ＭＯ（Magneto-Optical disc）、半導体メモリ等であり、本形態の処理を実行するためのプログラムを格納したプログラム領域１４ａ及びタグ出力情報等の各種データが格納されるデータ領域１４ｂを有している。また、ＲＡＭ１６は、例えば、ＳＲＡＭ (Static Random Access Memory)、ＤＲＡＭ (Dynamic Random Access Memory)等であり、上記のプログラムが書き込まれるプログラム領域１６ａ及び各種データが書き込まれるデータ領域１６ｂを有している。また、この例のバス１７は、ＣＰＵ１１、入力部１２、出力部１３、補助記憶装置１４、ＲＯＭ１５及びＲＡＭ１６を、データのやり取りが可能なように接続する。

＜プログラム＞
補助記憶装置１４のプログラム領域１４ａには、読み付与装置１００としてコンピュータを機能させるための読み付与プログラムが格納される。なお、本形態の読み付与プログラムは、各機能を実現するための複数のプログラムによって構成されるが、これらのプログラムは、単一のプログラム列として記載されていてもよく、また、少なくとも一部のプログラムが別個のモジュールとしてライブラリに格納されていてもよい。また、上記のプログラム単体でその機能を実現できるものでもよいし、上記のプログラムがさらに他のライブラリ（記載していない）を読み出して各機能を実現するものでもよい。

＜ハードウェアとソフトウェアとの協働＞
この例のＣＰＵ１１は、読み込まれたＯＳ（Operating System）プログラムに従い、補助記憶装置１４のプログラム領域１４ａに格納されている上述の読み付与プログラムを、ＲＡＭ１６のプログラム領域１６ａに書き込む。同様にＣＰＵ１１は、補助記憶装置１４のデータ領域１４ｂに格納されている各種データをＲＡＭ１６のデータ領域１６ｂに書き込む。さらに、ＣＰＵ１１は、当該読み付与プログラムや各種データが書き込まれたＲＡＭ１６上のアドレスをレジスタ１１ｃに格納する。そして、ＣＰＵ１１の制御部１１ａは、レジスタ１１ｃに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すＲＡＭ１６上の領域から読み付与プログラムやデータを読み出し、読み付与プログラムが示す演算を演算部１１ｂに順次実行させ、その演算結果をレジスタ１１ｃに格納していく。

図２は、このようにＣＰＵ１１に読み付与プログラムが読み込まれることにより構成される読み付与装置１００の機能構成を例示したブロック図である。なお、図２における矢印はデータの流れを示すが、制御部１８０に入出力されるデータの流れの記載は省略してある。
図２に例示するように、本形態の読み付与装置１００は、メモリ１１０、入力部１２０、形態素解析部１３０、セグメント情報生成部１４０、分類処理部１５０、変換処理部１６０、制御部１８０及び一時メモリ１９０を有し、入力されたテキスト情報（テキスト含む）に対し、変換後単語情報列１０８を出力する。また、メモリ１１０は、テキスト記憶部１１１、単語情報列記憶部１１２、セグメント情報列記憶部１１３、分類規則記憶部１１４、分類結果記憶部１１５及び変換規則記憶部１１６を有している。ここで、テキスト記憶部１１１には、テキスト情報（テキスト含む）１０１が格納され、単語情報列記憶部１１２には、単語情報列１０２が格納され、セグメント情報列記憶部１１３には、セグメント情報列１０３が格納される。また、分類規則記憶部１１４には、分類規則情報１０４が格納され、分類結果記憶部１１５には、分類結果付加セグメント情報列１０５が格納され、変換規則記憶部１１６には、変換規則情報１０６が格納される。なお、各情報の詳細については後述する。

なお、メモリ１１０及び一時メモリ１９０は、補助記憶装置１４のデータ領域１４ｂ、ＲＡＭ１６のデータ領域１６ｂ、ＣＰＵ１１のレジスタ１１ｃ、その他のバッファメモリやキャッシュメモリ等の何れか、或いはこれらを併用した記憶領域に相当する。また、入力部１２０は、所定のプログラムが読み込まれたＣＰＵ１１の制御のもとデータの入力を受け付ける入力部１２に相当する。また、形態素解析部１３０、セグメント情報生成部１４０、分類処理部１５０、変換処理部１６０及び制御部１８０は、上述の読み付与プログラムがＣＰＵ１１に読み込まれることにより構成されるものである。また、形態素解析部１３０の処理には単語辞書が必要となり、その単語辞書を格納するためのメモリが必要となるが、図２ではこれらの記述を省略してある。

＜処理＞
次に、第１の実施の形態の読み付与方法について説明する。
図３は、第１の実施の形態の読み付与方法を説明するためのフローチャートである。また、図４は、図３のステップＳ４の詳細を説明するためのフローチャートであり、図５は、図３のステップＳ５の詳細を説明するためのフローチャートである。以下、図２〜図５を用い、本形態の読み付与方法を説明する。なお、以下では、テキストが１文である場合を例にとって説明するが、テキストが複数の文から構成される場合には、同様な処理を文の数だけ繰り返せばよい。
本形態の読み付与装置１００は、制御部１８０の制御のもと各処理を実行する。また、明示しない限り、各演算過程で算出されたデータは逐一一時メモリ１９０に格納され、その後の演算処理に利用される。

［前処理］
前処理として、メモリ１１０の分類規則記憶部１１４に分類規則情報１０４を格納し、変換規則記憶部１１６に変換規則情報１０６を格納しておく。
分類規則情報１０４は、例えば、ＳＶＭ（サポートベクターマシーン）や最大エントロピー法等の公知の統計的な分類手法に用いられる分類モデル式であり、所定の特徴値を変数として持つ識別関数である。この分類モデル式は、学習データを用いた学習によって各パラメータが決定された式である。この具体例については後述する。また、変換規則情報１０６は、例えば、読み替えのための変換規則を記述した情報である。この具体例についても後述する。

［読み替え処理］
以上のような前処理を前提とし、以下の各処理が実行される。
まず、入力部１２０から入力されたテキスト情報（テキストを含む）１０１がメモリ１１０のテキスト記憶部１１１に格納される（ステップＳ１）。具体的には、例えば、キーボード等（「入力部１２０」に相当）からテキストがキー入力され、これらが所定のテキスト情報に変換されてメモリ１１０のテキスト記憶部１１１に格納される。或いは、例えば、外部のハードディスクやメモリ等に格納されていたテキスト情報１０１がＵＳＢ（Universal Serial Bus）端子等（「入力部１２０」に相当）から入力され、メモリ１１０のテキスト記憶部１１１に格納される。なお、テキスト情報１０１のフォーマットは予め定めておくものとする。図６（ａ）は、ＸＭＬ（Extensible Markup Language）で記述したテキスト情報１０１の例である。図６（ａ）の例では、「東京ですね？」というテキスト１０１ａがＸＭＬによって記述されている。

次に、形態素解析部１３０が、メモリ１１０のテキスト記憶部１１１に格納されたテキスト情報１０１からテキストを抽出し、抽出したテキストに対する形態素解析処理を行い、当該テキストを構成する各単語と、それらの属性値とを対応付けた単語情報列を生成し、当該単語情報列１０２を出力する（ステップＳ２）。そして、形態素解析部１３０から出力された単語情報列１０２は、メモリ１１０の単語情報列記憶部１１２に格納される。
なお、形態素解析部１３０が行う形態素解析の方法には特に制限はなく、例えば、前述の非特許文献１記載の方法等を用いることができる。また、α-Tagger（登録商標）や、Rosette形態素解析システムやC、onceptBase/ConceptBase（登録商標）Search等の公知のソフトウェアを用いてもよい。また、本形態の形態素解析部１３０が生成する形態素解析部１３０は、形態素解析のＮベスト解（ＮはＮ≧１の任意の数字）であり、各単語に対して、表記、品詞、読みなどの情報をもつ。

図６（ｂ）は、形態素解析部１３０が生成した単語情報列１０２を例示した図である。この図の例の単語情報列１０２は、形態素解析によって得られた「単語Ｎｏ.」１０２ａ、「単語（表記）」１０２ｂ、「品詞」１０２ｃａ及び「読み」１０２ｃｂを対応付けたデータ列である。なお、「品詞」１０２ｃａ及び「読み」１０２ｃｂは、各「単語」１０２ｂに対応する属性値１０２ｃを構成する。例えば、単語Ｎｏ.「１」の単語「東京」の属性値は、品詞「名詞：固有：他」、読み「トーキョー」である。
次に、セグメント情報生成部１４０が、メモリ１１０の単語情報列記憶部１１２から単語情報列１０２を読み込み、セグメントと、単語に対応付けられた属性値から抽出した特徴値とを、それぞれ対応付けたセグメント情報列１０３を生成し、当該セグメント情報列を出力する（ステップＳ３）。そして、セグメント情報生成部１４０から出力されたセグメント情報列１０３は、メモリ１１０のセグメント情報列記憶部１１３に格納される。ここで、セグメントとは、後述する分類処理部１５０による処理単位となる語であり、単語、又はそれを細分化した単位（単語、モーラ等）を例示できるが、本形態では、各単語の単位をセグメントとする。

図７は、このように生成されたセグメント情報列１０３を例示した図である。
図７の例のセグメント情報列１０３は、各セグメントに対応する「セグメントＮｏ.」１０３ａ、「セグメント」１０３ｂ、「主品詞」１０３ｄａ、「活用形」１０３ｄｂ、「体言・記号細分類」１０３ｄｃ、末尾−１番目のモーラの読みが長音であるか否か（「長音」であるか、「その他」の読み又は読み「なし」であるか）を示す「末尾−１モーラの読み」１０３ｄｄ及び末尾のモーラの読みが長音であるか否か（「長音」であるか、「その他」の読み又は読み「なし」であるか）を示す「末尾モーラの読み」１０３ｄｅが対応付けられたデータ列である。なお、「主品詞」１０３ｄａ、「活用形」１０３ｄｂ、「体言・記号細分類」１０３ｄｃ、「末尾−１モーラの読み」１０３ｄｄ及び「末尾モーラの読み」１０３ｄｅは、「特徴値」１０３ｄを構成する。また、「＊」は、対応する情報が存在しないことを示すデータを示している。

図６（ｂ）に例示した単語情報列１０２から図７の例のセグメント情報列１０３を生成する場合、セグメント情報生成部１４０は、単語情報列１０２の「単語Ｎｏ.」１０２ａ及び「単語（表記）」１０２ｂの各要素を、それらの対応を維持しつつ、そのままセグメント情報列１０３の「セグメントＮｏ.」１０３ａ及び「セグメント」１０３ｂの各要素とする。本形態では、各単語の単位をセグメントとしているからである。
また、セグメント情報生成部１４０は、単語情報列１０２の「単語Ｎｏ.」１０２ａの各要素に対応付けられた「品詞」１０２ｃａの各要素から、主品詞、活用形及び体言・記号細分類を抽出し、これらをセグメント情報列１０３の「主品詞」１０３ｄａ、「活用形」１０３ｄｂ及び「体言・記号細分類」１０３ｄｃの各要素とする。例えば、図６（ｂ）に例示した単語情報列１０２の単語Ｎｏ.１の「東京」という単語の品詞は「名詞：固有：地」であり、主品詞は「名詞」、活用形に相当する副品詞は存在せず、体言・記号細分類に該当する副品詞は「固有：地」である。そのため、図７に例示したセグメント情報列１０３のセグメントＮｏ.１の「主品詞」１０３ｄａの要素は「名詞」、「活用形」１０３ｄｂの要素は「＊」、「体言・記号細分類」１０３ｄｃの要素は「固有：地」となる。

さらに、セグメント情報生成部１４０は、例えば、単語情報列１０２の「読み」１０２ｃｂの各要素から末尾−１番目のモーラの読みと、末尾モーラの読みとを抽出し、それらの読みが「長音」であるか、「その他」の読みであるか、或いは読み「なし」であるかを判断する。そして、それらの判断結果（「長音」「その他」「なし」）を、セグメント情報列１０３の「末尾−１モーラの読み」１０３ｄｄ及び「末尾モーラの読み」１０３ｄｅの各要素とする。例えば、図６（ｂ）に例示した単語情報列１０２の単語Ｎｏ.１の「東京」という単語の読みは「トーキョー」であり、末尾−１モーラの読みは「キョ」であり、末尾モーラの読みは「ー」である。そのため、図７に例示したセグメント情報列１０３のセグメントＮｏ.１の「末尾−１モーラの読み」１０３ｄｄの要素は「その他」となり、「末尾モーラの読み」１０３ｄｅの要素は「長音」となる。なお、「モーラ」とは、時間的なまとまりの単位を表す音韻論的概念である。セグメント情報生成部１４０は、短母音を含む１音節の長さに相当する区間を１モーラと判断する。具体的には、セグメント情報生成部１４０は、撥音（ン）及び促音（ッ）を１モーラと判断し、拗音（ァィゥェォャュョ）は直前の文字とつなげて１モーラと判断し（例えば、ヴァ、キャ、キュ、キョ等は１モーラ）、その他については１文字１モーラと判断する。

次に、分類処理部１５０が、メモリ１１０のセグメント情報列記憶部１１３からセグメント情報列１０３を読み込み、分類規則記憶部１１４から分類規則情報１０４を読み込む。そして、分類処理部１５０は、セグメント情報列１０３の特徴値１０３ｄと分類規則情報１０４とを用い、各セグメントの読み替え処理内容を決定し、当該読み替え処理内容を示す分類結果情報１０５ａをセグメント情報列１０３に付加した分類結果付加セグメント情報列１０５を出力する（ステップＳ４）。そして、このように出力された分類結果付加セグメント情報列１０５は、メモリ１１０の分類結果記憶部１１５に格納される。

［分類規則情報１０４及びステップＳ４の具体例］
ここで、分類規則情報１０４及びステップＳ４の具体例について説明する。
分類規則情報１０４は、特徴値を用い、セグメントを読み替え処理内容毎に分類するための情報であり、例えば、ＳＶＭや最大エントロピー法等の公知の統計的な分類手法に用いられる分類モデル式である。そして、ステップＳ４では、分類処理部１５０が、セグメント情報列１０３の特徴値１０３ｄを、分類モデル式である分類規則情報１０４に代入し、その演算結果によって各セグメントの読み替え処理内容を決定する。なお、特徴値１０３ｄを分類モデル式に代入する際、特徴値１０３ｄは、一定の規則に基づいて数値に変換されていなければならない。

以下では、統計的な分類手法としてＳＶＭを用い、２つの読み替え処理内容（「長音追加」と「変化なし」）に分類する場合を例に採って説明する。なお、これは一例にすぎず、本発明を限定するものではない。
この場合、分類規則情報１０４には、例えば、以下の式（１）や（２）に示す分類モデル式を用い、ＳＶＭの文脈として、分類対象となるセグメント及びその前後２セグメントの特徴値１０３ｄと、前２セグメントの読み分類結果を用いるものとする。

ここで、sign(α)は、αが正であるときにはsign(α)＝１となり、αが負であるときにはsign(α)＝−１となる関数であり、ｆ（ｘ）の値が読み替え処理内容に対応する。具体的には、例えば、ｆ（ｘ）＝１の場合、読み替え処理内容が「長音追加」であると分類し、ｆ（ｘ）＝−１の場合、読み替え処理内容が「変化なし」であると分類する。また、α^ｔは、ベクトルαの転置ベクトルを示し、α^＊は、ベクトルαの複素共役転置ベクトルを示す。

また、ｘは、分類対象となるセグメント及びその前後２セグメントの特徴値１０３ｄの各要素と、前２セグメントの読み分類結果とをそれぞれ数値化し、それらを要素としたベクトルである。なお、要素の数値化方法及びベクトルを構成する要素の順序は一定である。なお、存在しないデータについては、データが存在しない旨を示す値に数値化する。
また、ｘ_ｊは、学習データにおけるｊ（ｊ＝１，...，ｎ）番目のセグメント及びその前後２セグメントの特徴値の各要素と、前２セグメントの読み分類正解値とをそれぞれ数値化し、それらを要素としたベクトルである。なお、本形態の例の学習データは、セグメント情報列１０３と同じ要素の組と、その組に対応する読み替え処理内容の正解値（「長音追加」又は「変化なし」）とを対応付けたデータ列である。また、要素の数値化方法及びベクトルを構成する要素の順序は、セグメント情報列１０３からベクトルｘを生成する際のものと同じである。

また、ｙ_ｊは、学習データにおけるｊ番目のセグメントの正解値に対応する数値であり、式（１）又は（２）の例ではｙ_ｊ∈｛１，−１｝である。例えば、学習データにおけるｊ番目のセグメントの正解値が「長音追加」である場合ｙ_ｊ＝１となり、「変化なし」である場合ｙ_ｊ＝−１となる。
また、Ｋ（α，β）は、カーネル関数である。すなわち、Ｋ（α，β）は、２つのベクトルα，βに対し、以下のように表される関数である。ただし、φ(α)は、スカラー値を出力する任意のｄ個の非線形関数φ_ｐ（α）〔ｐ=(1,...,d)〕に対するφ(α)=(φ₁(α),φ₂(α),...,φ_d(α))^tである。

また、λ_ｊ及びｂは、ベクトルパラメータであり、学習データを用いた学習によって得られる値である。すなわち、λ_ｊ及びｂは、学習データから得られた（ｘ_ｊ，ｙ_ｊ）を、式（１）又は（２）の（ｘ，ｆ（ｘ））として代入し、その代入結果の連立方程式を解くことによって得られる。
図４は、図３に示したステップＳ４の処理の例を説明するためのフローチャートである。以下、この図に従ってステップＳ４の処理の具体例を説明する。

まず、制御部１８０が、変数ｉに１を代入し、この変数ｉを一時メモリ１９０に格納する（ステップＳ１１）。次に、分類処理部１５０が、一時メモリ１９０から変数ｉを読み込み、さらにメモリ１１０のセグメント情報列記憶部１１３から「セグメントNo.」１０３ａがiであるセグメント及びその前後２セグメントの特徴値１０３ｄの各要素と、「セグメントNo.」１０３ａがiであるセグメントの前２セグメントの分類結果情報とをそれぞれ数値化し、それらを要素としたベクトルｘを生成する。そして、分類処理部１５０は、メモリ１１０の分類規則記憶部１１４から分類規則情報１０４（この例では分類モデル式）を読み込み、生成したベクトルｘを当該分類モデル式に代入し、その演算を行う（ステップＳ１２）。次に分類処理部１５０は、当該演算結果
に対応する分類結果情報をセグメントNo.がiであるセグメント情報列１０３に追加する（ステップＳ１３）。具体的には、例えば、演算結果が１であった場合には「長音追加」を示す分類結果情報をセグメントNo.がiであるセグメント情報列１０３に追加し、演算結果が−１であった場合には「変化なし」を示す分類結果情報をセグメントNo.がiであるセグメント情報列１０３に追加する。なお、このように分類結果情報が追加されたセグメント情報列１０３を分類結果付加セグメント情報列１０５と呼ぶことにする。図８は、このように分類結果情報１０５ａが追加されたセグメント情報列１０３からなる分類結果付加セグメント情報列１０５の構成を例示した図である。この分類結果付加セグメント情報列１０５は、一時メモリ１９０に格納される。

次に、制御部１８０は、一時メモリ１９０に格納された変数ｉを読み込み、この変数ｉはセグメントＮｏ.の最大値であるか否かを判断する（ステップＳ１４）。例えば、図７のセグメント情報列１０３の場合、制御部１８０は、変数ｉがセグメントＮｏ.の最大値である４であるか否かを判断する。ここで、変数ｉがセグメントＮｏ.の最大値でなかった場合、制御部１８０は、ｉに１を加算した値を新たな変数ｉとし、これを一時メモリ１９０に格納し、処理をステップＳ１２に戻す。一方、変数ｉがセグメントＮｏ.の最大値であった場合、制御部１８０は、分類処理部１５０に指示を与え、分類処理部１５０はステップＳ１３の処理で一時メモリ１９０に格納しておいた分類結果付加セグメント情報列１０５を出力し（ステップＳ１６）、出力された分類結果付加セグメント情報列１０５は、メモリ１１０の分類結果記憶部１１５に格納される
（［分類規則情報１０４及びステップＳ４の具体例］の説明終わり）。

ステップＳ４までの処理により、各セグメントの読みに長音を追加するか、読みを変化させないかが決定された。しかし、本形態のセグメントは単語である。よって、読みに長音を追加すると判断されたセグメントについては、さらに、単語の読みのどの位置に変換を行うかを特定する必要がある。そこで、ステップＳ５では、セグメント内の読み替え位置を特定するための情報である変換規則情報１０６を用い、単語の読みのどの位置に変換を行うかを特定し、その読み変換を行なう。すなわち、変換処理部１６０が、メモリ１１０の分類結果記憶部１１５から分類結果付加セグメント情報列１０５を読み出し、変換規則記憶部１１６から変換規則情報１０６を読み出し、分類結果付加セグメント情報列１０５の分類結果情報と変換規則情報１０６とを用い、各セグメントに対応する単語の読み替え処理を行った変換後単語情報列１０８を生成し、当該変換後単語情報列１０８を出力する（ステップＳ５）。

［ステップＳ５の具体例］
ここで、ステップＳ５の具体例を説明する。この具体例の変換規則情報１０６は、分類結果情報１０５ａが示す読み替え処理内容がセグメント中に長音を追加する処理であった場合に、セグメント中のモーラを所定の順序で検索し、長音又は促音以外であると判断されたモーラの直後に長音を追加する処理を特定するための情報（プログラムや、処理を特定するためのパラメータ・数式等）を含む。そして、変換処理部１６０は、分類処理部１５０から出力された（分類結果付加セグメント情報列１０５が具備する）分類結果情報１０５ａが示す読み替え処理内容がセグメント中に長音を追加する処理であるか否かを判断し、変換規則情報１０６によって特定される処理を実行する。なお、以下では、変換処理部１６０が、セグメント中のモーラを末尾モーラから先頭モーラに向かう順序で検索する方法を例示するが、本発明はこれに限定されるものではない。

図５は、ステップＳ５の具体例を説明するためのフローチャートである。以下、この図に従ってステップＳ５の具体例を説明する。
まず、制御部１８０が、変数ｉに１を代入し、この変数ｉを一時メモリ１９０に格納する（ステップＳ２１）。次に、変換処理部１６０が、メモリ１１０の変換規則記憶部１１６から変換規則情報１０６を読み込み、変換規則情報１０６の記述に従った処理を実行する。まず、変換処理部１６０は、一時メモリ１９０から変数ｉを読み込み、メモリ１１０の分類結果記憶部１１５に格納された分類結果付加セグメント情報列１０５を参照し、セグメントNo.ｉに対応する分類結果情報１０５ａが「長音追加」を示すか「変化なし」を示すかを判断する（ステップＳ２２）。

ここで、セグメントNo.ｉに対応する分類結果情報１０５ａが「変化なし」であった場合、後述のステップＳ２８に進む。
一方、セグメントNo.ｉに対応する分類結果情報１０５ａが「長音追加」であった場合、制御部１８０は、変数ｍに０を代入し、これを一時メモリ１９０に格納する（ステップＳ２３）。そして、変換処理部１６０は、メモリ１１０の単語情報列記憶部１１２に格納された単語情報列１０２を参照し、単語No.ｉに対応する「読み」１０２ｃｂの要素（例えば、図６の例でｉ＝１の場合は「トーキョー」）を抽出する。なお、この「読み」は、セグメントNo.ｉの「セグメント」１０３ｂに対応する。本形態の場合、単語情報列１０２の「単語No.」１０２ａを、そのまま「セグメントＮｏ.」１０３ａとしているからである。変換処理部１６０は、抽出した単語No.ｉに対応する「読み」１０２ｃｂの要素の末尾−ｍ番目のモーラが長音追加可能であるか否かを検証する（ステップＳ２４）。具体的には、変換処理部１６０は、末尾−ｍ番目のモーラが「長音」或いは「促音」である（長音追加不可）か、そのいずれでもない（長音追加可能）かを検証する。

ここで、末尾−ｍ番目のモーラが長音追加不可であった場合、変換処理部１６０は、末尾−ｍ番目のモーラが先頭モーラであるか否かを検証する（ステップＳ２５）。ここで、末尾−ｍ番目のモーラが先頭モーラでなかった場合、制御部１８０は、一時メモリ１９０に格納された変数ｍに１を加えた値を新たな変数ｍの値とし一時メモリ１９０に格納し（ステップＳ２６）、処理をステップＳ２４に戻す。一方、末尾−ｍ番目のモーラが先頭モーラであった場合、後述するステップＳ２８の処理に進む。
一方、ステップＳ２４の検証において、末尾−ｍ番目のモーラが長音追加可能であった場合、変換処理部１６０は、メモリ１１０の単語情報列記憶部１１２に格納された単語情報列１０２の単語No.ｉに対応する「読み」１０２ｃｂの末尾−ｍ番目のモーラの直後に長音を追加する（ステップＳ２７）。

ステップＳ２８では、制御部１８０が一時メモリ１９０から変数ｉを読み込み、これがメモリ１１０の分類結果記憶部１１５に格納された分類結果付加セグメント情報列１０５の「セグメントＮｏ.」１０３ａの要素の最大値であるか否かを判断する（ステップＳ２８）。ここで、変数ｉが「セグメントＮｏ.」１０３ａの要素の最大値でなかった場合、制御部１８０は、一時メモリ１９０の変数ｉに１を加算した値を新たな変数ｉの値とし、これを一時メモリ１９０に格納し（ステップＳ２９）、処理をステップＳ２２に戻す。一方、変数ｉが「セグメントＮｏ.」１０３ａの要素の最大値であった場合、制御部１８０は変換処理部１６０に指示を与え、変換処理部１６０は、メモリ１１０の単語情報列記憶部１１２から読み変換が行なわれた単語情報列１０２（変換後単語情報列１０８）を読み込み、これを出力する（ステップＳ３０）。

図９は、図６の単語情報列１０２及び図８の分類結果付加セグメント情報列１０５を用い、図５の処理を実行した場合に得られる変換後単語情報列１０８を示した図である。
図８の分類結果付加セグメント情報列１０５は、セグメントＮｏ.３に対応する分類結果情報１０５ａのみが「長音追加」を示すものとなっており、セグメントＮｏ.１，４，５に対応する分類結果情報１０５ａは「変化なし」である（ステップＳ２２）。そして、セグメントＮｏ.３に対応する図６の単語情報列１０２の単語Ｎｏ.３の「読み」１０２ｃｂの末尾モーラは「ネ」であり、長音・促音以外である（ステップＳ２４）。よって、単語Ｎｏ.３の「読み」１０２ｃｂの末尾モーラは「ネ」の直後のみに長音「ー」が追加され、単語Ｎｏ.３の「読み」１０２ｃｂが「ネー」と変換される。その結果、最終的に、図９に示すような「単語Ｎｏ.」１０８ａ、「単語」１０８ｂ、「品詞」１０８ｃａ及び「読み」１０８ｃｂからなる変換後単語情報列１０８が、変換処理部１６０から出力される（ステップＳ３０／［ステップＳ５の具体例］の説明終わり）。

〔第２の実施の形態〕
次に、本発明の第２の実施の形態について説明する。
本形態は、第１の実施の形態の変形例であり、読み替え処理として促音追加を行う構成を採る。以下では、第１の実施の形態との相違点を中心に説明し、第１の実施の形態と共通する部分については説明を省略する。
＜構成＞
構成は第１の実施の形態と同様となるため説明を省略する。以下では、図２の機能ブロック図を引用しつつ説明を行う。
＜処理＞
第２の実施の形態の前処理は第１の実施の形態と同様である。ただし、本形態の変換規則情報１０６は、分類結果情報１０５ａが示す読み替え処理内容がセグメント中に促音を追加する処理であった場合に、セグメント中のモーラを所定の順序で検索し、促音以外であると判断されたモーラの直後に促音を追加する処理を特定するための情報（プログラムや、処理を特定するためのパラメータ・数式等）を含む。
また、第２の実施の形態における処理全体の流れは第１の実施の形態と同様である（図３）。本形態と第１の実施の形態との相違点は、ステップＳ４，５の処理の詳細である。以下、本形態におけるステップＳ４，５の処理の相違点を中心に説明する。

［本形態のステップＳ４の詳細］
第１の実施の形態で述べたように、分類処理部１５０は、セグメント情報列の特徴値と分類規則情報１０４とを用い、各セグメントの読み替え処理内容を決定し、当該読み替え処理内容を示す分類結果情報をセグメント情報列に付加した分類結果付加セグメント情報列を出力する。本形態のステップＳ４の処理では、「促音追加」或いは「変化なし」を示す分類結果情報を生成する。その具体的な処理内容は、「長音追加」を「促音追加」と置き換える以外は、第１の実施の形態と同様である。

［本形態のステップＳ５の詳細］
第１の実施の形態で述べたように、変換処理部１６０は、メモリ１１０の分類結果記憶部１１５から分類結果付加セグメント情報列を読み出し、変換規則記憶部１１６から変換規則情報１０６を読み出し、分類結果付加セグメント情報列の分類結果情報と変換規則情報１０６とを用い、各セグメントに対応する単語の読み替え処理を行って変換後単語情報列１０８を生成し、当該変換後単語情報列１０８を出力する。なお、第２の実施の形態では、読み替え処理として、促音追加を行なう。

図１０は、本形態におけるステップＳ５の処理の詳細を説明するためのフローチャートである。以下、この図を用い、本形態におけるステップＳ５の処理の詳細を説明する。
まず、制御部１８０が、変数ｉに１を代入し、この変数ｉを一時メモリ１９０に格納する（ステップＳ４１）。次に、変換処理部１６０は、メモリ１１０の変換規則記憶部１１６から変換規則情報１０６を読み込み、変換規則情報１０６の記述に従った処理を実行する。まず、変換処理部１６０は、一時メモリ１９０から変数ｉを読み込み、メモリ１１０の分類結果記憶部１１５に格納された分類結果付加セグメント情報列１０５を参照し、セグメントNo.ｉに対応する分類結果情報１０５ａが「促音追加」を示すか「変化なし」を示すかを判断する（ステップＳ４２）。

ここで、セグメントNo.ｉに対応する分類結果情報１０５ａが「変化なし」であった場合、後述のステップＳ４８に進む。
一方、セグメントNo.ｉに対応する分類結果情報１０５ａが「促音追加」であった場合、制御部１８０は、変数ｍに０を代入し、これを一時メモリ１９０に格納する（ステップＳ４３）。そして、変換処理部１６０は、メモリ１１０の単語情報列記憶部１１２に格納された単語情報列１０２を参照し、単語No.ｉに対応する「読み」１０２ｃｂの要素を抽出する。変換処理部１６０は、抽出した単語No.ｉに対応する「読み」１０２ｃｂの要素の末尾−ｍ番目のモーラが促音追加可能であるか否かを検証する（ステップＳ４４）。具体的には、変換処理部１６０は、末尾−ｍ番目のモーラが「促音」である（促音追加不可）か、「促音」でない（促音追加可能）かを検証する。

ここで、末尾−ｍ番目のモーラが促音追加不可であった場合、変換処理部１６０は、末尾−ｍ番目のモーラが先頭モーラであるか否かを検証する（ステップＳ４５）。ここで、末尾−ｍ番目のモーラが先頭モーラでなかった場合、制御部１８０は、一時メモリ１９０に格納された変数ｍに１を加えた値を新たな変数ｍの値とし一時メモリ１９０に格納し（ステップＳ４６）、処理をステップＳ４４に戻す。一方、末尾−ｍ番目のモーラが先頭モーラであった場合、後述するステップＳ４８の処理に進む。
一方、ステップＳ４４の検証において、末尾−ｍ番目のモーラが促音追加可能であった場合、変換処理部１６０は、メモリ１１０の単語情報列記憶部１１２に格納された単語情報列１０２の単語No.ｉに対応する「読み」１０２ｃｂの末尾−ｍ番目のモーラの直後に促音を追加する（ステップＳ４７）。

ステップＳ４８では、制御部１８０が一時メモリ１９０から変数ｉを読み込み、これがメモリ１１０の分類結果記憶部１１５に格納された分類結果付加セグメント情報列１０５の「セグメントＮｏ.」１０３ａの要素の最大値であるか否かを判断する（ステップＳ４８）。ここで、変数ｉが「セグメントＮｏ.」１０３ａの要素の最大値でなかった場合、制御部１８０は、一時メモリ１９０の変数ｉに１を加算した値を新たな変数ｉの値とし、これを一時メモリ１９０に格納し（ステップＳ４９）、処理をステップＳ４２に戻す。一方、変数ｉが「セグメントＮｏ.」１０３ａの要素の最大値であった場合、制御部１８０は変換処理部１６０に指示を与え、変換処理部１６０は、メモリ１１０の単語情報列記憶部１１２から読み変換が行なわれた単語情報列１０２（変換後単語情報列１０８）を読み込み、これを出力する（ステップＳ５０）。

〔第３の実施の形態〕
本形態は、第１の実施の形態の変形例であり、単語情報列の単語を細分化したモーラをセグメントとする形態である。以下では、第１の実施の形態との相違点を中心に説明し、第１の実施の形態と共通する部分については説明を省略する。
＜構成＞
構成は第１の実施の形態と同様となるため説明を省略する。以下では、図２の機能ブロック図を引用しつつ説明を行う。
＜処理＞
第３の実施の形態の前処理は第１の実施の形態と同様である。ただし、本形態の変換規則情報１０６は、分類結果情報１０５ａが示す読み替え処理内容がセグメントに長音を追加する処理であった場合に、当該セグメント（モーラ）の直後に促音を追加する処理を特定するための情報（プログラムや、処理を特定するためのパラメータ・数式等）を含む。
また、第３の実施の形態もおける処理全体の流れは第１の実施の形態と同様である（図３）。本形態と第１の実施の形態との相違点は、ステップＳ３からＳ５の処理の詳細である。以下では、これらの相違点のみを説明する。

［本形態のステップＳ３の詳細］
第１の実施の形態で述べたように、ステップＳ３では、セグメント情報生成部１４０が、メモリ１１０の単語情報列記憶部１１２から単語情報列１０２を読み込み、セグメントと、単語に対応付けられた属性値から抽出した特徴値とを、それぞれ対応付けたセグメント情報列１０３を生成し、当該セグメント情報列を出力する。ここで、第１の実施の形態では単語をセグメントの単位としたが、第３の実施の形態では、モーラをセグメントとする。この点が第１の実施の形態と第３の実施の形態との相違点である。

図１２は、本形態のセグメント情報列２０３の構成を例示した図である。
図１２に例示するように、本形態のセグメント情報列２０３は、各セグメントに対応する「セグメントＮｏ.」２０３ａ、各セグメントに対応する「単語Ｎｏ.」２０３ｂ、「セグメント」２０３ｃ、「読み」２０３ｄａ、「主品詞」２０３ｄｂ、「活用形」２０３ｄｃ及び「体言・記号細分類」２０３ｄｄが対応付けられたデータ列である。なお、「読み」２０３ｄａ、「主品詞」２０３ｄｂ、「活用形」２０３ｄｃ及び「体言・記号細分類」２０３ｄｄは、「特徴値」２０３ｄを構成する。

図６（ｂ）に例示した単語情報列１０２から図１２の例のセグメント情報列２０３を生成する場合、まず、セグメント情報生成部１４０は、「単語（表記）」１０２ｂの各要素をモーラ毎に分解し、これらのモーラを「セグメント」２０３ｃの各要素とする。そして、セグメント情報生成部１４０は、それらに、対応する単語の「単語Ｎｏ.」２０３ｂと、新たに付与した「セグメントＮｏ.」２０３ａとを関連付ける。また、セグメント情報生成部１４０は、単語情報列１０２の「読み」１０２ｃｂをセグメント毎（モーラ単位）に分解し、それらを、対応する「セグメントＮｏ.」２０３ａと関連付ける。さらに、セグメント情報生成部１４０は、単語情報列１０２の「品詞」１０２ｃａの各要素から、主品詞、活用形及び体言・記号細分類を抽出し、それらを、対応する「単語Ｎｏ.」２０３ｂに関連付ける。
以上のように生成されたセグメント情報列２０３は、セグメント情報生成部１４０から出力され、メモリ１１０のセグメント情報列記憶部１１３に格納される。

［本形態のステップＳ４の詳細］
第１の実施の形態で述べたように、分類処理部１５０は、セグメント情報列の特徴値と分類規則情報１０４とを用い、各セグメントの読み替え処理内容を決定し、当該読み替え処理内容を示す分類結果情報をセグメント情報列に付加した分類結果付加セグメント情報列を出力する。第３の実施の形態では、この処理を図１２で例示したモーラ単位のセグメント情報列２０３を用いて実行する。その処理手順自体は第１の実施の形態と同様である。
図１３は、セグメント情報列２０３を用いた本形態のステップＳ４の処理によって生成された分類結果付加セグメント情報列２０５の例示である。このように、本形態の分類結果付加セグメント情報列２０５は、セグメント情報列２０３の各列に対応する分類結果情報２０５ａが対応付けられた構成となる。そして、このように出力された分類結果付加セグメント情報列２０５は、メモリ１１０の分類結果記憶部１１５に格納される。

［本形態のステップＳ５の詳細］
変換処理部１６０は、メモリ１１０の分類結果記憶部１１５から分類結果付加セグメント情報列を読み出し、変換規則記憶部１１６から変換規則情報１０６を読み出し、分類結果付加セグメント情報列の分類結果情報と変換規則情報１０６とを用い、各セグメントに対応するモーラの読み替え処理を行って変換後単語情報列１０８を生成し、当該変換後単語情報列１０８を出力する。第３の実施の形態では、この処理を、セグメントがモーラ単位で構成された分類結果付加セグメント情報列２０５を用いて実行する。

図１１は、本形態におけるステップＳ５の具体的な処理を説明するためのフローチャートである。以下、この図を用い、本形態におけるステップＳ５の具体的な処理を説明する。
まず、制御部１８０が、変数ｉに１を代入し、この変数ｉを一時メモリ１９０に格納する（ステップＳ６１）。次に、変換処理部１６０が、メモリ１１０の変換規則記憶部１１６から変換規則情報１０６を読み込み、変換規則情報１０６の記述に従った処理を実行する。まず、変換処理部１６０は、一時メモリ１９０から変数ｉを読み込み、メモリ１１０の分類結果記憶部１１５に格納された分類結果付加セグメント情報列２０５（図１３）を参照し、セグメントNo.ｉに対応する分類結果情報２０５ａが「長音追加」を示すか「変化なし」を示すかを判断する（ステップＳ６２）。

ここで、セグメントNo.ｉに対応する分類結果情報２０５ａが「変化なし」であった場合、後述のステップＳ６４に進む。一方、セグメントNo.ｉに対応する分類結果情報２０５ａが「長音追加」であった場合、変換処理部１６０は、メモリ１１０の単語情報列記憶部１１２に格納された単語情報列１０２にアクセスし、セグメントNo.iに対応する単語情報列１０２のモーラの読みの直後に長音追加する（ステップＳ６３）。すなわち、変換処理部１６０は、まず、ｉを検索キーとして分類結果付加セグメント情報列２０５を検索し、「セグメントNo.」２０３ａがｉとなる列に属する「単語Ｎｏ.」２０３ｂの要素と、その列に属する「読み」２０３ｄａの要素が単語中どこに位置するかを示す位置情報（単語の先頭から何番目のモーラであるかを示す情報等）とを抽出する。例えば、ｉ＝７を検索キーとして、図１３の分類結果付加セグメント情報列２０５を検索した場合、変換処理部１６０は、「セグメントNo.」２０３ａが「７」となる、「単語Ｎｏ.」２０３ｂの要素「３」と、「読み」２０３ｄａの要素「ネ」と、その「読み」２０３ｄａの要素「ネ」の位置情報「先頭から１文字目を示す情報」とを抽出する。そして、変換処理部１６０は、抽出した「単語Ｎｏ.」２０３ｂの要素（上記例では「３」）を検索キーとして、メモリ１１０の単語情報列記憶部１１２に格納された単語情報列１０２の「単語Ｎｏ.」１０２ａの要素を検索し、対応する単語（上記例では「ね」）の「読み」１０２ｃｂの要素（上記例では「ネ」）を特定する。さらに、変換処理部１６０は、特定された「読み」１０２ｃｂの要素から、上記の位置情報を用いて一つのモーラの「読み」を特定する（上記例では「ネ」）。そして、変換処理部１６０は、特定した一つのモーラの「読み」の直後に長音を追加し、単語情報列１０２の「読み」１０２ｃｂの要素を更新する（上記例では「ネー」に更新）。単語情報列１０２の「読み」１０２ｃｂの要素を更新後、以下のステップＳ６４に移る。

ステップＳ６４では、制御部１８０が一時メモリ１９０から変数ｉを読み込み、これがメモリ１１０の分類結果記憶部１１５に格納された分類結果付加セグメント情報列２０５の「セグメントＮｏ.」２０３ａの要素の最大値であるか否かを判断する（ステップＳ６４）。ここで、変数ｉが「セグメントＮｏ.」２０３ａの要素の最大値でなかった場合、制御部１８０は、一時メモリ１９０の変数ｉに１を加算した値を新たな変数ｉの値とし、これを一時メモリ１９０に格納し（ステップＳ６５）、処理をステップＳ６２に戻す。一方、変数ｉが「セグメントＮｏ.」２０３ａの要素の最大値であった場合、制御部１８０は変換処理部１６０に指示を与え、変換処理部１６０は、メモリ１１０の単語情報列記憶部１１２から読み変換が行なわれた単語情報列１０２（変換後単語情報列１０８）を読み込み、これを出力する（ステップＳ６６）。

〔第４の実施の形態〕
本形態は、第１，２の実施の形態を融合した形態であり、セグメントの単位を単語とし、読みに長音追加及び促音追加を行うことが可能な形態である。以下では、第１，２の実施の形態との相違点を中心に説明し、これらと共通する部分については説明を省略する。
＜構成＞
構成は第１の実施の形態と同様となるため説明を省略する。以下では、図２の機能ブロック図を引用しつつ説明を行う。
＜処理＞
第４の実施の形態の前処理は第１の実施の形態と同様である。ただし、本形態の変換規則情報１０６は、分類結果情報１０５ａが示す読み替え処理内容がセグメント中に長音を追加する処理であった場合に、セグメント中のモーラを所定の順序で検索し、長音・促音以外であると判断されたモーラの直後に長音を追加する処理を特定するための情報の他、分類結果情報１０５ａが示す読み替え処理内容がセグメント中に促音を追加する処理であった場合に、セグメント中のモーラを所定の順序で検索し、促音以外であると判断されたモーラの直後に促音を追加する処理を特定するための情報を含む。

また、第４の実施の形態における処理全体の流れは第１の実施の形態と同様である（図３）。本形態と第１，２の実施の形態との相違点は、ステップＳ４，Ｓ５の処理の詳細である。以下では、これらの相違点のみを説明する。

［本形態のステップＳ４の詳細］
第４の実施の形態と第１，２の実施の形態との相違点は、分類処理部１５０が分類規則情報１０４を用いて、「長音追加」「促音追加」「変化なし」の３種類の読み替え処理内容を示す処理内容情報を生成する点のみである。

［本形態のステップＳ５の詳細］
図１４，１５は、本形態のステップＳ５の具体例を説明するためのフローチャートである。以下、この図に従って本形態のステップＳ５の具体例を説明する。
まず、制御部１８０が、変数ｉに１を代入し、この変数ｉを一時メモリ１９０に格納する（ステップＳ７１）。次に、変換処理部１６０が、メモリ１１０の変換規則記憶部１１６から変換規則情報１０６を読み込み、変換規則情報１０６の記述に従った処理を実行する。まず、変換処理部１６０は、一時メモリ１９０から変数ｉを読み込み、メモリ１１０の分類結果記憶部１１５に格納された分類結果付加セグメント情報列１０５を参照し、セグメントNo.ｉに対応する分類結果情報が「長音追加」「促音追加」「変化なし」のいずれを示すかを判断する（ステップＳ７２）。

ここで、セグメントNo.ｉに対応する分類結果情報が「変化なし」であった場合、後述のステップＳ７８に進む。また、セグメントNo.ｉに対応する分類結果情報が「促音追加」であった場合、後述のステップＳ８１に進む。
一方、セグメントNo.ｉに対応する分類結果情報１０５ａが「長音追加」であった場合、制御部１８０は、変数ｍに０を代入し、これを一時メモリ１９０に格納する（ステップＳ７３）。そして、変換処理部１６０は、メモリ１１０の単語情報列記憶部１１２に格納された単語情報列１０２を参照し、単語No.ｉに対応する「読み」１０２ｃｂの要素を抽出する。変換処理部１６０は、抽出した単語No.ｉに対応する「読み」１０２ｃｂの要素の末尾−ｍ番目のモーラが長音追加可能であるか否かを検証する（ステップＳ７４）。

ここで、末尾−ｍ番目のモーラが長音追加不可であった場合、変換処理部１６０は、末尾−ｍ番目のモーラが先頭モーラであるか否かを検証する（ステップＳ７５）。ここで、末尾−ｍ番目のモーラが先頭モーラでなかった場合、制御部１８０は、一時メモリ１９０に格納された変数ｍに１を加えた値を新たな変数ｍの値とし一時メモリ１９０に格納し（ステップＳ７６）、処理をステップＳ７４に戻す。一方、末尾−ｍ番目のモーラが先頭モーラであった場合、後述するステップＳ７８の処理に進む。一方、ステップＳ７４の検証において、末尾−ｍ番目のモーラが長音追加可能であった場合、変換処理部１６０は、メモリ１１０の単語情報列記憶部１１２に格納された単語情報列１０２の単語No.ｉに対応する「読み」１０２ｃｂの末尾−ｍ番目のモーラの直後に長音を追加し（ステップＳ７７）、後述するステップＳ７８の処理に進む。

また、ステップＳ７２の判断において、セグメントNo.ｉに対応する分類結果情報が「促音追加」であった場合、制御部１８０は、変数ｍに０を代入し、これを一時メモリ１９０に格納する（ステップＳ８１）。そして、変換処理部１６０は、メモリ１１０の単語情報列記憶部１１２に格納された単語情報列１０２を参照し、単語No.ｉに対応する「読み」１０２ｃｂの要素を抽出する。変換処理部１６０は、抽出した単語No.ｉに対応する「読み」１０２ｃｂの要素の末尾−ｍ番目のモーラが促音追加可能であるか否かを検証する（ステップＳ８２）。

ここで、末尾−ｍ番目のモーラが促音追加不可であった場合、変換処理部１６０は、末尾−ｍ番目のモーラが先頭モーラであるか否かを検証する（ステップＳ８３）。ここで、末尾−ｍ番目のモーラが先頭モーラでなかった場合、制御部１８０は、一時メモリ１９０に格納された変数ｍに１を加えた値を新たな変数ｍの値とし一時メモリ１９０に格納し（ステップＳ８４）、処理をステップＳ８２に戻す。一方、末尾−ｍ番目のモーラが先頭モーラであった場合、後述するステップＳ７８の処理に進む。
一方、ステップＳ８２の検証において、末尾−ｍ番目のモーラが促音追加可能であった場合、変換処理部１６０は、メモリ１１０の単語情報列記憶部１１２に格納された単語情報列１０２の単語No.ｉに対応する「読み」１０２ｃｂの末尾−ｍ番目のモーラの直後に促音を追加し（ステップＳ８５）、以下のステップＳ７８の処理に進む。

ステップＳ７８では、制御部１８０が一時メモリ１９０から変数ｉを読み込み、これがメモリ１１０の分類結果記憶部１１５に格納された分類結果付加セグメント情報列１０５の「セグメントＮｏ.」１０３ａの要素の最大値であるか否かを判断する（ステップＳ７８）。ここで、変数ｉが「セグメントＮｏ.」１０３ａの要素の最大値でなかった場合、制御部１８０は、一時メモリ１９０の変数ｉに１を加算した値を新たな変数ｉの値とし、これを一時メモリ１９０に格納し（ステップＳ７９）、処理をステップＳ７２に戻す。一方、変数ｉが「セグメントＮｏ.」１０３ａの要素の最大値であった場合、制御部１８０は変換処理部１６０に指示を与え、変換処理部１６０は、メモリ１１０の単語情報列記憶部１１２から読み変換が行なわれた単語情報列１０２（変換後単語情報列１０８）を読み込み、これを出力する（ステップＳ８０）。

〔第５の実施の形態〕
本形態は、第１の実施の形態の変形例であり、読み替え処理として削除及び置換を行う構成を採る。以下では、第１の実施の形態との相違点を中心に説明し、第１の実施の形態と共通する部分については説明を省略する。
＜構成＞
図１６は、本形態の読み付与装置３００の機能構成を例示したブロック図である。なお、本形態の読み付与装置３００も公知のコンピュータに読み付与プログラムが読み込まれることによって構成されるものである。なお、図１６において、第１の実施の形態と共通する部分については図２と同じ符号を付し、説明を省略する。

図１６に例示するように、本形態の読み付与装置３００は、メモリ１１０、入力部１２０、形態素解析部１３０、セグメント情報生成部１４０、分類処理部１５０、変換処理部１６０、制御部１８０、一時メモリ１９０及び削除・置換辞書メモリ３１０を有し、入力されたテキスト情報（テキスト含む）に対し、変換後単語情報列１０８を出力する。なお、削除・置換辞書メモリ３１０には、後述する削除・置換辞書３１１が格納される。また、メモリ１１０の変換規則記憶部１１６には、変換規則情報１０６の代わりに変換規則情報４０６が格納される。
＜処理＞
第５の実施の形態の処理は、前処理及びステップＳ５の処理の点で第１の実施の形態と相違する。

［本形態の前処理］
前処理として、メモリ１１０の分類規則記憶部１１４に分類規則情報１０４を格納しておくこと、変換規則記憶部１１６に変換規則情報１０６を格納しておくことは、第１の実施の形態と同様である。ただし、本形態の変換規則情報１０６は、分類結果情報１０５ａが示す読み替え処理内容がセグメントの一部を削除又は置換する処理であった場合に、セグメント中の各単語をキーとして削除・置換辞書３１１を検索し、そこから変換内容を抽出する処理を特定するための情報（プログラムや、処理を特定するためのパラメータ・数式等）を含む。

さらに、本形態の前処理では、削除・置換辞書メモリ３１０に削除・置換辞書３１１を格納しておく。図１８は、この削除・置換辞書３１１の例示である。
削除・置換辞書３１１は、削除又は置換を行う「単語」３１１ａと、その変更後の読みを示す「変更内容」３１１ｂとを対応付けたテーブルである。図１８の例では、例えば、単語「いいかも」の読みが「イイカモ」から「イッカモ」に置換され、単語「言っている」の読み「イッテイル」の一部が削除され「イッテル」となることを示している。
また、第５の実施の形態における処理全体の流れは第１の実施の形態と同様である（図３）。本形態と第１の実施の形態との相違点は、ステップＳ４，５の処理の詳細である。以下では、この相違点のみを説明する。

［本形態のステップＳ４の詳細］
第１の実施の形態で述べたように、分類処理部１５０は、セグメント情報列の特徴値と分類規則情報１０４とを用い、各セグメントの読み替え処理内容を決定し、当該読み替え処理内容を示す分類結果情報をセグメント情報列に付加した分類結果付加セグメント情報列を出力する。第５の実施の形態では、各セグメントの読み替え処理内容として「削除・置換」又は「変化なし」を決定する。その具体的な処理内容については、「長音追加」を「削除・置換」に置き換える以外は第１の実施の形態と同様である。

［本形態のステップＳ５の詳細］
図１７は、本形態におけるステップＳ５の具体的な処理を説明するためのフローチャートである。以下、この図を用い、本形態におけるステップＳ５の具体的な処理を説明する。
まず、制御部１８０が、変数ｉに１を代入し、この変数ｉを一時メモリ１９０に格納する（ステップＳ９１）。次に、変換処理部１６０が、メモリ１１０の変換規則記憶部１１６から変換規則情報１０６を読み込み、変換規則情報１０６の記述に従った処理を実行する。まず、変換処理部１６０は、一時メモリ１９０から変数ｉを読み込み、メモリ１１０の分類結果記憶部１１５に格納された分類結果付加セグメント情報列１０５を参照し、セグメントNo.ｉに対応する分類結果情報が「削除・置換」を示すか「変化なし」を示すかを判断する（ステップＳ９２）。

ここで、セグメントNo.ｉに対応する分類結果情報が「変化なし」であった場合、後述のステップＳ９５に進む。
一方、セグメントNo.ｉに対応する分類結果情報２０５ａが「削除・置換」であった場合、変換処理部１６０は、削除・置換辞書メモリ３１０に格納された削除・置換辞書３１１から、セグメントNo.がiであるセグメントに対応する変換内容を抽出する（ステップＳ９３）。具体的には、変換処理部１６０は、セグメントNo.がiであるセグメントに対応する単語（本形態では、セグメント＝単語）を検索キーとして、削除・置換辞書３１１の「単語」３１１ａのフィールドを検索し、一致した単語に対応付けられている「変換内容」３１１ｂの要素を抽出する。例えば、図１８の例の削除・置換辞書３１１を用いる場合において、セグメントNo.ｉのセグメントが単語「いいかも」を具備する場合、変換処理部１６０は、変換内容として「イッカモ」を抽出する。

そして、変換処理部１６０は、セグメントNo.がiであるセグメントに対応する単語情報列１０２の単語の読みを、ステップＳ９３で削除・置換辞書３１１から抽出した変換内容で置き換える（ステップＳ９４）。具体的には、この例の変換処理部１６０は、単語情報列１０２の単語Ｎｏ.ｉに対応する「読み」１０２ｃｂの要素を、ステップＳ９３で削除・置換辞書３１１から抽出した読みに置き換える。その後、以下のステップＳ９５の処理に進む。
ステップＳ９５では、制御部１８０が一時メモリ１９０から変数ｉを読み込み、これがメモリ１１０の分類結果記憶部１１５に格納された分類結果付加セグメント情報列２０５の「セグメントＮｏ.」の要素の最大値であるか否かを判断する（ステップＳ９４）。ここで、変数ｉが「セグメントＮｏ.」の要素の最大値でなかった場合、制御部１８０は、一時メモリ１９０の変数ｉに１を加算した値を新たな変数ｉの値とし、これを一時メモリ１９０に格納し（ステップＳ９６）、処理をステップＳ９２に戻す。一方、変数ｉが「セグメントＮｏ.」の要素の最大値であった場合、制御部１８０は変換処理部１６０に指示を与え、変換処理部１６０は、メモリ１１０の単語情報列記憶部１１２から読み変換が行なわれた単語情報列１０２（変換後単語情報列１０８）を読み込み、これを出力する（ステップＳ９７）。

〔第６の実施の形態〕
本形態は、第１の実施の形態の変形例であり、テキストに対応付けられた付加情報をも用いて読み替え処理を行う点で第１の実施の形態と相違する。以下では、第１の実施の形態との相違点を中心に説明し、第１の実施の形態と共通する部分については説明を省略する。
＜構成＞
図１９は、本形態の読み付与装置４００の機能構成を例示したブロック図である。なお、本形態の読み付与装置４００も公知のコンピュータに読み付与プログラムが読み込まれることによって構成されるものである。なお、図１９において、第１の実施の形態と共通する部分については図２と同じ符号を付し、説明を省略する。

図１９に例示するように、本形態の読み付与装置４００は、メモリ４１０、入力部１２０、形態素解析部４３０、付加情報追加部４３５、セグメント情報生成部４４０、分類処理部４５０、変換処理部１６０、制御部１８０及び一時メモリ１９０を有し、入力されたテキスト情報（テキスト及び付加情報含む）に対し、変換後単語情報列１０８を出力する。なお、メモリ４１０は、テキスト記憶部１１１、単語情報列記憶部１１２、付加単語情報列記憶部４１２、セグメント情報列記憶部１１３、分類規則記憶部１１４、分類結果記憶部１１５及び変換規則記憶部１１６を有している。また、付加情報とは、それが関連つけられたテキストの内容の種別を示す情報である。このような付加情報の例としては、例えば、談話情報がある。談話情報とは、会話における発話の種類を示す情報をいう。なお、この発話の種類としては、働きかけ（言明、指示、確認、情報要求等）、応答発話（同意／拒否、回答等）、情報伝達の状態（解釈不能、破棄、独り言等）等を例示できる。
＜処理＞
図２０は、第６の実施の形態の読み付与方法を説明するためのフローチャートである。
なお、以下では、テキストが１文である場合を例にとって説明するが、テキストが複数の文から構成される場合には、同様な処理を文の数だけ繰り返せばよい。

［前処理］
第１の実施の形態と同様、前処理として、メモリ４１０の分類規則記憶部１１４に分類規則情報１０４を格納し、変換規則記憶部１１６に変換規則情報１０６を格納しておく。本形態の分類規則情報１０４も、公知の統計的な分類手法に用いられる分類モデル式であるが、上述の付加情報をも特徴値として取り扱う点で第１の実施の形態と相違する。

［読み替え処理］
以上のような前処理を前提とし、以下の各処理が実行される。
まず、入力部１２０から入力されたテキスト情報（テキスト及び付加情報を含む）１０１がメモリ４１０のテキスト記憶部１１１に格納される（ステップＳ１０１）。なお、テキストは、その付加情報に対応付けられてテキスト記憶部１１１に格納される。また、テキスト情報４０１のフォーマットは予め定めておくものとする。図２１（ａ）は、ＸＭＬ（Extensible Markup Language）で記述した場合のテキスト情報４０１の例である。図２１（ａ）の例のテキスト情報４０１は、テキスト４０１ａ（この例では「東京ですね？」）を１文単位毎にdiscourseタグで囲み、discourseタグのtype属性で談話情報（この例では「確認」）を指定するものとし、この談話情報を付加情報４０１ｂとして扱う。また、ＸＭＬタグ以外の部分を、解析対象のテキストとして取り扱う。

次に、形態素解析部１３０が、メモリ４１０のテキスト記憶部１１１に格納されたテキスト情報４０１からテキストを抽出し、抽出したテキストに対する形態素解析処理を行い、当該テキストを構成する各単語と、それらの属性値とを対応付けた単語情報列を生成し、当該単語情報列１０２を出力する（ステップＳ１０２）。そして、形態素解析部１３０から出力された単語情報列１０２は、メモリ４１０の単語情報列記憶部１１２に格納される。なお、テキスト情報（テキスト及び付加情報を含む）１０１から、テキストを抽出するには、例えば、ＸＭＬパーザを用いる。この場合、形態素解析部１３０は、ＸＭＬパーザに従った処理により、テキスト情報４０１からテキストと付加情報とを分離する。また、抽出された付加情報はテキスト記憶部１１１に格納しておく。

次に、付加情報追加部４３５が、メモリ４１０の単語情報列記憶部１１２から単語情報列１０２を読み込み、テキスト記憶部１１１から付加情報を読み込む。そして、付加情報追加部４３５は、当該付加情報を、それらに対応する単語情報列１０２の列に対応付けた付加単語情報列４０２を生成して出力する。そして、出力された付加単語情報列４０２は、メモリ４１０の付加単語情報列記憶部４１２に格納される（ステップＳ１０３）。
図２１（ｂ）は、この付加単語情報列４０２を例示した図である。この図に例示するように、この例の付加単語情報列４０２は、「単語Ｎｏ.」１０２ａ、「単語」１０２ｂ、「品詞」１０２ｃａ、「読み」１０２ｃｂ及び「付加情報」４０２ｃｃの各要素を対応付けたデータ列である。なお、品詞」１０２ｃａ、「読み」１０２ｃｂ及び「付加情報」４０２ｃｃは、「属性値」４０２ｃを構成する。

次に、セグメント情報生成部４４０が、メモリ４１０の付加単語情報列記憶部４１２から付加単語情報列４０２を読み込み、セグメントと、単語に対応付けられた属性値から抽出した特徴値とを、それぞれ対応付けたセグメント情報列４０３を生成し、当該セグメント情報列を出力する（ステップＳ１０４）。そして、セグメント情報生成部４４０から出力されたセグメント情報列４０３は、メモリ４１０のセグメント情報列記憶部１１３に格納される。
図２２は、このように生成されたセグメント情報列４０３を例示した図である。
図２２の例のセグメント情報列４０３は、各セグメントに対応する「セグメントＮｏ.」１０３ａ、「セグメント」１０３ｂ、「主品詞」１０３ｄａ、「活用形」１０３ｄｂ、「体言・記号細分類」１０３ｄｃ、「末尾−１モーラの読み」１０３ｄｄ、「末尾モーラの読み」１０３ｄｅ及び「付加情報」４０３ａが対応付けられたデータ列である。なお、「主品詞」１０３ｄａ、「活用形」１０３ｄｂ、「体言・記号細分類」１０３ｄｃ、「末尾−１モーラの読み」１０３ｄｄ、「末尾モーラの読み」１０３ｄｅ及び「付加情報」４０３ａは、「特徴値」４０３ｄを構成する。また、「付加情報」４０３ａは、付加単語情報列４０２から抽出したものである。また、「セグメントＮｏ.」１０３ａ、「セグメント」１０３ｂ、「主品詞」１０３ｄａ、「活用形」１０３ｄｂ、「体言・記号細分類」１０３ｄｃ、「末尾−１モーラの読み」１０３ｄｄ及び「末尾モーラの読み」１０３ｄｅは、第１の実施の形態と同様な手順によって付加単語情報列４０２から抽出される。

次に、分類処理部１５０が、メモリ４１０のセグメント情報列記憶部１１３からセグメント情報列４０３を読み込み、分類規則記憶部１１４から分類規則情報１０４を読み込む。そして、分類処理部１５０は、セグメント情報列４０３の特徴値４０３ｄと分類規則情報１０４とを用い、第１の実施の形態と同様な手順によって各セグメントの読み替え処理内容を決定し、当該読み替え処理内容を示す分類結果情報４０５ａをセグメント情報列１０３に付加した分類結果付加セグメント情報列４０５を出力する（図２３／ステップＳ１０５）。そして、このように出力された分類結果付加セグメント情報列４０５は、メモリ４１０の分類結果記憶部１１５に格納される。

次に、変換処理部１６０が、メモリ４１０の分類結果記憶部１１５から分類結果付加セグメント情報列４０５を読み出し、変換規則記憶部１１６から変換規則情報１０６を読み出す。そして、第１の実施の形態と同様に、変換処理部１６０は、分類結果付加セグメント情報列４０５の分類結果情報と変換規則情報１０６とを用い、単語情報列１０２の読みを変換して変換後単語情報列１０８を生成し、これを出力する（ステップＳ１０６）。

〔第７の実施の形態〕
本形態は、第１，４の実施の形態の変形例である。例外的な読み変換を行う単語を同定できる情報（例えば、表記、品詞、読み等の単語情報、或いは、単語ＩＤ等ユニークに特定の単語と同定できる情報等）と、対応する例外的な読み替え位置を示す情報（例えば、読みそのもの、読み替えを行うモーラを示す情報等）とを対応つけた例外読み辞書を用い、変換規則の例外となる例外的な読み変換をも可能にする。例えば、末尾モーラが長音追加可能であるにもかかわらず末尾モーラ以外に長音を追加する（例：表記「はい」の読み「ハイ」→「ハーイ」）例外的な読み変換を可能にする。
以下では、第１の実施の形態との相違点を中心に説明し、第１の実施の形態と共通する事項については説明を省略する。

＜構成＞
図２４は、本形態の読み付与装置５００の機能構成を例示したブロック図である。なお、本形態の読み付与装置５００も公知のコンピュータに読み付与プログラムが読み込まれることによって構成されるものである。なお、図２４において、第１の実施の形態と共通する部分については図２と同じ符号を付し、説明を省略する。

図２４に例示するように、本形態の読み付与装置５００は、メモリ１１０、入力部１２０、形態素解析部１３０、セグメント情報生成部１４０、分類処理部１５０、変換処理部１６０、制御部１８０、一時メモリ１９０、例外読み辞書メモリ５１０及び検索部５２０を有し、入力されたテキスト情報（テキスト含む）に対し、変換後単語情報列１０８を出力する。
また、例外読み辞書メモリ５１０には、例外読み辞書５１１が格納されている。図２５は、この例外読み辞書５１１の構成を例示した図である。

例外読み辞書５１１は、変換規則情報１０６によって特定される読み替え位置の例外となる単語を特定するための情報と、当該単語の読み替え処理内容毎の読み替え位置を示す読み替え位置情報とを対応付けたテーブルである。図２５の例の例外読み辞書５１１は、変換規則情報１０６によって特定される読み替え位置の例外となる「単語（表記）」５１１ａの要素と、当該単語の「長音追加」を行う際の読み替え位置を示す「長音追加に対する読み」５１１ｂａの要素と、当該単語の「促音追加」を行う際の読み替え位置を示す「促音追加に対する読み」５１１ｂｂの要素とを対応付けたテーブルである。例えば、例外読み辞書５１１には、単語「はい」に対し、「長音追加」を行う際の読み「ハーイ」と、「促音追加」を行う際の読み「なし」（登録データなしを示す）とが対応付けられている。

＜処理＞
第７の実施の形態の前処理は、上述の例外読み辞書５１１を例外読み辞書メモリ５１０に格納する処理が加わる以外、第１の実施の形態と同様である。ただし、本形態の変換規則情報１０６は、そして、分類結果情報が「変化なし」以外の単語に対しては、まず例外読み辞書５１１を検索し、当該単語及び分類結果に対応する読みが登録されている場合には、その読みに変換し、対応する読みが登録されていない場合には、第１の実施の形態と同様な通常の変換処理を実行させるための情報（プログラムや、処理を特定するためのパラメータ・数式等）を含む。
また、第７の実施の形態における処理全体の流れは第１の実施の形態と同様である（図３）。本形態と第１の実施の形態との相違点は、ステップＳ４，５の処理の詳細である。以下、本形態におけるステップＳ４，５の処理の相違点を中心に説明する。

［本形態のステップＳ４の詳細］
第７の実施の形態と第１の実施の形態との相違点は、分類処理部１５０が分類規則情報１０４を用いて、「長音追加」「促音追加」「変化なし」の３種類の読み替え処理内容を示す処理内容情報を生成する点のみである。ただし、これに限定はされない。

［本形態のステップＳ５の詳細］
図２６から図２８は、本形態のステップＳ５の具体例を説明するためのフローチャートである。以下、この図に従って本形態のステップＳ５の具体例を説明する。
まず、制御部１８０が、変数ｉに１を代入し、この変数ｉを一時メモリ１９０に格納する（ステップＳ１１１）。次に、変換処理部１６０が、メモリ１１０の変換規則記憶部１１６から変換規則情報１０６を読み込み、変換規則情報１０６の記述に従った処理を実行する。まず、変換処理部１６０は、一時メモリ１９０から変数ｉを読み込み、メモリ１１０の分類結果記憶部１１５に格納された分類結果付加セグメント情報列１０５を参照し、セグメントNo.iに対応する分類結果情報が「変化なし」を示すか「変化なし」以外を示すかを検証する。ここで、分類結果情報が「変化なし」を示す場合、後述するステップＳ１１６に進む。一方、分類結果情報が「変化なし」以外の場合、検索部５２０は、メモリ１１０の分類結果記憶部１１５に格納された分類結果付加セグメント情報列と、例外読み辞書メモリ５１０に格納された例外読み辞書５１１とを参照し、セグメントNo.がiである処理対象のセグメントが、例外読み辞書５１１の「単語」５１１ａと一致する単語を含むか否かを検証する（ステップＳ１１２）。

ここで、セグメントNo.iのセグメントが、例外読み辞書５１１の「単語」５１１ａと一致する単語を含まないと判断された場合には、後述するステップＳ１２１に進む。一方、セグメントNo.iのセグメントが、例外読み辞書５１１の「単語」５１１ａと一致する単語を含むと判断された場合、検索部５２０は、一致した例外読み辞書５１１の「単語」５１１ａの要素に対応付けられた「読み替え位置情報」５１１ｂが、セグメントNo.iの分類結果情報が示す当該セグメントの読み替え処理内容に対応するか否かを検証する（ステップＳ１１３）。

例えば、一致した例外読み辞書５１１の「単語」５１１ａの要素が「はい」であるとする。図２５の例の場合、この要素「はい」に対応付けられた「読み替え位置情報」５１１ｂは、「長音追加に対する読み」５１１ｂａの要素「ハーイ」と、「促音追加に対する読み」５１１ｂｂの要素「なし」である。ここで、セグメントNo.iの分類結果情報が示す当該セグメントの読み替え処理内容が「長音追加」であった場合、これは「長音追加に対する読み」５１１ｂａの要素「ハーイ」に対応する。よって、検索部５２０は、「一致した例外読み辞書５１１の「単語」５１１ａの要素に対応付けられた「読み替え位置情報」５１１ｂが、セグメントNo.iの分類結果情報が示す当該セグメントの読み替え処理内容に対応する」と判断する。一方、セグメントNo.iの分類結果情報が示す当該セグメントの読み替え処理内容が「促音追加」であった場合、「促音追加に対する読み」５１１ｂｂの要素は存在しないのであるから（「なし」）、検索部５２０は、「一致した例外読み辞書５１１の「単語」５１１ａの要素に対応付けられた「読み替え位置情報」５１１ｂが、セグメントNo.iの分類結果情報が示す当該セグメントの読み替え処理内容に対応しない」と判断する。

ステップＳ１１３の判断において、「一致した例外読み辞書５１１の「単語」５１１ａの要素に対応付けられた「読み替え位置情報」５１１ｂが、セグメントNo.iの分類結果情報が示す当該セグメントの読み替え処理内容に対応しない」と判断された場合、後述するステップＳ１２１に進む。一方、「対応する」と判断された場合、検索部５２０は、ステップＳ１１１，Ｓ１１２の条件を満たす「読み替え位置情報」５１１ｂの要素（例えば、上述の「ハーイ」）を例外読み辞書５１１から抽出する（ステップＳ１１４）。そして、検索部５２０は、抽出した「読み替え位置情報」５１１ｂの要素を、これに対応する「単語」５１１ａの要素に関連付けて一時メモリ１９０に格納する。

次に、変換処理部１６０は、一時メモリ１９０から、上述の「読み替え位置情報」５１１ｂの要素及びこれに対応する「単語」５１１ａの要素を読み込み、メモリ１１０の単語情報列記憶部１１２から単語情報列１０２を読み込む。そして、変換処理部１６０は、読み込んだ「単語」５１１ａの要素に一致する単語情報列１０２の単語の「読み」のフィールドを、読み込んだ「読み替え位置情報」５１１ｂの要素（例えば、上述の「ハーイ」）によって書き換える（ステップＳ１１５）。なお、このように「読み」のフィールドが更新された単語情報列１０２は、メモリ１１０の単語情報列記憶部１１２に格納される。その後、後述するステップＳ１１６の処理に移る。

［ステップＳ１２１以降の処理］
ステップＳ１２１以降は、通常の変換規則に従った処理となる。
すなわち、まず、変換処理部１６０は、メモリ１１０の分類結果記憶部１１５に格納された分類結果付加セグメント情報列１０５を参照し、セグメントNo.ｉに対応する分類結果情報が「長音追加」「促音追加」のいずれを示すかを判断する（ステップＳ１２１）。
ここで、No.ｉに対応する分類結果情報が「促音追加」であった場合、第４の実施の形態のステップＳ８１からＳ８５と同じ処理（図１５）が実行され（ステップＳ１３１からＳ１３５）、処理が後述するステップＳ１１６に移される。一方、セグメントNo.ｉに対応する分類結果情報１０５ａが「長音追加」であった場合、第４の実施の形態のステップＳ７３からＳ７７と同じ処理（図１４）が実行され（ステップＳ１２３からＳ１２６）、処理が後述するステップＳ１１６に移される。

［ステップＳ１１６以降の処理］
ステップＳ１１６では、制御部１８０が一時メモリ１９０から変数ｉを読み込み、これがメモリ１１０の分類結果記憶部１１５に格納された分類結果付加セグメント情報列１０５の「セグメントＮｏ.」１０３ａの要素の最大値であるか否かを判断する（ステップＳ１１６）。ここで、変数ｉが「セグメントＮｏ.」１０３ａの要素の最大値でなかった場合、制御部１８０は、一時メモリ１９０の変数ｉに１を加算した値を新たな変数ｉの値とし、これを一時メモリ１９０に格納し（ステップＳ１１７）、処理をステップＳ１１２に戻す。一方、変数ｉが「セグメントＮｏ.」１０３ａの要素の最大値であった場合、制御部１８０は変換処理部１６０に指示を与え、変換処理部１６０は、メモリ１１０の単語情報列記憶部１１２から読み変換が行なわれた単語情報列１０２（変換後単語情報列１０８）を読み込み、これを出力する（ステップＳ１１８）。

以上の処理により、単語「はい」は次のように読み替えられる（図２５の例外読み辞書５１１を用いた場合）。まず、分類結果情報が「長音追加」である場合には、ステップＳ１１５により、その読みが「ハーイ」と読み替えられる。一方、分類結果情報が「促音追加」である場合には、ステップＳ１３５により、その読みが「ハイッ」と読み替えられる。

〔変形例等〕
なお、本発明は上述の実施の形態に限定されるものではない。
例えば、第１の実施の形態では、セグメント情報生成部１４０が、単語情報列１０２の「読み」１０２ｃｂの各要素から末尾−１番目のモーラの読みと、末尾モーラの読みとを抽出し、それらの読みが「長音」であるか、「その他」の読みであるか、或いは読み「なし」であるかを判断し、それらの判断結果をセグメント情報列１０３の「末尾−１モーラの読み」１０３ｄｄ及び「末尾モーラの読み」１０３ｄｅの各要素とすることとした。しかし、これ以外のモーラの読みを用いて単語情報列１０２を構成してもよく、また、その要素も「長音」「その他」「なし」に限定されず、例えば、「長音」「促音」「その他」「なし」等としてもよい。

また、上記の各実施の形態では、分類結果情報をセグメント情報列に対応付けた分類結果付加セグメント情報列を生成することとしたが、分類結果情報とセグメント情報列との対応関係を別の方法により把握できるのであれば、分類結果付加セグメント情報列を生成する必要はない。
また、上述の各実施の形態では、変換された「読み」によって単語情報列１０２の「読み」フィールドを更新することとしたが、変換された「読み」を格納する別フィールドを単語情報列１０２に設ける構成としてもよい。

また、上述の各実施の形態では、セグメントを単語単位にする例と、モーラ単位にする例について説明したが、単語情報列を細分化或いは結合した他の単位をセグメントとしてもよい。
また、上述の第１の実施の形態の処理等においてセグメント中のモーラを探索する場合、その順序は上述したものに限定されない。
また、第３の実施の形態では、セグメントをモーラ単位とし、読みに長音を追加する処理について説明したが、それ以外の読み変換内容（例えば、促音追加、削除、置換）に応用してもよい。この場合、例えば、分類結果情報が「促音追加」である場合には、変換するモーラの読みの末尾に促音を追加することになり、「削除」の場合には、変換するモーラの読みを削除することになる。

また、第７の実施の形態では、読み変換の例外がおこる単語を例外読み辞書５１１に登録することとしたが、これらの情報を形態素解析で用いる単語辞書に組み込んでもよい（例えば、例外読みというフィールドを単語辞書に設ける等）。
さらに、上述の各実施の形態を適宜結合して実施してもよく、また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力或いは必要に応じて並列的に或いは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

本発明の産業上の利用分野としては、例えば、文字入力されたテキストから合成音声を生成して出力するためのソフトウェアの分野等を例示できる。

図１は、第１の実施の形態における読み付与装置のハードウェア構成を例示したブロック図である。図２は、読み付与装置の機能構成を例示したブロック図である。図３は、第１の実施の形態の読み付与方法を説明するためのフローチャートである。図４は、図３のステップＳ４の詳細を説明するためのフローチャートである。図５は、図３のステップＳ５の詳細を説明するためのフローチャートである。図６（ａ）は、ＸＭＬ（Extensible Markup Language）で記述したテキスト情報の例である。図６（ｂ）は、形態素解析部が生成した単語情報列を例示した図である。図７は、第１の実施の形態のセグメント情報列を例示した図である。図８は、分類結果付加セグメント情報列の構成を例示した図である。図９は、図６の単語情報列及び図８の分類結果付加セグメント情報列を用い、図５の処理を実行した場合に得られる変換後単語情報列を示した図である。図１０は、第２の実施の形態におけるステップＳ５の処理の詳細を説明するためのフローチャートである。図１１は、第３の実施の形態におけるステップＳ５の具体的な処理を説明するためのフローチャートである。図１２は、第３の実施の形態のセグメント情報列の構成を例示した図である。図１３は、第３の実施の形態の分類結果付加セグメント情報列の例示である。図１４は、第４の実施の形態のステップＳ５の具体例を説明するためのフローチャートである。図１５は、第４の実施の形態のステップＳ５の具体例を説明するためのフローチャートである。図１６は、第５の実施の形態の読み付与装置の機能構成を例示したブロック図である。図１７は、第５の実施の形態におけるステップＳ５の具体的な処理を説明するためのフローチャートである。図１８は、第５の実施の形態における削除・置換辞書の例示である。図１９は、第６実施の形態における読み付与装置の機能構成を例示したブロック図である。図２０は、第６の実施の形態の読み付与方法を説明するためのフローチャートである。図２１（ａ）は、ＸＭＬで記述した第６の実施の形態におけるテキスト情報の例である。図２２は、第６の実施の形態におけるセグメント情報列を例示した図である。図２３は、第６の実施の形態における分類結果付加セグメント情報列を例示した図である。図２４は、第７の実施の形態における読み付与装置の機能構成を例示したブロック図である。図２５は、第７の実施の形態における例外読み辞書の構成を例示した図である。図２６は、第７の実施の形態におけるステップＳ５の具体例を説明するためのフローチャートである。図２７は、第７の実施の形態におけるステップＳ５の具体例を説明するためのフローチャートである。図２８は、第７の実施の形態におけるステップＳ５の具体例を説明するためのフローチャートである。

符号の説明

１００，３００，５００読み付与装置

Claims

テキストに読みを付与する読み付与装置であって、
上記テキストを格納するテキスト記憶部と、
上記テキストに対する形態素解析処理を行い、当該テキストを構成する各単語と、それらの属性値とを対応付けた単語情報列を生成し、当該単語情報列を出力する形態素解析部と、
上記単語情報列の上記単語又はそれを細分化した単位であるセグメントと、当該単語に対応付けられた上記属性値から抽出した特徴値とを、それぞれ対応付けたセグメント情報列を生成し、当該セグメント情報列を出力するセグメント情報生成部と、
特徴値を用いて上記セグメントを読み替え処理内容毎に分類する、特徴値を変数とした識別関数を格納する分類規則記憶部と、
上記セグメント情報列の上記特徴値を上記識別関数に代入し、その演算結果によって各セグメントの読み替え処理内容を決定し、当該読み替え処理内容を示す分類結果情報を出力する分類処理部と、
セグメント内の読み替え位置を特定するための変換規則情報を格納する変換規則記憶部と、
上記変換規則情報によって特定される読み替え位置の例外となる単語を特定するための情報と、当該単語の読み替え処理内容毎の読み替え位置を示す読み替え位置情報とを対応付けたテーブルである例外読み辞書を格納する例外読み辞書記憶部と、
処理対象のセグメントが上記例外読み辞書の単語と一致し、なおかつ、一致した当該例外読み辞書の単語に対応付けられた上記読み替え位置情報が、当該処理対象のセグメントの上記分類結果情報が示す当該セグメントの読み替え処理内容に対応するものであるか否かを判断し、その判断結果を出力する検索部と、
処理対象のセグメントが上記例外読み辞書の単語と一致し、なおかつ、一致した当該例外読み辞書の単語に対応付けられた上記読み替え位置情報が、当該処理対象のセグメントの上記分類結果情報が示す当該セグメントの読み替え処理内容に対応すると判断された場合、これらの条件を満たす読み替え位置情報を用い、当該セグメントの読み替え処理を行い、それ以外の場合には、上記分類結果情報と上記変換規則情報とを用い、当該セグメントの読み替え処理を行う変換処理部と、
を有する読み付与装置。
請求項１に記載の読み付与装置であって、
上記セグメント情報生成部が上記セグメント情報列を生成する際に上記属性値から抽出する特徴値は、当該セグメントの末尾モーラの読みが長音であるか否かを示す特徴値を含む、
ことを特徴とする読み付与装置。
請求項１に記載の読み付与装置であって、
上記変換規則情報は、
上記分類結果情報が示す読み替え処理内容がセグメント中に長音を追加する処理であった場合に、セグメント中のモーラを所定の順序で検索し、長音又は促音以外であると判断されたモーラの直後に長音を追加する処理を特定するための情報を含み、
上記変換処理部は、
上記分類処理部から出力された上記分類結果情報が示す読み替え処理内容がセグメント中に長音を追加する処理であるか否かを判断し、上記変換規則情報が特定する処理を実行する、
ことを特徴とする読み付与装置。
請求項１または３に記載の読み付与装置であって、
上記変換規則情報は、
分類結果情報が示す読み替え処理内容がセグメント中に促音を追加する処理であった場合に、セグメント中のモーラを所定の順序で検索し、促音以外であると判断されたモーラの直後に促音を追加する処理を特定するための情報を含み、
上記変換処理部は、
上記分類処理部から出力された上記分類結果情報が示す読み替え処理内容がセグメント中に促音を追加する処理であるか否かを判断し、上記変換規則情報が特定する処理を実行する、
ことを特徴とする読み付与装置。
請求項３或いは４に記載の読み付与装置であって、
上記変換規則情報に示された、セグメント中のモーラを検索する所定の順序は、セグメントの末尾モーラから先頭モーラに向かう順序である、
ことを特徴とする読み付与装置。
テキストに読みを付与する読み付与方法であって、
形態素解析部が、入力された上記テキストに対する形態素解析処理を行い、当該テキストを構成する各単語と、それらの属性値とを対応付けた単語情報列を生成し、当該単語情報列を出力する形態素解析ステップと、
セグメント情報生成部が、入力された上記単語情報列の上記単語又はそれを細分化した単位であるセグメントと、当該単語に対応付けられた上記属性値から抽出した特徴値とを、それぞれ対応付けたセグメント情報列を生成し、当該セグメント情報列を出力するセグメント情報生成ステップと、
分類処理部が、入力された上記セグメント情報列の上記特徴値を、特徴値を用いて上記セグメントを読み替え処理内容毎に分類する、特徴値を変数とした識別関数に代入し、その演算結果によって各セグメントの読み替え処理内容を決定し、当該読み替え処理内容を示す分類結果情報を出力する分類処理ステップと、
検索部が、セグメント内の読み替え位置を特定するための変換規則情報によって特定される読み替え位置の例外となる単語を特定するための情報と当該単語の読み替え処理内容毎の読み替え位置を示す読み替え位置情報とを対応付けたテーブルである例外読み辞書を用い、処理対象のセグメントが上記例外読み辞書の単語と一致し、なおかつ、一致した当該例外読み辞書の単語に対応付けられた上記読み替え位置情報が、当該処理対象のセグメントの上記分類結果情報が示す当該セグメントの読み替え処理内容に対応するものであるか否かを判断し、その判断結果を出力する検索ステップと、
変換処理部が、処理対象のセグメントが上記例外読み辞書の単語と一致し、なおかつ、一致した当該例外読み辞書の単語に対応付けられた上記読み替え位置情報が、当該処理対象のセグメントの上記分類結果情報が示す当該セグメントの読み替え処理内容に対応すると判断された場合、これらの条件を満たす読み替え位置情報を用い、当該セグメントの読み替え処理を行い、それ以外の場合には、入力された上記分類結果情報と上記変換規則情報とを用い、当該セグメントの読み替え処理を行う変換処理ステップと、
を有することを特徴とする読み付与方法。
請求項６に記載の読み付与方法であって、
上記セグメント情報生成ステップで上記セグメント情報列を生成する際に上記属性値から抽出される特徴値は、当該セグメントの末尾モーラの読みが長音であるか否かを示す特徴値を含む、
ことを特徴とする読み付与方法。
請求項６に記載の読み付与方法であって、
上記変換規則情報は、
上記分類結果情報が示す読み替え処理内容がセグメント中に長音を追加する処理であった場合に、セグメント中のモーラを所定の順序で検索し、長音又は促音以外であると判断されたモーラの直後に長音を追加する処理を特定するための情報を含み、
上記変換処理ステップは、
上記分類処理ステップで出力された上記分類結果情報が示す読み替え処理内容がセグメント中に長音を追加する処理であるか否かを判断し、上記変換規則情報が特定する処理を実行する、
ことを特徴とする読み付与方法。
請求項８に記載の読み付与方法であって、
上記変換規則情報は、
分類結果情報が示す読み替え処理内容がセグメント中に促音を追加する処理であった場合に、セグメント中のモーラを所定の順序で検索し、促音以外であると判断されたモーラの直後に促音を追加する処理を特定するための情報を含み、
上記変換処理ステップは、
上記分類処理ステップで出力された上記分類結果情報が示す読み替え処理内容がセグメント中に促音を追加する処理であるか否かを判断し、上記変換規則情報が特定する処理を実行する、
ことを特徴とする読み付与方法。
請求項８或いは９に記載の読み付与方法であって、
上記変換規則情報に示された、セグメント中のモーラを検索する所定の順序は、セグメントの末尾モーラから先頭モーラに向かう順序である、
ことを特徴とする読み付与方法。
請求項１から５の何れかに記載の読み付与装置としてコンピュータを機能させるためのプログラム。