JP4773813B2 - 読み付与装置、読み付与方法及びプログラム - Google Patents
読み付与装置、読み付与方法及びプログラム Download PDFInfo
- Publication number
- JP4773813B2 JP4773813B2 JP2005353991A JP2005353991A JP4773813B2 JP 4773813 B2 JP4773813 B2 JP 4773813B2 JP 2005353991 A JP2005353991 A JP 2005353991A JP 2005353991 A JP2005353991 A JP 2005353991A JP 4773813 B2 JP4773813 B2 JP 4773813B2
- Authority
- JP
- Japan
- Prior art keywords
- segment
- information
- reading
- word
- mora
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Description
浅野久子他、「多段解析法による形態素解析を用いた音声合成用読み韻律設定方法とその単語辞書構成」、自然言語処理、Vol.6, No.2, 1999
すなわち、例えば対話調の発声などでは、自然に、ある読みに対して長音を追加したり(例:「それで」→「それでー」)、促音を追加したり(例:「すごく」→「すっごく」)、削除したり(例:「言っている」→「いって_る」)、置換したり(例:「いいかも」→「いっかも」、「いちにち」→「いちんち」)することがある。非特許文献1のような従来方法によってこのような対話調の読みを付与する場合、このような対話調のテキストを入力テキストとして用意しなければならない。しかし、このような対話調の発話は、通常、意図的に行われているものではない。そのため、このような対話調のテキストを入力として期待するのは難しい。
さらに、対話調の読みは多様であるため、対話調の読みの全てを単語辞書に登録することは現実的ではない。また、たとえ対話調の読みの全てを単語辞書に登録することができたとしても、その単語辞書のデータ量は膨大となり、単語辞書の検索処理が増大することになる。
本発明は、このような点に鑑みてなされたものであり、正規の日本語の文法からかけ離れた読みを容易に付与することが可能な技術を提供することを目的とする。
ここで、テキストの内容種別を示す付加情報をも特徴値とすることにより、分類処理部が行う分類処理の精度が向上する。
また、本発明において好ましくは、変換規則情報によって特定される読み替え位置の例外となる単語を特定するための情報と、当該単語の読み替え処理内容毎の読み替え位置を示す読み替え位置情報とを対応付けたテーブルである例外読み辞書を格納する例外読み辞書記憶部を有する。そして、検索部が、処理対象のセグメントが例外読み辞書の単語と一致する単語を有し、なおかつ、一致した当該例外読み辞書の単語に対応付けられた読み替え位置情報が、当該処理対象のセグメントの分類結果情報が示す当該セグメントの読み替え処理内容に対応するものであるか否かを判断し、その判断結果を出力する。さらに、変換処理部は、処理対象のセグメントが例外読み辞書の単語と一致する単語を有し、なおかつ、一致した当該例外読み辞書の単語に対応付けられた読み替え位置情報が、当該処理対象のセグメントの分類結果情報が示す当該セグメントの読み替え処理内容に対応すると判断された場合、これらの条件を満たす読み替え位置情報を用い、当該セグメントの読み替え処理を行う。これにより、規則的な手法の原則から外れる例外的な読みにも対応することができる。
ここで、長音を有する単語の多くが末尾モーラに長音を有する。すなわち、末尾モーラに長音を有する単語の特徴が表れている可能性が高い。よって、セグメントの末尾モーラの読みが長音であるか否かを特徴値にすることによって少ない情報量でセグメントの特徴を捉えることができる。これにより、演算処理を効率化できる。
このように分類モデル式を用いた統計的な手法を用いることにより、少ない演算量で読み付与を行うことができる。
また、本発明において好ましくは、変換規則情報は、分類結果情報が示す読み替え処理内容がセグメント中に長音を追加する処理であった場合に、セグメント中のモーラを所定の順序で検索し、長音又は促音以外であると判断されたモーラの直後に長音を追加する処理を特定するための情報を含み、変換処理部は、分類処理部から出力された分類結果情報が示す読み替え処理内容がセグメント中に長音を追加する処理であるか否かを判断し、変換規則情報が特定する処理を実行する。
また、本発明において好ましくは、変換規則情報は、分類結果情報が示す読み替え処理内容がセグメント中に促音を追加する処理であった場合に、セグメント中のモーラを所定の順序で検索し、促音以外であると判断されたモーラの直後に促音を追加する処理を特定するための情報を含み、変換処理部は、分類処理部から出力された分類結果情報が示す読み替え処理内容がセグメント中に促音を追加する処理であるか否かを判断し、変換規則情報が特定する処理を実行する。
また、本発明において好ましくは、変換規則情報に示された、セグメント中のモーラを検索する所定の順序は、セグメントの末尾モーラから先頭モーラに向かう順序である。単語中において促音等が追加される可能性が高いのは末尾モーラ或いは末尾に近いモーラである。このようにセグメントの末尾モーラから先頭モーラに向かう順序で検索することによって効率的な処理が可能となる。
〔第1の実施の形態〕
まず、本発明の第1の実施の形態について説明する。
本形態では、まず、読みを付与するテキストの形態素解析処理を行い、その解析結果から分類規則に従った分類処理に適したセグメント情報列を生成する。次に、このセグメント情報列と分類規則情報とを用い、各セグメントの読み替え処理内容を決定し、さらに分類結果情報と変換規則情報とを用い、各セグメントの読み替え処理を行う。本形態では、読み替え処理として長音を追加する場合を例にとって説明する。
図1は、本形態における読み付与装置100のハードウェア構成を例示したブロック図である。
図1に例示するように、この例の読み付与装置100は、CPU(Central Processing Unit)11、入力部12、出力部13、補助記憶装置14、ROM(Read Only Memory)15、RAM(Random Access Memory)16及びバス17を有している。
この例のCPU11は、制御部11a、演算部11b及びレジスタ11cを有し、レジスタ11cに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、この例の入力部12は、データが入力される入力ポート、キーボード、マウス等であり、出力部13は、データを出力する出力ポート、ディスプレイ等である。補助記憶装置14は、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、本形態の処理を実行するためのプログラムを格納したプログラム領域14a及びタグ出力情報等の各種データが格納されるデータ領域14bを有している。また、RAM16は、例えば、SRAM (Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等であり、上記のプログラムが書き込まれるプログラム領域16a及び各種データが書き込まれるデータ領域16bを有している。また、この例のバス17は、CPU11、入力部12、出力部13、補助記憶装置14、ROM15及びRAM16を、データのやり取りが可能なように接続する。
補助記憶装置14のプログラム領域14aには、読み付与装置100としてコンピュータを機能させるための読み付与プログラムが格納される。なお、本形態の読み付与プログラムは、各機能を実現するための複数のプログラムによって構成されるが、これらのプログラムは、単一のプログラム列として記載されていてもよく、また、少なくとも一部のプログラムが別個のモジュールとしてライブラリに格納されていてもよい。また、上記のプログラム単体でその機能を実現できるものでもよいし、上記のプログラムがさらに他のライブラリ(記載していない)を読み出して各機能を実現するものでもよい。
この例のCPU11は、読み込まれたOS(Operating System)プログラムに従い、補助記憶装置14のプログラム領域14aに格納されている上述の読み付与プログラムを、RAM16のプログラム領域16aに書き込む。同様にCPU11は、補助記憶装置14のデータ領域14bに格納されている各種データをRAM16のデータ領域16bに書き込む。さらに、CPU11は、当該読み付与プログラムや各種データが書き込まれたRAM16上のアドレスをレジスタ11cに格納する。そして、CPU11の制御部11aは、レジスタ11cに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM16上の領域から読み付与プログラムやデータを読み出し、読み付与プログラムが示す演算を演算部11bに順次実行させ、その演算結果をレジスタ11cに格納していく。
図2に例示するように、本形態の読み付与装置100は、メモリ110、入力部120、形態素解析部130、セグメント情報生成部140、分類処理部150、変換処理部160、制御部180及び一時メモリ190を有し、入力されたテキスト情報(テキスト含む)に対し、変換後単語情報列108を出力する。また、メモリ110は、テキスト記憶部111、単語情報列記憶部112、セグメント情報列記憶部113、分類規則記憶部114、分類結果記憶部115及び変換規則記憶部116を有している。ここで、テキスト記憶部111には、テキスト情報(テキスト含む)101が格納され、単語情報列記憶部112には、単語情報列102が格納され、セグメント情報列記憶部113には、セグメント情報列103が格納される。また、分類規則記憶部114には、分類規則情報104が格納され、分類結果記憶部115には、分類結果付加セグメント情報列105が格納され、変換規則記憶部116には、変換規則情報106が格納される。なお、各情報の詳細については後述する。
次に、第1の実施の形態の読み付与方法について説明する。
図3は、第1の実施の形態の読み付与方法を説明するためのフローチャートである。また、図4は、図3のステップS4の詳細を説明するためのフローチャートであり、図5は、図3のステップS5の詳細を説明するためのフローチャートである。以下、図2〜図5を用い、本形態の読み付与方法を説明する。なお、以下では、テキストが1文である場合を例にとって説明するが、テキストが複数の文から構成される場合には、同様な処理を文の数だけ繰り返せばよい。
本形態の読み付与装置100は、制御部180の制御のもと各処理を実行する。また、明示しない限り、各演算過程で算出されたデータは逐一一時メモリ190に格納され、その後の演算処理に利用される。
前処理として、メモリ110の分類規則記憶部114に分類規則情報104を格納し、変換規則記憶部116に変換規則情報106を格納しておく。
分類規則情報104は、例えば、SVM(サポートベクターマシーン)や最大エントロピー法等の公知の統計的な分類手法に用いられる分類モデル式であり、所定の特徴値を変数として持つ識別関数である。この分類モデル式は、学習データを用いた学習によって各パラメータが決定された式である。この具体例については後述する。また、変換規則情報106は、例えば、読み替えのための変換規則を記述した情報である。この具体例についても後述する。
以上のような前処理を前提とし、以下の各処理が実行される。
まず、入力部120から入力されたテキスト情報(テキストを含む)101がメモリ110のテキスト記憶部111に格納される(ステップS1)。具体的には、例えば、キーボード等(「入力部120」に相当)からテキストがキー入力され、これらが所定のテキスト情報に変換されてメモリ110のテキスト記憶部111に格納される。或いは、例えば、外部のハードディスクやメモリ等に格納されていたテキスト情報101がUSB(Universal Serial Bus)端子等(「入力部120」に相当)から入力され、メモリ110のテキスト記憶部111に格納される。なお、テキスト情報101のフォーマットは予め定めておくものとする。図6(a)は、XML(Extensible Markup Language)で記述したテキスト情報101の例である。図6(a)の例では、「東京ですね?」というテキスト101aがXMLによって記述されている。
なお、形態素解析部130が行う形態素解析の方法には特に制限はなく、例えば、前述の非特許文献1記載の方法等を用いることができる。また、α-Tagger(登録商標)や、Rosette形態素解析システムやC、onceptBase/ConceptBase(登録商標)Search等の公知のソフトウェアを用いてもよい。また、本形態の形態素解析部130が生成する形態素解析部130は、形態素解析のNベスト解(NはN≧1の任意の数字)であり、各単語に対して、表記、品詞、読みなどの情報をもつ。
次に、セグメント情報生成部140が、メモリ110の単語情報列記憶部112から単語情報列102を読み込み、セグメントと、単語に対応付けられた属性値から抽出した特徴値とを、それぞれ対応付けたセグメント情報列103を生成し、当該セグメント情報列を出力する(ステップS3)。そして、セグメント情報生成部140から出力されたセグメント情報列103は、メモリ110のセグメント情報列記憶部113に格納される。ここで、セグメントとは、後述する分類処理部150による処理単位となる語であり、単語、又はそれを細分化した単位(単語、モーラ等)を例示できるが、本形態では、各単語の単位をセグメントとする。
図7の例のセグメント情報列103は、各セグメントに対応する「セグメントNo.」103a、「セグメント」103b、「主品詞」103da、「活用形」103db、「体言・記号細分類」103dc、末尾−1番目のモーラの読みが長音であるか否か(「長音」であるか、「その他」の読み又は読み「なし」であるか)を示す「末尾−1モーラの読み」103dd及び末尾のモーラの読みが長音であるか否か(「長音」であるか、「その他」の読み又は読み「なし」であるか)を示す「末尾モーラの読み」103deが対応付けられたデータ列である。なお、「主品詞」103da、「活用形」103db、「体言・記号細分類」103dc、「末尾−1モーラの読み」103dd及び「末尾モーラの読み」103deは、「特徴値」103dを構成する。また、「*」は、対応する情報が存在しないことを示すデータを示している。
また、セグメント情報生成部140は、単語情報列102の「単語No.」102aの各要素に対応付けられた「品詞」102caの各要素から、主品詞、活用形及び体言・記号細分類を抽出し、これらをセグメント情報列103の「主品詞」103da、「活用形」103db及び「体言・記号細分類」103dcの各要素とする。例えば、図6(b)に例示した単語情報列102の単語No.1の「東京」という単語の品詞は「名詞:固有:地」であり、主品詞は「名詞」、活用形に相当する副品詞は存在せず、体言・記号細分類に該当する副品詞は「固有:地」である。そのため、図7に例示したセグメント情報列103のセグメントNo.1の「主品詞」103daの要素は「名詞」、「活用形」103dbの要素は「*」、「体言・記号細分類」103dcの要素は「固有:地」となる。
ここで、分類規則情報104及びステップS4の具体例について説明する。
分類規則情報104は、特徴値を用い、セグメントを読み替え処理内容毎に分類するための情報であり、例えば、SVMや最大エントロピー法等の公知の統計的な分類手法に用いられる分類モデル式である。そして、ステップS4では、分類処理部150が、セグメント情報列103の特徴値103dを、分類モデル式である分類規則情報104に代入し、その演算結果によって各セグメントの読み替え処理内容を決定する。なお、特徴値103dを分類モデル式に代入する際、特徴値103dは、一定の規則に基づいて数値に変換されていなければならない。
この場合、分類規則情報104には、例えば、以下の式(1)や(2)に示す分類モデル式を用い、SVMの文脈として、分類対象となるセグメント及びその前後2セグメントの特徴値103dと、前2セグメントの読み分類結果を用いるものとする。
また、xjは、学習データにおけるj(j=1,...,n)番目のセグメント及びその前後2セグメントの特徴値の各要素と、前2セグメントの読み分類正解値とをそれぞれ数値化し、それらを要素としたベクトルである。なお、本形態の例の学習データは、セグメント情報列103と同じ要素の組と、その組に対応する読み替え処理内容の正解値(「長音追加」又は「変化なし」)とを対応付けたデータ列である。また、要素の数値化方法及びベクトルを構成する要素の順序は、セグメント情報列103からベクトルxを生成する際のものと同じである。
また、K(α,β)は、カーネル関数である。すなわち、K(α,β)は、2つのベクトルα,βに対し、以下のように表される関数である。ただし、φ(α)は、スカラー値を出力する任意のd個の非線形関数φp(α)〔p=(1,...,d)〕に対するφ(α)=(φ1(α),φ2(α),...,φd(α))tである。
図4は、図3に示したステップS4の処理の例を説明するためのフローチャートである。以下、この図に従ってステップS4の処理の具体例を説明する。
に対応する分類結果情報をセグメントNo.がiであるセグメント情報列103に追加する(ステップS13)。具体的には、例えば、演算結果が1であった場合には「長音追加」を示す分類結果情報をセグメントNo.がiであるセグメント情報列103に追加し、演算結果が−1であった場合には「変化なし」を示す分類結果情報をセグメントNo.がiであるセグメント情報列103に追加する。なお、このように分類結果情報が追加されたセグメント情報列103を分類結果付加セグメント情報列105と呼ぶことにする。図8は、このように分類結果情報105aが追加されたセグメント情報列103からなる分類結果付加セグメント情報列105の構成を例示した図である。この分類結果付加セグメント情報列105は、一時メモリ190に格納される。
([分類規則情報104及びステップS4の具体例]の説明終わり)。
ここで、ステップS5の具体例を説明する。この具体例の変換規則情報106は、分類結果情報105aが示す読み替え処理内容がセグメント中に長音を追加する処理であった場合に、セグメント中のモーラを所定の順序で検索し、長音又は促音以外であると判断されたモーラの直後に長音を追加する処理を特定するための情報(プログラムや、処理を特定するためのパラメータ・数式等)を含む。そして、変換処理部160は、分類処理部150から出力された(分類結果付加セグメント情報列105が具備する)分類結果情報105aが示す読み替え処理内容がセグメント中に長音を追加する処理であるか否かを判断し、変換規則情報106によって特定される処理を実行する。なお、以下では、変換処理部160が、セグメント中のモーラを末尾モーラから先頭モーラに向かう順序で検索する方法を例示するが、本発明はこれに限定されるものではない。
まず、制御部180が、変数iに1を代入し、この変数iを一時メモリ190に格納する(ステップS21)。次に、変換処理部160が、メモリ110の変換規則記憶部116から変換規則情報106を読み込み、変換規則情報106の記述に従った処理を実行する。まず、変換処理部160は、一時メモリ190から変数iを読み込み、メモリ110の分類結果記憶部115に格納された分類結果付加セグメント情報列105を参照し、セグメントNo.iに対応する分類結果情報105aが「長音追加」を示すか「変化なし」を示すかを判断する(ステップS22)。
一方、セグメントNo.iに対応する分類結果情報105aが「長音追加」であった場合、制御部180は、変数mに0を代入し、これを一時メモリ190に格納する(ステップS23)。そして、変換処理部160は、メモリ110の単語情報列記憶部112に格納された単語情報列102を参照し、単語No.iに対応する「読み」102cbの要素(例えば、図6の例でi=1の場合は「トーキョー」)を抽出する。なお、この「読み」は、セグメントNo.iの「セグメント」103bに対応する。本形態の場合、単語情報列102の「単語No.」102aを、そのまま「セグメントNo.」103aとしているからである。変換処理部160は、抽出した単語No.iに対応する「読み」102cbの要素の末尾−m番目のモーラが長音追加可能であるか否かを検証する(ステップS24)。具体的には、変換処理部160は、末尾−m番目のモーラが「長音」或いは「促音」である(長音追加不可)か、そのいずれでもない(長音追加可能)かを検証する。
一方、ステップS24の検証において、末尾−m番目のモーラが長音追加可能であった場合、変換処理部160は、メモリ110の単語情報列記憶部112に格納された単語情報列102の単語No.iに対応する「読み」102cbの末尾−m番目のモーラの直後に長音を追加する(ステップS27)。
図8の分類結果付加セグメント情報列105は、セグメントNo.3に対応する分類結果情報105aのみが「長音追加」を示すものとなっており、セグメントNo.1,4,5に対応する分類結果情報105aは「変化なし」である(ステップS22)。そして、セグメントNo.3に対応する図6の単語情報列102の単語No.3の「読み」102cbの末尾モーラは「ネ」であり、長音・促音以外である(ステップS24)。よって、単語No.3の「読み」102cbの末尾モーラは「ネ」の直後のみに長音「ー」が追加され、単語No.3の「読み」102cbが「ネー」と変換される。その結果、最終的に、図9に示すような「単語No.」108a、「単語」108b、「品詞」108ca及び「読み」108cbからなる変換後単語情報列108が、変換処理部160から出力される(ステップS30/[ステップS5の具体例]の説明終わり)。
次に、本発明の第2の実施の形態について説明する。
本形態は、第1の実施の形態の変形例であり、読み替え処理として促音追加を行う構成を採る。以下では、第1の実施の形態との相違点を中心に説明し、第1の実施の形態と共通する部分については説明を省略する。
<構成>
構成は第1の実施の形態と同様となるため説明を省略する。以下では、図2の機能ブロック図を引用しつつ説明を行う。
<処理>
第2の実施の形態の前処理は第1の実施の形態と同様である。ただし、本形態の変換規則情報106は、分類結果情報105aが示す読み替え処理内容がセグメント中に促音を追加する処理であった場合に、セグメント中のモーラを所定の順序で検索し、促音以外であると判断されたモーラの直後に促音を追加する処理を特定するための情報(プログラムや、処理を特定するためのパラメータ・数式等)を含む。
また、第2の実施の形態における処理全体の流れは第1の実施の形態と同様である(図3)。本形態と第1の実施の形態との相違点は、ステップS4,5の処理の詳細である。以下、本形態におけるステップS4,5の処理の相違点を中心に説明する。
第1の実施の形態で述べたように、分類処理部150は、セグメント情報列の特徴値と分類規則情報104とを用い、各セグメントの読み替え処理内容を決定し、当該読み替え処理内容を示す分類結果情報をセグメント情報列に付加した分類結果付加セグメント情報列を出力する。本形態のステップS4の処理では、「促音追加」或いは「変化なし」を示す分類結果情報を生成する。その具体的な処理内容は、「長音追加」を「促音追加」と置き換える以外は、第1の実施の形態と同様である。
第1の実施の形態で述べたように、変換処理部160は、メモリ110の分類結果記憶部115から分類結果付加セグメント情報列を読み出し、変換規則記憶部116から変換規則情報106を読み出し、分類結果付加セグメント情報列の分類結果情報と変換規則情報106とを用い、各セグメントに対応する単語の読み替え処理を行って変換後単語情報列108を生成し、当該変換後単語情報列108を出力する。なお、第2の実施の形態では、読み替え処理として、促音追加を行なう。
まず、制御部180が、変数iに1を代入し、この変数iを一時メモリ190に格納する(ステップS41)。次に、変換処理部160は、メモリ110の変換規則記憶部116から変換規則情報106を読み込み、変換規則情報106の記述に従った処理を実行する。まず、変換処理部160は、一時メモリ190から変数iを読み込み、メモリ110の分類結果記憶部115に格納された分類結果付加セグメント情報列105を参照し、セグメントNo.iに対応する分類結果情報105aが「促音追加」を示すか「変化なし」を示すかを判断する(ステップS42)。
一方、セグメントNo.iに対応する分類結果情報105aが「促音追加」であった場合、制御部180は、変数mに0を代入し、これを一時メモリ190に格納する(ステップS43)。そして、変換処理部160は、メモリ110の単語情報列記憶部112に格納された単語情報列102を参照し、単語No.iに対応する「読み」102cbの要素を抽出する。変換処理部160は、抽出した単語No.iに対応する「読み」102cbの要素の末尾−m番目のモーラが促音追加可能であるか否かを検証する(ステップS44)。具体的には、変換処理部160は、末尾−m番目のモーラが「促音」である(促音追加不可)か、「促音」でない(促音追加可能)かを検証する。
一方、ステップS44の検証において、末尾−m番目のモーラが促音追加可能であった場合、変換処理部160は、メモリ110の単語情報列記憶部112に格納された単語情報列102の単語No.iに対応する「読み」102cbの末尾−m番目のモーラの直後に促音を追加する(ステップS47)。
本形態は、第1の実施の形態の変形例であり、単語情報列の単語を細分化したモーラをセグメントとする形態である。以下では、第1の実施の形態との相違点を中心に説明し、第1の実施の形態と共通する部分については説明を省略する。
<構成>
構成は第1の実施の形態と同様となるため説明を省略する。以下では、図2の機能ブロック図を引用しつつ説明を行う。
<処理>
第3の実施の形態の前処理は第1の実施の形態と同様である。ただし、本形態の変換規則情報106は、分類結果情報105aが示す読み替え処理内容がセグメントに長音を追加する処理であった場合に、当該セグメント(モーラ)の直後に促音を追加する処理を特定するための情報(プログラムや、処理を特定するためのパラメータ・数式等)を含む。
また、第3の実施の形態もおける処理全体の流れは第1の実施の形態と同様である(図3)。本形態と第1の実施の形態との相違点は、ステップS3からS5の処理の詳細である。以下では、これらの相違点のみを説明する。
第1の実施の形態で述べたように、ステップS3では、セグメント情報生成部140が、メモリ110の単語情報列記憶部112から単語情報列102を読み込み、セグメントと、単語に対応付けられた属性値から抽出した特徴値とを、それぞれ対応付けたセグメント情報列103を生成し、当該セグメント情報列を出力する。ここで、第1の実施の形態では単語をセグメントの単位としたが、第3の実施の形態では、モーラをセグメントとする。この点が第1の実施の形態と第3の実施の形態との相違点である。
図12に例示するように、本形態のセグメント情報列203は、各セグメントに対応する「セグメントNo.」203a、各セグメントに対応する「単語No.」203b、「セグメント」203c、「読み」203da、「主品詞」203db、「活用形」203dc及び「体言・記号細分類」203ddが対応付けられたデータ列である。なお、「読み」203da、「主品詞」203db、「活用形」203dc及び「体言・記号細分類」203ddは、「特徴値」203dを構成する。
以上のように生成されたセグメント情報列203は、セグメント情報生成部140から出力され、メモリ110のセグメント情報列記憶部113に格納される。
第1の実施の形態で述べたように、分類処理部150は、セグメント情報列の特徴値と分類規則情報104とを用い、各セグメントの読み替え処理内容を決定し、当該読み替え処理内容を示す分類結果情報をセグメント情報列に付加した分類結果付加セグメント情報列を出力する。第3の実施の形態では、この処理を図12で例示したモーラ単位のセグメント情報列203を用いて実行する。その処理手順自体は第1の実施の形態と同様である。
図13は、セグメント情報列203を用いた本形態のステップS4の処理によって生成された分類結果付加セグメント情報列205の例示である。このように、本形態の分類結果付加セグメント情報列205は、セグメント情報列203の各列に対応する分類結果情報205aが対応付けられた構成となる。そして、このように出力された分類結果付加セグメント情報列205は、メモリ110の分類結果記憶部115に格納される。
変換処理部160は、メモリ110の分類結果記憶部115から分類結果付加セグメント情報列を読み出し、変換規則記憶部116から変換規則情報106を読み出し、分類結果付加セグメント情報列の分類結果情報と変換規則情報106とを用い、各セグメントに対応するモーラの読み替え処理を行って変換後単語情報列108を生成し、当該変換後単語情報列108を出力する。第3の実施の形態では、この処理を、セグメントがモーラ単位で構成された分類結果付加セグメント情報列205を用いて実行する。
まず、制御部180が、変数iに1を代入し、この変数iを一時メモリ190に格納する(ステップS61)。次に、変換処理部160が、メモリ110の変換規則記憶部116から変換規則情報106を読み込み、変換規則情報106の記述に従った処理を実行する。まず、変換処理部160は、一時メモリ190から変数iを読み込み、メモリ110の分類結果記憶部115に格納された分類結果付加セグメント情報列205(図13)を参照し、セグメントNo.iに対応する分類結果情報205aが「長音追加」を示すか「変化なし」を示すかを判断する(ステップS62)。
本形態は、第1,2の実施の形態を融合した形態であり、セグメントの単位を単語とし、読みに長音追加及び促音追加を行うことが可能な形態である。以下では、第1,2の実施の形態との相違点を中心に説明し、これらと共通する部分については説明を省略する。
<構成>
構成は第1の実施の形態と同様となるため説明を省略する。以下では、図2の機能ブロック図を引用しつつ説明を行う。
<処理>
第4の実施の形態の前処理は第1の実施の形態と同様である。ただし、本形態の変換規則情報106は、分類結果情報105aが示す読み替え処理内容がセグメント中に長音を追加する処理であった場合に、セグメント中のモーラを所定の順序で検索し、長音・促音以外であると判断されたモーラの直後に長音を追加する処理を特定するための情報の他、分類結果情報105aが示す読み替え処理内容がセグメント中に促音を追加する処理であった場合に、セグメント中のモーラを所定の順序で検索し、促音以外であると判断されたモーラの直後に促音を追加する処理を特定するための情報を含む。
第4の実施の形態と第1,2の実施の形態との相違点は、分類処理部150が分類規則情報104を用いて、「長音追加」「促音追加」「変化なし」の3種類の読み替え処理内容を示す処理内容情報を生成する点のみである。
図14,15は、本形態のステップS5の具体例を説明するためのフローチャートである。以下、この図に従って本形態のステップS5の具体例を説明する。
まず、制御部180が、変数iに1を代入し、この変数iを一時メモリ190に格納する(ステップS71)。次に、変換処理部160が、メモリ110の変換規則記憶部116から変換規則情報106を読み込み、変換規則情報106の記述に従った処理を実行する。まず、変換処理部160は、一時メモリ190から変数iを読み込み、メモリ110の分類結果記憶部115に格納された分類結果付加セグメント情報列105を参照し、セグメントNo.iに対応する分類結果情報が「長音追加」「促音追加」「変化なし」のいずれを示すかを判断する(ステップS72)。
一方、セグメントNo.iに対応する分類結果情報105aが「長音追加」であった場合、制御部180は、変数mに0を代入し、これを一時メモリ190に格納する(ステップS73)。そして、変換処理部160は、メモリ110の単語情報列記憶部112に格納された単語情報列102を参照し、単語No.iに対応する「読み」102cbの要素を抽出する。変換処理部160は、抽出した単語No.iに対応する「読み」102cbの要素の末尾−m番目のモーラが長音追加可能であるか否かを検証する(ステップS74)。
一方、ステップS82の検証において、末尾−m番目のモーラが促音追加可能であった場合、変換処理部160は、メモリ110の単語情報列記憶部112に格納された単語情報列102の単語No.iに対応する「読み」102cbの末尾−m番目のモーラの直後に促音を追加し(ステップS85)、以下のステップS78の処理に進む。
本形態は、第1の実施の形態の変形例であり、読み替え処理として削除及び置換を行う構成を採る。以下では、第1の実施の形態との相違点を中心に説明し、第1の実施の形態と共通する部分については説明を省略する。
<構成>
図16は、本形態の読み付与装置300の機能構成を例示したブロック図である。なお、本形態の読み付与装置300も公知のコンピュータに読み付与プログラムが読み込まれることによって構成されるものである。なお、図16において、第1の実施の形態と共通する部分については図2と同じ符号を付し、説明を省略する。
<処理>
第5の実施の形態の処理は、前処理及びステップS5の処理の点で第1の実施の形態と相違する。
前処理として、メモリ110の分類規則記憶部114に分類規則情報104を格納しておくこと、変換規則記憶部116に変換規則情報106を格納しておくことは、第1の実施の形態と同様である。ただし、本形態の変換規則情報106は、分類結果情報105aが示す読み替え処理内容がセグメントの一部を削除又は置換する処理であった場合に、セグメント中の各単語をキーとして削除・置換辞書311を検索し、そこから変換内容を抽出する処理を特定するための情報(プログラムや、処理を特定するためのパラメータ・数式等)を含む。
削除・置換辞書311は、削除又は置換を行う「単語」311aと、その変更後の読みを示す「変更内容」311bとを対応付けたテーブルである。図18の例では、例えば、単語「いいかも」の読みが「イイカモ」から「イッカモ」に置換され、単語「言っている」の読み「イッテイル」の一部が削除され「イッテル」となることを示している。
また、第5の実施の形態における処理全体の流れは第1の実施の形態と同様である(図3)。本形態と第1の実施の形態との相違点は、ステップS4,5の処理の詳細である。以下では、この相違点のみを説明する。
第1の実施の形態で述べたように、分類処理部150は、セグメント情報列の特徴値と分類規則情報104とを用い、各セグメントの読み替え処理内容を決定し、当該読み替え処理内容を示す分類結果情報をセグメント情報列に付加した分類結果付加セグメント情報列を出力する。第5の実施の形態では、各セグメントの読み替え処理内容として「削除・置換」又は「変化なし」を決定する。その具体的な処理内容については、「長音追加」を「削除・置換」に置き換える以外は第1の実施の形態と同様である。
図17は、本形態におけるステップS5の具体的な処理を説明するためのフローチャートである。以下、この図を用い、本形態におけるステップS5の具体的な処理を説明する。
まず、制御部180が、変数iに1を代入し、この変数iを一時メモリ190に格納する(ステップS91)。次に、変換処理部160が、メモリ110の変換規則記憶部116から変換規則情報106を読み込み、変換規則情報106の記述に従った処理を実行する。まず、変換処理部160は、一時メモリ190から変数iを読み込み、メモリ110の分類結果記憶部115に格納された分類結果付加セグメント情報列105を参照し、セグメントNo.iに対応する分類結果情報が「削除・置換」を示すか「変化なし」を示すかを判断する(ステップS92)。
一方、セグメントNo.iに対応する分類結果情報205aが「削除・置換」であった場合、変換処理部160は、削除・置換辞書メモリ310に格納された削除・置換辞書311から、セグメントNo.がiであるセグメントに対応する変換内容を抽出する(ステップS93)。具体的には、変換処理部160は、セグメントNo.がiであるセグメントに対応する単語(本形態では、セグメント=単語)を検索キーとして、削除・置換辞書311の「単語」311aのフィールドを検索し、一致した単語に対応付けられている「変換内容」311bの要素を抽出する。例えば、図18の例の削除・置換辞書311を用いる場合において、セグメントNo.iのセグメントが単語「いいかも」を具備する場合、変換処理部160は、変換内容として「イッカモ」を抽出する。
ステップS95では、制御部180が一時メモリ190から変数iを読み込み、これがメモリ110の分類結果記憶部115に格納された分類結果付加セグメント情報列205の「セグメントNo.」の要素の最大値であるか否かを判断する(ステップS94)。ここで、変数iが「セグメントNo.」の要素の最大値でなかった場合、制御部180は、一時メモリ190の変数iに1を加算した値を新たな変数iの値とし、これを一時メモリ190に格納し(ステップS96)、処理をステップS92に戻す。一方、変数iが「セグメントNo.」の要素の最大値であった場合、制御部180は変換処理部160に指示を与え、変換処理部160は、メモリ110の単語情報列記憶部112から読み変換が行なわれた単語情報列102(変換後単語情報列108)を読み込み、これを出力する(ステップS97)。
本形態は、第1の実施の形態の変形例であり、テキストに対応付けられた付加情報をも用いて読み替え処理を行う点で第1の実施の形態と相違する。以下では、第1の実施の形態との相違点を中心に説明し、第1の実施の形態と共通する部分については説明を省略する。
<構成>
図19は、本形態の読み付与装置400の機能構成を例示したブロック図である。なお、本形態の読み付与装置400も公知のコンピュータに読み付与プログラムが読み込まれることによって構成されるものである。なお、図19において、第1の実施の形態と共通する部分については図2と同じ符号を付し、説明を省略する。
<処理>
図20は、第6の実施の形態の読み付与方法を説明するためのフローチャートである。
なお、以下では、テキストが1文である場合を例にとって説明するが、テキストが複数の文から構成される場合には、同様な処理を文の数だけ繰り返せばよい。
第1の実施の形態と同様、前処理として、メモリ410の分類規則記憶部114に分類規則情報104を格納し、変換規則記憶部116に変換規則情報106を格納しておく。本形態の分類規則情報104も、公知の統計的な分類手法に用いられる分類モデル式であるが、上述の付加情報をも特徴値として取り扱う点で第1の実施の形態と相違する。
以上のような前処理を前提とし、以下の各処理が実行される。
まず、入力部120から入力されたテキスト情報(テキスト及び付加情報を含む)101がメモリ410のテキスト記憶部111に格納される(ステップS101)。なお、テキストは、その付加情報に対応付けられてテキスト記憶部111に格納される。また、テキスト情報401のフォーマットは予め定めておくものとする。図21(a)は、XML(Extensible Markup Language)で記述した場合のテキスト情報401の例である。図21(a)の例のテキスト情報401は、テキスト401a(この例では「東京ですね?」)を1文単位毎にdiscourseタグで囲み、discourseタグのtype属性で談話情報(この例では「確認」)を指定するものとし、この談話情報を付加情報401bとして扱う。また、XMLタグ以外の部分を、解析対象のテキストとして取り扱う。
図21(b)は、この付加単語情報列402を例示した図である。この図に例示するように、この例の付加単語情報列402は、「単語No.」102a、「単語」102b、「品詞」102ca、「読み」102cb及び「付加情報」402ccの各要素を対応付けたデータ列である。なお、品詞」102ca、「読み」102cb及び「付加情報」402ccは、「属性値」402cを構成する。
図22は、このように生成されたセグメント情報列403を例示した図である。
図22の例のセグメント情報列403は、各セグメントに対応する「セグメントNo.」103a、「セグメント」103b、「主品詞」103da、「活用形」103db、「体言・記号細分類」103dc、「末尾−1モーラの読み」103dd、「末尾モーラの読み」103de及び「付加情報」403aが対応付けられたデータ列である。なお、「主品詞」103da、「活用形」103db、「体言・記号細分類」103dc、「末尾−1モーラの読み」103dd、「末尾モーラの読み」103de及び「付加情報」403aは、「特徴値」403dを構成する。また、「付加情報」403aは、付加単語情報列402から抽出したものである。また、「セグメントNo.」103a、「セグメント」103b、「主品詞」103da、「活用形」103db、「体言・記号細分類」103dc、「末尾−1モーラの読み」103dd及び「末尾モーラの読み」103deは、第1の実施の形態と同様な手順によって付加単語情報列402から抽出される。
本形態は、第1,4の実施の形態の変形例である。例外的な読み変換を行う単語を同定できる情報(例えば、表記、品詞、読み等の単語情報、或いは、単語ID等ユニークに特定の単語と同定できる情報等)と、対応する例外的な読み替え位置を示す情報(例えば、読みそのもの、読み替えを行うモーラを示す情報等)とを対応つけた例外読み辞書を用い、変換規則の例外となる例外的な読み変換をも可能にする。例えば、末尾モーラが長音追加可能であるにもかかわらず末尾モーラ以外に長音を追加する(例:表記「はい」の読み「ハイ」→「ハーイ」)例外的な読み変換を可能にする。
以下では、第1の実施の形態との相違点を中心に説明し、第1の実施の形態と共通する事項については説明を省略する。
図24は、本形態の読み付与装置500の機能構成を例示したブロック図である。なお、本形態の読み付与装置500も公知のコンピュータに読み付与プログラムが読み込まれることによって構成されるものである。なお、図24において、第1の実施の形態と共通する部分については図2と同じ符号を付し、説明を省略する。
また、例外読み辞書メモリ510には、例外読み辞書511が格納されている。図25は、この例外読み辞書511の構成を例示した図である。
第7の実施の形態の前処理は、上述の例外読み辞書511を例外読み辞書メモリ510に格納する処理が加わる以外、第1の実施の形態と同様である。ただし、本形態の変換規則情報106は、そして、分類結果情報が「変化なし」以外の単語に対しては、まず例外読み辞書511を検索し、当該単語及び分類結果に対応する読みが登録されている場合には、その読みに変換し、対応する読みが登録されていない場合には、第1の実施の形態と同様な通常の変換処理を実行させるための情報(プログラムや、処理を特定するためのパラメータ・数式等)を含む。
また、第7の実施の形態における処理全体の流れは第1の実施の形態と同様である(図3)。本形態と第1の実施の形態との相違点は、ステップS4,5の処理の詳細である。以下、本形態におけるステップS4,5の処理の相違点を中心に説明する。
第7の実施の形態と第1の実施の形態との相違点は、分類処理部150が分類規則情報104を用いて、「長音追加」「促音追加」「変化なし」の3種類の読み替え処理内容を示す処理内容情報を生成する点のみである。ただし、これに限定はされない。
図26から図28は、本形態のステップS5の具体例を説明するためのフローチャートである。以下、この図に従って本形態のステップS5の具体例を説明する。
まず、制御部180が、変数iに1を代入し、この変数iを一時メモリ190に格納する(ステップS111)。次に、変換処理部160が、メモリ110の変換規則記憶部116から変換規則情報106を読み込み、変換規則情報106の記述に従った処理を実行する。まず、変換処理部160は、一時メモリ190から変数iを読み込み、メモリ110の分類結果記憶部115に格納された分類結果付加セグメント情報列105を参照し、セグメントNo.iに対応する分類結果情報が「変化なし」を示すか「変化なし」以外を示すかを検証する。ここで、分類結果情報が「変化なし」を示す場合、後述するステップS116に進む。一方、分類結果情報が「変化なし」以外の場合、検索部520は、メモリ110の分類結果記憶部115に格納された分類結果付加セグメント情報列と、例外読み辞書メモリ510に格納された例外読み辞書511とを参照し、セグメントNo.がiである処理対象のセグメントが、例外読み辞書511の「単語」511aと一致する単語を含むか否かを検証する(ステップS112)。
ステップS121以降は、通常の変換規則に従った処理となる。
すなわち、まず、変換処理部160は、メモリ110の分類結果記憶部115に格納された分類結果付加セグメント情報列105を参照し、セグメントNo.iに対応する分類結果情報が「長音追加」「促音追加」のいずれを示すかを判断する(ステップS121)。
ここで、No.iに対応する分類結果情報が「促音追加」であった場合、第4の実施の形態のステップS81からS85と同じ処理(図15)が実行され(ステップS131からS135)、処理が後述するステップS116に移される。一方、セグメントNo.iに対応する分類結果情報105aが「長音追加」であった場合、第4の実施の形態のステップS73からS77と同じ処理(図14)が実行され(ステップS123からS126)、処理が後述するステップS116に移される。
ステップS116では、制御部180が一時メモリ190から変数iを読み込み、これがメモリ110の分類結果記憶部115に格納された分類結果付加セグメント情報列105の「セグメントNo.」103aの要素の最大値であるか否かを判断する(ステップS116)。ここで、変数iが「セグメントNo.」103aの要素の最大値でなかった場合、制御部180は、一時メモリ190の変数iに1を加算した値を新たな変数iの値とし、これを一時メモリ190に格納し(ステップS117)、処理をステップS112に戻す。一方、変数iが「セグメントNo.」103aの要素の最大値であった場合、制御部180は変換処理部160に指示を与え、変換処理部160は、メモリ110の単語情報列記憶部112から読み変換が行なわれた単語情報列102(変換後単語情報列108)を読み込み、これを出力する(ステップS118)。
なお、本発明は上述の実施の形態に限定されるものではない。
例えば、第1の実施の形態では、セグメント情報生成部140が、単語情報列102の「読み」102cbの各要素から末尾−1番目のモーラの読みと、末尾モーラの読みとを抽出し、それらの読みが「長音」であるか、「その他」の読みであるか、或いは読み「なし」であるかを判断し、それらの判断結果をセグメント情報列103の「末尾−1モーラの読み」103dd及び「末尾モーラの読み」103deの各要素とすることとした。しかし、これ以外のモーラの読みを用いて単語情報列102を構成してもよく、また、その要素も「長音」「その他」「なし」に限定されず、例えば、「長音」「促音」「その他」「なし」等としてもよい。
また、上述の各実施の形態では、変換された「読み」によって単語情報列102の「読み」フィールドを更新することとしたが、変換された「読み」を格納する別フィールドを単語情報列102に設ける構成としてもよい。
また、上述の第1の実施の形態の処理等においてセグメント中のモーラを探索する場合、その順序は上述したものに限定されない。
また、第3の実施の形態では、セグメントをモーラ単位とし、読みに長音を追加する処理について説明したが、それ以外の読み変換内容(例えば、促音追加、削除、置換)に応用してもよい。この場合、例えば、分類結果情報が「促音追加」である場合には、変換するモーラの読みの末尾に促音を追加することになり、「削除」の場合には、変換するモーラの読みを削除することになる。
さらに、上述の各実施の形態を適宜結合して実施してもよく、また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力或いは必要に応じて並列的に或いは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
Claims (11)
- テキストに読みを付与する読み付与装置であって、
上記テキストを格納するテキスト記憶部と、
上記テキストに対する形態素解析処理を行い、当該テキストを構成する各単語と、それらの属性値とを対応付けた単語情報列を生成し、当該単語情報列を出力する形態素解析部と、
上記単語情報列の上記単語又はそれを細分化した単位であるセグメントと、当該単語に対応付けられた上記属性値から抽出した特徴値とを、それぞれ対応付けたセグメント情報列を生成し、当該セグメント情報列を出力するセグメント情報生成部と、
特徴値を用いて上記セグメントを読み替え処理内容毎に分類する、特徴値を変数とした識別関数を格納する分類規則記憶部と、
上記セグメント情報列の上記特徴値を上記識別関数に代入し、その演算結果によって各セグメントの読み替え処理内容を決定し、当該読み替え処理内容を示す分類結果情報を出力する分類処理部と、
セグメント内の読み替え位置を特定するための変換規則情報を格納する変換規則記憶部と、
上記変換規則情報によって特定される読み替え位置の例外となる単語を特定するための情報と、当該単語の読み替え処理内容毎の読み替え位置を示す読み替え位置情報とを対応付けたテーブルである例外読み辞書を格納する例外読み辞書記憶部と、
処理対象のセグメントが上記例外読み辞書の単語と一致し、なおかつ、一致した当該例外読み辞書の単語に対応付けられた上記読み替え位置情報が、当該処理対象のセグメントの上記分類結果情報が示す当該セグメントの読み替え処理内容に対応するものであるか否かを判断し、その判断結果を出力する検索部と、
処理対象のセグメントが上記例外読み辞書の単語と一致し、なおかつ、一致した当該例外読み辞書の単語に対応付けられた上記読み替え位置情報が、当該処理対象のセグメントの上記分類結果情報が示す当該セグメントの読み替え処理内容に対応すると判断された場合、これらの条件を満たす読み替え位置情報を用い、当該セグメントの読み替え処理を行い、それ以外の場合には、上記分類結果情報と上記変換規則情報とを用い、当該セグメントの読み替え処理を行う変換処理部と、
を有する読み付与装置。 - 請求項1に記載の読み付与装置であって、
上記セグメント情報生成部が上記セグメント情報列を生成する際に上記属性値から抽出する特徴値は、当該セグメントの末尾モーラの読みが長音であるか否かを示す特徴値を含む、
ことを特徴とする読み付与装置。 - 請求項1に記載の読み付与装置であって、
上記変換規則情報は、
上記分類結果情報が示す読み替え処理内容がセグメント中に長音を追加する処理であった場合に、セグメント中のモーラを所定の順序で検索し、長音又は促音以外であると判断されたモーラの直後に長音を追加する処理を特定するための情報を含み、
上記変換処理部は、
上記分類処理部から出力された上記分類結果情報が示す読み替え処理内容がセグメント中に長音を追加する処理であるか否かを判断し、上記変換規則情報が特定する処理を実行する、
ことを特徴とする読み付与装置。 - 請求項1または3に記載の読み付与装置であって、
上記変換規則情報は、
分類結果情報が示す読み替え処理内容がセグメント中に促音を追加する処理であった場合に、セグメント中のモーラを所定の順序で検索し、促音以外であると判断されたモーラの直後に促音を追加する処理を特定するための情報を含み、
上記変換処理部は、
上記分類処理部から出力された上記分類結果情報が示す読み替え処理内容がセグメント中に促音を追加する処理であるか否かを判断し、上記変換規則情報が特定する処理を実行する、
ことを特徴とする読み付与装置。 - 請求項3或いは4に記載の読み付与装置であって、
上記変換規則情報に示された、セグメント中のモーラを検索する所定の順序は、セグメントの末尾モーラから先頭モーラに向かう順序である、
ことを特徴とする読み付与装置。 - テキストに読みを付与する読み付与方法であって、
形態素解析部が、入力された上記テキストに対する形態素解析処理を行い、当該テキストを構成する各単語と、それらの属性値とを対応付けた単語情報列を生成し、当該単語情報列を出力する形態素解析ステップと、
セグメント情報生成部が、入力された上記単語情報列の上記単語又はそれを細分化した単位であるセグメントと、当該単語に対応付けられた上記属性値から抽出した特徴値とを、それぞれ対応付けたセグメント情報列を生成し、当該セグメント情報列を出力するセグメント情報生成ステップと、
分類処理部が、入力された上記セグメント情報列の上記特徴値を、特徴値を用いて上記セグメントを読み替え処理内容毎に分類する、特徴値を変数とした識別関数に代入し、その演算結果によって各セグメントの読み替え処理内容を決定し、当該読み替え処理内容を示す分類結果情報を出力する分類処理ステップと、
検索部が、セグメント内の読み替え位置を特定するための変換規則情報によって特定される読み替え位置の例外となる単語を特定するための情報と当該単語の読み替え処理内容毎の読み替え位置を示す読み替え位置情報とを対応付けたテーブルである例外読み辞書を用い、処理対象のセグメントが上記例外読み辞書の単語と一致し、なおかつ、一致した当該例外読み辞書の単語に対応付けられた上記読み替え位置情報が、当該処理対象のセグメントの上記分類結果情報が示す当該セグメントの読み替え処理内容に対応するものであるか否かを判断し、その判断結果を出力する検索ステップと、
変換処理部が、処理対象のセグメントが上記例外読み辞書の単語と一致し、なおかつ、一致した当該例外読み辞書の単語に対応付けられた上記読み替え位置情報が、当該処理対象のセグメントの上記分類結果情報が示す当該セグメントの読み替え処理内容に対応すると判断された場合、これらの条件を満たす読み替え位置情報を用い、当該セグメントの読み替え処理を行い、それ以外の場合には、入力された上記分類結果情報と上記変換規則情報とを用い、当該セグメントの読み替え処理を行う変換処理ステップと、
を有することを特徴とする読み付与方法。 - 請求項6に記載の読み付与方法であって、
上記セグメント情報生成ステップで上記セグメント情報列を生成する際に上記属性値から抽出される特徴値は、当該セグメントの末尾モーラの読みが長音であるか否かを示す特徴値を含む、
ことを特徴とする読み付与方法。 - 請求項6に記載の読み付与方法であって、
上記変換規則情報は、
上記分類結果情報が示す読み替え処理内容がセグメント中に長音を追加する処理であった場合に、セグメント中のモーラを所定の順序で検索し、長音又は促音以外であると判断されたモーラの直後に長音を追加する処理を特定するための情報を含み、
上記変換処理ステップは、
上記分類処理ステップで出力された上記分類結果情報が示す読み替え処理内容がセグメント中に長音を追加する処理であるか否かを判断し、上記変換規則情報が特定する処理を実行する、
ことを特徴とする読み付与方法。 - 請求項8に記載の読み付与方法であって、
上記変換規則情報は、
分類結果情報が示す読み替え処理内容がセグメント中に促音を追加する処理であった場合に、セグメント中のモーラを所定の順序で検索し、促音以外であると判断されたモーラの直後に促音を追加する処理を特定するための情報を含み、
上記変換処理ステップは、
上記分類処理ステップで出力された上記分類結果情報が示す読み替え処理内容がセグメント中に促音を追加する処理であるか否かを判断し、上記変換規則情報が特定する処理を実行する、
ことを特徴とする読み付与方法。 - 請求項8或いは9に記載の読み付与方法であって、
上記変換規則情報に示された、セグメント中のモーラを検索する所定の順序は、セグメントの末尾モーラから先頭モーラに向かう順序である、
ことを特徴とする読み付与方法。 - 請求項1から5の何れかに記載の読み付与装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005353991A JP4773813B2 (ja) | 2005-12-07 | 2005-12-07 | 読み付与装置、読み付与方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005353991A JP4773813B2 (ja) | 2005-12-07 | 2005-12-07 | 読み付与装置、読み付与方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007156273A JP2007156273A (ja) | 2007-06-21 |
JP4773813B2 true JP4773813B2 (ja) | 2011-09-14 |
Family
ID=38240700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005353991A Expired - Fee Related JP4773813B2 (ja) | 2005-12-07 | 2005-12-07 | 読み付与装置、読み付与方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4773813B2 (ja) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001343987A (ja) * | 2000-05-31 | 2001-12-14 | Sanyo Electric Co Ltd | 音声合成方法、および音声合成装置 |
JP2002311981A (ja) * | 2001-04-17 | 2002-10-25 | Sony Corp | 自然言語処理装置および自然言語処理方法、並びにプログラムおよび記録媒体 |
JP4001872B2 (ja) * | 2004-02-23 | 2007-10-31 | 日本電信電話株式会社 | ローマ字カナ変換装置、その方法及びそのプログラム |
-
2005
- 2005-12-07 JP JP2005353991A patent/JP4773813B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2007156273A (ja) | 2007-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6493866B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP5599662B2 (ja) | 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法 | |
JP5146979B2 (ja) | 自然言語における多義解消装置及びコンピュータプログラム | |
JP2003076392A (ja) | 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム | |
JP4570509B2 (ja) | 読み生成装置、読み生成方法及びコンピュータプログラム | |
WO2020170912A1 (ja) | 生成装置、学習装置、生成方法及びプログラム | |
JP3372532B2 (ja) | 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体 | |
JP4738847B2 (ja) | データ検索装置および方法 | |
JP7103264B2 (ja) | 生成装置、学習装置、生成方法及びプログラム | |
JP4587165B2 (ja) | 情報処理装置及びその制御方法 | |
JP7283718B2 (ja) | 音響信号検索装置、音響信号検索方法、データ検索装置、データ検索方法、プログラム | |
JP5342760B2 (ja) | 訳語学習のためのデータを作成する装置、方法、およびプログラム | |
JP6772394B1 (ja) | 情報学習装置、情報処理装置、情報学習方法、情報処理方法及びプログラム | |
JP4839291B2 (ja) | 音声認識装置およびコンピュータプログラム | |
JP4361299B2 (ja) | 評価表現抽出装置、プログラム、及び記憶媒体 | |
KR20000039018A (ko) | 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법 | |
JP4773813B2 (ja) | 読み付与装置、読み付与方法及びプログラム | |
JP4671440B2 (ja) | 評判関係抽出装置、その方法およびプログラム | |
JP2022190845A (ja) | エンティティとインテントとコーパスの自動生成装置及びプログラム | |
JP6309852B2 (ja) | 強調位置予測装置、強調位置予測方法及びプログラム | |
JP3758241B2 (ja) | 音声情報検索装置 | |
KR20040018008A (ko) | 품사 태깅 장치 및 태깅 방법 | |
WO2022074760A1 (ja) | データ処理装置、データ処理方法及びデータ処理プログラム | |
WO2022107328A1 (ja) | 機械学習プログラム、機械学習方法および自然言語処理装置 | |
JP6772393B1 (ja) | 情報処理装置、情報学習装置、情報処理方法、情報学習方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080128 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100623 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100713 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100908 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110329 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110418 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110614 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110624 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140701 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4773813 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |