JP2000353159A - 表記・読み対応付け装置、表記・読み対応辞書作成方法、テキスト読み振り装置、テキスト読み振り方法および記録媒体 - Google Patents

表記・読み対応付け装置、表記・読み対応辞書作成方法、テキスト読み振り装置、テキスト読み振り方法および記録媒体

Info

Publication number
JP2000353159A
JP2000353159A JP11165197A JP16519799A JP2000353159A JP 2000353159 A JP2000353159 A JP 2000353159A JP 11165197 A JP11165197 A JP 11165197A JP 16519799 A JP16519799 A JP 16519799A JP 2000353159 A JP2000353159 A JP 2000353159A
Authority
JP
Japan
Prior art keywords
reading
character
notation
kanji
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11165197A
Other languages
English (en)
Inventor
Kuniko Moriwaki
邦子 森脇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP11165197A priority Critical patent/JP2000353159A/ja
Publication of JP2000353159A publication Critical patent/JP2000353159A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 単語の表記とこの単語の読みとによって構成
されている読み付き日本語テキストについて、表記と読
みとを自動的に対応付けることができる表記・読み対応
付け装置を提供することを目的とするものである。 【解決手段】 読み付き日本語テキストを入力し、漢字
と上記漢字の読みの候補とが対応して記録されている単
漢字読みテーブルを作成し、上記表記の構成要素である
漢字文字列と、上記読みの構成要素である読みの文字列
との相互間における距離である構成要素間距離を、上記
単漢字読みテーブルを用いて計算し、文字列における上
記構成要素間距離の総和が最小になるように、上記表記
を構成する漢字文字列と上記表記を構成する各1文字毎
の上記読みとの対応付けを求めるものである。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、日本語テキストに
読みを振る技術に関し、特に、日本語文章を単語に分割
する日本語形態素解析において、読みの分からない単語
について、読み付き統計的言語モデルを用いることによ
って、使われる確率が最も高い読みを振ることができる
ようにしたものである。
【0002】
【従来の技術】単語に読みを振る場合、今回、特に対象
とする文字は漢字である。ひらがな・カタカナは表記そ
のままが読みとなり、一方、英語(アルファベット)・
数字は表記がそのまま読みにならないことが多いが、こ
こでは、英数字については、その表記をそのまま読みと
することにする。
【0003】漢字に読みを振る従来方法のうちで、最も
単純な方法は、標準的な読みを1つだけ、単漢字読みテ
ーブルに用意し、どのような場合でも、漢字に読みを1
対1に対応付ける方法である。
【0004】しかし、現実には、多くの場合、1つの漢
字が複数の読みを持ち、同じ漢字でも、文脈に応じて読
み方が変わる。したがって、上記従来方法では、前後の
文脈の違いに応じた漢字の読み分けができないという欠
点がある。
【0005】そこで、文脈を考慮した漢字読み振り方法
として、漢字trigram(つまり、注目する漢字と
その前後各1文字との合計3文字)を用いる方法が提案
されている(鈴木・鳥原・斉藤「日本語テキスト音声合
成のための言語処理の検討」情報処理学会研究報告 9
6−SLP−11,pp.1−6,1996)。
【0006】この従来方法は、読み付き文書テキストか
ら、前後の漢字の読みを考慮しない漢字trigram
を予め求め、その統計情報を用いることによって、読み
の推定を行う方法である。つまり、単漢字読みテーブル
を使って、全ての漢字のそれぞれに読みの候補を付け、
複数の読み候補が生じる場合には、前後の漢字trig
ramの統計情報に基づいて、読みを1つに決定する方
法である。
【0007】また、この従来方法では、漢字trigr
amのデータ不足が生じ、このデータ不足を補うため
に、類似読み漢字のグループ化を行なう。つまり、高
(ダカ)と安(ヤス)、高(タカ)と低(ヒク)、高
(コウ)と低(テイ)というように、同環境において特
定の読み方をする漢字をグループ化し、漢字trigr
am環境を共有することによって、限られたデータを有
効に使うものである。
【0008】この方法は、(1)漢字trigramを
使うことによって、ある程度文脈を考慮した漢字読み振
りが可能になり、(2)漢字trigramデータに含
まれていない文字環境の漢字についても、類似読み漢字
グループを考えることによって、読みを振ることができ
るという可能性がある点で優れている。
【0009】
【発明が解決しようとする課題】しかし、上記漢字tr
igramでは、逆に、(1)前後の漢字の読みを考慮
していない点が、文脈を考える上では不充分であり、
(2)漢字trigram頻度データ不足を解消するた
めの類似読み漢字のグループ化を、漢字全般に対してど
のように実現するのかと言う具体的方法論が存在しない
という問題がある。
【0010】漢字1文字ずつに読みが振られた日本語テ
キストから、読み付き文字bigram頻度データを作
成し、この統計情報を用いた読み振り方法を採用すれ
ば、上記(1)の問題を解決することができるが、現在
では、単語に読みを付与した日本語コーパス・日本語単
語辞書が数多く存在するものの、1つの文字とその読み
とが対応付けられているデータが殆ど存在しないので、
上記解決策は現実的ではないという新たな問題が生じ
る。
【0011】本発明は、単語の表記とこの単語の読みと
によって構成されている読み付き日本語テキストについ
て、表記と読みとを自動的に対応付けることができる表
記・読み対応付け装置を提供することを目的とするもの
である。
【0012】また、本発明は、前後の文脈に出現する表
記(文字)の読みを考慮することができ、読み付き文字
bigram頻度データ不足を解消することができる単
語読み振り装置を提供することを目的とする。
【0013】
【課題を解決するための手段】本発明は、単語の表記と
上記単語の読みとによって構成されている読み付き日本
語テキストを入力し、上記単語を構成する各文字と上記
読みとを対応付ける場合、漢字と上記漢字の読みの候補
とが対応して記録されている単漢字読みテーブルを作成
し、上記表記の構成要素である漢字文字列と、上記読み
の構成要素である読みの文字列との相互間における距離
である構成要素間距離を、上記単漢字読みテーブルを用
いて計算し、文字列における上記構成要素間距離の総和
が最小になるように、上記表記を構成する漢字文字列と
上記表記を構成する各1文字毎の上記読みとの対応付け
を求めるものである。
【0014】また、本発明は、単語を入力し、この入力
された単語に読みを振る場合、文字とその文字の読みと
が対応している文字読み対応付きテキストから、読み付
き文字bigram頻度データと、読み無し文字big
ram頻度データとを求め、上記求められた読み付き文
字bigram頻度データと、上記読み無し文字big
ram頻度データとの線形和を演算することによって、
所定の表記と所定の読みとの同時出現確率を計算するた
めの計算式である読み付き統計的言語モデルに基づい
て、所定の表記と所定の読みとの同時出現確率を計算
し、上記所定の表記と上記所定の読みとの組み合わせの
うちで、上記同時出現確率が最大になる組み合わせを求
めるものである。
【0015】
【発明の実施の形態および実施例】図1は、本発明の実
施例である表記・読み対応付け装置100と単語読み振
り装置200とを示すブロック図である。
【0016】表記・読み対応付け装置100は、単語の
表記と上記単語の読みとによって構成されている読み付
き日本語テキストの表記と読みとを自動に対応付ける装
置であり、同時出現確率の計算に必要な読み付き文字b
igram頻度データを生成する装置である。
【0017】また、表記・読み対応付け装置100は、
要素間距離計算手段1と、最小距離対応付け探索手段2
とを有する。
【0018】要素間距離計算手段1は、漢字とこの漢字
の読みの候補とが対応して記録されている単漢字読みテ
ーブルを用いて、表記の構成要素である漢字文字列と、
読みの構成要素である文字列との相互間における距離で
ある構成要素間距離を計算する手段である。
【0019】なお、漢字文字列中の1つの漢字と、読み
の構成要素である文字列との相互間の組合わせが単漢字
読みテーブルに存在する場合に、その距離が「0」である
とし、漢字文字列中の1つの漢字と、読みの構成要素で
ある文字列との相互間の組合わせが単漢字読みテーブル
に存在しない場合に、距離が「1」であるとする。
【0020】最小距離対応付け探索手段2は、動的計画
法を用いて、文字列における上記構成要素間距離(文字
列の語頭から、その文字列中の各位置までの距離)の総
和が最小になるように、上記表記を構成する漢字文字列
と、上記表記を構成する各1文字毎の上記読みとの対応
付けを求める手段である。
【0021】ここで、動的計画法は、次の、の2つ
の性質を持つアルゴリズムである。 計算の途中結果を記憶するテーブルを作ることによっ
て、同じ計算の繰り返しを避ける。 部分問題の解を求め、これを使って次の部分問題の解
を求めることを繰り返し、最後に全体の解になる。
【0022】図2は、上記実施例の説明図であり、図2
(1)は、表記の対応付け結果の例を示す図であり、図
2(2)は、文字列の表記とその読みとの対応チャート
であり、文字列の語頭から、その文字列中の各位置まで
の最小距離を求める場合の説明図である。
【0023】また、図1に戻って、単語読み振り装置2
00は、形態素解析処理中に出現した単語に対して読み
を振る装置であり、言語モデル生成手段3と、統計的言
語モデル4と、表記・読み同時出現確率計算手段5と、
最大確率探索手段6とを有する。
【0024】言語モデル生成手段3は、表記・読み対応
付け装置100によって生成された文字読み対応付きテ
キストに基づいて、表記と読みとの同時出現確率(表記
と読みとが同時に出現する確率)を求める手段である。
【0025】統計的言語モデル4は、読み付き文字bi
gram頻度データと、読み無し文字bigram頻度
データとの線形和を演算することによって、所定の表記
と所定の読みとの同時出現確率を計算するための計算式
である。
【0026】表記・読み同時出現確率計算手段5は、生
成された読み付き統計的言語モデル4に基づいて、表記
と読みとの同時出現確率を計算する手段である。
【0027】最大確率探索手段6は、その同時出現確率
を最大にする経路を求める手段である。
【0028】次に、上記実施例の動作について説明す
る。
【0029】図3は、表記・読み対応付け装置100の
動作と、単語読み振り装置200の動作とを示すフロー
チャートである。
【0030】まず、読み付き日本語テキストを入力す
る。たとえば、図2(1)に示すように、「応用コンピ
ュータ学会/おうようこんぴゅーたがっかい」という読
み付き日本語テキストを入力する。
【0031】そして、表記・読み対応付け装置100に
おける要素間距離計算手段1が、表記と読みとについて
任意の部分文字列間の距離を計算し(S1)、最小距離
対応付け探索手段2が、最小距離となる対応付けの経路
を探索し、文字読み対応付きテキストを出力する(S
2)。
【0032】この出力結果から、言語モデル生成手段3
が、読み付き文字bigram頻度データのデータ数不
足を考慮した読み付き統計的言語モデル4を生成する
(S3)。単語の入力に対して、表記・読み同時出現確
率計算手段5が、読み付き統計的言語モデル4に基づい
て、表記と読みとの同時出現確率を計算し(S4)、最
大確率探索手段6が、最も確率の高い経路(組み合わせ)
を探索し、読み付き単語を出力する(S5)。
【0033】このような構成によって、読み付き日本語
テキストから、表記・読み対応付け装置100が、各文
字の読み対応付けを自動的に行なう。
【0034】また、読みの分からない単語に対して、
(1)読み付き文字bigram頻度データのデータ不
足を考慮する方法が明確である言語モデルに基づいて、
(2)連続して出現する表記(文字)の読みを考慮した
単語読み振り装置200を実現することができる。
【0035】図2(1)における1行目が、入力された読
み付き日本語テキストの例であり、「表記/読み」の形
で示されている。図2(1)における2行目以降が、上記
実施例によって表記と読みとが対応された結果であり、
「表記|読み」の形で示されている。
【0036】図2(2)に示すチャートは、桝目の縦方
向に文字列の表記を並べ、上記桝目の横方向にその文字
列の読みを並べ、また、1つの桝目に1文字を嵌め込
み、語頭からの距離が数字で書き込まれた表である。文
字列の表記の例として、「応用コンピュータ学会」が記
載され、その文字列の読みの例として、「おうようこん
ぴゅーたがっかい」が記載されている。
【0037】語頭から語末までの距離を求めるには、ま
ず、1文字挿入、1文字削除のそれぞれの場合における
要素間距離(コスト)は、「1」である。また、ひらが
な、カタカナ、英文字、数字、記号における要素間距離
(コスト)は、「0」である。さらに、漢字に対する読み
が、漢字と上記漢字の読みの候補とが対応して記録され
ている単漢字読みテーブルに存在する場合、その要素間
距離(コスト)を「0」とし、漢字に対する読みが、上記
単漢字読みテーブルに存在しない場合、その要素間距離
(コスト)を「1」とする。
【0038】ここで、図2(2)に示す文字列の表記とそ
の読みとの対応チャートついて説明する。最初に、語頭
の文字の表記「応」の行(図2(2)における「応」の
行、1行目)と、読み「お」の列とが交差する枡につい
て検討する。語頭の文字の表記「応」に対する読み候補
「お」を見た場合、その表記と読みとの対応が、単漢字
読みテーブルに存在しないので、距離が「1」になる。
【0039】次に、語頭の文字の表記「応」の行と、読
み「おう」の「う」の列とが交差する枡を見た場合、そ
の表記「応」と読み「おう」とが、単漢字読みテーブル
に存在するので、表記「応」の行と読み「う」の列とが交
差する枡に、要素間距離が「0」であることを示す
「0」が記入される。
【0040】図2(2)の「応」の行では、「応」と
「おうよ」、「応」と「おうよう」等、上記以外の組合
わせが、単漢字読みテーブルには存在しないので、それ
ぞれに対応する枡に、要素間距離が「1」であることを示
す「1」が記入される。
【0041】次に、語頭の文字の次の文字の表記「用」
の行(図2(2)における「用」の行、2行目)につい
て検討する。文字の表記「用」の行と読み「お」の列と
が交差する枡を見た場合、上記のように、「応」について
「お」の読みが単漢字読みテーブルに無いことによる要
素間距離「1」と、「用」についての読みとして「お」が
既に使用され、1文字削除されていることによる要素間
距離「1」とが加算され、結局、文字の表記「用」と読み
「お」とに対応する枡には、1+1=2である要素間距
離「2」が記入される。
【0042】なお、文字の表記「用」の行と読み「お」
の列とが交差する枡に要素間距離「2」が記入される理
由として、「応」についての読みとして「お」が既に使用
され、1文字削除されていることによる要素間距離「1」
と、「用」について「お」の読みが単漢字読みテーブルに
無いことによる要素間距離「1」とが加算され、要素間
距離が「2」になると考えてもよい。
【0043】次に、文字の表記「用」の行と読み「お
う」の「う」の列とが交差する枡を見た場合、「応」につ
いて「おう」という読みが単漢字読みテーブルに存在す
るので、要素間距離が「0」であり、また、「用」に対す
る読みが1文字削除されているので、要素間距離が
「1」になり、0+1=1となる。
【0044】なお、図2(2)の「用」の行と、読み
「おうよ」の「よ」の列とが交差する枡は、表記「応」
の読み「おう」が単漢字テーブルに存在することによる
要素間距離「0」と、表記「用」の読み「よ」が単漢字
テーブルに存在しないことによる要素間距離「1」とが
加算され、0+1=1であり、「1」が記入される。
【0045】そして、文字の表記「用」の行と、読み
「おうよう」の2つ目の「う」の列とが交差する枡を見
た場合、表記「応」の読み「おう」が単漢字テーブルに
存在することによる要素間距離「0」と、表記「用」の
読み「よう」が単漢字テーブルに存在することによる要
素間距離「0」とが加算され、0+0=0であり、
「0」が記入される。
【0046】上記のようにして、語頭から語末までの距
離を求める。
【0047】特に、語頭(「応」という文字)から語末
(「会」という文字)までの距離の総和が最小になる対
応付けの経路における所定の位置を(i,i)とする
と、所定の位置(i,i)には、語頭から語末までの距
離の総和が最小となる対応付けの経路における直前の位
置(i−1,j−n)を、括弧書きで示してある。
【0048】図2(2)において、語末から順に、距離
の総和が最小である経路を遡ることによって、最適な読
み・表記の対応付けを行うことができる。
【0049】上記例において、単漢字読みテーブルに、
「会|かい」の読みは存在するが、「学|がっ」の読み
は存在しない。しかし、上記のようにすれば、表記
「学」に対する読み「がっ」が対応付けられ、つまり、
単漢字読みテーブルに存在しない読みであっても、正確
に対応付けられる。このように、表記・読み対応付け装
置100では、元の単漢字読みテーブルに存在しない単
漢字の読みであっても、読み付き日本語テキストから、
その単漢字の読みを学習する能力を持っており、この点
が優れている。
【0050】図4は、本発明の他の実施例である表記・
読み対応付け装置300と、単語読み振り装置400と
を示すブロック図である。
【0051】表記・読み対応付け装置300は、要素間
距離計算手段1と、最小距離対応付け探索手段2と、単
漢字読みテーブルT1とによって構成されている。
【0052】単語読み振り装置400は、言語モデル生
成手段3と、頻度テーブルT2と、表記・読み同時出現
確率計算手段5と、最大確率探索手段6とによって構成
されている。
【0053】要素間距離計算手段1は、読み付き日本語
テキストの表記と読みとの任意の部分文字列間につい
て、表記の文字種によって場合分けされた関数を用い、
要素間距離を計算する手段である。
【0054】最小距離探索手段2は、要素間距離の和が
最小になるような経路(組み合わせ)を探索し、その表
記と読みとの対応付けを1組出力する手段である。
【0055】単漢字読みテーブルT1は、単漢字の読み
候補を格納してあるテーブルである。
【0056】言語モデル生成手段3は、表記・読み対応
付け装置300によって与えらた文字読み対応付きテキ
ストから、頻度テーブルT2を作成する手段である。
【0057】頻度テーブルT2は、読み付き文字big
ram頻度データ、読み付き文字unigram頻度デ
ータ、読み無し文字bigram頻度データ、読み無し
文字unigram頻度データが格納されているテーブ
ルであり、これらのデータを用いて、読み付き文字bi
gram頻度データの不足を考慮した読み付き統計的言
語モデル4を生成するテーブルである。
【0058】ここで、「unigram」は、一般的に
は、連鎖を構成する最小不可分な1個の要素であり、上
記実施例では、一文字で構成される文字列を意味する。
【0059】「bigram」は、一般的には、連鎖を
構成する最小不可分な要素のうちで、互いに隣り合った
2個の要素であり、上記実施例では、2文字で構成され
ている文字列を意味する。
【0060】また、上記実施例は、「表記・読み対応辞
書」を作成する場合、2文字で構成されている文字列と
その読みとの対応関係を記録した辞書を作成することが
意図され、このような辞書を用い、2文字とその読みと
の同時出現確率を推定することによって、もっともらし
い読みの連鎖を決定し、これによって読みを振る点に特
徴がある。なお、2文字とその読みとの同時出現確率
は、2つの文字とその読みとが同時に出現する確率であ
る。
【0061】表記・読み同時出現確率計算手段5は、入
力された読みの分からない単語の各文字に対して、読み
付き文字unigram頻度データから読み候補を列挙
し、それぞれの表記と読みとの同時出現確率を、頻度テ
ーブルT2に基づいて計算する手段である。なお、頻度
テーブルT2は、読み付き統計的言語モデルの一例であ
る。
【0062】最大確率探索手段6は、入力された単語全
体において、表記と読みとの同時出現確率の和を最大に
する経路を探索し、この探索された結果に対応する読み
付き単語を出力する手段である。
【0063】次に、上記実施例において、要素間距離計
算、最小距離対応付け探索、頻度テーブルT2につい
て、この順で説明する。
【0064】まず、要素間距離計算と最小距離対応付け
探索とについて、説明する。
【0065】表記を構成する文字列X=x12…x
nと、読みを構成する文字列Y=y12…ynとを対応付
けるには、要素間の距離(表記を構成する文字列X=x
12…xn中の文字と、読みを構成する文字列Y=y1
2…yn中の文字との距離)を定義し、この定義された距
離の和が最小になる対応付けを求めればよい。
【0066】ここで、表記がひらがなやカタカナであれ
ば、表記と読みとの要素は1対1に対応するが、漢字の
多くは、1文字の表記で、複数文字の読みに対応する。
つまり、表記と読みとの対応では、表記を構成する文字
の種類に応じて、1対n(n≧1)の対応を考慮しなけ
ればならない。なお、英語(アルファベット)と数字に
関しては、表記と読みとがm対n(m≧1)に対応して
いると考えることが自然であることが多いが、今回は、
英数字については、便宜上、全て1対1に対応させる。
つまり、英語(アルファベット)と数字に関しては、読
みは表記と同じであるとする。
【0067】表記を構成する文字列の要素x1〜xiと、
読みを構成する文字列の要素y1〜yiとの要素間距離を
d(i,j)とする。つまり、要素間距離d(i,j)
は、語頭から位置(i,j)までの距離である表記と読
みとが1対nに対応していると、すなわち表記xiと読
みyj-n+1のそれぞれとが対応し、位置(i,j)と1
つ前の位置(i−1,j−n)との距離をcost(x
i,yj-n+1…yj)とすると、上記要素間距離d(i,
j)は、次の式で与えられる。
【0068】 d(i,j)=d(i−1,j−n)+cost(xi,yj-n+1…yj) … …… 式(1) ただし、d(0,0)=0であるとする。表記xiを構
成する文字の種類によって、以下のように要素間距離を
設定し、各位置(i,j)までの最小距離と、上記各位
置(i,j)の1つ前の位置(i−1,j−n)とを記
憶する。
【0069】要素間の全ての組み合わせについて、語頭
から順に距離を計算し、語末に到達したら、記憶された
経路を辿ることによって、最小距離である対応付けを求
めることができる。
【0070】次に、要素間距離の設定について説明す
る。
【0071】まず、表記xiが、ひらがな、カタカナ、
英語(アルファベット)、数字、記号である場合、n=
1であり(読みが1文字であり)、読みが表記そのもの
であれば、要素間距離cost(xi,yj-n+1…yj
=0であるが、n=1でない(読みが2文字以上であ
る)か、読みが表記そのものでなければ、要素間距離c
ost(xi,yj-n+1…yj)=1である。
【0072】一方、表記xiが漢字である場合、yj-n+1
…yjが、単漢字読みテーブルのxiの項目に存在すれ
ば、cost(xi,yj-n+1…yj)=0であるが、y
j-n+1…yjが、単漢字読みテーブルのxiの項目に存在
しなければ、cost(xi,yj -n+1…yj)=1であ
る。
【0073】この他の対応として、1文字挿入と1文字
削除とを考える。1文字挿入は、表記と読みとが0対1
に対応するものであり、1文字削除は、表記と読みとが
1対0に対応するものである。このときにおける要素間
距離を常に「1」に設定する。
【0074】図5は、上記実施例における単漢字読みテ
ーブルT1の一例を示す図である。
【0075】次に、読み付き統計的言語モデル4につい
て説明する。
【0076】文字列C=c1…cnに最適な読みを振る場
合、各文字に対応する読み文字列Q=q1…qnとの同時
出現確率P(C,Q)が最大になる読み列を求めればよ
い。上記では、同時出現確率をマルコフモデルで近似す
る。つまり、同時出現確率P(C,Q)を、読み付き文
字bigram頻度データ確率P(ci,qi|ci-1
i-1)の積として、次の式(2)で表す。
【0077】
【数1】
【0078】上記式(2)は、読み付き文字bigra
m頻度データと、読み無し文字bigram頻度データ
との線形和を演算することによって、所定の表記と所定
の読みとの同時出現確率を計算するための計算式である
読み付き統計的言語モデルである。
【0079】なお、読み付き文字bigram頻度デー
タを、先行する読み付き文字の出現頻度で割ることによ
って、読み付き文字bigram頻度データ確率P(c
i,qi|ci-1,qi-1)の値が与えられる。すなわち、
頻度をC(*)で表すと、読み付き文字bigram頻
度データ確率P(ci,qi|ci-1,qi-1)=C(c
i-1,qi-1|ci,qi)/C(ci-1,qi-1)であ
る。
【0080】たとえば、「大,だい」と「学,がく」と
が組み合わされる頻度が、所定の文書においてたとえば
165であり、「大,だい」の出現頻度がたとえば25
1であるとした場合、読み付き文字bigram頻度デ
ータ確率P(学,がく|大,だい)=165/251=
0.657である。
【0081】実際に読み振り動作を行なう場合、各文字
に対する読みの候補を列挙し、各候補について読み付き
文字bigram頻度データ確率を計算し、文字列全体
の確率P(C,Q)が最大になる読み候補を選択するこ
とによって、最適な読みを求めることができる。
【0082】このような方法によれば、たとえ文字列C
=c1…cnが、単語辞書未登録語であっても、連続する
2つの構成文字について同時出現確率が与えられれば、
読みを振ることができる。つまり、未知語全般につい
て、読みを振ることができる。
【0083】読み候補を選択する場合、文字が漢字であ
れば、その表記に対して、読み付き文字unigram
頻度データに登録されている読みの全てを候補として挙
げ、文字が漢字以外であれば、表記そのものを候補とし
て挙げる。
【0084】ところで、連続する2つの構成文字につい
て一度でも、読み付き文字bigram頻度データ確率
P(ci,qi|ci-1,qi-1)=0になると、読み付き
文字bigram頻度データ確率P(C,Q)=0にな
り、読みを振ることができない。つまり、振るべき読み
をデータとして持ち合わせていない。
【0085】しかし、現実には、読み付き文字bigr
am頻度データが不足していることによって、表記C
(ci-1,qi-1,ci,qi)が0であることはよく生
じ、このようなデータ不足を補うために、線形補間を用
いた平滑化を行う。すなわち、読み付き文字bigra
m頻度データ確率P(ci,qi|ci-1,qi-1)を、次
式のように線形に補間する。
【0086】P(ci,qi|ci-1,qi-1)=λ0・P
(zero)+λ1・P(Ci)+λ2・P(ci
i-1)+λ3・P(ci,qi)+λ4・P(ci,qi
i-1,qi-1) ただし、λkは、重み係数であり、
【0087】
【数2】
【0088】である。
【0089】次に、上記式における各項について説明す
る。
【0090】まず、読み付き文字unigram確率P
(ci,qi)は、読み付き文字bigram頻度データ
確率値を、より低次のn−gramで補間する項であ
る。
【0091】読み無し文字bigram頻度データ確率
P(ci|ci1)は、読み候補がない文字の読み付き
文字bigram頻度データ確率値を補間する項であ
る。
【0092】さらに、読み無し文字unigram確率
P(ci)は、読み無し文字bigram頻度データ確
率値を、より低次のn−gramで補間する項である。
【0093】そして、未知文字を考慮するために、全て
の文字が等確率で出現する場合における確率P(zer
o)(zerogram probability:1
/文字集合の大きさ)に、適当な定数を掛けたものを割
り当てて補間する(文字集合の大きさはJISコードに
含まれる文字数であり、6879であるとする)。
【0094】このような平滑化を行うことによって、読
み付き文字bigram頻度データに存在しない組み合
わせの読みであっても、読み付き文字unigram頻
度データに存在するものであれば、確率を与えることが
でき、したがって、読みを与えることができる。読み候
補が存在しない場合、そのままでは、読みを振ることが
できないが、何らかの値の確率値が割り当てられるの
で、全体の確率が0になることを避けることができる。
よって、読み付き文字bigram頻度データのデータ
不足を補うことが可能になる。
【0095】読み付き文字unigram頻度データ、
読み無し文字bigram頻度データ、読み無し文字u
nigram頻度データは、その全てを、読み付き文字
bigram頻度データから作成することが可能であ
る。
【0096】図6は、上記実施例における各頻度データ
の具体例を示す図である。
【0097】図6(1)は、読み付き文字bigram
頻度データの例であり、図6(2)は、読み付き文字u
nigram頻度データの例であり、図6(3)は、読
み無し文字bigram頻度データの例であり、図6
(4)は、読み無し文字unigram頻度データの例
である。
【0098】重み係数λkの推定は、次のような手順で
行う。
【0099】まず、重み係数の初期値を設定し、所定の
読み付き単語集合(訓練集合)を使って、読み付き文字
unigram/bigram頻度データを作成する。
この頻度データを使って、訓練集合とは異なる読み付き
単語集合(評価集合)に対して、生成確率が最大となる
ように重み係数を更新する。この作業を、重み係数が収
束するまで行う。
【0100】上記のようにして、未知語の語頭から語末
まで、連続する全ての読み付き文字bigram頻度デ
ータ確率を計算し、読み付き文字列の同時出現確率が最
大となるような読み列を求める。
【0101】図7は、上記実施例において、単語に対す
る読み振りと、その対数確率値との結果例を示す図であ
る。
【0102】各文字についての読みが、「表記/読み」
の形で、対数確率値の高い順に3つ表されている。一番
確率が高い読み振りが、正しい結果を出していることが
分かる。
【0103】表記・読み対応付け装置100、300に
よれば、要素間距離計算手段1と、最小距離対応付け探
索手段2とを用いることによって、読み付き日本語テキ
ストから、各文字に読みを対応付けした文字読み対応付
きテキストを生成することができる。
【0104】また、上記実施例である単語読み振り装置
200、400によれば、上記文字読み対応付きテキス
トと、言語モデル生成手段3と、表記・読み同時出現確
率計算手段5と、最大確率探索手段6とを用い、読み付
き統計的言語モデル4または頻度テーブルT2に基づい
て、読み付き文字bigram頻度データのデータ不足
を考慮し、前後の文脈を考慮した単語の読み候補を精度
良く提示することができる。
【0105】次に、上記実施例において、重み係数λK
(K=0,1,2,3,4)の一般的な求め方について
具体的に説明する。
【0106】まず、読み付き文字bigram頻度デー
タ確率P(Ci,Qi|Ci-1,Qi-1)=λ0zero+λ1
P(Ci)+λ2P(Ci|Ci-1)+λ3P(Ci,Qi
=λ00+λ11+λ22+λ33+λ44
……式(3) である。
【0107】図8は、所定の状態SAから別の状態SK
遷移する場合を示す図である。
【0108】図8において、所定の状態SAから別の状
態SKに遷移する場合、状態S0、S1、S2、S3、
S4を経由して他の状態SKに遷移する。この場合、そ
れぞれ重み係数λ0、λ1、λ2、λ3、λ4が付与され、
また、それぞれ確率P0、P1、P2、P3、P4を生じ
る。
【0109】ここで、状態SAから状態SKに遷移する個
数CKを観測することができれば
【0110】
【数3】
【0111】になる。
【0112】しかし、実際には、個数CKを観測するこ
とができない。そこで、重み係数λKに初期値を与え、
個数CKの推定値CK *を求め、この推定値CK *から、重
み係数λKの新しい推定値λK *を求める。
【0113】次に、訓練集合EからPK Eを計算する。ま
た、評価集合Hで生じる状態遷移S A→SK→SBが起き
る確率は、
【0114】
【数4】
【0115】であり、評価集合Hで生じる状態遷移SA
→SBの個数をCHとすると、評価集合H全体で、SA
Kが起こる個数の推定値CK *は、
【0116】
【数5】
【0117】であり、重み係数の新しい推定値λK *は、
【0118】
【数6】
【0119】である。
【0120】また、重み係数の新しい推定値λK *を使用
すると、重み係数λKを使用した場合よりも、上記式
(3)が示す確率Pの値が大きくなることは、既に証明
されている(Baum,L.E.(1972))。
【0121】よって、重み係数λKに対してこの手順を
繰り返し、重み係数λKが収束する(極大化する)まで
行うことによって、重み係数λKを決定することができ
る。
【0122】なお、上記実施例を、プログラムを記録し
た記録媒体として把握することができる。
【0123】すなわち、上記実施例は、単語の表記と上
記単語の読みとによって構成されている読み付き日本語
テキストを入力し、上記単語を構成する各文字と上記読
みとを対応付ける場合において、漢字と上記漢字の読み
の候補とを対応して記録されている単漢字読みテーブル
を作成する単漢字読みテーブル作成手順と、上記表記の
構成要素である漢字文字列と、上記読みの構成要素であ
る読みの文字列との相互間における距離である構成要素
間距離を、上記単漢字読みテーブルを用いて計算する要
素間距離計算手順と、文字列における上記構成要素間距
離の総和が最小になるように、上記表記を構成する漢字
文字列と上記表記を構成する各1文字毎の上記読みとの
対応付けを求める最小距離対応付け探索手順とをコンピ
ュータに実行させるプログラムを記録したコンピュータ
読み取り可能な記録媒体の例である。
【0124】また、上記実施例は、単語を入力し、この
入力された単語に読みを振る場合、文字とその文字の読
みとが対応している文字読み対応付きテキストから、読
み付き文字bigram頻度データと、読み無し文字b
igram頻度データとを求める手順と、上記読み付き
文字bigram頻度データと、上記読み無し文字bi
gram頻度データとの線形和を演算することによっ
て、所定の表記と所定の読みとの同時出現確率を計算す
るための計算式である読み付き統計的言語モデルを作成
する手順と、所定の表記と所定の読みとの同時出現確率
を、上記読み付き統計的言語モデルに基づいて計算する
同時出現確率計算手順と、上記所定の表記と上記所定の
読みとの組み合わせのうちで、上記同時出現確率が最大
になる組み合わせを求める最大確率探索手順とをコンピ
ュータに実行させるプログラムを記録したコンピュータ
読み取り可能な記録媒体の例である。
【0125】さらに、上記記録媒体としては、FD、C
D、MO、DVD、ハードディスク、半導体メモリ等が
考えられる。
【0126】
【発明の効果】請求項1〜請求項5記載の発明によれ
ば、表記と読みとの任意の部分文字列間について、文字
種に応じた要素間距離を計算する手段を有するので、読
み付き文字bigram頻度データを作成する際に必須
である読み付き日本語テキストの表記・読み対応付けを
自動で処理することができるという効果を奏する。
【0127】また、請求項6〜請求項8記載の発明によ
れば、読み付き文字bigram頻度データ確率から、
表記と読みとの同時出現確率を与える読み付き統計的言
語モデルと、そのモデルに基づいて、同時出現確率を計
算し、確率が最大となる組み合わせを探索するので、文
脈を考慮した読み振りができ、さらに読み付き文字bi
gram頻度データデータ不足を補うことができるとい
う効果を奏する。
【図面の簡単な説明】
【図1】本発明の実施例である表記・読み対応付け装置
100と単語読み振り装置200とを示すブロック図で
ある。
【図2】上記実施例の説明図であり、図2(1)は、表
記の対応付け結果の例を示す図であり、図2(2)は、
文字列の表記とその読みとの対応チャートであり、文字
列の語頭から、その文字列中の各位置までの最小距離を
求める場合の説明図である。
【図3】表記・読み対応付け装置100の動作と、単語
読み振り装置200の動作とを示すフローチャートであ
る。
【図4】本発明の他の実施例である表記・読み対応付け
装置300と、単語読み振り装置400とを示すブロッ
ク図である。
【図5】上記実施例における単漢字読みテーブルT1の
一例を示す図である。
【図6】上記実施例における各頻度データの具体例を示
す図である。
【図7】上記実施例において、単語に対する読み振り
と、その対数確率値との結果例を示す図である。
【図8】所定の状態SAから別の状態SKに遷移する場合
を示す図である。
【符号の説明】
100、300…表記・読み対応付け装置、 200、400…単語読み振り装置、 1…要素間距離計算手段、 2…最小距離対応付け探索手段、 3…言語モデル生成手段、 4…読み付き統計的言語モデル、 5…表記・読み同時出現確率計算手段、 6…最大確率探索手段。

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 単語の表記と上記単語の読みとによって
    構成されている読み付き日本語テキストを入力し、上記
    単語を構成する各文字と上記読みとを対応付ける装置に
    おいて、 漢字と上記漢字の読みの候補とが対応して記録されてい
    る単漢字読みテーブルと;上記表記の構成要素である漢
    字文字列と、上記読みの構成要素である読みの文字列と
    の相互間における距離である構成要素間距離を、上記単
    漢字読みテーブルを用いて計算する要素間距離計算手段
    と;文字列における上記構成要素間距離の総和が最小に
    なるように、上記表記を構成する漢字文字列と上記表記
    を構成する各1文字毎の上記読みとの対応付けを求める
    最小距離対応付け探索手段と;を有することを特徴とす
    る表記・読み対応付け装置。
  2. 【請求項2】 請求項1において、 上記要素間距離計算手段は、上記漢字文字列と上記読み
    の文字列との組合わせが上記単漢字読みテーブルに存在
    すれば、その距離を「0」とし、上記漢字文字列と上記
    読みの文字列との組合わせが上記単漢字読みテーブルに
    存在しなければ、その距離を「1」とすることによっ
    て、上記構成要素間距離を計算する手段であることを特
    徴とする表記・読み対応付け装置。
  3. 【請求項3】 請求項1において、 上記最小距離対応付け探索手段は、動的計画法を用いた
    手段であることを特徴とする表記・読み対応付け装置。
  4. 【請求項4】 単語の表記と上記単語の読みとによって
    構成されている読み付き日本語テキストを入力し、上記
    単語を構成する各文字と上記読みとを対応付ける方法に
    おいて、 漢字と上記漢字の読みの候補とを対応して記録されてい
    る単漢字読みテーブルを作成する単漢字読みテーブル作
    成段階と;上記表記の構成要素である漢字文字列と、上
    記読みの構成要素である読みの文字列との相互間におけ
    る距離である構成要素間距離を、上記単漢字読みテーブ
    ルを用いて計算する要素間距離計算段階と;文字列にお
    ける上記構成要素間距離の総和が最小になるように、上
    記表記を構成する漢字文字列と上記表記を構成する各1
    文字毎の上記読みとの対応付けを求める最小距離対応付
    け探索段階と;を有することを特徴とする表記・読み対
    応辞書作成方法。
  5. 【請求項5】 単語の表記と上記単語の読みとによって
    構成されている読み付き日本語テキストを入力し、上記
    単語を構成する各文字と上記読みとを対応付ける場合に
    おいて、 漢字と上記漢字の読みの候補とを対応して記録されてい
    る単漢字読みテーブルを作成する単漢字読みテーブル作
    成手順と;上記表記の構成要素である漢字文字列と、上
    記読みの構成要素である読みの文字列との相互間におけ
    る距離である構成要素間距離を、上記単漢字読みテーブ
    ルを用いて計算する要素間距離計算手順と;文字列にお
    ける上記構成要素間距離の総和が最小になるように、上
    記表記を構成する漢字文字列と上記表記を構成する各1
    文字毎の上記読みとの対応付けを求める最小距離対応付
    け探索手順と;をコンピュータに実行させるプログラム
    を記録したコンピュータ読み取り可能な記録媒体。
  6. 【請求項6】 単語を入力し、この入力された単語に読
    みを振る単語読み振り装置において、 文字とその文字の読みとが対応している文字読み対応付
    きテキストから、読み付き文字bigram頻度データ
    と、読み無し文字bigram頻度データとを求める手
    段と;上記求められた読み付き文字bigram頻度デ
    ータと、上記読み無し文字bigram頻度データとの
    線形和を演算することによって、所定の表記と所定の読
    みとの同時出現確率を計算するための計算式である読み
    付き統計的言語モデルと;所定の表記と所定の読みとの
    同時出現確率を、上記読み付き統計的言語モデルに基づ
    いて計算する同時出現確率計算手段と;上記所定の表記
    と上記所定の読みとの組み合わせのうちで、上記同時出
    現確率が最大になる組み合わせを求める最大確率探索手
    段と;を有することを特徴とするテキスト読み振り装
    置。
  7. 【請求項7】 単語を入力し、この入力された単語に読
    みを振る単語読み振り方法において、 文字とその文字の読みとが対応している文字読み対応付
    きテキストから、読み付き文字bigram頻度データ
    と、読み無し文字bigram頻度データとを求める段
    階と;上記求められた読み付き文字bigram頻度デ
    ータと、上記読み無し文字bigram頻度データとの
    線形和を演算することによって、所定の表記と所定の読
    みとの同時出現確率を計算するための計算式である読み
    付き統計的言語モデルを作成する段階と;所定の表記と
    所定の読みとの同時出現確率を、上記読み付き統計的言
    語モデルに基づいて計算する同時出現確率計算段階と;
    上記所定の表記と上記所定の読みとの組み合わせのうち
    で、上記同時出現確率が最大になる組み合わせを求める
    最大確率探索段階と;を有することを特徴とするテキス
    ト読み振り方法。
  8. 【請求項8】 単語を入力し、この入力された単語に読
    みを振る場合、 文字とその文字の読みとが対応している文字読み対応付
    きテキストから、読み付き文字bigram頻度データ
    と、読み無し文字bigram頻度データとを求める手
    順と;上記求められた読み付き文字bigram頻度デ
    ータと、上記読み無し文字bigram頻度データとの
    線形和を演算することによって、所定の表記と所定の読
    みとの同時出現確率を計算するための計算式である読み
    付き統計的言語モデルを作成する手順と;所定の表記と
    所定の読みとの同時出現確率を、上記読み付き統計的言
    語モデルに基づいて計算する同時出現確率計算手順と;
    上記所定の表記と上記所定の読みとの組み合わせのうち
    で、上記同時出現確率が最大になる組み合わせを求める
    最大確率探索手順と;をコンピュータに実行させるプロ
    グラムを記録したコンピュータ読み取り可能な記録媒
    体。
JP11165197A 1999-06-11 1999-06-11 表記・読み対応付け装置、表記・読み対応辞書作成方法、テキスト読み振り装置、テキスト読み振り方法および記録媒体 Pending JP2000353159A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11165197A JP2000353159A (ja) 1999-06-11 1999-06-11 表記・読み対応付け装置、表記・読み対応辞書作成方法、テキスト読み振り装置、テキスト読み振り方法および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11165197A JP2000353159A (ja) 1999-06-11 1999-06-11 表記・読み対応付け装置、表記・読み対応辞書作成方法、テキスト読み振り装置、テキスト読み振り方法および記録媒体

Publications (1)

Publication Number Publication Date
JP2000353159A true JP2000353159A (ja) 2000-12-19

Family

ID=15807691

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11165197A Pending JP2000353159A (ja) 1999-06-11 1999-06-11 表記・読み対応付け装置、表記・読み対応辞書作成方法、テキスト読み振り装置、テキスト読み振り方法および記録媒体

Country Status (1)

Country Link
JP (1) JP2000353159A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007171275A (ja) * 2005-12-19 2007-07-05 Canon Inc 言語処理装置及び現後処理方法
JP2014164403A (ja) * 2013-02-22 2014-09-08 Nippon Hoso Kyokai <Nhk> 読みがな割当装置およびプログラム
JP2014232510A (ja) * 2013-05-30 2014-12-11 日本電信電話株式会社 読み仮名修正モデル学習装置と読み仮名修正装置とそれらの方法とプログラム
JP2015138126A (ja) * 2014-01-22 2015-07-30 富士通株式会社 音声辞書作成装置、音声辞書作成方法および音声辞書作成プログラム
JP2018067125A (ja) * 2016-10-19 2018-04-26 日本放送協会 読み推定装置及びプログラム
CN110619112A (zh) * 2019-08-08 2019-12-27 北京金山安全软件有限公司 用于汉字的读音标注方法、装置、电子设备及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007171275A (ja) * 2005-12-19 2007-07-05 Canon Inc 言語処理装置及び現後処理方法
JP2014164403A (ja) * 2013-02-22 2014-09-08 Nippon Hoso Kyokai <Nhk> 読みがな割当装置およびプログラム
JP2014232510A (ja) * 2013-05-30 2014-12-11 日本電信電話株式会社 読み仮名修正モデル学習装置と読み仮名修正装置とそれらの方法とプログラム
JP2015138126A (ja) * 2014-01-22 2015-07-30 富士通株式会社 音声辞書作成装置、音声辞書作成方法および音声辞書作成プログラム
JP2018067125A (ja) * 2016-10-19 2018-04-26 日本放送協会 読み推定装置及びプログラム
CN110619112A (zh) * 2019-08-08 2019-12-27 北京金山安全软件有限公司 用于汉字的读音标注方法、装置、电子设备及存储介质
CN110619112B (zh) * 2019-08-08 2024-03-05 北京金山安全软件有限公司 用于汉字的读音标注方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
JP4652737B2 (ja) 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、
JP5997217B2 (ja) 言語変換において複数の読み方の曖昧性を除去する方法
JP5377889B2 (ja) 言語処理装置およびプログラム
KR101425182B1 (ko) 타이핑 효율을 증강시키기 위한 타이핑 후보생성방법
JP2003514304A5 (ja)
JP2006031228A (ja) 形態素解析装置、方法及びプログラム
JP4738847B2 (ja) データ検索装置および方法
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
JPH10326275A (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
JP2000298667A (ja) 構文情報による漢字変換装置
US20190286702A1 (en) Display control apparatus, display control method, and computer-readable recording medium
JP2000353159A (ja) 表記・読み対応付け装置、表記・読み対応辞書作成方法、テキスト読み振り装置、テキスト読み振り方法および記録媒体
JP7102710B2 (ja) 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法
JPWO2007114181A1 (ja) データ入力装置、方法、及びプログラム
KR100629862B1 (ko) 외래어를 한국어로 표기하기 위한 한국어 표기장치 및 방법
JP2009157888A (ja) 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム
JPH05113964A (ja) 電子辞書
JP5169602B2 (ja) 形態素解析装置、形態素解析方法及びコンピュータプログラム
Daciuk Treatment of unknown words
JPWO2007114182A1 (ja) データ入力装置、方法、及びプログラム
JP3961858B2 (ja) 翻字装置及びそのプログラム
JP7200474B2 (ja) 変換補助装置、変換補助システム、変換補助方法及びコンピュータプログラム
JP5445244B2 (ja) 音声合成装置、音声合成方法、及び音声合成プログラム
US11080488B2 (en) Information processing apparatus, output control method, and computer-readable recording medium
KR20070083757A (ko) 텍스트 데이터 구조, 텍스트 데이터 처리방법, 텍스트데이터 처리 프로그램 및 텍스트 데이터 처리 프로그램을기록한 기록 매체

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040611

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040810

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040827

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040924