JP2009211287A - 文字処理装置 - Google Patents
文字処理装置 Download PDFInfo
- Publication number
- JP2009211287A JP2009211287A JP2008052216A JP2008052216A JP2009211287A JP 2009211287 A JP2009211287 A JP 2009211287A JP 2008052216 A JP2008052216 A JP 2008052216A JP 2008052216 A JP2008052216 A JP 2008052216A JP 2009211287 A JP2009211287 A JP 2009211287A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- conversion rule
- word
- concatenated
- average value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】 単語尤度計算手段4が、形態素解析結果の各文字列の単語らしさ(単語尤度)を算出し、変換ルール生成手段5が、形態素解析結果の1以上の文字列を抽出元の文中の順序に沿って連結した各連結文字列について、その構成要素である各文字列の単語尤度の平均値に基づいて第1連結文字列に該当するか判定し、第1連結文字列と判定された連結文字列の区切位置を異ならせた各連結文字列について、その構成要素である各文字列の単語尤度の平均値に基づいて第2連結文字列に該当するか判定し、第1連結文字列における区切位置を対応する第2連結文字列における区切位置に変換する変換ルールを生成する。
【選択図】 図1
Description
テキストを単語に分割する処理(品詞を付与する処理も含めて)は、一般に形態素解析と呼ばれている。形態素解析の解析精度は、新聞テキスト等の一般的なテキストを対象とした場合は、実用上十分な値が得られている。しかしながら、医学テキストのように専門用語が多く含まれるテキストを対象とする場合は、形態素解析に必要な単語辞書が十分に整備されていないため、解析精度が実用上十分なレベルに達しているとは言い難い。
このような誤り駆動モデルでは、テキストに対して正しい単語区切りの情報が付与された正解コーパスを用意し、同じテキストの形態素解析結果と該正解コーパスの単語区切りとを比較することによって、形態素解析処理から得られる単語区切りを正しい単語区切りに変換するルールを生成する。そして、このルールを形態素解析結果に適用することにより、単語辞書が十分整備されていない分野のテキストを対象とする場合であっても極めて高い精度の単語区切り結果を得ることが可能となる。
以下に例示する形態素解析システムでは、ある分野のテキストを対象とした場合に実用上十分な解析精度(99%程度)を得ることができる形態素解析手段の使用を前提とし、さらに、それを他の分野(例えば医療分野)のテキストに適用した場合には実使用レベルの一歩手前(95%程度)の解析精度が得られている状況を前提とする。また、後者の分野のテキストにおいて、正解コーパスが存在しないことも前提とする。なお、十分な量の正解コーパスが存在する場合は、本発明に係る手法を用いず、正解コーパスからの学習により形態素解析手段を構築することが好ましい。また、実使用レベルよりも遥かに低い精度(90%以下など)しか得られない分野のテキストに適用しても、誤り駆動モデルによって実用上十分な解析精度に改善することは困難である。
本例の形態素解析システムは、同一分野(本例では医療分野)の複数のテキストを格納するテキスト格納手段1、テキスト格納手段1に格納されているテキストに対して形態素解析を行う形態素解析手段2、形態素解析結果を格納する形態素解析結果格納手段3、任意の文字列の単語らしさを示す値(単語尤度)を計算する単語尤度計算手段4、形態素解析結果を修正するための変換ルールの候補を生成する変換ルール生成手段5、変換ルール候補から有効な変換ルールを選択する変換ルール選択手段6、形態素解析結果に変換ルールを適用する変換ルール適用手段7、を備えている。
例えば「軽度のび慢性を認める。」という文(テキスト)を形態素解析した場合、図2に示すような結果が得られて形態素解析結果格納手段3に格納される。同図によると、形態素解析の結果として、「軽度(名詞)」、「のび(動詞)」、「慢性(名詞)」、「を(格助詞)」、「認める(動詞)」、「。(句点)」、が得られたことがわかる。
単語尤度の定義は様々なものが考えられるが、本例では非特許文献3で提案されている以下の定義を、文字列Cの単語尤度WTとして用いている。
WT = length * ((log(totalCount) + log(count))
ここで、lengthは文字列Cを構成する文字数、totalCountは形態素解析結果格納手段3に格納されている全単語数、countはテキスト格納手段1に格納されている全てのテキスト中に文字列Cが出現する回数である。
勿論、他の手法により単語尤度を定義してもよく、例えば「単語長×単語出現頻度」を単語尤度としてもよい。
本例では、例えば非特許文献1で提案されている以下の変換ルールをテンプレートとして用いている。
a1…aKW1…Wnb1…bL ⇒ a1…aKW1’…Wm’b1…bL
ここで、ap(p=1…K)、bq(q=1…L)、Wr(r=1…n)、Ws’(s=1…m)はそれぞれ単語(文字列)であり、a1…aK、b1…bL、W1…Wn、W1’…Wm’はそれぞれ単語列(1以上の文字列の連結)である。すなわち、上記ルールは、単語列W1…Wnの前後の単語列がそれぞれa1…aK、b1…bLである場合に、W1…WnをW1’…Wm’に変換するルールである。なお、本例では、L=K=1としている。(通常、データスパースネスの問題からL=K=1とされる。2以上の値を用いると、変換ルールの適用場面が著しき限定されるため、変換ルールの汎用性が低下して実用性に乏しくなるからである。)
変換ルール生成手段5は、形態素解析結果格納手段3に格納されている形態素解析結果の各文字列の単語尤度WTを単語尤度計算手段4から受け取る。
そして、形態素解析結果を先頭から走査して得られる単語列(形態素解析結果の1以上の文字列を抽出元の文中の順序に沿って連結した連結文字列)W1…Wnについて、その構成要素である各文字列の単語尤度の平均値(WTn)が閾値T1(予め設定した非負の実数)よりも小さい第1連結文字列か否かを判定し、第1連結文字列と判定された連結文字列とその前後の一単語を変換ルールの左辺として抽出する(ステップS11)。
例えば、第1連結文字列W1…Wnが「のび/慢性」の場合、図4に示すように、「のび慢性」、「の/び慢性」、「のび/慢性」、「のび慢/性」、「の/び/慢性」、「のび/慢/性」、「の/び/慢/性」の各区切り候補が得られる。
軽度(名詞)/のび(動詞)/慢性(名詞)/を(格助詞)
⇒ 軽度(名詞)/の(未知語)/び慢性(未知語)/を(格助詞)
つまり、第1連結文字列「のび/慢性」における区切位置が、対応する第2連結文字列「の/び慢性」における区切位置に変換する変換ルールが生成される。
本例では、非特許文献1での手法と同様に品詞情報を各単語に付与しているが、変換ルールの右辺側の書換え文字列については品詞が特定できていないため、品詞が不明であることを意味する「未知語」を付与している。
つまり、変換ルール選択手段6が、変換ルール生成手段5により生成された変換ルールの候補から一つを選び(ステップS21)、その変換ルールを形態素解析結果格納手段3に格納されている形態素解析結果に適用し、その結果得られた新たな区切位置からなる各文字列の単語尤度の平均値(WTa)から、変換ルール適用前の形態素解析結果格納手段3中の各文字列の単語尤度の平均値(WTb)を差し引いた値(WTc)が、第4閾値(予め設定した非負の実数)よりも大きいか否かを判定し、当該条件を満たす変換ルールを選出して最終的な変換ルールの集合に加える処理(ステップS22)を、変換ルールの候補の全てについて繰り返す(ステップS23)。つまり、各変換ルールの候補の中から、その適用により単語尤度の平均値に一定の向上が見られるものを選出する。
要は、区切位置の変更の前後で単語尤度の平均値に一定の向上が見られたものを第2連結文字列と判定できればよく、例えば、第1条件のみを用いる場合は、閾値T2を閾値T1に所定値(非負の実数)を加えた値としておけばよい。
例えば、変換ルール選択手段6の選択結果に対して更に人手で変換ルールの新規追加や取捨選択を行うことが可能なユーザインターフェースを設ける。これにより、専門家の知見を活かして変換ルールの生成や選択を行うことが可能となり、より精度の高い形態素解析システムを構築することが可能となる。
すなわち、本例の文字処理装置は、各種演算処理を行うCPU11、CPU11の作業領域となるRAM12、基本的な制御プログラムを記憶するROM13、本発明に係る機能を実現するためのプログラムや各種データを記憶するHDD14、利用者に対する情報を表示出力する液晶ディスプレイや利用者からの情報の入力を受け付けるマウス・キーボード等の機器とのインターフェースである入出力I/F15、他の装置との間で通信を行うインターフェースである通信I/F16、等のハードウェア資源を有するコンピュータで構成されている。
Claims (6)
- 1以上の文字からなる文字列の単語らしさを示す単語尤度を算出する算出手段と、
1以上の文字列を連結した連結文字列が、当該連結文字列中の各文字列の単語尤度の平均値である第1平均値が所定の第1閾値を下回る第1連結文字列であるか否かを判定する第1判定手段と、
第1連結文字列における文字列区切りの位置を異ならせた連結文字列が、当該連結文字列中の各文字列の単語尤度の平均値である第2平均値が所定の第2閾値を上回る条件、又は、第2平均値から第1平均値を差し引いた値が所定の第3閾値を上回る条件、又は、これら両方を満たす条件のいずれか、を満たす第2連結文字列であるか否かを判定する第2判定手段と、
第1連結文字列における区切位置を対応する第2連結文字列における区切位置に変換する変換ルールを生成する生成手段と、
を備えたことを特徴とする文字処理装置。 - 前記生成手段により生成される変換ルールは、第1連結文字列の抽出元の文中における当該第1連結文字列の直前又は直後に位置する1以上の文字列を含む変換ルールであることを特徴とする請求項1に記載の文字処理装置。
- 前記生成手段は、生成した変換ルールを一般化して新たな変換ルールを生成することを特徴とする請求項1又は請求項2に記載の文字処理装置。
- 前記文字処理装置は、文を複数の文字列に区切る区切手段を備え、
前記第1判定手段は、前記区切手段により区切られた1以上の文字列を前記文中の順序に沿って連結した連結文字列が第1連結文字列か否かを判定することを特徴とする請求項1乃至請求項3のいずれか1項に記載の文字処理装置。 - 前記第1判定手段は、複数に区切られた文に含まれる1以上の文字列を当該文中の順序に沿って連結した連結文字列が第1連結文字列か否かを判定するものであり、
前記文字処理装置は、
前記文の全体に変換ルールを適用する適用手段と、
前記生成手段により生成された複数の変換ルールから、変換ルール適用後の区切位置に基づく前記文中の各文字列の単語尤度の平均値から変換ルール適用前の区切位置に基づく前記文中の各文字列の単語尤度の平均値を差し引いた値が第4閾値を上回る変換ルールを選出する選出手段と、
を備えたことを特徴とする請求項1乃至請求項4のいずれか1項に記載の文字処理装置。 - コンピュータに、
1以上の文字からなる文字列の単語らしさを示す単語尤度を算出する算出機能と、
1以上の文字列を連結した連結文字列が、当該連結文字列中の各文字列の単語尤度の平均値である第1平均値が所定の第1閾値を下回る第1連結文字列であるか否かを判定する第1判定機能と、
第1連結文字列における文字列区切りの位置を異ならせた連結文字列が、当該連結文字列中の各文字列の単語尤度の平均値である第2平均値が所定の第2閾値を上回る条件、又は、第2平均値から第1平均値を差し引いた値が所定の第3閾値を上回る条件、又は、これら両方を満たす条件のいずれか、を満たす第2連結文字列であるか否かを判定する第2判定機能と、
第1連結文字列における区切位置を対応する第2連結文字列における区切位置に変換する変換ルールを生成する生成機能と、
をコンピュータに実現させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008052216A JP5115239B2 (ja) | 2008-03-03 | 2008-03-03 | 文字処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008052216A JP5115239B2 (ja) | 2008-03-03 | 2008-03-03 | 文字処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009211287A true JP2009211287A (ja) | 2009-09-17 |
JP5115239B2 JP5115239B2 (ja) | 2013-01-09 |
Family
ID=41184374
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008052216A Active JP5115239B2 (ja) | 2008-03-03 | 2008-03-03 | 文字処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5115239B2 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259630A (ja) * | 1999-03-12 | 2000-09-22 | Nippon Telegr & Teleph Corp <Ntt> | 機械翻訳方法及びその装置並びに機械翻訳プログラムを記憶した媒体 |
JP2005258678A (ja) * | 2004-03-10 | 2005-09-22 | Nippon Telegr & Teleph Corp <Ntt> | 単語抽出方法、装置、およびプログラム |
-
2008
- 2008-03-03 JP JP2008052216A patent/JP5115239B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259630A (ja) * | 1999-03-12 | 2000-09-22 | Nippon Telegr & Teleph Corp <Ntt> | 機械翻訳方法及びその装置並びに機械翻訳プログラムを記憶した媒体 |
JP2005258678A (ja) * | 2004-03-10 | 2005-09-22 | Nippon Telegr & Teleph Corp <Ntt> | 単語抽出方法、装置、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5115239B2 (ja) | 2013-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Akın et al. | Zemberek, an open source NLP framework for Turkic languages | |
JP4769031B2 (ja) | 言語モデルを作成する方法、かな漢字変換方法、その装置、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体 | |
JP6955963B2 (ja) | 検索装置、類似度算出方法、およびプログラム | |
JP2021197133A (ja) | 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム | |
TWI567569B (zh) | Natural language processing systems, natural language processing methods, and natural language processing programs | |
JP2001101185A (ja) | 辞書の自動切り換えが可能な機械翻訳方法および装置並びにそのような機械翻訳方法を実行するためのプログラムを記憶したプログラム記憶媒体 | |
JP2021047817A (ja) | 出力装置、及び出力プログラム | |
JP6867963B2 (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
Sarkar | Part-of-speech tagging for code-mixed indian social media text at icon 2015 | |
JP5447368B2 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
JP2009295052A (ja) | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム | |
JP2014106707A (ja) | 単語分割装置、単語分割用辞書のデータ構造、単語分割方法、およびプログラム | |
US11842152B2 (en) | Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program | |
Forsberg et al. | Learning transducer models for morphological analysis from example inflections | |
JP5115239B2 (ja) | 文字処理装置 | |
US20220215168A1 (en) | Information processing device, information processing method, and program | |
CN114201957A (zh) | 文本情感分析方法、装置及计算机可读存储介质 | |
JP6303508B2 (ja) | 文書分析装置、文書分析システム、文書分析方法およびプログラム | |
JP4940251B2 (ja) | 文書処理プログラム及び文書処理装置 | |
JP2017041207A (ja) | 構造解析装置、方法、及びプログラム | |
US20180033425A1 (en) | Evaluation device and evaluation method | |
JP2008140204A (ja) | データ検索システム及びプログラム | |
CN111259159A (zh) | 数据挖掘方法、装置和计算机可读存储介质 | |
JP3961858B2 (ja) | 翻字装置及びそのプログラム | |
CN111160042B (zh) | 一种文本语义解析方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20101118 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110223 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120918 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121001 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5115239 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151026 Year of fee payment: 3 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |