JP2009211287A - 文字処理装置 - Google Patents

文字処理装置 Download PDF

Info

Publication number
JP2009211287A
JP2009211287A JP2008052216A JP2008052216A JP2009211287A JP 2009211287 A JP2009211287 A JP 2009211287A JP 2008052216 A JP2008052216 A JP 2008052216A JP 2008052216 A JP2008052216 A JP 2008052216A JP 2009211287 A JP2009211287 A JP 2009211287A
Authority
JP
Japan
Prior art keywords
character string
conversion rule
word
concatenated
average value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008052216A
Other languages
English (en)
Other versions
JP5115239B2 (ja
Inventor
Hiroshi Masuichi
博 増市
Tomoko Okuma
智子 大熊
Daigo Sugihara
大悟 杉原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2008052216A priority Critical patent/JP5115239B2/ja
Publication of JP2009211287A publication Critical patent/JP2009211287A/ja
Application granted granted Critical
Publication of JP5115239B2 publication Critical patent/JP5115239B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】 単語辞書や正解コーパスが整備されていない分野のテキストを対象とする場合であっても、高い精度の単語区切り結果が得られる形態素解析システムを実現する技術を提供する。
【解決手段】 単語尤度計算手段4が、形態素解析結果の各文字列の単語らしさ(単語尤度)を算出し、変換ルール生成手段5が、形態素解析結果の1以上の文字列を抽出元の文中の順序に沿って連結した各連結文字列について、その構成要素である各文字列の単語尤度の平均値に基づいて第1連結文字列に該当するか判定し、第1連結文字列と判定された連結文字列の区切位置を異ならせた各連結文字列について、その構成要素である各文字列の単語尤度の平均値に基づいて第2連結文字列に該当するか判定し、第1連結文字列における区切位置を対応する第2連結文字列における区切位置に変換する変換ルールを生成する。
【選択図】 図1

Description

本発明は、形態素解析等によるテキスト分割の結果を変換するための変換ルールを生成する文字処理装置及びプログラムに関する。
テキスト中からキーワードを抽出する技術(テキストを単語単位に分割する技術)は、テキスト検索、テキスト分類などの言語処理タスクを行なう上で重要な役割を果たす。例えば、テキストに対して適切なキーワードを付与することができれば、精度の高いテキスト検索やテキスト分類を行なうことが可能となる。
テキストを単語に分割する処理(品詞を付与する処理も含めて)は、一般に形態素解析と呼ばれている。形態素解析の解析精度は、新聞テキスト等の一般的なテキストを対象とした場合は、実用上十分な値が得られている。しかしながら、医学テキストのように専門用語が多く含まれるテキストを対象とする場合は、形態素解析に必要な単語辞書が十分に整備されていないため、解析精度が実用上十分なレベルに達しているとは言い難い。
ここで、辞書が整備されていない分野のテキストを対象とする場合であっても高い解析精度を得るための手法として、誤り駆動モデルに基づく形態素解析の手法が提案されている(例えば、特許文献1、非特許文献1、非特許文献2)。
このような誤り駆動モデルでは、テキストに対して正しい単語区切りの情報が付与された正解コーパスを用意し、同じテキストの形態素解析結果と該正解コーパスの単語区切りとを比較することによって、形態素解析処理から得られる単語区切りを正しい単語区切りに変換するルールを生成する。そして、このルールを形態素解析結果に適用することにより、単語辞書が十分整備されていない分野のテキストを対象とする場合であっても極めて高い精度の単語区切り結果を得ることが可能となる。
特開2000−040085号公報 「書き換え規則と文脈情報を用いた形態素解析後処理」、情報処理学会研究報告、NL-126、1998、p.55-62 「誤り駆動モデルに基づく中国語未登録語の認識」、情報処理学会研究報告、NL-134、1999、p.123-129 岡野原、「単語抽出法による次世代データ圧縮法の開発」、[online]、平成14年度未踏ソフトウェア創造事業未踏Youth研究報告、インターネット<URL:http://homepage3.nifty.com/DO/okamito04.pdf>
上記のような誤り駆動モデルに基づく形態素解析手法においては、正解コーパスを用意しておく必要がある。ここで、正解コーパスの作成には一般に多大な工数が必要であり、特に、医学分野のように専門性の高い分野の正解コーパスの作成は専門家が実施しなければならないため、作成コストが極めて大きくなってしまう。また、正解コーパスを用いずに単語らしさの統計値のみを用いてキーワード抽出を行なう手法の提案(例えば、非特許文献3参照)も行なわれているが、この場合は、既存の形態素解析で整備されている形態素解析用辞書を全く用いることができないため、精度の低い解析結果しか得ることができない。
本発明は、上記従来の事情に鑑みてなされたものであり、単語辞書や正解コーパスが整備されていない分野のテキストを対象とする場合であっても、高い精度の単語区切り結果が得られる形態素解析システムを実現する技術を提供することを目的としている。
第1の本発明は、1以上の文字からなる文字列の単語らしさを示す単語尤度を算出する算出手段と、1以上の文字列を連結した連結文字列が、当該連結文字列中の各文字列の単語尤度の平均値である第1平均値が所定の第1閾値を下回る第1連結文字列であるか否かを判定する第1判定手段と、第1連結文字列における文字列区切りの位置を異ならせた連結文字列が、当該連結文字列中の各文字列の単語尤度の平均値である第2平均値が所定の第2閾値を上回る条件、又は、第2平均値から第1平均値を差し引いた値が所定の第3閾値を上回る条件、又は、これら両方を満たす条件のいずれか、を満たす第2連結文字列であるか否かを判定する第2判定手段と、第1連結文字列における区切位置を対応する第2連結文字列における区切位置に変換する変換ルールを生成する生成手段と、を備えたことを特徴とする文字処理装置である。
第2の本発明は、第1の本発明において、前記生成手段により生成される変換ルールは、第1連結文字列の抽出元の文中における当該第1連結文字列の直前又は直後に位置する1以上の文字列を含む変換ルールであることを特徴とする。
第3の本発明は、第1又は第2の本発明において、前記生成手段は、生成した変換ルールを一般化して新たな変換ルールを生成することを特徴とする。
第4の本発明は、第1〜第3の本発明において、前記文字処理装置は、文を複数の文字列に区切る区切手段を備え、前記第1判定手段は、前記区切手段により区切られた1以上の文字列を前記文中の順序に沿って連結した連結文字列が第1連結文字列か否かを判定することを特徴とする。
第5の本発明は、第1〜第4の本発明において、前記第1判定手段は、複数に区切られた文に含まれる1以上の文字列を当該文中の順序に沿って連結した連結文字列が第1連結文字列か否かを判定するものであり、前記文字処理装置は、前記文の全体に変換ルールを適用する適用手段と、前記生成手段により生成された複数の変換ルールから、変換ルール適用後の区切位置に基づく前記文中の各文字列の単語尤度の平均値から変換ルール適用前の区切位置に基づく前記文中の各文字列の単語尤度の平均値を差し引いた値が第4閾値を上回る変換ルールを選出する選出手段と、を備えたことを特徴とする。
第6の本発明は、コンピュータに、1以上の文字からなる文字列の単語らしさを示す単語尤度を算出する算出機能と、1以上の文字列を連結した連結文字列が、当該連結文字列中の各文字列の単語尤度の平均値である第1平均値が所定の第1閾値を下回る第1連結文字列であるか否かを判定する第1判定機能と、第1連結文字列における文字列区切りの位置を異ならせた連結文字列が、当該連結文字列中の各文字列の単語尤度の平均値である第2平均値が所定の第2閾値を上回る条件、又は、第2平均値から第1平均値を差し引いた値が所定の第3閾値を上回る条件、又は、これら両方を満たす条件のいずれか、を満たす第2連結文字列であるか否かを判定する第2判定機能と、第1連結文字列における区切位置を対応する第2連結文字列における区切位置に変換する変換ルールを生成する生成機能と、をコンピュータに実現させるためのプログラムである。
第1の本発明に係る文字処理装置によると、連結文字列中の各文字列の単語尤度の平均値に基づいて変換ルールを生成することから、単語辞書や正解コーパスを用意する必要が無いため、単語辞書や正解コーパスが整備されていない分野のテキストを対象とする場合であっても、当該生成された変換ルールを用いることで、高い精度の単語区切り結果が得られる形態素解析システムを実現することができる。
第2の本発明に係る文字処理装置によると、第1連結文字列の前後の文字列により変換ルールの適用場面が制限されるため、より適切な場面で適用される変換ルールを生成することができる。
第3の本発明に係る文字処理装置によると、変換ルールの一般化によりその適用場面が緩和されるため、より汎用的に適用される変換ルールを生成することができる。
第4の本発明に係る文字処理装置によると、形態素解析の結果に基づいて変換ルールを生成することができる。
第5の本発明に係る文字処理装置によると、複数生成された変換ルールの候補の中から、より好適な変換ルールを選出することができる。
第6の本発明に係るプログラムによると、上記の文字処理装置としてコンピュータを機能させることができる。
本発明を、一実施形態に基づいて具体的に説明する。
以下に例示する形態素解析システムでは、ある分野のテキストを対象とした場合に実用上十分な解析精度(99%程度)を得ることができる形態素解析手段の使用を前提とし、さらに、それを他の分野(例えば医療分野)のテキストに適用した場合には実使用レベルの一歩手前(95%程度)の解析精度が得られている状況を前提とする。また、後者の分野のテキストにおいて、正解コーパスが存在しないことも前提とする。なお、十分な量の正解コーパスが存在する場合は、本発明に係る手法を用いず、正解コーパスからの学習により形態素解析手段を構築することが好ましい。また、実使用レベルよりも遥かに低い精度(90%以下など)しか得られない分野のテキストに適用しても、誤り駆動モデルによって実用上十分な解析精度に改善することは困難である。
図1は、本発明を適用して構成した形態素解析システムの機能ブロック図である。
本例の形態素解析システムは、同一分野(本例では医療分野)の複数のテキストを格納するテキスト格納手段1、テキスト格納手段1に格納されているテキストに対して形態素解析を行う形態素解析手段2、形態素解析結果を格納する形態素解析結果格納手段3、任意の文字列の単語らしさを示す値(単語尤度)を計算する単語尤度計算手段4、形態素解析結果を修正するための変換ルールの候補を生成する変換ルール生成手段5、変換ルール候補から有効な変換ルールを選択する変換ルール選択手段6、形態素解析結果に変換ルールを適用する変換ルール適用手段7、を備えている。
本例では、テキスト格納手段1に医療分野のテキストが格納されている。そして、形態素解析手段2が、テキスト格納手段1に格納されている全てのテキストに対して形態素解析を行って、各テキストを形態素解析辞書に応じた複数の文字列(単語の候補)に区切ると共に、それぞれに品詞を付与して形態素解析結果格納手段3に格納している。
例えば「軽度のび慢性を認める。」という文(テキスト)を形態素解析した場合、図2に示すような結果が得られて形態素解析結果格納手段3に格納される。同図によると、形態素解析の結果として、「軽度(名詞)」、「のび(動詞)」、「慢性(名詞)」、「を(格助詞)」、「認める(動詞)」、「。(句点)」、が得られたことがわかる。
単語尤度計算手段4は、任意の文字列(1以上の文字からなる文字列)が与えられたときに、テキスト格納手段1に格納されているテキストを参照することによって、その文字列の単語らしさを示す値(単語尤度)を算出する。
単語尤度の定義は様々なものが考えられるが、本例では非特許文献3で提案されている以下の定義を、文字列Cの単語尤度WTとして用いている。
WT = length * ((log(totalCount) + log(count))
ここで、lengthは文字列Cを構成する文字数、totalCountは形態素解析結果格納手段3に格納されている全単語数、countはテキスト格納手段1に格納されている全てのテキスト中に文字列Cが出現する回数である。
勿論、他の手法により単語尤度を定義してもよく、例えば「単語長×単語出現頻度」を単語尤度としてもよい。
次に、本例の変換ルール生成手段5による変換ルール候補の生成処理を説明する。
本例では、例えば非特許文献1で提案されている以下の変換ルールをテンプレートとして用いている。
…a…W…b ⇒ a…a’…W’b…b
ここで、a(p=1…K)、b(q=1…L)、W(r=1…n)、W’(s=1…m)はそれぞれ単語(文字列)であり、a…a、b…b、W…W、W’…W’はそれぞれ単語列(1以上の文字列の連結)である。すなわち、上記ルールは、単語列W…Wの前後の単語列がそれぞれa…a、b…bである場合に、W…WをW’…W’に変換するルールである。なお、本例では、L=K=1としている。(通常、データスパースネスの問題からL=K=1とされる。2以上の値を用いると、変換ルールの適用場面が著しき限定されるため、変換ルールの汎用性が低下して実用性に乏しくなるからである。)
非特許文献1では正解コーパスの存在を前提にしているが、本例では正解コーパスを用いずに、図3のフローチャートに示す処理により変換ルール候補を生成する。
変換ルール生成手段5は、形態素解析結果格納手段3に格納されている形態素解析結果の各文字列の単語尤度WTを単語尤度計算手段4から受け取る。
そして、形態素解析結果を先頭から走査して得られる単語列(形態素解析結果の1以上の文字列を抽出元の文中の順序に沿って連結した連結文字列)W…Wについて、その構成要素である各文字列の単語尤度の平均値(WTn)が閾値T1(予め設定した非負の実数)よりも小さい第1連結文字列か否かを判定し、第1連結文字列と判定された連結文字列とその前後の一単語を変換ルールの左辺として抽出する(ステップS11)。
例えば、「のび」と「慢性」のWTの平均値(WTn)がT1よりも小さい場合、上記の形態素解析結果から、変換ルールの左辺として、「軽度(名詞)/のび(動詞)/慢性(名詞)/を(格助詞)」が抽出される。この場合、a…a=「軽度(名詞)」、W…W=「のび(動詞)/慢性(名詞)」、b…b=「を(格助詞)」である。
次に、ステップS11で得られた第1連結文字列W…Wに対して、全ての区切り候補(区切位置を異ならせた連結文字列)を列挙する(ステップS12)。
例えば、第1連結文字列W…Wが「のび/慢性」の場合、図4に示すように、「のび慢性」、「の/び慢性」、「のび/慢性」、「のび慢/性」、「の/び/慢性」、「のび/慢/性」、「の/び/慢/性」の各区切り候補が得られる。
その後、各区切り候補について、その構成要素である各文字列の単語尤度の平均値(WTm)が閾値T2(予め設定した非負の実数)よりも大きく、かつ、WTm−WTnが閾値T3(予め設定した非負の実数)よりも大きい第2連結文字列か否かを判定し、第2連結文字列と判定された区切り候補に基づく右辺を有する変換ルールを生成し、変換ルール候補に追加する。なお、区切り候補が上記の判定条件を満たさない場合には、その区切り候補については変換ルールを生成しない(ステップS13)。
例えば、上記の判定条件を満たす区切り候補が「の/び慢性」であったとすれば、以下の変換ルールを得ることができる。
軽度(名詞)/のび(動詞)/慢性(名詞)/を(格助詞)
⇒ 軽度(名詞)/の(未知語)/び慢性(未知語)/を(格助詞)
つまり、第1連結文字列「のび/慢性」における区切位置が、対応する第2連結文字列「の/び慢性」における区切位置に変換する変換ルールが生成される。
本例では、非特許文献1での手法と同様に品詞情報を各単語に付与しているが、変換ルールの右辺側の書換え文字列については品詞が特定できていないため、品詞が不明であることを意味する「未知語」を付与している。
上記の処理を形態素解析結果を先頭から走査して得られる全ての連結文字列に対して行って、変換ルールを生成する。また、変換ルール生成手段5は、非特許文献1で提案されている変換ルールの一般化も併せて行う。つまり、上記処理により得られた変換ルールを一般化して新たな変換ルールを生成し、変換ルール候補に追加する(ステップS14)。
ここで、変換ルールの一般化としては、例えば、W…Wの単語ではなく品詞を対象とする変換ルールとする。つまり、W…Wといった具体的な文字列の合致を条件に適用される変換ルールではなく、W…Wに対応する各品詞の合致を条件に適用される変換ルールとする。また、例えば、b…bを無視(ルールから削除)する変換ルールとする。つまり、W…Wに後続する文字列とは無関係に適用される変換ルールとする。なお、これらは一例に過ぎず、変換ルールの汎用性を高め得る種々の一般化の手法を採用することができる。
上記処理の結果、同一の第1連結文字列に対する複数の変換ルール候補が生成され得るが、本例では図5に示すように、その中から一定の条件を満たすものを選出して最終的な変換ルールの集合としている。
つまり、変換ルール選択手段6が、変換ルール生成手段5により生成された変換ルールの候補から一つを選び(ステップS21)、その変換ルールを形態素解析結果格納手段3に格納されている形態素解析結果に適用し、その結果得られた新たな区切位置からなる各文字列の単語尤度の平均値(WTa)から、変換ルール適用前の形態素解析結果格納手段3中の各文字列の単語尤度の平均値(WTb)を差し引いた値(WTc)が、第4閾値(予め設定した非負の実数)よりも大きいか否かを判定し、当該条件を満たす変換ルールを選出して最終的な変換ルールの集合に加える処理(ステップS22)を、変換ルールの候補の全てについて繰り返す(ステップS23)。つまり、各変換ルールの候補の中から、その適用により単語尤度の平均値に一定の向上が見られるものを選出する。
変換ルール適用手段7は、任意のテキストを形態素解析手段2で形態素解析した結果に対して、変換ルール選択手段6から得られる変換ルール集合に含まれる各変換ルールを適用し、最終的な形態素解析結果を得る。本例では、WTcの値が大きい変換ルールから順に適用し、適用する変換ルールが無くなった場合に処理を終了する。
以上のように、本例では、連結文字列中の各文字列の単語尤度の平均値に基づいて変換ルールを生成することから、単語辞書や正解コーパスを用意する必要が無いため、医療分野のように単語辞書や正解コーパスが整備されていない分野のテキストを対象とする場合であっても、形態素解析結果を修正するための変換ルールの生成を可能にしており、この変換ルールを形態素解析結果に適用することで、高い精度の単語区切り結果が得られる形態素解析システムを実現している。
ここで、本例の変換ルール生成手段5は、第1連結文字列における区切位置を異ならせた各区切候補に対し、WTm(対象の区切り候補に係る単語尤度の平均値)が閾値T2より大きく、かつ、WTmからWTn(第1連結文字列に係る単語尤度の平均値)を差し引いた値が閾値T2より大きい場合に当該区切り候補を第2連結文字列と判定しているが、いずれか一方の条件を満たす場合に第2連結文字列と判定してもよい。
要は、区切位置の変更の前後で単語尤度の平均値に一定の向上が見られたものを第2連結文字列と判定できればよく、例えば、第1条件のみを用いる場合は、閾値T2を閾値T1に所定値(非負の実数)を加えた値としておけばよい。
なお、本例では、単語尤度の平均値が閾値より大きいか(又は小さいか)を比較しているが、単語尤度の平均値が閾値以上(又は以下)であってもよい。このため、本願では、閾値より大きい又は閾値以上であることを「閾値を上回る」と表現し、閾値より小さい又は閾値以下であることを「閾値を下回る」と表現する。
本例の変換ルール選択手段6の機能の拡張について説明する。
例えば、変換ルール選択手段6の選択結果に対して更に人手で変換ルールの新規追加や取捨選択を行うことが可能なユーザインターフェースを設ける。これにより、専門家の知見を活かして変換ルールの生成や選択を行うことが可能となり、より精度の高い形態素解析システムを構築することが可能となる。
例えば、変換ルール選択手段6が変換ルールの選出を行う際に、初期の形態素解析結果ではなく、既に選択された変換ルールを適用した形態素解析結果を用いて次なる変換ルールを選出する。つまり、形態素解析手段2による形態素解析結果に対して最初に選出された変換ルール(単語尤度の平均値が最も向上する最適な変換ルール)を適用し、その結果に対して他の各変換ルールを適用して次なる変換ルールを選出し、以下、これを再帰的に繰り返す。このように、再帰的な変換ルールの選出を行うことで、より好適に変換ルールを選出することが可能となる。
例えば、変換ルール選択手段6が変換ルールの選出を行う際に、初期の形態素解析結果ではなく、既に選択された変換ルールを適用した形態素解析結果を用い、更に、その結果に基づいて変換ルール生成手段5が生成した変換ルールの候補から次なる変換ルールを選出する。つまり、形態素解析手段2による形態素解析結果に対して最初に選出された変換ルールを適用し、その結果に基づいて変換ルール生成手段5により新たに変換ルールの候補を生成し、その中から次なる変換ルールを選出し、以下、これを再帰的に繰り返す。このように、再帰的な変換ルールの生成及び選出を行うことで、より好適に変換ルールを選出することが可能となる。
図6は、本例に係る形態素解析システムを構成する文字処理装置の主要なハードウェア構成を示している。
すなわち、本例の文字処理装置は、各種演算処理を行うCPU11、CPU11の作業領域となるRAM12、基本的な制御プログラムを記憶するROM13、本発明に係る機能を実現するためのプログラムや各種データを記憶するHDD14、利用者に対する情報を表示出力する液晶ディスプレイや利用者からの情報の入力を受け付けるマウス・キーボード等の機器とのインターフェースである入出力I/F15、他の装置との間で通信を行うインターフェースである通信I/F16、等のハードウェア資源を有するコンピュータで構成されている。
そして、本発明に係るプログラムをHDD14から読み出してRAM12に展開し、これをCPU11により実行させることで、本発明に係る文字処理装置の各機能手段をコンピュータにより実現している。なお、本例では、形態素解析手段2により区切手段が構成され、単語尤度計算手段4により算出手段が構成され、変換ルール生成手段5により第1判定手段、第2判定手段、生成手段が構成され、変換ルール選択手段6により選出手段が構成され、変換ルール適用手段7により適用手段が構成されている。
なお、本発明に係るプログラムは、例えば当該プログラムを記憶したCD−ROM等の外部記憶媒体を配布する形式やネットワークを介して配信する形式により、本発明の実施者に提供される。また、本発明に係る各機能手段は、本例のようなソフトウェア構成により実現する態様に限られず、それぞれ専用のハードウエアモジュールで構成してもよい。また、本発明に係る各機能手段は、本例のように1台のコンピュータに設ける態様に限られず、複数台のコンピュータに分散して設けてもよい。
本発明の一実施形態に係る形態素解析システムの機能ブロック図である。 本発明の一実施形態に係る形態素解析結果を例示する図である。 本発明の一実施形態に係る変換ルール生成処理を示す図である。 本発明の一実施形態に係る区切り候補を例示する図である。 本発明の一実施形態に係る変換ルール選出処理を示す図である。 本発明の一実施形態に係る文字処理装置のハードウェア構成図である。
符号の説明
1:テキスト格納手段、 2:形態素解析手段、 3:形態素解析結果格納手段、 4:単語尤度計算手段、 5:変換ルール生成手段、 6:変換ルール選択手段、 7:変換ルール適用手段

Claims (6)

  1. 1以上の文字からなる文字列の単語らしさを示す単語尤度を算出する算出手段と、
    1以上の文字列を連結した連結文字列が、当該連結文字列中の各文字列の単語尤度の平均値である第1平均値が所定の第1閾値を下回る第1連結文字列であるか否かを判定する第1判定手段と、
    第1連結文字列における文字列区切りの位置を異ならせた連結文字列が、当該連結文字列中の各文字列の単語尤度の平均値である第2平均値が所定の第2閾値を上回る条件、又は、第2平均値から第1平均値を差し引いた値が所定の第3閾値を上回る条件、又は、これら両方を満たす条件のいずれか、を満たす第2連結文字列であるか否かを判定する第2判定手段と、
    第1連結文字列における区切位置を対応する第2連結文字列における区切位置に変換する変換ルールを生成する生成手段と、
    を備えたことを特徴とする文字処理装置。
  2. 前記生成手段により生成される変換ルールは、第1連結文字列の抽出元の文中における当該第1連結文字列の直前又は直後に位置する1以上の文字列を含む変換ルールであることを特徴とする請求項1に記載の文字処理装置。
  3. 前記生成手段は、生成した変換ルールを一般化して新たな変換ルールを生成することを特徴とする請求項1又は請求項2に記載の文字処理装置。
  4. 前記文字処理装置は、文を複数の文字列に区切る区切手段を備え、
    前記第1判定手段は、前記区切手段により区切られた1以上の文字列を前記文中の順序に沿って連結した連結文字列が第1連結文字列か否かを判定することを特徴とする請求項1乃至請求項3のいずれか1項に記載の文字処理装置。
  5. 前記第1判定手段は、複数に区切られた文に含まれる1以上の文字列を当該文中の順序に沿って連結した連結文字列が第1連結文字列か否かを判定するものであり、
    前記文字処理装置は、
    前記文の全体に変換ルールを適用する適用手段と、
    前記生成手段により生成された複数の変換ルールから、変換ルール適用後の区切位置に基づく前記文中の各文字列の単語尤度の平均値から変換ルール適用前の区切位置に基づく前記文中の各文字列の単語尤度の平均値を差し引いた値が第4閾値を上回る変換ルールを選出する選出手段と、
    を備えたことを特徴とする請求項1乃至請求項4のいずれか1項に記載の文字処理装置。
  6. コンピュータに、
    1以上の文字からなる文字列の単語らしさを示す単語尤度を算出する算出機能と、
    1以上の文字列を連結した連結文字列が、当該連結文字列中の各文字列の単語尤度の平均値である第1平均値が所定の第1閾値を下回る第1連結文字列であるか否かを判定する第1判定機能と、
    第1連結文字列における文字列区切りの位置を異ならせた連結文字列が、当該連結文字列中の各文字列の単語尤度の平均値である第2平均値が所定の第2閾値を上回る条件、又は、第2平均値から第1平均値を差し引いた値が所定の第3閾値を上回る条件、又は、これら両方を満たす条件のいずれか、を満たす第2連結文字列であるか否かを判定する第2判定機能と、
    第1連結文字列における区切位置を対応する第2連結文字列における区切位置に変換する変換ルールを生成する生成機能と、
    をコンピュータに実現させるためのプログラム。
JP2008052216A 2008-03-03 2008-03-03 文字処理装置 Active JP5115239B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008052216A JP5115239B2 (ja) 2008-03-03 2008-03-03 文字処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008052216A JP5115239B2 (ja) 2008-03-03 2008-03-03 文字処理装置

Publications (2)

Publication Number Publication Date
JP2009211287A true JP2009211287A (ja) 2009-09-17
JP5115239B2 JP5115239B2 (ja) 2013-01-09

Family

ID=41184374

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008052216A Active JP5115239B2 (ja) 2008-03-03 2008-03-03 文字処理装置

Country Status (1)

Country Link
JP (1) JP5115239B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259630A (ja) * 1999-03-12 2000-09-22 Nippon Telegr & Teleph Corp <Ntt> 機械翻訳方法及びその装置並びに機械翻訳プログラムを記憶した媒体
JP2005258678A (ja) * 2004-03-10 2005-09-22 Nippon Telegr & Teleph Corp <Ntt> 単語抽出方法、装置、およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259630A (ja) * 1999-03-12 2000-09-22 Nippon Telegr & Teleph Corp <Ntt> 機械翻訳方法及びその装置並びに機械翻訳プログラムを記憶した媒体
JP2005258678A (ja) * 2004-03-10 2005-09-22 Nippon Telegr & Teleph Corp <Ntt> 単語抽出方法、装置、およびプログラム

Also Published As

Publication number Publication date
JP5115239B2 (ja) 2013-01-09

Similar Documents

Publication Publication Date Title
Akın et al. Zemberek, an open source NLP framework for Turkic languages
JP4769031B2 (ja) 言語モデルを作成する方法、かな漢字変換方法、その装置、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体
JP6955963B2 (ja) 検索装置、類似度算出方法、およびプログラム
JP2021197133A (ja) 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
TWI567569B (zh) Natural language processing systems, natural language processing methods, and natural language processing programs
JP2001101185A (ja) 辞書の自動切り換えが可能な機械翻訳方法および装置並びにそのような機械翻訳方法を実行するためのプログラムを記憶したプログラム記憶媒体
JP2021047817A (ja) 出力装置、及び出力プログラム
JP6867963B2 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
Sarkar Part-of-speech tagging for code-mixed indian social media text at icon 2015
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP2009295052A (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
JP2014106707A (ja) 単語分割装置、単語分割用辞書のデータ構造、単語分割方法、およびプログラム
US11842152B2 (en) Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program
Forsberg et al. Learning transducer models for morphological analysis from example inflections
JP5115239B2 (ja) 文字処理装置
US20220215168A1 (en) Information processing device, information processing method, and program
CN114201957A (zh) 文本情感分析方法、装置及计算机可读存储介质
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム
JP4940251B2 (ja) 文書処理プログラム及び文書処理装置
JP2017041207A (ja) 構造解析装置、方法、及びプログラム
US20180033425A1 (en) Evaluation device and evaluation method
JP2008140204A (ja) データ検索システム及びプログラム
CN111259159A (zh) 数据挖掘方法、装置和计算机可读存储介质
JP3961858B2 (ja) 翻字装置及びそのプログラム
CN111160042B (zh) 一种文本语义解析方法和装置

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20101118

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120918

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121001

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5115239

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151026

Year of fee payment: 3

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350