JP2009211287A

JP2009211287A - 文字処理装置

Info

Publication number: JP2009211287A
Application number: JP2008052216A
Authority: JP
Inventors: Hiroshi Masuichi; 博増市; Tomoko Okuma; 智子大熊; Daigo Sugihara; 大悟杉原
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2008-03-03
Filing date: 2008-03-03
Publication date: 2009-09-17
Anticipated expiration: 2028-03-03
Also published as: JP5115239B2

Abstract

【課題】単語辞書や正解コーパスが整備されていない分野のテキストを対象とする場合であっても、高い精度の単語区切り結果が得られる形態素解析システムを実現する技術を提供する。
【解決手段】単語尤度計算手段４が、形態素解析結果の各文字列の単語らしさ（単語尤度）を算出し、変換ルール生成手段５が、形態素解析結果の１以上の文字列を抽出元の文中の順序に沿って連結した各連結文字列について、その構成要素である各文字列の単語尤度の平均値に基づいて第１連結文字列に該当するか判定し、第１連結文字列と判定された連結文字列の区切位置を異ならせた各連結文字列について、その構成要素である各文字列の単語尤度の平均値に基づいて第２連結文字列に該当するか判定し、第１連結文字列における区切位置を対応する第２連結文字列における区切位置に変換する変換ルールを生成する。
【選択図】図１

Description

本発明は、形態素解析等によるテキスト分割の結果を変換するための変換ルールを生成する文字処理装置及びプログラムに関する。

テキスト中からキーワードを抽出する技術（テキストを単語単位に分割する技術）は、テキスト検索、テキスト分類などの言語処理タスクを行なう上で重要な役割を果たす。例えば、テキストに対して適切なキーワードを付与することができれば、精度の高いテキスト検索やテキスト分類を行なうことが可能となる。
テキストを単語に分割する処理（品詞を付与する処理も含めて）は、一般に形態素解析と呼ばれている。形態素解析の解析精度は、新聞テキスト等の一般的なテキストを対象とした場合は、実用上十分な値が得られている。しかしながら、医学テキストのように専門用語が多く含まれるテキストを対象とする場合は、形態素解析に必要な単語辞書が十分に整備されていないため、解析精度が実用上十分なレベルに達しているとは言い難い。

ここで、辞書が整備されていない分野のテキストを対象とする場合であっても高い解析精度を得るための手法として、誤り駆動モデルに基づく形態素解析の手法が提案されている（例えば、特許文献１、非特許文献１、非特許文献２）。
このような誤り駆動モデルでは、テキストに対して正しい単語区切りの情報が付与された正解コーパスを用意し、同じテキストの形態素解析結果と該正解コーパスの単語区切りとを比較することによって、形態素解析処理から得られる単語区切りを正しい単語区切りに変換するルールを生成する。そして、このルールを形態素解析結果に適用することにより、単語辞書が十分整備されていない分野のテキストを対象とする場合であっても極めて高い精度の単語区切り結果を得ることが可能となる。

特開２０００−０４００８５号公報「書き換え規則と文脈情報を用いた形態素解析後処理」、情報処理学会研究報告、NL-126、1998、p.55-62 「誤り駆動モデルに基づく中国語未登録語の認識」、情報処理学会研究報告、NL-134、1999、p.123-129 岡野原、「単語抽出法による次世代データ圧縮法の開発」、［online］、平成１４年度未踏ソフトウェア創造事業未踏Youth研究報告、インターネット＜URL:http://homepage3.nifty.com/DO/okamito04.pdf＞

上記のような誤り駆動モデルに基づく形態素解析手法においては、正解コーパスを用意しておく必要がある。ここで、正解コーパスの作成には一般に多大な工数が必要であり、特に、医学分野のように専門性の高い分野の正解コーパスの作成は専門家が実施しなければならないため、作成コストが極めて大きくなってしまう。また、正解コーパスを用いずに単語らしさの統計値のみを用いてキーワード抽出を行なう手法の提案（例えば、非特許文献３参照）も行なわれているが、この場合は、既存の形態素解析で整備されている形態素解析用辞書を全く用いることができないため、精度の低い解析結果しか得ることができない。

本発明は、上記従来の事情に鑑みてなされたものであり、単語辞書や正解コーパスが整備されていない分野のテキストを対象とする場合であっても、高い精度の単語区切り結果が得られる形態素解析システムを実現する技術を提供することを目的としている。

第１の本発明は、１以上の文字からなる文字列の単語らしさを示す単語尤度を算出する算出手段と、１以上の文字列を連結した連結文字列が、当該連結文字列中の各文字列の単語尤度の平均値である第１平均値が所定の第１閾値を下回る第１連結文字列であるか否かを判定する第１判定手段と、第１連結文字列における文字列区切りの位置を異ならせた連結文字列が、当該連結文字列中の各文字列の単語尤度の平均値である第２平均値が所定の第２閾値を上回る条件、又は、第２平均値から第１平均値を差し引いた値が所定の第３閾値を上回る条件、又は、これら両方を満たす条件のいずれか、を満たす第２連結文字列であるか否かを判定する第２判定手段と、第１連結文字列における区切位置を対応する第２連結文字列における区切位置に変換する変換ルールを生成する生成手段と、を備えたことを特徴とする文字処理装置である。

第２の本発明は、第１の本発明において、前記生成手段により生成される変換ルールは、第１連結文字列の抽出元の文中における当該第１連結文字列の直前又は直後に位置する１以上の文字列を含む変換ルールであることを特徴とする。

第３の本発明は、第１又は第２の本発明において、前記生成手段は、生成した変換ルールを一般化して新たな変換ルールを生成することを特徴とする。

第４の本発明は、第１〜第３の本発明において、前記文字処理装置は、文を複数の文字列に区切る区切手段を備え、前記第１判定手段は、前記区切手段により区切られた１以上の文字列を前記文中の順序に沿って連結した連結文字列が第１連結文字列か否かを判定することを特徴とする。

第５の本発明は、第１〜第４の本発明において、前記第１判定手段は、複数に区切られた文に含まれる１以上の文字列を当該文中の順序に沿って連結した連結文字列が第１連結文字列か否かを判定するものであり、前記文字処理装置は、前記文の全体に変換ルールを適用する適用手段と、前記生成手段により生成された複数の変換ルールから、変換ルール適用後の区切位置に基づく前記文中の各文字列の単語尤度の平均値から変換ルール適用前の区切位置に基づく前記文中の各文字列の単語尤度の平均値を差し引いた値が第４閾値を上回る変換ルールを選出する選出手段と、を備えたことを特徴とする。

第６の本発明は、コンピュータに、１以上の文字からなる文字列の単語らしさを示す単語尤度を算出する算出機能と、１以上の文字列を連結した連結文字列が、当該連結文字列中の各文字列の単語尤度の平均値である第１平均値が所定の第１閾値を下回る第１連結文字列であるか否かを判定する第１判定機能と、第１連結文字列における文字列区切りの位置を異ならせた連結文字列が、当該連結文字列中の各文字列の単語尤度の平均値である第２平均値が所定の第２閾値を上回る条件、又は、第２平均値から第１平均値を差し引いた値が所定の第３閾値を上回る条件、又は、これら両方を満たす条件のいずれか、を満たす第２連結文字列であるか否かを判定する第２判定機能と、第１連結文字列における区切位置を対応する第２連結文字列における区切位置に変換する変換ルールを生成する生成機能と、をコンピュータに実現させるためのプログラムである。

第１の本発明に係る文字処理装置によると、連結文字列中の各文字列の単語尤度の平均値に基づいて変換ルールを生成することから、単語辞書や正解コーパスを用意する必要が無いため、単語辞書や正解コーパスが整備されていない分野のテキストを対象とする場合であっても、当該生成された変換ルールを用いることで、高い精度の単語区切り結果が得られる形態素解析システムを実現することができる。

第２の本発明に係る文字処理装置によると、第１連結文字列の前後の文字列により変換ルールの適用場面が制限されるため、より適切な場面で適用される変換ルールを生成することができる。

第３の本発明に係る文字処理装置によると、変換ルールの一般化によりその適用場面が緩和されるため、より汎用的に適用される変換ルールを生成することができる。

第４の本発明に係る文字処理装置によると、形態素解析の結果に基づいて変換ルールを生成することができる。

第５の本発明に係る文字処理装置によると、複数生成された変換ルールの候補の中から、より好適な変換ルールを選出することができる。

第６の本発明に係るプログラムによると、上記の文字処理装置としてコンピュータを機能させることができる。

本発明を、一実施形態に基づいて具体的に説明する。
以下に例示する形態素解析システムでは、ある分野のテキストを対象とした場合に実用上十分な解析精度（９９％程度）を得ることができる形態素解析手段の使用を前提とし、さらに、それを他の分野（例えば医療分野）のテキストに適用した場合には実使用レベルの一歩手前（９５％程度）の解析精度が得られている状況を前提とする。また、後者の分野のテキストにおいて、正解コーパスが存在しないことも前提とする。なお、十分な量の正解コーパスが存在する場合は、本発明に係る手法を用いず、正解コーパスからの学習により形態素解析手段を構築することが好ましい。また、実使用レベルよりも遥かに低い精度（９０％以下など）しか得られない分野のテキストに適用しても、誤り駆動モデルによって実用上十分な解析精度に改善することは困難である。

図１は、本発明を適用して構成した形態素解析システムの機能ブロック図である。
本例の形態素解析システムは、同一分野（本例では医療分野）の複数のテキストを格納するテキスト格納手段１、テキスト格納手段１に格納されているテキストに対して形態素解析を行う形態素解析手段２、形態素解析結果を格納する形態素解析結果格納手段３、任意の文字列の単語らしさを示す値（単語尤度）を計算する単語尤度計算手段４、形態素解析結果を修正するための変換ルールの候補を生成する変換ルール生成手段５、変換ルール候補から有効な変換ルールを選択する変換ルール選択手段６、形態素解析結果に変換ルールを適用する変換ルール適用手段７、を備えている。

本例では、テキスト格納手段１に医療分野のテキストが格納されている。そして、形態素解析手段２が、テキスト格納手段１に格納されている全てのテキストに対して形態素解析を行って、各テキストを形態素解析辞書に応じた複数の文字列（単語の候補）に区切ると共に、それぞれに品詞を付与して形態素解析結果格納手段３に格納している。
例えば「軽度のび慢性を認める。」という文（テキスト）を形態素解析した場合、図２に示すような結果が得られて形態素解析結果格納手段３に格納される。同図によると、形態素解析の結果として、「軽度（名詞）」、「のび（動詞）」、「慢性（名詞）」、「を（格助詞）」、「認める（動詞）」、「。（句点）」、が得られたことがわかる。

単語尤度計算手段４は、任意の文字列（１以上の文字からなる文字列）が与えられたときに、テキスト格納手段１に格納されているテキストを参照することによって、その文字列の単語らしさを示す値（単語尤度）を算出する。
単語尤度の定義は様々なものが考えられるが、本例では非特許文献３で提案されている以下の定義を、文字列Ｃの単語尤度ＷＴとして用いている。
WT = length * ((log(totalCount) + log(count))
ここで、lengthは文字列Ｃを構成する文字数、totalCountは形態素解析結果格納手段３に格納されている全単語数、countはテキスト格納手段１に格納されている全てのテキスト中に文字列Ｃが出現する回数である。
勿論、他の手法により単語尤度を定義してもよく、例えば「単語長×単語出現頻度」を単語尤度としてもよい。

次に、本例の変換ルール生成手段５による変換ルール候補の生成処理を説明する。
本例では、例えば非特許文献１で提案されている以下の変換ルールをテンプレートとして用いている。
ａ_１…ａ_ＫＷ_１…Ｗ_ｎｂ_１…ｂ_Ｌ ⇒ ａ_１…ａ_ＫＷ_１’…Ｗ_ｍ’ｂ_１…ｂ_Ｌ
ここで、ａ_ｐ（ｐ＝１…Ｋ）、ｂ_ｑ（ｑ＝１…Ｌ）、Ｗ_ｒ（ｒ＝１…ｎ）、Ｗ_ｓ’（ｓ＝１…ｍ）はそれぞれ単語（文字列）であり、ａ_１…ａ_Ｋ、ｂ_１…ｂ_Ｌ、Ｗ_１…Ｗ_ｎ、Ｗ_１’…Ｗ_ｍ’はそれぞれ単語列（１以上の文字列の連結）である。すなわち、上記ルールは、単語列Ｗ_１…Ｗ_ｎの前後の単語列がそれぞれａ_１…ａ_Ｋ、ｂ_１…ｂ_Ｌである場合に、Ｗ_１…Ｗ_ｎをＷ_１’…Ｗ_ｍ’に変換するルールである。なお、本例では、Ｌ＝Ｋ＝１としている。（通常、データスパースネスの問題からＬ＝Ｋ＝１とされる。２以上の値を用いると、変換ルールの適用場面が著しき限定されるため、変換ルールの汎用性が低下して実用性に乏しくなるからである。）

非特許文献１では正解コーパスの存在を前提にしているが、本例では正解コーパスを用いずに、図３のフローチャートに示す処理により変換ルール候補を生成する。
変換ルール生成手段５は、形態素解析結果格納手段３に格納されている形態素解析結果の各文字列の単語尤度ＷＴを単語尤度計算手段４から受け取る。
そして、形態素解析結果を先頭から走査して得られる単語列（形態素解析結果の１以上の文字列を抽出元の文中の順序に沿って連結した連結文字列）Ｗ_１…Ｗ_ｎについて、その構成要素である各文字列の単語尤度の平均値（ＷＴｎ）が閾値Ｔ１（予め設定した非負の実数）よりも小さい第１連結文字列か否かを判定し、第１連結文字列と判定された連結文字列とその前後の一単語を変換ルールの左辺として抽出する（ステップＳ１１）。

例えば、「のび」と「慢性」のＷＴの平均値（ＷＴｎ）がＴ１よりも小さい場合、上記の形態素解析結果から、変換ルールの左辺として、「軽度（名詞）／のび（動詞）／慢性（名詞）／を（格助詞）」が抽出される。この場合、ａ_１…ａ_Ｋ＝「軽度（名詞）」、Ｗ_１…Ｗ_ｎ＝「のび（動詞）／慢性（名詞）」、ｂ_１…ｂ_Ｌ＝「を（格助詞）」である。

次に、ステップＳ１１で得られた第１連結文字列Ｗ_１…Ｗ_ｎに対して、全ての区切り候補（区切位置を異ならせた連結文字列）を列挙する（ステップＳ１２）。
例えば、第１連結文字列Ｗ_１…Ｗ_ｎが「のび／慢性」の場合、図４に示すように、「のび慢性」、「の／び慢性」、「のび／慢性」、「のび慢／性」、「の／び／慢性」、「のび／慢／性」、「の／び／慢／性」の各区切り候補が得られる。

その後、各区切り候補について、その構成要素である各文字列の単語尤度の平均値（ＷＴｍ）が閾値Ｔ２（予め設定した非負の実数）よりも大きく、かつ、ＷＴｍ−ＷＴｎが閾値Ｔ３（予め設定した非負の実数）よりも大きい第２連結文字列か否かを判定し、第２連結文字列と判定された区切り候補に基づく右辺を有する変換ルールを生成し、変換ルール候補に追加する。なお、区切り候補が上記の判定条件を満たさない場合には、その区切り候補については変換ルールを生成しない（ステップＳ１３）。

例えば、上記の判定条件を満たす区切り候補が「の／び慢性」であったとすれば、以下の変換ルールを得ることができる。
軽度（名詞）／のび（動詞）／慢性（名詞）／を（格助詞）
⇒ 軽度（名詞）／の（未知語）／び慢性（未知語）／を（格助詞）
つまり、第１連結文字列「のび／慢性」における区切位置が、対応する第２連結文字列「の／び慢性」における区切位置に変換する変換ルールが生成される。
本例では、非特許文献１での手法と同様に品詞情報を各単語に付与しているが、変換ルールの右辺側の書換え文字列については品詞が特定できていないため、品詞が不明であることを意味する「未知語」を付与している。

上記の処理を形態素解析結果を先頭から走査して得られる全ての連結文字列に対して行って、変換ルールを生成する。また、変換ルール生成手段５は、非特許文献１で提案されている変換ルールの一般化も併せて行う。つまり、上記処理により得られた変換ルールを一般化して新たな変換ルールを生成し、変換ルール候補に追加する（ステップＳ１４）。

ここで、変換ルールの一般化としては、例えば、Ｗ_１…Ｗ_ｎの単語ではなく品詞を対象とする変換ルールとする。つまり、Ｗ_１…Ｗ_ｎといった具体的な文字列の合致を条件に適用される変換ルールではなく、Ｗ_１…Ｗ_ｎに対応する各品詞の合致を条件に適用される変換ルールとする。また、例えば、ｂ_１…ｂ_Ｌを無視（ルールから削除）する変換ルールとする。つまり、Ｗ_１…Ｗ_ｎに後続する文字列とは無関係に適用される変換ルールとする。なお、これらは一例に過ぎず、変換ルールの汎用性を高め得る種々の一般化の手法を採用することができる。

上記処理の結果、同一の第１連結文字列に対する複数の変換ルール候補が生成され得るが、本例では図５に示すように、その中から一定の条件を満たすものを選出して最終的な変換ルールの集合としている。
つまり、変換ルール選択手段６が、変換ルール生成手段５により生成された変換ルールの候補から一つを選び（ステップＳ２１）、その変換ルールを形態素解析結果格納手段３に格納されている形態素解析結果に適用し、その結果得られた新たな区切位置からなる各文字列の単語尤度の平均値（ＷＴａ）から、変換ルール適用前の形態素解析結果格納手段３中の各文字列の単語尤度の平均値（ＷＴｂ）を差し引いた値（ＷＴｃ）が、第４閾値（予め設定した非負の実数）よりも大きいか否かを判定し、当該条件を満たす変換ルールを選出して最終的な変換ルールの集合に加える処理（ステップＳ２２）を、変換ルールの候補の全てについて繰り返す（ステップＳ２３）。つまり、各変換ルールの候補の中から、その適用により単語尤度の平均値に一定の向上が見られるものを選出する。

変換ルール適用手段７は、任意のテキストを形態素解析手段２で形態素解析した結果に対して、変換ルール選択手段６から得られる変換ルール集合に含まれる各変換ルールを適用し、最終的な形態素解析結果を得る。本例では、ＷＴｃの値が大きい変換ルールから順に適用し、適用する変換ルールが無くなった場合に処理を終了する。

以上のように、本例では、連結文字列中の各文字列の単語尤度の平均値に基づいて変換ルールを生成することから、単語辞書や正解コーパスを用意する必要が無いため、医療分野のように単語辞書や正解コーパスが整備されていない分野のテキストを対象とする場合であっても、形態素解析結果を修正するための変換ルールの生成を可能にしており、この変換ルールを形態素解析結果に適用することで、高い精度の単語区切り結果が得られる形態素解析システムを実現している。

ここで、本例の変換ルール生成手段５は、第１連結文字列における区切位置を異ならせた各区切候補に対し、ＷＴｍ（対象の区切り候補に係る単語尤度の平均値）が閾値Ｔ２より大きく、かつ、ＷＴｍからＷＴｎ（第１連結文字列に係る単語尤度の平均値）を差し引いた値が閾値Ｔ２より大きい場合に当該区切り候補を第２連結文字列と判定しているが、いずれか一方の条件を満たす場合に第２連結文字列と判定してもよい。
要は、区切位置の変更の前後で単語尤度の平均値に一定の向上が見られたものを第２連結文字列と判定できればよく、例えば、第１条件のみを用いる場合は、閾値Ｔ２を閾値Ｔ１に所定値（非負の実数）を加えた値としておけばよい。

なお、本例では、単語尤度の平均値が閾値より大きいか（又は小さいか）を比較しているが、単語尤度の平均値が閾値以上（又は以下）であってもよい。このため、本願では、閾値より大きい又は閾値以上であることを「閾値を上回る」と表現し、閾値より小さい又は閾値以下であることを「閾値を下回る」と表現する。

本例の変換ルール選択手段６の機能の拡張について説明する。
例えば、変換ルール選択手段６の選択結果に対して更に人手で変換ルールの新規追加や取捨選択を行うことが可能なユーザインターフェースを設ける。これにより、専門家の知見を活かして変換ルールの生成や選択を行うことが可能となり、より精度の高い形態素解析システムを構築することが可能となる。

例えば、変換ルール選択手段６が変換ルールの選出を行う際に、初期の形態素解析結果ではなく、既に選択された変換ルールを適用した形態素解析結果を用いて次なる変換ルールを選出する。つまり、形態素解析手段２による形態素解析結果に対して最初に選出された変換ルール（単語尤度の平均値が最も向上する最適な変換ルール）を適用し、その結果に対して他の各変換ルールを適用して次なる変換ルールを選出し、以下、これを再帰的に繰り返す。このように、再帰的な変換ルールの選出を行うことで、より好適に変換ルールを選出することが可能となる。

例えば、変換ルール選択手段６が変換ルールの選出を行う際に、初期の形態素解析結果ではなく、既に選択された変換ルールを適用した形態素解析結果を用い、更に、その結果に基づいて変換ルール生成手段５が生成した変換ルールの候補から次なる変換ルールを選出する。つまり、形態素解析手段２による形態素解析結果に対して最初に選出された変換ルールを適用し、その結果に基づいて変換ルール生成手段５により新たに変換ルールの候補を生成し、その中から次なる変換ルールを選出し、以下、これを再帰的に繰り返す。このように、再帰的な変換ルールの生成及び選出を行うことで、より好適に変換ルールを選出することが可能となる。

図６は、本例に係る形態素解析システムを構成する文字処理装置の主要なハードウェア構成を示している。
すなわち、本例の文字処理装置は、各種演算処理を行うＣＰＵ１１、ＣＰＵ１１の作業領域となるＲＡＭ１２、基本的な制御プログラムを記憶するＲＯＭ１３、本発明に係る機能を実現するためのプログラムや各種データを記憶するＨＤＤ１４、利用者に対する情報を表示出力する液晶ディスプレイや利用者からの情報の入力を受け付けるマウス・キーボード等の機器とのインターフェースである入出力Ｉ／Ｆ１５、他の装置との間で通信を行うインターフェースである通信Ｉ／Ｆ１６、等のハードウェア資源を有するコンピュータで構成されている。

そして、本発明に係るプログラムをＨＤＤ１４から読み出してＲＡＭ１２に展開し、これをＣＰＵ１１により実行させることで、本発明に係る文字処理装置の各機能手段をコンピュータにより実現している。なお、本例では、形態素解析手段２により区切手段が構成され、単語尤度計算手段４により算出手段が構成され、変換ルール生成手段５により第１判定手段、第２判定手段、生成手段が構成され、変換ルール選択手段６により選出手段が構成され、変換ルール適用手段７により適用手段が構成されている。

なお、本発明に係るプログラムは、例えば当該プログラムを記憶したＣＤ−ＲＯＭ等の外部記憶媒体を配布する形式やネットワークを介して配信する形式により、本発明の実施者に提供される。また、本発明に係る各機能手段は、本例のようなソフトウェア構成により実現する態様に限られず、それぞれ専用のハードウエアモジュールで構成してもよい。また、本発明に係る各機能手段は、本例のように１台のコンピュータに設ける態様に限られず、複数台のコンピュータに分散して設けてもよい。

本発明の一実施形態に係る形態素解析システムの機能ブロック図である。本発明の一実施形態に係る形態素解析結果を例示する図である。本発明の一実施形態に係る変換ルール生成処理を示す図である。本発明の一実施形態に係る区切り候補を例示する図である。本発明の一実施形態に係る変換ルール選出処理を示す図である。本発明の一実施形態に係る文字処理装置のハードウェア構成図である。

符号の説明

１：テキスト格納手段、２：形態素解析手段、３：形態素解析結果格納手段、４：単語尤度計算手段、５：変換ルール生成手段、６：変換ルール選択手段、７：変換ルール適用手段

Claims

１以上の文字からなる文字列の単語らしさを示す単語尤度を算出する算出手段と、
１以上の文字列を連結した連結文字列が、当該連結文字列中の各文字列の単語尤度の平均値である第１平均値が所定の第１閾値を下回る第１連結文字列であるか否かを判定する第１判定手段と、
第１連結文字列における文字列区切りの位置を異ならせた連結文字列が、当該連結文字列中の各文字列の単語尤度の平均値である第２平均値が所定の第２閾値を上回る条件、又は、第２平均値から第１平均値を差し引いた値が所定の第３閾値を上回る条件、又は、これら両方を満たす条件のいずれか、を満たす第２連結文字列であるか否かを判定する第２判定手段と、
第１連結文字列における区切位置を対応する第２連結文字列における区切位置に変換する変換ルールを生成する生成手段と、
を備えたことを特徴とする文字処理装置。
前記生成手段により生成される変換ルールは、第１連結文字列の抽出元の文中における当該第１連結文字列の直前又は直後に位置する１以上の文字列を含む変換ルールであることを特徴とする請求項１に記載の文字処理装置。
前記生成手段は、生成した変換ルールを一般化して新たな変換ルールを生成することを特徴とする請求項１又は請求項２に記載の文字処理装置。
前記文字処理装置は、文を複数の文字列に区切る区切手段を備え、
前記第１判定手段は、前記区切手段により区切られた１以上の文字列を前記文中の順序に沿って連結した連結文字列が第１連結文字列か否かを判定することを特徴とする請求項１乃至請求項３のいずれか１項に記載の文字処理装置。
前記第１判定手段は、複数に区切られた文に含まれる１以上の文字列を当該文中の順序に沿って連結した連結文字列が第１連結文字列か否かを判定するものであり、
前記文字処理装置は、
前記文の全体に変換ルールを適用する適用手段と、
前記生成手段により生成された複数の変換ルールから、変換ルール適用後の区切位置に基づく前記文中の各文字列の単語尤度の平均値から変換ルール適用前の区切位置に基づく前記文中の各文字列の単語尤度の平均値を差し引いた値が第４閾値を上回る変換ルールを選出する選出手段と、
を備えたことを特徴とする請求項１乃至請求項４のいずれか１項に記載の文字処理装置。
コンピュータに、
１以上の文字からなる文字列の単語らしさを示す単語尤度を算出する算出機能と、
１以上の文字列を連結した連結文字列が、当該連結文字列中の各文字列の単語尤度の平均値である第１平均値が所定の第１閾値を下回る第１連結文字列であるか否かを判定する第１判定機能と、
第１連結文字列における文字列区切りの位置を異ならせた連結文字列が、当該連結文字列中の各文字列の単語尤度の平均値である第２平均値が所定の第２閾値を上回る条件、又は、第２平均値から第１平均値を差し引いた値が所定の第３閾値を上回る条件、又は、これら両方を満たす条件のいずれか、を満たす第２連結文字列であるか否かを判定する第２判定機能と、
第１連結文字列における区切位置を対応する第２連結文字列における区切位置に変換する変換ルールを生成する生成機能と、
をコンピュータに実現させるためのプログラム。