JP5206296B2

JP5206296B2 - 類似文章抽出プログラム、方法、装置

Info

Publication number: JP5206296B2
Application number: JP2008258776A
Authority: JP
Inventors: 章文中浜
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-10-03
Filing date: 2008-10-03
Publication date: 2013-06-12
Anticipated expiration: 2028-10-03
Also published as: CN102165443B; WO2010038481A1; US20110172991A1; CN102165443A; JP2010092108A

Description

類似文章の抽出方法に関する。

近年、インターネットやコールセンターで得られるお客様の声（テキスト情報）の収集・分析を行い、分析結果を元にしたアクションにより、製品・サービスの改善や新商品開発を行う企業活動が広く認知・定着化してきた。

ただし、「お客様の声」の分析は、仮説と検証の繰り返しであり、分析目的とするテキスト情報の収集と収集した内容に対するチェックが必要となるため、非常に多くの時間を要する。

また、チェック作業は、深い商品知識を要する人材でないと困難である。
上記理由より、多くの企業では、分析結果を出し、組織に情報を普及させるのに時間的なロスがかなり発生しており、タイムリーなアクションの障壁となっている。

お客様の声の分析作業は、1)目的とするテキスト情報の収集作業、2)内容チェック作業に分かれる。
分析のスピードアップという観点では、目的テキストの高精度な収集が課題となる。目的テキストが高精度で収集できれば、内容チェックの量も最適化され、分析者の負担軽減、しいては分析のスピードアップ化が可能となる。

目的テキストを収集するためには、それを抽出するためのキーワードの組合せが必要となる。
図１７は、例えば、２００８年５月の或るコールセンターにおける問合せデータ１０，０００件（元データ）から、目的テキストとして「印刷がおかしい」という意味に該当する問合せを抽出するための処理の概念を示した図である。

１０，０００件の元データに対して、複数のキーワードが指定されることにより、これら複数のキーワードが含まれるデータが目的テキストとして抽出される。このように抽出された目的テキストは例えば、「印字がおかしい」という意味に該当する問合せの月別件数推移表を作成するために活用される。

この場合、指定するキーワードにより、抽出内容が大きく変化する。即ち、目的テキスト中にあまり含まれないキーワードが使用されると、抽出精度が低下する。
従って、キーワードをどのように選択するかという知識が、目的テキストの抽出精度を向上させるために必要となる。しかし、従来、目的テキストを収集するキーワードの組合せ、即ち、分類辞書の設定作業は、分析者の属人的なスキルに大きく依存していた。

キーワードの決定技術に関連して、下記特許文献１〜３が開示されている。
特許文献１では、指定文章集合内の単語の出現数からキーワードが抽出され、2つのキーワード間の共起度が全ての組み合わせについて算出され、その共起度からキーワードがグルーピングされる技術が開示されている。

特許文献２では、文章の形態素解析に基づきキーワードが抽出され、グループ毎にグループの特性を示すキーワード、属性情報のうち1つ以上の組み合わせを記述する分類ルールが記述される技術が開示されている。

特許文献３では、検索語の単語出現位置情報として単語の出現順位が用いられ、2つの検索語の出現順位の差に基づいて検索語間の関連度が算出される技術が開示されている。
特開２００２−１８３１９４号公報特開２００１−０６０１９９号公報特開２００２−１８９７５４号公報

しかし、人手に頼る従来技術では、問合せデータの件数が膨大になると、目的テキストの抽出を目検で実施することは、実質不可能になるという問題点を有していた。
また、キーワード検索において問合せデータを絞り込んでいく方法が考えられるが、目的テキストを抽出する『キーワード』を漏れなく人間が考えるのは実質不可能であるという問題点を有していた。

更に、思考錯誤で抽出用の『キーワード』が作成されても、目的テキストが複数個になると、目的テキスト別の収集精度にバラツキが発生し、管理が非常に難しいという問題点を有していた。

本発明の課題は、分析者が、特定の情報源を元にサンプリングして得た目的テキストから、高精度でテキスト収集（分類）を行えるキーワードの組合せ即ち分類ルールを自動作成可能とすることにある。

第１の態様は、以下の構成を有する。
複数形態素出現サンプリング文章記憶部（１０１）は、文章識別子で識別される複数のサンプリング文章群（１０８）の文章に共通して出現する複数の形態素毎に、文章識別子を対応付けて記憶部（１０７）に記憶する。このサンプリング文章群（１０８）は例えば、前回の類似文章抽出において抽出された類似文章群（１１０）に基づいて、ユーザにより決定されたものである。

複数形態素出現抽出対象文章記憶部（１０２）は、文章識別子で識別される複数の抽出対象文章群（１０９）について、複数の形態素毎に、それらの複数の形態素が共通して出現する文章識別子を抽出して対応付けて記憶部（１０７）に記憶する。

件数類似度算出部（１０３）は、複数の形態素毎に、それら複数の形態素に対応付けて記憶部（１０７）に記憶されたサンプリング文章群（１０８）の文章識別子数と、抽出対象文章群（１０９）の文章識別子数との類似度を算出する。

抽出部（１０４）は、上述の算出された類似度が高い順に、複数の形態素に対応付けて記憶部（１０７）に記憶された抽出対象文章群（１０９）の文章識別子を抽出する。
除外部（１０５）は、抽出した文章識別子以外の文章識別子に対応する文章群を抽出対象文章群（１０９）から除外する。

類似文章決定部（１０６）は、抽出部（１０４）で抽出した文章識別子数が、前回の抽出部（１０４）で抽出した文章識別子数と予め規定された差になるまで、複数形態素出現抽出対象文章部（１０２）、件数類似度算出部（１０３）、抽出部（１０４）、及び除外部（１０５）の各処理を繰り返し、残った文章識別子で識別される抽出対象文章群（１０９）を、サンプリング文章群（１０８）の類似文章群（１１０）として決定する。

第２の態様は、以下の構成を有する。
形態素解析部（２０１）は、記憶部（２１０）に記憶された、それぞれ文章識別子で識別される複数のサンプリング文章群（２１１）及び複数の抽出対象文章群（２１２）を形態素解析する。サンプリング文章群（２１１）は例えば、前回の類似文章抽出において抽出された後述する類似文章群（２１３）に基づいて、ユーザにより決定されたものである。

形態素出現文章記憶部（２０２）は、形態素解析結果を元に、形態素と、該形態素が出現した文章識別子とサンプリング文章群（２１１）及び抽出対象文章群（２１２）の別を対応付けて記憶部（２１０）に記憶する。

２形態素出現サンプリング文章記憶部（２０３）は、複数のサンプリング文章群（２１１）の文章識別子に対応付けて記憶部（２１０）に記憶された形態素を抽出し、文章識別子が共通する２つの形態素毎に、文章識別子を対応付けて記憶部（２１０）に記憶する。

２形態素出現抽出対象文章記憶部（２０４）は、抽出対象文章群（２１２）について、記憶部（２１０）から、２つの形態素毎に該２つの形態素に対応付けて記憶された文章識別子を抽出して２つの形態素に対応付けて記憶部（２１０）に記憶する。

件数類似度算出部（２０５）は、２つの形態素に対応付けて記憶部（２１０）に記憶されたサンプリング文章群（２１１）の文章識別子数と、抽出対象文章群（２１２）の文章識別子数との類似度を算出する。

抽出部（２０６）は、類似度が高い順に、サンプリング文章群（２１１）の文章識別子を全て抽出するまで、２つの形態素に対応付けて記憶部（２１０）に記憶された抽出対象文章群（２１２）の文章識別子を重複なく抽出する。

無効化部（２０７）は、抽出部（２０６）で重複の無い文章識別子が存在しなかった２つの形態素を処理対象外とする。
除外部（２０８）は、抽出した文章識別子以外の文章識別子に対応する文章群を抽出対象文章群（２１２）から除外する。

類似文章決定部（２０９）は、抽出部（２０６）で抽出した文章識別子数が、前回抽出部（２０６）で抽出した文章識別子数と予め規定された差になるまで、２形態素出現抽出対象文章記憶部（２０４）、件数類似度算出部（２０５）、抽出部（２０６）、及び、削除部（２０８）の各処理を繰り返し、残った文章識別子で識別される抽出対象文章群（２１２）を、サンプリング文章群（２１１）の類似文章群（２１３）として決定する。

問合せ分類ルール（キーワードの組合せ）を人が用意するサンプルから作成できるため、キーワードを意識する必要が無い。
人の主観を入れず、コンピュータが最適な組合せを発見するため、人手の限界を解決することが可能となる。

分類結果のデータを抽出データへ置き換えることで、分類精度の良い分類コード作成が可能となる。
同種情報源に対し、分類コードを適用することで、効率よく問合せを抽出することが可能となる。

以下、図面を参照しながら、最良の実施形態について詳細に説明する。
図１は、第１の実施形態の構成図である。
複数形態素出現サンプリング文章記憶部１０１は、文章識別子で識別される複数のサンプリング文章群１０８の文章に共通して出現する複数の形態素毎に、文章識別子を対応付けて記憶部１０７に記憶する。このサンプリング文章群１０８は例えば、前回の類似文章抽出において抽出された類似文章群１１０に基づいて、ユーザにより決定されたものである。

複数形態素出現抽出対象文章記憶部１０２は、文章識別子で識別される複数の抽出対象文章群１０９について、複数の形態素毎に、それらの複数の形態素が共通して出現する文章識別子を抽出して対応付けて記憶部１０７に記憶する。

件数類似度算出部１０３は、複数の形態素毎に、それら複数の形態素に対応付けて記憶部１０７に記憶されたサンプリング文章群１０８の文章識別子数と、抽出対象文章群１０９の文章識別子数との類似度を算出する。

抽出部１０４は、上述の算出された類似度が高い順に、複数の形態素に対応付けて記憶部１０７に記憶された抽出対象文章群１０９の文章識別子を抽出する。
除外部１０５は、抽出した文章識別子以外の文章識別子に対応する文章群を抽出対象文章群１０９から除外する。

類似文章決定部１０６は、抽出部１０４で抽出した文章識別子数が、前回の抽出部１０４で抽出した文章識別子数と予め規定された差になるまで、複数形態素出現抽出対象文章部１０２、件数類似度算出部１０３、抽出部１０４、及び除外部１０５の各処理を繰り返し、残った文章識別子で識別される抽出対象文章群１０９を、サンプリング文章群１０８の類似文章群１１０として決定する。

図２は、第２の実施形態の構成図である。
形態素解析部２０１は、記憶部２１０に記憶された、それぞれ文章識別子で識別される複数のサンプリング文章群２１１及び複数の抽出対象文章群２１２を形態素解析する。サンプリング文章群２１１は例えば、前回の類似文章抽出において抽出された後述する類似文章群２１３に基づいて、ユーザにより決定されたものである。

形態素出現文章記憶部２０２は、形態素解析結果を元に、形態素と、該形態素が出現した文章識別子とサンプリング文章群２１１及び抽出対象文章群２１２の別を対応付けて記憶部２１０に記憶する。

２形態素出現サンプリング文章記憶部２０３は、複数のサンプリング文章群２１１の文章識別子に対応付けて記憶部２１０に記憶された形態素を抽出し、文章識別子が共通する２つの形態素毎に、文章識別子を対応付けて記憶部２１０に記憶する。

２形態素出現抽出対象文章記憶部２０４は、抽出対象文章群２１２について、記憶部２１０から、２つの形態素毎に該２つの形態素に対応付けて記憶された文章識別子を抽出して２つの形態素に対応付けて記憶部２１０に記憶する。

件数類似度算出部２０５は、２つの形態素に対応付けて記憶部２１０に記憶されたサンプリング文章群２１１の文章識別子数と、抽出対象文章群２１２の文章識別子数との類似度を算出する。

抽出部２０６は、類似度が高い順に、サンプリング文章群２１１の文章識別子を全て抽
出するまで、２つの形態素に対応付けて記憶部２１０に記憶された抽出対象文章群２１２の文章識別子を重複なく抽出する。

無効化部２０７は、抽出部２０６で重複の無い文章識別子が存在しなかった２つの形態素を処理対象外とする。
除外部２０８は、抽出した文章識別子以外の文章識別子に対応する文章群を抽出対象文章群２１２から除外する。

類似文章決定部２０９は、抽出部２０６で抽出した文章識別子数が、前回抽出部２０６で抽出した文章識別子数と予め規定された差になるまで、２形態素出現抽出対象文章記憶部２０４、件数類似度算出部２０５、抽出部２０６、及び、削除部２０８の各処理を繰り返し、残った文章識別子で識別される抽出対象文章群２１２を、サンプリング文章群２１１の類似文章群２１３として決定する。

以上、図１に示される第１の実施形態、図２に示される第２の実施形態により、複数のサンプリング文章群と抽出対象文章群との間で、サンプリング文章群から抽出された複数の形態素組に関して、それらの出現文章数が近い（類似度が大きい）順に各形態組のみが含まれるように抽出対象文章群を絞り込む処理が繰り返し実行されることにより、抽出対象文章群からサンプリング文章群に類似する文章を効率よく抽出することが可能となる。

図３〜図５は、図２に示される第２の実施形態の構成の詳細な動作を示す動作フローチャート及び入出力データを示す図である。
以下、その詳細な動作について、図６〜図１５に示される説明図及びデータ構成図と共に順次説明する。

まず、図３のステップＳ３０１にて、初期設定として、形態素解析結果、形態素行列、抽出明細、分類コード、及び再処理用元データの各ファイルｄ３０３が削除される。また、下記の変数設定が行われる。

変数：抽出ループ回数に 1がを設定される。
変数：ヒット件数に 0 が設定される。
変数：抽出データ件数に抽出データファイルの明細数が設定される。

変数：元データ件数に元データファイルの明細数が設定される。
ここで、抽出データファイルは、図２又は図１のサンプリング文章群２１１又は１０８に対応する。この抽出データファイルは例えば、図６のｄ３０１に示されるようなテキストデータファイルであり、例えば「印字がおかしい」という分類ルールを示している。この抽出データファイルは例えば、前回の類似文章抽出において決定された類似文章群である図６に示される元データファイルｄ３０２から、ユーザが抽出して作成する。元データファイルは、図２又は図１の抽出対象文章群２１２又は１０９に対応する。

次に、図３のステップＳ３０２にて、抽出データファイルｄ３０１が形態素解析され、その処理結果が、形態素解析結果ファイルｄ３０４へ書き込まれる。この処理は、図２の形態素解析部２０１及び形態素出現文章記憶部２０２の各処理に対応する。図７（ａ）は、抽出データ件数（＝抽出データファイルの明細数）が１０件であると仮定した場合の、ステップＳ３０２で書き込まれる形態素解析結果ファイルｄ３０４のデータ構成例を示す図である。「データ区分」項目には、抽出データ／元データの別が登録される。ステップＳ３０２では、「データ区分」項目には「抽出データ」が登録される。「形態素」項目には、解析された形態素が登録される。「出現明細番号」項目には、左側から抽出データファイルｄ３０１内の各明細番号（図６参照）の昇順で、その明細番号の明細が「形態素」項目の形態素を含む場合は１が、含まない場合は０が登録される。つまり、図１０の（ａ）と（ｂ）に示される関係となる。

次に、図３のステップＳ３０３にて、抽出ループ回数が１かどうか判定される。抽出ループ回数が１である場合は、図３のステップＳ３０４とＳ３０５が実行される。抽出ループ回数が１より大きい場合は、図３のステップＳ３０６とＳ３０７が実行される。

図３のステップＳ３０４では、元データファイルｄ３０２（図６参照）が形態素解析され、その処理結果が、形態素解析結果ファイルｄ３０４へ書き込まれる。この処理は、図２の形態素解析部２０１及び形態素出現文章記憶部２０２の各処理に対応する。図７（ｂ）は、ステップＳ３０４で書き込まれる形態素解析結果ファイルｄ３０４のデータ構成例を示す図である。ステップＳ３０４では、「データ区分」項目には「元データ」が登録される。

続く図３のステップＳ３０５では、形態素解析結果ファイルｄ３０４が読み込まれ、「データ区分」項目が「抽出データ」であるエントリに基づいて、２つの形態素を組合せた形態素行列が作成され、その処理結果が、形態素行列ファイルｄ３０５に書き込まれる。この処理は、図２の２形態素出現サンプリング文章記憶部２０３又は図１の複数形態素出現サンプリング文章記憶部１０１の処理に対応する。図７（ｃ）は、ステップＳ３０５で作成される形態素行列ファイルｄ３０５のデータ構成例を示す図である。「組合せ番号」項目には各形態素の組合せを識別する番号が登録される。「組合せ」項目には２つの形態素の組が登録される。「抽出データ／出現明細数」項目には、「組合せ」項目に登録される２つの形態素を含む抽出データファイルｄ３０１中の明細数が登録される。「抽出データ／出現明細番号」項目には、左側から抽出データファイルｄ３０１内の各明細番号（図６参照）の昇順で、その明細番号の明細が上記２つの形態素を含む場合には１、含まない場合には０が登録される。上記出現明細数は、形態素解析結果ファイルｄ３０４内の「データ区分」項目が「抽出データ」であるエントリのうち、上記２つの形態素に対応する２つのエントリの各「出現明細番号」項目の各ビット位置毎の各アンド値として得ることができる。上記出現明細番号は、それらのアンド値が１となる合計数として得ることができる。形態素行列ファイルｄ３０５において、「元データ／出現明細数」「元データ／出現明細番号」「出現率」の各項目は空欄とされる。これらについては後述する。「有効フラグ」項目には「無効」が登録される。「抽出回数」項目には「１」が登録される。

抽出ループ回数が１より大きい場合に実行される図３のステップＳ３０６とＳ３０７については後述する。
続いて、図３のステップＳ３０８にて、形態素行列ファイルｄ３０５から、「抽出回数」項目の値が変数：抽出ループ回数が示す現在の抽出回数（今は１）に等しく、「有効フラグ」項目の値が「無効」であるエントリ群が読み込まれる。そして、各エントリの「組合せ」項目が示す２形態素毎に、形態素解析結果ファイルｄ３０４から、元データファイルｄ３０２における出現明細数と出現明細番号が取得される。それらの出現明細数と出現明細番号は、各エントリの「元データ／出現明細数」項目と「元データ／出現明細番号」項目に登録される。この処理は、図２の２形態素出現抽出対象文章記憶部２０４又は図１の複数形態素出現抽出対象文章記憶部１０２の処理に対応する。具体的には、上記出現明細数は、形態素解析結果ファイルｄ３０４内の「データ区分」項目が「元データ」であるエントリのうち、上記２つの形態素に対応する２つのエントリの各「出現明細番号」項目の各ビット位置毎の各アンド値として得ることができる。上記出現明細番号は、それらのアンド値が１となる合計数として得ることができる。図７（ｅ）は、ステップＳ３０８で更新される形態素行列ファイルｄ３０５のデータ構成例を示す図である。

次に、図４のステップＳ３０９にて、形態素行列ファイルｄ３０５から、「抽出回数」
項目の値が変数：抽出ループ回数が示す現在の抽出回数（今は１）に等しく、「有効フラグ」項目の値が「無効」であるエントリ群が読み込まれる。そして、各エントリ毎に、次式に従って、出現率が計算され、その結果が各エントリの「出現率」項目に登録される。

出現率 = 「抽出データ／出現明細数」項目値÷「元データ／出現明細数」項目値

この処理は、図２又は図１の件数類似度算出部２０５又は１０３の処理に対応する。図８（ｆ）は、ステップＳ３０８で更新される形態素行列ファイルｄ３０５のデータ構成例を示す図である。

次に、図４のステップＳ３１０にて、形態素行列ファイルｄ３０５が読み込まれ、「抽出回数」項目の値が変数：抽出ループ回数が示す現在の抽出回数（今は１）に等しく、「有効フラグ」項目の値が「無効」であるエントリ群が読み込まれる。そして、これらのエントリが出現率の降順に並び替えされる。図８（ｇ）は、ステップＳ３１０にて並び替えられた形態素行列ファイルｄ３０５のデータ構成例を示す図である。

次に、図４のステップＳ３１１にて、形態素行列ファイルｄ３０５が読み込まれ、「抽出回数」項目の値が変数：抽出ループ回数が示す現在の抽出回数（今は１）に等しく、「有効フラグ」項目の値が「無効」であるエントリが、「出現率」項目の値が大きい順に取り出され、ステップＳ３１１からＳ３１４までのループ処理として、取り出されたエントリについて、ステップＳ３１２とＳ３１３の各処理が順次実行される。

即ち、図４のステップＳ３１２では、変数：抽出データ件数と変数：ヒット件数が一致するか否かが判定される。ステップＳ３１２にてヒット件数が抽出データ件数に達してないと判定されたときには、ステップＳ３１３とＳ３１４が実行される。ステップＳ３１２にてヒット件数が抽出データ件数に達したと判定されたときには、ステップＳ３１５が実行される。

ステップＳ３１３では、ステップＳ３１１にて取り出されたエントリから、「組合せ」項目、「抽出データ／出現明細数」項目、「抽出データ／出現明細番号」項目の各値が取得され、それらが抽出明細ファイルｄ３０６に書き込まれる。図８（ｈ）は、ステップＳ３１３にて登録される抽出明細ファイルｄ３０６のデータ構成例を示す図である。この場合に、「出現率」項目の値が最大であるエントリの処理においては、「出現明細数」項目の値が変数：ヒット件数に設定される。それ以外のエントリの処理においては、「出願明細番号」項目の各ビット位置毎に、そのエントリよりも先に登録された抽出明細ファイルｄ３０６中の全てのエントリの「出願明細番号」項目の当該ビット位置が全て０である場合に、つまり今回初めて出現した明細である場合のみ、変数：ヒット件数に１が加算される。また、取り出された組合せの出現明細番号が全て、そのエントリよりも先に登録された抽出明細ファイルｄ３０６中の全てのエントリの「出願明細番号」項目に登録されている場合には、そのエントリは、抽出明細ファイルｄ３０６には登録されない。

図４のステップＳ３１４では、ステップＳ３１１にて取り出された次のエントリについて、ステップＳ３１２にループされる。
以上、ステップＳ３１０からＳ３１４までの一連の処理は、図２又は図１の抽出部２０６の処理に対応する。

上記抽出処理の後、図４のステップＳ３１５では、抽出明細ファイルｄ３０６が読み込まれ、「組合せ」項目の各２形態素組が取り出される。そして、形態素行列ファイルｄ３
０５において、「組合せ」項目の値が上記２形態素組と一致し、「抽出回数」項目の値が変数：抽出ループ回数の値と一致するエントリが検索され、そのエントリの「有効フラグ」の値が「有効」に更新される。この処理は、図２の無効化部２０７の処理に対応する。図８（ｉ）は、ステップＳ３１５によって更新される形態素行列ファイルｄ３０５のデータ構成例を示す図である。

続く図４のステップＳ３１６では、形態素行列ファイルｄ３０５から、「抽出回数」項目の値が変数：抽出ループ回数に一致し、「有効フラグ」項目の値が「有効」であるエントリが検索され、そのエントリの「組合せ」項目に登録されている２形態素組が、任意の分類コード名及び現在の抽出ループ回数と共に、分類コードファイルｄ３０７に書き込まれる。図９（ｊ）は、ステップＳ３１６によって書き込まれる分類コードファイルｄ３０７の構成例を示す図である。

図５のステップＳ３１７では、形態素行列ファイルｄ３０５から、「抽出回数」項目の値が変数：抽出ループ回数に一致し、「有効フラグ」項目の値が「有効」であるエントリ群が検索され、検索された各エントリの「元データ／出現明細番号」項目に登録されている各出現明細番号が取得される。そして、これらの出現明細番号に基づいて、元データファイルｄ３０２中の各明細が読み込まれ、再処理用元データファイルｄ３０８に書き込まれる。そして、配列変数：再処理用元データ件数［Ｎ］に、再処理用元データファイルｄ３０８に登録された明細数が設定される。Ｎには、変数：抽出ループ回数の値が設定される。つまり、配列変数：再処理用元データ件数［Ｎ］には、抽出ループ回数毎の再処理用元データ件数を登録することができる。以上のステップＳ３１７の処理は、図２又は図１の除外部２０８又は１０５の処理に対応する。

図５のステップＳ３１８では、変数：抽出ループ回数に＋１が加算される。また、変数：ヒット件数に 0 を設定する。更に、形態素行列ファイルｄ３０５において、各エントリの「元データ／出現明細数」「元データ／出現明細番号」「出現率」の各項目値がクリアされ、「有効フラグ」項目に「無効」が設定され、「抽出回数」にインクリメントされた変数：抽出ループ回数の値が設定される。図９（ｋ）は、１回目の抽出ループが終わった時点においてステップＳ３１８によって更新された形態素行列ファイルｄ３０５のデータ構成例を示す図である。

図５のステップＳ３１９では、変数：抽出ループ回数の値が２である場合は、再処理を判定し図３のステップＳ３０３の処理に戻る。変数：抽出ループ回数の値が２より大きい場合には、以下の条件がチェックされ、再処理するか否かが判定される。
1)今回の再処理用元データ件数÷前回の再処理用元データ件数が算出される。
※再処理用元データ件数［Ｎ］÷再処理用元データ件数［Ｎ−１］
2)上記1)で算出された値が、閾値以上の場合は、再処理はせず終了を判定する。
3)上記1)で算出した値が、閾値未満の場合は、再処理を判定する。
※閾値は０．８を初期値とし、変更可能な値とする。
ステップＳ３１７によって、抽出データファイルｄ３０１の形態素を有効に含むものとして得られた再処理用元データファイルｄ３０８について、前回得られている再処理用元データファイルｄ３０８（１回目のときは元データファイルｄ３０２）に対する件数比が一定の率よりも小さい場合は、前回よりも抽出件数がかなり大きく削減されている場合である。一方、上記件数比が一定の率以上になった場合は、前回に対して抽出件数があまり変化しなくなった場合である。そして、前者の場合には、図１２に示されるように、その再処理用元データファイルｄ３０８を使って再度文章群の絞込み処理を行ったほうが、抽出データファイルｄ３０１の形態素のみをより有効に含むデータが得られると考えられる。例えば図１１（ｂ）の比が０．６になった場合である。逆に、後者の場合には、その再処理用元データファイルｄ３０８はほぼ最適な状態に収束したと考えられる。例えば図１１（ａ）、又は（ｂ）の比が０．８３になった場合である。

以上のステップＳ３１８とＳ３１９の処理は、図２又は図１の類似文章決定部２０９又は１０６の処理に対応する。
以上のようにして、図５のステップＳ３１９において再処理が判定された場合には、図３のステップＳ３０３に戻り、この判定がＮＯとなって、ステップＳ３０６とＳ３０７が実行される。

図３のステップＳ３０６では、形態素解析結果ファイルｄ３０４の「データ区分」項目が「元データ」となっている全てのレコードが削除される。
図３のステップＳ３０７では、再処理用元データファイルｄ３０８が形態素解析され、その処理結果が、形態素解析結果ファイルｄ３０４へ書き込まれる。この処理は、図２の形態素解析部２０１及び形態素出現文章記憶部２０２の各処理に対応する。ここでの処理は、元データファイルｄ３０２の代わりに再処理用元データファイルｄ３０８が用いられる以外は、図３のステップＳ３０４の処理と同じである。図７（ｄ）は、ステップＳ３０７で書き込まれる形態素解析結果ファイルｄ３０４のデータ構成例を示す図である。ステップＳ３０７では、「データ区分」項目には「元データ」が登録される。

これ以降は、抽出回数１回目の場合と同様にして、図３のステップＳ３０８以降の処理が実行され、抽出データファイルｄ３０１から抽出された２形態素組による絞込み処理が行われる。

以上の処理が繰り返された結果、図５のステップＳ３１９にて終了が判定されると、その時点で得られた再処理用元データファイルｄ３０８の内容が、図２又は図１の類似文章文章群２１３又は１１０（目的テキスト）として決定される。

以上説明した実施形態における図４のステップＳ３０９において、出現率の代わりに、「抽出データ／出現明細数」項目値と「元データ／出現明細数」項目値の件数差を利用することも考えられる。しかしながら、実データでの検証の結果、出現率の方が分類精度が良いとの結果を得た。この理由として、以下があげられる。
1)件数差で分類コードを決定すると、抽出データをよくヒットさせ、かつ元データを
あまりヒットさせない組合せを上位で拾いだせない問題がある。
2)上位で拾いだせない＝分類コードで保持する組合せ数増加となるため、精度低下に
直結する。

例えば、図１３に示される例の場合、「左」「ずれる」という２形態素の組合せの場合には、出現率最大も件数差最小で抽出データと元データは共にもっとも近いとの結果になっているが、「印字」「ずれる」という２形態素の組合せの場合には、出現率は大きく抽出データと元データは２番目に近いとの結果になっているが、件数差は大きな値になっており抽出データと元データは近くないとの結果になってしまっている。実データでの検証では、出現率のほうが正しい値を示している。
従って、ステップＳ３０９では、件数差ではなく出現率を用いるほうがよい。

図４のステップＳ３１６によって得られる分類コードファイルｄ３０７には、例えば図１４に示されるように、抽出回数毎に最適な２形態素の組合せを登録することができる。このように階層的に管理される分類コードが同種情報源の分類に対して適用される場合には、図１５に示されるような処理が可能となる。即ちまず、分類コードファイルｄ３０７
から抽出回数１回目の分類コードが取り出され、同種情報源に対してその抽出回数１回目の分類コードを用いた絞込み処理が実行される。次に、分類コードファイルｄ３０７から抽出回数２回目の分類コードが取り出され、上記１回目の抽出結果に対して、抽出回数２回目の分類コードを用いた絞込み処理が実行される。抽出回数が全部で３回であれば、分類コードファイルｄ３０７から抽出回数３回目の分類コードが取り出され、上記２回目の抽出結果に対して、抽出回数３回目の分類コードを用いた絞込み処理が更に実行される。そして、この３回目の抽出結果が、最終的な分類結果として出力され、これに対して人間によるチェックが行われる。このようにして得られた分類結果が抽出データへ置き換えられ、元データと比較されて分類コードが再作成されることで、分類精度を簡単に高めていくことが可能となる。

図１６は、以上に説明した各実施形態の分類コード自動作成システムを実現できるコンピュータのハードウェア構成の一例を示す図である。
図１６に示されるコンピュータは、ＣＰＵ１６０１、メモリ１６０２、入力装置１６０３、出力装置１６０４、外部記憶装置１６０５、可搬記録媒体１６０９が挿入される可搬記録媒体駆動装置１６０６、及びネットワーク接続装置１６０７を有し、これらがバス１６０８によって相互に接続された構成を有する。同図に示される構成は上記システムを実現できるコンピュータの一例であり、そのようなコンピュータはこの構成に限定されるものではない。

ＣＰＵ１６０１は、当該コンピュータ全体の制御を行う。メモリ１６０２は、プログラムの実行、データ更新等の際に、外部記憶装置１６０５（或いは可搬記録媒体１６０９）に記憶されているプログラム又はデータを一時的に格納するＲＡＭ等のメモリである。ＣＵＰ１６０１は、プログラムをメモリ１６０２に読み出して実行することにより、全体の制御を行う。

入力装置１６０３は、例えば、キーボード、マウス等及びそれらのインタフェース制御装置とからなる。入力装置１６０３は、ユーザによるキーボードやマウス等による入力操作を検出し、その検出結果をＣＰＵ１６０１に通知する。

出力装置１６０４は、表示装置、印刷装置等及びそれらのインタフェース制御装置とからなる。出力装置１６０４は、ＣＰＵ１６０１の制御によって送られてくるデータを表示装置や印刷装置に出力する。

外部記憶装置１６０５は、例えばハードディスク記憶装置である。主に各種データやプログラムの保存に用いられる。
可搬記録媒体駆動装置１６０６は、光ディスクやＳＤＲＡＭ、コンパクトフラッシュ（登録商標）等の可搬記録媒体１６０９を収容するもので、外部記憶装置１６０５の補助の役割を有する。

ネットワーク接続装置１６０７は、例えばＬＡＮ（ローカルエリアネットワーク）又はＷＡＮ（ワイドエリアネットワーク）の通信回線を接続するための装置である。
各実施形態によるシステムは、図１又は図２に示される各ブロックの機能、又は図３〜図５に示される動作フローチャートの処理に対応する機能を搭載したプログラムをＣＰＵ１６０１が実行することで実現される。そのプログラムは、例えば外部記憶装置１６０５や可搬記録媒体１６０９に記録して配布してもよく、或いはネットワーク接続装置１６０７によりネットワークから取得できるようにしてもよい。また、各処理において用いられるデータは、例えば外部記憶装置１６０５からメモリ１６０２に読み出されて処理される。

図２及び図３以降で説明した実施形態では、２形態素の組によって文章の絞り込みを行う例について説明したが、図１に示されるように複数形態素の組によって文章の絞り込みを行う場合も、同様の考え方で実施することが可能である。

第１の実施形態の構成図である。第２の実施形態の構成図である。第２の実施形態の構成の詳細な動作を示す動作フローチャート及び入出力データを示す図（その１）である。第２の実施形態の構成の詳細な動作を示す動作フローチャート及び入出力データを示す図（その２）である。第２の実施形態の構成の詳細な動作を示す動作フローチャート及び入出力データを示す図（その３）である。抽出データ例と元データ例を示す説明図である。各処理ステップにおける各データの構成例を示す図（その１）である。各処理ステップにおける各データの構成例を示す図（その２）である。各処理ステップにおける各データの構成例を示す図（その３）である。形態素解析結果ファイルｄ３０４のデータフォーマットの説明図である。再処理判定処理の説明図である。再処理動作の説明図である。件数差ではなく出現差を使う理由の説明図である。分類コードファイルｄ３０７の例を示す図である。分類処理の説明図である。各実施形態の分類コード自動作成システムを実現できるコンピュータのハードウェア構成の一例を示す図である。目的テキストの収集処理の説明図である。

符号の説明

１０１複数形態素出現サンプリング文章記憶部
１０２複数形態素出現抽出対象文章記憶部
１０３件数類似度算出部
１０４、２０６抽出部
１０５、２０８除外部
１０６、２０９類似文章決定部
１０７、２１０記憶部
１０８、２１１サンプリング文章群
１０９、２１２抽出対象文章群
１１０、２１３類似文章群
２０１形態素解析部
２０２形態素出現文章記憶部
２０３２形態素出現サンプリング文章記憶部
２０４２形態素出現抽出対象文章記憶部
２０５件数類似度算出部
２０７無効化部
１６０１ CPU
１６０２メモリ
１６０３入力装置
１６０４出力装置
１６０５外部記憶装置
１６０６可搬記録媒体駆動装置
１６０７ネットワーク接続装置
１６０８バス
ｄ３０１抽出データファイル
ｄ３０２元データファイル
ｄ３０３各ファイル
ｄ３０４形態素解析結果ファイル
ｄ３０５形態素行列ファイル
ｄ３０６抽出明細ファイル
ｄ３０７分類コードファイル
ｄ３０８再処理用元データファイル

Claims

類似文章の抽出処理を行うコンピュータに、
文章識別子で識別される複数のサンプリング文章群の文章に共通して出現する複数の形態素毎に、前記文章識別子を対応付けて記憶部に記憶する複数形態素出現サンプリング文章記憶手順と、
文章識別子で識別される複数の抽出対象文章群について、前記複数の形態素毎に、該複数の形態素が共通して出現する文章識別子を抽出して対応付けて前記記憶部に記憶する複数形態素出現抽出対象文章記憶手順と、
前記複数の形態素毎に、該複数の形態素に対応付けて前記記憶部に記憶された前記サンプリング文章群の文章識別子数と、前記抽出対象文章群の文章識別子数との類似度を算出する件数類似度算出手順と、
前記類似度が高い順に、前記複数の形態素に対応付けて前記記憶部に記憶された前記抽出対象文章群の文章識別子を抽出する抽出手順と、
前記抽出した文章識別子以外の文章識別子に対応する文章群を前記抽出対象文章群から除外する除外手順と、
前記抽出手順で抽出した文章識別子数が、前回前記抽出手順で抽出した文章識別子数と予め規定された差になるまで、前記複数形態素出現抽出対象文章記憶手順前記件数類似度算出手順、前記抽出手順、及び、前記削除手順の各処理を繰り返し、残った文章識別子で識別される抽出対象文章群を前記サンプリング文章群の類似文章群として決定する類似文章決定手順と、
を実行させるための類似文章抽出プログラム。
前記抽出手順は、前記類似度が高い順に、前記サンプリング文章群の文章識別子を全て抽出するまで前記複数の形態素に対応付けて前記記憶部に記憶された前記抽出対象文章群の文章識別子を抽出する、
ことを特徴とする請求項１記載の類似文章抽出プログラム。
前記抽出手順は、類似度が高い順に、前記サンプリング文章群の文章識別子を全て抽出するまで、前記複数の形態素に対応付けて前記記憶部に記憶された前記抽出対象文章群の文章識別子を重複なく順次抽出し、
前記抽出手順で重複の無い文章識別子が存在しなかった前記複数の形態素を処理対象外とする無効化手順を更に含む、
ことを特徴とする請求項１記載の類似文章抽出プログラム。
類似文章の抽出処理を行うコンピュータに、
記憶部に記憶された、それぞれ文章識別子で識別される複数のサンプリング文章群及び複数の抽出対象文章群を形態素解析する形態素解析手順と、
前記形態素解析結果を元に、形態素と、該形態素が出現した文章識別子と前記サンプリング文章群及び抽出対象文章群の別を対応付けて前記記憶部に記憶する形態素出現文章記憶手順と、
前記複数のサンプリング文章群の文章識別子に対応付けて前記記憶部に記憶された形態素を抽出し、前記文章識別子が共通する２つの形態素毎に、前記文章識別子を対応付けて前記記憶部に記憶する２形態素出現サンプリング文章記憶手順と、
前記抽出対象文章群について、前記記憶部から、前記２つの形態素毎に該２つの形態素に対応付けて記憶された文章識別子を抽出して該２つの形態素に対応付けて前記記憶部に記憶する２形態素出現抽出対象文章記憶手順と、
前記２つの形態素に対応付けて前記記憶部に記憶された前記サンプリング文章群の文章識別子数と、前記抽出対象文章群の文章識別子数との類似度を算出する件数類似度算出手順と、
前記類似度が高い順に、前記サンプリング文章群の文章識別子を全て抽出するまで、前記２つの形態素に対応付けて前記記憶部に記憶された前記抽出対象文章群の文章識別子を重複なく抽出する抽出手順と、
前記抽出手順で重複の無い文章識別子が存在しなかった前記２つの形態素を処理対象外とする無効化手順と、
前記抽出した文章識別子以外の文章識別子に対応する文章群を前記抽出対象文章群から除外する除外手順と、
前記抽出手順で抽出した文章識別子数が、前回前記抽出手順で抽出した文章識別子数と予め規定された差になるまで、前記２形態素出現抽出対象文章記憶手順、前記件数類似度算出手順、前記抽出手順、及び、前記削除手順の各処理を繰り返し、残った文章識別子で識別される抽出対象文章群を、前記サンプリング文章群の類似文章群として決定する類似文章決定手順と、
を実行させるための類似文章抽出プログラム。
前記サンプリング文章群は、前回の類似文章抽出において抽出された類似文章群に基づいてユーザにより決定されたものである、
ことを特徴とする請求項１記載の類似文章抽出プログラム。
類似文章の抽出処理を行うためのコンピュータが実行する方法であって、
文章識別子で識別される複数のサンプリング文章群の文章に共通して出現する複数の形態素毎に、前記文章識別子を対応付けて記憶部に記憶する複数形態素出現サンプリング文章記憶手順と、
文章識別子で識別される複数の抽出対象文章群について、前記複数の形態素毎に、該複数の形態素が共通して出現する文章識別子を抽出して対応付けて前記記憶部に記憶する複数形態素出現抽出対象文章記憶手順と、
前記複数の形態素毎に、該複数の形態素に対応付けて前記記憶部に記憶された前記サンプリング文章群の文章識別子数と、前記抽出対象文章群の文章識別子数との類似度を算出する件数類似度算出手順と、
前記類似度が高い順に、前記複数の形態素に対応付けて前記記憶部に記憶された前記抽出対象文章群の文章識別子を抽出する抽出手順と、
前記抽出した文章識別子以外の文章識別子に対応する文章群を前記抽出対象文章群から除外する除外手順と、
前記抽出手順で抽出した文章識別子数が、前回前記抽出手順で抽出した文章識別子数と予め規定された差になるまで、前記複数形態素出現抽出対象文章記憶手順前記件数類似度算出手順、前記抽出手順、及び、前記削除手順の各処理を繰り返し、残った文章識別子で識別される抽出対象文章群を前記サンプリング文章群の類似文章群として決定する類似文章決定手順と、
を含むことを特徴とする類似文章抽出方法。
類似文章の抽出処理を行うための装置であって、
文章識別子で識別される複数のサンプリング文章群の文章に共通して出現する複数の形態素毎に、前記文章識別子を対応付けて記憶部に記憶する複数形態素出現サンプリング文章記憶部と、
文章識別子で識別される複数の抽出対象文章群について、前記複数の形態素毎に、該複数の形態素が共通して出現する文章識別子を抽出して対応付けて前記記憶部に記憶する複数形態素出現抽出対象文章記憶部と、
前記複数の形態素毎に、該複数の形態素に対応付けて前記記憶部に記憶された前記サンプリング文章群の文章識別子数と、前記抽出対象文章群の文章識別子数との類似度を算出する件数類似度算出部と、
前記類似度が高い順に、前記複数の形態素に対応付けて前記記憶部に記憶された前記抽出対象文章群の文章識別子を抽出する抽出部と、
前記抽出した文章識別子以外の文章識別子に対応する文章群を前記抽出対象文章群から除外する除外部と、
前記抽出部で抽出した文章識別子数が、前回前記抽出部で抽出した文章識別子数と予め規定された差になるまで、前記複数形態素出現抽出対象文章記憶部前記件数類似度算出部、前記抽出部、及び、前記削除部の各処理を繰り返し、残った文章識別子で識別される抽出対象文章群を前記サンプリング文章群の類似文章群として決定する類似文章決定部と、
を含むことを特徴とする類似文章抽出装置。
類似文章の抽出処理を行うためのコンピュータが実行する方法であって、
記憶部に記憶された、それぞれ文章識別子で識別される複数のサンプリング文章群及び複数の抽出対象文章群を形態素解析する形態素解析手順と、
前記形態素解析結果を元に、形態素と、該形態素が出現した文章識別子と前記サンプリング文章群及び抽出対象文章群の別を対応付けて前記記憶部に記憶する形態素出現文章記憶手順と、
前記複数のサンプリング文章群の文章識別子に対応付けて前記記憶部に記憶された形態素を抽出し、前記文章識別子が共通する２つの形態素毎に、前記文章識別子を対応付けて前記記憶部に記憶する２形態素出現サンプリング文章記憶手順と、
前記抽出対象文章群について、前記記憶部から、前記２つの形態素毎に該２つの形態素に対応付けて記憶された文章識別子を抽出して該２つの形態素に対応付けて前記記憶部に記憶する２形態素出現抽出対象文章記憶手順と、
前記２つの形態素に対応付けて前記記憶部に記憶された前記サンプリング文章群の文章識別子数と、前記抽出対象文章群の文章識別子数との類似度を算出する件数類似度算出手順と、
前記類似度が高い順に、前記サンプリング文章群の文章識別子を全て抽出するまで、前記２つの形態素に対応付けて前記記憶部に記憶された前記抽出対象文章群の文章識別子を重複なく抽出する抽出手順と、
前記抽出手順で重複の無い文章識別子が存在しなかった前記２つの形態素を処理対象外とする無効化手順と、
前記抽出した文章識別子以外の文章識別子に対応する文章群を前記抽出対象文章群から除外する除外手順と、
前記抽出手順で抽出した文章識別子数が、前回前記抽出手順で抽出した文章識別子数と予め規定された差になるまで、前記２形態素出現抽出対象文章記憶手順、前記件数類似度算出手順、前記抽出手順、及び、前記削除手順の各処理を繰り返し、残った文章識別子で識別される抽出対象文章群を、前記サンプリング文章群の類似文章群として決定する類似文章決定手順と、
を含むことを特徴とする類似文章抽出方法。
類似文章の抽出処理を行うための装置であって、
記憶部に記憶された、それぞれ文章識別子で識別される複数のサンプリング文章群及び複数の抽出対象文章群を形態素解析する形態素解析部と、
前記形態素解析結果を元に、形態素と、該形態素が出現した文章識別子と前記サンプリング文章群及び抽出対象文章群の別を対応付けて前記記憶部に記憶する形態素出現文章記憶部と、
前記複数のサンプリング文章群の文章識別子に対応付けて前記記憶部に記憶された形態素を抽出し、前記文章識別子が共通する２つの形態素毎に、前記文章識別子を対応付けて前記記憶部に記憶する２形態素出現サンプリング文章記憶部と、
前記抽出対象文章群について、前記記憶部から、前記２つの形態素毎に該２つの形態素に対応付けて記憶された文章識別子を抽出して該２つの形態素に対応付けて前記記憶部に記憶する２形態素出現抽出対象文章記憶部と、
前記２つの形態素に対応付けて前記記憶部に記憶された前記サンプリング文章群の文章識別子数と、前記抽出対象文章群の文章識別子数との類似度を算出する件数類似度算出部と、
前記類似度が高い順に、前記サンプリング文章群の文章識別子を全て抽出するまで、前記２つの形態素に対応付けて前記記憶部に記憶された前記抽出対象文章群の文章識別子を重複なく抽出する抽出部と、
前記抽出部で重複の無い文章識別子が存在しなかった前記２つの形態素を処理対象外とする無効化部と、
前記抽出した文章識別子以外の文章識別子に対応する文章群を前記抽出対象文章群から除外する除外部と、
前記抽出部で抽出した文章識別子数が、前回前記抽出部で抽出した文章識別子数と予め規定された差になるまで、前記２形態素出現抽出対象文章記憶部、前記件数類似度算出部、前記抽出部、及び、前記削除部の各処理を繰り返し、残った文章識別子で識別される抽出対象文章群を、前記サンプリング文章群の類似文章群として決定する類似文章決定部と、
を含むことを特徴とする類似文章抽出装置。