JP5206296B2 - 類似文章抽出プログラム、方法、装置 - Google Patents

類似文章抽出プログラム、方法、装置 Download PDF

Info

Publication number
JP5206296B2
JP5206296B2 JP2008258776A JP2008258776A JP5206296B2 JP 5206296 B2 JP5206296 B2 JP 5206296B2 JP 2008258776 A JP2008258776 A JP 2008258776A JP 2008258776 A JP2008258776 A JP 2008258776A JP 5206296 B2 JP5206296 B2 JP 5206296B2
Authority
JP
Japan
Prior art keywords
sentence
extraction
procedure
group
morphemes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008258776A
Other languages
English (en)
Other versions
JP2010092108A (ja
Inventor
章文 中浜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2008258776A priority Critical patent/JP5206296B2/ja
Priority to CN200980137926.2A priority patent/CN102165443B/zh
Priority to PCT/JP2009/005126 priority patent/WO2010038481A1/ja
Publication of JP2010092108A publication Critical patent/JP2010092108A/ja
Priority to US13/073,168 priority patent/US20110172991A1/en
Application granted granted Critical
Publication of JP5206296B2 publication Critical patent/JP5206296B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

類似文章の抽出方法に関する。
近年、インターネットやコールセンターで得られるお客様の声(テキスト情報)の収集・分析を行い、分析結果を元にしたアクションにより、製品・サービスの改善や新商品開発を行う企業活動が広く認知・定着化してきた。
ただし、「お客様の声」の分析は、仮説と検証の繰り返しであり、分析目的とするテキスト情報の収集と収集した内容に対するチェックが必要となるため、非常に多くの時間を要する。
また、チェック作業は、深い商品知識を要する人材でないと困難である。
上記理由より、多くの企業では、分析結果を出し、組織に情報を普及させるのに時間的なロスがかなり発生しており、タイムリーなアクションの障壁となっている。
お客様の声の分析作業は、1)目的とするテキスト情報の収集作業、2)内容チェック作業に分かれる。
分析のスピードアップという観点では、目的テキストの高精度な収集が課題となる。目的テキストが高精度で収集できれば、内容チェックの量も最適化され、分析者の負担軽減、しいては分析のスピードアップ化が可能となる。
目的テキストを収集するためには、それを抽出するためのキーワードの組合せが必要となる。
図17は、例えば、2008年5月の或るコールセンターにおける問合せデータ10,000件(元データ)から、目的テキストとして「印刷がおかしい」という意味に該当する問合せを抽出するための処理の概念を示した図である。
10,000件の元データに対して、複数のキーワードが指定されることにより、これら複数のキーワードが含まれるデータが目的テキストとして抽出される。このように抽出された目的テキストは例えば、「印字がおかしい」という意味に該当する問合せの月別件数推移表を作成するために活用される。
この場合、指定するキーワードにより、抽出内容が大きく変化する。即ち、目的テキスト中にあまり含まれないキーワードが使用されると、抽出精度が低下する。
従って、キーワードをどのように選択するかという知識が、目的テキストの抽出精度を向上させるために必要となる。しかし、従来、目的テキストを収集するキーワードの組合せ、即ち、分類辞書の設定作業は、分析者の属人的なスキルに大きく依存していた。
キーワードの決定技術に関連して、下記特許文献1〜3が開示されている。
特許文献1では、指定文章集合内の単語の出現数からキーワードが抽出され、2つのキーワード間の共起度が全ての組み合わせについて算出され、その共起度からキーワードがグルーピングされる技術が開示されている。
特許文献2では、文章の形態素解析に基づきキーワードが抽出され、グループ毎にグループの特性を示すキーワード、属性情報のうち1つ以上の組み合わせを記述する分類ルールが記述される技術が開示されている。
特許文献3では、検索語の単語出現位置情報として単語の出現順位が用いられ、2つの検索語の出現順位の差に基づいて検索語間の関連度が算出される技術が開示されている。
特開2002−183194号公報 特開2001−060199号公報 特開2002−189754号公報
しかし、人手に頼る従来技術では、問合せデータの件数が膨大になると、目的テキストの抽出を目検で実施することは、実質不可能になるという問題点を有していた。
また、キーワード検索において問合せデータを絞り込んでいく方法が考えられるが、目的テキストを抽出する『キーワード』を漏れなく人間が考えるのは実質不可能であるという問題点を有していた。
更に、思考錯誤で抽出用の『キーワード』が作成されても、目的テキストが複数個になると、目的テキスト別の収集精度にバラツキが発生し、管理が非常に難しいという問題点を有していた。
本発明の課題は、分析者が、特定の情報源を元にサンプリングして得た目的テキストから、高精度でテキスト収集(分類)を行えるキーワードの組合せ即ち分類ルールを自動作成可能とすることにある。
第1の態様は、以下の構成を有する。
複数形態素出現サンプリング文章記憶部(101)は、文章識別子で識別される複数のサンプリング文章群(108)の文章に共通して出現する複数の形態素毎に、文章識別子を対応付けて記憶部(107)に記憶する。このサンプリング文章群(108)は例えば、前回の類似文章抽出において抽出された類似文章群(110)に基づいて、ユーザにより決定されたものである。
複数形態素出現抽出対象文章記憶部(102)は、文章識別子で識別される複数の抽出対象文章群(109)について、複数の形態素毎に、それらの複数の形態素が共通して出現する文章識別子を抽出して対応付けて記憶部(107)に記憶する。
件数類似度算出部(103)は、複数の形態素毎に、それら複数の形態素に対応付けて記憶部(107)に記憶されたサンプリング文章群(108)の文章識別子数と、抽出対象文章群(109)の文章識別子数との類似度を算出する。
抽出部(104)は、上述の算出された類似度が高い順に、複数の形態素に対応付けて記憶部(107)に記憶された抽出対象文章群(109)の文章識別子を抽出する。
除外部(105)は、抽出した文章識別子以外の文章識別子に対応する文章群を抽出対象文章群(109)から除外する。
類似文章決定部(106)は、抽出部(104)で抽出した文章識別子数が、前回の抽出部(104)で抽出した文章識別子数と予め規定された差になるまで、複数形態素出現抽出対象文章部(102)、件数類似度算出部(103)、抽出部(104)、及び除外部(105)の各処理を繰り返し、残った文章識別子で識別される抽出対象文章群(109)を、サンプリング文章群(108)の類似文章群(110)として決定する。
第2の態様は、以下の構成を有する。
形態素解析部(201)は、記憶部(210)に記憶された、それぞれ文章識別子で識別される複数のサンプリング文章群(211)及び複数の抽出対象文章群(212)を形態素解析する。サンプリング文章群(211)は例えば、前回の類似文章抽出において抽出された後述する類似文章群(213)に基づいて、ユーザにより決定されたものである。
形態素出現文章記憶部(202)は、形態素解析結果を元に、形態素と、該形態素が出現した文章識別子とサンプリング文章群(211)及び抽出対象文章群(212)の別を対応付けて記憶部(210)に記憶する。
2形態素出現サンプリング文章記憶部(203)は、複数のサンプリング文章群(211)の文章識別子に対応付けて記憶部(210)に記憶された形態素を抽出し、文章識別子が共通する2つの形態素毎に、文章識別子を対応付けて記憶部(210)に記憶する。
2形態素出現抽出対象文章記憶部(204)は、抽出対象文章群(212)について、記憶部(210)から、2つの形態素毎に該2つの形態素に対応付けて記憶された文章識別子を抽出して2つの形態素に対応付けて記憶部(210)に記憶する。
件数類似度算出部(205)は、2つの形態素に対応付けて記憶部(210)に記憶されたサンプリング文章群(211)の文章識別子数と、抽出対象文章群(212)の文章識別子数との類似度を算出する。
抽出部(206)は、類似度が高い順に、サンプリング文章群(211)の文章識別子を全て抽出するまで、2つの形態素に対応付けて記憶部(210)に記憶された抽出対象文章群(212)の文章識別子を重複なく抽出する。
無効化部(207)は、抽出部(206)で重複の無い文章識別子が存在しなかった2つの形態素を処理対象外とする。
除外部(208)は、抽出した文章識別子以外の文章識別子に対応する文章群を抽出対象文章群(212)から除外する。
類似文章決定部(209)は、抽出部(206)で抽出した文章識別子数が、前回抽出部(206)で抽出した文章識別子数と予め規定された差になるまで、2形態素出現抽出対象文章記憶部(204)、件数類似度算出部(205)、抽出部(206)、及び、削除部(208)の各処理を繰り返し、残った文章識別子で識別される抽出対象文章群(212)を、サンプリング文章群(211)の類似文章群(213)として決定する。
問合せ分類ルール(キーワードの組合せ)を人が用意するサンプルから作成できるため、キーワードを意識する必要が無い。
人の主観を入れず、コンピュータが最適な組合せを発見するため、人手の限界を解決することが可能となる。
分類結果のデータを抽出データへ置き換えることで、分類精度の良い分類コード作成が可能となる。
同種情報源に対し、分類コードを適用することで、効率よく問合せを抽出することが可能となる。
以下、図面を参照しながら、最良の実施形態について詳細に説明する。
図1は、第1の実施形態の構成図である。
複数形態素出現サンプリング文章記憶部101は、文章識別子で識別される複数のサンプリング文章群108の文章に共通して出現する複数の形態素毎に、文章識別子を対応付けて記憶部107に記憶する。このサンプリング文章群108は例えば、前回の類似文章抽出において抽出された類似文章群110に基づいて、ユーザにより決定されたものである。
複数形態素出現抽出対象文章記憶部102は、文章識別子で識別される複数の抽出対象文章群109について、複数の形態素毎に、それらの複数の形態素が共通して出現する文章識別子を抽出して対応付けて記憶部107に記憶する。
件数類似度算出部103は、複数の形態素毎に、それら複数の形態素に対応付けて記憶部107に記憶されたサンプリング文章群108の文章識別子数と、抽出対象文章群109の文章識別子数との類似度を算出する。
抽出部104は、上述の算出された類似度が高い順に、複数の形態素に対応付けて記憶部107に記憶された抽出対象文章群109の文章識別子を抽出する。
除外部105は、抽出した文章識別子以外の文章識別子に対応する文章群を抽出対象文章群109から除外する。
類似文章決定部106は、抽出部104で抽出した文章識別子数が、前回の抽出部104で抽出した文章識別子数と予め規定された差になるまで、複数形態素出現抽出対象文章部102、件数類似度算出部103、抽出部104、及び除外部105の各処理を繰り返し、残った文章識別子で識別される抽出対象文章群109を、サンプリング文章群108の類似文章群110として決定する。
図2は、第2の実施形態の構成図である。
形態素解析部201は、記憶部210に記憶された、それぞれ文章識別子で識別される複数のサンプリング文章群211及び複数の抽出対象文章群212を形態素解析する。サンプリング文章群211は例えば、前回の類似文章抽出において抽出された後述する類似文章群213に基づいて、ユーザにより決定されたものである。
形態素出現文章記憶部202は、形態素解析結果を元に、形態素と、該形態素が出現した文章識別子とサンプリング文章群211及び抽出対象文章群212の別を対応付けて記憶部210に記憶する。
2形態素出現サンプリング文章記憶部203は、複数のサンプリング文章群211の文章識別子に対応付けて記憶部210に記憶された形態素を抽出し、文章識別子が共通する2つの形態素毎に、文章識別子を対応付けて記憶部210に記憶する。
2形態素出現抽出対象文章記憶部204は、抽出対象文章群212について、記憶部210から、2つの形態素毎に該2つの形態素に対応付けて記憶された文章識別子を抽出して2つの形態素に対応付けて記憶部210に記憶する。
件数類似度算出部205は、2つの形態素に対応付けて記憶部210に記憶されたサンプリング文章群211の文章識別子数と、抽出対象文章群212の文章識別子数との類似度を算出する。
抽出部206は、類似度が高い順に、サンプリング文章群211の文章識別子を全て抽
出するまで、2つの形態素に対応付けて記憶部210に記憶された抽出対象文章群212の文章識別子を重複なく抽出する。
無効化部207は、抽出部206で重複の無い文章識別子が存在しなかった2つの形態素を処理対象外とする。
除外部208は、抽出した文章識別子以外の文章識別子に対応する文章群を抽出対象文章群212から除外する。
類似文章決定部209は、抽出部206で抽出した文章識別子数が、前回抽出部206で抽出した文章識別子数と予め規定された差になるまで、2形態素出現抽出対象文章記憶部204、件数類似度算出部205、抽出部206、及び、削除部208の各処理を繰り返し、残った文章識別子で識別される抽出対象文章群212を、サンプリング文章群211の類似文章群213として決定する。
以上、図1に示される第1の実施形態、図2に示される第2の実施形態により、複数のサンプリング文章群と抽出対象文章群との間で、サンプリング文章群から抽出された複数の形態素組に関して、それらの出現文章数が近い(類似度が大きい)順に各形態組のみが含まれるように抽出対象文章群を絞り込む処理が繰り返し実行されることにより、抽出対象文章群からサンプリング文章群に類似する文章を効率よく抽出することが可能となる。
図3〜図5は、図2に示される第2の実施形態の構成の詳細な動作を示す動作フローチャート及び入出力データを示す図である。
以下、その詳細な動作について、図6〜図15に示される説明図及びデータ構成図と共に順次説明する。
まず、図3のステップS301にて、初期設定として、形態素解析結果、形態素行列、抽出明細、分類コード、及び再処理用元データの各ファイルd303が削除される。また、下記の変数設定が行われる。
変数:抽出ループ回数 に 1がを設定される。
変数:ヒット件数 に 0 が設定される。
変数:抽出データ件数 に抽出データファイルの明細数が設定される。
変数:元データ件数 に 元データファイルの明細数が設定される。
ここで、抽出データファイルは、図2又は図1のサンプリング文章群211又は108に対応する。この抽出データファイルは例えば、図6のd301に示されるようなテキストデータファイルであり、例えば「印字がおかしい」という分類ルールを示している。この抽出データファイルは例えば、前回の類似文章抽出において決定された類似文章群である図6に示される元データファイルd302から、ユーザが抽出して作成する。元データファイルは、図2又は図1の抽出対象文章群212又は109に対応する。
次に、図3のステップS302にて、抽出データファイルd301が形態素解析され、その処理結果が、形態素解析結果ファイルd304へ書き込まれる。この処理は、図2の形態素解析部201及び形態素出現文章記憶部202の各処理に対応する。図7(a)は、抽出データ件数(=抽出データファイルの明細数)が10件であると仮定した場合の、ステップS302で書き込まれる形態素解析結果ファイルd304のデータ構成例を示す図である。「データ区分」項目には、抽出データ/元データの別が登録される。ステップS302では、「データ区分」項目には「抽出データ」が登録される。「形態素」項目には、解析された形態素が登録される。「出現明細番号」項目には、左側から抽出データファイルd301内の各明細番号(図6参照)の昇順で、その明細番号の明細が「形態素」項目の形態素を含む場合は1が、含まない場合は0が登録される。つまり、図10の(a)と(b)に示される関係となる。
次に、図3のステップS303にて、抽出ループ回数が1かどうか判定される。抽出ループ回数が1である場合は、図3のステップS304とS305が実行される。抽出ループ回数が1より大きい場合は、図3のステップS306とS307が実行される。
図3のステップS304では、元データファイルd302(図6参照)が形態素解析され、その処理結果が、形態素解析結果ファイルd304へ書き込まれる。この処理は、図2の形態素解析部201及び形態素出現文章記憶部202の各処理に対応する。図7(b)は、ステップS304で書き込まれる形態素解析結果ファイルd304のデータ構成例を示す図である。ステップS304では、「データ区分」項目には「元データ」が登録される。
続く図3のステップS305では、形態素解析結果ファイルd304が読み込まれ、「データ区分」項目が「抽出データ」であるエントリに基づいて、2つの形態素を組合せた形態素行列が作成され、その処理結果が、形態素行列ファイルd305に書き込まれる。この処理は、図2の2形態素出現サンプリング文章記憶部203又は図1の複数形態素出現サンプリング文章記憶部101の処理に対応する。図7(c)は、ステップS305で作成される形態素行列ファイルd305のデータ構成例を示す図である。「組合せ番号」項目には各形態素の組合せを識別する番号が登録される。「組合せ」項目には2つの形態素の組が登録される。「抽出データ/出現明細数」項目には、「組合せ」項目に登録される2つの形態素を含む抽出データファイルd301中の明細数が登録される。「抽出データ/出現明細番号」項目には、左側から抽出データファイルd301内の各明細番号(図6参照)の昇順で、その明細番号の明細が上記2つの形態素を含む場合には1、含まない場合には0が登録される。上記出現明細数は、形態素解析結果ファイルd304内の「データ区分」項目が「抽出データ」であるエントリのうち、上記2つの形態素に対応する2つのエントリの各「出現明細番号」項目の各ビット位置毎の各アンド値として得ることができる。上記出現明細番号は、それらのアンド値が1となる合計数として得ることができる。形態素行列ファイルd305において、「元データ/出現明細数」「元データ/出現明細番号」「出現率」の各項目は空欄とされる。これらについては後述する。「有効フラグ」項目には「無効」が登録される。「抽出回数」項目には「1」が登録される。
抽出ループ回数が1より大きい場合に実行される図3のステップS306とS307については後述する。
続いて、図3のステップS308にて、形態素行列ファイルd305から、「抽出回数」項目の値が変数:抽出ループ回数 が示す現在の抽出回数(今は1)に等しく、「有効フラグ」項目の値が「無効」であるエントリ群が読み込まれる。そして、各エントリの「組合せ」項目が示す2形態素毎に、形態素解析結果ファイルd304から、元データファイルd302における出現明細数と出現明細番号が取得される。それらの出現明細数と出現明細番号は、各エントリの「元データ/出現明細数」項目と「元データ/出現明細番号」項目に登録される。この処理は、図2の2形態素出現抽出対象文章記憶部204又は図1の複数形態素出現抽出対象文章記憶部102の処理に対応する。具体的には、上記出現明細数は、形態素解析結果ファイルd304内の「データ区分」項目が「元データ」であるエントリのうち、上記2つの形態素に対応する2つのエントリの各「出現明細番号」項目の各ビット位置毎の各アンド値として得ることができる。上記出現明細番号は、それらのアンド値が1となる合計数として得ることができる。図7(e)は、ステップS308で更新される形態素行列ファイルd305のデータ構成例を示す図である。
次に、図4のステップS309にて、形態素行列ファイルd305から、「抽出回数」
項目の値が変数:抽出ループ回数 が示す現在の抽出回数(今は1)に等しく、「有効フラグ」項目の値が「無効」であるエントリ群が読み込まれる。そして、各エントリ毎に、次式に従って、出現率が計算され、その結果が各エントリの「出現率」項目に登録される。

出現率 = 「抽出データ/出現明細数」項目値÷「 元データ/出現明細数」項目値

この処理は、図2又は図1の件数類似度算出部205又は103の処理に対応する。図8(f)は、ステップS308で更新される形態素行列ファイルd305のデータ構成例を示す図である。
次に、図4のステップS310にて、形態素行列ファイルd305が読み込まれ、「抽出回数」項目の値が変数:抽出ループ回数 が示す現在の抽出回数(今は1)に等しく、「有効フラグ」項目の値が「無効」であるエントリ群が読み込まれる。そして、これらのエントリが出現率の降順に並び替えされる。図8(g)は、ステップS310にて並び替えられた形態素行列ファイルd305のデータ構成例を示す図である。
次に、図4のステップS311にて、形態素行列ファイルd305が読み込まれ、「抽出回数」項目の値が変数:抽出ループ回数 が示す現在の抽出回数(今は1)に等しく、「有効フラグ」項目の値が「無効」であるエントリが、「出現率」項目の値が大きい順に取り出され、ステップS311からS314までのループ処理として、取り出されたエントリについて、ステップS312とS313の各処理が順次実行される。
即ち、図4のステップS312では、変数:抽出データ件数 と変数:ヒット件数 が一致するか否かが判定される。ステップS312にてヒット件数が抽出データ件数に達してないと判定されたときには、ステップS313とS314が実行される。ステップS312にてヒット件数が抽出データ件数に達したと判定されたときには、ステップS315が実行される。
ステップS313では、ステップS311にて取り出されたエントリから、「組合せ」項目、「抽出データ/出現明細数」項目、「抽出データ/出現明細番号」項目の各値が取得され、それらが抽出明細ファイルd306に書き込まれる。図8(h)は、ステップS313にて登録される抽出明細ファイルd306のデータ構成例を示す図である。この場合に、「出現率」項目の値が最大であるエントリの処理においては、「出現明細数」項目の値が変数:ヒット件数 に設定される。それ以外のエントリの処理においては、「出願明細番号」項目の各ビット位置毎に、そのエントリよりも先に登録された抽出明細ファイルd306中の全てのエントリの「出願明細番号」項目の当該ビット位置が全て0である場合に、つまり今回初めて出現した明細である場合のみ、変数:ヒット件数 に1が加算される。また、取り出された組合せの出現明細番号が全て、そのエントリよりも先に登録された抽出明細ファイルd306中の全てのエントリの「出願明細番号」項目に登録されている場合には、そのエントリは、抽出明細ファイルd306には登録されない。
図4のステップS314では、ステップS311にて取り出された次のエントリについて、ステップS312にループされる。
以上、ステップS310からS314までの一連の処理は、図2又は図1の抽出部206の処理に対応する。
上記抽出処理の後、図4のステップS315では、抽出明細ファイルd306が読み込まれ、「組合せ」項目の各2形態素組が取り出される。そして、形態素行列ファイルd3
05において、「組合せ」項目の値が上記2形態素組と一致し、「抽出回数」項目の値が変数:抽出ループ回数 の値と一致するエントリが検索され、そのエントリの「有効フラグ」の値が「有効」に更新される。この処理は、図2の無効化部207の処理に対応する。図8(i)は、ステップS315によって更新される形態素行列ファイルd305のデータ構成例を示す図である。
続く図4のステップS316では、形態素行列ファイルd305から、「抽出回数」項目の値が変数:抽出ループ回数 に一致し、「有効フラグ」項目の値が「有効」であるエントリが検索され、そのエントリの「組合せ」項目に登録されている2形態素組が、任意の分類コード名及び現在の抽出ループ回数と共に、分類コードファイルd307に書き込まれる。図9(j)は、ステップS316によって書き込まれる分類コードファイルd307の構成例を示す図である。
図5のステップS317では、形態素行列ファイルd305から、「抽出回数」項目の値が変数:抽出ループ回数 に一致し、「有効フラグ」項目の値が「有効」であるエントリ群が検索され、検索された各エントリの「元データ/出現明細番号」項目に登録されている各出現明細番号が取得される。そして、これらの出現明細番号に基づいて、元データファイルd302中の各明細が読み込まれ、再処理用元データファイルd308に書き込まれる。そして、配列変数:再処理用元データ件数[N] に、再処理用元データファイルd308に登録された明細数が設定される。Nには、変数:抽出ループ回数 の値が設定される。つまり、配列変数:再処理用元データ件数[N] には、抽出ループ回数毎の再処理用元データ件数を登録することができる。以上のステップS317の処理は、図2又は図1の除外部208又は105の処理に対応する。
図5のステップS318では、変数:抽出ループ回数 に+1が加算される。また、変数:ヒット件数 に 0 を設定する。更に、形態素行列ファイルd305において、各エントリの「元データ/出現明細数」「元データ/出現明細番号」「出現率」の各項目値がクリアされ、「有効フラグ」項目に「無効」が設定され、「抽出回数」にインクリメントされた変数:抽出ループ回数 の値が設定される。図9(k)は、1回目の抽出ループが終わった時点においてステップS318によって更新された形態素行列ファイルd305のデータ構成例を示す図である。
図5のステップS319では、変数:抽出ループ回数 の値が2である場合は、再処理を判定し図3のステップS303の処理に戻る。変数:抽出ループ回数 の値が2より大きい場合には、以下の条件がチェックされ、再処理するか否かが判定される。
1)今回の再処理用元データ件数÷前回の再処理用元データ件数が算出される。
※再処理用元データ件数[N]÷再処理用元データ件数[N−1]
2)上記1)で算出された値が、閾値以上の場合は、再処理はせず終了を判定する。
3)上記1)で算出した値が、閾値未満の場合は、再処理を判定する。
※閾値は0.8を初期値とし、変更可能な値とする。
ステップS317によって、抽出データファイルd301の形態素を有効に含むものとして得られた再処理用元データファイルd308について、前回得られている再処理用元データファイルd308(1回目のときは元データファイルd302)に対する件数比が一定の率よりも小さい場合は、前回よりも抽出件数がかなり大きく削減されている場合である。一方、上記件数比が一定の率以上になった場合は、前回に対して抽出件数があまり変化しなくなった場合である。そして、前者の場合には、図12に示されるように、その再処理用元データファイルd308を使って再度文章群の絞込み処理を行ったほうが、抽出データファイルd301の形態素のみをより有効に含むデータが得られると考えられる。例えば図11(b)の比が0.6になった場合である。逆に、後者の場合には、その再処理用元データファイルd308はほぼ最適な状態に収束したと考えられる。例えば図11(a)、又は(b)の比が0.83になった場合である。
以上のステップS318とS319の処理は、図2又は図1の類似文章決定部209又は106の処理に対応する。
以上のようにして、図5のステップS319において再処理が判定された場合には、図3のステップS303に戻り、この判定がNOとなって、ステップS306とS307が実行される。
図3のステップS306では、形態素解析結果ファイルd304の「データ区分」項目が「元データ」となっている全てのレコードが削除される。
図3のステップS307では、再処理用元データファイルd308が形態素解析され、その処理結果が、形態素解析結果ファイルd304へ書き込まれる。この処理は、図2の形態素解析部201及び形態素出現文章記憶部202の各処理に対応する。ここでの処理は、元データファイルd302の代わりに再処理用元データファイルd308が用いられる以外は、図3のステップS304の処理と同じである。図7(d)は、ステップS307で書き込まれる形態素解析結果ファイルd304のデータ構成例を示す図である。ステップS307では、「データ区分」項目には「元データ」が登録される。
これ以降は、抽出回数1回目の場合と同様にして、図3のステップS308以降の処理が実行され、抽出データファイルd301から抽出された2形態素組による絞込み処理が行われる。
以上の処理が繰り返された結果、図5のステップS319にて終了が判定されると、その時点で得られた再処理用元データファイルd308の内容が、図2又は図1の類似文章文章群213又は110(目的テキスト)として決定される。
以上説明した実施形態における図4のステップS309において、出現率の代わりに、「抽出データ/出現明細数」項目値と「 元データ/出現明細数」項目値の件数差を利用することも考えられる。しかしながら、実データでの検証の結果、出現率の方が分類精度が良いとの結果を得た。この理由として、以下があげられる。
1)件数差で分類コードを決定すると、抽出データをよくヒットさせ、かつ元データを
あまりヒットさせない組合せを上位で拾いだせない問題がある。
2)上位で拾いだせない=分類コードで保持する組合せ数増加 となるため、精度低下に
直結する。
例えば、図13に示される例の場合、「左」「ずれる」という2形態素の組合せの場合には、出現率最大も件数差最小で抽出データと元データは共にもっとも近いとの結果になっているが、「印字」「ずれる」という2形態素の組合せの場合には、出現率は大きく抽出データと元データは2番目に近いとの結果になっているが、件数差は大きな値になっており抽出データと元データは近くないとの結果になってしまっている。実データでの検証では、出現率のほうが正しい値を示している。
従って、ステップS309では、件数差ではなく出現率を用いるほうがよい。
図4のステップS316によって得られる分類コードファイルd307には、例えば図14に示されるように、抽出回数毎に最適な2形態素の組合せを登録することができる。このように階層的に管理される分類コードが同種情報源の分類に対して適用される場合には、図15に示されるような処理が可能となる。即ちまず、分類コードファイルd307
から抽出回数1回目の分類コードが取り出され、同種情報源に対してその抽出回数1回目の分類コードを用いた絞込み処理が実行される。次に、分類コードファイルd307から抽出回数2回目の分類コードが取り出され、上記1回目の抽出結果に対して、抽出回数2回目の分類コードを用いた絞込み処理が実行される。抽出回数が全部で3回であれば、分類コードファイルd307から抽出回数3回目の分類コードが取り出され、上記2回目の抽出結果に対して、抽出回数3回目の分類コードを用いた絞込み処理が更に実行される。そして、この3回目の抽出結果が、最終的な分類結果として出力され、これに対して人間によるチェックが行われる。このようにして得られた分類結果が抽出データへ置き換えられ、元データと比較されて分類コードが再作成されることで、分類精度を簡単に高めていくことが可能となる。
図16は、以上に説明した各実施形態の分類コード自動作成システムを実現できるコンピュータのハードウェア構成の一例を示す図である。
図16に示されるコンピュータは、CPU1601、メモリ1602、入力装置1603、出力装置1604、外部記憶装置1605、可搬記録媒体1609が挿入される可搬記録媒体駆動装置1606、及びネットワーク接続装置1607を有し、これらがバス1608によって相互に接続された構成を有する。同図に示される構成は上記システムを実現できるコンピュータの一例であり、そのようなコンピュータはこの構成に限定されるものではない。
CPU1601は、当該コンピュータ全体の制御を行う。メモリ1602は、プログラムの実行、データ更新等の際に、外部記憶装置1605(或いは可搬記録媒体1609)に記憶されているプログラム又はデータを一時的に格納するRAM等のメモリである。CUP1601は、プログラムをメモリ1602に読み出して実行することにより、全体の制御を行う。
入力装置1603は、例えば、キーボード、マウス等及びそれらのインタフェース制御装置とからなる。入力装置1603は、ユーザによるキーボードやマウス等による入力操作を検出し、その検出結果をCPU1601に通知する。
出力装置1604は、表示装置、印刷装置等及びそれらのインタフェース制御装置とからなる。出力装置1604は、CPU1601の制御によって送られてくるデータを表示装置や印刷装置に出力する。
外部記憶装置1605は、例えばハードディスク記憶装置である。主に各種データやプログラムの保存に用いられる。
可搬記録媒体駆動装置1606は、光ディスクやSDRAM、コンパクトフラッシュ(登録商標)等の可搬記録媒体1609を収容するもので、外部記憶装置1605の補助の役割を有する。
ネットワーク接続装置1607は、例えばLAN(ローカルエリアネットワーク)又はWAN(ワイドエリアネットワーク)の通信回線を接続するための装置である。
各実施形態によるシステムは、図1又は図2に示される各ブロックの機能、又は図3〜図5に示される動作フローチャートの処理に対応する機能を搭載したプログラムをCPU1601が実行することで実現される。そのプログラムは、例えば外部記憶装置1605や可搬記録媒体1609に記録して配布してもよく、或いはネットワーク接続装置1607によりネットワークから取得できるようにしてもよい。また、各処理において用いられるデータは、例えば外部記憶装置1605からメモリ1602に読み出されて処理される。
図2及び図3以降で説明した実施形態では、2形態素の組によって文章の絞り込みを行う例について説明したが、図1に示されるように複数形態素の組によって文章の絞り込みを行う場合も、同様の考え方で実施することが可能である。
第1の実施形態の構成図である。 第2の実施形態の構成図である。 第2の実施形態の構成の詳細な動作を示す動作フローチャート及び入出力データを示す図(その1)である。 第2の実施形態の構成の詳細な動作を示す動作フローチャート及び入出力データを示す図(その2)である。 第2の実施形態の構成の詳細な動作を示す動作フローチャート及び入出力データを示す図(その3)である。 抽出データ例と元データ例を示す説明図である。 各処理ステップにおける各データの構成例を示す図(その1)である。 各処理ステップにおける各データの構成例を示す図(その2)である。 各処理ステップにおける各データの構成例を示す図(その3)である。 形態素解析結果ファイルd304のデータフォーマットの説明図である。 再処理判定処理の説明図である。 再処理動作の説明図である。 件数差ではなく出現差を使う理由の説明図である。 分類コードファイルd307の例を示す図である。 分類処理の説明図である。 各実施形態の分類コード自動作成システムを実現できるコンピュータのハードウェア構成の一例を示す図である。 目的テキストの収集処理の説明図である。
符号の説明
101 複数形態素出現サンプリング文章記憶部
102 複数形態素出現抽出対象文章記憶部
103 件数類似度算出部
104、206 抽出部
105、208 除外部
106、209 類似文章決定部
107、210 記憶部
108、211 サンプリング文章群
109、212 抽出対象文章群
110、213 類似文章群
201 形態素解析部
202 形態素出現文章記憶部
203 2形態素出現サンプリング文章記憶部
204 2形態素出現抽出対象文章記憶部
205 件数類似度算出部
207 無効化部
1601 CPU
1602 メモリ
1603 入力装置
1604 出力装置
1605 外部記憶装置
1606 可搬記録媒体駆動装置
1607 ネットワーク接続装置
1608 バス
d301 抽出データファイル
d302 元データファイル
d303 各ファイル
d304 形態素解析結果ファイル
d305 形態素行列ファイル
d306 抽出明細ファイル
d307 分類コードファイル
d308 再処理用元データファイル

Claims (9)

  1. 類似文章の抽出処理を行うコンピュータに、
    文章識別子で識別される複数のサンプリング文章群の文章に共通して出現する複数の形態素毎に、前記文章識別子を対応付けて記憶部に記憶する複数形態素出現サンプリング文章記憶手順と、
    文章識別子で識別される複数の抽出対象文章群について、前記複数の形態素毎に、該複数の形態素が共通して出現する文章識別子を抽出して対応付けて前記記憶部に記憶する複数形態素出現抽出対象文章記憶手順と、
    前記複数の形態素毎に、該複数の形態素に対応付けて前記記憶部に記憶された前記サンプリング文章群の文章識別子数と、前記抽出対象文章群の文章識別子数との類似度を算出する件数類似度算出手順と、
    前記類似度が高い順に、前記複数の形態素に対応付けて前記記憶部に記憶された前記抽出対象文章群の文章識別子を抽出する抽出手順と、
    前記抽出した文章識別子以外の文章識別子に対応する文章群を前記抽出対象文章群から除外する除外手順と、
    前記抽出手順で抽出した文章識別子数が、前回前記抽出手順で抽出した文章識別子数と予め規定された差になるまで、前記複数形態素出現抽出対象文章記憶手順前記件数類似度算出手順、前記抽出手順、及び、前記削除手順の各処理を繰り返し、残った文章識別子で識別される抽出対象文章群を前記サンプリング文章群の類似文章群として決定する類似文章決定手順と、
    を実行させるための類似文章抽出プログラム。
  2. 前記抽出手順は、前記類似度が高い順に、前記サンプリング文章群の文章識別子を全て抽出するまで前記複数の形態素に対応付けて前記記憶部に記憶された前記抽出対象文章群の文章識別子を抽出する、
    ことを特徴とする請求項1記載の類似文章抽出プログラム。
  3. 前記抽出手順は、類似度が高い順に、前記サンプリング文章群の文章識別子を全て抽出するまで、前記複数の形態素に対応付けて前記記憶部に記憶された前記抽出対象文章群の文章識別子を重複なく順次抽出し、
    前記抽出手順で重複の無い文章識別子が存在しなかった前記複数の形態素を処理対象外とする無効化手順を更に含む、
    ことを特徴とする請求項1記載の類似文章抽出プログラム。
  4. 類似文章の抽出処理を行うコンピュータに、
    記憶部に記憶された、それぞれ文章識別子で識別される複数のサンプリング文章群及び複数の抽出対象文章群を形態素解析する形態素解析手順と、
    前記形態素解析結果を元に、形態素と、該形態素が出現した文章識別子と前記サンプリング文章群及び抽出対象文章群の別を対応付けて前記記憶部に記憶する形態素出現文章記憶手順と、
    前記複数のサンプリング文章群の文章識別子に対応付けて前記記憶部に記憶された形態素を抽出し、前記文章識別子が共通する2つの形態素毎に、前記文章識別子を対応付けて前記記憶部に記憶する2形態素出現サンプリング文章記憶手順と、
    前記抽出対象文章群について、前記記憶部から、前記2つの形態素毎に該2つの形態素に対応付けて記憶された文章識別子を抽出して該2つの形態素に対応付けて前記記憶部に記憶する2形態素出現抽出対象文章記憶手順と、
    前記2つの形態素に対応付けて前記記憶部に記憶された前記サンプリング文章群の文章識別子数と、前記抽出対象文章群の文章識別子数との類似度を算出する件数類似度算出手順と、
    前記類似度が高い順に、前記サンプリング文章群の文章識別子を全て抽出するまで、前記2つの形態素に対応付けて前記記憶部に記憶された前記抽出対象文章群の文章識別子を重複なく抽出する抽出手順と、
    前記抽出手順で重複の無い文章識別子が存在しなかった前記2つの形態素を処理対象外とする無効化手順と、
    前記抽出した文章識別子以外の文章識別子に対応する文章群を前記抽出対象文章群から除外する除外手順と、
    前記抽出手順で抽出した文章識別子数が、前回前記抽出手順で抽出した文章識別子数と予め規定された差になるまで、前記2形態素出現抽出対象文章記憶手順、前記件数類似度算出手順、前記抽出手順、及び、前記削除手順の各処理を繰り返し、残った文章識別子で識別される抽出対象文章群を、前記サンプリング文章群の類似文章群として決定する類似文章決定手順と、
    を実行させるための類似文章抽出プログラム。
  5. 前記サンプリング文章群は、前回の類似文章抽出において抽出された類似文章群に基づいてユーザにより決定されたものである、
    ことを特徴とする請求項1記載の類似文章抽出プログラム。
  6. 類似文章の抽出処理を行うためのコンピュータが実行する方法であって、
    文章識別子で識別される複数のサンプリング文章群の文章に共通して出現する複数の形態素毎に、前記文章識別子を対応付けて記憶部に記憶する複数形態素出現サンプリング文章記憶手順と、
    文章識別子で識別される複数の抽出対象文章群について、前記複数の形態素毎に、該複数の形態素が共通して出現する文章識別子を抽出して対応付けて前記記憶部に記憶する複数形態素出現抽出対象文章記憶手順と、
    前記複数の形態素毎に、該複数の形態素に対応付けて前記記憶部に記憶された前記サンプリング文章群の文章識別子数と、前記抽出対象文章群の文章識別子数との類似度を算出する件数類似度算出手順と、
    前記類似度が高い順に、前記複数の形態素に対応付けて前記記憶部に記憶された前記抽出対象文章群の文章識別子を抽出する抽出手順と、
    前記抽出した文章識別子以外の文章識別子に対応する文章群を前記抽出対象文章群から除外する除外手順と、
    前記抽出手順で抽出した文章識別子数が、前回前記抽出手順で抽出した文章識別子数と予め規定された差になるまで、前記複数形態素出現抽出対象文章記憶手順前記件数類似度算出手順、前記抽出手順、及び、前記削除手順の各処理を繰り返し、残った文章識別子で識別される抽出対象文章群を前記サンプリング文章群の類似文章群として決定する類似文章決定手順と、
    を含むことを特徴とする類似文章抽出方法。
  7. 類似文章の抽出処理を行うための装置であって、
    文章識別子で識別される複数のサンプリング文章群の文章に共通して出現する複数の形態素毎に、前記文章識別子を対応付けて記憶部に記憶する複数形態素出現サンプリング文章記憶部と、
    文章識別子で識別される複数の抽出対象文章群について、前記複数の形態素毎に、該複数の形態素が共通して出現する文章識別子を抽出して対応付けて前記記憶部に記憶する複数形態素出現抽出対象文章記憶部と、
    前記複数の形態素毎に、該複数の形態素に対応付けて前記記憶部に記憶された前記サンプリング文章群の文章識別子数と、前記抽出対象文章群の文章識別子数との類似度を算出する件数類似度算出部と、
    前記類似度が高い順に、前記複数の形態素に対応付けて前記記憶部に記憶された前記抽出対象文章群の文章識別子を抽出する抽出部と、
    前記抽出した文章識別子以外の文章識別子に対応する文章群を前記抽出対象文章群から除外する除外部と、
    前記抽出部で抽出した文章識別子数が、前回前記抽出部で抽出した文章識別子数と予め規定された差になるまで、前記複数形態素出現抽出対象文章記憶部前記件数類似度算出部、前記抽出部、及び、前記削除部の各処理を繰り返し、残った文章識別子で識別される抽出対象文章群を前記サンプリング文章群の類似文章群として決定する類似文章決定部と、
    を含むことを特徴とする類似文章抽出装置。
  8. 類似文章の抽出処理を行うためのコンピュータが実行する方法であって、
    記憶部に記憶された、それぞれ文章識別子で識別される複数のサンプリング文章群及び複数の抽出対象文章群を形態素解析する形態素解析手順と、
    前記形態素解析結果を元に、形態素と、該形態素が出現した文章識別子と前記サンプリング文章群及び抽出対象文章群の別を対応付けて前記記憶部に記憶する形態素出現文章記憶手順と、
    前記複数のサンプリング文章群の文章識別子に対応付けて前記記憶部に記憶された形態素を抽出し、前記文章識別子が共通する2つの形態素毎に、前記文章識別子を対応付けて前記記憶部に記憶する2形態素出現サンプリング文章記憶手順と、
    前記抽出対象文章群について、前記記憶部から、前記2つの形態素毎に該2つの形態素に対応付けて記憶された文章識別子を抽出して該2つの形態素に対応付けて前記記憶部に記憶する2形態素出現抽出対象文章記憶手順と、
    前記2つの形態素に対応付けて前記記憶部に記憶された前記サンプリング文章群の文章識別子数と、前記抽出対象文章群の文章識別子数との類似度を算出する件数類似度算出手順と、
    前記類似度が高い順に、前記サンプリング文章群の文章識別子を全て抽出するまで、前記2つの形態素に対応付けて前記記憶部に記憶された前記抽出対象文章群の文章識別子を重複なく抽出する抽出手順と、
    前記抽出手順で重複の無い文章識別子が存在しなかった前記2つの形態素を処理対象外とする無効化手順と、
    前記抽出した文章識別子以外の文章識別子に対応する文章群を前記抽出対象文章群から除外する除外手順と、
    前記抽出手順で抽出した文章識別子数が、前回前記抽出手順で抽出した文章識別子数と予め規定された差になるまで、前記2形態素出現抽出対象文章記憶手順、前記件数類似度算出手順、前記抽出手順、及び、前記削除手順の各処理を繰り返し、残った文章識別子で識別される抽出対象文章群を、前記サンプリング文章群の類似文章群として決定する類似文章決定手順と、
    を含むことを特徴とする類似文章抽出方法。
  9. 類似文章の抽出処理を行うための装置であって、
    記憶部に記憶された、それぞれ文章識別子で識別される複数のサンプリング文章群及び複数の抽出対象文章群を形態素解析する形態素解析部と、
    前記形態素解析結果を元に、形態素と、該形態素が出現した文章識別子と前記サンプリング文章群及び抽出対象文章群の別を対応付けて前記記憶部に記憶する形態素出現文章記憶部と、
    前記複数のサンプリング文章群の文章識別子に対応付けて前記記憶部に記憶された形態素を抽出し、前記文章識別子が共通する2つの形態素毎に、前記文章識別子を対応付けて前記記憶部に記憶する2形態素出現サンプリング文章記憶部と、
    前記抽出対象文章群について、前記記憶部から、前記2つの形態素毎に該2つの形態素に対応付けて記憶された文章識別子を抽出して該2つの形態素に対応付けて前記記憶部に記憶する2形態素出現抽出対象文章記憶部と、
    前記2つの形態素に対応付けて前記記憶部に記憶された前記サンプリング文章群の文章識別子数と、前記抽出対象文章群の文章識別子数との類似度を算出する件数類似度算出部と、
    前記類似度が高い順に、前記サンプリング文章群の文章識別子を全て抽出するまで、前記2つの形態素に対応付けて前記記憶部に記憶された前記抽出対象文章群の文章識別子を重複なく抽出する抽出部と、
    前記抽出部で重複の無い文章識別子が存在しなかった前記2つの形態素を処理対象外とする無効化部と、
    前記抽出した文章識別子以外の文章識別子に対応する文章群を前記抽出対象文章群から除外する除外部と、
    前記抽出部で抽出した文章識別子数が、前回前記抽出部で抽出した文章識別子数と予め規定された差になるまで、前記2形態素出現抽出対象文章記憶部、前記件数類似度算出部、前記抽出部、及び、前記削除部の各処理を繰り返し、残った文章識別子で識別される抽出対象文章群を、前記サンプリング文章群の類似文章群として決定する類似文章決定部と、
    を含むことを特徴とする類似文章抽出装置。
JP2008258776A 2008-10-03 2008-10-03 類似文章抽出プログラム、方法、装置 Active JP5206296B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2008258776A JP5206296B2 (ja) 2008-10-03 2008-10-03 類似文章抽出プログラム、方法、装置
CN200980137926.2A CN102165443B (zh) 2008-10-03 2009-10-02 文章抽取方法、文章抽取装置
PCT/JP2009/005126 WO2010038481A1 (ja) 2008-10-03 2009-10-02 文章抽出プログラムを記録したコンピュータ読み取り可能な記録媒体、文章抽出方法、文章抽出装置
US13/073,168 US20110172991A1 (en) 2008-10-03 2011-03-28 Sentence extracting method, sentence extracting apparatus, and non-transitory computer readable record medium storing sentence extracting program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008258776A JP5206296B2 (ja) 2008-10-03 2008-10-03 類似文章抽出プログラム、方法、装置

Publications (2)

Publication Number Publication Date
JP2010092108A JP2010092108A (ja) 2010-04-22
JP5206296B2 true JP5206296B2 (ja) 2013-06-12

Family

ID=42073259

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008258776A Active JP5206296B2 (ja) 2008-10-03 2008-10-03 類似文章抽出プログラム、方法、装置

Country Status (4)

Country Link
US (1) US20110172991A1 (ja)
JP (1) JP5206296B2 (ja)
CN (1) CN102165443B (ja)
WO (1) WO2010038481A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110251973A1 (en) * 2010-04-08 2011-10-13 Microsoft Corporation Deriving statement from product or service reviews
CN105302913B (zh) * 2015-11-12 2018-09-18 北京奇虎科技有限公司 网络小说章节列表评估方法及装置
CN106815201B (zh) * 2015-12-01 2021-06-08 北京国双科技有限公司 一种自动判定裁判文书判决结果的方法及装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3040945B2 (ja) * 1995-11-29 2000-05-15 松下電器産業株式会社 文書検索装置
JP3930138B2 (ja) * 1998-02-27 2007-06-13 株式会社東芝 情報解析方法および情報解析プログラムを記憶した媒体
US6654744B2 (en) * 2000-04-17 2003-11-25 Fujitsu Limited Method and apparatus for categorizing information, and a computer product
JP4017354B2 (ja) * 2000-04-17 2007-12-05 富士通株式会社 情報分類装置および情報分類プログラム
US7295965B2 (en) * 2001-06-29 2007-11-13 Honeywell International Inc. Method and apparatus for determining a measure of similarity between natural language sentences
EP1473639A1 (en) * 2002-02-04 2004-11-03 Celestar Lexico-Sciences, Inc. Document knowledge management apparatus and method
JP2003288362A (ja) * 2002-03-27 2003-10-10 Seiko Epson Corp 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
JP2004013726A (ja) * 2002-06-10 2004-01-15 Sumitomo Electric Ind Ltd キーワード抽出装置および情報検索装置
JP4025181B2 (ja) * 2002-11-19 2007-12-19 株式会社山武 文書管理装置
CN1942877A (zh) * 2004-03-31 2007-04-04 松下电器产业株式会社 信息提取系统
JP5095281B2 (ja) * 2007-07-11 2012-12-12 株式会社日立製作所 文字列匿名化装置、文字列匿名化方法及び文字列匿名化プログラム

Also Published As

Publication number Publication date
CN102165443B (zh) 2013-05-15
WO2010038481A1 (ja) 2010-04-08
US20110172991A1 (en) 2011-07-14
CN102165443A (zh) 2011-08-24
JP2010092108A (ja) 2010-04-22

Similar Documents

Publication Publication Date Title
JP4872079B2 (ja) 文章更新量評価プログラム
El et al. Authorship analysis studies: A survey
US9031935B2 (en) Search system, search method, and program
Daas Natural language processing
CN110929518A (zh) 一种使用重叠拆分规则的文本序列标注算法
JP5206296B2 (ja) 類似文章抽出プログラム、方法、装置
Fatima et al. New graph-based text summarization method
US20210182549A1 (en) Natural Language Processing (NLP) Pipeline for Automated Attribute Extraction
CN114003750B (zh) 物料上线方法、装置、设备及存储介质
CN112115362B (zh) 一种基于相似代码识别的编程信息推荐方法及装置
Tian et al. Adapting word embeddings to traceability recovery
JP5214985B2 (ja) テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JP3081093B2 (ja) 索引作成方法およびその装置と文書検索装置
CN113971403A (zh) 一种考虑文本语义信息的实体识别方法及系统
JP5389764B2 (ja) マイクロブログテキスト分類装置及び方法及びプログラム
Goonawardena et al. Automated spelling checker and grammatical error detection and correction model for sinhala language
JP4985096B2 (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP7116940B2 (ja) オープンデータを効率的に構造化し補正する方法及びプログラム
JP2013101678A (ja) テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JP2014235584A (ja) 文書分析システム、文書分析方法およびプログラム
JP4385119B2 (ja) 共通パターン発見装置とプログラム、記憶媒体、及び共通パターン発見方法
US11989500B2 (en) Framework agnostic summarization of multi-channel communication
CN112949287B (zh) 热词挖掘方法、系统、计算机设备和存储介质
Thottempudi A visual narrative of ramayana using extractive summarization topic modeling and named entity recognition
Karthigha et al. A survey on removal of duplicate records in database

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110708

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121030

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130204

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160301

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5206296

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150