JP5206296B2 - 類似文章抽出プログラム、方法、装置 - Google Patents
類似文章抽出プログラム、方法、装置 Download PDFInfo
- Publication number
- JP5206296B2 JP5206296B2 JP2008258776A JP2008258776A JP5206296B2 JP 5206296 B2 JP5206296 B2 JP 5206296B2 JP 2008258776 A JP2008258776 A JP 2008258776A JP 2008258776 A JP2008258776 A JP 2008258776A JP 5206296 B2 JP5206296 B2 JP 5206296B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- extraction
- procedure
- group
- morphemes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
上記理由より、多くの企業では、分析結果を出し、組織に情報を普及させるのに時間的なロスがかなり発生しており、タイムリーなアクションの障壁となっている。
分析のスピードアップという観点では、目的テキストの高精度な収集が課題となる。目的テキストが高精度で収集できれば、内容チェックの量も最適化され、分析者の負担軽減、しいては分析のスピードアップ化が可能となる。
図17は、例えば、2008年5月の或るコールセンターにおける問合せデータ10,000件(元データ)から、目的テキストとして「印刷がおかしい」という意味に該当する問合せを抽出するための処理の概念を示した図である。
従って、キーワードをどのように選択するかという知識が、目的テキストの抽出精度を向上させるために必要となる。しかし、従来、目的テキストを収集するキーワードの組合せ、即ち、分類辞書の設定作業は、分析者の属人的なスキルに大きく依存していた。
特許文献1では、指定文章集合内の単語の出現数からキーワードが抽出され、2つのキーワード間の共起度が全ての組み合わせについて算出され、その共起度からキーワードがグルーピングされる技術が開示されている。
また、キーワード検索において問合せデータを絞り込んでいく方法が考えられるが、目的テキストを抽出する『キーワード』を漏れなく人間が考えるのは実質不可能であるという問題点を有していた。
複数形態素出現サンプリング文章記憶部(101)は、文章識別子で識別される複数のサンプリング文章群(108)の文章に共通して出現する複数の形態素毎に、文章識別子を対応付けて記憶部(107)に記憶する。このサンプリング文章群(108)は例えば、前回の類似文章抽出において抽出された類似文章群(110)に基づいて、ユーザにより決定されたものである。
除外部(105)は、抽出した文章識別子以外の文章識別子に対応する文章群を抽出対象文章群(109)から除外する。
形態素解析部(201)は、記憶部(210)に記憶された、それぞれ文章識別子で識別される複数のサンプリング文章群(211)及び複数の抽出対象文章群(212)を形態素解析する。サンプリング文章群(211)は例えば、前回の類似文章抽出において抽出された後述する類似文章群(213)に基づいて、ユーザにより決定されたものである。
除外部(208)は、抽出した文章識別子以外の文章識別子に対応する文章群を抽出対象文章群(212)から除外する。
人の主観を入れず、コンピュータが最適な組合せを発見するため、人手の限界を解決することが可能となる。
同種情報源に対し、分類コードを適用することで、効率よく問合せを抽出することが可能となる。
図1は、第1の実施形態の構成図である。
複数形態素出現サンプリング文章記憶部101は、文章識別子で識別される複数のサンプリング文章群108の文章に共通して出現する複数の形態素毎に、文章識別子を対応付けて記憶部107に記憶する。このサンプリング文章群108は例えば、前回の類似文章抽出において抽出された類似文章群110に基づいて、ユーザにより決定されたものである。
除外部105は、抽出した文章識別子以外の文章識別子に対応する文章群を抽出対象文章群109から除外する。
形態素解析部201は、記憶部210に記憶された、それぞれ文章識別子で識別される複数のサンプリング文章群211及び複数の抽出対象文章群212を形態素解析する。サンプリング文章群211は例えば、前回の類似文章抽出において抽出された後述する類似文章群213に基づいて、ユーザにより決定されたものである。
出するまで、2つの形態素に対応付けて記憶部210に記憶された抽出対象文章群212の文章識別子を重複なく抽出する。
除外部208は、抽出した文章識別子以外の文章識別子に対応する文章群を抽出対象文章群212から除外する。
以下、その詳細な動作について、図6〜図15に示される説明図及びデータ構成図と共に順次説明する。
変数:ヒット件数 に 0 が設定される。
変数:抽出データ件数 に抽出データファイルの明細数が設定される。
ここで、抽出データファイルは、図2又は図1のサンプリング文章群211又は108に対応する。この抽出データファイルは例えば、図6のd301に示されるようなテキストデータファイルであり、例えば「印字がおかしい」という分類ルールを示している。この抽出データファイルは例えば、前回の類似文章抽出において決定された類似文章群である図6に示される元データファイルd302から、ユーザが抽出して作成する。元データファイルは、図2又は図1の抽出対象文章群212又は109に対応する。
続いて、図3のステップS308にて、形態素行列ファイルd305から、「抽出回数」項目の値が変数:抽出ループ回数 が示す現在の抽出回数(今は1)に等しく、「有効フラグ」項目の値が「無効」であるエントリ群が読み込まれる。そして、各エントリの「組合せ」項目が示す2形態素毎に、形態素解析結果ファイルd304から、元データファイルd302における出現明細数と出現明細番号が取得される。それらの出現明細数と出現明細番号は、各エントリの「元データ/出現明細数」項目と「元データ/出現明細番号」項目に登録される。この処理は、図2の2形態素出現抽出対象文章記憶部204又は図1の複数形態素出現抽出対象文章記憶部102の処理に対応する。具体的には、上記出現明細数は、形態素解析結果ファイルd304内の「データ区分」項目が「元データ」であるエントリのうち、上記2つの形態素に対応する2つのエントリの各「出現明細番号」項目の各ビット位置毎の各アンド値として得ることができる。上記出現明細番号は、それらのアンド値が1となる合計数として得ることができる。図7(e)は、ステップS308で更新される形態素行列ファイルd305のデータ構成例を示す図である。
項目の値が変数:抽出ループ回数 が示す現在の抽出回数(今は1)に等しく、「有効フラグ」項目の値が「無効」であるエントリ群が読み込まれる。そして、各エントリ毎に、次式に従って、出現率が計算され、その結果が各エントリの「出現率」項目に登録される。
出現率 = 「抽出データ/出現明細数」項目値÷「 元データ/出現明細数」項目値
この処理は、図2又は図1の件数類似度算出部205又は103の処理に対応する。図8(f)は、ステップS308で更新される形態素行列ファイルd305のデータ構成例を示す図である。
以上、ステップS310からS314までの一連の処理は、図2又は図1の抽出部206の処理に対応する。
05において、「組合せ」項目の値が上記2形態素組と一致し、「抽出回数」項目の値が変数:抽出ループ回数 の値と一致するエントリが検索され、そのエントリの「有効フラグ」の値が「有効」に更新される。この処理は、図2の無効化部207の処理に対応する。図8(i)は、ステップS315によって更新される形態素行列ファイルd305のデータ構成例を示す図である。
1)今回の再処理用元データ件数÷前回の再処理用元データ件数が算出される。
※再処理用元データ件数[N]÷再処理用元データ件数[N−1]
2)上記1)で算出された値が、閾値以上の場合は、再処理はせず終了を判定する。
3)上記1)で算出した値が、閾値未満の場合は、再処理を判定する。
※閾値は0.8を初期値とし、変更可能な値とする。
ステップS317によって、抽出データファイルd301の形態素を有効に含むものとして得られた再処理用元データファイルd308について、前回得られている再処理用元データファイルd308(1回目のときは元データファイルd302)に対する件数比が一定の率よりも小さい場合は、前回よりも抽出件数がかなり大きく削減されている場合である。一方、上記件数比が一定の率以上になった場合は、前回に対して抽出件数があまり変化しなくなった場合である。そして、前者の場合には、図12に示されるように、その再処理用元データファイルd308を使って再度文章群の絞込み処理を行ったほうが、抽出データファイルd301の形態素のみをより有効に含むデータが得られると考えられる。例えば図11(b)の比が0.6になった場合である。逆に、後者の場合には、その再処理用元データファイルd308はほぼ最適な状態に収束したと考えられる。例えば図11(a)、又は(b)の比が0.83になった場合である。
以上のようにして、図5のステップS319において再処理が判定された場合には、図3のステップS303に戻り、この判定がNOとなって、ステップS306とS307が実行される。
図3のステップS307では、再処理用元データファイルd308が形態素解析され、その処理結果が、形態素解析結果ファイルd304へ書き込まれる。この処理は、図2の形態素解析部201及び形態素出現文章記憶部202の各処理に対応する。ここでの処理は、元データファイルd302の代わりに再処理用元データファイルd308が用いられる以外は、図3のステップS304の処理と同じである。図7(d)は、ステップS307で書き込まれる形態素解析結果ファイルd304のデータ構成例を示す図である。ステップS307では、「データ区分」項目には「元データ」が登録される。
1)件数差で分類コードを決定すると、抽出データをよくヒットさせ、かつ元データを
あまりヒットさせない組合せを上位で拾いだせない問題がある。
2)上位で拾いだせない=分類コードで保持する組合せ数増加 となるため、精度低下に
直結する。
従って、ステップS309では、件数差ではなく出現率を用いるほうがよい。
から抽出回数1回目の分類コードが取り出され、同種情報源に対してその抽出回数1回目の分類コードを用いた絞込み処理が実行される。次に、分類コードファイルd307から抽出回数2回目の分類コードが取り出され、上記1回目の抽出結果に対して、抽出回数2回目の分類コードを用いた絞込み処理が実行される。抽出回数が全部で3回であれば、分類コードファイルd307から抽出回数3回目の分類コードが取り出され、上記2回目の抽出結果に対して、抽出回数3回目の分類コードを用いた絞込み処理が更に実行される。そして、この3回目の抽出結果が、最終的な分類結果として出力され、これに対して人間によるチェックが行われる。このようにして得られた分類結果が抽出データへ置き換えられ、元データと比較されて分類コードが再作成されることで、分類精度を簡単に高めていくことが可能となる。
図16に示されるコンピュータは、CPU1601、メモリ1602、入力装置1603、出力装置1604、外部記憶装置1605、可搬記録媒体1609が挿入される可搬記録媒体駆動装置1606、及びネットワーク接続装置1607を有し、これらがバス1608によって相互に接続された構成を有する。同図に示される構成は上記システムを実現できるコンピュータの一例であり、そのようなコンピュータはこの構成に限定されるものではない。
可搬記録媒体駆動装置1606は、光ディスクやSDRAM、コンパクトフラッシュ(登録商標)等の可搬記録媒体1609を収容するもので、外部記憶装置1605の補助の役割を有する。
各実施形態によるシステムは、図1又は図2に示される各ブロックの機能、又は図3〜図5に示される動作フローチャートの処理に対応する機能を搭載したプログラムをCPU1601が実行することで実現される。そのプログラムは、例えば外部記憶装置1605や可搬記録媒体1609に記録して配布してもよく、或いはネットワーク接続装置1607によりネットワークから取得できるようにしてもよい。また、各処理において用いられるデータは、例えば外部記憶装置1605からメモリ1602に読み出されて処理される。
102 複数形態素出現抽出対象文章記憶部
103 件数類似度算出部
104、206 抽出部
105、208 除外部
106、209 類似文章決定部
107、210 記憶部
108、211 サンプリング文章群
109、212 抽出対象文章群
110、213 類似文章群
201 形態素解析部
202 形態素出現文章記憶部
203 2形態素出現サンプリング文章記憶部
204 2形態素出現抽出対象文章記憶部
205 件数類似度算出部
207 無効化部
1601 CPU
1602 メモリ
1603 入力装置
1604 出力装置
1605 外部記憶装置
1606 可搬記録媒体駆動装置
1607 ネットワーク接続装置
1608 バス
d301 抽出データファイル
d302 元データファイル
d303 各ファイル
d304 形態素解析結果ファイル
d305 形態素行列ファイル
d306 抽出明細ファイル
d307 分類コードファイル
d308 再処理用元データファイル
Claims (9)
- 類似文章の抽出処理を行うコンピュータに、
文章識別子で識別される複数のサンプリング文章群の文章に共通して出現する複数の形態素毎に、前記文章識別子を対応付けて記憶部に記憶する複数形態素出現サンプリング文章記憶手順と、
文章識別子で識別される複数の抽出対象文章群について、前記複数の形態素毎に、該複数の形態素が共通して出現する文章識別子を抽出して対応付けて前記記憶部に記憶する複数形態素出現抽出対象文章記憶手順と、
前記複数の形態素毎に、該複数の形態素に対応付けて前記記憶部に記憶された前記サンプリング文章群の文章識別子数と、前記抽出対象文章群の文章識別子数との類似度を算出する件数類似度算出手順と、
前記類似度が高い順に、前記複数の形態素に対応付けて前記記憶部に記憶された前記抽出対象文章群の文章識別子を抽出する抽出手順と、
前記抽出した文章識別子以外の文章識別子に対応する文章群を前記抽出対象文章群から除外する除外手順と、
前記抽出手順で抽出した文章識別子数が、前回前記抽出手順で抽出した文章識別子数と予め規定された差になるまで、前記複数形態素出現抽出対象文章記憶手順前記件数類似度算出手順、前記抽出手順、及び、前記削除手順の各処理を繰り返し、残った文章識別子で識別される抽出対象文章群を前記サンプリング文章群の類似文章群として決定する類似文章決定手順と、
を実行させるための類似文章抽出プログラム。 - 前記抽出手順は、前記類似度が高い順に、前記サンプリング文章群の文章識別子を全て抽出するまで前記複数の形態素に対応付けて前記記憶部に記憶された前記抽出対象文章群の文章識別子を抽出する、
ことを特徴とする請求項1記載の類似文章抽出プログラム。 - 前記抽出手順は、類似度が高い順に、前記サンプリング文章群の文章識別子を全て抽出するまで、前記複数の形態素に対応付けて前記記憶部に記憶された前記抽出対象文章群の文章識別子を重複なく順次抽出し、
前記抽出手順で重複の無い文章識別子が存在しなかった前記複数の形態素を処理対象外とする無効化手順を更に含む、
ことを特徴とする請求項1記載の類似文章抽出プログラム。 - 類似文章の抽出処理を行うコンピュータに、
記憶部に記憶された、それぞれ文章識別子で識別される複数のサンプリング文章群及び複数の抽出対象文章群を形態素解析する形態素解析手順と、
前記形態素解析結果を元に、形態素と、該形態素が出現した文章識別子と前記サンプリング文章群及び抽出対象文章群の別を対応付けて前記記憶部に記憶する形態素出現文章記憶手順と、
前記複数のサンプリング文章群の文章識別子に対応付けて前記記憶部に記憶された形態素を抽出し、前記文章識別子が共通する2つの形態素毎に、前記文章識別子を対応付けて前記記憶部に記憶する2形態素出現サンプリング文章記憶手順と、
前記抽出対象文章群について、前記記憶部から、前記2つの形態素毎に該2つの形態素に対応付けて記憶された文章識別子を抽出して該2つの形態素に対応付けて前記記憶部に記憶する2形態素出現抽出対象文章記憶手順と、
前記2つの形態素に対応付けて前記記憶部に記憶された前記サンプリング文章群の文章識別子数と、前記抽出対象文章群の文章識別子数との類似度を算出する件数類似度算出手順と、
前記類似度が高い順に、前記サンプリング文章群の文章識別子を全て抽出するまで、前記2つの形態素に対応付けて前記記憶部に記憶された前記抽出対象文章群の文章識別子を重複なく抽出する抽出手順と、
前記抽出手順で重複の無い文章識別子が存在しなかった前記2つの形態素を処理対象外とする無効化手順と、
前記抽出した文章識別子以外の文章識別子に対応する文章群を前記抽出対象文章群から除外する除外手順と、
前記抽出手順で抽出した文章識別子数が、前回前記抽出手順で抽出した文章識別子数と予め規定された差になるまで、前記2形態素出現抽出対象文章記憶手順、前記件数類似度算出手順、前記抽出手順、及び、前記削除手順の各処理を繰り返し、残った文章識別子で識別される抽出対象文章群を、前記サンプリング文章群の類似文章群として決定する類似文章決定手順と、
を実行させるための類似文章抽出プログラム。 - 前記サンプリング文章群は、前回の類似文章抽出において抽出された類似文章群に基づいてユーザにより決定されたものである、
ことを特徴とする請求項1記載の類似文章抽出プログラム。 - 類似文章の抽出処理を行うためのコンピュータが実行する方法であって、
文章識別子で識別される複数のサンプリング文章群の文章に共通して出現する複数の形態素毎に、前記文章識別子を対応付けて記憶部に記憶する複数形態素出現サンプリング文章記憶手順と、
文章識別子で識別される複数の抽出対象文章群について、前記複数の形態素毎に、該複数の形態素が共通して出現する文章識別子を抽出して対応付けて前記記憶部に記憶する複数形態素出現抽出対象文章記憶手順と、
前記複数の形態素毎に、該複数の形態素に対応付けて前記記憶部に記憶された前記サンプリング文章群の文章識別子数と、前記抽出対象文章群の文章識別子数との類似度を算出する件数類似度算出手順と、
前記類似度が高い順に、前記複数の形態素に対応付けて前記記憶部に記憶された前記抽出対象文章群の文章識別子を抽出する抽出手順と、
前記抽出した文章識別子以外の文章識別子に対応する文章群を前記抽出対象文章群から除外する除外手順と、
前記抽出手順で抽出した文章識別子数が、前回前記抽出手順で抽出した文章識別子数と予め規定された差になるまで、前記複数形態素出現抽出対象文章記憶手順前記件数類似度算出手順、前記抽出手順、及び、前記削除手順の各処理を繰り返し、残った文章識別子で識別される抽出対象文章群を前記サンプリング文章群の類似文章群として決定する類似文章決定手順と、
を含むことを特徴とする類似文章抽出方法。 - 類似文章の抽出処理を行うための装置であって、
文章識別子で識別される複数のサンプリング文章群の文章に共通して出現する複数の形態素毎に、前記文章識別子を対応付けて記憶部に記憶する複数形態素出現サンプリング文章記憶部と、
文章識別子で識別される複数の抽出対象文章群について、前記複数の形態素毎に、該複数の形態素が共通して出現する文章識別子を抽出して対応付けて前記記憶部に記憶する複数形態素出現抽出対象文章記憶部と、
前記複数の形態素毎に、該複数の形態素に対応付けて前記記憶部に記憶された前記サンプリング文章群の文章識別子数と、前記抽出対象文章群の文章識別子数との類似度を算出する件数類似度算出部と、
前記類似度が高い順に、前記複数の形態素に対応付けて前記記憶部に記憶された前記抽出対象文章群の文章識別子を抽出する抽出部と、
前記抽出した文章識別子以外の文章識別子に対応する文章群を前記抽出対象文章群から除外する除外部と、
前記抽出部で抽出した文章識別子数が、前回前記抽出部で抽出した文章識別子数と予め規定された差になるまで、前記複数形態素出現抽出対象文章記憶部前記件数類似度算出部、前記抽出部、及び、前記削除部の各処理を繰り返し、残った文章識別子で識別される抽出対象文章群を前記サンプリング文章群の類似文章群として決定する類似文章決定部と、
を含むことを特徴とする類似文章抽出装置。 - 類似文章の抽出処理を行うためのコンピュータが実行する方法であって、
記憶部に記憶された、それぞれ文章識別子で識別される複数のサンプリング文章群及び複数の抽出対象文章群を形態素解析する形態素解析手順と、
前記形態素解析結果を元に、形態素と、該形態素が出現した文章識別子と前記サンプリング文章群及び抽出対象文章群の別を対応付けて前記記憶部に記憶する形態素出現文章記憶手順と、
前記複数のサンプリング文章群の文章識別子に対応付けて前記記憶部に記憶された形態素を抽出し、前記文章識別子が共通する2つの形態素毎に、前記文章識別子を対応付けて前記記憶部に記憶する2形態素出現サンプリング文章記憶手順と、
前記抽出対象文章群について、前記記憶部から、前記2つの形態素毎に該2つの形態素に対応付けて記憶された文章識別子を抽出して該2つの形態素に対応付けて前記記憶部に記憶する2形態素出現抽出対象文章記憶手順と、
前記2つの形態素に対応付けて前記記憶部に記憶された前記サンプリング文章群の文章識別子数と、前記抽出対象文章群の文章識別子数との類似度を算出する件数類似度算出手順と、
前記類似度が高い順に、前記サンプリング文章群の文章識別子を全て抽出するまで、前記2つの形態素に対応付けて前記記憶部に記憶された前記抽出対象文章群の文章識別子を重複なく抽出する抽出手順と、
前記抽出手順で重複の無い文章識別子が存在しなかった前記2つの形態素を処理対象外とする無効化手順と、
前記抽出した文章識別子以外の文章識別子に対応する文章群を前記抽出対象文章群から除外する除外手順と、
前記抽出手順で抽出した文章識別子数が、前回前記抽出手順で抽出した文章識別子数と予め規定された差になるまで、前記2形態素出現抽出対象文章記憶手順、前記件数類似度算出手順、前記抽出手順、及び、前記削除手順の各処理を繰り返し、残った文章識別子で識別される抽出対象文章群を、前記サンプリング文章群の類似文章群として決定する類似文章決定手順と、
を含むことを特徴とする類似文章抽出方法。 - 類似文章の抽出処理を行うための装置であって、
記憶部に記憶された、それぞれ文章識別子で識別される複数のサンプリング文章群及び複数の抽出対象文章群を形態素解析する形態素解析部と、
前記形態素解析結果を元に、形態素と、該形態素が出現した文章識別子と前記サンプリング文章群及び抽出対象文章群の別を対応付けて前記記憶部に記憶する形態素出現文章記憶部と、
前記複数のサンプリング文章群の文章識別子に対応付けて前記記憶部に記憶された形態素を抽出し、前記文章識別子が共通する2つの形態素毎に、前記文章識別子を対応付けて前記記憶部に記憶する2形態素出現サンプリング文章記憶部と、
前記抽出対象文章群について、前記記憶部から、前記2つの形態素毎に該2つの形態素に対応付けて記憶された文章識別子を抽出して該2つの形態素に対応付けて前記記憶部に記憶する2形態素出現抽出対象文章記憶部と、
前記2つの形態素に対応付けて前記記憶部に記憶された前記サンプリング文章群の文章識別子数と、前記抽出対象文章群の文章識別子数との類似度を算出する件数類似度算出部と、
前記類似度が高い順に、前記サンプリング文章群の文章識別子を全て抽出するまで、前記2つの形態素に対応付けて前記記憶部に記憶された前記抽出対象文章群の文章識別子を重複なく抽出する抽出部と、
前記抽出部で重複の無い文章識別子が存在しなかった前記2つの形態素を処理対象外とする無効化部と、
前記抽出した文章識別子以外の文章識別子に対応する文章群を前記抽出対象文章群から除外する除外部と、
前記抽出部で抽出した文章識別子数が、前回前記抽出部で抽出した文章識別子数と予め規定された差になるまで、前記2形態素出現抽出対象文章記憶部、前記件数類似度算出部、前記抽出部、及び、前記削除部の各処理を繰り返し、残った文章識別子で識別される抽出対象文章群を、前記サンプリング文章群の類似文章群として決定する類似文章決定部と、
を含むことを特徴とする類似文章抽出装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008258776A JP5206296B2 (ja) | 2008-10-03 | 2008-10-03 | 類似文章抽出プログラム、方法、装置 |
CN200980137926.2A CN102165443B (zh) | 2008-10-03 | 2009-10-02 | 文章抽取方法、文章抽取装置 |
PCT/JP2009/005126 WO2010038481A1 (ja) | 2008-10-03 | 2009-10-02 | 文章抽出プログラムを記録したコンピュータ読み取り可能な記録媒体、文章抽出方法、文章抽出装置 |
US13/073,168 US20110172991A1 (en) | 2008-10-03 | 2011-03-28 | Sentence extracting method, sentence extracting apparatus, and non-transitory computer readable record medium storing sentence extracting program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008258776A JP5206296B2 (ja) | 2008-10-03 | 2008-10-03 | 類似文章抽出プログラム、方法、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010092108A JP2010092108A (ja) | 2010-04-22 |
JP5206296B2 true JP5206296B2 (ja) | 2013-06-12 |
Family
ID=42073259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008258776A Active JP5206296B2 (ja) | 2008-10-03 | 2008-10-03 | 類似文章抽出プログラム、方法、装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20110172991A1 (ja) |
JP (1) | JP5206296B2 (ja) |
CN (1) | CN102165443B (ja) |
WO (1) | WO2010038481A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110251973A1 (en) * | 2010-04-08 | 2011-10-13 | Microsoft Corporation | Deriving statement from product or service reviews |
CN105302913B (zh) * | 2015-11-12 | 2018-09-18 | 北京奇虎科技有限公司 | 网络小说章节列表评估方法及装置 |
CN106815201B (zh) * | 2015-12-01 | 2021-06-08 | 北京国双科技有限公司 | 一种自动判定裁判文书判决结果的方法及装置 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3040945B2 (ja) * | 1995-11-29 | 2000-05-15 | 松下電器産業株式会社 | 文書検索装置 |
JP3930138B2 (ja) * | 1998-02-27 | 2007-06-13 | 株式会社東芝 | 情報解析方法および情報解析プログラムを記憶した媒体 |
US6654744B2 (en) * | 2000-04-17 | 2003-11-25 | Fujitsu Limited | Method and apparatus for categorizing information, and a computer product |
JP4017354B2 (ja) * | 2000-04-17 | 2007-12-05 | 富士通株式会社 | 情報分類装置および情報分類プログラム |
US7295965B2 (en) * | 2001-06-29 | 2007-11-13 | Honeywell International Inc. | Method and apparatus for determining a measure of similarity between natural language sentences |
EP1473639A1 (en) * | 2002-02-04 | 2004-11-03 | Celestar Lexico-Sciences, Inc. | Document knowledge management apparatus and method |
JP2003288362A (ja) * | 2002-03-27 | 2003-10-10 | Seiko Epson Corp | 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法 |
JP2004013726A (ja) * | 2002-06-10 | 2004-01-15 | Sumitomo Electric Ind Ltd | キーワード抽出装置および情報検索装置 |
JP4025181B2 (ja) * | 2002-11-19 | 2007-12-19 | 株式会社山武 | 文書管理装置 |
CN1942877A (zh) * | 2004-03-31 | 2007-04-04 | 松下电器产业株式会社 | 信息提取系统 |
JP5095281B2 (ja) * | 2007-07-11 | 2012-12-12 | 株式会社日立製作所 | 文字列匿名化装置、文字列匿名化方法及び文字列匿名化プログラム |
-
2008
- 2008-10-03 JP JP2008258776A patent/JP5206296B2/ja active Active
-
2009
- 2009-10-02 WO PCT/JP2009/005126 patent/WO2010038481A1/ja active Application Filing
- 2009-10-02 CN CN200980137926.2A patent/CN102165443B/zh not_active Expired - Fee Related
-
2011
- 2011-03-28 US US13/073,168 patent/US20110172991A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
CN102165443B (zh) | 2013-05-15 |
WO2010038481A1 (ja) | 2010-04-08 |
US20110172991A1 (en) | 2011-07-14 |
CN102165443A (zh) | 2011-08-24 |
JP2010092108A (ja) | 2010-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4872079B2 (ja) | 文章更新量評価プログラム | |
El et al. | Authorship analysis studies: A survey | |
US9031935B2 (en) | Search system, search method, and program | |
Daas | Natural language processing | |
CN110929518A (zh) | 一种使用重叠拆分规则的文本序列标注算法 | |
JP5206296B2 (ja) | 類似文章抽出プログラム、方法、装置 | |
Fatima et al. | New graph-based text summarization method | |
US20210182549A1 (en) | Natural Language Processing (NLP) Pipeline for Automated Attribute Extraction | |
CN114003750B (zh) | 物料上线方法、装置、设备及存储介质 | |
CN112115362B (zh) | 一种基于相似代码识别的编程信息推荐方法及装置 | |
Tian et al. | Adapting word embeddings to traceability recovery | |
JP5214985B2 (ja) | テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 | |
JP3081093B2 (ja) | 索引作成方法およびその装置と文書検索装置 | |
CN113971403A (zh) | 一种考虑文本语义信息的实体识别方法及系统 | |
JP5389764B2 (ja) | マイクロブログテキスト分類装置及び方法及びプログラム | |
Goonawardena et al. | Automated spelling checker and grammatical error detection and correction model for sinhala language | |
JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム | |
JP7116940B2 (ja) | オープンデータを効率的に構造化し補正する方法及びプログラム | |
JP2013101678A (ja) | テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 | |
JP2014235584A (ja) | 文書分析システム、文書分析方法およびプログラム | |
JP4385119B2 (ja) | 共通パターン発見装置とプログラム、記憶媒体、及び共通パターン発見方法 | |
US11989500B2 (en) | Framework agnostic summarization of multi-channel communication | |
CN112949287B (zh) | 热词挖掘方法、系统、计算机设备和存储介质 | |
Thottempudi | A visual narrative of ramayana using extractive summarization topic modeling and named entity recognition | |
Karthigha et al. | A survey on removal of duplicate records in database |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110708 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121030 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130204 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160301 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5206296 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |