JP2006155556A - テキストマイニング方法及びテキストマイニングサーバ - Google Patents

テキストマイニング方法及びテキストマイニングサーバ Download PDF

Info

Publication number
JP2006155556A
JP2006155556A JP2005103983A JP2005103983A JP2006155556A JP 2006155556 A JP2006155556 A JP 2006155556A JP 2005103983 A JP2005103983 A JP 2005103983A JP 2005103983 A JP2005103983 A JP 2005103983A JP 2006155556 A JP2006155556 A JP 2006155556A
Authority
JP
Japan
Prior art keywords
document
text mining
literature
sentence
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005103983A
Other languages
English (en)
Inventor
Mitsue Kondo
光恵 近藤
Junji Yoshii
淳治 吉井
Tsunehiko Watanabe
恒彦 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Software Engineering Co Ltd
Original Assignee
Hitachi Software Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Software Engineering Co Ltd filed Critical Hitachi Software Engineering Co Ltd
Priority to JP2005103983A priority Critical patent/JP2006155556A/ja
Publication of JP2006155556A publication Critical patent/JP2006155556A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】 テキストマイニングの精度向上を図る。
【解決手段】 文献の特徴づけのためにテキストマイニングを行う前段階として、他の文献に引用され、特に重要な意味を持つと思われる文章をテキストマイニングの対象として予め文献中から抽出し、その抽出された文章群に対してテキストマイニングを実行する。即ち、第一の文献群をキーワード検索し、次に、該文献群の文献を引用している第二の文献群を検索する。そして、第一の文献群の文章を引用している箇所を抽出し、抽出された箇所の文章群から特徴語を抽出し、リスト表示する。
【選択図】 図8

Description

本発明は、テキストマイニングシステムに関し、特にテキストマイニングの対象となるテキストを文献中から抽出する方法及びその方法を実行するサーバに関する。
ライフサイエンスの分野では、米国立医学図書館(NLM)が編集する医学文献データベースであるMEDLINEの全文献に加えて、MEDLINE 収載直前の文献、医学出版から電子的に供給される文献情報を追加した文献データベースであるPubMedが医学、生物学関係の文献検索の定番であり、その文献数は1,300万件以上とそのデータ量は日々爆発的に増加している。医学、生物学関係の研究者は、普段PubMedなどの文献検索サイトへアクセスし、自分の研究に関連のある文献を検索するために、重要と思われるキーワードを検索キーとして入力し、文献検索を行ってきた。しかし、キーワード検索では多数の文献がヒットするため、取得したい文献かどうかを判断するために、個々の文献(アブストラクトまたはフルテキスト)を実際に読まなければいけない。通常のキーワード検索では、漏れなく検索するため、検索範囲を幅広くするとヒットする文献が膨大となり、タイトルとアブストラクトを見るだけでも大変な作業となる。このような多数の文献から必要な情報を抽出するのは、時間や手間がかかり、非常に大変である。そこでテキストマイニングという技術が注目されてきている。
テキストマイニングとは、大規模なテキスト・データベースを、コンピュータを使って様々な観点から分析し、役に立つ知識や情報を効率良く取り出す技術である。テキストマイニングには、自然言語処理や情報の可視化など複数の要素技術が組み合わされている。テキストマイニングを使うことで、欲しい情報を含むテキストを選び出したり、テキスト間の関係やテキストに記述されている事項間の関係を分析して、個々のテキストを読むだけでは得られない情報を得たり、与えられた文章集合を特徴づけるキーワードを抽出したりすることが期待されている。このようなテキストマイニングは、顧客要求分析などへの適用で注目されているが、MEDLINEのような大規模な文書データベースが自由に利用できることから、医薬分野でのテキストマイニングの研究は盛んになりつつある。なお、テキストマイニングに関する文献としては、下記特許文献1がある。
特開2001−318948号公報
キーワード検索による文献検索の結果ヒットした文献集合に対してテキストマイニングを行うと、ヒットした文献集合を特徴づけるキーワードの抽出や、欲しい情報を含むテキストの選択、個々のテキストを読むだけでは得られない情報の取得が可能となる。つまり、文献を読まずして、文献の内容を理解することができる。しかし、従来のテキストマイニングでは、文献のアブストラクトもしくはフルテキストから文章を取り出しており、その文献中には既知の事実や実験の背景などの重要でない文章が数多く含まれているため、ノイズが多く、文献の特徴づけが難しいという問題点がある。
本発明の目的は、テキストマイニングの精度向上を実現することにある。
文献のアブストラクトには結果だけでなく、その背景や、結果に至るまでの過程が含まれており、著者の主観が入っている。それに対して、引用文は引用元の文献で明らかになった事実のみが書かれており、その内容は客観的である。そのため、引用文はアブストラクトと比較すると、主要単語(文献を代表する単語)の割合は多い。本発明では、文献の特徴づけのためにテキストマイニングを行う前段階として、他の文献に引用され、特に重要な意味を持つと思われる文章をテキストマイニングの対象として予め文献中から抽出し、その抽出された文章群に対してテキストマイニングを実行する。
文献情報を蓄積した文献情報データベースに対して検索サーバにより検索を行う本発明のテキストマイニング方法は、キーワードを受領するステップと、文献情報データベースからキーワードを含む第1の文献群を検索するステップと、第1の文献群に含まれる文献を引用している第2の文献群を検索するステップと、第2の文献群から第1の文献群の引用箇所を含む文章を抽出するステップと、抽出された文章群から特徴語を抽出するステップと、抽出された特徴語のリストを表示するステップとを含む。
また、本発明によるテキストマイニングサーバは、キーワードを受信する手段と、受信したキーワードを含む第1の文献を、文献情報を蓄積した文献情報データベースから検索する手段と、第1の文献が引用されている第2の文献を文献情報データベースから検索する手段と、第2の文献中で第1の文献を引用している文章を抽出する手段と、抽出された文章の集合から特徴語を抽出する手段と、抽出された特徴語のリストを出力する手段とを備える。
本発明によれば、他の文献に引用され、特に重要な意味を持つと思われる文章をテキストマイニングの対象として、予め文献中から抽出し、その文章集合に対してテキストマイニングを行うことにより、テキストマイニングの精度向上を実現できる。
テキストマイニングには様々な手法が存在するが、有効な手法の一つとして特徴語を抽出し、リストアップするという手法がある。これは入力された文献IDに対しそれらの文献から単語を抽出し、重み付けを行い、重みの高い単語を特徴語としてリストアップする手法である。重み付けは、例えばtf(Term Frequency)・idf(Inverse Document Frequency)を重みとして使用することにより実現可能である。tf・idfとは、単語Wを含む文献の総数をT(W)、全文献数をN、単語Wの文献Qでの出現頻度をF(W, Q)としたとき、単語Wの文献Qでの重要度を"F(W, Q)*Log[ N / T(W) ]"で定義する方法である。F(W, Q)がtfに相当し、Log[ N / T(W) ]がidfに相当する(参考文献:G. Salton and C. S. Yang: On the Specification of Term Values in Automatic Indexing, Journal of Documentation, 29(4): pp 351-372. December 1973)。
また、文献の構成は通常、次のようになっている。
1.タイトル、著者、アブストラクト、(キーワード)、2.本文:序説、研究の対象と方法、結果、考察、結論、3.参考文献
ある文献Aが、その後に発表された文献B、文献Cで引用された箇所は、文献Bや文献Cの著者が実際に文献Aを読み、実験を行って重要だと判断した文章である。すなわち、文献Aが他の文献B、文献Cに引用された文章には、文献Aの重要な部分が凝縮されていると考えられる。そして、文献Bや文献Cの本文中で、他の文献(文献A)を引用した箇所には印が付けられているため、文献情報データベースより、文献Bや文献C中の文献Aの引用箇所を含む一文(引用文)を全て取り出すことが可能である。このようにして他の文献による文献Aの引用文を集めて、テキストマイニングを行うことにより、精度の高い、文献Aの特徴づけを行うことができる。
以下、本発明の実施形態の一例を、図面を参照して説明する。
図1は、本発明によるテキストマイニングシステムの構成を示すシステム構成図である。本システムは、マイニングの条件入力・送信と作成された特徴語リストの受信を行うクライアントコンピュータ(以下、単にクライアントという)11と、文献情報の取得、引用文の抽出および特徴語リスト作成を行うテキストマイニングサーバコンピュータ(以下、単にテキストマイニングサーバという)13から成り、この2つのコンピュータはネットワーク12によって接続されている。
クライアント11は、CPU111A及びメモリ111Bを備えた端末装置111、マイニング条件入力プログラム112A、マイニング条件送信プログラム112B及び特徴語リスト受信プログラム112Cが格納されているハードディスク装置112、並びにネットワーク接続のための通信ポート113を備えている。ここでマイニング条件とは、マイニング対象とする文献を絞り込むためのキーワードを意味する。
テキストマイニングサーバ13は、CPU131A及びメモリ131Bを備えた端末装置131、クライアント11から送信されるマイニング条件を受信するマイニング条件受信プログラム132A、文献情報データベース133からマイニング条件で指定されたキーワードを含む文献を取得する文献情報取得プログラム132B、取得した文献が引用されている文献を文献情報データベース133より取得する引用文献取得プログラム132C、取得した引用文献から引用箇所を含む一文(引用文)を抽出する引用文取得プログラム132D、引用文取得プログラム132Dにより抽出された引用文の集合である引用文リスト132Eと引用文リスト132Eから特徴語を抽出する特徴語リスト作成プログラム132F、作成された特徴語リストを送信する特徴語リスト送信プログラム132Gを格納したハードディスク装置132、並びにネットワーク接続のための通信ポート134を備えている。
図2は、一般的な文献の構造を示した図である。文献にはタイトル、著者、キーワード(キーワードは記述されていない文献もある)、アブストラクト、本文、参考文献が含まれている。
図3は、既存のテキストマイニングの処理内容を示すフローチャートである。既存のテキストマイニングでは、最初にユーザがクライアント11上でマイニング条件(マイニング対象とする文献を絞り込むためのキーワード)を入力し(ステップ31)、マイニング条件をテキストマイニングサーバ13に送信する(ステップ32)。テキストマイニングサーバ13は入力されたマイニング条件を受信し(ステップ33)、受信したキーワードと文献情報取得プログラム132Bにより、文献情報データベース133を検索し、受信したキーワードを含む文献を取得する(ステップ34)。次に、取得した文献のアブストラクトと特徴語リスト作成プログラム132Fにより、特徴語リストを作成する(ステップ35)。最後に特徴語リスト送信プログラム132Gにより、特徴語リストをクライアント11に送信する(ステップ36)。クライアント11は特徴語リストを受信・表示して(ステップ37)、テキストマイニングを終了する。
図4は、既存のテキストマイニングの一例を示す図である。テキストマイニングでは、ユーザがマイニング条件として指定したキーワード41をもとに、文献情報取得プログラム132Bにより文献情報データベース133を検索し、指定したキーワードを含む複数の文献42を取得する。次にヒットした文献のアブストラクト集合43を取得する。続いて取得したアブストラクト集合43と特徴語リスト作成プログラム132Fにより、特徴語リスト44を作成する。
図5は、文献での参考文献の引用方法を示す図である。文献は図2でも説明したように、タイトル、著者、キーワード、アブストラクト、本文、参考文献で構成されている。また文献の本文の中で参考文献より引用された箇所には、印51が付けられている。
図6は、テキストマイニングの対象となる文章群の作成方法を示す図である。最初にユーザがマイニング条件として指定したキーワードをもとに、文献情報取得プログラム132Bにより文献情報データベース133を検索し、指定したキーワードが含まれる文献(文献A)61を取得する。続いて引用文献取得プログラム132Cにより、取得した文献61が引用された文献群(引用文献群)62を取得する。次に引用文取得プログラム132Dにより引用文献群62から引用箇所を含む一文(引用文)63を抽出し、引用文リスト64を作成する。この引用文リスト64がテキストマイニング対象となる文章群である。
図7は、上記の引用文リスト64から特徴語リスト作成プログラム132Fによる、特徴語を抽出する方法をフローチャートにしたものである。特徴語の抽出は、引用文リストに含まれる全ての単語を抽出する(ステップ71)ことから始まる。続いて、抽出した単語の出現頻度を算出し(ステップ72)、抽出した単語の文献情報データベース133に格納された全文献情報に対する重要度(tf・idf値)を算出する(ステップ73)。そして抽出した単語のtf・idf値の上位の方から予め決められた数の単語を特徴語として取得し(ステップ74)、そのリストを表示することで、特徴語リスト作成プログラム132Fは終了する。
図8は、本発明のテキストマイニングの処理内容を示すフローチャートである。本発明のテキストマイニングでは、最初にユーザがクライアント11上でマイニング条件(マイニング対象とする文献を絞り込むためのキーワード)を入力し(ステップ81)、マイニング条件をテキストマイニングサーバ13に送信する(ステップ82)。テキストマイニングサーバ13は入力されたマイニング条件を受信し(ステップ83)、文献情報取得プログラム132Bにより、文献情報データベース133を検索し、受信したキーワードを含む文献を取得する(ステップ84)。続いて引用文献取得プログラム132Cにより、文献情報データベース133を検索し、ステップ84で取得した文献が引用されている文献を取得する(ステップ85)。次に、引用文取得プログラム132Dによりステップ85で取得した文献が引用された箇所を含む一文(引用文)を抽出し、引用文リストを作成する(ステップ86)。そして引用文リスト64と特徴語リスト作成プログラム132Fにより、特徴語リストを作成する(ステップ87)。最後に特徴語リスト送信プログラム132Gにより、特徴語リストをクライアント11に送信する(ステップ88)。クライアント11は特徴語リストを受信・表示して(ステップ89)、テキストマイニングを終了する。
図9は、本発明のテキストマイニングの一例を示す図である。テキストマイニングでは、ユーザがマイニング条件として指定したキーワード91をもとに、文献情報取得プログラム132Bにより文献情報データベース133を検索し、指定したキーワードを含む複数の文献92を取得する。続いて引用文献取得プログラム132Cにより文献情報データベース133を検索し、文献92の引用文献群93を取得する。次に引用文取得プログラム132Dにより、引用文献群93より引用文集合94を取得する。そして取得した引用文集合94と特徴語リスト作成プログラム132Fにより、特徴語リスト95を作成する。本発明のテキストマイニングで作成された、特徴語リスト95は、既存のテキストマイニングで作成された図4の特徴語リスト44と比較すると、より重要度の高い特徴語が表示されている。
また現在、Web上には様々な文章紹介サイト(Amazon.co.jpのカスタマーレビューなど)があり、そこでは実際に文章を読んだ読者が、感想やコメントを記述している。本発明は引用文を利用した文章紹介にも応用可能であり、本発明を利用することによって、自動的かつ的確な文章紹介の作成と効率のよい文章の内容把握が可能となる。
図10は、文献における参考文献の記載例および引用例を示す図である。ここではJournal of Cell Science、Proteomics、およびInt. J. Cancerの3つの文献の例を示している。Journal of Cell Scienceでは、参照文献(References)は著者名順に記載されており、文献を本文中で引用する際には、著者名および発行年が括弧で括られている。Proteomicsでは、参照文献(References)は引用順に括弧つきの数字を付けて記載されており、文献の本文中で引用する際には、引用箇所にその括弧つきの数字が付けられている。Int. J. Cancerでは、参照文献(References)は引用順に数字をつけて記載されており、文献の本文中で引用する際には、引用箇所にその上付き数字が付けられている。本発明の引用文取得プログラム132Dでは、このような「参考文献を認識する文字列」を利用する。図中には、参考文献を認識する文字列を破線で四角く囲って示し、各文献における引用文の例を、それぞれ下線を引いて示している。
図11は、本発明の引用文献取得プログラムの処理内容を示した図である。最初にユーザがマイニング条件として指定したキーワードをもとに、文献情報取得プログラム132Bにより文献情報データベース133を検索し、指定したキーワードが含まれる文献(文献A)1101を取得する。続いて引用文献取得プログラム132Cにより文献情報データベース133を検索し、取得した文献1101が引用された文献群(引用文献群)1103を取得する。
図12は、上記の文献情報データベース133から引用文献取得プログラム132Cにより、引用文献群1103を取得する方法をフローチャートにしたものである。この処理は、キーワード検索により取得した文献の文献情報(著者名、雑誌名、発行年、タイトル)を取得する(ステップ1201)ことから始まる。続いて、取得した文献情報に基づき、文献情報データベース133を検索する(ステップ1202)。そして参考文献の一覧に取得した文献情報と一致する文献が含まれる文献を引用文献群1103として取得する(ステップ1203)ことで、引用文献取得プログラム132Cは終了する。
図13は、本発明の引用文取得プログラムの処理内容を示した図である。最初にユーザがマイニング条件として指定したキーワードをもとに、文献情報取得プログラム132Bにより文献情報データベース133を検索し、指定したキーワードが含まれる文献(文献A)1301を取得する。続いて引用文献取得プログラム132Cにより文献情報データベース133を検索し、取得した文献1301が引用された文献群(引用文献群)1302を取得する。次に引用文取得プログラム132Dにより、参考文献を認識する文字列を利用して、引用文献群1302から文献1301の引用箇所を含む一文(引用文)1303を抽出する。
図14は、上記の引用文献群1302から引用文取得プログラム132Dによる、引用文1303を取得する方法をフローチャートにしたものである。この処理は、各引用文献の“参考文献(References)”部分における、指定したキーワードが含まれる文献を認識する文字列を探索する(ステップ1401)ことから始まる。続いて、各引用文献の“本文”部分における、ステップ1401で取得した「参考文献を認識する文字列」を検索する(ステップ1402)。次に「参考文献を認識する文字列」の1つ前のピリオドから、1つ後ろのピリオドまでの一文を探索する(ステップ1403)。そして、ステップ1403で取得した一文を引用文として取得する(ステップ1404)。
本発明によるテキストマイニングシステムを示す図である。 文献の構造を示す図である。 既存のテキストマイニングの処理内容を示すフローチャートである。 既存のテキストマイニングの一例を示す図である。 文献での参考文献の引用方法を示す図である。 テキストマイニングの対象となる文章群の作成方法を示す図である。 特徴語の抽出方法を示すフローチャートである。 本発明のテキストマイニングの処理内容を示すフローチャートである。 本発明のテキストマイニングの一例を示す図である。 文献における引用例および参照文献の記載例を示す図である。 本発明の引用文献取得プログラムの処理の一例を示す図である。 本発明の引用文献取得プログラムの処理内容を示すフローチャートである。 本発明の引用文取得プログラムの処理の一例を示す図である。 本発明の引用文プログラムの処理内容を示すフローチャートである。
符号の説明
11…クライアントコンピュータ
12…ネットワーク
13…テキストマイニングサーバコンピュータ
133…文献情報データベース

Claims (2)

  1. 文献情報を蓄積した文献情報データベースに対して検索サーバにより検索を行うテキストマイニング方法において、前記検索サーバは、
    キーワードを受領するステップ、
    前記文献情報データベースから前記キーワードを含む第1の文献群を検索するステップ、
    前記第1の文献群に含まれる文献を引用している第2の文献群を検索するステップ、
    前記第2の文献群から前記第1の文献群の引用箇所を含む文章を抽出するステップ、
    前記抽出された文章群から特徴語を抽出するステップ、
    前記抽出された特徴語のリストを表示するステップ
    を実行することを特徴とするテキストマイニング方法。
  2. キーワードを受信する手段と、
    受信したキーワードを含む第1の文献を、文献情報を蓄積した文献情報データベースから検索する手段と、
    前記第1の文献が引用されている第2の文献を前記文献情報データベースから検索する手段と、
    前記第2の文献中で前記第1の文献を引用している文章を抽出する手段と、
    抽出された文章の集合から特徴語を抽出する手段と、
    抽出された特徴語のリストを出力する手段と
    を備えることを特徴とするテキストマイニングサーバ。
JP2005103983A 2004-10-27 2005-03-31 テキストマイニング方法及びテキストマイニングサーバ Pending JP2006155556A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005103983A JP2006155556A (ja) 2004-10-27 2005-03-31 テキストマイニング方法及びテキストマイニングサーバ

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004312285 2004-10-27
JP2005103983A JP2006155556A (ja) 2004-10-27 2005-03-31 テキストマイニング方法及びテキストマイニングサーバ

Publications (1)

Publication Number Publication Date
JP2006155556A true JP2006155556A (ja) 2006-06-15

Family

ID=36633730

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005103983A Pending JP2006155556A (ja) 2004-10-27 2005-03-31 テキストマイニング方法及びテキストマイニングサーバ

Country Status (1)

Country Link
JP (1) JP2006155556A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009051068A1 (ja) * 2007-10-19 2009-04-23 Nec Corporation 文書分析方法、文書分析システム及び文書分析用プログラム
JP2011048718A (ja) * 2009-08-28 2011-03-10 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、情報検索プログラム
JP2014149848A (ja) * 2008-02-01 2014-08-21 Kanazawa Inst Of Technology 引用判定支援装置および引用判定支援プログラム
CN116431799A (zh) * 2023-06-14 2023-07-14 湖南科德信息咨询集团有限公司 基于技术创新研发的内容精准挖掘系统
CN116991919A (zh) * 2023-09-26 2023-11-03 中国铁塔股份有限公司吉林省分公司 结合平台数据库的业务数据检索方法及人工智能系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002245089A (ja) * 2001-02-19 2002-08-30 Hitachi Eng Co Ltd ウェブページ検索システム、二次情報収集装置、インターフェース装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002245089A (ja) * 2001-02-19 2002-08-30 Hitachi Eng Co Ltd ウェブページ検索システム、二次情報収集装置、インターフェース装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009051068A1 (ja) * 2007-10-19 2009-04-23 Nec Corporation 文書分析方法、文書分析システム及び文書分析用プログラム
JP5278327B2 (ja) * 2007-10-19 2013-09-04 日本電気株式会社 文書分析方法、文書分析システム及び文書分析用プログラム
JP2014149848A (ja) * 2008-02-01 2014-08-21 Kanazawa Inst Of Technology 引用判定支援装置および引用判定支援プログラム
JP2011048718A (ja) * 2009-08-28 2011-03-10 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、情報検索プログラム
CN116431799A (zh) * 2023-06-14 2023-07-14 湖南科德信息咨询集团有限公司 基于技术创新研发的内容精准挖掘系统
CN116431799B (zh) * 2023-06-14 2023-08-18 湖南科德信息咨询集团有限公司 基于技术创新研发的内容精准挖掘系统
CN116991919A (zh) * 2023-09-26 2023-11-03 中国铁塔股份有限公司吉林省分公司 结合平台数据库的业务数据检索方法及人工智能系统
CN116991919B (zh) * 2023-09-26 2023-12-08 中国铁塔股份有限公司吉林省分公司 结合平台数据库的业务数据检索方法及人工智能系统

Similar Documents

Publication Publication Date Title
WO2019091026A1 (zh) 知识库文档快速检索方法、应用服务器及计算机可读存储介质
US9323827B2 (en) Identifying key terms related to similar passages
US7783644B1 (en) Query-independent entity importance in books
US20160034514A1 (en) Providing search results based on an identified user interest and relevance matching
US8924838B2 (en) Harvesting data from page
Hou et al. Newsminer: Multifaceted news analysis for event search
Tang et al. Overview of the NTCIR-9 Crosslink Task: Cross-lingual Link Discovery.
Hanum et al. Using topic analysis for querying halal information on Malay documents
US20120179709A1 (en) Apparatus, method and program product for searching document
JP2006155556A (ja) テキストマイニング方法及びテキストマイニングサーバ
US20230185835A1 (en) A system and method for examining relevancy of documents
JP2014102625A (ja) 情報検索システム、プログラム、および方法
Ramirez et al. ACE: improving search engines via Automatic Concept Extraction
JP4621680B2 (ja) 定義付けシステムおよび方法
Hsu et al. Misconceptions mining and visualizations for Chinese-based MOOCs forum based on NLP
JP5127553B2 (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
Yoon et al. A conference paper exploring system based on citing motivation and topic
Schmidt et al. A concept for plagiarism detection based on compressed bitmaps
Belerao et al. Summarization using mapreduce framework based big data and hybrid algorithm (HMM and DBSCAN)
JP2011086156A (ja) 漏洩情報追跡システムおよび漏洩情報追跡プログラム
JP2009032180A (ja) テキストマイニング装置及びテキストマイニング方法
Moftah et al. Methods to access structured and semi-structured data in bioinformatics databases: A perspective
CN115905577B (zh) 知识图谱的构建方法及装置、法规检索方法和装置
Manna et al. Information retrieval-based question answering system on foods and recipes
US20080154867A1 (en) System and Method for Automatic Text Summarization using a Search Engine

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100209

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100706