JP2006155556A

JP2006155556A - テキストマイニング方法及びテキストマイニングサーバ

Info

Publication number: JP2006155556A
Application number: JP2005103983A
Authority: JP
Inventors: Mitsue Kondo; 光恵近藤; Junji Yoshii; 淳治吉井; Tsunehiko Watanabe; 恒彦渡辺
Original assignee: Hitachi Software Engineering Co Ltd
Current assignee: Hitachi Software Engineering Co Ltd
Priority date: 2004-10-27
Filing date: 2005-03-31
Publication date: 2006-06-15

Abstract

【課題】テキストマイニングの精度向上を図る。
【解決手段】文献の特徴づけのためにテキストマイニングを行う前段階として、他の文献に引用され、特に重要な意味を持つと思われる文章をテキストマイニングの対象として予め文献中から抽出し、その抽出された文章群に対してテキストマイニングを実行する。即ち、第一の文献群をキーワード検索し、次に、該文献群の文献を引用している第二の文献群を検索する。そして、第一の文献群の文章を引用している箇所を抽出し、抽出された箇所の文章群から特徴語を抽出し、リスト表示する。
【選択図】図８

Description

本発明は、テキストマイニングシステムに関し、特にテキストマイニングの対象となるテキストを文献中から抽出する方法及びその方法を実行するサーバに関する。

ライフサイエンスの分野では、米国立医学図書館（NLM）が編集する医学文献データベースであるMEDLINEの全文献に加えて、MEDLINE 収載直前の文献、医学出版から電子的に供給される文献情報を追加した文献データベースであるPubMedが医学、生物学関係の文献検索の定番であり、その文献数は1,300万件以上とそのデータ量は日々爆発的に増加している。医学、生物学関係の研究者は、普段PubMedなどの文献検索サイトへアクセスし、自分の研究に関連のある文献を検索するために、重要と思われるキーワードを検索キーとして入力し、文献検索を行ってきた。しかし、キーワード検索では多数の文献がヒットするため、取得したい文献かどうかを判断するために、個々の文献（アブストラクトまたはフルテキスト）を実際に読まなければいけない。通常のキーワード検索では、漏れなく検索するため、検索範囲を幅広くするとヒットする文献が膨大となり、タイトルとアブストラクトを見るだけでも大変な作業となる。このような多数の文献から必要な情報を抽出するのは、時間や手間がかかり、非常に大変である。そこでテキストマイニングという技術が注目されてきている。

テキストマイニングとは、大規模なテキスト・データベースを、コンピュータを使って様々な観点から分析し、役に立つ知識や情報を効率良く取り出す技術である。テキストマイニングには、自然言語処理や情報の可視化など複数の要素技術が組み合わされている。テキストマイニングを使うことで、欲しい情報を含むテキストを選び出したり、テキスト間の関係やテキストに記述されている事項間の関係を分析して、個々のテキストを読むだけでは得られない情報を得たり、与えられた文章集合を特徴づけるキーワードを抽出したりすることが期待されている。このようなテキストマイニングは、顧客要求分析などへの適用で注目されているが、MEDLINEのような大規模な文書データベースが自由に利用できることから、医薬分野でのテキストマイニングの研究は盛んになりつつある。なお、テキストマイニングに関する文献としては、下記特許文献１がある。

特開２００１−３１８９４８号公報

キーワード検索による文献検索の結果ヒットした文献集合に対してテキストマイニングを行うと、ヒットした文献集合を特徴づけるキーワードの抽出や、欲しい情報を含むテキストの選択、個々のテキストを読むだけでは得られない情報の取得が可能となる。つまり、文献を読まずして、文献の内容を理解することができる。しかし、従来のテキストマイニングでは、文献のアブストラクトもしくはフルテキストから文章を取り出しており、その文献中には既知の事実や実験の背景などの重要でない文章が数多く含まれているため、ノイズが多く、文献の特徴づけが難しいという問題点がある。

本発明の目的は、テキストマイニングの精度向上を実現することにある。

文献のアブストラクトには結果だけでなく、その背景や、結果に至るまでの過程が含まれており、著者の主観が入っている。それに対して、引用文は引用元の文献で明らかになった事実のみが書かれており、その内容は客観的である。そのため、引用文はアブストラクトと比較すると、主要単語（文献を代表する単語）の割合は多い。本発明では、文献の特徴づけのためにテキストマイニングを行う前段階として、他の文献に引用され、特に重要な意味を持つと思われる文章をテキストマイニングの対象として予め文献中から抽出し、その抽出された文章群に対してテキストマイニングを実行する。

文献情報を蓄積した文献情報データベースに対して検索サーバにより検索を行う本発明のテキストマイニング方法は、キーワードを受領するステップと、文献情報データベースからキーワードを含む第１の文献群を検索するステップと、第１の文献群に含まれる文献を引用している第２の文献群を検索するステップと、第２の文献群から第１の文献群の引用箇所を含む文章を抽出するステップと、抽出された文章群から特徴語を抽出するステップと、抽出された特徴語のリストを表示するステップとを含む。

また、本発明によるテキストマイニングサーバは、キーワードを受信する手段と、受信したキーワードを含む第１の文献を、文献情報を蓄積した文献情報データベースから検索する手段と、第１の文献が引用されている第２の文献を文献情報データベースから検索する手段と、第２の文献中で第１の文献を引用している文章を抽出する手段と、抽出された文章の集合から特徴語を抽出する手段と、抽出された特徴語のリストを出力する手段とを備える。

本発明によれば、他の文献に引用され、特に重要な意味を持つと思われる文章をテキストマイニングの対象として、予め文献中から抽出し、その文章集合に対してテキストマイニングを行うことにより、テキストマイニングの精度向上を実現できる。

テキストマイニングには様々な手法が存在するが、有効な手法の一つとして特徴語を抽出し、リストアップするという手法がある。これは入力された文献IDに対しそれらの文献から単語を抽出し、重み付けを行い、重みの高い単語を特徴語としてリストアップする手法である。重み付けは、例えばtf(Term Frequency)・idf(Inverse Document Frequency)を重みとして使用することにより実現可能である。tf・idfとは、単語Wを含む文献の総数をT(W)、全文献数をN、単語Wの文献Qでの出現頻度をF(W, Q)としたとき、単語Wの文献Qでの重要度を"F(W, Q)*Log[ N / T(W) ]"で定義する方法である。F(W, Q)がtfに相当し、Log[ N / T(W) ]がidfに相当する（参考文献：G. Salton and C. S. Yang: On the Specification of Term Values in Automatic Indexing, Journal of Documentation, 29(4): pp 351-372. December 1973）。

また、文献の構成は通常、次のようになっている。
１.タイトル、著者、アブストラクト、（キーワード）、２.本文：序説、研究の対象と方法、結果、考察、結論、３.参考文献
ある文献Aが、その後に発表された文献B、文献Cで引用された箇所は、文献Bや文献Cの著者が実際に文献Aを読み、実験を行って重要だと判断した文章である。すなわち、文献Aが他の文献B、文献Cに引用された文章には、文献Aの重要な部分が凝縮されていると考えられる。そして、文献Bや文献Cの本文中で、他の文献（文献A）を引用した箇所には印が付けられているため、文献情報データベースより、文献Bや文献C中の文献Aの引用箇所を含む一文（引用文）を全て取り出すことが可能である。このようにして他の文献による文献Aの引用文を集めて、テキストマイニングを行うことにより、精度の高い、文献Aの特徴づけを行うことができる。

以下、本発明の実施形態の一例を、図面を参照して説明する。
図１は、本発明によるテキストマイニングシステムの構成を示すシステム構成図である。本システムは、マイニングの条件入力・送信と作成された特徴語リストの受信を行うクライアントコンピュータ（以下、単にクライアントという）１１と、文献情報の取得、引用文の抽出および特徴語リスト作成を行うテキストマイニングサーバコンピュータ（以下、単にテキストマイニングサーバという）１３から成り、この２つのコンピュータはネットワーク１２によって接続されている。

クライアント１１は、CPU１１１Ａ及びメモリ１１１Ｂを備えた端末装置１１１、マイニング条件入力プログラム１１２Ａ、マイニング条件送信プログラム１１２Ｂ及び特徴語リスト受信プログラム１１２Cが格納されているハードディスク装置１１２、並びにネットワーク接続のための通信ポート１１３を備えている。ここでマイニング条件とは、マイニング対象とする文献を絞り込むためのキーワードを意味する。

テキストマイニングサーバ１３は、CPU１３１Ａ及びメモリ１３１Ｂを備えた端末装置１３１、クライアント１１から送信されるマイニング条件を受信するマイニング条件受信プログラム１３２Ａ、文献情報データベース１３３からマイニング条件で指定されたキーワードを含む文献を取得する文献情報取得プログラム１３２Ｂ、取得した文献が引用されている文献を文献情報データベース１３３より取得する引用文献取得プログラム１３２C、取得した引用文献から引用箇所を含む一文（引用文）を抽出する引用文取得プログラム１３２D、引用文取得プログラム１３２Dにより抽出された引用文の集合である引用文リスト１３２Eと引用文リスト１３２Eから特徴語を抽出する特徴語リスト作成プログラム１３２F、作成された特徴語リストを送信する特徴語リスト送信プログラム１３２Gを格納したハードディスク装置１３２、並びにネットワーク接続のための通信ポート１３４を備えている。

図２は、一般的な文献の構造を示した図である。文献にはタイトル、著者、キーワード（キーワードは記述されていない文献もある）、アブストラクト、本文、参考文献が含まれている。

図３は、既存のテキストマイニングの処理内容を示すフローチャートである。既存のテキストマイニングでは、最初にユーザがクライアント１１上でマイニング条件（マイニング対象とする文献を絞り込むためのキーワード）を入力し（ステップ３１）、マイニング条件をテキストマイニングサーバ１３に送信する（ステップ３２）。テキストマイニングサーバ１３は入力されたマイニング条件を受信し（ステップ３３）、受信したキーワードと文献情報取得プログラム１３２Ｂにより、文献情報データベース１３３を検索し、受信したキーワードを含む文献を取得する（ステップ３４）。次に、取得した文献のアブストラクトと特徴語リスト作成プログラム１３２Fにより、特徴語リストを作成する（ステップ３５）。最後に特徴語リスト送信プログラム１３２Gにより、特徴語リストをクライアント１１に送信する（ステップ３６）。クライアント１１は特徴語リストを受信・表示して（ステップ３７）、テキストマイニングを終了する。

図４は、既存のテキストマイニングの一例を示す図である。テキストマイニングでは、ユーザがマイニング条件として指定したキーワード４１をもとに、文献情報取得プログラム１３２Bにより文献情報データベース１３３を検索し、指定したキーワードを含む複数の文献４２を取得する。次にヒットした文献のアブストラクト集合４３を取得する。続いて取得したアブストラクト集合４３と特徴語リスト作成プログラム１３２Fにより、特徴語リスト４４を作成する。

図５は、文献での参考文献の引用方法を示す図である。文献は図２でも説明したように、タイトル、著者、キーワード、アブストラクト、本文、参考文献で構成されている。また文献の本文の中で参考文献より引用された箇所には、印５１が付けられている。

図６は、テキストマイニングの対象となる文章群の作成方法を示す図である。最初にユーザがマイニング条件として指定したキーワードをもとに、文献情報取得プログラム１３２Ｂにより文献情報データベース１３３を検索し、指定したキーワードが含まれる文献（文献A）６１を取得する。続いて引用文献取得プログラム１３２Cにより、取得した文献６１が引用された文献群（引用文献群）６２を取得する。次に引用文取得プログラム１３２Dにより引用文献群６２から引用箇所を含む一文（引用文）６３を抽出し、引用文リスト６４を作成する。この引用文リスト６４がテキストマイニング対象となる文章群である。

図７は、上記の引用文リスト６４から特徴語リスト作成プログラム１３２Fによる、特徴語を抽出する方法をフローチャートにしたものである。特徴語の抽出は、引用文リストに含まれる全ての単語を抽出する（ステップ７１）ことから始まる。続いて、抽出した単語の出現頻度を算出し（ステップ７２）、抽出した単語の文献情報データベース１３３に格納された全文献情報に対する重要度（tf・idf値）を算出する（ステップ７３）。そして抽出した単語のtf・idf値の上位の方から予め決められた数の単語を特徴語として取得し（ステップ７４）、そのリストを表示することで、特徴語リスト作成プログラム１３２Fは終了する。

図８は、本発明のテキストマイニングの処理内容を示すフローチャートである。本発明のテキストマイニングでは、最初にユーザがクライアント１１上でマイニング条件（マイニング対象とする文献を絞り込むためのキーワード）を入力し（ステップ８１）、マイニング条件をテキストマイニングサーバ１３に送信する（ステップ８２）。テキストマイニングサーバ１３は入力されたマイニング条件を受信し（ステップ８３）、文献情報取得プログラム１３２Ｂにより、文献情報データベース１３３を検索し、受信したキーワードを含む文献を取得する（ステップ８４）。続いて引用文献取得プログラム１３２Cにより、文献情報データベース１３３を検索し、ステップ８４で取得した文献が引用されている文献を取得する（ステップ８５）。次に、引用文取得プログラム１３２Dによりステップ８５で取得した文献が引用された箇所を含む一文（引用文）を抽出し、引用文リストを作成する（ステップ８６）。そして引用文リスト６４と特徴語リスト作成プログラム１３２Fにより、特徴語リストを作成する（ステップ８７）。最後に特徴語リスト送信プログラム１３２Gにより、特徴語リストをクライアント１１に送信する（ステップ８８）。クライアント１１は特徴語リストを受信・表示して（ステップ８９）、テキストマイニングを終了する。

図９は、本発明のテキストマイニングの一例を示す図である。テキストマイニングでは、ユーザがマイニング条件として指定したキーワード９１をもとに、文献情報取得プログラム１３２Ｂにより文献情報データベース１３３を検索し、指定したキーワードを含む複数の文献９２を取得する。続いて引用文献取得プログラム１３２Ｃにより文献情報データベース１３３を検索し、文献９２の引用文献群９３を取得する。次に引用文取得プログラム１３２Ｄにより、引用文献群９３より引用文集合９４を取得する。そして取得した引用文集合９４と特徴語リスト作成プログラム１３２Fにより、特徴語リスト９５を作成する。本発明のテキストマイニングで作成された、特徴語リスト９５は、既存のテキストマイニングで作成された図４の特徴語リスト４４と比較すると、より重要度の高い特徴語が表示されている。

また現在、Web上には様々な文章紹介サイト（Amazon.co.jpのカスタマーレビューなど）があり、そこでは実際に文章を読んだ読者が、感想やコメントを記述している。本発明は引用文を利用した文章紹介にも応用可能であり、本発明を利用することによって、自動的かつ的確な文章紹介の作成と効率のよい文章の内容把握が可能となる。

図１０は、文献における参考文献の記載例および引用例を示す図である。ここではJournal of Cell Science、Proteomics、およびInt. J. Cancerの３つの文献の例を示している。Journal of Cell Scienceでは、参照文献（References）は著者名順に記載されており、文献を本文中で引用する際には、著者名および発行年が括弧で括られている。Proteomicsでは、参照文献（References）は引用順に括弧つきの数字を付けて記載されており、文献の本文中で引用する際には、引用箇所にその括弧つきの数字が付けられている。Int. J. Cancerでは、参照文献（References）は引用順に数字をつけて記載されており、文献の本文中で引用する際には、引用箇所にその上付き数字が付けられている。本発明の引用文取得プログラム１３２Dでは、このような「参考文献を認識する文字列」を利用する。図中には、参考文献を認識する文字列を破線で四角く囲って示し、各文献における引用文の例を、それぞれ下線を引いて示している。

図１１は、本発明の引用文献取得プログラムの処理内容を示した図である。最初にユーザがマイニング条件として指定したキーワードをもとに、文献情報取得プログラム１３２Ｂにより文献情報データベース１３３を検索し、指定したキーワードが含まれる文献（文献A）１１０１を取得する。続いて引用文献取得プログラム１３２Cにより文献情報データベース１３３を検索し、取得した文献１１０１が引用された文献群（引用文献群）１１０３を取得する。

図１２は、上記の文献情報データベース１３３から引用文献取得プログラム１３２Cにより、引用文献群１１０３を取得する方法をフローチャートにしたものである。この処理は、キーワード検索により取得した文献の文献情報（著者名、雑誌名、発行年、タイトル）を取得する（ステップ１２０１）ことから始まる。続いて、取得した文献情報に基づき、文献情報データベース１３３を検索する（ステップ１２０２）。そして参考文献の一覧に取得した文献情報と一致する文献が含まれる文献を引用文献群１１０３として取得する（ステップ１２０３）ことで、引用文献取得プログラム１３２Cは終了する。

図１３は、本発明の引用文取得プログラムの処理内容を示した図である。最初にユーザがマイニング条件として指定したキーワードをもとに、文献情報取得プログラム１３２Ｂにより文献情報データベース１３３を検索し、指定したキーワードが含まれる文献（文献A）１３０１を取得する。続いて引用文献取得プログラム１３２Cにより文献情報データベース１３３を検索し、取得した文献１３０１が引用された文献群（引用文献群）１３０２を取得する。次に引用文取得プログラム１３２Dにより、参考文献を認識する文字列を利用して、引用文献群１３０２から文献１３０１の引用箇所を含む一文（引用文）１３０３を抽出する。

図１４は、上記の引用文献群１３０２から引用文取得プログラム１３２Dによる、引用文１３０３を取得する方法をフローチャートにしたものである。この処理は、各引用文献の“参考文献（References）”部分における、指定したキーワードが含まれる文献を認識する文字列を探索する（ステップ１４０１）ことから始まる。続いて、各引用文献の“本文”部分における、ステップ１４０１で取得した「参考文献を認識する文字列」を検索する（ステップ１４０２）。次に「参考文献を認識する文字列」の１つ前のピリオドから、１つ後ろのピリオドまでの一文を探索する（ステップ１４０３）。そして、ステップ１４０３で取得した一文を引用文として取得する（ステップ１４０４）。

本発明によるテキストマイニングシステムを示す図である。文献の構造を示す図である。既存のテキストマイニングの処理内容を示すフローチャートである。既存のテキストマイニングの一例を示す図である。文献での参考文献の引用方法を示す図である。テキストマイニングの対象となる文章群の作成方法を示す図である。特徴語の抽出方法を示すフローチャートである。本発明のテキストマイニングの処理内容を示すフローチャートである。本発明のテキストマイニングの一例を示す図である。文献における引用例および参照文献の記載例を示す図である。本発明の引用文献取得プログラムの処理の一例を示す図である。本発明の引用文献取得プログラムの処理内容を示すフローチャートである。本発明の引用文取得プログラムの処理の一例を示す図である。本発明の引用文プログラムの処理内容を示すフローチャートである。

符号の説明

１１…クライアントコンピュータ
１２…ネットワーク
１３…テキストマイニングサーバコンピュータ
１３３…文献情報データベース

Claims

文献情報を蓄積した文献情報データベースに対して検索サーバにより検索を行うテキストマイニング方法において、前記検索サーバは、
キーワードを受領するステップ、
前記文献情報データベースから前記キーワードを含む第１の文献群を検索するステップ、
前記第１の文献群に含まれる文献を引用している第２の文献群を検索するステップ、
前記第２の文献群から前記第１の文献群の引用箇所を含む文章を抽出するステップ、
前記抽出された文章群から特徴語を抽出するステップ、
前記抽出された特徴語のリストを表示するステップ
を実行することを特徴とするテキストマイニング方法。
キーワードを受信する手段と、
受信したキーワードを含む第１の文献を、文献情報を蓄積した文献情報データベースから検索する手段と、
前記第１の文献が引用されている第２の文献を前記文献情報データベースから検索する手段と、
前記第２の文献中で前記第１の文献を引用している文章を抽出する手段と、
抽出された文章の集合から特徴語を抽出する手段と、
抽出された特徴語のリストを出力する手段と
を備えることを特徴とするテキストマイニングサーバ。