JP2006085374A - 文書データベースにおける重要語抽出方法、重要語抽出装置、コンピュータプログラム、プログラム格納媒体 - Google Patents
文書データベースにおける重要語抽出方法、重要語抽出装置、コンピュータプログラム、プログラム格納媒体 Download PDFInfo
- Publication number
- JP2006085374A JP2006085374A JP2004268702A JP2004268702A JP2006085374A JP 2006085374 A JP2006085374 A JP 2006085374A JP 2004268702 A JP2004268702 A JP 2004268702A JP 2004268702 A JP2004268702 A JP 2004268702A JP 2006085374 A JP2006085374 A JP 2006085374A
- Authority
- JP
- Japan
- Prior art keywords
- term
- terms
- document
- list
- importance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】プログラムされたコンピュータが、特定分野に関するn個の文書を集約した文書データベース含まれる用語の全数mと、それぞれの用語Tj(j=1,2,3,…,m)を取得し、各用語Tjを識別管理するステップと、文書Diにおける用語Tjに関する出現頻度Wijを所定の計算式により算出するステップと、用語Tjについての出現頻度Wij値の分散S2 jを計算するステップと、文書Diにおける用語Tjの出現回数をUijとして、文書Diにおける用語Tjの重要度VijをVij=Uij×S2 j により計算するステップと、用語TjをVijに基づいてリストアップした用語リストを作成して出力するステップとを実行する文書データベースにおける重要語抽出方法とした。
【選択図】 図1
Description
長尾 真、外5名著,「文字と音の情報処理」,第1刷,2000年1月21日,p29−p35
前記データベースに含まれる用語の全数mと、それぞれの用語Tj(j=1,2,3,…,m)を取得し、各用語Tjを識別管理する用語記憶ステップと、
文書Diにおける用語Tjに関する出現頻度Wijを所定の計算式により算出する出現頻度計算ステップと、
用語Tjについての出現頻度Wij値の分散S2 jを計算する分散計算ステップと、
文書Diにおける用語Tjの出現回数をUijとして、文書Diにおける用語Tjの重要度Vijを
Vij=Uij×S2 j
により計算する重要度計算ステップと、
用語TjをVijに基づいてリストアップした用語リストを作成して出力するリスト作成ステップと、
を含んだ文書データベースにおける重要語抽出方法としている。
Wij=(Uij/Uj)×log(U/Uj)
の式により計算する文書データベースにおける重要語抽出方法とすれば、より好ましい。
前記文書データベースに含まれるn個の文書から1つ以上の文書Dhを抽出するステップと、
文書Dhに含まれる用語の全数xを取得するステップと、
前記用語リスト作成ステップにより作成された文書Dhについての用語リストに含まれる用語Tg(g=1,2,3,…,x)を出力するとともに、利用者入力により当該用語Tgから1つ以上の用語Tk(k=1,2,3,…,≦x)の指定を受け付けるステップと、
指定されたTkの数aを取得するステップと、
文書Dhにおける用語Tgについての重要度Vhgに基づいてy個の用語Tf(f=1,2,3,…,y)を抽出するステップと、
用語の数yを可変設定しながら、用語Tfのうち、指定された用語Tkに一致する用語の数bを取得するステップと、
文書Dhについての用語抽出精度Zhを、
Zh=b/a+{x−(a+y−b)}/(x-a)
の式により計算するステップと、
Zhの値が最大となるときのxとyを取得するとともに、当該xとyとの関係を近似する関数y=f(x)を求めるステップと、
を含み、
前記リスト作成ステップは、前記関数y=f(x)に基づいて、xi個の用語を含む文書Diについての用語リストにリストアップする用語数yiをyi=f(xi)により算出し、当該算出された用語数yiの用語を掲載した用語リストを再作成する
文書データベースにおける重要語抽出方法とすることもできる。
本発明の一実施形態として、特定の分野についての文書を多数集約した文書データベースにアクセスするとともに、本発明の方法によって文書に含まれる重要語を抽出するようにプログラムされたコンピュータ(重要語抽出装置:以下、抽出装置)を例示する。本実施例の抽出装置によれば、重要語の抽出に際し、文書データベースにおける各文書に含まれる用語の重要度を特殊な計算式により測定し、その測定結果として、文書別に重要度の高い用語を順にリストアップした用語リストを作成して出力する。なお文書データベースは抽出装置に付帯していてもよいし、外部にあってもよい。また、リストの出力は、そのリスト自体を所定の記憶資源に記憶することであってもよいし、文書データベースの利用者に閲覧可能に出力することであってもよい。
本実施例において、抽出装置は、OMIMを重要語の抽出対象としている。よく知られているように、OMIMは、遺伝病などのヒトの遺伝形質に関する医学的・分子遺伝学的解説を集約した事典「MIM(Mendelian Inheritance in Man)」を文書データベース化したものであり、OMIMに含まれる論文(エントリ)数は、2004年1月現在、15,000件以上にのぼる。そのエントリのうち、異なる遺伝子疾患についてのエントリが約4,500件ある。このOMIMは、インターネット上のWWWサーバーによってオンラインでの検索・閲覧が可能となっている。本実施例において、抽出装置は、インターネットを介してOMIMにアクセスする構成となっている。もちろん、抽出装置にOMIMが付帯する構成としてもよい。
図1(A)〜(D)に抽出装置における重要度の算出処理の概略を示した。抽出装置は、OMIMの全エントリを対象として用語を抽出し、n個の全エントリとm個の全用語を取得するとともに、各エントリに識別子Di(i=1,2,3,…,n)を付与し、用語に識別子Tj(j=1,2,3,…,m)を付与し、n個の全エントリとm個の全用語を識別管理する。また、各エントリごとに各用語Tjの出現回数をカウントしてそれを記憶する。そして、n行m列の行列(マトリクス)を作成し、そのマトリクスの各交点(セル)に、エントリDiにおける用語Tjの出現回数を格納する。したがって、セルの行列(i、j)を指定すれば、特定のエントリにおける特定の用語の出現回数がわかる。ここで、その特定のエントリDiにおける特定の用語Tjの出現回数(用語出現回数)をUij、1列に含まれる各セルの出現回数合計、すなわち全エントリを通じての特定の用語Tjの出現回数(用語総出現回数数)をUjとする(A)。また、全エントリにおける全用語についての出現回数(全用語総出現回数)をUとする。
Wij=(Uij/Uj)×log(U/Uij)…式(1)
により計算し、このWijの値を各セルに格納する(B)。
すなわち、各セルに出現頻度Wijを格納したマトリクス(B)において、各一列のWijの平均値をWとして、各列ごとに分散値S2 jを周知の以下の式(2)
S2 j={(W1j−W)2+(W2j−W)2+…+(Wnj−W)2}/n …式(2) により計算する(C)。
Vij=Uij×S2 j…式(3)
により計算し、その計算結果を対応する各セルに格納する(D)。
抽出装置は、上記式(1)〜(3)により、特定のエントリにおける特定の用語の重要度を算出すると、その重要度に応じた順位でリストアップした用語リストをエントリ別に作成する。本実施例では、エントリごとに重要度の高い用語を順にリストアップした用語リストを作成して記憶する。
本実施例における抽出装置を利用者が実際に使用する場面でのユーザインタフェースとしては、エントリの指定入力を受け付けてそのエントリの用語リストを提示したり、キーワードの指定入力を受け付けて、キーワードに該当する用語の重要度が高い用語リストを提示したりする方式が考えられる。
図2に示したように、本実施例の計算式によって重要度を計算した場合、少数ではあるが、研究者にとってはさほど重要ではない用語11bが用語リスト10の上位にリストアップされている。そのような用語11bも可能な限り排除できれば、より好ましい。そこで、用語リストから削除すべき用語を収録した辞書を用意しておき、作成した用語リストの中で、その辞書に記載されている用語については、リストから削除すればよい。本実施例が対象としているOMIMデーベースでは、人名、特有の変異名やマーカーなどを削除対象とすることができる。
用語リストの下位にある用語でも実は研究者にとっては重要となり得る場合もある。そこで、データベースに含まれる用語について、あらかじめ重要度に乗算する係数を対応付けして所定のデータベースに記憶管理しておく。そして抽出装置が、あるエントリについての用語リストを提示する際、リスト中の各用語について、式(1)〜式(3)によって得られた重要度に、それぞれ対応の係数を乗算して重要度を更新し、その更新した重要度に基づいて用語リストを作成する。それによって、式(1)〜式(3)によって計算された重要度に基づいて下位にリストアップされた用語でも、実質的な重要度に見合うように上位にリストアップされる。それによって、研究者らは用語リストの下位の用語まで調べなくても、エントリの内容をより詳細に把握することができる。
当然のことながら、用語リストに全く不要な用語まで載せる必要はない。適当な数の用語さえリストアップされていれば、その用語だけでエントリの内容を把握することができる。もちろん、無駄な用語を含んだリストは当然データ量が大きく、その大容量データはそれを扱う抽出装置に過大な負荷を掛ける。しかし、リストアップする用語の数を全てのエントリについて一律に限定してしまえば、文書が長く用語の全数の多いエントリでは重要な用語がリストから欠落する可能性がある。したがって、エントリごとにリストアップする用語の数を最適化する必要がある。
Zh=b/a+{x−(a+y−b)}/(x-a)…式(4)
により計算し、Zhが最大値を取るときのxとyを取得し、このxとyとの関係を近似する関数y=f(x)を求める。
yi=f(xi)
により算出する。そして、エントリDiについて、決定した用語数yiを含んだ用語リストを再作成する。
本発明の重要語抽出方法は、当然のことながら、OMIMに限らず特定の分野についての文書を集約したデータベースに適用することができる。また、データベースは論文集などの、文章を集約したものに限らず、例えば、各文書を特定の分野についての用語に関する説明や定義などの解説文などとし、データベースはその用語についての解説文を集約した辞書(辞典)・事典であってもよい。
11a,11b 用語
12 重要度
Claims (10)
- プログラムされたコンピュータにより、所定の学術分野など特定の分野に関するn個の文書を集約した文書データベースを検索し、当該データベースに含まれる用語の重要度を算出して前記特定分野に関して重要性の高い用語を抽出する方法であって、
前記データベースに含まれる用語の全数mと、それぞれの用語Tj(j=1,2,3,…,m)を取得し、各用語Tjを識別管理する用語記憶ステップと、
文書Diにおける用語Tjに関する出現頻度Wijを所定の計算式により算出する出現頻度計算ステップと、
用語Tjについての出現頻度Wij値の分散S2 jを計算する分散計算ステップと、
文書Diにおける用語Tjの出現回数をUijとして、文書Diにおける用語Tjの重要度Vijを
Vij=Uij×S2 j
により計算する重要度計算ステップと、
用語TjをVijに基づいてリストアップした用語リストを作成して出力するリスト作成ステップと、
を含んだ文書データベースにおける重要語抽出方法。 - 請求項1において、前記出現頻度計算ステップは、全文書における用語Tjの出現回数をUjとし、文書Diにおける用語Tjの出現回数をUijとし、取得したm個の全用語についての出現回数の合計をUとして、前記出現頻度Wijを
Wij=(Uij/Uj)×log(U/Uj)
の式により計算する文書データベースにおける重要語抽出方法。 - 請求項1または2において、利用者入力により文書Diの指定を受け付けるステップを含み、前記リスト作成ステップは、指定された文書Diに含まれる用語Tjを重要度計算ステップにより計算した重要度に基づく順番でリストアップしたリストを作成する、文書データベースにおける重要語抽出方法。
- 請求項1または2において、リスト作成ステップは、文書Diごとに用語リストを作成するとともに、利用者入力によりキーワードの指定を受け付けるステップと、当該キーワードに該当する用語が所定の重要度Vijとなる場合の文書Di用語リストを出力するステップとを含む、文書データベースにおける重要語抽出方法。
- 請求項1または2において、特定の用語を収録した辞書データベースにアクセスするステップを含み、前記リスト作成ステップは、当該辞書データベースに存在する用語を前記用語リストに掲載しない、文書データベースにおける重要語抽出方法。
- 請求項1または2において、特定の用語と係数とを対応付けして記憶した係数データベースにアクセスするステップと、用語Tjの重要度Vijに対応の係数を乗算した値を新規の重要度とするステップとを含み、前記リスト作成ステップは、当該新規の重要度に基づいて用語リストを作成する文書データベースにおける重要語抽出方法。
- 請求項1〜6のいずれかにおいて、
前記文書データベースに含まれるn個の文書から1つ以上の文書Dhを抽出するステップと、
文書Dhに含まれる用語の全数xを取得するステップと、
前記用語リスト作成ステップにより作成された文書Dhについての用語リストに含まれる用語Tg(g=1,2,3,…,x)を出力するとともに、利用者入力により当該用語Tgから1つ以上の用語Tk(k=1,2,3,…,≦x)の指定を受け付けるステップと、
指定されたTkの数aを取得するステップと、
文書Dhにおける用語Tgについての重要度Vhgに基づいてy個の用語Tf(f=1,2,3,…,y)を抽出するステップと、
用語の数yを可変設定しながら、用語Tfのうち、指定された用語Tkに一致する用語の数bを取得するステップと、
文書Dhについての用語抽出精度Zhを、
Zh=b/a+{x−(a+y−b)}/(x-a)
の式により計算するステップと、
Zhの値が最大となるときのxとyを取得するとともに、当該xとyとの関係を近似する関数y=f(x)を求めるステップと、
を含み、
前記リスト作成ステップは、前記関数y=f(x)に基づいて、xi個の用語を含む文書Diについての用語リストにリストアップする用語数yiをyi=f(xi)により算出し、当該算出された用語数yiの用語を掲載した用語リストを再作成する、
文書データベースにおける重要語抽出方法。 - コンピュータにより構成され、請求項1〜7のいずれかの方法に含まれているステップを実行する重要語抽出装置。
- コンピュータにインストールされて、当該コンピュータに請求項1〜7のいずれかの方法に含まれているステップを実行させるコンピュータプログラム。
- 請求項9に記載のコンピュータプログラムを記録したコンピュータにより読み取り可能なプログラム格納媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004268702A JP4639388B2 (ja) | 2004-09-15 | 2004-09-15 | 文書データベースにおける重要語抽出方法、重要語抽出装置、コンピュータプログラム、プログラム格納媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004268702A JP4639388B2 (ja) | 2004-09-15 | 2004-09-15 | 文書データベースにおける重要語抽出方法、重要語抽出装置、コンピュータプログラム、プログラム格納媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006085374A true JP2006085374A (ja) | 2006-03-30 |
JP4639388B2 JP4639388B2 (ja) | 2011-02-23 |
Family
ID=36163845
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004268702A Expired - Fee Related JP4639388B2 (ja) | 2004-09-15 | 2004-09-15 | 文書データベースにおける重要語抽出方法、重要語抽出装置、コンピュータプログラム、プログラム格納媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4639388B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007316841A (ja) * | 2006-05-24 | 2007-12-06 | Fuji Xerox Co Ltd | 会議支援システム、電子会議支援装置、及び会議支援プログラム |
JP2009086883A (ja) * | 2007-09-28 | 2009-04-23 | Sanyo Electric Co Ltd | 電子カルテシステムおよび検索システム |
JP2010160534A (ja) * | 2009-01-06 | 2010-07-22 | Yahoo Japan Corp | 地域特性辞書生成方法及び装置 |
JP2013033488A (ja) * | 2012-09-21 | 2013-02-14 | Panasonic Healthcare Co Ltd | 検索システム |
JP2015026345A (ja) * | 2013-07-29 | 2015-02-05 | Necパーソナルコンピュータ株式会社 | 検索装置、検索システムおよびプログラム |
CN113420550A (zh) * | 2021-06-30 | 2021-09-21 | 中国农业银行股份有限公司 | 提取关键词的方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11120183A (ja) * | 1997-10-08 | 1999-04-30 | Ntt Data Corp | キーワード抽出方法及び装置 |
JPH11143892A (ja) * | 1997-11-07 | 1999-05-28 | Fujitsu Ltd | キーワード重み生成装置及び方法並びにプログラム記憶媒体 |
JPH11328206A (ja) * | 1998-05-18 | 1999-11-30 | Ricoh Co Ltd | キーワード抽出装置および方法ならびに記憶媒体 |
JP2000082068A (ja) * | 1998-09-07 | 2000-03-21 | Hitachi Ltd | 文書検索システム |
JP2003242176A (ja) * | 2001-12-13 | 2003-08-29 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
-
2004
- 2004-09-15 JP JP2004268702A patent/JP4639388B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11120183A (ja) * | 1997-10-08 | 1999-04-30 | Ntt Data Corp | キーワード抽出方法及び装置 |
JPH11143892A (ja) * | 1997-11-07 | 1999-05-28 | Fujitsu Ltd | キーワード重み生成装置及び方法並びにプログラム記憶媒体 |
JPH11328206A (ja) * | 1998-05-18 | 1999-11-30 | Ricoh Co Ltd | キーワード抽出装置および方法ならびに記憶媒体 |
JP2000082068A (ja) * | 1998-09-07 | 2000-03-21 | Hitachi Ltd | 文書検索システム |
JP2003242176A (ja) * | 2001-12-13 | 2003-08-29 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007316841A (ja) * | 2006-05-24 | 2007-12-06 | Fuji Xerox Co Ltd | 会議支援システム、電子会議支援装置、及び会議支援プログラム |
JP2009086883A (ja) * | 2007-09-28 | 2009-04-23 | Sanyo Electric Co Ltd | 電子カルテシステムおよび検索システム |
JP2010160534A (ja) * | 2009-01-06 | 2010-07-22 | Yahoo Japan Corp | 地域特性辞書生成方法及び装置 |
JP2013033488A (ja) * | 2012-09-21 | 2013-02-14 | Panasonic Healthcare Co Ltd | 検索システム |
JP2015026345A (ja) * | 2013-07-29 | 2015-02-05 | Necパーソナルコンピュータ株式会社 | 検索装置、検索システムおよびプログラム |
CN113420550A (zh) * | 2021-06-30 | 2021-09-21 | 中国农业银行股份有限公司 | 提取关键词的方法及装置 |
CN113420550B (zh) * | 2021-06-30 | 2024-03-01 | 中国农业银行股份有限公司 | 提取关键词的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP4639388B2 (ja) | 2011-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8548996B2 (en) | Ranking content items related to an event | |
Hersh et al. | TREC genomics special issue overview | |
US8046363B2 (en) | System and method for clustering documents | |
JP5551187B2 (ja) | 文献分析システム | |
JP6101563B2 (ja) | 情報構造化システム | |
WO2006115260A1 (ja) | 情報解析報告書自動作成装置、情報解析報告書自動作成プログラムおよび情報解析報告書自動作成方法 | |
US20060179051A1 (en) | Methods and apparatus for steering the analyses of collections of documents | |
KR101067846B1 (ko) | 특허 평가 시스템 및 그 방법, 이를 구현하기 위한 프로그램을 기록한 디지털 처리장치가 판독 가능한 기록매체 | |
JP3820878B2 (ja) | 情報検索装置,スコア決定装置,情報検索方法,スコア決定方法及びプログラム記録媒体 | |
JP2008181188A (ja) | 健康関連情報提供システム | |
Liu et al. | Towards computation of novel ideas from corpora of scientific text | |
Siebert et al. | Extending a research-paper recommendation system with scientometric measures | |
JP4639388B2 (ja) | 文書データベースにおける重要語抽出方法、重要語抽出装置、コンピュータプログラム、プログラム格納媒体 | |
JP5324677B2 (ja) | 類似文書検索支援装置及び類似文書検索支援プログラム | |
JP2012093966A (ja) | 文書分析装置およびプログラム | |
JP2002269106A (ja) | 書籍紹介装置 | |
US20130268833A1 (en) | Apparatus and method for visualizing hyperlinks using color attribute values | |
JP4202287B2 (ja) | 注目する情報について複数のタームを用いて記述されてなる文章テキストからなる情報オブジェクトをコンピュータで可視的に処理するためのシステム及びそのためのコンピュータソフトウエア | |
CN112184021A (zh) | 一种基于相似支持集的答案质量评估方法 | |
JP4525433B2 (ja) | 文書集約装置及びプログラム | |
JP2006221478A (ja) | 文書検索装置及びマクロアプローチによるポートフォリオ分析装置 | |
Rosnan et al. | Performance evaluation of inverted files, B-Tree and B+ Tree indexing algorithm on Malay text | |
Amalia et al. | The identification of negative content in websites by using machine learning approaches | |
Cagliero et al. | Identifying Collaborations among Researchers: a pattern-based approach. | |
KR101078945B1 (ko) | 문서 분석 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070808 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100223 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100420 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100525 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100621 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20100902 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101102 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101111 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131210 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |