JP2006085374A - 文書データベースにおける重要語抽出方法、重要語抽出装置、コンピュータプログラム、プログラム格納媒体 - Google Patents

文書データベースにおける重要語抽出方法、重要語抽出装置、コンピュータプログラム、プログラム格納媒体 Download PDF

Info

Publication number
JP2006085374A
JP2006085374A JP2004268702A JP2004268702A JP2006085374A JP 2006085374 A JP2006085374 A JP 2006085374A JP 2004268702 A JP2004268702 A JP 2004268702A JP 2004268702 A JP2004268702 A JP 2004268702A JP 2006085374 A JP2006085374 A JP 2006085374A
Authority
JP
Japan
Prior art keywords
term
terms
document
list
importance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004268702A
Other languages
English (en)
Other versions
JP4639388B2 (ja
Inventor
Nobuyoshi Shimizu
信義 清水
Tomoyoshi Horisawa
知義 堀澤
Katsue Daicho
克江 大長
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Keio University
Original Assignee
Keio University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Keio University filed Critical Keio University
Priority to JP2004268702A priority Critical patent/JP4639388B2/ja
Publication of JP2006085374A publication Critical patent/JP2006085374A/ja
Application granted granted Critical
Publication of JP4639388B2 publication Critical patent/JP4639388B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】特定の分野についての文書を多数集約した文書データベースにおいて、各文書を特徴付ける重要語を精度よく特定し、各文書の内容を一瞥で把握できるようにする。
【解決手段】プログラムされたコンピュータが、特定分野に関するn個の文書を集約した文書データベース含まれる用語の全数mと、それぞれの用語T(j=1,2,3,…,m)を取得し、各用語Tを識別管理するステップと、文書Diにおける用語Tjに関する出現頻度Wijを所定の計算式により算出するステップと、用語Tについての出現頻度Wij値の分散S を計算するステップと、文書Dにおける用語Tの出現回数をUijとして、文書Dにおける用語Tの重要度VijをVij=Uij×S により計算するステップと、用語TをVijに基づいてリストアップした用語リストを作成して出力するステップとを実行する文書データベースにおける重要語抽出方法とした。
【選択図】 図1

Description

この発明は、プログラムされたコンピュータにより、所定の学術分野など特定の分野についての文書を多数集約してなる文書データベースから重要語を抽出する方法に関する。
多数の文書を集約した文書データベースにおいて、文書間の相違を識別するために、データベース全体の中で特定の文書に偏って高頻度で出現する用語(重要語)を抽出する、という思想がある。重要語は、あらゆる文書に数多く出現する助詞や副詞などとは異なり、出現回数の絶対数こそ多くは無いが、特定の文書に限って他の文書より多く出現したり、その用語だけで文書の内容をある程度把握できたりする単語や連語である。
一般的に、データベースに含まれる用語について、それぞれが重要語であるか否かを判定するためには、その用語の出現頻度を用いる。出現頻度の算出方法としては、tf法、idf法、tf・idf法などが周知である。そして、これらの方法で算出された出現頻度を重要度とし、その重要度が大きい用語を重要語として定義する。また数値化された重要度に基づいて、特定の文書を検索するのに当たってデータベースに照会するキーワードが適切であるか否かを判定したり、各文書を特徴付ける重要語が何であるのかを特定したりする。なお、以下の非特許文献1に、重要語の抽出に関わる情報処理方法が記載されている。
長尾 真、外5名著,「文字と音の情報処理」,第1刷,2000年1月21日,p29−p35
本発明者らは、所定の学術分野など、特定の分野についての文書を多数集約した文書データベースでは、特定の用語が特定の文書に限って高頻度で出現した場合でも、その用語がその特定の文書にとっての重要語となるとは限らない、ということを経験的に知見している。すなわち、上記重要度の算出方法では文書を特徴付ける適切なキーワードを特定することができない。
また、学術論文などの専門分野に関する文書では、その文書に含まれる用語の全てについて重要度と各用語の相関関係とを検討しないと、その内容を把握できない、ということも知見している。すなわち、学術的に特徴的なある用語が極めて少数の特定の文書に含まれていたとしても、その文書が全て同じ内容であるとは限らない。例えば、遺伝病などのヒトの遺伝形質に関する医学的・分子遺伝学的解説(エントリ)を集約した文書データベース「OMIM(Online Mendelian Inheritance in Man)」において、各エントリについての重要語を従来の出現頻度に基づく方法で抽出しようとすると、OMIMにある各エントリは、もともと同一の学術分野に関するものであるから、複数のエントリで同じ用語を重要語として抽出してしまう。例えば、特定の遺伝子疾患について解説したエントリを検索するために、エントリを特徴付ける用語を従来の方法で算出した重要度に基づいて提示したとして、しかもその用語が特定の内容(疾患)を特徴付けるものであったとしても、その用語を含む複数のエントリが提示される可能性が高い。提示された複数のエントリはそれぞれ内容(疾患)が異なるため、研究者らは、調査したい疾患についてのエントリを探そうとすると、結局提示された全エントリに目を通さなければならず、目的とするエントリを見出すまで多大な労力と時間を要する。
本発明者らは、所定の学術分野など、特定の分野についての文書を多数集約した文書データベースにおいて、まず、個々の文書の重要語を精度よく特定できるように重要度の計算方法を検討した。そして、用語の出現頻度を算出した上で、さらにその出現頻度を使って重要度を求める特殊な計算式を見出した。また、その特殊な計算方法によって求めた重要度に基づいて、個々の文書の内容を一瞥するだけで把握できるように文書に含まれる用語の提示の仕方を検討し、それを見出した。
本発明は、これら知見に基づきなされたもので、その目的は、特定の分野についての文書を多数集約した文書データベースにおいて、各文書を特徴付ける重要語を精度よく特定できるとともに、各文書の内容を一瞥して把握できるようにするための重要語抽出方法を提供することにある。
上記目的を達成するための本発明は、プログラムされたコンピュータにより、所定の学術分野など特定の分野に関するn個の文書を集約した文書データベースを検索し、当該データベースに含まれる用語の重要度を算出して前記特定分野に関して重要性の高い用語を抽出する方法であって、
前記データベースに含まれる用語の全数mと、それぞれの用語T(j=1,2,3,…,m)を取得し、各用語Tを識別管理する用語記憶ステップと、
文書Diにおける用語Tjに関する出現頻度Wijを所定の計算式により算出する出現頻度計算ステップと、
用語Tについての出現頻度Wij値の分散S を計算する分散計算ステップと、
文書Dにおける用語Tの出現回数をUijとして、文書Dにおける用語Tの重要度Vij
ij=Uij×S
により計算する重要度計算ステップと、
用語TをVijに基づいてリストアップした用語リストを作成して出力するリスト作成ステップと、
を含んだ文書データベースにおける重要語抽出方法としている。
また、前記出現頻度計算ステップは、全文書における用語Tの出現回数をUとし、文書Dにおける用語Tの出現回数をUijとし、取得したm個の全用語についての出現回数の合計をUとして、前記出現頻度Wij
ij=(Uij/U)×log(U/U
の式により計算する文書データベースにおける重要語抽出方法とすれば、より好ましい。
上記重要語抽出方法に、次の要件(1)〜(4)のいずれかをさらに備えた文書データベースにおける重要語抽出方法も本発明の範囲である。
(1)利用者入力により文書Dの指定を受け付けるステップを含み、前記リスト作成ステップは、指定された文書Dに含まれる用語Tを重要度に基づく順番でリストアップしたリストを作成する。
(2)リスト作成ステップは、文書Dごとに用語リストを作成するとともに、利用者入力によりキーワードの指定を受け付けるステップと、当該キーワードに該当する用語が所定の重要度Vijとなる場合の文書D用語リストを出力するステップとを含むこととしてもよい。
(3)特定の用語を収録した辞書データベースにアクセスするステップを含み、前記リスト作成ステップは、当該辞書データベースに存在する用語を前記用語リストに掲載しない。
(4)特定の用語と係数とを対応付けして記憶した係数データベースにアクセスするステップと、用語Tの重要度Vijに対応の係数を乗算した値を新規の重要度とするステップとを含み、前記リスト作成ステップは、当該新規の重要度に基づいてリストを作成する。
また、上記いずれかの重要語抽出方法において、
前記文書データベースに含まれるn個の文書から1つ以上の文書Dを抽出するステップと、
文書Dに含まれる用語の全数xを取得するステップと、
前記用語リスト作成ステップにより作成された文書Dについての用語リストに含まれる用語T(g=1,2,3,…,x)を出力するとともに、利用者入力により当該用語Tから1つ以上の用語T(k=1,2,3,…,≦x)の指定を受け付けるステップと、
指定されたTの数aを取得するステップと、
文書Dにおける用語Tについての重要度Vhgに基づいてy個の用語T(f=1,2,3,…,y)を抽出するステップと、
用語の数yを可変設定しながら、用語Tのうち、指定された用語Tに一致する用語の数bを取得するステップと、
文書Dについての用語抽出精度Zを、
=b/a+{x−(a+y−b)}/(x-a)
の式により計算するステップと、
の値が最大となるときのxとyを取得するとともに、当該xとyとの関係を近似する関数y=f(x)を求めるステップと、
を含み、
前記リスト作成ステップは、前記関数y=f(x)に基づいて、x個の用語を含む文書Diについての用語リストにリストアップする用語数yをy=f(x)により算出し、当該算出された用語数yの用語を掲載した用語リストを再作成する
文書データベースにおける重要語抽出方法とすることもできる。
なお本発明は、コンピュータにより構成されて、上記方法に含まれているステップを実行する重要語抽出装置と、コンピュータにインストールされて、当該コンピュータに上記いずれかの方法に含まれているステップを実行させるコンピュータプログラム、および、そのコンピュータプログラムを記録したコンピュータにより読み取り可能なプログラム格納媒体にも及んでいる。
本発明の重要語抽出方法によれば、特定の分野についての文書を多数集約した文書データベースにおいて、各文書に含まれる用語からその文書を特徴付ける重要語を精度よく特定できるとともに、各文書の内容を一瞥して把握することができる。
===重要語抽出方法の概略===
本発明の一実施形態として、特定の分野についての文書を多数集約した文書データベースにアクセスするとともに、本発明の方法によって文書に含まれる重要語を抽出するようにプログラムされたコンピュータ(重要語抽出装置:以下、抽出装置)を例示する。本実施例の抽出装置によれば、重要語の抽出に際し、文書データベースにおける各文書に含まれる用語の重要度を特殊な計算式により測定し、その測定結果として、文書別に重要度の高い用語を順にリストアップした用語リストを作成して出力する。なお文書データベースは抽出装置に付帯していてもよいし、外部にあってもよい。また、リストの出力は、そのリスト自体を所定の記憶資源に記憶することであってもよいし、文書データベースの利用者に閲覧可能に出力することであってもよい。
===文書データベース===
本実施例において、抽出装置は、OMIMを重要語の抽出対象としている。よく知られているように、OMIMは、遺伝病などのヒトの遺伝形質に関する医学的・分子遺伝学的解説を集約した事典「MIM(Mendelian Inheritance in Man)」を文書データベース化したものであり、OMIMに含まれる論文(エントリ)数は、2004年1月現在、15,000件以上にのぼる。そのエントリのうち、異なる遺伝子疾患についてのエントリが約4,500件ある。このOMIMは、インターネット上のWWWサーバーによってオンラインでの検索・閲覧が可能となっている。本実施例において、抽出装置は、インターネットを介してOMIMにアクセスする構成となっている。もちろん、抽出装置にOMIMが付帯する構成としてもよい。
===重要度の計算===
図1(A)〜(D)に抽出装置における重要度の算出処理の概略を示した。抽出装置は、OMIMの全エントリを対象として用語を抽出し、n個の全エントリとm個の全用語を取得するとともに、各エントリに識別子D(i=1,2,3,…,n)を付与し、用語に識別子T(j=1,2,3,…,m)を付与し、n個の全エントリとm個の全用語を識別管理する。また、各エントリごとに各用語Tjの出現回数をカウントしてそれを記憶する。そして、n行m列の行列(マトリクス)を作成し、そのマトリクスの各交点(セル)に、エントリDにおける用語Tの出現回数を格納する。したがって、セルの行列(i、j)を指定すれば、特定のエントリにおける特定の用語の出現回数がわかる。ここで、その特定のエントリDにおける特定の用語Tの出現回数(用語出現回数)をUij、1列に含まれる各セルの出現回数合計、すなわち全エントリを通じての特定の用語Tの出現回数(用語総出現回数数)をUとする(A)。また、全エントリにおける全用語についての出現回数(全用語総出現回数)をUとする。
つぎに、エントリDにおける用語Tに関する出現頻度Wijを次の式(1)
ij=(Uij/U)×log(U/Uij)…式(1)
により計算し、このWijの値を各セルに格納する(B)。
本実施例では、さらに、用語TごとのWij値の分散値をS を計算する(C)。
すなわち、各セルに出現頻度Wijを格納したマトリクス(B)において、各一列のWijの平均値をWとして、各列ごとに分散値S を周知の以下の式(2)
={(W1j−W)+(W2j−W)+…+(Wnj−W)}/n …式(2) により計算する(C)。
次に、S に基づいて、エントリDにおける用語Tの重要度Vijを次の式(3)
ij=Uij×S …式(3)
により計算し、その計算結果を対応する各セルに格納する(D)。
なお本実施例では、より重要度を高精度で算出するために、出現頻度を新規に見出した上記式(1)により算出しているが、出現頻度の算出については、従来のtf法、idf法、tf・idf法を採用してもよい。本発明の思想は、重要度として出現頻度を採用する、という従来の概念を捨て、特定の文書における特定の用語について、その出現頻度の分散値と用語出現回数との乗算値を重要度とする点にある。
===重要語の提示===
抽出装置は、上記式(1)〜(3)により、特定のエントリにおける特定の用語の重要度を算出すると、その重要度に応じた順位でリストアップした用語リストをエントリ別に作成する。本実施例では、エントリごとに重要度の高い用語を順にリストアップした用語リストを作成して記憶する。
作成したリストは、例えば、抽出装置に付帯するディスプレイや、抽出装置にアクセス可能なコンピュータにて閲覧可能にして出力すればよい。それによって、特定のエントリについての用語がその重要度に応じて複数示され、研究者などの専門家がその用語リストを一瞥すれば、特定のエントリ中にある複数の用語の重要度とその相関関係がわかり、エントリの内容を確実に把握することができる。
図2に、ある特定のエントリ(エントリ番号#137750)について、本実施例の方法に基づいて作成した用語リストを示した。エントリ#137750のタイトルはGLAUCOMA, PRIMARY OPEN ANGLE, JUVENILE-ONSET, 1; JOAG(若年性開放隅角緑内障)という遺伝子疾患について記載されたエントリであり、図2には、エントリ#137750において、重要度12の高い用語(11a,11b)が上から順にリストアップされたリスト10が示されている。また、参考までに用語ごとの分散値13もリスト10に添えて示した。分散値が低い用語でも、特定のエントリにおいて出現回数が多いとそのエントリでは重要度の値が高くなり、その特定のエントリについての用語リストでは、上位にリストアップされる。したがって、特定のエントリにおいて重要語となり得る用語を確実に上位にリストアップすることができる。
なお、本実施例により算出した重要度の信頼性を証明するために、エントリ#137750を実際に研究者などの専門家に読んでもらい、その専門家にエントリの内容を把握する上で実際に重要語として採用できる用語11aを指定してもらった。専門家が認めた重要語11aが抽出装置が作成したリスト10の上位にリストアップされている。したがって、本実施例の方法に採用した重要度の計算方式は精度よく重要語を抽出するための指標となることが判明した。また、各エントリごとに用語を重要度順にリストアップしているので、エントリに含まれている複数の用語の相関がわかる。すなわち、複数の用語の重要度を比較することができ、抽出装置により作成された用語リスト中の上位の用語を一瞥すれば、そのエントリの内容を正確に認識することができる。
===ユーザインタフェース===
本実施例における抽出装置を利用者が実際に使用する場面でのユーザインタフェースとしては、エントリの指定入力を受け付けてそのエントリの用語リストを提示したり、キーワードの指定入力を受け付けて、キーワードに該当する用語の重要度が高い用語リストを提示したりする方式が考えられる。
また、利用者からのエントリやキーワードの指定入力を受け付けたり、その入力を起源とした用語抽出結果を提示したりする方式としては、抽出装置自体にキーボードやディスプレイなどのユーザインタフェースを備えさせ、そのユーザインタフェースを介して入出力する方式でもよいが、抽出装置にWWWサーバーとしての機能を実装してインターネットに接続させておく方式も考えられる。そしてそのWWWサーバー機能により、エントリやキーワードの指定入力を受け付けるためのフォームを含んだWebページを抽出装置に用意しておき、利用者はパーソナルコンピュータなどブラウザを実装したコンピュータ(ブラウザ端末)により、そのWebページを取り寄せ、そのページにて入力したエントリやキーワードを抽出装置に送付する。抽出装置は、指定のエントリの用語リストや、キーワードに該当する用語の重要度が高いエントリについての用語リストをWebページに作成してブラウザ端末に返送すればよい。
===重要語抽出精度の向上について===
図2に示したように、本実施例の計算式によって重要度を計算した場合、少数ではあるが、研究者にとってはさほど重要ではない用語11bが用語リスト10の上位にリストアップされている。そのような用語11bも可能な限り排除できれば、より好ましい。そこで、用語リストから削除すべき用語を収録した辞書を用意しておき、作成した用語リストの中で、その辞書に記載されている用語については、リストから削除すればよい。本実施例が対象としているOMIMデーベースでは、人名、特有の変異名やマーカーなどを削除対象とすることができる。
===重要語の重み付け===
用語リストの下位にある用語でも実は研究者にとっては重要となり得る場合もある。そこで、データベースに含まれる用語について、あらかじめ重要度に乗算する係数を対応付けして所定のデータベースに記憶管理しておく。そして抽出装置が、あるエントリについての用語リストを提示する際、リスト中の各用語について、式(1)〜式(3)によって得られた重要度に、それぞれ対応の係数を乗算して重要度を更新し、その更新した重要度に基づいて用語リストを作成する。それによって、式(1)〜式(3)によって計算された重要度に基づいて下位にリストアップされた用語でも、実質的な重要度に見合うように上位にリストアップされる。それによって、研究者らは用語リストの下位の用語まで調べなくても、エントリの内容をより詳細に把握することができる。
なお、用語と係数との対応付けしたデータベースは抽出装置に付帯する内部データベースであってもよいし、抽出装置がアクセス可能な外部データベースであってもよい。また、各用語の係数を決定するためには、例えば、助詞や副詞など全く不要な用語については係数を0にしてリストに掲載されないようにしたり、医学辞書に掲載されている特定の種別の用語(遺伝子シンボル、器官、組織、症状、疾患など)については、分散値が低い割にはエントリの内容を確実に示唆する用語なので一律に高い係数を対応付けしておいてリストの上位にリストアップされるようにしたり、OMIMのタイトルなど自動的に上位にリストアップされる用語については、確実にリストアップされる程度の所定の係数を一律に対応付けしたりするなど、用語に付与する係数は適宜に設定すればよい。
===重要語の抽出数の最適化===
当然のことながら、用語リストに全く不要な用語まで載せる必要はない。適当な数の用語さえリストアップされていれば、その用語だけでエントリの内容を把握することができる。もちろん、無駄な用語を含んだリストは当然データ量が大きく、その大容量データはそれを扱う抽出装置に過大な負荷を掛ける。しかし、リストアップする用語の数を全てのエントリについて一律に限定してしまえば、文書が長く用語の全数の多いエントリでは重要な用語がリストから欠落する可能性がある。したがって、エントリごとにリストアップする用語の数を最適化する必要がある。
ここで、その最適化のための手法を例示する。概略的には、あるエントリを研究者など用語の重要性を判断できる専門家に見てもらい、そのエントリ中から重要語を選出してもらう。そして、その選出した重要語と抽出装置が作成した用語リスト中の用語とを比較し、用語リスト中の用語と専門家が選出した実際の重要語との一致度に基づいて全てのエントリに適用できる法則を見出す。そして、その法則に従って用語リスト中に掲載する最適な用語数をエントリ別に決定する。
具体的には、抽出装置が、専門家などの利用者から、全エントリ中から適当な複数のエントリDの指定と、そのDに含まれる用語から利用者が選出した重要語T(k=1,2,3,…)の指定とをユーザインタフェースを介して受け付け、指定されたTの数aを指定のエントリD別に取得する。
また抽出装置は、上記式(1)〜(3)に基づいて作成したエントリDについての用語リストについて、そのリストに含まれる用語の全数xと、リスト中の各用語T(g=1,2,3,…,x)とを取得する。次に、用語リスト中に掲載すべき用語の数をyとし、用語Tから重要度Dhgに基づいてy個の用語T(f=1,2,3,…,y)をリストアップする。そして、用語Tのうち利用者により指定された用語Tに一致する用語の数bを取得する。
なお、y個の用語の抽出に際しては、yの値自体を設定し、各用語Tにおける重要度Vhgの値が高い方から順にy番目までの用語を抽出してもよいし、重要度の値を可変設定し、その重要度の値以上の用語TをTとして抽出し、そのTの数をyとするなど、yの値は重要度に基づいて適宜に可変設定すればよい。
つぎに、yの値を可変設定していきながら、文書Dについてリストアップした用語Tの精度Zを次式(4)、
=b/a+{x−(a+y−b)}/(x-a)…式(4)
により計算し、Zが最大値を取るときのxとyを取得し、このxとyとの関係を近似する関数y=f(x)を求める。
このy=f(x)を他のエントリDにも適用し、全エントリDにおける用語リストにリストアップする用語数を決定する。すなわち、エントリDiにx個の用語が含まれている場合、そのエントリDについての用語リストに掲載する用語の数yを上記関数
=f(x
により算出する。そして、エントリDについて、決定した用語数yを含んだ用語リストを再作成する。
したがって、一度用語数が決定してしまえば、全エントリについての用語リストが作成されることになり、この作成済みの用語リストを参照可能に用意しておけば、データベース検索におけるクエリーを受け付けた際に、上記計算式(1)〜(3)による計算処理を再度行う必要が無くなる。抽出装置は作成済みの用語リストを参照して、クエリーに対する検索結果を提示すればよい。
なお、式(4)を求める過程で選出されたエントリDは、利用者入力により抽出されなくてもよい。抽出装置側であらかじめ設定されていてもいいし、ランダムなど適宜に抽出するようにしてもよい。もちろんDは、上記式(4)で表現される関数の信頼性は多少落ちるが、1つのエントリであってもよい。
===適用例===
本発明の重要語抽出方法は、当然のことながら、OMIMに限らず特定の分野についての文書を集約したデータベースに適用することができる。また、データベースは論文集などの、文章を集約したものに限らず、例えば、各文書を特定の分野についての用語に関する説明や定義などの解説文などとし、データベースはその用語についての解説文を集約した辞書(辞典)・事典であってもよい。
本発明の実施例における重要語抽出方法の概念を説明する図である。 上記方法により作成される用語リストの概略図である。
符号の説明
10 用語リスト
11a,11b 用語
12 重要度

Claims (10)

  1. プログラムされたコンピュータにより、所定の学術分野など特定の分野に関するn個の文書を集約した文書データベースを検索し、当該データベースに含まれる用語の重要度を算出して前記特定分野に関して重要性の高い用語を抽出する方法であって、
    前記データベースに含まれる用語の全数mと、それぞれの用語T(j=1,2,3,…,m)を取得し、各用語Tを識別管理する用語記憶ステップと、
    文書Diにおける用語Tjに関する出現頻度Wijを所定の計算式により算出する出現頻度計算ステップと、
    用語Tについての出現頻度Wij値の分散S を計算する分散計算ステップと、
    文書Dにおける用語Tの出現回数をUijとして、文書Dにおける用語Tの重要度Vij
    ij=Uij×S
    により計算する重要度計算ステップと、
    用語TをVijに基づいてリストアップした用語リストを作成して出力するリスト作成ステップと、
    を含んだ文書データベースにおける重要語抽出方法。
  2. 請求項1において、前記出現頻度計算ステップは、全文書における用語Tの出現回数をUとし、文書Dにおける用語Tの出現回数をUijとし、取得したm個の全用語についての出現回数の合計をUとして、前記出現頻度Wij
    ij=(Uij/U)×log(U/U
    の式により計算する文書データベースにおける重要語抽出方法。
  3. 請求項1または2において、利用者入力により文書Dの指定を受け付けるステップを含み、前記リスト作成ステップは、指定された文書Dに含まれる用語Tを重要度計算ステップにより計算した重要度に基づく順番でリストアップしたリストを作成する、文書データベースにおける重要語抽出方法。
  4. 請求項1または2において、リスト作成ステップは、文書Dごとに用語リストを作成するとともに、利用者入力によりキーワードの指定を受け付けるステップと、当該キーワードに該当する用語が所定の重要度Vijとなる場合の文書D用語リストを出力するステップとを含む、文書データベースにおける重要語抽出方法。
  5. 請求項1または2において、特定の用語を収録した辞書データベースにアクセスするステップを含み、前記リスト作成ステップは、当該辞書データベースに存在する用語を前記用語リストに掲載しない、文書データベースにおける重要語抽出方法。
  6. 請求項1または2において、特定の用語と係数とを対応付けして記憶した係数データベースにアクセスするステップと、用語Tの重要度Vijに対応の係数を乗算した値を新規の重要度とするステップとを含み、前記リスト作成ステップは、当該新規の重要度に基づいて用語リストを作成する文書データベースにおける重要語抽出方法。
  7. 請求項1〜6のいずれかにおいて、
    前記文書データベースに含まれるn個の文書から1つ以上の文書Dを抽出するステップと、
    文書Dに含まれる用語の全数xを取得するステップと、
    前記用語リスト作成ステップにより作成された文書Dについての用語リストに含まれる用語T(g=1,2,3,…,x)を出力するとともに、利用者入力により当該用語Tから1つ以上の用語T(k=1,2,3,…,≦x)の指定を受け付けるステップと、
    指定されたTの数aを取得するステップと、
    文書Dにおける用語Tについての重要度Vhgに基づいてy個の用語T(f=1,2,3,…,y)を抽出するステップと、
    用語の数yを可変設定しながら、用語Tのうち、指定された用語Tに一致する用語の数bを取得するステップと、
    文書Dについての用語抽出精度Zを、
    =b/a+{x−(a+y−b)}/(x-a)
    の式により計算するステップと、
    の値が最大となるときのxとyを取得するとともに、当該xとyとの関係を近似する関数y=f(x)を求めるステップと、
    を含み、
    前記リスト作成ステップは、前記関数y=f(x)に基づいて、x個の用語を含む文書Diについての用語リストにリストアップする用語数yをy=f(x)により算出し、当該算出された用語数yの用語を掲載した用語リストを再作成する、
    文書データベースにおける重要語抽出方法。
  8. コンピュータにより構成され、請求項1〜7のいずれかの方法に含まれているステップを実行する重要語抽出装置。
  9. コンピュータにインストールされて、当該コンピュータに請求項1〜7のいずれかの方法に含まれているステップを実行させるコンピュータプログラム。
  10. 請求項9に記載のコンピュータプログラムを記録したコンピュータにより読み取り可能なプログラム格納媒体。

JP2004268702A 2004-09-15 2004-09-15 文書データベースにおける重要語抽出方法、重要語抽出装置、コンピュータプログラム、プログラム格納媒体 Expired - Fee Related JP4639388B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004268702A JP4639388B2 (ja) 2004-09-15 2004-09-15 文書データベースにおける重要語抽出方法、重要語抽出装置、コンピュータプログラム、プログラム格納媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004268702A JP4639388B2 (ja) 2004-09-15 2004-09-15 文書データベースにおける重要語抽出方法、重要語抽出装置、コンピュータプログラム、プログラム格納媒体

Publications (2)

Publication Number Publication Date
JP2006085374A true JP2006085374A (ja) 2006-03-30
JP4639388B2 JP4639388B2 (ja) 2011-02-23

Family

ID=36163845

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004268702A Expired - Fee Related JP4639388B2 (ja) 2004-09-15 2004-09-15 文書データベースにおける重要語抽出方法、重要語抽出装置、コンピュータプログラム、プログラム格納媒体

Country Status (1)

Country Link
JP (1) JP4639388B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007316841A (ja) * 2006-05-24 2007-12-06 Fuji Xerox Co Ltd 会議支援システム、電子会議支援装置、及び会議支援プログラム
JP2009086883A (ja) * 2007-09-28 2009-04-23 Sanyo Electric Co Ltd 電子カルテシステムおよび検索システム
JP2010160534A (ja) * 2009-01-06 2010-07-22 Yahoo Japan Corp 地域特性辞書生成方法及び装置
JP2013033488A (ja) * 2012-09-21 2013-02-14 Panasonic Healthcare Co Ltd 検索システム
JP2015026345A (ja) * 2013-07-29 2015-02-05 Necパーソナルコンピュータ株式会社 検索装置、検索システムおよびプログラム
CN113420550A (zh) * 2021-06-30 2021-09-21 中国农业银行股份有限公司 提取关键词的方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11120183A (ja) * 1997-10-08 1999-04-30 Ntt Data Corp キーワード抽出方法及び装置
JPH11143892A (ja) * 1997-11-07 1999-05-28 Fujitsu Ltd キーワード重み生成装置及び方法並びにプログラム記憶媒体
JPH11328206A (ja) * 1998-05-18 1999-11-30 Ricoh Co Ltd キーワード抽出装置および方法ならびに記憶媒体
JP2000082068A (ja) * 1998-09-07 2000-03-21 Hitachi Ltd 文書検索システム
JP2003242176A (ja) * 2001-12-13 2003-08-29 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11120183A (ja) * 1997-10-08 1999-04-30 Ntt Data Corp キーワード抽出方法及び装置
JPH11143892A (ja) * 1997-11-07 1999-05-28 Fujitsu Ltd キーワード重み生成装置及び方法並びにプログラム記憶媒体
JPH11328206A (ja) * 1998-05-18 1999-11-30 Ricoh Co Ltd キーワード抽出装置および方法ならびに記憶媒体
JP2000082068A (ja) * 1998-09-07 2000-03-21 Hitachi Ltd 文書検索システム
JP2003242176A (ja) * 2001-12-13 2003-08-29 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007316841A (ja) * 2006-05-24 2007-12-06 Fuji Xerox Co Ltd 会議支援システム、電子会議支援装置、及び会議支援プログラム
JP2009086883A (ja) * 2007-09-28 2009-04-23 Sanyo Electric Co Ltd 電子カルテシステムおよび検索システム
JP2010160534A (ja) * 2009-01-06 2010-07-22 Yahoo Japan Corp 地域特性辞書生成方法及び装置
JP2013033488A (ja) * 2012-09-21 2013-02-14 Panasonic Healthcare Co Ltd 検索システム
JP2015026345A (ja) * 2013-07-29 2015-02-05 Necパーソナルコンピュータ株式会社 検索装置、検索システムおよびプログラム
CN113420550A (zh) * 2021-06-30 2021-09-21 中国农业银行股份有限公司 提取关键词的方法及装置
CN113420550B (zh) * 2021-06-30 2024-03-01 中国农业银行股份有限公司 提取关键词的方法及装置

Also Published As

Publication number Publication date
JP4639388B2 (ja) 2011-02-23

Similar Documents

Publication Publication Date Title
US8548996B2 (en) Ranking content items related to an event
Hersh et al. TREC genomics special issue overview
US8046363B2 (en) System and method for clustering documents
JP5551187B2 (ja) 文献分析システム
JP6101563B2 (ja) 情報構造化システム
WO2006115260A1 (ja) 情報解析報告書自動作成装置、情報解析報告書自動作成プログラムおよび情報解析報告書自動作成方法
US20060179051A1 (en) Methods and apparatus for steering the analyses of collections of documents
KR101067846B1 (ko) 특허 평가 시스템 및 그 방법, 이를 구현하기 위한 프로그램을 기록한 디지털 처리장치가 판독 가능한 기록매체
JP3820878B2 (ja) 情報検索装置,スコア決定装置,情報検索方法,スコア決定方法及びプログラム記録媒体
JP2008181188A (ja) 健康関連情報提供システム
Liu et al. Towards computation of novel ideas from corpora of scientific text
Siebert et al. Extending a research-paper recommendation system with scientometric measures
JP4639388B2 (ja) 文書データベースにおける重要語抽出方法、重要語抽出装置、コンピュータプログラム、プログラム格納媒体
JP5324677B2 (ja) 類似文書検索支援装置及び類似文書検索支援プログラム
JP2012093966A (ja) 文書分析装置およびプログラム
JP2002269106A (ja) 書籍紹介装置
US20130268833A1 (en) Apparatus and method for visualizing hyperlinks using color attribute values
JP4202287B2 (ja) 注目する情報について複数のタームを用いて記述されてなる文章テキストからなる情報オブジェクトをコンピュータで可視的に処理するためのシステム及びそのためのコンピュータソフトウエア
CN112184021A (zh) 一种基于相似支持集的答案质量评估方法
JP4525433B2 (ja) 文書集約装置及びプログラム
JP2006221478A (ja) 文書検索装置及びマクロアプローチによるポートフォリオ分析装置
Rosnan et al. Performance evaluation of inverted files, B-Tree and B+ Tree indexing algorithm on Malay text
Amalia et al. The identification of negative content in websites by using machine learning approaches
Cagliero et al. Identifying Collaborations among Researchers: a pattern-based approach.
KR101078945B1 (ko) 문서 분석 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100223

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100420

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100525

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100621

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20100902

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101102

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101111

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131210

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees