JP5063682B2 - 文書データベースにおける文書の領域識別のための方法 - Google Patents

文書データベースにおける文書の領域識別のための方法 Download PDF

Info

Publication number
JP5063682B2
JP5063682B2 JP2009509727A JP2009509727A JP5063682B2 JP 5063682 B2 JP5063682 B2 JP 5063682B2 JP 2009509727 A JP2009509727 A JP 2009509727A JP 2009509727 A JP2009509727 A JP 2009509727A JP 5063682 B2 JP5063682 B2 JP 5063682B2
Authority
JP
Japan
Prior art keywords
vocabulary
documents
words
word
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009509727A
Other languages
English (en)
Other versions
JP2009536401A5 (ja
JP2009536401A (ja
Inventor
エム ネッパー,マーガレット
リー フォックス,ケヴィン
フリーダー,オファー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harris Corp
Original Assignee
Harris Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harris Corp filed Critical Harris Corp
Publication of JP2009536401A publication Critical patent/JP2009536401A/ja
Publication of JP2009536401A5 publication Critical patent/JP2009536401A5/ja
Application granted granted Critical
Publication of JP5063682B2 publication Critical patent/JP5063682B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/06Arrangements for sorting, selecting, merging, or comparing data on individual record carriers
    • G06F7/10Selecting, i.e. obtaining data of one kind from those record carriers which are identifiable by data of a second kind from a mass of ordered or randomly- distributed record carriers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本願発明は、情報取得の分野に関する。より詳細には、本願発明は、文書データベースにおいて文書を範疇分けする方法に関する。
情報取得システム及び関連する方法は、利用者の検索問い合わせに応えて、情報を検索して取得する。どんな問い合わせでも、結果として大量のデータを取得してしまう可能性がある。取得したデータが含みうるのは、構造化及び非構造化データ、様式の無いテキスト、タグ付きデータ、メタデータ、音声ファイル、動画像ファイルなど多様である。これらは例にすぎない。問題を複雑にするのは、情報取得システムが検索すべき情報の分量は、毎年より大きくなっていることである。米国カリフォルニア大学バークリー校の調査によれば、1999年と2002年の間で、新しい情報が生成される量は2倍にも近づいたと結論付けている。
情報取得システムが問い合わせに応えて検索を行うと、利用者はその結果に圧倒されるかもしれない。例えば、普通の検索でも、何百、何千という項目を返してくる。取得した情報には、適切なものも不適切なものも含まれる。そこで利用者は、不適切な情報から適切な情報を選り分けないといけない。これは大仕事である。
この問題に対する1つの解決方法は、分類体系を作ることである。分類体系とは、広い話題を数多くの既定の範疇に分ける、整理された分類の枠組みのことである。ここで範疇を下位の範疇に分けることもできる。これにより、利用者は、利用できるデータの中を見ながら進み、適切な情報を見つけることができる。また同時に、検索すべき文書を限定することもできる。しかし、分類体系を作り、正しい分類で文書を識別するには、たいへん時間がかかる。さらに、分類体系は、新しい情報が出てくるたびに、それを範疇分けするという、終わりの無い保守を必要とする。特許文献1は、多重継承型の符号付けを含む分類体系を開示している。この開示は、複数の上位符号を、同一位又は下位の符号に適用して用いることを含む。多重継承型の符号付けが意味するのは、例えば、あるデータに対して、下位の符号を1つ入力するだけで、上位の多重継承元の複数の符号も自動的に適用されるということである。
先の問題に対する別の解決方法は、利用者を助けるために、検索結果をまとめる情報取得システムを用いることである。例えば、米国ペンシルベニア州ピッツバーグのVivisimo社製のVivisimo Clustering Engine(商標)は、自動的に検索結果を組織化して、意味のある階層にその場で保存してくれる。情報を取得する度に、情報を範疇にまとめる。範疇は、その検索結果の情報に含まれる語や句から、知的に選ばれる。特徴的なのは、Vivisimo Clustering Engine(商標)は、それぞれの検索結果について、返ってきた表題及び要約のみを用いるということである。文書と文書の間の類似度は、この素材(即ち、検索結果である、読める文章のこと。文書の全体ではない。)のみに基づき、他は考慮しない。次に文書を、文章の類似度に基づいてまとめる。それに加えて、この素材の類似度を、人間の知識によって補強する。即ち、まとめられた文書を利用者が調べるときに、何を見ることを望んでいるかという知識である。この結果として、範疇は、そこに含まれる内容と同じく、最新で新鮮なものであり続けることになる。
検索結果を視覚的に操作する方法が、特許文献2及び特許文献3に開示されている。特許文献2及び特許文献3の内容を参照により本願に援用する。発明者であるFoxらが開示しているのは、情報取得及び視覚化システムである。このシステムは、複数の検索機関を用いて、文書データベースから、利用者が入力した問い合わせに基づき、文書を取得する。各検索機関は、共通の数学的な表記法で、取得した各文書を記述する。次に、取得した文書を組み合わせて順位付ける。それぞれの文書についての数学的な表記を、表示画面に写像する。表示される情報は、利用者が入力した問い合わせからの検索語の3次元表示を含む。この情報取得及び視覚化システムにおける、3次元の視覚化の能力は、情報の数学的な表記に基づいている。この視覚化により、利用者は、検索結果を直感的に理解できる。適切度の評価結果を利用者がシステムに返したり、問い合わせを詳細化したりする技法により、システムをよりよく利用できる。これにより、より高い精度の情報取得を行うことができる。
検索機関と結果の視覚化技法は、継続的に開発が進められている。それにもかかわらず、文書データベースにおいて、似た文書を素早く効率的に一緒に集団化したいという要求には、根強いものがある。これにより、検索結果を利用者に意味のあるやり方で示すためである。
Cookeらに付与された米国特許番号第6,938,046号 Foxらに付与された米国特許番号第6,574,632号 Foxらに付与された米国特許番号第6,701,318号
前述の背景を鑑みるに、従って、本願発明の1つの目的は、文書データベースにおいて利用者が文書を範疇分けすることを助けることである。
本願発明による、この目的及び他の目的、特徴、並びに利点は、プロセッサ及び該プロセッサに実行可能なように接続されたディスプレイを有する、計算機により実装されるシステムを用いて文書データベースにおいて複数の文書を処理するための方法によって提供される。この方法は、複数の文書の各々についての語彙に含まれる語(以下「語彙語」という。)を決定すること、及び、複数の文書における語彙語の出現に基づいて、各語彙語について、それぞれの適切度を決定することを、事前計算の必要なく実行するために前記プロセッサを動作させる段階を含む。この方法は、語彙語と語彙語のそれぞれの適切度とに基づいて、複数の文書の間の類を決定することを、事前計算の必要なく実行するために前記プロセッサを動作させる段階を更に含む。決定した類に基づいて、前記語彙語の前記複数の上位セット(superset)について複数の領域識別を決定する。
複数の文書の間の類否を決定することは、語彙語の複数の上位セットを定義するために、語彙語のそれぞれの適切度に基づいて、語彙語の部分を選択することを含んでもよい。ここで語彙語の複数の上位セットは、複数の文書の間の類似性を示すために用いられる
また、この方法は、決定された語彙語の複数の上位セット表示させるために前記ディスプレイを動作させる段階であって、前記複数の文書の中の前記語彙語の出現に基づいた、適切及び不適切なものとしての前記語彙語の数値による表示を含み、前記語彙語の前記複数の上位セットは、前記語彙語の数値による表示に基づいて、ユーザ又は前記プロセッサにより、異なる領域識別へとグループ分けされることができる、段階を含む。
この方法は、全体的な領域識別を、下位の領域識別に分割することを更に含んでもよい。この場合、下位の領域識別の各々に関連する語彙語を選択することに基づいてもよい。その結果、下位の領域識別の各々に関連する語彙語の適切度は、下位の領域識別の各々について、類似する文書が共に集団化するように変化することになる。
語彙語の適切度の各々を決定することは、複数の文書において各語彙語が何回用いられているかを数えること、及び、複数の文書のうちの何個が、語彙語の各々を用いているかを数えることを含んでもよい。この方法は、この数えた結果に基づいて、語彙語の各々について、文書あたりの語の比率を生成することを含んでもよい。また、文書あたりの語の比率がある閾値より低い場合には、複数の文書の間の類似度を決定するときに、その語の適切度を用いない。代わりに、この方法は、少なくとも1つの語彙語について、それぞれの適切度を設定することを、利用者に許可することを含んでもよい。各語彙語についてのそれぞれの適切度は、適切度の評価結果因子に更に基づいてもよい。適切度の評価結果因子は、例えば、利用者の検索の問い合わせ、又は、算法に基づいてもよい。
文書と文書の間の類似度を、語彙語における語の並びを識別することに基づいて決定してもよい。語の並びは、例えば、n語から成る句(n>=2)を含んでもよい。言い換えれば、類似する文書についての領域識別を、計算機が、重なり合う語彙語に基づいて決定してもよい。
加えて、この方法は、既定の領域識別に対応する語彙語を決定することを更に含んでもよい。類似度を、複数の文書についての語彙語同士の間で決定してもよい。ここで語彙語は既定の領域識別に対応しているものである。この既定の領域識別を、従って、決定した類似度に基づいて、1つ以上の文書に割り当ててもよい。
文書は、ウェブサイトの文書、電子メールの通信、及び、文章以外の文書であって関連するメタデータを有するものを含んでもよい。文章以外の文書は、動画像ファイル、静止画像ファイル、及び音声ファイルを含んでもよい。
本発明の別の観点は、計算機可読媒体に向けられている。この媒体は、計算機が実行可能な命令を有する。この命令により、計算機に、文書データベースにおいて文書を前述のように処理させる。
本発明の更に別の観点は、プロセッサ及び該プロセッサに実行可能なように接続されたディスプレイを有する、計算機により実装されるシステムに向けられている。このシステムは、文書データベースにおいて文書を前述のように処理するためのものである。
本願発明を、以下に、添付の図面を参照してより詳しく記述する。ここで本願発明の好適な実施例を示す。本発明を、しかしながら、多くの異なる形態で実施してもよい。本発明を、本願に記載の実施例に限定されるものとして解釈してはならない。そうではなく、これらの実施例を提供しているのは、本開示を徹底かつ完全なものにするためであり、本開示が本発明の範囲を当業者に完全に伝えるためである。図面を通して、同様の参照番号は同様の要素を参照する。プライム符号を用いて、異なる実施例における類似の要素を示す。
図1をまず参照する。本願発明は、文書データベースにおいて文書を処理するための、計算機が実装する方法に向けられている。この方法は、区画20から始まる。この方法は、情報取得システムを用いて、かつ、利用者の検索問い合わせに基づき、取得した文書の最初の順位付けを生成することを含む。これが区画22である。次に、取得した文書の少なくとも部分における語彙語の出現に基づいて、複数の語彙語を生成する。これが区画24である。次に、語彙語の出現及び利用者の検索問い合わせに基づき、語彙語のそれぞれの適切度を生成する。これが区画26である。語彙語の適切度に基づき、取得した文書の再度の順位付けを生成する。これが区画28である。この方法は、再度の順位付けをした後に、取得した文書を表示することを更に含む。これが区画30である。この方法は、区画32で終わる。
文書データベースにおいて文書を処理するための、計算機が実装するこの方法により、有利には、利用者は、情報取得システムを用いて文書を取得した後に、適切な文書を選り分け、不適切な文書を捨てることができる。ここで利用者とは、人間の利用者でもよいし、計算機が実装する利用者でもよい。利用者が、計算機による実装である場合には、適切な文書を選り分け、不適切な文書を捨てることは、自律的に行われる。情報取得システムは、利用者からの検索の問い合わせを受け取るための、入力インターフェースを含む。情報取得システムはまた、文書データベースから文書を選択的に取得するための、検索機関を含む。
検索機関は、いかなる特定の検索機関にも限らない。検索機関の例は、イリノイ工科大学(IIT)の情報取得研究所で開発した、先進的情報取得機関(Advanced Information Retrieval Engine。以下「AIRE」という。)である。AIREは可搬な情報取得機関であり、Java(登録商標)で書いてある。AIREは、新しい情報取得技術を探求するための基礎を提供している。AIREは、文章取得会議(Text REtrieval Conference。以下「TREC」という。)でいつも用いられている。TRECとは、毎年開催される一連の研究会である。TRECは、大量の文章から情報を取得する応用の研究を促進することを目的としている。これは、大量の文章の集積、一様な得点付けの手続き、及び、結果を比較することに興味のある人々や組織のための場を提供することによる。
TRECでは、既知の結果を有するデータの集合を用いる。従って、これにより、本願発明の評価を容易に行うことができる。TRECによる、検索の題目の1例は「PIRACY」(海賊行為)という語である。この語を用いて本願発明を例示し評価する。AIREは、利用者からの「PIRACY」という検索の問い合わせに基づいて、取得した文書の最初の順位付けを提供する。最初の順位付けにおける、適切な文書の数及び/又は順序が、基準線即ち参照点となる。この基準線又は参照点を、再度の順位付けをした文書における、適切な文書の数と比べる。
以下に更に詳述する通り、語及び文書の適切度の選択肢は、様々なものが利用者に与えられている。個別に又は組み合わせて、これらの選択肢は、利用者からの検索の問い合わせの結果を取得する精度を上げる。本願発明の実装は、利用者からの入力を必要とする算法の形を取る。この入力は、AIREに付属するGUIを経由して提供される。
図2を参照する。図2は、AIREの最初の問い合わせ画面である。これにより、利用者を助けて、取得した文書を、再度順位付けするための、利用者による適切な評価結果を提供することもできる。「PIRACY」という、利用者の検索問い合わせを入力しているのが、区画40である。この利用者は、区画42で、新しい語彙を立ち上げるか(START A NEW VOCABULARY)、又は、既存の語彙を用いるか(USE EXISTING VOCABULARY)かの選択肢がある。この場合では、新しい語彙を立ち上げる(START A NEW VOCABULARY)ことを選んでいる。
興味のある話題の記述が提供されているのが、区画44である。ここでは興味は、「古き良き流儀の海賊行為、即ち船舶に乗り込み乗っ取ることについて、現代ではどのような事例があるか?」(WHAT MODERN INSTANCES HAVE THERE BEEN OF GOOD OLD-FASHIONED PIRACY, THE BOARDING OR TAKING CONTROL OF BOATS?)に向けられている。この記述について、より詳しい情報を提供している説明があるのが、区画46である。この場合、この説明は次のように述べている。「水上のいかなる対象についても、海賊行為について議論している文書は、適切である。船舶又はその積み荷の、国家権力による合法的な拿捕について議論している文書は、適切ではない。操業中の漁船同士が衝突したことについて議論している文書は、適切ではない。ただし、一方の漁船に乗り込まれた場合を除く。」(DOCUMENTS DISCUSSING PIRACY ON ANY BODY OF WATER ARE RELEVANT, DOCUMENTS DISCUSSING THE LEGAL TAKING OF SHIPS OR THEIR CONTENTS BY A NATIONAL AUTHORITY ARE NON-RELEVANT, AND CLASHES BETWEEN FISHING BOATS OVER FISHING ARE NOT RELEVANT UNLESS ONE VESSEL IS BOARDED.)区画44の記述及び区画46の説明に含まれる語は、利用者の検索問い合わせの部分としては、含まれていない。しかし、利用者には、区画44の記述及び区画46の説明に含まれる語を、利用者の検索問い合わせの部分にする選択肢もある。そうするには、これらの区画を、区画40と共に、選べばよい。
図3aを参照する。利用者が図2の区画42で新しい語彙を立ち上げることを選んだ場合、新しい語彙の画面が現れる。これを図3aに示す。ここで、利用者は新しい語彙の名前を区画50に入力する。図示の例の場合は「PIRACY」である。この場合、この新しい語彙の題名も、利用者の検索問い合わせとなる。
図3bを参照する。代わりに、利用者が、図2の区画42で既存の語彙を用いることを選んでいた場合、既存の語彙の画面が現れる。これを図3bに示す。興味のある話題の1つが、2つの異なる語彙に重なってもよい。これにより、好適な語彙を選ぶことが楽になる。例の図に示す通り、ここでの海賊行為は、海事のものを指し、映画や音楽を不法に複写するという意味ではない。従って、既存の語彙である、例えば「MARITIME」(海事)を区画52で選んでもよい。「MARITIME」語彙は、適切な文書の中に見つかると思われる適切な語を既に含んでいる。実際、既存の語彙の中の語彙語は、好適な文書の中の語から採ったものでもよい。好適な文書とは、利用者の検索要求に適切なものであると、既に判っている文書である。好適な文書は、取得した文書の部分であってもよいし、そうでなくてもよい。
図2に戻る。取得した文書の最初の順位付けの結果、「PIRACY」について、非常に多い数の文書が返ってきた。この文書は、適切な文書も不適切な文書も含んでいる。新しい語彙を生成する前に、利用者は、上位のN個の順位の文書を、図2の区画48で選ぶ。図示する例では、再度の順位付けを行うことになる、上位のN個の順位の文書の数(N)は、100である。
新しい語彙を作るために、算法は、取得した文書の上位の100個の中で用いられている語の出現回数を数える。語は、語幹に正規化して数えてもよい。しかし絶対にそうする必要も無い。領域の語彙を、適切な文書の一覧を提供することによって作ることもできる。各文書において各語について集めた情報とは、その文書においてその語が用いられている回数、及び、上位の100文書に順位づけられた文書のうち、その語を用いている文書の数である。
次に、文書の統計情報を計算する。これにより、上位のN個に順位づけられた文書にとって、それぞれの語がどのくらい有用であるかを決定する。無用な語は、その文書についての情報を計算するためには用いない。無用な語とは、特段の意味を与えない語である。例えば、英語の「am」、「are」、「we」といった、いわゆる停止語である。さらに、無用な語とは、ある領域において、特段の意味を与えずに、停止語のように扱われる語である。例えば、計算機科学の文献において、「計算機」という語は、自明であり特段の意味を与えない。ある語が無用な語だと決定するために用いる統計規則は次を含んでもよいが、これらに限定されない:
a) 語数/文書数 (即ち、文書あたりの語の比率) <= 1 (語が有用な語であるためには、1つの文書に1回より多く出現する必要がある。);
b) 語数/文書数 > 20 (意味がある上限の閾値を定める。単一の閾値ではなく、閾値の範囲を用いてもよい。);及び
c) 文書数 = 1 (有用な語であるためには、その語が出現する文書は1つより多い必要がある。)
このa)〜c)の基準に基づけば、語彙は従って、有用な語の各々について、次を含むことになる:単一の文書のみにおいて、その語を用いた回数(従来の語頻度);その語を用いた文書の数(従来の文書頻度);及び、語数/文書数(文書あたりの語の比率)。
上位の100個に順位づけられた文書と、利用者の検索問い合わせ(即ち「PIRACY」)とによって提供された語彙語の一覧を編集し終えたら、語彙語の適切度を設定する。ある語彙語は、別の語彙語よりも、適切であるかもしれないし、不適切であるかもしれない。語の適切度は、話題によって設定する。この場合は、話題とは「MARITIME」(海事)に関する「PIRACY」(海賊行為)である。適切な語とは、有用な語であり、話題「PIRACY」を記述する語である。不適切な語とは、この話題を記述しない語である。不適切な語は不適切な文書であることの指標である。
利用者が入力した問い合わせの語については、適切度の値を1に設定する。語彙語の適切度の値は、その語が適切であった回数及びその語が不適切であった回数に基づく。語の適切度の値を次のように書くことができる:適切度の値 = (適切であった回数 − 不適切であった回数) / (適切であった回数 + 不適切であった回数)。語を適切であると判断できるのは、例えば、適切度の値 > 0.5の場合とする。語を不適切であると判断できるのは、例えば、適切度の値 < ―0.5の場合とする。この0.5及びー0.5という値は、例の値であり、他の値にしてもよい。これは当業者が容易に思いつくことである。加えて、単一の閾値ではなく、閾値の範囲を用いてもよい。
文書の統計値を計算するためには、上位のN個に位置づけられた文書の中の語に基づいて、情報を計算する。1つの文書は語の集合を含む。1つの語は1つの文書に1回以上現れることができる。各文書は本質的に非構造化文章である。語は、新しい語か、有用な語か、又は、無用な語として、特徴づけることができる。新しい語とは、その語彙にそれまで無かった語である。訓練の期間では、新しい空の語彙から始めることになるので、全ての語はその語彙において新しい語である。無用な語は、文書の計算においては用いない。前述の通り、無用な語は特段の意味をもたらさない。無用な語とは、例えば、英語の「am」、「are」、「we」といった、いわゆる停止語である。さらに、無用な語とは、ある領域において、特段の意味を与えずに、停止語のように扱われる語である。例えば、計算機科学の文献において、「計算機」という語は、自明であり特段の意味を与えない。有用な語とは、文書の統計に用いられることになる語である。
有用な語を、更に、適切な語、不適切な語、中立な語に区分できる。これらの区分の名称が示す通り、適切な語とは、その話題に重要な語である。不適切な語とは、その話題に役立たない語であり、普通は、悪い文書であることの指標である。中立な語とは、その語のその話題に関する状態が、まだ決定されていない語である。
取得した文書の、再度の順位付けを計算するために、算法の手法を用いて、文書に点数を付ける。この算法の手法では、前述の適切度の情報を用いる。AIREによる、最初の文書の順位付けの出力は、1番〜100番に順位付けられた、文書の一覧である。ここで100個という数は、利用者が選んだものである。順番が若いほど、点数が高いことを示す。逆に、順番の数が大きいほど、点数が高くてもよい。
3つの異なる適切度の値を用いて、文書を再度順位付けする。第1の適切度の値は、次の式に基づく:
一意な適切な語の数 − 一意な不適切な語の数 −> UniqueRel (1)
この式(1)の意味は次の通りである。まず、文書中の一意な適切な語の数を数える。次に、文書中の一意な不適切な語の数を数える。不適切な語の数の総計を、適切な語の数の総計から引く。この値を、UniqueRelと呼ぶ。所見としては、この計算がより有用になるのは、個別の語のみを識別している場合である。即ち、諸文書の全体を、適切/不適切として、識別していない場合である。
第2の適切度の値は、次の式に基づく:
語が適切な回数 − 語が不適切な回数 −> RelNOFreq (2)
この式(2)では、文書における、一意な適切な語の重要度及び一意な不適切な語の重要度を決定する。即ち、語彙におけるその語が不適切である回数の合計を、語彙におけるその語が適切である回数の合計から引く。この値を、RelNOFreqと呼ぶ。語彙でより多く現れる語が、ただ2〜3回だけ現れる語よりも、高い重みを持つことになる。所見としては、この値は、(1)のUniqueRelの値と密に関係している。とりわけ、全ての値が正である場合はそうである。
第3の適切度の値は、次の式に基づく:
適切度の頻度の合計 − 不適切度の頻度の合計 −> RelFreq (3)
この式(3)では、文書における、一意な適切な語及び一意な不適切な語の、重要度、及び、それらの語の頻度を決定する。まず、語彙におけるその語が適切である回数の合計を、その語がその文書で用いられている回数と乗算する。この値を、適切度の頻度の合計と呼ぶ。次に、語彙におけるその語が不適切である回数の合計を、その語がその文書で用いられている回数と乗算する。この値を、不適切度の頻度の合計と呼ぶ。そして、不適切度の頻度の合計を、適切度の頻度の合計から引く。この値を、RelFreqと呼ぶ。語彙でより多く現れる語が、ただ2〜3回だけ現れる語よりも、高い重みを持つことになる。所見としては、この値がより有用であるのは、適切な文書/不適切な文書の例を十分に学習したシステムの場合である。
悪い文書を識別するには、2つの技法がある。1つめの技法は、特定の語を過度に用いていることに基づく。2つめの技法は、式(1)に定義したUniqueRelの値が低いことに基づく。特定の語を過度に用いていることについては、1つの語が1つの文書の中で例えば100回より多く現れる文書を、悪い文書であると識別する。また、少数の文書において極めて頻繁に用いられる語については、その語の有用度は0であると決定する。利用者は、語が何回1つの文書に現れれば、悪い値であると解釈されるかの、回数を設定する選択肢を持つ。
最初の順位付けである、取得した文書の上位のN個の順位付けを、最も高い適切度の値から、最も低い適切度の値への順で、(1)UniqueRel、(2)RelNOFreq、及び(3)RelFreqの値のそれぞれによって、再度の順位付けを行う。次に、再度の順位付けを行った各文書の、この3つの値について、平均を取る。これにより、取得した文書の、最終の再度の順位付けを得る。それぞれの文書の順位付けの各々において、悪い文書は、文書の一覧の一番下に送られる。2つの異なる技法を用いて、悪い文書を一番下に送ってもよい。1つめの技法は、飛ぶ順番の番号付けである。即ち、かけ離れて大きな値を悪い文書の順位付けに割り当てれば、その文書は一番下に沈むことになる。2つめの技法は、連続する順番の番号付けである。即ち、他の文書と連続する、より大きな順位付けの番号を、悪い文書に割り当てる。
文書について得たUniqueRelの値に関しては、次のような処理を行う。まず、UniqueRelの値が最も小さな文書を全て、悪い文書であると識別する。最も小さなUniqueRelの値を持つ文書の数と、2番目に最も小さなUniqueRelの値を持つ文書の数との合計の値が、例えば、全体の数の30%よりも小さければ、2番目に最も小さなUniqueRelの値を持つ文書もまた、悪い文書であるとして特徴づける。その次に最も小さなUniqueRelの値を持つ文書についても同じことを行って、悪い文書を蓄積し、悪い文書の合計数が全体の文書の数の30%を超えない範囲で、これを繰り返す。言い換えれば、UniqueRelの値が下位にある文書を悪い文書であるとした場合、悪い文書の割合が、全体の30%を超えないようにする。利用者は、この閾値を30%以外の値に設定する選択肢も有する。これは当業者が容易に思いつく通りである。
取得した文書の上位のN個に順位付けられたものを、再度順位付けするにあたっては、文書の出処に基づいて、文書に優先度を割り当てることもできる。例えば、National Scientific社(医療機器関連の優良企業)からの文書は、The National Enquirer(米国屈指のゴシップ新聞)からの文書よりも、大きな重みづけを有してもよい。
図4〜図7に示す、利用者の表示画面を参照して、データの管理について説明する。データを、2つの段階で扱う。1つめの段階は語彙であり、2つめの段階は話題である。語彙を用いて領域を定義する。語彙は、各語について、各文書においてその語が用いられた回数と、その語が現れる文書の数とを含む。1つの語彙を、複数の話題で用いることができる。例えば、既定の語彙のかたちで、複数の話題で用いる。しかし、同一の文書を用いて複数回の訓練を行うことは、好適には避ける。データを話題によって管理することに関しては、語及び文書の、適切度及び不適切度を用いる。同様に問い合わせの検索語も用いる。
データの管理の大部分は、利用者インターフェースを用いる。利用者は、いかなる文書でも見ることができ、その文書に関する語の情報も、見ることができる。利用者は、適切な文書及び不適切な文書を識別でき、訓練のために用いる語を識別できる。訓練とは即ち、語彙を鍛えることである。利用者は、将来のAIREの問い合わせのために、語を識別できる。利用者は、AIREの新しい問い合わせを行える。利用者は、システムに提供される情報に基づいて、現在のデータに対して、本願発明による順位付けの算法を再実行できる。
図4を参照する。「PIRACY」語彙を用いて取得した文書の、最初の順位付けを、図4に示す。列60は、文書の題名を、順位が高い方から低い方へと並べている。AIREの適切度を、列62に示す。取得した文書を「PIRACY」語彙を考慮に入れつつ再順位付けし終えた後に、この再順位付けを、AIREによる列62に示す最初の順位付けと、平均を取る。この2つの順位付けの組み合わせの結果を、列64に示す。例えば、列62で最も高く順位付けられた文書は、列64では、4番目に順位づけられている。
列60に並んでいる題名のどの1つでも選ぶと、その文書の語を表示する。各文書に対する語彙の適切度は、列66に表示される。各文書について、次のように印付けてもよい:適切である(列68);やや適切である(列70);又は、話題から外れている(列72)。加えて、各文書の総語数を列74に表示する。どの文書についても、付随する注釈を付けてもよい。付随する注釈を読むためには、列76のアイコンを選べばよい。
利用者が文書の全文を読みたければ、利用者は、読みたい文書の題名の左にある、列78のアイコンを選べばよい。各文書についての内容情報は、それぞれのファイルに納められている。このファイルを列80に示す。利用者を更に助けるために、文書が適切であると印付けられると(列68)、その適切な文書に関する行を強調表示する。ただし図4では強調表示は図示していない。
図5を参照する。図4で特定の文書の題名(列60)を選ぶと、その文書の中の語を、図5の列81に表示する。この表示の順序は、その文書の中で何回その語が用いられているかに基づく。この画面はまた、それぞれの語が適切度の観点でどのように設定されているかも示す。文書の中で各語彙語が用いられている回数を、列82に示す。その語を用いている文書の数を列84に示す。文書あたりの語の比率を列86に示す。最初に利用者が適切であると印付けた語彙語を、列88で数値1、列92で数値1.00と示している。語彙語が不適切であれば、列90に、数値―1を表示することになる。
区画を強調表示して、適切な語を示す。ただし図5では強調表示は図示していない。この画面では適切な語とされているが、実際は、「COPYRIGHT」(著作権)及び「SOFTWARE」(ソフトウェア)は、話題「PIRACY」(即ち、海上の海賊行為)には適切でないことに注意。この画面に留まりながら、利用者は、適切度及び有用/無用によって、語の並び替えを行うことができる。この並び替えは、次のように、その語に見合う特性を選ぶことによって行う:適切な語であれば、列100(R)を選ぶ;不適切な語であれば、列102(I)を選ぶ(図5では隠れているので図6を参照);中立な語であれば、列104(N)を選ぶ(図5では隠れているので図6を参照);及び、無用な語であれば、列106(U)を選ぶ。ある適切な語がすでに適切であると印付けられていれば、その語については特に行うべきことは無い。
図6を参照する。この表示画面では、いくつかの語彙語は、列102が選択されており、不適切な語であることが示されている。
図7を参照する。図5の画面及び図6の画面の代わりに、図7の画面を用いて、特定の文書の中の語を見ることもできる。この特定の画面では、利用者には、区画110’の中の選択肢もある。この選択肢は、この文書は適切である(RELEVANT)か、やや適切である(MILDLY RELEVANT)か、又は、話題から外れている(OFF TOPIC)かを選ぶ。利用者にはまた、区画112’の中の選択肢もある。この選択肢により、新しい語を語彙に追加する。
図5及び図6に戻る。利用者はまた、好みによって、複数の視点を選ぶ選択肢も持つ。例えば、見出し120を選ぶと、1つの文書の中の全ての語彙語を表示してもよい。見出し122を選ぶと、全ての語彙語をアルファベット順に表示してもよい。見出し124を選ぶと、適切であると印付けられた語彙語を表示してもよい。見出し126を選ぶと、不適切であると印付けられた語彙語を表示してもよい。見出し128を選ぶと、新しいと印付けられた語彙語を表示してもよい。見出し130を選ぶと、語彙語の統計情報を表示してもよい。
図7では、利用者には、選択した文書における、適切な語、不適切な語、中立な語、及び無用な語についての見出しを選ぶ選択肢がある。見出し140’を選ぶと、その文書における適切な語を表示してもよい。見出し142’を選ぶと、その文書における不適切な語を表示してもよい。見出し144’を選ぶと、その文書における中立な語を表示してもよい。見出し146’を選ぶと、その文書における無用な語を表示してもよい。
図4及び図8〜図11を参照する。本願発明による、文書データベースにおいて文書を処理するための方法を計算機で実装して、文書を順位付けした様々な結果を、AIREが提供する、基準の結果(即ち、取得した文書の最初の順位付け)と比べる。図4を参照すると、列60に題名を示している文書は、取得した文書の最初の順位付け(列62)で、1番〜20番になったものである。図8を参照すると、列60に題名を示している文書は、「PIRACY」語彙の順位付け(列66)で、1番〜20番になったものである。図4に示す基準の順位付けの結果の文書と、図8に示す最適な「PIRACY」語彙語により提供された順位付けの結果の文書との間の関係を、目で見て比べることができる。
図9を参照する。AIREによる順位付けと、「PIRACY」語彙による順位付けを結合して、新しい順位付けを得る。これが図9の列64に示す1番〜20番の順位付けである。対応する文書の題名を、列60に示す。
図10を参照する。前述のように新しい語彙を作るのではなく、既存の語彙を用いてもよい。例えば、既定の「MARITIME」語彙による結果を、AIREによる結果と結合した。この再度の順位付けによる結果が、図10の列64に示す、1番〜20番の順位付けである。対応する文書の題名を、列60に示す。
図11を参照する。更にまた別の比較として、列66に示すのは、「MARITIME」語彙のみによる、1番〜20番の順位付けである。対応する文書の題名を、列60に示す。同様に、図4に示すAIREによる基準の順位付けの結果の文書と、図11に示す最適な「MARITIME」語彙語により提供された順位付けの結果の文書との間の関係を、目で見て比べることができる。
図12を参照する。取得した文書を再度順位付けするための、前述の様々な方法の結果について、考察を行う。この考察は、順位づけられた又は再度順位づけられた文書の、上位の5、10、15、20及び30個の中に、適切な文書が何個あるかに基づく。図12の棒グラフで、横軸の1は、図4の列60及び列62に示す、基準となるAIREによる順位付けに対応する。上位の5個に順位づけられた文書のうち、適切な文書は1個であった。上位の10個に順位づけられた文書のうち、適切な文書は2個であった。上位の15個に順位づけられた文書のうち、適切な文書は4個であった。上位の20個に順位づけられた文書のうち、適切な文書は5個であった。上位の30個に順位づけられた文書のうち、適切な文書は6個であった。
図12の棒グラフで、横軸の2は、AIREによる順位付けを、図9の列60及び列64に示す、「PIRACY」語彙による順位付けと、結合した場合である。見て取れる通り、この再度の順位付けを行った結果、基準と比べて、適切な文書の数は減ってしまった。これに対して、基準と比べて、適切な文書の数が増えたのは、AIREによる順位付けを、不適切な語の識別を用いる「PIRACY」語彙による順位付けと、結合した場合である。この結果を棒グラフの横軸の3に示す。
棒グラフの横軸の4は、AIREによる順位付けを、図10の列60及び列64に示す、「MARITIME」語彙による順位付けと、結合した場合である。ここでは、再度の順位付けをした文書の中の適切な文書の数が、より増えている。
再度の順位付けをした文書の中の適切な文書の数が、更に増えているのは、図11の列60及び列66に示す、「MARITIME」語彙のみによる順位付けに基づく、横軸の5である。上位の5個に順位づけられた文書のうち、適切な文書は5個であった。上位の10個に順位づけられた文書のうち、適切な文書は10個であった。上位の15個に順位づけられた文書のうち、適切な文書は12個であった。上位の20個に順位づけられた文書のうち、適切な文書は12個であった。上位の30個に順位づけられた文書のうち、適切な文書は13個であった。
図12に最良に示している通り、本願発明により、有利には、利用者は、文書データベースから取得した文書を再度順位付けして、上位に再度位置付けられた文書のうち、より多くのものが、適切な文書であるようにできる。語彙を利用者の検索問い合わせに基づいて作るか、既存の語彙を選ぶかする。新しく作った語彙を分析することにより、個々の語の重要度を識別し、かつ、問題のある語も識別する。適切な語及び不適切な語を識別するのは、利用者の検索問い合わせ、適用できる算法、及び、利用者からの入力に基づく。加えて、語の適切度に基づいて、適切な文書及び不適切な文書を識別する。不適切な文書を、順位付けの最下位に落とす。
図13を参照する。本願による方法を、計算機に基づくシステム150によって実装してもよい。これにより、文書データベースの文書を処理する。図13に示す、計算機に基づくシステム150は、第1の区画152、第2の区画154、第3の区画156、及び第4の区画158を含む。第1の区画152は、情報取得システムを用いて、かつ、利用者の検索問い合わせに基づき、取得した文書の最初の順位付けを生成する。第2の区画154は、取得した文書の少なくとも部分における語彙語の出現に基づき、複数の語彙語を生成する。第3の区画156は、語彙語の出現及び利用者の検索問い合わせに基づき、語彙語のそれぞれの適切度を生成する。第4の区画158は、語彙語の適切度に基づき、取得した文書の再度の順位付けを生成する。表示器160が計算機に基づくシステム150に接続する。これにより、再度の順位付けを行った文書を表示する。
本願発明の別の観点は、利用者が、文書データベースにおいて文書を範疇分けすることを助けるための方法に向けられている。この文書とは、情報取得システムが動作して、利用者の検索問い合わせに応答した結果でもよい。代わりに、この文書は、選択したウェブサイトの文書を観察することに応じて集めた文書でもよく、会話(即ち音声ファイル)、電子メールの通信、及びニューズグループのやり取り等を観察することに応じて集めた文書でもよい。これらは例である。どのように文書が利用者にもたらされたかには関係なく、これらの文書が文書データベースを形成する。
図14を参照する。ここでは、文書データベースにおける複数の文書について、領域識別を決定するための方法について説明する。この方法は、区画200から始まる。まず、各文書について、語彙語を決定する。これが区画202である。
各文書について、語彙語を決定するには、いくつかの方法がありうる。1つのやり方は、単純に、各文書の中の全ての語を用いることである。別のやり方は、特定の意味の語を選ぶ単語抽出器を用いることである。
更にまた別のやり方は、語彙をその場で作ることである。例えば、M個の文書の中から、N個の文書を選ぶとする。当然、M >= Nである。このN個の文書が、文書データベースを形成する。代わりに、語彙を特定の文書から作る。例えば、利用者が、適切な文書の一覧を指定する。適切な文書のこの一覧を、前述の計算機が実装する方法に与える。これにより、文書の処理を行って、この文書の一覧から、語彙を作る。利用者が適切な文書を指定する度に、その文書の中の語が語彙に加えられる。比べると、特定の文書から語彙を作るほうが、語彙をその場で作るよりも、よりよい文書の順位付けにつながる。
各文書について語彙語を決定したら、複数の文書において、各語彙語の出現に基づき、各語彙語のそれぞれについての適切度を決定する。これが区画204である。
前述の通り、語彙語のそれぞれの適切度を、統計に基づいて決めてもよい。例えば、語彙語の適切度は、複数の文書において、各語彙語が何回使われているかに基づいてもよい。また、語彙語の適切度は、複数の文書のうちの何個が、語彙語の各々を用いているかに基づいてもよい。別の統計は、語を数えた結果に基づいて、語彙語の各々について、文書あたりの語の比率を生成することに基づく。また、文書あたりの語の比率がある閾値より低い場合には、複数の文書の間の類似度を決定するときに、その語の適切度を用いない。
特定の語彙語の適切度を判断するためのまた別のやり方は、利用者が決めてもよい。代わりに、適切度の評価結果因子を決めてもよい。そして、各語彙語の適切度のそれぞれは、この適切度の評価結果因子に更に基づいてもよい。適切度の評価結果因子は、例えば、利用者の検索の問い合わせに基づいてもよく、又は、算法に基づいてもよい。
区画206で、複数の文書の間の類似度を、語彙語と語彙語のそれぞれの適切度とに基づいて、決定する。1つのやり方では、このことは、語彙語の上位セットを定義するために、語彙語のそれぞれの適切度に基づいて、語彙語の少なくとも部分を選択することを含む。ここで語彙語の上位セットは、複数の文書の間の類似度をよりよく示す。言い換えれば、文書データベースにおける文書からの、適切度の順序で上位のX個の語を選んで、語彙語の上位セットを定義する。ここで例えば、Xを100とする。
類似度は、上位の100語の中で、適切度が高い単語を識別することに基づいてもよい。加えて、類似度は、上位の100個の語彙語における語の並びに基づいてもよい。語の並びは、n個の単語の句(n>=2)を含む。例えば、「New York City」(ニュー・ヨーク市)という句は、3個の単語の句である。
類似する文書について、少なくとも1つの領域識別を決定する。これが区画208である。領域識別を決定するために、数多くの方法を用いることができる。1つのやり方は、領域識別を利用者に決定させることである。別のやり方は、計算機が、重なり合う語彙語に基づいて、領域識別を決定することである。
領域識別を決定するための、また別のやり方は、既定の領域識別に対応する語彙語を決定し、次に、文書についての語彙語(例えば上位の100語)と、この既定の領域識別に対応する語彙語との間の類似度を決定することである。既定の領域識別は、既定の領域識別に対応する語彙語に類似している語彙語を持つ文書に割り当てられる。既定の領域識別に対応する語彙語は、例えば、利用者が定義するものでもよく、又は、既定のものでもよい。この方法は区画210で終わる。
図15及び図16を参照する。例示の目的のために、「CANCER」に向けられた利用者の問い合わせに基づいて、文書データベースの例を作ってもよい。集めた文書は、様々な「CANCER」についての問い合わせの結果によるものである。文書を集め終わったら、集めた文書の各々からの語彙語を決定する。また、各語彙語の適切度のそれぞれを、文書の集積における語彙語の出現に基づいて、決定する。語彙語と、語彙語の各々の適切度とを、共に決定し終わったら、その上位の語を用いて、「CANCER」に向けられた語彙語の上位セットを定義する。この様子を図15の画面及び図16の画面に示す。
「CANCER」を記述する語を、例えば、語彙の上位100語に限ってもよい。言い換えれば、選択した文書からのみ構成される「CANCER」語彙を定義する。各語彙語の重要性(適切度等)も、図15の画面及び図16の画面に示している。
図15の画面及び図16の画面は、上位の語(181の列)が、適切度の観点でどのように設定されているかを示す。この文書において各語彙語181が使われている回数を、列182に示す。その語を使っている文書の数を、列184に示す。文書あたりの語の比率を列186に示す。
ところで、ここで大切なのは、語181の適切度を決定することである。適切である度合いを示しているのが列188である。不適切である度合いを示しているのが列190である。列192では、総合的な適切度を、数値―1から1までの範囲で決定している。適切度が利用者によく判るために、閾値を決めてもよい。例えば、適切度が0.5以上である語を、強調表示してもよい。ただしこれは図示していない。勿論、利用者には、この閾値を変える選択肢があり、必要に応じて「CANCER」語彙に語を追加したり、「CANCER」語彙から語を削除したりする選択肢もある。適切度の値が0以下である語を、「CANCER」語彙から削除してもよい。
図15の画面及び図16の画面に部分的に示している「CANCER」語彙語に基づいて、「CANCER」に関する文書を、異なる範疇、即ち、異なる領域識別に、分離してもよく、又は、集団化してもよい。
図17〜図19に示す画面を参照する。3つの範疇を作った。即ち、図17は、「SKIN CANCER」の範疇を示す。図18は、「BRAIN CANCER」の範疇を示す。図19は、「BREAST CANCER」の範疇を示す。この3つの範疇の各々は、「CANCER」語彙を用いている。例示している語、及び、従ってこれらの語に関連する文書は、これらの範疇の各々についての「CANCER」語彙の問い合わせのそれぞれに基づいている。それぞれの問い合わせの結果として、適切である度合いを示している列188、不適切である度合いを示している列190、及び総合的な適切度を示している列192の値は、それぞれの範疇で異なっている。図17〜図19に示す画面における語彙語に基づいて、これらの語に関連する文書には、それぞれの領域識別が与えられる。
前述の通り、文書は、ウェブサイトの文書、電子メールの通信、及び、文章以外の文書であって関連するメタデータを有するものを含んでもよい。文章以外の文書は、動画像ファイル、静止画像ファイル、及び音声ファイルを含んでもよい。例えば、選んだ期間に渡って集めた新聞記事を範疇分けしてもよい。しかし、記事の多くは画像だけかもしれない。そのような場合は、画像に付随するメタデータを用いて、領域識別のために必要な語彙語を集めてもよい。同様に、動画に付随するメタデータを用いて、領域識別のために必要な語彙語を集めてもよい。静止画像のファイルは、例えばJPEG形式であってもよい。動画像のファイルは、例えばMPEG形式であってもよい。音声のファイルは、例えば次の形式であってもよい:マイクロソフト(登録商標)波形形式(WAV);音声交換ファイル形式(AIFF);及び、資源交換ファイル形式(RIFF)。
本発明の別の観点は、計算機可読媒体に向けられている。この計算機可読媒体は、前述の通り定義した、文書データベースにおいて文書を処理することを、計算機に行わせるための、計算機が実行できる命令を含む。本発明のまた別の観点は、前述の通り定義した、文書データベースにおいて文書を処理するための、計算機が実装するシステムに向けられている。
本願発明による、文書データベースにおいて文書を処理するための流れ図である。 本願発明による、最初の問い合わせ表示画面である。 本願発明による、新しい語彙を立ち上げるための表示画面である。 本願発明による、既存の語彙を用いるための表示画面である。 本願発明による、語彙「PIRACY」を用いる問い合わせ結果を示す表示画面である。 本願発明による、選んだ文書からの語の一覧を示す表示画面である。 本願発明による、選んだ文書からの語の一覧を示す表示画面である。 本願発明による、選んだ文書からの語の一覧の別の版を示す表示画面である。 本願発明による、異なる順位付けパラメーターについての文書の順位付けを示す表示画面である。 本願発明による、異なる順位付けパラメーターについての文書の順位付けを示す表示画面である。 本願発明による、異なる順位付けパラメーターについての文書の順位付けを示す表示画面である。 本願発明による、異なる順位付けパラメーターについての文書の順位付けを示す表示画面である。 本願発明による、異なる順位付けパラメーターによって提供される、取得した文書における適切な文書の数を示す棒グラフである。 本願発明による、文書データベースにおいて文書を処理するための、計算機に基づくシステムの区画図である。 本願発明による、文書データベースにおいて文書を範疇分けするための流れ図である。 本願発明による、文書データベースにおける文書からの語彙語を示す表示画面である。この語彙語を用いて、文書を範疇分けする。 本願発明による、文書データベースにおける文書からの語彙語を示す表示画面である。この語彙語を用いて、文書を範疇分けする。 本願発明による、文書データベースにおける文書からの語彙語を示す表示画面である。この語彙語を用いて、文書を範疇分けする。 本願発明による、文書データベースにおける文書からの語彙語を示す表示画面である。この語彙語を用いて、文書を範疇分けする。 本願発明による、文書データベースにおける文書からの語彙語を示す表示画面である。この語彙語を用いて、文書を範疇分けする。

Claims (8)

  1. プロセッサ及び該プロセッサに実行可能なように接続されたディスプレイを有する、計算機により実装されるシステムを用いて文書データベースにおいて複数の文書を処理するための方法であって、
    前記複数の文書の、文書の各々について、語彙語を決定すること;
    前記複数の文書において、前記語彙語の出現に基づいて、前記語彙語の各々について、それぞれの適切度を決定すること;
    前記語彙語の複数の上位セットを定義するために、前記語彙語のそれぞれの前記適切度に基づいて、前記語彙語の部分を選択することにより、前記語彙語と前記語彙語のそれぞれの前記適切度とに基づいて、前記複数の文書の間の類否を決定すること、ここで、前記語彙語の前記複数の上位セットは、前記複数の文書の間の類似性を示すために用いられる;及び
    前記決定した類否に基づいて、前記語彙語の前記複数の上位セットについて複数の領域識別を決定すること;
    を実行するように、事前計算の必要なく、前記プロセッサを動作させる段階、並びに
    決定された前記語彙語の前記複数の上位セット表示させるように前記ディスプレイを動作させる段階であって、前記複数の文書の中の前記語彙語の出現に基づいた、適切及び不適切なものとしての前記語彙語の数値による表示を含み、前記語彙語の前記複数の上位セットは、前記語彙語の数値による表示に基づいて、ユーザ又は前記プロセッサにより、異なる領域識別へとグループ分けされることができる、段階
    を含む方法。
  2. 前記全体的な領域識別を、下位の領域識別に、前記下位の領域識別の各々に関連する語彙語を選択することに基づいて、分割するように前記プロセッサを動作させる段階を更に含み、前記下位の領域識別の各々に関連する前記語彙語の前記適切度は、前記下位の領域識別の各々について、類似する文書が共に集団化するように変化する、請求項1による方法。
  3. 前記語彙語の各々について、それぞれの適切度を前記決定することは:
    前記複数の文書において、前記語彙語の各々が何回用いられているかを計数すること;及び
    前記複数の文書のうちの何個が、前記語彙語の各々を用いているかを計数すること;
    を含む、請求項1による方法。
  4. 前記計数に基づいて、前記語彙語の各々について、文書あたりの語の比率を生成するように前記プロセッサを動作させる段階を更に含み、文書あたりの語の前記比率が閾値より低い場合には、前記複数の文書の間の前記類否を前記決定する場合に、前記語彙語の前記適切度を用いない、請求項3の方法。
  5. 文書データベースにおいて複数の文書を処理するための、プロセッサ及び該プロセッサに実行可能なように接続されたディスプレイを有する、計算機により実装されるシステムであって、
    前記プロセッサは複数の区画を有し、該複数の区画は:
    前記複数の文書の、文書の各々について、事前計算の必要なく、語彙語を決定できる第1の区画;
    前記複数の文書において、前記語彙語の出現に基づいて、前記語彙語の各々について、事前計算の必要なく、それぞれの適切度を決定できる第2の区画;
    前記語彙語の複数の上位セットを定義するために、前記語彙語のそれぞれの前記適切度に基づいて、前記語彙語の部分を選択することにより、前記語彙語と前記語彙語のそれぞれの前記適切度とに基づいて、事前計算の必要なく、前記複数の文書の間の類否を決定できる第3の区画、ここで、前記語彙語の前記複数の上位セットは、前記複数の文書の間の類似性を示すために用いられ、前記語彙語の前記複数の上位セットは、前記語彙語の前記複数の上位セットに関連する全体的な領域識別を有する;及び
    前記決定した類否に基づいて、事前計算の必要なく、前記語彙語の前記複数の上位セットについて複数の領域識別を決定できる第4の区画;
    を有し、
    前記ディスプレイは、前記複数の文書の中の前記語彙語の出現に基づいた、適切及び不適切なものとしての前記語彙語の数値による表示を含む、決定された前記語彙語の前記複数の上位セット表示でき、前記語彙語の前記複数の上位セットは、前記語彙語の数値による表示に基づいて、ユーザ又は前記プロセッサにより、異なる領域識別へとグループ分けされることができる、
    システム。
  6. 前記プロセッサは、前記全体的な領域識別を、下位の領域識別に、前記下位の領域識別の各々に関連する語彙語を選択することに基づいて、分割できる第5の区画を更に含み、前記下位の領域識別の各々に関連する前記語彙語の前記適切度は、前記下位の領域識別の各々について、類似する文書が共に集団化するように変化する、請求項5による、計算機により実装されるシステム。
  7. 前記語彙語の各々について、それぞれの適切度を決定するための前記第2の区画は:
    前記複数の文書において、前記語彙語の各々が何回用いられているかを計数すること;及び
    前記複数の文書のうちの何個が、前記語彙語の各々を用いているかを計数すること;
    を含む、請求項5による、計算機により実装されるシステム。
  8. 前記第2の区画は、前記計数に基づいて、前記語彙語の各々について、文書あたりの語の比率をさらに生成でき、文書あたりの語の前記比率が閾値より低い場合には、前記複数の文書の間の前記類否を前記決定する場合に、前記語彙語の前記適切度を用いない、請求項7による、計算機により実装されるシステム。
JP2009509727A 2006-05-05 2007-05-03 文書データベースにおける文書の領域識別のための方法 Expired - Fee Related JP5063682B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/381,832 US7814105B2 (en) 2004-10-27 2006-05-05 Method for domain identification of documents in a document database
US11/381,832 2006-05-05
PCT/US2007/010782 WO2007130544A2 (en) 2006-05-05 2007-05-03 Method for domain identification of documents in a document database

Publications (3)

Publication Number Publication Date
JP2009536401A JP2009536401A (ja) 2009-10-08
JP2009536401A5 JP2009536401A5 (ja) 2012-02-02
JP5063682B2 true JP5063682B2 (ja) 2012-10-31

Family

ID=38668318

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009509727A Expired - Fee Related JP5063682B2 (ja) 2006-05-05 2007-05-03 文書データベースにおける文書の領域識別のための方法

Country Status (9)

Country Link
US (1) US7814105B2 (ja)
EP (1) EP2024883A4 (ja)
JP (1) JP5063682B2 (ja)
KR (1) KR101118454B1 (ja)
CN (1) CN101438285B (ja)
CA (1) CA2651217A1 (ja)
IL (1) IL195064A0 (ja)
TW (1) TWI341489B (ja)
WO (1) WO2007130544A2 (ja)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7917519B2 (en) * 2005-10-26 2011-03-29 Sizatola, Llc Categorized document bases
US20080228700A1 (en) 2007-03-16 2008-09-18 Expanse Networks, Inc. Attribute Combination Discovery
US20090043752A1 (en) 2007-08-08 2009-02-12 Expanse Networks, Inc. Predicting Side Effect Attributes
US7941399B2 (en) 2007-11-09 2011-05-10 Microsoft Corporation Collaborative authoring
US8825758B2 (en) 2007-12-14 2014-09-02 Microsoft Corporation Collaborative authoring modes
US10176827B2 (en) 2008-01-15 2019-01-08 Verint Americas Inc. Active lab
US8352870B2 (en) 2008-04-28 2013-01-08 Microsoft Corporation Conflict resolution
US8825594B2 (en) 2008-05-08 2014-09-02 Microsoft Corporation Caching infrastructure
US7917438B2 (en) * 2008-09-10 2011-03-29 Expanse Networks, Inc. System for secure mobile healthcare selection
US8200509B2 (en) 2008-09-10 2012-06-12 Expanse Networks, Inc. Masked data record access
US10489434B2 (en) 2008-12-12 2019-11-26 Verint Americas Inc. Leveraging concepts with information retrieval techniques and knowledge bases
US8108406B2 (en) 2008-12-30 2012-01-31 Expanse Networks, Inc. Pangenetic web user behavior prediction system
US8386519B2 (en) 2008-12-30 2013-02-26 Expanse Networks, Inc. Pangenetic web item recommendation system
US8255403B2 (en) 2008-12-30 2012-08-28 Expanse Networks, Inc. Pangenetic web satisfaction prediction system
US20100169338A1 (en) * 2008-12-30 2010-07-01 Expanse Networks, Inc. Pangenetic Web Search System
US8346768B2 (en) * 2009-04-30 2013-01-01 Microsoft Corporation Fast merge support for legacy documents
US8943094B2 (en) 2009-09-22 2015-01-27 Next It Corporation Apparatus, system, and method for natural language processing
US9201965B1 (en) 2009-09-30 2015-12-01 Cisco Technology, Inc. System and method for providing speech recognition using personal vocabulary in a network environment
US8990083B1 (en) 2009-09-30 2015-03-24 Cisco Technology, Inc. System and method for generating personal vocabulary from network data
EP2354971A1 (en) * 2010-01-29 2011-08-10 E-Therapeutics plc Document analysis system
US8935274B1 (en) * 2010-05-12 2015-01-13 Cisco Technology, Inc System and method for deriving user expertise based on data propagating in a network environment
US9122744B2 (en) 2010-10-11 2015-09-01 Next It Corporation System and method for providing distributed intelligent assistance
US9465795B2 (en) 2010-12-17 2016-10-11 Cisco Technology, Inc. System and method for providing feeds based on activity in a network environment
US8909624B2 (en) 2011-05-31 2014-12-09 Cisco Technology, Inc. System and method for evaluating results of a search query in a network environment
US8886797B2 (en) 2011-07-14 2014-11-11 Cisco Technology, Inc. System and method for deriving user expertise based on data propagating in a network environment
US20130086036A1 (en) * 2011-09-01 2013-04-04 John Rizzo Dynamic Search Service
US8402030B1 (en) * 2011-11-21 2013-03-19 Raytheon Company Textual document analysis using word cloud comparison
US9836177B2 (en) 2011-12-30 2017-12-05 Next IT Innovation Labs, LLC Providing variable responses in a virtual-assistant environment
US8831403B2 (en) 2012-02-01 2014-09-09 Cisco Technology, Inc. System and method for creating customized on-demand video reports in a network environment
JP2013239146A (ja) * 2012-04-17 2013-11-28 Panasonic Corp 情報処理装置およびコンピュータプログラム
US9223537B2 (en) 2012-04-18 2015-12-29 Next It Corporation Conversation user interface
US9536049B2 (en) 2012-09-07 2017-01-03 Next It Corporation Conversational virtual healthcare assistant
JP6070936B2 (ja) 2013-01-31 2017-02-01 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、情報処理方法及びプログラム
US9164667B2 (en) * 2013-03-15 2015-10-20 Luminoso Technologies, Inc. Word cloud rotatable through N dimensions via user interface
US10204026B2 (en) * 2013-03-15 2019-02-12 Uda, Llc Realtime data stream cluster summarization and labeling system
US10445115B2 (en) 2013-04-18 2019-10-15 Verint Americas Inc. Virtual assistant focused user interfaces
US10088972B2 (en) 2013-12-31 2018-10-02 Verint Americas Inc. Virtual assistant conversations
US9535910B2 (en) * 2014-05-31 2017-01-03 International Business Machines Corporation Corpus generation based upon document attributes
US20160071517A1 (en) 2014-09-09 2016-03-10 Next It Corporation Evaluating Conversation Data based on Risk Factors
US9594746B2 (en) 2015-02-13 2017-03-14 International Business Machines Corporation Identifying word-senses based on linguistic variations
US11409749B2 (en) * 2017-11-09 2022-08-09 Microsoft Technology Licensing, Llc Machine reading comprehension system for answering queries related to a document
US11568175B2 (en) 2018-09-07 2023-01-31 Verint Americas Inc. Dynamic intent classification based on environment variables
US11232264B2 (en) 2018-10-19 2022-01-25 Verint Americas Inc. Natural language processing with non-ontological hierarchy models
US11196863B2 (en) 2018-10-24 2021-12-07 Verint Americas Inc. Method and system for virtual assistant conversations
US11651159B2 (en) 2019-03-01 2023-05-16 International Business Machines Corporation Semi-supervised system to mine document corpus on industry specific taxonomies
US20230108518A1 (en) * 2020-02-21 2023-04-06 Sony Group Corporation Information processing apparatus, information processing method, and program
JP7416665B2 (ja) * 2020-06-12 2024-01-17 株式会社日立製作所 対話システム、及び対話システムの制御方法
CN113032562B (zh) * 2021-03-18 2024-02-02 中国人民解放军火箭军工程大学 一种多次迭代对折词汇层级分类方法及系统

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4839853A (en) * 1988-09-15 1989-06-13 Bell Communications Research, Inc. Computer information retrieval using latent semantic structure
JP3566720B2 (ja) * 1992-04-30 2004-09-15 アプル・コンピュータ・インコーポレーテッド コンピュータ・システムにおいて情報を編成する方法と装置
JP3614618B2 (ja) * 1996-07-05 2005-01-26 株式会社日立製作所 文献検索支援方法及び装置およびこれを用いた文献検索サービス
US5987460A (en) * 1996-07-05 1999-11-16 Hitachi, Ltd. Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency
US5924105A (en) * 1997-01-27 1999-07-13 Michigan State University Method and product for determining salient features for use in information searching
JP3173411B2 (ja) * 1997-03-17 2001-06-04 富士ゼロックス株式会社 関連文書検索装置及び関連文書検索プログラムを記録した記録媒体
US6167397A (en) * 1997-09-23 2000-12-26 At&T Corporation Method of clustering electronic documents in response to a search query
US5987457A (en) * 1997-11-25 1999-11-16 Acceleration Software International Corporation Query refinement method for searching documents
US6035294A (en) * 1998-08-03 2000-03-07 Big Fat Fish, Inc. Wide access databases and database systems
US20030069873A1 (en) * 1998-11-18 2003-04-10 Kevin L. Fox Multiple engine information retrieval and visualization system
AU4328000A (en) * 1999-03-31 2000-10-16 Verizon Laboratories Inc. Techniques for performing a data query in a computer system
JP4021583B2 (ja) * 1999-04-08 2007-12-12 富士通株式会社 情報検索装置、情報検索方法、及びその方法を実現するプログラムを記録した記録媒体
US6711585B1 (en) * 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
CA2400161C (en) * 2000-02-22 2015-11-24 Metacarta, Inc. Spatially coding and displaying information
JP3573688B2 (ja) * 2000-06-28 2004-10-06 松下電器産業株式会社 類似文書検索装置及び関連キーワード抽出装置
US7003513B2 (en) * 2000-07-04 2006-02-21 International Business Machines Corporation Method and system of weighted context feedback for result improvement in information retrieval
CN1145899C (zh) * 2000-09-07 2004-04-14 国际商业机器公司 为文字文档自动生成摘要的方法
US6938046B2 (en) * 2001-03-02 2005-08-30 Dow Jones Reuters Business Interactive, Llp Polyarchical data indexing and automatically generated hierarchical data indexing paths
US7076485B2 (en) * 2001-03-07 2006-07-11 The Mitre Corporation Method and system for finding similar records in mixed free-text and structured data
CA2373568C (en) * 2001-04-26 2008-06-17 Hitachi, Ltd. Method of searching similar document, system for performing the same and program for processing the same
US7188106B2 (en) * 2001-05-01 2007-03-06 International Business Machines Corporation System and method for aggregating ranking results from various sources to improve the results of web searching
US6970881B1 (en) * 2001-05-07 2005-11-29 Intelligenxia, Inc. Concept-based method and system for dynamically analyzing unstructured information
US7194483B1 (en) * 2001-05-07 2007-03-20 Intelligenxia, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
JP3918531B2 (ja) * 2001-11-29 2007-05-23 株式会社日立製作所 類似文書検索方法およびシステム
US7139756B2 (en) * 2002-01-22 2006-11-21 International Business Machines Corporation System and method for detecting duplicate and similar documents
US20030154181A1 (en) * 2002-01-25 2003-08-14 Nec Usa, Inc. Document clustering with cluster refinement and model selection capabilities
WO2003075186A1 (en) * 2002-03-01 2003-09-12 Paul Jeffrey Krupin A method and system for creating improved search queries
JP3726263B2 (ja) * 2002-03-01 2005-12-14 ヒューレット・パッカード・カンパニー 文書分類方法及び装置
JP4142881B2 (ja) * 2002-03-07 2008-09-03 富士通株式会社 文書類似度算出装置、クラスタリング装置および文書抽出装置
US7260773B2 (en) * 2002-03-28 2007-08-21 Uri Zernik Device system and method for determining document similarities and differences
US6917936B2 (en) * 2002-12-18 2005-07-12 Xerox Corporation Method and apparatus for measuring similarity between documents
JP2005043977A (ja) * 2003-07-23 2005-02-17 Hitachi Ltd 文書間の類似度算出方法および装置
US7203679B2 (en) * 2003-07-29 2007-04-10 International Business Machines Corporation Determining structural similarity in semi-structured documents
US20050060643A1 (en) * 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
US7493322B2 (en) * 2003-10-15 2009-02-17 Xerox Corporation System and method for computing a measure of similarity between documents
US20050149546A1 (en) * 2003-11-03 2005-07-07 Prakash Vipul V. Methods and apparatuses for determining and designating classifications of electronic documents
JP2005346223A (ja) * 2004-06-01 2005-12-15 Nippon Telegr & Teleph Corp <Ntt> 文書クラスタリング方法、文書クラスタリング装置、文書クラスタリングプログラムならびにそのプログラムを記録した記録媒体
US20060155751A1 (en) * 2004-06-23 2006-07-13 Frank Geshwind System and method for document analysis, processing and information extraction
US7266548B2 (en) * 2004-06-30 2007-09-04 Microsoft Corporation Automated taxonomy generation
US7502783B2 (en) * 2004-09-10 2009-03-10 Suggestica, Inc. User interface for conducting a search directed by a hierarchy-free set of topics
US7451124B2 (en) * 2005-05-12 2008-11-11 Xerox Corporation Method of analyzing documents
TWM285049U (en) * 2005-07-14 2006-01-01 Top Yang Technology Entpr Co Vertical battery holder

Also Published As

Publication number Publication date
CN101438285B (zh) 2011-07-27
TW200817998A (en) 2008-04-16
KR101118454B1 (ko) 2012-03-14
KR20090007626A (ko) 2009-01-19
CA2651217A1 (en) 2007-11-15
US7814105B2 (en) 2010-10-12
WO2007130544A2 (en) 2007-11-15
EP2024883A4 (en) 2010-02-17
TWI341489B (en) 2011-05-01
EP2024883A2 (en) 2009-02-18
CN101438285A (zh) 2009-05-20
IL195064A0 (en) 2009-08-03
WO2007130544A3 (en) 2008-09-04
JP2009536401A (ja) 2009-10-08
US20060206483A1 (en) 2006-09-14

Similar Documents

Publication Publication Date Title
JP5063682B2 (ja) 文書データベースにおける文書の領域識別のための方法
US7801887B2 (en) Method for re-ranking documents retrieved from a document database
KR101078864B1 (ko) 질의/문서 주제 범주 변화 분석 시스템 및 그 방법과 이를 이용한 질의 확장 기반 정보 검색 시스템 및 그 방법
US8661031B2 (en) Method and apparatus for determining the significance and relevance of a web page, or a portion thereof
US8108405B2 (en) Refining a search space in response to user input
JP3673487B2 (ja) 階層的統計分析のシステム及び方法
US8543380B2 (en) Determining a document specificity
US20090204609A1 (en) Determining Words Related To A Given Set Of Words
US20090094208A1 (en) Automatically Generating A Hierarchy Of Terms
JP5232260B2 (ja) 話題抽出装置及びプログラム
US20100169331A1 (en) Online relevance engine
US20090094223A1 (en) System and method for classifying search queries
JP5423676B2 (ja) データ分類システム、データ分類方法、及びデータ分類プログラム
US20090094233A1 (en) Modeling Topics Using Statistical Distributions
US20100257177A1 (en) Document rating calculation system, document rating calculation method and program
US20090094209A1 (en) Determining The Depths Of Words And Documents
Crespo Azcarate et al. Improving image retrieval effectiveness via query expansion using MeSH hierarchical structure
JP5500070B2 (ja) データ分類システム、データ分類方法、及びデータ分類プログラム
Moradi Small-world networks for summarization of biomedical articles
Codocedo et al. A Contribution to Semantic Indexing and Retrieval Based on FCA-An Application to Song Datasets.
JP4134975B2 (ja) 話題文書提示方法及び装置及びプログラム
Brisebois et al. Text and data mining & machine learning models to build an assisted literature review with relevant papers
EP2090992A2 (en) Determining words related to a given set of words
JP2008518345A (ja) データ処理システム及びデータ処理方法
JP2004310199A (ja) 文書分類方法及び文書分類プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110913

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20111209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120214

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120502

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120511

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120612

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120724

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120807

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150817

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees