JP2004501421A - 文書用メタデータ生成のための方法と装置 - Google Patents

文書用メタデータ生成のための方法と装置 Download PDF

Info

Publication number
JP2004501421A
JP2004501421A JP2001571255A JP2001571255A JP2004501421A JP 2004501421 A JP2004501421 A JP 2004501421A JP 2001571255 A JP2001571255 A JP 2001571255A JP 2001571255 A JP2001571255 A JP 2001571255A JP 2004501421 A JP2004501421 A JP 2004501421A
Authority
JP
Japan
Prior art keywords
document
concept
computer
module
automatic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001571255A
Other languages
English (en)
Inventor
スピバック,ビクター
ランコブ,アレックス
シャオ,ホワード イ−フイ
アブノース,ラズミク
シャナハン,マシュー レイモンド
Original Assignee
ドキュメンタム,インコーポレイティド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドキュメンタム,インコーポレイティド filed Critical ドキュメンタム,インコーポレイティド
Publication of JP2004501421A publication Critical patent/JP2004501421A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Abstract

文書が後に続く検索により識別されるように、文書のメタデータを生成する方法及びシステムである。文書の中で認識された一つ以上の概念を示している概念モデルが、文書に対して生成される。概念は複数の特長によって定義され、各々の特徴には特徴重要度が結び付けられている。概念モデルを参照することにより、一つ以上の自動属性が文書に付与され得る。同様に、概念モデルを参照することにより、文書は、カテゴリ化分類構造の一つ以上のカテゴリに、一つ以上の自動カテゴリを割り付けることによって分類され得る。概念モデル、一つ以上の自動属性、及び一つ以上の自動カテゴリを含んでいる生成されたメタデータはメモリに保存され、その結果その後の検索が、生成されたメタデータを調べることにより、文書を識別できる。

Description

【0001】
関連する出願
この出願は、米国仮出願第60/192236号(U.S. Provisional Application Serial No. 60/192,236)、出願日2000年3月27日、の出願日遡及の利益を主張する。
【0002】
本発明の簡単な説明
この発明は、文書を識別するための方法とシステムに関係する。より詳しくは、この発明は、文書が後に続く検索によって識別されることができるように、文書のためのメタデータを生成する方法とシステムに関係している。
【0003】
本発明の背景
様々なシステムが、コンピュータネットワークの中で文書を検索して識別するために設計されている。そのようなシステムは、ウェブサイトの使用と連携した文書探索/検索システムを含んでいる。そのようなシステムは、一般的に、個別の検索に最も関係のある文書を識別して取り出すことを試みている。この目的を達成するために、文書はメタデータと結合されることがある。メタデータは、情報に関する情報である。本状況では、メタデータは、文書の中の情報に関する情報である。メタデータの例には、文書タイプ、文書表題、作成者、及びキーワードが含まれる。従来の検索では、文書のメタデータが検索照会と突き合わされることがある。もし突合せがうまくゆくと、文書は、文書を取り出すために選択できる利用者のために、識別される。
【0004】
従来技術では、メタデータは一般的に、作成者若しくは他の調査検分者によって文書に付与されている。例えば、ウェブサイト管理者は、文書タイプ、文書表題、作成者、キーワード、ハイパーテキストマークアップ言語(Hypertext Markup Language)(“HTML”)への依存、及び有効期限、というようなメタデータを通常は手動で付与している。この手動付与は、退屈で時間のかかるものであることがあった。更に、この手動付与は、多くの場合間違いが多く、また特に複数の調査検分者によって実行された場合、メタデータ付与は、しばしば矛盾のあるものであった。そのため、何万という文書を持っているウェブサイトにとって、全ての文書をメタデータと正しく矛盾無く結び付けることを確実にすることは、不可能ではないとしても困難なことであった。結果として、検索照会に対して関係のある文書が識別されないことがあり、その一方で、関係の無い別の文書が識別されて取り出されることがあった。
【0005】
前述したことは、特に調査検分者が、文書を分析して、観念若しくは主題のカテゴリを引き出すことを必要とする文書にメタデータを付与する場合に問題となる。同時に、文書の、観念若しくは主題のカテゴリを表すメタデータは、正しく効果的な文書の識別と検索を確実にするために最も役立つものである。
【0006】
従って、どんな与えられた検索でも、後に続く再調査及び/又は検索のために関係ある文書を識別することの可能性を高めるために、文書メタデータの生成についての改良された方法が必要とされている。
【0007】
本発明の概要
本発明の実施例は、文書処理のコンピュータ実行方法である。この方法は、文書を共通形式に変換する段階と、前記共通形式文書の中の、前記共通形式文書に表現された基本観念を表している概念を認識する段階と、前記概念を概念モデルに組み入れる段階とを備えている。
【0008】
本発明の別の実施例は、指定された方法で機能するようにコンピュータに命令するための、コンピュータで読み取り可能な媒体である。このコンピュータで読み取り可能な媒体は、文書に表現された基本観念を認識するための命令と、前記基本観念に概念識別を付与する命令と、前記概念識別に基づいた概念モデルを生成する命令とを含んでなるものである。
【0009】
本発明の別の実施例は、プロセッサと、このプロセッサに接続されたメモリとを備えるコンピュータである。前記メモリは文書モデリングモジュールを含んでおり、前記文書モデリングモジュールは、第一モジュールと第二モジュールとを持っており、前記第一モジュールは、文書の中の概念を認識することを前記プロセッサに命令するように作られていて、前記概念は文書に表現された基本観念を表しており、前記第二モジュールは、前記概念に基づいた概念モデルを生成することを前記プロセッサに命令するように作られている。
【0010】
本発明の特徴と目的のよりよい理解のために、添付図面を用いて以下に詳細に説明する。
【0011】
本発明の詳細な説明
図1は、本発明に従って運用されることがあるコンピュータネットワーク100を図解している。ネットワーク100は、少なくとも一つの文書ソース104に接続された少なくとも一つのサーバーコンピュータ102を含んでいる。サーバーコンピュータ102と文書ソース104とはデータ伝送路106を介して接続されており、前記データ伝送路106は、有線又は無線のデータ伝送路であってよい。ネットワーク100は、データ伝送路106を介して文書ソース104に接続された少なくとも一つのコンピュータ128も含んでいてよい。コンピュータ128とサーバーコンピュータ102もデータ伝送路106を介して接続されてよい。
【0012】
文書ソース104は、本発明の実施例によって処理されるべき文書を保持している電子的装置である。文書ソースの例には、ウェブサーバ、データベースサーバ、若しくはファイルサーバというようなサーバーコンピュータと、クライアントコンピュータと、携帯情報端末とが含まれる。図1は、サーバーコンピュータ102に接続された単一の文書ソース104を示しているが、複数の文書ソースがサーバーコンピュータ102に接続されても良いことが理解されるはずである。
【0013】
図1に示すように、文書ソース104は、バス146を介して、(第一及び/又は第二の)メモリ136、ネットワーク接続装置138、一組の入出力装置142(例えば、キーボード、マウス、プリンタ、など)、及びモニタ144に接続されているCPU140のような在来のサーバーコンピュータ構成要素を含んだサーバーコンピュータである。メモリ136は、一つ以上の文書を文書記憶装置160に保存する。特に、メモリ136は文書108を保存し、この文書108はモニタ144に表示される。
【0014】
文書ソース104の中の文書108は、テキスト部110を含んでいる。テキスト部110は一般的に、例えば、“人事の自然の成り行きで…(When in the course of human events…)”というような英数字の集りを含んでいる。テキスト部110は、ドル記号、数学記号、若しくは論理記号というような記号も含んでいることがある。文書108は、音響部分、及びJPEG画像のような視覚部分、及び/若しくは動画シーケンスのような視聴覚部分、というような非テキスト部112をも含んでいることがある。文書108は、例えば、ハイパーテキストマークアップ言語(“HTML”)形式、イクステンシブルマークアップ言語(Extensible Markup Language)(“XML”)形式、マイクロソフトオフィス(Microsoft Office)(ワード(Word)、エクセル(Excel)、パワーポイント(PowerPoint))、PDFファイル形式、ワードパーフェクト(WordPerfect)、若しくは全くの普通テキストのような在来の形式にあることがある。
【0015】
図1で示されるように、メモリ136は、検索エンジン130も含んでいて、前記検索エンジン130は、文書記憶装置160に保存されている文書108のような一つ以上の文書を検索照会に従って識別するように作られたアプリケーションである。検索照会は、コンピュータ128の利用者からの入力に応答して生成され得る。
【0016】
コンピュータ128は、在来のサーバーコンピュータ構成要素を含むサーバーコンピュータ、若しくは在来のクライアントコンピュータ構成要素を含むクライアントコンピュータであってよい。図1に示されるように、コンピュータ128は、バス156を介して、(第一及び/又は第二の)メモリ148、ネットワーク接続装置154、及び入出力装置150(例えば、キーボード、マウス、プリンタ、モニタ、その他)に接続されたCPU152を含むクライアントコンピュータである。メモリ148は在来のブラウザ158を含んでおり、このブラウザ158は、検索エンジン130によって識別された一つ以上の文書を利用者に表示することができる。
【0017】
サーバーコンピュータ102は、バス134を介して、(第一及び/又は第二の)メモリ118、ネットワーク接続装置114、及び入出力装置132(例えば、キーボード、マウス、プリンタ、モニタ、その他)に接続されたCPU116を含んでいる標準のサーバー構成要素を具備していることがある。メモリ118は、一組のコンピュータプログラムを保存しており、このコンピュータプログラムは、本発明と結び付いた処理を実行する。特に、メモリ118は文書統合モジュール120と文書モデリングモジュール122とを保存している。
【0018】
文書統合モジュール120は、文書ソース104から初期形式で文書を受け取り、初期形式の文書を共通形式文書に変換し、そして共通形式文書を文書モデリングモジュール122へ更なる処理のために提出する。文書統合モジュール120は、通常は文書ソース104に保存されていた文書(例えば、原本)のコピーを受け取る。図1に関して、文書統合モジュール120は、文書108のコピー、このコピーはテキスト部110と非テキスト部112とを含んでいるが、これを受け取り、そして初期形式のコピーを、文書モデリングモジュール122による処理のために、共通形式文書に変換する。
【0019】
文書統合モジュール120は、テキスト部110を非テキスト部112から分離し、そしてテキスト部110を文書108の変換されたコピーに組み入れることができる。加えて、文書統合モジュール120は、文書108のメタデータを一つ以上の原属性の形で取って来て、そして一つ以上の原属性を共通形式文書の中に組み入れることができる。文書の原属性は、(例えば、文書の作者によって、若しくは本発明の実施例によって)既に生成されていたメタデータであって、文書(及び/又は文書のコピー)、及び/又は文書を保持している文書ソース104に含まれているメタデータである。そのような原属性は、文書表題、文書作者、文書作成日、文書番号、及びページ数というような情報を含んでいることがある。例えば、文書作成日は、“2001年1月1日”で、文書の見出し部に含まれることがある。文書統合モジュール120は文書108の一つ以上の原属性を文書のコピー、及び/又は文書ソース104から取って来ることができる。
【0020】
文書モデリングモジュール122は、文書108に関するメタデータを生成し、その結果文書108は、検索エンジン130によって識別されることが可能である。文書モデリングモジュール122は、共通形式文書の中の一つ以上の概念を認識するように試みる。概念は、文書の中に表現されていることがある基本観念を表している。概念の例には、“コンピュータ”、“ネットワークアプリケーション”、及び“競合会社”が含まれる。概念は、文書の中で文書モデリングモジュール122に認識されるために、必ずしも逐語的に発見されたり、又は短縮されているか語幹だけの形で発見されないでもよい。文書モデリングモジュール122によって認識される概念の数は、文書の内容によって決まり、文書モデリングモジュール122が、特殊な文書に概念を何も認識しないこともありうる。文書モデリングモジュール122は、文書108の変換されたコピーの中で認識された概念に基づいた、文書108に関する概念モデルを生成する。概念モデルは、文書の中で認識される一つ以上の概念を識別するか又は示す。例えば、文書に関する概念モデルは、“A会社”と“B会社”とを含むことができ、そこで、概念“A会社”と概念“B会社”は、文書の中で認識される概念である。
【0021】
文書モデリングモジュール122は、一つ以上の自動属性を文書108に付加的に生成若しくは付与してもよい。自動属性は、文書についての記述的ラベルを表しており、前記自動属性は、文書の概念モデル及び/又は一つ以上の原属性に基づいて文書に生成若しくは付与される。自動属性は、英数字文字列、及び/又は記号文字列を含む。自動属性の例には、“有用文書”が含まれる。
【0022】
文書モデリングモジュール122は、例えば一つ以上の自動カテゴリを文書108に生成若しくは付与することによって、文書108を一つ以上のカテゴリ化分類構造の文書カテゴリに分類することもある。自動カテゴリは、カテゴリについての記述的ラベルを表しており、前記自動カテゴリは、文書の概念モデル、及び/又は一つ以上の原属性、及び/又は一つ以上の自動属性に基づいて文書に生成されるか付与される。自動カテゴリは、英数字文字列及び/又は記号文字列を含んでいる。例えば、カテゴリ“米国政治”に割り付けられた文書は、自動カテゴリ“米国政治(U.S. Politics)”を割り付けられ得る。
【0023】
文書モデリングモジュール122は、(概念モデル、一つ以上の自動属性、及び一つ以上の自動カテゴリを含んでいる)生成されたメタデータの部分をモデリングディレクトリ124に保存することが可能である。モデリングディレクトリ124は、例えば、関係データベースというようなデータ保存庫であってよい。文書モデリングモジュール122は、例えば、文書ソース104の中の文書108の位置を識別及び/又は提供するリンク又は識別子を与えることにより、生成されたメタデータの少なくとも保存された部分を文書ソース104の中の文書108に結び付ける。
【0024】
検索エンジン130は、例えば、データ伝送路106を介してモデリングディレクトリ124にアクセスできる。検索エンジン130は、文書108に関する保存されたメタデータの一部を調べることにより、保存されたメタデータが検索照会と一致した場合は、文書108を識別してよい。検索エンジン130は、文書108を識別したので、文書108をコンピュータ128の利用者に示すことができ、そして利用者は、文書ソース104から文書108を取り出すことができる。
【0025】
その代わりに、または上記のことと共に、サーバーコンピュータ102は、生成されたメタデータの少なくとも一部を文書ソース104に伝送することができる。文書モデリングモジュール122は、例えば、文書ソース104の中の文書108を識別するリンク又は識別子を与えることにより、メタデータの少なくとも伝送された部分を文書ソース104の中の文書108に結び付ける。文書ソース104は、メタデータの伝送された部分をメモリ136に保存できる。検索エンジン130は、メモリ136に保存されているメタデータの少なくとも一部を調べることができ、そして保存されたメタデータが検索照会と一致した場合は、文書108を識別できる。
【0026】
図2は、本発明の実施例により実行されることがある処理ステップを図示しているが、本発明は、図2を参照して更に説明される。文書統合モジュール120は、文書を文書ソース104から受け取る(ステップ202)。この実施例では、文書は、文書ソース104の中に保持されている原文書のコピーである。文書統合モジュール120は、文書を共通形式文書に変換し(ステップ204)、そして共通形式文書を文書モデリングモジュール122に提出する(ステップ206)。文書モデリングモジュール122は、共通形式文書の中の一つ以上の概念を認識し(ステップ208)、そして原文書に関する、一つ以上の概念に基づいた概念モデルを生成する(ステップ210)。概念モデルは、文書モデリングモジュール122が共通形式文書の中で認識した、一つ以上の概念を示している。文書モデリングモジュール122は、概念モデルに基づいた一つ以上の自動属性を原文書に付与する(ステップ212)。また、概念モデルに基づいて、文書モデリングモジュール122は、一つ以上の自動カテゴリを原文書に付与することにより、原文書を一つ以上のカテゴリに分類する(ステップ214)。文書モデリングモジュール122は、生成されたメタデータ(つまり、概念モデル、一つ以上の自動属性、及び一つ以上の自動カテゴリ)の少なくとも一部をモデリングディレクトリ124の中に保存する(ステップ216)。この保存されたメタデータは、文書ソース104の中の原文書の位置を識別及び/又は与えるリンク若しくは識別子を与えられることがある。
【0027】
図3は、本発明の実施例による、文書統合モジュール120により実行される処理ステップの詳細な説明を提供している。文書統合モジュール120は文書を文書ソース104から受け取る(ステップ302)。本発明の実施例では、文書統合モジュール120は、文書を文書ソース104から自動的に取り出す。文書は、新しく作成されたか新しく修正された文書(又はそのコピー)であってよく、若しくは本発明の実施例により実行される処理をまだ受けていない元からの文書(又はそのコピー)であってよい。文書統合モジュール120によって自動的に取り出される文書に加えて、利用者は、文書ソース104から文書統合モジュール120へ文書を提出することができる。本発明の実施例では、文書統合モジュール120は、利用者からの指示に応じて、文書を取り出す。どちらの場合にも、文書統合モジュール120はステップ302で文書を受け取り、そして以下に説明する次の処理を開始する。
【0028】
図3に示されるように、文書統合モジュール120は、更に先の処理のために文書を受け取るか否かを決めるために文書を評価する(ステップ304)。本発明の実施例では、処理を続けるべきか否かを決めるために、文書は一つ以上の基準に対して評価される。例えば、最大頁制限が基準として規定されていることがあり、その結果、最大頁制限を超過するページ数を持った文書は、更に先の処理については受け入れられないことがあり、及び/又は文書は、処理形式の修正を施されることがある。受け入れ可能な文書形式は、別の基準であることがあり、例えば、ワード、エクセル、パワーポイント、HTML、若しくは、ワードパーフェクト形式文書以外は、更に先の処理はされずに、及び/又は受け入れ可能な文書形式に変換されることがある。基準の他の事例には、ウェブサーバから受け取った文書に関するページ長が含まれる。
【0029】
一つ以上の原属性の形のメタデータは、文書ソース104から取り出されることがある(ステップ306)。文書ソース104の中に見出される原属性の例には、文書作成日、作成者、文書表題、及び一つ以上のキーワードが含まれる。利用可能性、及び文書ソース104にもよるが、ゼロから数個の間で原属性が文書ソース104から引き出されることがある。
【0030】
一つ以上の原属性の形のメタデータは、文書それ自身からも引き出されることがある(ステップ308)。普通の熟練技術者には理解されるように、様々な文書形式が、一つ以上の引き出され得る原属性を含むことがある。たとえば、HTML形式の文書は、タグ“<Title>”と“</Title>”とにより前後を囲まれた文書表題を含むことがある。この例では、文書表題は文書に関する原属性として引き出される。他の例では、ワード文書は、フッター部分に時刻/日付スタンプを含むことがあり、そして時刻/日付スタンプは原属性として引き出されることがある。利用可能性、及び個々の文書形式にもよるが、ゼロから数個の間で原属性が文書そのものから引き出されることがある。
【0031】
処理ステップ310では、テキスト部110が、文書の非テキスト部112から分離される。テキスト部110は一般的には、例えば“人事の自然の成り行きで…(When in the course of human events…)”というような英数字の集りを含んでいる。テキスト部110は、例えば“Mr.”あるいは“?”というような略語、及び/又は記号も含んでいることがある。ステップ310では、文書統合モジュール120は、文書の更に先の処理を妨げる可能性のある、文書の部分からテキスト部110を分離する。非テキスト部112の例には、ウェブページ上のバナー、及びワード文書上へ貼り付けられた静止画像が含まれる。本発明のある実施例では、テキスト部110が文書から引き出される。本発明の他の実施例では、非テキスト部112が引き出され、一方テキスト部110が更に先の処理のために文書に残される。
【0032】
図3に示されるように、文書統合モジュール120は、文書モデリングモジュール122による更に先の処理のために、文書ソース104から受け取ったのと同じそのオリジナル形式の文書を共通形式文書に変換する(ステップ312)。本発明の実施例では、選択された共通形式は、XML形式である。文書のXML形式への変換において、文書統合モジュール120の一つの実施例は、ステップ310で分離されたテキスト部110と、ステップ306及び308で引き出された原属性とを共通形式文書に組み入れる。特に、テキスト部110と原属性は結合され、そして一組のタグで印を付けられる。HTMLとは異なって、XML形式では、固定されたタグの組には制限されないで、新しいタグが定義されることが許容される。本発明では、タグは、文書モデリングモジュール122がXML文書の部分を識別することができるように使用されることがある。ステップ306若しくはステップ308において引き出された原属性は、XML文書の中のタグの対によって前後を囲まれることがある。例えば、データベースサーバから引き出された文書表題“コンピュータについての文書”は、XML文書の中では以下に示すようにタグによって前後を囲まれて見出されることがある:<文書表題>コンピュータについての文書</文書表題>。このXML文書を処理している文書モデリングモジュール122は、“コンピュータについての文書”という値を持っている文書表題原属性を識別できる。ステップ310で分離されたテキスト部110もタグの対で前後を囲まれることがある。本発明の実施例では、文書統合モジュール120が、テキスト部110の各段落をタグの対で前後を囲む。例えば、XML文書の最初の段落は、<段落1>と</段落1>というタグの対によって前後を囲まれることがある。XML形式は、新しいタグが定義されることを許容するので、本発明で使用されるタグの定義に柔軟性がある。例えば、本発明の一つの実施例では、文書若しくは文書ソースから引き出された文書表題の前後を囲むために、タグの対<文書表題>と</文書表題>が定義されて使用されることがある。別の実施例では、タグの対<文題>と</文題>が同じ目的のために定義されることがある。本技術分野に通常の知識を有する者には理解されるように、発明の中で使用されるタグの定義の選択は、計算の効率と速さとを考慮して導かれることがある。
【0033】
文書ソースからXML形式で受け取った文書に対しても、ステップ312において処理が実行されることがあることが理解されるはずである。XML形式は、タグの定義に柔軟性を許容するので、文書ソースから受け取られたXML文書は、異なるタグの組で印を付けられることがあり、そして文書統合モジュール120が、本発明で使用されるタグの組によってXML文書に印を付け直すことがある。XML以外の文書形式が、本発明の中で共通形式として選択されてもよいことが、更にまた理解されるはずである。例えば、文書モデリングモジュール122が、例えば文書表題あるいは文書の一つ以上の段落というような文書の異なった部分を識別できるように、構造のレベルを文書に与える他の文書形式が選択されることがある。
【0034】
ステップ314に示されるように、文書統合モジュール120は共通形式文書を文書モデリングモジュール122による処理のために提出する。文書統合モジュール120と文書モデリングモジュール122が単一のサーバーコンピュータ102に属する本発明の実施例では(例えば図1に示されるように)、共通形式文書は、ステップ314に物理的に移動されることを必要としない。本発明の別の実施例では、文書統合モジュール120と文書モデリングモジュール122が別のサーバーコンピュータに属することがあり、そして共通形式文書が、二つのサーバーコンピュータの間のデータ伝送路を通じて伝送される。
【0035】
図4は、本発明の実施例による文書モデリングモジュール122を示している。文書モデリングモジュール122は、文書の中の一つ以上の概念を認識し、そして文書に関する概念モデルを生成し、そこで概念モデルは、認識された概念の一つ以上を示す。
【0036】
図4に示されるように、文書モデリングモジュール122は、概念図402を含んでいる。概念図402は、文書モデリングモジュール122が概念を認識し、そして文書に関する概念モデルを生成することを可能にする情報を含んでいる。特に、概念図402は、概念辞書404とノイズ辞書406とを含んでいる。
【0037】
概念辞書404は、文書モデリングモジュール122が文書の中で認識できる概念を複数定義する。概念は、文書の中で認識されるために、文字どおりに見出されたり、又は短縮された、語幹だけの、若しくは他の同等の形で見出されることは必要とされない。例えば、文書が、“インターネット”という単語(または単語“インターネット”の短縮された、語幹だけの、若しくは他の同等の形)を含まない場合でも、文書は、概念“インターネット”を表現することがある。
【0038】
本発明の実施例では、各々の概念は、対応している特徴セットによって定義されることがある。特徴は、文書の中に与えられた概念の証拠を表す。更に具体的には、特徴は、与えられた概念によって表現された基本観念が文書の中に表されている証拠を表す。例えば、概念“IBM”は、“IBM”、“インターナショナルビジネスマシンズ(International Business Machines)”、“ビッグブルー”、及び“コンピュータ”という特徴を備える特徴セットにより定義されることがある。概念の文字表現(又は文字表現の短縮された、若しくは語幹だけの、若しくは他の同等の形)が、概念についての特徴であり得ることが理解されるはずである。前述の事例では、文書の中の“IBM”の存在が、概念“IBM”が文書の中に表現されている証拠を与える。概念辞書404は、複数の概念に対応している複数の特徴セット(又は概念定義)を含むことが可能である。本発明の実施例では、文書モデリングモジュール122は、概念の特徴セットの中の各々の特徴が、文書の中に存在しているかどうかを確認する。
【0039】
本発明の実施例では、概念を定義する特徴セットの各々の特徴は、特徴重要度に結び付けられており、また概念辞書404も、各々の特徴セットに結び付けられた特徴重要度を含むことがある。特徴の特徴重要度は、特徴が文書の中で識別された場合に概念が表されている信頼水準を示す。本発明の実施例では、特徴重要度は、例えば、0が最も低い信頼水準で1が最高の信頼水準である0から1の間の数値を持っている。前述の例に関しては、文書に“IBM”が存在することは、概念“IBM”が文書に表現されていることのきわめて明確な兆候を与え、そして特徴“IBM”についての特徴重要度は、1を付与されることがある。一方、文書の中に“ビッグブルー”が存在することは、概念“IBM”が文書に表されていることのより弱い兆候を与え、そして特徴“ビッグブルー”についての特徴重要度は、0.15を付与されることがある。
【0040】
本発明の実施例では、概念についての特徴セットは、例えば、0から1の評価尺度で0.1未満といった比較的低い数値の特徴重要度を有する一つ以上の特徴を含んでいる。低い特徴重要度値を有する特徴が、概念を表すことの低い信頼水準を与えることがある一方、その様な特徴は、曖昧さを防ぎそしてゆえに概念認識を容易にするために、それでもなお含まれることがある。例えば、特徴“コンピュータ”は、概念“アップルコンピュータ”に関する特徴セットに含まれることがあるが、果物としての概念“アップル”に関する特徴セットには含まれない。特徴“コンピュータ”の存在は、“コンピュータ”が一般的であるので、概念“アップルコンピュータ”が表されていることの小さな兆候を与えることがある。この例において、特徴“コンピュータ”は、0.1未満の例えば0.05といった特徴重要度を付与されることがある。しかしながら、“コンピュータ”が文書の中に存在することは、果物としての概念“アップル”と対抗する概念“アップルコンピュータ”を認識することを容易にすることができる。
【0041】
本発明の実施例では、特徴が、識別されるために、文字どおりに見つけられたり、又は文書の中で短縮された、若しくは語幹だけの、若しくは他の同等の形で見つけられるとは限らない。特に、本発明の一つの実施例は、他の概念に関する特徴としての一つ以上の概念を含んでいる。換言すれば、文書が概念を表現しているという事実が、その文書が他の概念を表現していることの証拠を与えることがある。概念である特徴は概念特徴であり、そして概念特徴は、概念ではない特徴と同様に、特徴重要度に結び付けられてよい。文書モデリングモジュール122が文書の中に概念を認識したならば、文書モデリングモジュール122は、特徴が、これは概念であるが、文書の中に存在すると確認する。
【0042】
図4に示されるように、概念図402はノイズ辞書406も含んでいる。ノイズ辞書406は、自動概念として認識されるべきではない一つ以上の単語を示している。本発明の実施例によると、自動概念は、単語(又は単語の集まり)であって、文書の中に繰り返し出現しまた特徴として概念辞書404の中に(文字どおりに、又は短縮された、若しくは語幹だけの、若しくは他の同等の形で)含まれない。例えば、単語“インターネット”が、文書の中に数回出現することがあるが、“インターネット”は特徴として概念辞書404の中には含まれていなくてよい。文書モデリングモジュール122は、単語“インターネット”を、それがノイズ辞書406に(文字どおりに、又は短縮された、若しくは語幹だけの、若しくは他の同等の形で)含まれていなければ、自動概念である概念として認識してよい。
【0043】
図5は、本発明の実施例による、文書モデリングモジュール122によって実行される処理ステップの詳細な説明を提供するものであり、文書モデリングモジュール122が、文書の中に一つ以上の概念を認識し、そして一つ以上の概念に基づいた概念モデルを生成している。文書モデリングモジュール122は、概念図402の中で定義された一つ以上の概念に関する、図5に示された処理ステップを実行することができる。
【0044】
本発明の実施例では、文書モデリングモジュール122によって処理される文書は、XML形式にある。例えば、文書は、文書統合モジュール120により提出されたXML文書である。XML文書は、文書モデリングモジュール122がXML文書の様々な部分を識別することを可能にするタグセットによって印を付けられ、前記XML文書の様々な部分には、例えば、原属性又は第一段落がある。構造のレベルを文書に与える他の文書形式がXML形式の代わりに使用されてもよいことが理解されるはずである。更に、本発明の実施例による文書モデリングモジュール122は、どんな従来形式、例えば、HTML、マイクロソフトオフィス(ワード、エクセル、パワーポイント)、PDFファイル形式、ワードパーフェクト、若しくは単純な普通テキストというような従来形式、の文書でも処理できることが理解されるはずである。
【0045】
図5に示されるように、文書モデリングモジュール122は、概念辞書404の中で定義された概念に関する特徴が文書の中に存在するかどうかを確認する(ステップ502)。前述したように、本発明の実施例では、各々の概念は、対応する特徴セットによって概念辞書404の中で定義されており、そして文書モデリングモジュール122は、確認ステップ502を実行するときに、概念辞書404を参照する。特に、文書モデリングモジュール122は、概念辞書404の中で定義された一つ以上の概念に対応する一つ以上の特徴セット(及び/又は結び付けられた特徴重要度)を取り出すことができる。
【0046】
ステップ502において、文書モデリングモジュール122の実施例は特徴セットの各々の特徴が文書の中に存在するか否かを確認する。文書モデリングモジュール122の一つの実施例は、特徴、及び/又は特徴の語幹だけの一つ以上の変形体を文書の中で検索する。例えば、本発明は、特徴“エクスプローラ(explorer)”及び/又はその語幹だけの変形体“エクスプロー(explore)”を文書の中で検索できる。本発明の実施例では、特徴の変形体は特徴と同等とみなされてもよく、そして文書モデリングモジュール122は、変形体が文書の中で発見されたなら、文書の中の特徴を識別してもよい。言い換えると、文書モデリングモジュール122は、特徴だけではなく一つ以上の特徴の変形体を認識することがある。例えば、特徴“コンピュータ(computer)”と、一つ以上の文字が大文字化された特徴(例えば“コンピュータ(Computer)”)は同等とみなされてよい。特徴と、例えば、特徴の語幹だけの一つ以上の変形体とが同等であるとみなされてもよい。特徴の例として、特徴と、その一つ以上の同義語が同等とみなされる。本発明の実施例では、概念辞書404は、特徴、及び特徴と同等とみなされる一つ以上の変形体を含んでいる。一つ以上の特徴と同等の変形体が利用者によって定義されてよいことが理解されるはずである。その代わりに、又は上記のことと共に、概念辞書404は、文書モデリングモジュール122が、特徴と同等とみなされる一つ以上の特徴の変形体を自動的に生成することを可能にするアルゴリズムを含んでいることがある。例えば、アルゴリズムは、語幹の変形体若しくは特徴と同等とみなされる特徴の変形体を生成する語幹化アルゴリズムであることがある。
【0047】
本発明の実施例によると、確認ステップ502は文書の各々の段落に関して別々に実行される。二つの段落を持つ文書については、例えば、文書モデリングモジュール122は、第一段落に概念に関する特徴が存在するか否かを確認し、次いで第二段落に概念に関する特徴が存在するか否かを別に確認する。
【0048】
確認ステップ502が文書の各々の段落で実行される、本発明の実施例では、本発明の追加の態様が以下の事例により説明される。二つ以上の段落を持つ文書が、先行する段落に“ジョースミス”を含んでいて、そして一つ以上後の段落に短縮された形“スミス”を含んでいる。この例では、“スミス”ではない“ジョースミス”が、特徴として概念辞書404に含まれている。もし文書モデリングモジュール122が、先行する段落に特徴“ジョースミス”が存在すると確認したら、文書モデリングモジュール122は、短縮された形“スミス”しか含まない一つ以上後の段落にも特徴が存在すると確認することができる。本発明の実施例では、文書モデリングモジュール122は、“ジョースミス”の短縮形を多単語の特徴の最後の単語(すなわち“スミス”)を基に認識する。この実施例では、“スミス”は特徴“ジョースミス”と同等なものとして自動的に認識される。
【0049】
概念の特徴が存在するか否かを確認した後、文書モデリングモジュール122は概念に関する概念重要度を計算する(ステップ504)。概念重要度は、文書に与えられた概念の認識信頼水準を示す。文書モデリングモジュール122は、存在すると確認された特徴に結び付けられた特徴重要度を使って、概念重要度を計算する。本発明の実施例では、数学的関係が、存在すると確認された特徴の特徴重要度に概念重要度を関連付ける。例えば、概念重要度は、これら特徴重要度の合計か重み付き合計かを含むように、これら特徴重要度に線形に関連付けられる。例えば、概念“インターネット”は、特徴“ウェブ”、“ネットワーク”、及び“コンピュータ”を含んでなる特徴セットにより定義されることがある。三つの特徴は、結び付けられた特徴重要度0.9、0.5、及び0.05をそれぞれ持つことがある.特徴“ウェブ”と“コンピュータ”とが文書の中に存在すると確認された後、文書モデリングモジュール122は、概念“インターネット”に関する概念重要度を、特徴重要度0.9と0.05を足して合計0.95の概念重要度として算出できる。
【0050】
特徴重要度に、例えば0から1の間にある数値が割り付けられているところの実施例では、概念重要度に関する計算は、例えば1のような最高の認識水準レベル、に結び付けられた数より大きい数を生み出すことがある。この場合には、概念重要度に関する数値は、最高の認識信頼水準に結び付けられた数を超えないように設定若しくは調整されてよい。例えば、概念に関する概念重要度が、1より大きい数として算出された場合は、概念重要度は1に設定される。他の実施例では、複数の認識された概念に結び付けられた概念重要度は、概念重要度の合計が所定の数、例えば1のような数、に等しくなるように正規化される。例えば、認識された概念“会社A”に関する概念重要度0.8と、認識された概念“会社B”に関する概念重要度0.6は、各概念重要度を1.4で除することにより正規化されることがある。この例では、正規化概念重要度の合計は、0.8/1.4足す0.6/1.4で1となる。
【0051】
本発明の、確認ステップ502が文書の各段落について実施されるところの実施例では、概念に対する概念信頼水準も文書の各段落について計算されることがある。概念信頼水準は、個々の段落に与えられた概念の認識信頼水準を示す。段落についての概念信頼水準は、段落の中に存在すると確認された特徴に結び付けられた特徴重要度を使って計算される。本発明の実施例では、数学的関係が、概念信頼水準をこれらの特徴重要度に関連付ける。例えば、概念信頼水準は、これらの特徴重要度の合計か重み付き合計かを含むように、これら特徴重要度に線形に関連付けられることがある。次いで、概念に関する概念重要度が、一つ以上の段落についての計算された概念信頼水準を用いて計算される。本発明の実施例では、数学的関係が概念重要度をこれら概念信頼水準に結び付ける。例えば、概念重要度は、これらの概念信頼水準の合計か重み付き合計かを含むように、これら概念信頼水準に線形に関連付けられることがある。本発明の実施例では、概念重要度は文書の様々な段落についての概念信頼水準を加算することによって算出される。この実施例については、概念重要度は、文書に与えられた概念の認識概念信頼水準を示すだけではなく、文書が概念を表す頻度をも示す。例えば、ただ一つの段落において最高の信頼水準で認識された概念“コンピュータ”は、二つの段落において最高の信頼水準で認識された概念“ネットワークアプリケーション”より低い概念重要度を持つ。前述したように、概念重要度は、認識された概念の概念重要度の合計が所定の数と等しくなるよう、特定の数若しくは正規化された数を超えないように設定されてよい。
【0052】
文書モデリングモジュール122は、ステップ504から計算された概念の概念重要度を所定の閾値と比較する(ステップ506)。閾値は認識信頼水準を示しており、この認識信頼水準より大きい(又は、以上の)概念は認識されたとみなされる。例えば、概念重要度が0から1の範囲の数値を持っていて、閾値が0.1に設定されている実施例では、0.1未満の概念重要度を持つ概念は、認識されないことが決定されるのに対して、0.1より大きい概念重要度を持つ概念は認識されることが決定される。
【0053】
比較ステップ506に従って、文書モデリングモジュール122は、認識された概念及び/又はその連結された概念重要度を概念モデルの中に組み込むことができる(ステップ508)。図6は、本発明の実施例による、文書に関する概念モデル600を示したものである。図6に示されるように、概念モデル600は複数の項目602、604、606を含んでいる。各々の項目は文書の中で認識された概念を示している。図6において、概念1、概念2から概念Nは、文書モデリングモジュール122が文書の中で認識した概念である。この実施例では、概念モデル600は、認識された概念に関する概念重要度をも示している。
【0054】
本発明の実施例によると、概念モデル600は自動概念であるところの一つ以上の認識された概念も示すことがある。特に、文書モデリングモジュール122は、自動概念であるところの一つ以上の概念を認識することがある。自動概念は、文書の中に繰り返し現れる単語(又は単語のグループ)であって、特徴若しくは特徴の変形体として概念辞書404の中で認識されない単語(又は単語のグループ)である。文書モデリングモジュール122は、単語が図4に示されるノイズ辞書406に(文字通りに、又は短縮された、若しくは語幹だけの、若しくは他の同等の形で)含まれていなければ、前記単語(又は単語のグループ)を自動概念として認識することがある。自動的に生成された概念の概念重要度は、例えば最高の認識信頼水準に該当する所定の値に設定されてよい。
【0055】
文書モデリングモジュール122が、概念モデル600の一つ以上の別バージョンを生成することが理解されるはずである。第一のバージョンでは、概念モデル600は、文書の中で認識された全ての概念(及び結び付けられた概念重要度)を、自動概念については可能な限り除外して、示すことができる。その様な概念モデル600は、例えば概念検索に役に立つ。概念検索を実行するように作られた検索エンジン130は、検索照会で指定された一つ以上の概念を表現している一つ以上の文書を識別できる。概念検索の実行において、検索エンジン130は、文書の概念モデル600が、検索照会で指定された一つ以上の概念を含んでいるか調べることができる。
【0056】
第二のバージョンでは、概念モデル600は、文書の中で最も有意な認識された概念Nを示すことができる。なお、Nは所定の数である。特に、文書モデリングモジュール122は、認識された概念を概念重要度に従って並べ替えることができ、そして概念モデル600の中で最高の概念重要度を持つ認識された概念Nを示せる。その様な概念モデル600は、例えば、“例示照会プログラム”(QBE)を含んでいる概念検索に有用である。概念QBE検索を実行するように作られた検索エンジン130は、関心のある文書との比較で同様の信頼水準(及び/又は重要性)を持つ同様の概念を表現している一つ以上の文書を識別できる。概念QBE検索の実行では、検索エンジン130は、文書の概念モデル600を調べ、そしてこの概念モデル600を関心のある文書の概念モデル600と比較することができる。二つの概念モデルの間の一致度がより高い程、二つの文書は、同様の信頼水準(及び/又は重要度)を有する同様の観念をより多く表現できる。概念モデル600のこのバージョンは、“主要な概念”リストに似ていることが理解されるはずである。
【0057】
文書モデリングモジュール122は概念モデル600の他のバージョンを生成することがある。例えば、概念モデル600は、一つ以上の認識された概念を示すが、結び付けられた概念重要度を示さないことがある。又、文書モデリングモジュール122は、一つ以上の認識された概念を結び付けられた一つ以上の概念識別を含むことによって、一つ以上の認識された概念を概念モデル600の中に組み入れることがある。概念識別は、英数字文字列及び/又は記号文字列であってよいが、認識された概念を一意に識別する。与えられた概念の概念識別が、概念の文字表現を含んでいることを必要としないことが理解されるはずである。例えば、概念識別“1”が、概念“ウェブブラウザ”を一意に識別するために使用され、そして“1”が“ウェブブラウザ”の代わりに概念モデルに含まれることがある。この例では、概念識別“1”と概念“ウェブブラウザ”との間の写像は概念図402に含まれてよい。本発明の実施例では、文書モデリングモジュール122は、概念識別を認識された概念に割り付け、そして概念識別に基づいた概念モデルを生成する。
【0058】
図7は、本発明の別の実施例による文書モデリングモジュール122を示している。図7に示されるように、文書モデリングモジュール122は概念図402を含んでいて、概念図402は、先に図4との関係で論述されたように、概念辞書404とノイズ辞書406とを含んでいる。この実施例では、概念図402は、概念連関辞書708も含んでいる。
【0059】
概念連関辞書708は、概念辞書404に含まれている二以上の概念の間の関係(又は概念連関)を定義する情報を含んでいる。もし二つの概念によって表される各観念が、ともかくもリンクされるなら、二つの概念は、概念連関によって関連付けられてよい。
【0060】
本発明の実施例では、概念連関辞書708が概念分類構造を含んでいる。概念分類構造は、二以上の概念の間の関係を定義する。図8は概念分類構造の例を示している。概念分類構造800は、概念“会社A”802、“会社B”804、“会社C”806、及び“ソフトウェアC”808を含んでいる。これら四個の概念は、文書の中で認識され、そしてそれぞれが概念辞書404の中で特徴セットにより定義された概念である。図8に示されるように、概念分類構造800は概念タイプ“会社”818、“コンピュータハードウェア会社”810、“コンピュータソフトウェア会社”812、及び“製品”814をも含んでいる。概念タイプは、類似の観念を表す一つ以上の概念を集めたものである。図8に示されるように、概念“会社A”802、“会社B”804、及び“会社C”806は、概念タイプ“会社”818に属している。ここで、“会社”818の下位にグループ化された三つの概念はそれぞれが会社の実例である。この例では、会社BとCはコンピュータソフトウェア会社であり、概念“会社B”804と“会社C”806は、概念タイプ“会社”818の下位の概念タイプ“コンピュータソフトウェア会社”812の下位に更にグループ化されている。この例における会社Aは、コンピュータハードウェア会社であり、そして概念“会社A”802は、概念タイプ“会社”818の下位の概念タイプ“コンピュータハードウェア会社”810の下位でグループ化されている。概念“ソフトウェアC”808は、概念タイプ“製品”814の下位でグループ化されている。この概念分類構造800は、概念分類構造の単純化した一例であり、追加の概念及び/又は概念タイプが含まれてもよいことが理解されるはずである。
【0061】
本発明の実施例では、概念タイプは、ゼロ以上の概念プロパティーを定義する。子概念タイプ(例えば、概念タイプ“コンピュータソフトウェア会社”812)は、親概念タイプ(例えば、概念タイプ“会社”818)の全てのプロパティーを受け継いで、そしてゼロ以上の概念プロパティーを更に定義することができる。例えば、親概念タイプ“会社”818は、概念プロパティー“所在地”820を定義することができる。子概念タイプ“コンピュータソフトウェア会社”812及び“コンピュータハードウェア会社”810は、各々概念プロパティー“所在地”820を受け継いでおり、また各々が、ゼロ以上の概念プロパティーを更に定義することができる。例えば、概念タイプ“コンピュータソフトウェア会社”812は、(受け継いだ)概念プロパティー“所在地”820を定義し、更に概念プロパティー“製品”822を定義できる。概念タイプ“コンピュータハードウェア会社”810は(受け継いだ)概念タイプ“所在地”820を単純に定義することがある。
【0062】
概念タイプの下位にグループ化された概念は、概念タイプにより定義された各々の概念プロパティーに関する概念プロパティー値を付与されることがある。もし概念が、親概念タイプの下位の子概念タイプの下位にグループ化されているとすると、その概念は、親概念タイプから受け継いだ概念プロパティーの各々に関する概念プロパティー値と、子概念タイプにより定義された追加の概念プロパティーの各々に関する概念プロパティー値とを付与されることがある。図8に関して、概念“会社A”802は、概念プロパティー“所在地”820に関する概念プロパティー値“A市”824を付与されることがある。又、概念“会社C”806は、概念プロパティー“所在地”820と“製品”822のそれぞれに関する概念プロパティー値“C市”826と“ソフトウェアC”828とを付与される。“ソフトウェアC”を概念“会社C”806に関する概念プロパティー値として付与することが、共通の概念タイプの下位でグループ化されていない二つの概念の間に、関係若しくは概念連関を作り出すことが理解されるはずである。図8では、この概念連関は点線818によって表わされている。
【0063】
概念分類構造800は、一つ以上の概念タイプ、及び/又は一つ以上の概念プロパティー、及び/又は一つ以上の関連付けられた概念プロパティー値を指定する概念検索を可能とする。例えば、関連する一つ以上の概念を表現する文書の単なる識別ではなく、概念分類構造800は、関連する一つ以上の概念タイプを指定することにより、検索エンジン130が、一つ以上の文書を識別することを可能にする。
【0064】
本発明の実施例では、文書モデリングモジュール122は、文書の概念モデルを生成する際に概念連関辞書708を参照する。文書モデリングモジュール122は、一つ以上の認識された概念、及び概念モデルの中の認識された概念に関する一つ以上の概念連関をも組み入れることができる。例えば、概念モデルは、認識された概念の一つ以上の概念タイプを示すことができる。図8に関して、概念“会社C”806を表現している文書に関する概念モデルは、概念“会社C”806、及び概念タイプ“会社”818、及び/又は概念タイプ“コンピュータソフトウェア会社”812を示すことがある。その代わりに、若しくは更に、文書モデリングモジュール122は、概念プロパティー、及び/又は認識された概念に関する結び付けられた概念プロパティー値を概念モデルの中に組み入れることができる。図8に関して、概念“会社C”806を表現している文書に関する概念モデルは、概念“会社C”806、及び概念プロパティー“所在地”820、及び/又は結び付けられた概念プロパティー値“C市”826を示すことができる。更に、概念モデルは概念プロパティー“製品”822、及び/又は結び付けられた概念プロパティー値“ソフトウェアC”828を示してもよい。
【0065】
文書モデリングモジュール122は、一つ以上の概念タイプの一つ以上の概念タイプ識別を含むことにより、一つ以上の概念タイプを概念モデルの中に組み入れることができる。概念タイプ識別は、英数字文字列及び/又は記号文字列であってよいが、概念タイプを一意に識別する。与えられた概念タイプについての概念タイプ識別が、概念タイプの文字表現を含むことを必要としないことが理解されるはずである。例えば、概念タイプ識別“1+”が、概念タイプ“コンピュータソフトウェア会社”812を一意に識別することに使用され、また“1+”が、“コンピュータソフトウェア会社”の代わりに概念モデルに含まれることがある。この例では、概念タイプ識別“1+”と概念タイプ“コンピュータソフトウェア会社”との間の写像は概念図402の中に含まれている。本発明の実施例では、文書モデリングモジュール122は、概念タイプ識別を与えられた概念タイプの認識された概念に割り付け、そして概念タイプ識別に基づいた概念モデルを生成する。同様に、概念プロパティー識別、及び/又は結び付けられた概念プロパティー値識別は各々、英数字文字列及び/又は記号文字列であるが、概念モデルの中に含まれることがある。
【0066】
別の実施例では、検索エンジン130が、検索を実行するときに概念分類構造800を参照する概念検索を実行するように作られることがある。検索エンジン130は、概念連関辞書708をデータ伝送路106を介して参照するか、若しくは概念分類構造800の少なくとも一部を含んでいる取り込まれたファイルを参照できる。
【0067】
従って図8に関して、概念検索は、例えば概念タイプ“コンピュータソフトウェア会社”812の下位の概念のいずれかを表現する文書について照会することができる。この場合、検索は、概念“会社B”804と“会社C”806の一方か両方を表している一つ以上の文書を識別できる。別の例では、概念検索が、“会社”818と、概念プロパティー“所在地”820に結び付けられた概念プロパティー値“A市”824を持っていることとにより文書を識別することがある。ここで、概念検索は概念“会社A”802を表現している一つ以上の文書を識別できる。
【0068】
本発明の実施例では、概念連関辞書708は複数の概念分類構造を含んでいる。本発明の別の実施例では、二以上の分類構造が、概念タイプの同一セットと概念の同一セットとを含んでいる。しかしながら、各々の概念分類構造は、概念タイプ及び/又は概念の異なるグループを持っていてよい。多重の概念分類構造は、異なる視点を含んだ種々のアプリケーションに合わせて単独の概念図402を作ることにより柔軟性を促進する。例えば、第一概念分類構造が、図8に示された概念分類構造800であってよい。第二概念分類構造が、概念タイプの同一セットと概念の同一セットとを、図8に示されるように含んでいてよい。しかし、第二概念分類構造は、概念タイプ“コンピュータハードウェア会社”810の下位に概念“会社B”804を概念“会社A”802と共に含むことがある。この例では、会社Bは、コンピュータソフトウェア製品とコンピュータハードウェア製品の両方を生産している。利用者の視点次第で、会社Bは、コンピュータソフトウェア会社又はコンピュータハードウェア会社とみなされてよい。第一及び第二の概念分類構造は、これらの異なる視点に合わせて作られ、概念検索が利用者の視点に従って文書を探し出すことを可能にする。各々の概念分類構造が、概念プロパティーと概念プロパティー値の対応するセットを持てることが理解されるはずである。
【0069】
本発明の多重概念分類構造を持つ実施例では、文書モデリングモジュール122が、概念モデルを各々の概念分類構造に従って生成することがある。複数の概念モデルが、同一の認識された概念か複数の概念を示すことがある一方で、一つ以上の認識された概念に関する一つ以上の異なる概念連関を示すことがある。代わりに、文書モデリングモジュール122は、利用者、例えば図1のコンピュータ128の利用者、に指定された一つ以上の概念分類構造に従って概念モデルを生成してもよい。
【0070】
本発明の多重概念分類構造を持つ他の実施例では、文書モデリングモジュール122は、全ての概念分類構造に対して一般的な一つの概念モデルを生成する。例えば、生成された概念モデルが、認識された概念、及び/又は対応する概念重要度を示すことはできるが、認識された概念に関する概念連関を示すことはできない。検索エンジン130が、関心の持てる一つ以上の概念分類構造を検索の間に参照する概念検索を実行するように作られることがある。前述したように、検索エンジン130が、データ伝送路106を介して概念連関辞書708を参照するか、又は一つ以上の関心の持てる概念分類構造の少なくとも一部分を含んで取り込まれたファイルを参照することがある。
【0071】
文書についての概念モデル600を生成することに加えて、文書モデリングモジュール122は、更に一つ以上の自動属性、及び/又は一つ以上の自動カテゴリを文書に付与することがある。
【0072】
自動属性は、文書の概念モデル、及び/又は一つ以上の原属性に基づいて文書に生成されるか、又は付与される。前述したように、一つ以上の原属性が文書及び/又は文書ソース104から引き出されることがある。本発明の実施例では、文書統合モジュール120は、XML文書の中の一つ以上の原属性を含み、そして一つ以上の原属性をタグの対で前後を囲む。
【0073】
本発明の実施例では、自動属性は、確実な判定基準を満足する文書に付与された、所定の記述的ラベルである。文書に付与され得る自動属性の例には、たとえば“有用文書”、“販売カタログ文書”、若しくは“FAQ文書”が含まれる。自動属性は、例えば“自動車”のような文書主題も示すことがある。文書に付与され得る自動属性は、対応する自動属性化規則を持っている。文書モデリングモジュール122は、図7に示される自動属性化辞書712の中に一つ以上の自動属性化規則を含んでいる。実行中、文書モデリングモジュール122は、文書が自動属性化規則を満足するかどうかを確認する。もし自動属性化規則が満足されたなら、文書モデリングモジュール122は、対応する自動属性を文書に付与する。
【0074】
本発明の実施例では、自動属性化規則は、以下のタイプの要素:概念、概念重要度、概念プロパティー、概念プロパティー値、及び原属性、の一つ以上に基づいた判定基準を規定できる。ここで、自動属性を文書に生成若しくは付与するときに、文書モデリングモジュール122は、以下のソース:文書の概念モデル600、概念連関辞書708、及びXML形式(若しくは他の形式)の文書、の一つ以上を参照又は調べることができる。自動属性化規則は、一つ以上の論理的、及び/又は数学的比較式と連携する一つ以上の要素を含む判定基準を規定することができる。論理的及び数学的比較式の例には、“and”、“or”、“not”、“より大きい”、“以上”、“より小さい”、“以下”、“等しい”、“等しくない”、及び“類似”が含まれる。更に、“( )”として記号的に表された、グループ化比較式が使用されることがある。これらの比較式はここでは、擬似符号比較式を表すために使われ、個別のコンピュータ言語における比較式との一致を必要としない。
【0075】
例として、概念“ウェブブラウザ“、若しくは概念“ネットワークアプリケーション“、若しくは概念“インターネット”を表現する文書には自動属性“技術”が付与されるべきであることを、自動属性化規則は規定できる。他の例として、概念タイプ“コンピュータソフトウェア”の下位にグループ化された概念を表現していて、“2000年1月12日”以降の作成日原属性を持っている文書が、自動属性“有用文書”を付与されるべきであることを、自動属性化規則は規定できる。自動属性化規則は、文書の概念モデルが、標本文書の概念モデルにどの程度厳密に一致するかに基づいた判定基準を規定することもできる。その様な判定基準は、前述した概念QBE検索と同様であることが理解されるはずである。
【0076】
自動属性化規則を使用することにより、本発明は、文書への正確で矛盾の無いラベルの付与を可能にする。次に、この正確で矛盾の無い付与は、効果的で正しい識別と文書の取り出しを利用者が、又は利用者のために可能とする。
【0077】
本発明は、調査検分者による文書の再検討なしで文書にラベルを付与することができる。更に、自動属性化規則は、利用者により定義され得るものであり、また利用者の要求に合わせて作られ得るものである。例えば、自動属性化規則は、概念“インターネット”を表現していて“2001年1月1日”以降の作成日原属性を持っている文書には、自動属性“有用文書”を付与すべきであることを規定できる。あるいは、自動属性化規則は、概念“地方債”を表現していて“2001年1月1日”以降の作成日原属性を持っている文書に、自動属性“有用文書”を付与すべきであることを規定するように修正されることもある。
【0078】
本発明の実施例では、文書は、その文書が満たす各々の自動属性規則についての自動属性を付与される。従って、文書は、二以上の自動属性を付与されることがある。別の実施例では、文書モデリングモジュール122が、文書が複数の自動属性規則を満たすか否かを順次確認し、そして文書が満たす一番目の自動属性規則に対応する自動属性を付与する。他の実施例は、文書が満たすことができ、且つ属性若しくは複数の属性を付与できる最も適切な規則若しくは複数の規則を捜し出すことを試みており、ここで前記属性若しくは複数の属性は、前記規則若しくは複数の規則に対応するものである。
【0079】
本発明の実施例では、文書モデリングモジュール122は、カテゴリ化分類構造の中の一つ以上のカテゴリに文書を割り付けることができる。文書は、特定の基準を満たすと、カテゴリに割り付けられ得る。図9はカテゴリ化分類構造の例を示している。この例では、カテゴリ化分類構造900は複数のカテゴリを含んでいて、前記複数のカテゴリは様々な文書の主題を表している。カテゴリ化分類構造900は、カテゴリ“政治”902、“スポーツ”904、及び“コンピュータ”906を含んでおり、それらはこの例における主カテゴリである。カテゴリ化分類構造900は、カテゴリ“政治”902の下位に、カテゴリ“米国政治”914、及び“外国政治”916も含んでいる。カテゴリ“バスケットボール”908、“フットボール”910、及び“野球”912が、カテゴリ“スポーツ”904の下位に含まれている。カテゴリ“米国政治”914に割り付けられた文書は、例えば、カテゴリ“政治”902にも割り付けられることが理解されるはずである。
【0080】
本発明の実施例では、カテゴリ化分類構造の一つ以上のカテゴリが、対応する自動カテゴリ化規則を持っている。図7に関して、文書モデリングモジュール122は、一つ以上の自動カテゴリ化規則を自動カテゴリ化辞書714の中に含んでいる。文書モデリングモジュール122は、文書が自動カテゴリ化規則を満たすかどうかを確認する。自動カテゴリ化規則が満たされた場合は、文書モデリングモジュール122は文書を該当するカテゴリに割り付ける。本発明の実施例では、カテゴリ化分類構造におけるカテゴリの全てが対応する自動カテゴリ化規則を持っているわけではない。例えば、もし“米国政治”914及び“外国政治”916のような下位のカテゴリであるカテゴリが、対応する自動カテゴリ化規則を持っているなら、図9の“政治”902のような主カテゴリであるカテゴリは、対応する自動カテゴリ化規則を持たなくてもよい。
【0081】
本発明の実施例では、カテゴリに割り付けられた文書は、カテゴリを示す自動カテゴリを割り付けられることがある。例えば、カテゴリ“米国政治”914に割り付けられた文書は、自動カテゴリ“米国政治(U.S. Politics)”を割り付けられることがある。自動カテゴリが、カテゴリを一意に識別するラベルであってよく、例えば英数字文字列及び/又は記号文字列のようなものであってよいことが理解されるはずである。
【0082】
本発明の実施例では、自動カテゴリ化規則は、以下のタイプの要素:概念、概念重要度、概念タイプ、概念プロパティー、概念プロパティー値、原属性、及び自動属性、の一つ以上に基づいた判定基準を規定することができる。故に、自動カテゴリを文書に生成若しくは付与するときに、文書モデリングモジュール122は以下のソース:文書の概念モデル600、概念連関辞書708、XML形式(又は他の形式)の文書、及び文書に割り付けられた一つ以上の自動属性、の一つ以上を参照若しくは調査することができる。自動属性化規則と同様に、自動カテゴリ化規則は、一つ以上の論理的及び/又は数学的比較式及び/又はグループ化比較式と連携する一つ以上の要素を含む判定基準を規定できる。自動カテゴリ化規則は、文書の概念モデルが、標本文書の概念モデルにどの程度厳密に一致するかに基づいた判定基準も規定することができる。
【0083】
例として、自動カテゴリ化規則は、概念“ウェブブラウザ”、若しくは概念“ネットワークアプリケーション”、若しくは概念“インターネット”を表現する文書が図9のカテゴリ“コンピュータ”906に割り付けられることを規定できる。
【0084】
自動カテゴリ化規則を使用することによって、本発明は、カテゴリ化分類構造の一つ以上のカテゴリへ、文書を正確で矛盾無く分類することを可能とする。この正確で矛盾の無い分類は、次には、利用者による、若しくは利用者のための、文書の効果的で正しい識別と検索とを可能にする。
【0085】
本発明は、調査検分者による文書のどのような再吟味もなしに、文書を分類することができる。自動カテゴリ化規則が、利用者により定義されたものであって、利用者の要求に合わせて作られ得ることが理解されるはずである。
【0086】
図1に関して、メモリ118はモデリングディレクトリ124を含んでいる。モデリングディレクトリ124は、例えば、関係データベースのようなデータ保存庫であってよい。本発明の一つの実施例では、文書モデリングモジュール122が、文書108に関する生成されたメタデータの少なくとも一部をモデリングディレクトリ124に保存する。特に、文書モデリングモジュール122は、生成された概念モデル600の少なくとも一部を保存できる。その代わりに、若しくはこれと共に、文書モデリングモジュール122は、文書108に付与された一つ以上の自動属性、及び/又は文書108に付与された一つ以上の自動カテゴリを保存することがある。
【0087】
本発明の実施例では、文書モデリングモジュール122は、例えば、文書108を識別したり、及び/又は文書ソース104の中での文書108の位置を与えるリンク若しくは識別子を与えることにより、保存されたメタデータの少なくとも一部を文書108に結びつける。このリンク若しくは識別子は、保存されたメタデータと共に保存されてもよい。検索エンジン130は、データ伝送路106を介してモデリングディレクトリ124にアクセスすることができ、そして文書108の保存されたメタデータが検索照会に一致した場合に、文書108を識別する。文書108が識別されたなら、利用者、例えばコンピュータ128の利用者は、文書ソース104から文書108を取り出すことができる。
【0088】
その代わりに、及び/又は上述のことと共に、サーバーコンピュータ102は、生成されたメタデータの少なくとも一部を文書ソース104に伝送することができる。本発明の実施例では、文書モデリングモジュール122は、文書108を識別したり、及び/又は文書ソース104の中での文書108の位置を与えるリンク若しくは識別子を与えることにより、生成されたメタデータの少なくとも一部を文書108に結び付ける。文書モデリングモジュール122は、メタデータを(リンク若しくは識別子と共に)文書統合モジュール120に提出する。文書統合モジュール120は、データ伝送路106を介してメタデータを(リンク若しくは識別子と共に)文書ソース104に伝送する。文書ソース104は伝送されたメタデータをメモリ136に保存することができる。検索エンジン130は、メモリ136に保存されている伝送されたメタデータにアクセスすることが可能で、そして文書108の保存されたメタデータが検索照会に合致した場合に文書108を識別することができる。本発明の別の実施例における文書統合モジュール120が、リンク若しくは識別子を与えてもよいことが理解されるはずである。
【0089】
図10A〜Eは、本発明の実施例により、文書上で実行されることがある処理ステップの順序を示したものである。図10Aは、文書1002を示しており、この文書1002はこの例ではワード文書である。文書1002は最初に、文書ソース104に保存され、そして文書1002のコピーが文書統合モジュール120により受け取られる。図10Aに示されるように、文書1002には、テキスト部1004と非テキスト部1006とがある。この例では、非テキスト部1006は静止画像(例えばJPEG画像)である。
【0090】
文書統合モジュール120は、ワード形式の文書1002のコピーを図10Bに示されるようなXML文書1002(b)に変換する。この例では、文書統合モジュール120は、文書1002の原属性“2001年1月1日”1008を文書ソース104から引き出し、そしてXML文書1002(b)にその原属性を含めている。図10Bに示されるように、“2001年1月1日”は、一対のタグ<作成日>と</作成日>によって前後を囲まれて示されている。非テキスト部1006は分離されており、テキスト部1004が、一対のタグ<P1>と</P1>に囲まれて示されている。
【0091】
文書モデリングモジュール122はXML文書1002(b)を処理する。特に、文書モデリングモジュール122は概念“インターネット”を認識する。この例では、概念“インターネット”は、“ネットワーク”、“ウェブ”、“TCP/IP”、“コンピュータ”、及び“インターネット”を含んでなる特徴セットにより定義され得る。図10Cに示されるように、文書モデリングモジュール122は、二つの特徴(“ウェブ”と“コンピュータ”)がXML文書1002(b)に存在するか否かを確認する。二つの特徴に結び付けられた特徴重要度(例えば、それぞれ0.9と0.05)を使って、文書モデリングモジュール122は概念“インターネット”についての概念重要度を、例えば特徴重要度を加算することによって算出する。この例では、計算された概念重要度0.95は、閾値0.1を超えているので、概念“インターネット”は、認識されることを決定される。図10Cに示されるように、文書モデリングモジュール122は、第二の概念“IBM”も認識する。概念“IBM”が別の特徴セットによって定義されてもよく、前記特徴セットが概念“インターネット”を定義する一つ以上の特徴を含んでもよいことが理解されるはずである。
【0092】
文書モデリングモジュール122は、概念“インターネット”と“IBM”とに基づいて文書1002についての概念モデル1010を生成する。図10Dに示されるように、文書モデリングモジュール122は認識された概念“インターネット”と“IBM”、及びそれらの計算された概念重要度を概念モデル1010に組み入れる。
【0093】
図10Eに示されるように、文書モデリングモジュール122は自動属性“有用文書”1012を文書1002に付与する。この例では、自動属性“有用文書”1012についての自動属性化規則は、概念“インターネット”を表現していて、且つ “2000年1月1日”以降の作成日原属性を持っている文書が、自動属性“有用文書”1012を付与されるべきことを規定する。文書モデリングモジュール122は概念モデル1010を参照し、そして概念“インターネット”が示されていると確認する。文書モデリングモジュール122はXML形式1002(b)の文書を参照し、そして作成日原属性が“2000年1月1日”以降であると確認する。
【0094】
文書モデリングモジュール122は、自動カテゴリ“技術”1014も文書1002に付与する。この例では、自動カテゴリ化規則は、概念“インターネット”若しくは概念“IBM”を表現している文書が自動カテゴリ“技術“1014を付与されるべきであることを規定できる。
【0095】
この例では、文書モデリングモジュールが、生成されたメタデータ1010、1012、及び1014をリンク若しくは識別子(図10Eには図示されず)とともにモデリングディレクトリ124の中に保存する。検索エンジン130は、保存されたメタデータ1010、1012、及び1014が検索照会に合致する場合に文書1002を識別するために、例えばデータ伝送路106を介して、モデリングディレクトリ124にアクセスすることができる。もし文書1002が識別されたなら、利用者は文書1002を文書ソース104から引き出すことができる。
【0096】
本発明の詳細な実施例の前述した説明は、実例と解説を目的として提示されたものである。それらは、完全であること若しくは開示された形態に発明を限定することを意図するものではない。明らかに多くの修正と変更が上述の教示の観点から可能である。
【0097】
例えば、図1に関連して、本発明により処理される文書は、サーバーコンピュータ102のメモリ118に最初に保存されていて、そして文書ソース104から取り出されたり提出されたりするとは限らない。この変更では、検索エンジン130は、サーバーコンピュータ102に保存されている文書をデータ伝送路106を介して識別することができる。
【0098】
図1に関連して、文書108(若しくはそのコピー)を受け取ることの代わりに、文書統合モジュール120が、テキスト部110、及び/又は一つ以上の文書108の属性というような、文書108の一部分を受け取ってもよい。
【0099】
図1に関連して、メタデータを保存することに加えて、メモリ118は文書108(又はそのコピー)を文書ソース104から受け取ったときと同じその初期形式で、若しくはその共通形式で保存してもよい。本発明の実施例では、文書108は、文書ソース104から受け取られてメモリ118に保存され、そして文書108のコピーが作成されて文書モデリングモジュール122による処理のために提出される。上記のことの代わりにまたは上記のことと同時に、メモリ118は、テキスト部110若しくは非テキスト部112というような、文書108の一部分を保存してもよい。上記のことの代わりにまたは上記のことと同時に、メモリ118は、文書108(若しくはそのコピー)から、及び/又は文書ソース104から抽出された一つ以上の原属性を保存することがある。
【0100】
図1に関連して、文書統合モジュール120、文書モデリングモジュール122、及びモデリングディレクトリ124は、データ伝送路により接続された二以上の別個のサーバーコンピュータに存在することがあり、前記データ伝送路は、有線又は無線のデータ伝送路であってよい。
【0101】
図1に関連して、本発明の実施例は、メモリ118の中に、文書モデリングモジュール122を含むが文書統合モジュール120を含まないことがある。この実施例では、本発明により処理される文書は、サーバーコンピュータ102のメモリ118に最初に保存されており、文書ソース104から引き出されたり提出されたりする必要がない。
【0102】
本発明の実施例が、文書の一つ以上の自動カテゴリに基づいた自動属性を文書に付与若しくは生成してもよい。
【0103】
文書に対する一つ以上の自動カテゴリの付与に替えて、本発明の実施例は、文書を一つ以上の個々のデータベースに保存することにより文書を分類することがある。各々の個々のデータベースは、カテゴリに対応することができ、また個々のデータベースは、図1に示されるメモリ118に存在してもよい。
【0104】
本発明の実施例は、生成されたメタデータの一部分を文書それ自身に加える(又は別な方法で取り入れる)ことにより、文書の生成されたメタデータの少なくとも一部分を文書に結び付けてもよい。
【0105】
本発明の実施例は、コンピュータネットワーク(例えば、ネットワーク100)を構成することと、その様々な構成要素とに責任のある技術スタッフと同様のヘルプシステムを含むことがあり、このヘルプシステムは利用者に援助を提供するウィザードを含んでいる。
【0106】
本発明の実施例は更に、コンピュータ読取り媒体を持つコンピュータ記憶製品に関係しており、前記コンピュータ読取り媒体はその上に、コンピュータに実行される様々な演算のための計算機コードを持っている。前記媒体と計算機コードは、本発明の目的のために特別に設計されて作られたものであってよく、又はそれらは、コンピュータソフトウェアの技術分野に知識を有する者には公知であり且つ利用される種類のものであり得る。コンピュータ読み取り媒体の例には、ハードディスク及びフロッピーディスク及び磁気テープのような磁気媒体、並びにCD−ROM及びホログラフィックデバイスのような光媒体、並びにフロプティカルディスクのような光磁気媒体、並びに特定用途向け集積回路(“ASICs”)及びプログラム可能論理デバイス(“PLDs”)及びROMとRAMデバイスのようなプログラムコードを記憶しそして実行するように特に作られたハードウェア装置、が含まれるが、これらのものに制限されない。計算機コードの例には、コンパイラによって生成されるような機械コード、及びインタープリタを使ってコンピュータにより実行される高水準コードを含んでいるファイルが含まれる。例えば、本発明の実施例は、Java、C++、若しくは他のオブジェクト指向のプログラミング言語と開発ツールを使用して実行されることがある。
【0107】
最後に、本発明が、機械実行可能なソフトウェア命令の代わりに又はこれと組み合わされて、ハードウェアに組み込まれた回路の中で具現化され得ることが理解されるはずである。
【0108】
標準的な技術者は、本明細書に説明された方法とシステムの説明を更に発展させることを必要としないであろうが、それでもなお、これらの方法とシステムの準備に有用な手引きを、関連技術分野における標準的な参考資料を調査することによって見つけ出すことができよう。例えば、標準的な技術者は、米国特許第6028605号(U.S. Patent No. 6,028,605)名称“Multi−Dimensional Analysis of Objects by Manipulating Discovered Semantic Properties”、交付日2000年2月22日、発明者 Tom Conrad 、Scott Wiener、 のような関連する特許を調査のために選択してもよい。なお前記特許はこの引用により説明に代える。
【0109】
熟練した技術者は、米国仮出願第60/192236号(Provisional Application Serial No. 60/192,236)、名称“Method and Apparatus for Identifying Document Contents for Rapid Retrieval”、出願日2000年3月27日、発明者 Victor Spivak、Alex Rankov、Howard Shao、Razmik Abnous、及び Matt Shananhan、を調べることにより有用な手引きを見つけ出すかもしれない。なお、前記特許はこの引用により説明に代える。
【0110】
実施例は、本発明の原理と応用例を説明するために選ばれて記述され、その結果本技術分野に知識を有する他の者が本発明を利用することを可能とし、様々な修正を伴う様々な実施例も同様に様々な用途に適応させられることが理解されるはずである。本発明の範囲は、前述の特許請求の範囲とその均等物とによって定められることが意図されている。
【図面の簡単な説明】
【図1】
図1は、本発明の実施例に従って運用されることがあるコンピュータネットワークを示した図である。
【図2】
図2は、本発明の実施例に従って実行される処理ステップを示した図である。
【図3】
図3は、本発明の実施例に従って、文書統合モジュールによって実行される処理ステップの詳細な説明を示した図である。
【図4】
図4は、本発明の実施例に従った文書モデリングモジュールを示した図である。
【図5】
図5は、本発明の実施例に従って、文書の中に一つ以上の概念を認識し、且つ一つ以上の概念に基づいた概念モデルを生成している文書モデリングモジュールが、実行している処理ステップの詳細な説明を提供する図である。
【図6】
図6は、本発明の実施例における、文書についての概念モデルを示した図である。
【図7】
図7は、本発明の別の実施例における、文書モデリングモジュールを示した図である。
【図8】
図8は、本発明の実施例に従って、概念分類構造の一例を示した図である。
【図9】
図9は、本発明の実施例に従って、カテゴリ化分類構造の一例を示した図である。
【図10A〜E】
図10A〜Eは、本発明の実施例に従って文書上に実行されることがある処理ステップの順序を示した図である。

Claims (20)

  1. コンピュータで実行される文書処理の方法であって、前記方法が:
    文書を共通形式文書に変換する段階と;
    前記共通形式文書の中の、前記共通形式文書に表現された基本観念を表しているところの概念を認識する段階と;
    前記概念を概念モデルに組み入れる段階とを備えている、コンピュータで実行される文書処理の方法。
  2. 前記概念を認識する段階が、前記共通形式文書の中の複数の特徴を識別する段階を含んでいて、前記複数の特徴が、前記共通形式文書における前記概念の証拠を表しているところの、請求項1に記載のコンピュータで実行される文書処理の方法。
  3. 前記概念を認識する段階が更に:
    前記概念についての概念重要度であって、前記概念に関する認識信頼水準を表している概念重要度を、前記複数の特徴に結び付けられた複数の特徴重要度を使って算出する段階と;
    前記概念重要度を所定の閾値と比較する段階とを含んでいる、請求項2に記載のコンピュータで実行される文書処理の方法。
  4. 前記共通形式文書に対する記述的ラベルである自動属性を前記概念モデルの参照によって生成する段階を更に備える、請求項1に記載のコンピュータで実行される文書処理の方法。
  5. 前記概念モデルを参照することによって、前記共通形式文書を主題カテゴリに割り付ける段階を更に備える請求項1に記載のコンピュータで実行される文書処理の方法。
  6. 前記変換する段階が、前記文書をXML形式の共通形式文書に変換する段階を含んでいるところの、請求項1に記載のコンピュータで実行される文書処理の方法。
  7. 指定された方法で機能することをコンピュータに命令するためのコンピュータ読み取り媒体であって:
    文書に表現された基本観念を認識するための命令と;
    前記基本観念に概念識別を付与するための命令と;
    前記概念識別に基づいた概念モデルを生成するための命令とを含んでなるコンピュータ読み取り媒体。
  8. 前記基本観念を認識するための前記命令が、複数の特徴が前記文書に存在するか否かを確認するための命令を含んでいて、前記複数の特徴が、前記基本観念が前記文書に表現されていることの証拠を表しているところの、請求項7に記載のコンピュータ読み取り媒体。
  9. 前記基本観念を認識するための前記命令が更に:
    前記複数の特徴に結び付けられた複数の特徴重要度を使って、前記基本観念についての認識信頼水準を算出するための命令と;
    前記認識信頼水準を所定の閾値と比較する命令とを含んでいるところの、請求項8に記載のコンピュータ読み取り媒体。
  10. 前記概念モデルを生成するための前記命令が、前記認識信頼水準を前記概念モデルに組み入れるための命令を含んでいるところの、請求項9に記載のコンピュータ読み取り媒体。
  11. 前記概念モデルに基づいた自動属性を前記文書に付与するための命令を更に備えていて、前記自動属性が、前記文書に対する記述的ラベルを表している、請求項7に記載のコンピュータ読み取り媒体。
  12. 前記概念モデルに基づいた、カテゴリ化分類構造のカテゴリに前記文書を収納するための命令を更に備えていて、前記カテゴリ化分類構造が複数のカテゴリを含んでいる、請求項7に記載のコンピュータ読み取り媒体。
  13. 前記カテゴリに前記文書を収納するための前記命令が、前記文書に自動カテゴリを付与するための命令を含んでいて、前記自動カテゴリが、前記カテゴリに関する記述的ラベルを表している、請求項12に記載のコンピュータ読み取り媒体。
  14. プロセッサと、前記プロセッサに接続されたメモリとを具備するコンピュータであって、前記メモリが、文書モデリングモジュールを含んでいて、前記文書モデリングモジュールが、文書の中に表現された基本観念を表している概念を認識することを前記プロセッサに命令するように作られている第一モジュールと、前記概念に基づいた概念モデルを生成することを前記プロセッサに命令するように作られている第二モジュールとを持っている、コンピュータ。
  15. 前記メモリが、文書統合モジュールを更に含んでいて、前記文書統合モジュールが、第三モジュールを持っており、前記第三モジュールが、初期形式文書を共通形式を有する前記文書に変換することを前記プロセッサに命令するように作られているところの、請求項14に記載のコンピュータ。
  16. 前記文書統合モジュールが、更に第四モジュールと第五モジュールとを持っていて:
    前記第四モジュールが、テキスト部を前記初期形式文書から分離することを前記プロセッサに命令するように作られていて;
    前記第五モジュールが、前記テキスト部を前記文書に組み入れることを前記プロセッサに命令するように作られているところの、請求項15に記載のコンピュータ。
  17. 前記第一モジュールが第六モジュールと第七モジュールと第八モジュールとを持っていて:
    前記第六モジュールが、前記文書の中に複数の特徴が存在するか否かを確認することを前記プロセッサに命令するように作られていて、前記複数の特徴が、文書における前記概念の証拠を表しており;
    前記第七モジュールが、前記複数の特徴に結び付けられた複数の特徴重要度を使って、前記概念についての概念重要度を算出することを前記プロセッサに命令するように作られていて、前記概念重要度が、前記概念についての認識信頼水準を表しており;
    前記第八モジュールが、前記概念重要度を所定の閾値と比較することを前記プロセッサに命令するように作られているところの、請求項14に記載のコンピュータ。
  18. 前記メモリが、モデリングディレクトリを更に含んでいて、前記文書モデリングモジュールが、前記概念モデルを前記モデリングディレクトリの中に保存することを前記プロセッサに命令するよう作られた第九モジュールを更に持っているところの、請求項14に記載のコンピュータ。
  19. 前記文書モデリングモジュールが第十モジュールを更に持っていて、前記第十モジュールが、前記概念モデルに基づいた自動属性を生成することをプロセッサに命令するように作られていおり、前記自動属性が記述的ラベルを表しているところの、請求項14に記載のコンピュータ。
  20. 前記概念モデルに基づいた、複数のカテゴリの中の一つのカテゴリに、前記文書を分類することを前記プロセッサに命令するように作られた第十一モジュールを、前記文書モデリングモジュールが更に持っているところの、請求項14に記載のコンピュータ。
JP2001571255A 2000-03-27 2001-03-23 文書用メタデータ生成のための方法と装置 Pending JP2004501421A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US19223600P 2000-03-27 2000-03-27
PCT/US2001/040363 WO2001073607A2 (en) 2000-03-27 2001-03-23 Method and apparatus for generating metadata for a document

Publications (1)

Publication Number Publication Date
JP2004501421A true JP2004501421A (ja) 2004-01-15

Family

ID=22708815

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001571255A Pending JP2004501421A (ja) 2000-03-27 2001-03-23 文書用メタデータ生成のための方法と装置

Country Status (6)

Country Link
US (1) US20020016800A1 (ja)
EP (1) EP1309927A2 (ja)
JP (1) JP2004501421A (ja)
AU (1) AU2001251736A1 (ja)
CA (1) CA2404337A1 (ja)
WO (1) WO2001073607A2 (ja)

Families Citing this family (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6834280B2 (en) 2000-02-07 2004-12-21 Josiah Lee Auspitz Systems and methods for determining semiotic similarity between queries and database entries
US7200627B2 (en) * 2001-03-21 2007-04-03 Nokia Corporation Method and apparatus for generating a directory structure
US7194483B1 (en) 2001-05-07 2007-03-20 Intelligenxia, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
USRE46973E1 (en) 2001-05-07 2018-07-31 Ureveal, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
US7627588B1 (en) * 2001-05-07 2009-12-01 Ixreveal, Inc. System and method for concept based analysis of unstructured data
GB2377046A (en) * 2001-06-29 2002-12-31 Ibm Metadata generation
AUPR710801A0 (en) * 2001-08-17 2001-09-06 Gunrock Knowledge Concepts Pty Ltd Knowledge management system
JP2003242007A (ja) * 2001-12-14 2003-08-29 Ricoh Co Ltd 電子データ管理装置、電子データ管理方法、電子データ管理プログラム、記録媒体、及び電子データ管理システム
US8589413B1 (en) 2002-03-01 2013-11-19 Ixreveal, Inc. Concept-based method and system for dynamically analyzing results from search engines
US7398464B1 (en) * 2002-05-31 2008-07-08 Oracle International Corporation System and method for converting an electronically stored document
ATE378640T1 (de) * 2002-07-01 2007-11-15 Josiah Lee Auspitz Semiotisches analysesystem, computerlesbares speichermedium und verfahren
US7085755B2 (en) 2002-11-07 2006-08-01 Thomson Global Resources Ag Electronic document repository management and access system
US8745519B2 (en) * 2002-12-23 2014-06-03 International Business Machines Corporation User-customizable dialog box
US7047236B2 (en) * 2002-12-31 2006-05-16 International Business Machines Corporation Method for automatic deduction of rules for matching content to categories
EP1477892B1 (en) * 2003-05-16 2015-12-23 Sap Se System, method, computer program product and article of manufacture for inputting data in a computer system
US7321880B2 (en) 2003-07-02 2008-01-22 International Business Machines Corporation Web services access to classification engines
US20050086209A1 (en) * 2003-10-16 2005-04-21 Peilin Chou Conceptual article collector
US7487498B2 (en) * 2003-11-12 2009-02-03 Microsoft Corporation Strategy for referencing code resources
US7464330B2 (en) * 2003-12-09 2008-12-09 Microsoft Corporation Context-free document portions with alternate formats
US20050138007A1 (en) * 2003-12-22 2005-06-23 International Business Machines Corporation Document enhancement method
JP4135659B2 (ja) * 2004-03-09 2008-08-20 コニカミノルタビジネステクノロジーズ株式会社 フォーマット変換装置およびファイル検索装置
US7617450B2 (en) * 2004-09-30 2009-11-10 Microsoft Corporation Method, system, and computer-readable medium for creating, inserting, and reusing document parts in an electronic document
US20060136816A1 (en) * 2004-12-20 2006-06-22 Microsoft Corporation File formats, methods, and computer program products for representing documents
US7617229B2 (en) * 2004-12-20 2009-11-10 Microsoft Corporation Management and use of data in a computer-generated document
US7617451B2 (en) * 2004-12-20 2009-11-10 Microsoft Corporation Structuring data for word processing documents
US7752632B2 (en) * 2004-12-21 2010-07-06 Microsoft Corporation Method and system for exposing nested data in a computer-generated document in a transparent manner
US7770180B2 (en) * 2004-12-21 2010-08-03 Microsoft Corporation Exposing embedded data in a computer-generated document
US7849090B2 (en) * 2005-03-30 2010-12-07 Primal Fusion Inc. System, method and computer program for faceted classification synthesis
US20060277452A1 (en) * 2005-06-03 2006-12-07 Microsoft Corporation Structuring data for presentation documents
US20070022128A1 (en) * 2005-06-03 2007-01-25 Microsoft Corporation Structuring data for spreadsheet documents
US7877420B2 (en) * 2005-06-24 2011-01-25 Microsoft Corporation Methods and systems for incorporating meta-data in document content
US8171394B2 (en) * 2005-06-24 2012-05-01 Microsoft Corporation Methods and systems for providing a customized user interface for viewing and editing meta-data
US20070073770A1 (en) * 2005-09-29 2007-03-29 Morris Robert P Methods, systems, and computer program products for resource-to-resource metadata association
US20070073751A1 (en) * 2005-09-29 2007-03-29 Morris Robert P User interfaces and related methods, systems, and computer program products for automatically associating data with a resource as metadata
US7797337B2 (en) * 2005-09-29 2010-09-14 Scenera Technologies, Llc Methods, systems, and computer program products for automatically associating data with a resource as metadata based on a characteristic of the resource
US20070100862A1 (en) * 2005-10-23 2007-05-03 Bindu Reddy Adding attributes and labels to structured data
US7933900B2 (en) * 2005-10-23 2011-04-26 Google Inc. Search over structured data
US20070124319A1 (en) * 2005-11-28 2007-05-31 Microsoft Corporation Metadata generation for rich media
US20070174255A1 (en) * 2005-12-22 2007-07-26 Entrieva, Inc. Analyzing content to determine context and serving relevant content based on the context
US7676485B2 (en) * 2006-01-20 2010-03-09 Ixreveal, Inc. Method and computer program product for converting ontologies into concept semantic networks
US20070198542A1 (en) * 2006-02-09 2007-08-23 Morris Robert P Methods, systems, and computer program products for associating a persistent information element with a resource-executable pair
JP4453687B2 (ja) * 2006-08-03 2010-04-21 日本電気株式会社 テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム
WO2008030510A2 (en) * 2006-09-06 2008-03-13 Nexplore Corporation System and method for weighted search and advertisement placement
US9135322B2 (en) 2006-09-18 2015-09-15 Emc Corporation Environment classification
US8612570B1 (en) 2006-09-18 2013-12-17 Emc Corporation Data classification and management using tap network architecture
US7987185B1 (en) 2006-12-29 2011-07-26 Google Inc. Ranking custom search results
US20080183725A1 (en) * 2007-01-31 2008-07-31 Microsoft Corporation Metadata service employing common data model
US20080189265A1 (en) * 2007-02-06 2008-08-07 Microsoft Corporation Techniques to manage vocabulary terms for a taxonomy system
US9405830B2 (en) 2007-02-28 2016-08-02 Aol Inc. Personalization techniques using image clouds
US20080270381A1 (en) * 2007-04-24 2008-10-30 Interse A/S Enterprise-Wide Information Management System for Enhancing Search Queries to Improve Search Result Quality
US8478756B2 (en) * 2007-07-18 2013-07-02 Sap Ag Contextual document attribute values
US8548964B1 (en) 2007-09-28 2013-10-01 Emc Corporation Delegation of data classification using common language
US9141658B1 (en) 2007-09-28 2015-09-22 Emc Corporation Data classification and management for risk mitigation
US9323901B1 (en) * 2007-09-28 2016-04-26 Emc Corporation Data classification for digital rights management
US9461890B1 (en) 2007-09-28 2016-10-04 Emc Corporation Delegation of data management policy in an information management system
US8868720B1 (en) 2007-09-28 2014-10-21 Emc Corporation Delegation of discovery functions in information management system
US8522248B1 (en) 2007-09-28 2013-08-27 Emc Corporation Monitoring delegated operations in information management systems
US8712926B2 (en) * 2008-05-23 2014-04-29 International Business Machines Corporation Using rule induction to identify emerging trends in unstructured text streams
US8301646B2 (en) * 2008-08-21 2012-10-30 Centurylink Intellectual Property Llc Research collection and retention system
US9245243B2 (en) * 2009-04-14 2016-01-26 Ureveal, Inc. Concept-based analysis of structured and unstructured data using concept inheritance
CN102483747A (zh) * 2009-08-11 2012-05-30 Cpa全球专利研究有限公司 图像要素检索
US8719294B2 (en) * 2010-03-12 2014-05-06 Fiitotech Company Limited Network digital creation system and method thereof
US8457948B2 (en) 2010-05-13 2013-06-04 Expedia, Inc. Systems and methods for automated content generation
US9519883B2 (en) 2011-06-28 2016-12-13 Microsoft Technology Licensing, Llc Automatic project content suggestion
US20130006986A1 (en) * 2011-06-28 2013-01-03 Microsoft Corporation Automatic Classification of Electronic Content Into Projects
US20130031097A1 (en) * 2011-07-29 2013-01-31 Mark Sutter System and method for assigning source sensitive synonyms for search
US9607012B2 (en) 2013-03-06 2017-03-28 Business Objects Software Limited Interactive graphical document insight element
US9535913B2 (en) 2013-03-08 2017-01-03 Konica Minolta Laboratory U.S.A., Inc. Method and system for file conversion
US10157175B2 (en) * 2013-03-15 2018-12-18 International Business Machines Corporation Business intelligence data models with concept identification using language-specific clues
US10698924B2 (en) 2014-05-22 2020-06-30 International Business Machines Corporation Generating partitioned hierarchical groups based on data sets for business intelligence data models
US20160063064A1 (en) * 2014-08-27 2016-03-03 International Business Machines Corporation Recording reasons for metadata changes
US9864750B2 (en) 2014-12-31 2018-01-09 Konica Minolta Laboratory U.S.A., Inc. Objectification with deep searchability
US9798724B2 (en) 2014-12-31 2017-10-24 Konica Minolta Laboratory U.S.A., Inc. Document discovery strategy to find original electronic file from hardcopy version
US10002179B2 (en) 2015-01-30 2018-06-19 International Business Machines Corporation Detection and creation of appropriate row concept during automated model generation
US9984116B2 (en) 2015-08-28 2018-05-29 International Business Machines Corporation Automated management of natural language queries in enterprise business intelligence analytics
JP6834060B2 (ja) * 2018-11-30 2021-02-24 了宣 山本 文書整理支援システム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05128152A (ja) * 1991-11-06 1993-05-25 Hitachi Ltd 文書検索支援方法
JPH06314297A (ja) * 1993-04-30 1994-11-08 Omron Corp 文書処理装置および方法,ならびにデータ・ベース検索装置および方法
JPH06348755A (ja) * 1993-06-07 1994-12-22 Hitachi Ltd 文書分類方法およびそのシステム
JPH0922414A (ja) * 1995-07-06 1997-01-21 Hitachi Ltd 文書分類支援方法および装置
JPH09297766A (ja) * 1996-05-01 1997-11-18 N T T Data Tsushin Kk 類似文書検索装置
WO1999014690A1 (fr) * 1997-09-17 1999-03-25 Hitachi, Ltd. Procede d'addition d'un mot cle au moyen d'informations de liaison

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5696916A (en) * 1985-03-27 1997-12-09 Hitachi, Ltd. Information storage and retrieval system and display method therefor
US4930077A (en) * 1987-04-06 1990-05-29 Fan David P Information processing expert system for text analysis and predicting public opinion based information available to the public
US5687364A (en) * 1994-09-16 1997-11-11 Xerox Corporation Method for learning to infer the topical content of documents based upon their lexical content
US6026388A (en) * 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
US5717914A (en) * 1995-09-15 1998-02-10 Infonautics Corporation Method for categorizing documents into subjects using relevance normalization for documents retrieved from an information retrieval system in response to a query
US5873076A (en) * 1995-09-15 1999-02-16 Infonautics Corporation Architecture for processing search queries, retrieving documents identified thereby, and method for using same
US5740425A (en) * 1995-09-26 1998-04-14 Povilus; David S. Data structure and method for publishing electronic and printed product catalogs
US6076088A (en) * 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
US5982507A (en) * 1996-03-15 1999-11-09 Novell, Inc. Method and system for generating in a headerless apparatus a communications header for use in routing of a message
US6101515A (en) * 1996-05-31 2000-08-08 Oracle Corporation Learning system for classification of terminology
US6119114A (en) * 1996-09-17 2000-09-12 Smadja; Frank Method and apparatus for dynamic relevance ranking
US5897645A (en) * 1996-11-22 1999-04-27 Electronic Data Systems Corporation Method and system for composing electronic data interchange information
JP3579204B2 (ja) * 1997-01-17 2004-10-20 富士通株式会社 文書要約装置およびその方法
AUPO489297A0 (en) * 1997-01-31 1997-02-27 Aunty Abha's Electronic Publishing Pty Ltd A system for electronic publishing
US6038560A (en) * 1997-05-21 2000-03-14 Oracle Corporation Concept knowledge base search and retrieval system
US6185550B1 (en) * 1997-06-13 2001-02-06 Sun Microsystems, Inc. Method and apparatus for classifying documents within a class hierarchy creating term vector, term file and relevance ranking
US6266664B1 (en) * 1997-10-01 2001-07-24 Rulespace, Inc. Method for scanning, analyzing and rating digital information content
US6389436B1 (en) * 1997-12-15 2002-05-14 International Business Machines Corporation Enhanced hypertext categorization using hyperlinks
JP4183311B2 (ja) * 1997-12-22 2008-11-19 株式会社リコー 文書の注釈方法、注釈装置および記録媒体
US6028605A (en) * 1998-02-03 2000-02-22 Documentum, Inc. Multi-dimensional analysis of objects by manipulating discovered semantic properties
WO1999057659A1 (en) * 1998-05-06 1999-11-11 Metacode Technologies Inc. Method and apparatus for collecting, organizing and analyzing data
US6446061B1 (en) * 1998-07-31 2002-09-03 International Business Machines Corporation Taxonomy generation for document collections
IT1303603B1 (it) * 1998-12-16 2000-11-14 Giovanni Sacco Procedimento a tassonomia dinamica per il reperimento di informazionisu grandi banche dati eterogenee.
US6418433B1 (en) * 1999-01-28 2002-07-09 International Business Machines Corporation System and method for focussed web crawling
JP3696745B2 (ja) * 1999-02-09 2005-09-21 株式会社日立製作所 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
CA2371244A1 (en) * 1999-02-25 2000-08-31 Focusengine Software Ltd. Method and apparatus for dynamically displaying a set of documents organized by a hierarchy of indexing concepts
US6473730B1 (en) * 1999-04-12 2002-10-29 The Trustees Of Columbia University In The City Of New York Method and system for topical segmentation, segment significance and segment function
US6442545B1 (en) * 1999-06-01 2002-08-27 Clearforest Ltd. Term-level text with mining with taxonomies
US6990628B1 (en) * 1999-06-14 2006-01-24 Yahoo! Inc. Method and apparatus for measuring similarity among electronic documents
US6618717B1 (en) * 2000-07-31 2003-09-09 Eliyon Technologies Corporation Computer method and apparatus for determining content owner of a website
US6621930B1 (en) * 2000-08-09 2003-09-16 Elron Software, Inc. Automatic categorization of documents based on textual content
US20030225763A1 (en) * 2002-04-15 2003-12-04 Microsoft Corporation Self-improving system and method for classifying pages on the world wide web

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05128152A (ja) * 1991-11-06 1993-05-25 Hitachi Ltd 文書検索支援方法
JPH06314297A (ja) * 1993-04-30 1994-11-08 Omron Corp 文書処理装置および方法,ならびにデータ・ベース検索装置および方法
JPH06348755A (ja) * 1993-06-07 1994-12-22 Hitachi Ltd 文書分類方法およびそのシステム
JPH0922414A (ja) * 1995-07-06 1997-01-21 Hitachi Ltd 文書分類支援方法および装置
JPH09297766A (ja) * 1996-05-01 1997-11-18 N T T Data Tsushin Kk 類似文書検索装置
WO1999014690A1 (fr) * 1997-09-17 1999-03-25 Hitachi, Ltd. Procede d'addition d'un mot cle au moyen d'informations de liaison

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
河合敦夫: "意味属性の学習結果にもとづく文書自動分類方式", 情報処理学会論文誌, vol. 第33巻,第9号, JPN6011025058, 15 September 1992 (1992-09-15), JP, pages 1114 - 1122, ISSN: 0001919540 *

Also Published As

Publication number Publication date
WO2001073607A2 (en) 2001-10-04
EP1309927A2 (en) 2003-05-14
AU2001251736A1 (en) 2001-10-08
CA2404337A1 (en) 2001-10-04
WO2001073607A3 (en) 2003-03-13
US20020016800A1 (en) 2002-02-07

Similar Documents

Publication Publication Date Title
JP2004501421A (ja) 文書用メタデータ生成のための方法と装置
US10896236B2 (en) Systems and methods for automatically identifying and linking names in digital resources
Eikvil Information extraction from world wide web-a survey
US7174507B2 (en) System method and computer program product for obtaining structured data from text
US9639609B2 (en) Enterprise search method and system
US20060242180A1 (en) Extracting data from semi-structured text documents
US20090125529A1 (en) Extracting information based on document structure and characteristics of attributes
US7110996B2 (en) System and method for determining numerical representations for categorical data fields and data processing system
JP6022239B2 (ja) データを処理するシステム及び方法
CN111079043B (zh) 一种关键内容定位方法
US20050203924A1 (en) System and methods for analytic research and literate reporting of authoritative document collections
US8000957B2 (en) English-language translation of exact interpretations of keyword queries
WO2021030600A1 (en) Web element rediscovery system and method
JP7208872B2 (ja) 提案依頼書(rfp)に基づいて提案書を生成するためのシステム及び方法
US20110252313A1 (en) Document information selection method and computer program product
JP2000293537A (ja) データ分析支援方法および装置
Martins et al. The WebCAT framework automatic generation of meta-data for Web resources
KR20220041337A (ko) 유사어로 검색어 갱신 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법
WO2020026229A2 (en) Proposition identification in natural language and usage thereof
Lee et al. Computing simple and complex matchings between XML schemas for transforming XML documents
JP4938298B2 (ja) テキストの要約に含める文の候補を出力する方法およびプログラム
WO2001024053A2 (en) System and method for automatic context creation for electronic documents
JP5330049B2 (ja) 検索装置、方法及びプログラム
JP2000011003A (ja) 公開文書要約装置およびそのためのプログラムを記録した記録媒体
Pohorec et al. Information extraction from concise passages of natural language sources

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100921

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101221

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110322

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110524