JP2004501421A

JP2004501421A - 文書用メタデータ生成のための方法と装置

Info

Publication number: JP2004501421A
Application number: JP2001571255A
Authority: JP
Inventors: スピバック，ビクター; ランコブ，アレックス; シャオ，ホワード　イ−フイ; アブノース，ラズミク; シャナハン，マシュー　レイモンド
Original assignee: ドキュメンタム，インコーポレイティド
Priority date: 2000-03-27
Filing date: 2001-03-23
Publication date: 2004-01-15
Also published as: WO2001073607A2; EP1309927A2; AU2001251736A1; CA2404337A1; WO2001073607A3; US20020016800A1

Abstract

文書が後に続く検索により識別されるように、文書のメタデータを生成する方法及びシステムである。文書の中で認識された一つ以上の概念を示している概念モデルが、文書に対して生成される。概念は複数の特長によって定義され、各々の特徴には特徴重要度が結び付けられている。概念モデルを参照することにより、一つ以上の自動属性が文書に付与され得る。同様に、概念モデルを参照することにより、文書は、カテゴリ化分類構造の一つ以上のカテゴリに、一つ以上の自動カテゴリを割り付けることによって分類され得る。概念モデル、一つ以上の自動属性、及び一つ以上の自動カテゴリを含んでいる生成されたメタデータはメモリに保存され、その結果その後の検索が、生成されたメタデータを調べることにより、文書を識別できる。

Description

【０００１】
関連する出願
この出願は、米国仮出願第６０／１９２２３６号（Ｕ．Ｓ．ＰｒｏｖｉｓｉｏｎａｌＡｐｐｌｉｃａｔｉｏｎＳｅｒｉａｌＮｏ．６０／１９２，２３６）、出願日２０００年３月２７日、の出願日遡及の利益を主張する。
【０００２】
本発明の簡単な説明
この発明は、文書を識別するための方法とシステムに関係する。より詳しくは、この発明は、文書が後に続く検索によって識別されることができるように、文書のためのメタデータを生成する方法とシステムに関係している。
【０００３】
本発明の背景
様々なシステムが、コンピュータネットワークの中で文書を検索して識別するために設計されている。そのようなシステムは、ウェブサイトの使用と連携した文書探索／検索システムを含んでいる。そのようなシステムは、一般的に、個別の検索に最も関係のある文書を識別して取り出すことを試みている。この目的を達成するために、文書はメタデータと結合されることがある。メタデータは、情報に関する情報である。本状況では、メタデータは、文書の中の情報に関する情報である。メタデータの例には、文書タイプ、文書表題、作成者、及びキーワードが含まれる。従来の検索では、文書のメタデータが検索照会と突き合わされることがある。もし突合せがうまくゆくと、文書は、文書を取り出すために選択できる利用者のために、識別される。
【０００４】
従来技術では、メタデータは一般的に、作成者若しくは他の調査検分者によって文書に付与されている。例えば、ウェブサイト管理者は、文書タイプ、文書表題、作成者、キーワード、ハイパーテキストマークアップ言語（ＨｙｐｅｒｔｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）（“ＨＴＭＬ”）への依存、及び有効期限、というようなメタデータを通常は手動で付与している。この手動付与は、退屈で時間のかかるものであることがあった。更に、この手動付与は、多くの場合間違いが多く、また特に複数の調査検分者によって実行された場合、メタデータ付与は、しばしば矛盾のあるものであった。そのため、何万という文書を持っているウェブサイトにとって、全ての文書をメタデータと正しく矛盾無く結び付けることを確実にすることは、不可能ではないとしても困難なことであった。結果として、検索照会に対して関係のある文書が識別されないことがあり、その一方で、関係の無い別の文書が識別されて取り出されることがあった。
【０００５】
前述したことは、特に調査検分者が、文書を分析して、観念若しくは主題のカテゴリを引き出すことを必要とする文書にメタデータを付与する場合に問題となる。同時に、文書の、観念若しくは主題のカテゴリを表すメタデータは、正しく効果的な文書の識別と検索を確実にするために最も役立つものである。
【０００６】
従って、どんな与えられた検索でも、後に続く再調査及び／又は検索のために関係ある文書を識別することの可能性を高めるために、文書メタデータの生成についての改良された方法が必要とされている。
【０００７】
本発明の概要
本発明の実施例は、文書処理のコンピュータ実行方法である。この方法は、文書を共通形式に変換する段階と、前記共通形式文書の中の、前記共通形式文書に表現された基本観念を表している概念を認識する段階と、前記概念を概念モデルに組み入れる段階とを備えている。
【０００８】
本発明の別の実施例は、指定された方法で機能するようにコンピュータに命令するための、コンピュータで読み取り可能な媒体である。このコンピュータで読み取り可能な媒体は、文書に表現された基本観念を認識するための命令と、前記基本観念に概念識別を付与する命令と、前記概念識別に基づいた概念モデルを生成する命令とを含んでなるものである。
【０００９】
本発明の別の実施例は、プロセッサと、このプロセッサに接続されたメモリとを備えるコンピュータである。前記メモリは文書モデリングモジュールを含んでおり、前記文書モデリングモジュールは、第一モジュールと第二モジュールとを持っており、前記第一モジュールは、文書の中の概念を認識することを前記プロセッサに命令するように作られていて、前記概念は文書に表現された基本観念を表しており、前記第二モジュールは、前記概念に基づいた概念モデルを生成することを前記プロセッサに命令するように作られている。
【００１０】
本発明の特徴と目的のよりよい理解のために、添付図面を用いて以下に詳細に説明する。
【００１１】
本発明の詳細な説明
図１は、本発明に従って運用されることがあるコンピュータネットワーク１００を図解している。ネットワーク１００は、少なくとも一つの文書ソース１０４に接続された少なくとも一つのサーバーコンピュータ１０２を含んでいる。サーバーコンピュータ１０２と文書ソース１０４とはデータ伝送路１０６を介して接続されており、前記データ伝送路１０６は、有線又は無線のデータ伝送路であってよい。ネットワーク１００は、データ伝送路１０６を介して文書ソース１０４に接続された少なくとも一つのコンピュータ１２８も含んでいてよい。コンピュータ１２８とサーバーコンピュータ１０２もデータ伝送路１０６を介して接続されてよい。
【００１２】
文書ソース１０４は、本発明の実施例によって処理されるべき文書を保持している電子的装置である。文書ソースの例には、ウェブサーバ、データベースサーバ、若しくはファイルサーバというようなサーバーコンピュータと、クライアントコンピュータと、携帯情報端末とが含まれる。図１は、サーバーコンピュータ１０２に接続された単一の文書ソース１０４を示しているが、複数の文書ソースがサーバーコンピュータ１０２に接続されても良いことが理解されるはずである。
【００１３】
図１に示すように、文書ソース１０４は、バス１４６を介して、（第一及び／又は第二の）メモリ１３６、ネットワーク接続装置１３８、一組の入出力装置１４２（例えば、キーボード、マウス、プリンタ、など）、及びモニタ１４４に接続されているＣＰＵ１４０のような在来のサーバーコンピュータ構成要素を含んだサーバーコンピュータである。メモリ１３６は、一つ以上の文書を文書記憶装置１６０に保存する。特に、メモリ１３６は文書１０８を保存し、この文書１０８はモニタ１４４に表示される。
【００１４】
文書ソース１０４の中の文書１０８は、テキスト部１１０を含んでいる。テキスト部１１０は一般的に、例えば、“人事の自然の成り行きで…（Ｗｈｅｎｉｎｔｈｅｃｏｕｒｓｅｏｆｈｕｍａｎｅｖｅｎｔｓ…）”というような英数字の集りを含んでいる。テキスト部１１０は、ドル記号、数学記号、若しくは論理記号というような記号も含んでいることがある。文書１０８は、音響部分、及びＪＰＥＧ画像のような視覚部分、及び／若しくは動画シーケンスのような視聴覚部分、というような非テキスト部１１２をも含んでいることがある。文書１０８は、例えば、ハイパーテキストマークアップ言語（“ＨＴＭＬ”）形式、イクステンシブルマークアップ言語（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）（“ＸＭＬ”）形式、マイクロソフトオフィス（ＭｉｃｒｏｓｏｆｔＯｆｆｉｃｅ）（ワード（Ｗｏｒｄ）、エクセル（Ｅｘｃｅｌ）、パワーポイント（ＰｏｗｅｒＰｏｉｎｔ））、ＰＤＦファイル形式、ワードパーフェクト（ＷｏｒｄＰｅｒｆｅｃｔ）、若しくは全くの普通テキストのような在来の形式にあることがある。
【００１５】
図１で示されるように、メモリ１３６は、検索エンジン１３０も含んでいて、前記検索エンジン１３０は、文書記憶装置１６０に保存されている文書１０８のような一つ以上の文書を検索照会に従って識別するように作られたアプリケーションである。検索照会は、コンピュータ１２８の利用者からの入力に応答して生成され得る。
【００１６】
コンピュータ１２８は、在来のサーバーコンピュータ構成要素を含むサーバーコンピュータ、若しくは在来のクライアントコンピュータ構成要素を含むクライアントコンピュータであってよい。図１に示されるように、コンピュータ１２８は、バス１５６を介して、（第一及び／又は第二の）メモリ１４８、ネットワーク接続装置１５４、及び入出力装置１５０（例えば、キーボード、マウス、プリンタ、モニタ、その他）に接続されたＣＰＵ１５２を含むクライアントコンピュータである。メモリ１４８は在来のブラウザ１５８を含んでおり、このブラウザ１５８は、検索エンジン１３０によって識別された一つ以上の文書を利用者に表示することができる。
【００１７】
サーバーコンピュータ１０２は、バス１３４を介して、（第一及び／又は第二の）メモリ１１８、ネットワーク接続装置１１４、及び入出力装置１３２（例えば、キーボード、マウス、プリンタ、モニタ、その他）に接続されたＣＰＵ１１６を含んでいる標準のサーバー構成要素を具備していることがある。メモリ１１８は、一組のコンピュータプログラムを保存しており、このコンピュータプログラムは、本発明と結び付いた処理を実行する。特に、メモリ１１８は文書統合モジュール１２０と文書モデリングモジュール１２２とを保存している。
【００１８】
文書統合モジュール１２０は、文書ソース１０４から初期形式で文書を受け取り、初期形式の文書を共通形式文書に変換し、そして共通形式文書を文書モデリングモジュール１２２へ更なる処理のために提出する。文書統合モジュール１２０は、通常は文書ソース１０４に保存されていた文書（例えば、原本）のコピーを受け取る。図１に関して、文書統合モジュール１２０は、文書１０８のコピー、このコピーはテキスト部１１０と非テキスト部１１２とを含んでいるが、これを受け取り、そして初期形式のコピーを、文書モデリングモジュール１２２による処理のために、共通形式文書に変換する。
【００１９】
文書統合モジュール１２０は、テキスト部１１０を非テキスト部１１２から分離し、そしてテキスト部１１０を文書１０８の変換されたコピーに組み入れることができる。加えて、文書統合モジュール１２０は、文書１０８のメタデータを一つ以上の原属性の形で取って来て、そして一つ以上の原属性を共通形式文書の中に組み入れることができる。文書の原属性は、（例えば、文書の作者によって、若しくは本発明の実施例によって）既に生成されていたメタデータであって、文書（及び／又は文書のコピー）、及び／又は文書を保持している文書ソース１０４に含まれているメタデータである。そのような原属性は、文書表題、文書作者、文書作成日、文書番号、及びページ数というような情報を含んでいることがある。例えば、文書作成日は、“２００１年１月１日”で、文書の見出し部に含まれることがある。文書統合モジュール１２０は文書１０８の一つ以上の原属性を文書のコピー、及び／又は文書ソース１０４から取って来ることができる。
【００２０】
文書モデリングモジュール１２２は、文書１０８に関するメタデータを生成し、その結果文書１０８は、検索エンジン１３０によって識別されることが可能である。文書モデリングモジュール１２２は、共通形式文書の中の一つ以上の概念を認識するように試みる。概念は、文書の中に表現されていることがある基本観念を表している。概念の例には、“コンピュータ”、“ネットワークアプリケーション”、及び“競合会社”が含まれる。概念は、文書の中で文書モデリングモジュール１２２に認識されるために、必ずしも逐語的に発見されたり、又は短縮されているか語幹だけの形で発見されないでもよい。文書モデリングモジュール１２２によって認識される概念の数は、文書の内容によって決まり、文書モデリングモジュール１２２が、特殊な文書に概念を何も認識しないこともありうる。文書モデリングモジュール１２２は、文書１０８の変換されたコピーの中で認識された概念に基づいた、文書１０８に関する概念モデルを生成する。概念モデルは、文書の中で認識される一つ以上の概念を識別するか又は示す。例えば、文書に関する概念モデルは、“Ａ会社”と“Ｂ会社”とを含むことができ、そこで、概念“Ａ会社”と概念“Ｂ会社”は、文書の中で認識される概念である。
【００２１】
文書モデリングモジュール１２２は、一つ以上の自動属性を文書１０８に付加的に生成若しくは付与してもよい。自動属性は、文書についての記述的ラベルを表しており、前記自動属性は、文書の概念モデル及び／又は一つ以上の原属性に基づいて文書に生成若しくは付与される。自動属性は、英数字文字列、及び／又は記号文字列を含む。自動属性の例には、“有用文書”が含まれる。
【００２２】
文書モデリングモジュール１２２は、例えば一つ以上の自動カテゴリを文書１０８に生成若しくは付与することによって、文書１０８を一つ以上のカテゴリ化分類構造の文書カテゴリに分類することもある。自動カテゴリは、カテゴリについての記述的ラベルを表しており、前記自動カテゴリは、文書の概念モデル、及び／又は一つ以上の原属性、及び／又は一つ以上の自動属性に基づいて文書に生成されるか付与される。自動カテゴリは、英数字文字列及び／又は記号文字列を含んでいる。例えば、カテゴリ“米国政治”に割り付けられた文書は、自動カテゴリ“米国政治（Ｕ．Ｓ．Ｐｏｌｉｔｉｃｓ）”を割り付けられ得る。
【００２３】
文書モデリングモジュール１２２は、（概念モデル、一つ以上の自動属性、及び一つ以上の自動カテゴリを含んでいる）生成されたメタデータの部分をモデリングディレクトリ１２４に保存することが可能である。モデリングディレクトリ１２４は、例えば、関係データベースというようなデータ保存庫であってよい。文書モデリングモジュール１２２は、例えば、文書ソース１０４の中の文書１０８の位置を識別及び／又は提供するリンク又は識別子を与えることにより、生成されたメタデータの少なくとも保存された部分を文書ソース１０４の中の文書１０８に結び付ける。
【００２４】
検索エンジン１３０は、例えば、データ伝送路１０６を介してモデリングディレクトリ１２４にアクセスできる。検索エンジン１３０は、文書１０８に関する保存されたメタデータの一部を調べることにより、保存されたメタデータが検索照会と一致した場合は、文書１０８を識別してよい。検索エンジン１３０は、文書１０８を識別したので、文書１０８をコンピュータ１２８の利用者に示すことができ、そして利用者は、文書ソース１０４から文書１０８を取り出すことができる。
【００２５】
その代わりに、または上記のことと共に、サーバーコンピュータ１０２は、生成されたメタデータの少なくとも一部を文書ソース１０４に伝送することができる。文書モデリングモジュール１２２は、例えば、文書ソース１０４の中の文書１０８を識別するリンク又は識別子を与えることにより、メタデータの少なくとも伝送された部分を文書ソース１０４の中の文書１０８に結び付ける。文書ソース１０４は、メタデータの伝送された部分をメモリ１３６に保存できる。検索エンジン１３０は、メモリ１３６に保存されているメタデータの少なくとも一部を調べることができ、そして保存されたメタデータが検索照会と一致した場合は、文書１０８を識別できる。
【００２６】
図２は、本発明の実施例により実行されることがある処理ステップを図示しているが、本発明は、図２を参照して更に説明される。文書統合モジュール１２０は、文書を文書ソース１０４から受け取る（ステップ２０２）。この実施例では、文書は、文書ソース１０４の中に保持されている原文書のコピーである。文書統合モジュール１２０は、文書を共通形式文書に変換し（ステップ２０４）、そして共通形式文書を文書モデリングモジュール１２２に提出する（ステップ２０６）。文書モデリングモジュール１２２は、共通形式文書の中の一つ以上の概念を認識し（ステップ２０８）、そして原文書に関する、一つ以上の概念に基づいた概念モデルを生成する（ステップ２１０）。概念モデルは、文書モデリングモジュール１２２が共通形式文書の中で認識した、一つ以上の概念を示している。文書モデリングモジュール１２２は、概念モデルに基づいた一つ以上の自動属性を原文書に付与する（ステップ２１２）。また、概念モデルに基づいて、文書モデリングモジュール１２２は、一つ以上の自動カテゴリを原文書に付与することにより、原文書を一つ以上のカテゴリに分類する（ステップ２１４）。文書モデリングモジュール１２２は、生成されたメタデータ（つまり、概念モデル、一つ以上の自動属性、及び一つ以上の自動カテゴリ）の少なくとも一部をモデリングディレクトリ１２４の中に保存する（ステップ２１６）。この保存されたメタデータは、文書ソース１０４の中の原文書の位置を識別及び／又は与えるリンク若しくは識別子を与えられることがある。
【００２７】
図３は、本発明の実施例による、文書統合モジュール１２０により実行される処理ステップの詳細な説明を提供している。文書統合モジュール１２０は文書を文書ソース１０４から受け取る（ステップ３０２）。本発明の実施例では、文書統合モジュール１２０は、文書を文書ソース１０４から自動的に取り出す。文書は、新しく作成されたか新しく修正された文書（又はそのコピー）であってよく、若しくは本発明の実施例により実行される処理をまだ受けていない元からの文書（又はそのコピー）であってよい。文書統合モジュール１２０によって自動的に取り出される文書に加えて、利用者は、文書ソース１０４から文書統合モジュール１２０へ文書を提出することができる。本発明の実施例では、文書統合モジュール１２０は、利用者からの指示に応じて、文書を取り出す。どちらの場合にも、文書統合モジュール１２０はステップ３０２で文書を受け取り、そして以下に説明する次の処理を開始する。
【００２８】
図３に示されるように、文書統合モジュール１２０は、更に先の処理のために文書を受け取るか否かを決めるために文書を評価する（ステップ３０４）。本発明の実施例では、処理を続けるべきか否かを決めるために、文書は一つ以上の基準に対して評価される。例えば、最大頁制限が基準として規定されていることがあり、その結果、最大頁制限を超過するページ数を持った文書は、更に先の処理については受け入れられないことがあり、及び／又は文書は、処理形式の修正を施されることがある。受け入れ可能な文書形式は、別の基準であることがあり、例えば、ワード、エクセル、パワーポイント、ＨＴＭＬ、若しくは、ワードパーフェクト形式文書以外は、更に先の処理はされずに、及び／又は受け入れ可能な文書形式に変換されることがある。基準の他の事例には、ウェブサーバから受け取った文書に関するページ長が含まれる。
【００２９】
一つ以上の原属性の形のメタデータは、文書ソース１０４から取り出されることがある（ステップ３０６）。文書ソース１０４の中に見出される原属性の例には、文書作成日、作成者、文書表題、及び一つ以上のキーワードが含まれる。利用可能性、及び文書ソース１０４にもよるが、ゼロから数個の間で原属性が文書ソース１０４から引き出されることがある。
【００３０】
一つ以上の原属性の形のメタデータは、文書それ自身からも引き出されることがある（ステップ３０８）。普通の熟練技術者には理解されるように、様々な文書形式が、一つ以上の引き出され得る原属性を含むことがある。たとえば、ＨＴＭＬ形式の文書は、タグ“＜Ｔｉｔｌｅ＞”と“＜／Ｔｉｔｌｅ＞”とにより前後を囲まれた文書表題を含むことがある。この例では、文書表題は文書に関する原属性として引き出される。他の例では、ワード文書は、フッター部分に時刻／日付スタンプを含むことがあり、そして時刻／日付スタンプは原属性として引き出されることがある。利用可能性、及び個々の文書形式にもよるが、ゼロから数個の間で原属性が文書そのものから引き出されることがある。
【００３１】
処理ステップ３１０では、テキスト部１１０が、文書の非テキスト部１１２から分離される。テキスト部１１０は一般的には、例えば“人事の自然の成り行きで…（Ｗｈｅｎｉｎｔｈｅｃｏｕｒｓｅｏｆｈｕｍａｎｅｖｅｎｔｓ…）”というような英数字の集りを含んでいる。テキスト部１１０は、例えば“Ｍｒ．”あるいは“？”というような略語、及び／又は記号も含んでいることがある。ステップ３１０では、文書統合モジュール１２０は、文書の更に先の処理を妨げる可能性のある、文書の部分からテキスト部１１０を分離する。非テキスト部１１２の例には、ウェブページ上のバナー、及びワード文書上へ貼り付けられた静止画像が含まれる。本発明のある実施例では、テキスト部１１０が文書から引き出される。本発明の他の実施例では、非テキスト部１１２が引き出され、一方テキスト部１１０が更に先の処理のために文書に残される。
【００３２】
図３に示されるように、文書統合モジュール１２０は、文書モデリングモジュール１２２による更に先の処理のために、文書ソース１０４から受け取ったのと同じそのオリジナル形式の文書を共通形式文書に変換する（ステップ３１２）。本発明の実施例では、選択された共通形式は、ＸＭＬ形式である。文書のＸＭＬ形式への変換において、文書統合モジュール１２０の一つの実施例は、ステップ３１０で分離されたテキスト部１１０と、ステップ３０６及び３０８で引き出された原属性とを共通形式文書に組み入れる。特に、テキスト部１１０と原属性は結合され、そして一組のタグで印を付けられる。ＨＴＭＬとは異なって、ＸＭＬ形式では、固定されたタグの組には制限されないで、新しいタグが定義されることが許容される。本発明では、タグは、文書モデリングモジュール１２２がＸＭＬ文書の部分を識別することができるように使用されることがある。ステップ３０６若しくはステップ３０８において引き出された原属性は、ＸＭＬ文書の中のタグの対によって前後を囲まれることがある。例えば、データベースサーバから引き出された文書表題“コンピュータについての文書”は、ＸＭＬ文書の中では以下に示すようにタグによって前後を囲まれて見出されることがある：＜文書表題＞コンピュータについての文書＜／文書表題＞。このＸＭＬ文書を処理している文書モデリングモジュール１２２は、“コンピュータについての文書”という値を持っている文書表題原属性を識別できる。ステップ３１０で分離されたテキスト部１１０もタグの対で前後を囲まれることがある。本発明の実施例では、文書統合モジュール１２０が、テキスト部１１０の各段落をタグの対で前後を囲む。例えば、ＸＭＬ文書の最初の段落は、＜段落１＞と＜／段落１＞というタグの対によって前後を囲まれることがある。ＸＭＬ形式は、新しいタグが定義されることを許容するので、本発明で使用されるタグの定義に柔軟性がある。例えば、本発明の一つの実施例では、文書若しくは文書ソースから引き出された文書表題の前後を囲むために、タグの対＜文書表題＞と＜／文書表題＞が定義されて使用されることがある。別の実施例では、タグの対＜文題＞と＜／文題＞が同じ目的のために定義されることがある。本技術分野に通常の知識を有する者には理解されるように、発明の中で使用されるタグの定義の選択は、計算の効率と速さとを考慮して導かれることがある。
【００３３】
文書ソースからＸＭＬ形式で受け取った文書に対しても、ステップ３１２において処理が実行されることがあることが理解されるはずである。ＸＭＬ形式は、タグの定義に柔軟性を許容するので、文書ソースから受け取られたＸＭＬ文書は、異なるタグの組で印を付けられることがあり、そして文書統合モジュール１２０が、本発明で使用されるタグの組によってＸＭＬ文書に印を付け直すことがある。ＸＭＬ以外の文書形式が、本発明の中で共通形式として選択されてもよいことが、更にまた理解されるはずである。例えば、文書モデリングモジュール１２２が、例えば文書表題あるいは文書の一つ以上の段落というような文書の異なった部分を識別できるように、構造のレベルを文書に与える他の文書形式が選択されることがある。
【００３４】
ステップ３１４に示されるように、文書統合モジュール１２０は共通形式文書を文書モデリングモジュール１２２による処理のために提出する。文書統合モジュール１２０と文書モデリングモジュール１２２が単一のサーバーコンピュータ１０２に属する本発明の実施例では（例えば図１に示されるように）、共通形式文書は、ステップ３１４に物理的に移動されることを必要としない。本発明の別の実施例では、文書統合モジュール１２０と文書モデリングモジュール１２２が別のサーバーコンピュータに属することがあり、そして共通形式文書が、二つのサーバーコンピュータの間のデータ伝送路を通じて伝送される。
【００３５】
図４は、本発明の実施例による文書モデリングモジュール１２２を示している。文書モデリングモジュール１２２は、文書の中の一つ以上の概念を認識し、そして文書に関する概念モデルを生成し、そこで概念モデルは、認識された概念の一つ以上を示す。
【００３６】
図４に示されるように、文書モデリングモジュール１２２は、概念図４０２を含んでいる。概念図４０２は、文書モデリングモジュール１２２が概念を認識し、そして文書に関する概念モデルを生成することを可能にする情報を含んでいる。特に、概念図４０２は、概念辞書４０４とノイズ辞書４０６とを含んでいる。
【００３７】
概念辞書４０４は、文書モデリングモジュール１２２が文書の中で認識できる概念を複数定義する。概念は、文書の中で認識されるために、文字どおりに見出されたり、又は短縮された、語幹だけの、若しくは他の同等の形で見出されることは必要とされない。例えば、文書が、“インターネット”という単語（または単語“インターネット”の短縮された、語幹だけの、若しくは他の同等の形）を含まない場合でも、文書は、概念“インターネット”を表現することがある。
【００３８】
本発明の実施例では、各々の概念は、対応している特徴セットによって定義されることがある。特徴は、文書の中に与えられた概念の証拠を表す。更に具体的には、特徴は、与えられた概念によって表現された基本観念が文書の中に表されている証拠を表す。例えば、概念“ＩＢＭ”は、“ＩＢＭ”、“インターナショナルビジネスマシンズ（ＩｎｔｅｒｎａｔｉｏｎａｌＢｕｓｉｎｅｓｓＭａｃｈｉｎｅｓ）”、“ビッグブルー”、及び“コンピュータ”という特徴を備える特徴セットにより定義されることがある。概念の文字表現（又は文字表現の短縮された、若しくは語幹だけの、若しくは他の同等の形）が、概念についての特徴であり得ることが理解されるはずである。前述の事例では、文書の中の“ＩＢＭ”の存在が、概念“ＩＢＭ”が文書の中に表現されている証拠を与える。概念辞書４０４は、複数の概念に対応している複数の特徴セット（又は概念定義）を含むことが可能である。本発明の実施例では、文書モデリングモジュール１２２は、概念の特徴セットの中の各々の特徴が、文書の中に存在しているかどうかを確認する。
【００３９】
本発明の実施例では、概念を定義する特徴セットの各々の特徴は、特徴重要度に結び付けられており、また概念辞書４０４も、各々の特徴セットに結び付けられた特徴重要度を含むことがある。特徴の特徴重要度は、特徴が文書の中で識別された場合に概念が表されている信頼水準を示す。本発明の実施例では、特徴重要度は、例えば、０が最も低い信頼水準で１が最高の信頼水準である０から１の間の数値を持っている。前述の例に関しては、文書に“ＩＢＭ”が存在することは、概念“ＩＢＭ”が文書に表現されていることのきわめて明確な兆候を与え、そして特徴“ＩＢＭ”についての特徴重要度は、１を付与されることがある。一方、文書の中に“ビッグブルー”が存在することは、概念“ＩＢＭ”が文書に表されていることのより弱い兆候を与え、そして特徴“ビッグブルー”についての特徴重要度は、０．１５を付与されることがある。
【００４０】
本発明の実施例では、概念についての特徴セットは、例えば、０から１の評価尺度で０．１未満といった比較的低い数値の特徴重要度を有する一つ以上の特徴を含んでいる。低い特徴重要度値を有する特徴が、概念を表すことの低い信頼水準を与えることがある一方、その様な特徴は、曖昧さを防ぎそしてゆえに概念認識を容易にするために、それでもなお含まれることがある。例えば、特徴“コンピュータ”は、概念“アップルコンピュータ”に関する特徴セットに含まれることがあるが、果物としての概念“アップル”に関する特徴セットには含まれない。特徴“コンピュータ”の存在は、“コンピュータ”が一般的であるので、概念“アップルコンピュータ”が表されていることの小さな兆候を与えることがある。この例において、特徴“コンピュータ”は、０．１未満の例えば０．０５といった特徴重要度を付与されることがある。しかしながら、“コンピュータ”が文書の中に存在することは、果物としての概念“アップル”と対抗する概念“アップルコンピュータ”を認識することを容易にすることができる。
【００４１】
本発明の実施例では、特徴が、識別されるために、文字どおりに見つけられたり、又は文書の中で短縮された、若しくは語幹だけの、若しくは他の同等の形で見つけられるとは限らない。特に、本発明の一つの実施例は、他の概念に関する特徴としての一つ以上の概念を含んでいる。換言すれば、文書が概念を表現しているという事実が、その文書が他の概念を表現していることの証拠を与えることがある。概念である特徴は概念特徴であり、そして概念特徴は、概念ではない特徴と同様に、特徴重要度に結び付けられてよい。文書モデリングモジュール１２２が文書の中に概念を認識したならば、文書モデリングモジュール１２２は、特徴が、これは概念であるが、文書の中に存在すると確認する。
【００４２】
図４に示されるように、概念図４０２はノイズ辞書４０６も含んでいる。ノイズ辞書４０６は、自動概念として認識されるべきではない一つ以上の単語を示している。本発明の実施例によると、自動概念は、単語（又は単語の集まり）であって、文書の中に繰り返し出現しまた特徴として概念辞書４０４の中に（文字どおりに、又は短縮された、若しくは語幹だけの、若しくは他の同等の形で）含まれない。例えば、単語“インターネット”が、文書の中に数回出現することがあるが、“インターネット”は特徴として概念辞書４０４の中には含まれていなくてよい。文書モデリングモジュール１２２は、単語“インターネット”を、それがノイズ辞書４０６に（文字どおりに、又は短縮された、若しくは語幹だけの、若しくは他の同等の形で）含まれていなければ、自動概念である概念として認識してよい。
【００４３】
図５は、本発明の実施例による、文書モデリングモジュール１２２によって実行される処理ステップの詳細な説明を提供するものであり、文書モデリングモジュール１２２が、文書の中に一つ以上の概念を認識し、そして一つ以上の概念に基づいた概念モデルを生成している。文書モデリングモジュール１２２は、概念図４０２の中で定義された一つ以上の概念に関する、図５に示された処理ステップを実行することができる。
【００４４】
本発明の実施例では、文書モデリングモジュール１２２によって処理される文書は、ＸＭＬ形式にある。例えば、文書は、文書統合モジュール１２０により提出されたＸＭＬ文書である。ＸＭＬ文書は、文書モデリングモジュール１２２がＸＭＬ文書の様々な部分を識別することを可能にするタグセットによって印を付けられ、前記ＸＭＬ文書の様々な部分には、例えば、原属性又は第一段落がある。構造のレベルを文書に与える他の文書形式がＸＭＬ形式の代わりに使用されてもよいことが理解されるはずである。更に、本発明の実施例による文書モデリングモジュール１２２は、どんな従来形式、例えば、ＨＴＭＬ、マイクロソフトオフィス（ワード、エクセル、パワーポイント）、ＰＤＦファイル形式、ワードパーフェクト、若しくは単純な普通テキストというような従来形式、の文書でも処理できることが理解されるはずである。
【００４５】
図５に示されるように、文書モデリングモジュール１２２は、概念辞書４０４の中で定義された概念に関する特徴が文書の中に存在するかどうかを確認する（ステップ５０２）。前述したように、本発明の実施例では、各々の概念は、対応する特徴セットによって概念辞書４０４の中で定義されており、そして文書モデリングモジュール１２２は、確認ステップ５０２を実行するときに、概念辞書４０４を参照する。特に、文書モデリングモジュール１２２は、概念辞書４０４の中で定義された一つ以上の概念に対応する一つ以上の特徴セット（及び／又は結び付けられた特徴重要度）を取り出すことができる。
【００４６】
ステップ５０２において、文書モデリングモジュール１２２の実施例は特徴セットの各々の特徴が文書の中に存在するか否かを確認する。文書モデリングモジュール１２２の一つの実施例は、特徴、及び／又は特徴の語幹だけの一つ以上の変形体を文書の中で検索する。例えば、本発明は、特徴“エクスプローラ（ｅｘｐｌｏｒｅｒ）”及び／又はその語幹だけの変形体“エクスプロー（ｅｘｐｌｏｒｅ）”を文書の中で検索できる。本発明の実施例では、特徴の変形体は特徴と同等とみなされてもよく、そして文書モデリングモジュール１２２は、変形体が文書の中で発見されたなら、文書の中の特徴を識別してもよい。言い換えると、文書モデリングモジュール１２２は、特徴だけではなく一つ以上の特徴の変形体を認識することがある。例えば、特徴“コンピュータ（ｃｏｍｐｕｔｅｒ）”と、一つ以上の文字が大文字化された特徴（例えば“コンピュータ（Ｃｏｍｐｕｔｅｒ）”）は同等とみなされてよい。特徴と、例えば、特徴の語幹だけの一つ以上の変形体とが同等であるとみなされてもよい。特徴の例として、特徴と、その一つ以上の同義語が同等とみなされる。本発明の実施例では、概念辞書４０４は、特徴、及び特徴と同等とみなされる一つ以上の変形体を含んでいる。一つ以上の特徴と同等の変形体が利用者によって定義されてよいことが理解されるはずである。その代わりに、又は上記のことと共に、概念辞書４０４は、文書モデリングモジュール１２２が、特徴と同等とみなされる一つ以上の特徴の変形体を自動的に生成することを可能にするアルゴリズムを含んでいることがある。例えば、アルゴリズムは、語幹の変形体若しくは特徴と同等とみなされる特徴の変形体を生成する語幹化アルゴリズムであることがある。
【００４７】
本発明の実施例によると、確認ステップ５０２は文書の各々の段落に関して別々に実行される。二つの段落を持つ文書については、例えば、文書モデリングモジュール１２２は、第一段落に概念に関する特徴が存在するか否かを確認し、次いで第二段落に概念に関する特徴が存在するか否かを別に確認する。
【００４８】
確認ステップ５０２が文書の各々の段落で実行される、本発明の実施例では、本発明の追加の態様が以下の事例により説明される。二つ以上の段落を持つ文書が、先行する段落に“ジョースミス”を含んでいて、そして一つ以上後の段落に短縮された形“スミス”を含んでいる。この例では、“スミス”ではない“ジョースミス”が、特徴として概念辞書４０４に含まれている。もし文書モデリングモジュール１２２が、先行する段落に特徴“ジョースミス”が存在すると確認したら、文書モデリングモジュール１２２は、短縮された形“スミス”しか含まない一つ以上後の段落にも特徴が存在すると確認することができる。本発明の実施例では、文書モデリングモジュール１２２は、“ジョースミス”の短縮形を多単語の特徴の最後の単語（すなわち“スミス”）を基に認識する。この実施例では、“スミス”は特徴“ジョースミス”と同等なものとして自動的に認識される。
【００４９】
概念の特徴が存在するか否かを確認した後、文書モデリングモジュール１２２は概念に関する概念重要度を計算する（ステップ５０４）。概念重要度は、文書に与えられた概念の認識信頼水準を示す。文書モデリングモジュール１２２は、存在すると確認された特徴に結び付けられた特徴重要度を使って、概念重要度を計算する。本発明の実施例では、数学的関係が、存在すると確認された特徴の特徴重要度に概念重要度を関連付ける。例えば、概念重要度は、これら特徴重要度の合計か重み付き合計かを含むように、これら特徴重要度に線形に関連付けられる。例えば、概念“インターネット”は、特徴“ウェブ”、“ネットワーク”、及び“コンピュータ”を含んでなる特徴セットにより定義されることがある。三つの特徴は、結び付けられた特徴重要度０．９、０．５、及び０．０５をそれぞれ持つことがある．特徴“ウェブ”と“コンピュータ”とが文書の中に存在すると確認された後、文書モデリングモジュール１２２は、概念“インターネット”に関する概念重要度を、特徴重要度０．９と０．０５を足して合計０．９５の概念重要度として算出できる。
【００５０】
特徴重要度に、例えば０から１の間にある数値が割り付けられているところの実施例では、概念重要度に関する計算は、例えば１のような最高の認識水準レベル、に結び付けられた数より大きい数を生み出すことがある。この場合には、概念重要度に関する数値は、最高の認識信頼水準に結び付けられた数を超えないように設定若しくは調整されてよい。例えば、概念に関する概念重要度が、１より大きい数として算出された場合は、概念重要度は１に設定される。他の実施例では、複数の認識された概念に結び付けられた概念重要度は、概念重要度の合計が所定の数、例えば１のような数、に等しくなるように正規化される。例えば、認識された概念“会社Ａ”に関する概念重要度０．８と、認識された概念“会社Ｂ”に関する概念重要度０．６は、各概念重要度を１．４で除することにより正規化されることがある。この例では、正規化概念重要度の合計は、０．８／１．４足す０．６／１．４で１となる。
【００５１】
本発明の、確認ステップ５０２が文書の各段落について実施されるところの実施例では、概念に対する概念信頼水準も文書の各段落について計算されることがある。概念信頼水準は、個々の段落に与えられた概念の認識信頼水準を示す。段落についての概念信頼水準は、段落の中に存在すると確認された特徴に結び付けられた特徴重要度を使って計算される。本発明の実施例では、数学的関係が、概念信頼水準をこれらの特徴重要度に関連付ける。例えば、概念信頼水準は、これらの特徴重要度の合計か重み付き合計かを含むように、これら特徴重要度に線形に関連付けられることがある。次いで、概念に関する概念重要度が、一つ以上の段落についての計算された概念信頼水準を用いて計算される。本発明の実施例では、数学的関係が概念重要度をこれら概念信頼水準に結び付ける。例えば、概念重要度は、これらの概念信頼水準の合計か重み付き合計かを含むように、これら概念信頼水準に線形に関連付けられることがある。本発明の実施例では、概念重要度は文書の様々な段落についての概念信頼水準を加算することによって算出される。この実施例については、概念重要度は、文書に与えられた概念の認識概念信頼水準を示すだけではなく、文書が概念を表す頻度をも示す。例えば、ただ一つの段落において最高の信頼水準で認識された概念“コンピュータ”は、二つの段落において最高の信頼水準で認識された概念“ネットワークアプリケーション”より低い概念重要度を持つ。前述したように、概念重要度は、認識された概念の概念重要度の合計が所定の数と等しくなるよう、特定の数若しくは正規化された数を超えないように設定されてよい。
【００５２】
文書モデリングモジュール１２２は、ステップ５０４から計算された概念の概念重要度を所定の閾値と比較する（ステップ５０６）。閾値は認識信頼水準を示しており、この認識信頼水準より大きい（又は、以上の）概念は認識されたとみなされる。例えば、概念重要度が０から１の範囲の数値を持っていて、閾値が０．１に設定されている実施例では、０．１未満の概念重要度を持つ概念は、認識されないことが決定されるのに対して、０．１より大きい概念重要度を持つ概念は認識されることが決定される。
【００５３】
比較ステップ５０６に従って、文書モデリングモジュール１２２は、認識された概念及び／又はその連結された概念重要度を概念モデルの中に組み込むことができる（ステップ５０８）。図６は、本発明の実施例による、文書に関する概念モデル６００を示したものである。図６に示されるように、概念モデル６００は複数の項目６０２、６０４、６０６を含んでいる。各々の項目は文書の中で認識された概念を示している。図６において、概念１、概念２から概念Ｎは、文書モデリングモジュール１２２が文書の中で認識した概念である。この実施例では、概念モデル６００は、認識された概念に関する概念重要度をも示している。
【００５４】
本発明の実施例によると、概念モデル６００は自動概念であるところの一つ以上の認識された概念も示すことがある。特に、文書モデリングモジュール１２２は、自動概念であるところの一つ以上の概念を認識することがある。自動概念は、文書の中に繰り返し現れる単語（又は単語のグループ）であって、特徴若しくは特徴の変形体として概念辞書４０４の中で認識されない単語（又は単語のグループ）である。文書モデリングモジュール１２２は、単語が図４に示されるノイズ辞書４０６に（文字通りに、又は短縮された、若しくは語幹だけの、若しくは他の同等の形で）含まれていなければ、前記単語（又は単語のグループ）を自動概念として認識することがある。自動的に生成された概念の概念重要度は、例えば最高の認識信頼水準に該当する所定の値に設定されてよい。
【００５５】
文書モデリングモジュール１２２が、概念モデル６００の一つ以上の別バージョンを生成することが理解されるはずである。第一のバージョンでは、概念モデル６００は、文書の中で認識された全ての概念（及び結び付けられた概念重要度）を、自動概念については可能な限り除外して、示すことができる。その様な概念モデル６００は、例えば概念検索に役に立つ。概念検索を実行するように作られた検索エンジン１３０は、検索照会で指定された一つ以上の概念を表現している一つ以上の文書を識別できる。概念検索の実行において、検索エンジン１３０は、文書の概念モデル６００が、検索照会で指定された一つ以上の概念を含んでいるか調べることができる。
【００５６】
第二のバージョンでは、概念モデル６００は、文書の中で最も有意な認識された概念Ｎを示すことができる。なお、Ｎは所定の数である。特に、文書モデリングモジュール１２２は、認識された概念を概念重要度に従って並べ替えることができ、そして概念モデル６００の中で最高の概念重要度を持つ認識された概念Ｎを示せる。その様な概念モデル６００は、例えば、“例示照会プログラム”（ＱＢＥ）を含んでいる概念検索に有用である。概念ＱＢＥ検索を実行するように作られた検索エンジン１３０は、関心のある文書との比較で同様の信頼水準（及び／又は重要性）を持つ同様の概念を表現している一つ以上の文書を識別できる。概念ＱＢＥ検索の実行では、検索エンジン１３０は、文書の概念モデル６００を調べ、そしてこの概念モデル６００を関心のある文書の概念モデル６００と比較することができる。二つの概念モデルの間の一致度がより高い程、二つの文書は、同様の信頼水準（及び／又は重要度）を有する同様の観念をより多く表現できる。概念モデル６００のこのバージョンは、“主要な概念”リストに似ていることが理解されるはずである。
【００５７】
文書モデリングモジュール１２２は概念モデル６００の他のバージョンを生成することがある。例えば、概念モデル６００は、一つ以上の認識された概念を示すが、結び付けられた概念重要度を示さないことがある。又、文書モデリングモジュール１２２は、一つ以上の認識された概念を結び付けられた一つ以上の概念識別を含むことによって、一つ以上の認識された概念を概念モデル６００の中に組み入れることがある。概念識別は、英数字文字列及び／又は記号文字列であってよいが、認識された概念を一意に識別する。与えられた概念の概念識別が、概念の文字表現を含んでいることを必要としないことが理解されるはずである。例えば、概念識別“１”が、概念“ウェブブラウザ”を一意に識別するために使用され、そして“１”が“ウェブブラウザ”の代わりに概念モデルに含まれることがある。この例では、概念識別“１”と概念“ウェブブラウザ”との間の写像は概念図４０２に含まれてよい。本発明の実施例では、文書モデリングモジュール１２２は、概念識別を認識された概念に割り付け、そして概念識別に基づいた概念モデルを生成する。
【００５８】
図７は、本発明の別の実施例による文書モデリングモジュール１２２を示している。図７に示されるように、文書モデリングモジュール１２２は概念図４０２を含んでいて、概念図４０２は、先に図４との関係で論述されたように、概念辞書４０４とノイズ辞書４０６とを含んでいる。この実施例では、概念図４０２は、概念連関辞書７０８も含んでいる。
【００５９】
概念連関辞書７０８は、概念辞書４０４に含まれている二以上の概念の間の関係（又は概念連関）を定義する情報を含んでいる。もし二つの概念によって表される各観念が、ともかくもリンクされるなら、二つの概念は、概念連関によって関連付けられてよい。
【００６０】
本発明の実施例では、概念連関辞書７０８が概念分類構造を含んでいる。概念分類構造は、二以上の概念の間の関係を定義する。図８は概念分類構造の例を示している。概念分類構造８００は、概念“会社Ａ”８０２、“会社Ｂ”８０４、“会社Ｃ”８０６、及び“ソフトウェアＣ”８０８を含んでいる。これら四個の概念は、文書の中で認識され、そしてそれぞれが概念辞書４０４の中で特徴セットにより定義された概念である。図８に示されるように、概念分類構造８００は概念タイプ“会社”８１８、“コンピュータハードウェア会社”８１０、“コンピュータソフトウェア会社”８１２、及び“製品”８１４をも含んでいる。概念タイプは、類似の観念を表す一つ以上の概念を集めたものである。図８に示されるように、概念“会社Ａ”８０２、“会社Ｂ”８０４、及び“会社Ｃ”８０６は、概念タイプ“会社”８１８に属している。ここで、“会社”８１８の下位にグループ化された三つの概念はそれぞれが会社の実例である。この例では、会社ＢとＣはコンピュータソフトウェア会社であり、概念“会社Ｂ”８０４と“会社Ｃ”８０６は、概念タイプ“会社”８１８の下位の概念タイプ“コンピュータソフトウェア会社”８１２の下位に更にグループ化されている。この例における会社Ａは、コンピュータハードウェア会社であり、そして概念“会社Ａ”８０２は、概念タイプ“会社”８１８の下位の概念タイプ“コンピュータハードウェア会社”８１０の下位でグループ化されている。概念“ソフトウェアＣ”８０８は、概念タイプ“製品”８１４の下位でグループ化されている。この概念分類構造８００は、概念分類構造の単純化した一例であり、追加の概念及び／又は概念タイプが含まれてもよいことが理解されるはずである。
【００６１】
本発明の実施例では、概念タイプは、ゼロ以上の概念プロパティーを定義する。子概念タイプ（例えば、概念タイプ“コンピュータソフトウェア会社”８１２）は、親概念タイプ（例えば、概念タイプ“会社”８１８）の全てのプロパティーを受け継いで、そしてゼロ以上の概念プロパティーを更に定義することができる。例えば、親概念タイプ“会社”８１８は、概念プロパティー“所在地”８２０を定義することができる。子概念タイプ“コンピュータソフトウェア会社”８１２及び“コンピュータハードウェア会社”８１０は、各々概念プロパティー“所在地”８２０を受け継いでおり、また各々が、ゼロ以上の概念プロパティーを更に定義することができる。例えば、概念タイプ“コンピュータソフトウェア会社”８１２は、（受け継いだ）概念プロパティー“所在地”８２０を定義し、更に概念プロパティー“製品”８２２を定義できる。概念タイプ“コンピュータハードウェア会社”８１０は（受け継いだ）概念タイプ“所在地”８２０を単純に定義することがある。
【００６２】
概念タイプの下位にグループ化された概念は、概念タイプにより定義された各々の概念プロパティーに関する概念プロパティー値を付与されることがある。もし概念が、親概念タイプの下位の子概念タイプの下位にグループ化されているとすると、その概念は、親概念タイプから受け継いだ概念プロパティーの各々に関する概念プロパティー値と、子概念タイプにより定義された追加の概念プロパティーの各々に関する概念プロパティー値とを付与されることがある。図８に関して、概念“会社Ａ”８０２は、概念プロパティー“所在地”８２０に関する概念プロパティー値“Ａ市”８２４を付与されることがある。又、概念“会社Ｃ”８０６は、概念プロパティー“所在地”８２０と“製品”８２２のそれぞれに関する概念プロパティー値“Ｃ市”８２６と“ソフトウェアＣ”８２８とを付与される。“ソフトウェアＣ”を概念“会社Ｃ”８０６に関する概念プロパティー値として付与することが、共通の概念タイプの下位でグループ化されていない二つの概念の間に、関係若しくは概念連関を作り出すことが理解されるはずである。図８では、この概念連関は点線８１８によって表わされている。
【００６３】
概念分類構造８００は、一つ以上の概念タイプ、及び／又は一つ以上の概念プロパティー、及び／又は一つ以上の関連付けられた概念プロパティー値を指定する概念検索を可能とする。例えば、関連する一つ以上の概念を表現する文書の単なる識別ではなく、概念分類構造８００は、関連する一つ以上の概念タイプを指定することにより、検索エンジン１３０が、一つ以上の文書を識別することを可能にする。
【００６４】
本発明の実施例では、文書モデリングモジュール１２２は、文書の概念モデルを生成する際に概念連関辞書７０８を参照する。文書モデリングモジュール１２２は、一つ以上の認識された概念、及び概念モデルの中の認識された概念に関する一つ以上の概念連関をも組み入れることができる。例えば、概念モデルは、認識された概念の一つ以上の概念タイプを示すことができる。図８に関して、概念“会社Ｃ”８０６を表現している文書に関する概念モデルは、概念“会社Ｃ”８０６、及び概念タイプ“会社”８１８、及び／又は概念タイプ“コンピュータソフトウェア会社”８１２を示すことがある。その代わりに、若しくは更に、文書モデリングモジュール１２２は、概念プロパティー、及び／又は認識された概念に関する結び付けられた概念プロパティー値を概念モデルの中に組み入れることができる。図８に関して、概念“会社Ｃ”８０６を表現している文書に関する概念モデルは、概念“会社Ｃ”８０６、及び概念プロパティー“所在地”８２０、及び／又は結び付けられた概念プロパティー値“Ｃ市”８２６を示すことができる。更に、概念モデルは概念プロパティー“製品”８２２、及び／又は結び付けられた概念プロパティー値“ソフトウェアＣ”８２８を示してもよい。
【００６５】
文書モデリングモジュール１２２は、一つ以上の概念タイプの一つ以上の概念タイプ識別を含むことにより、一つ以上の概念タイプを概念モデルの中に組み入れることができる。概念タイプ識別は、英数字文字列及び／又は記号文字列であってよいが、概念タイプを一意に識別する。与えられた概念タイプについての概念タイプ識別が、概念タイプの文字表現を含むことを必要としないことが理解されるはずである。例えば、概念タイプ識別“１＋”が、概念タイプ“コンピュータソフトウェア会社”８１２を一意に識別することに使用され、また“１＋”が、“コンピュータソフトウェア会社”の代わりに概念モデルに含まれることがある。この例では、概念タイプ識別“１＋”と概念タイプ“コンピュータソフトウェア会社”との間の写像は概念図４０２の中に含まれている。本発明の実施例では、文書モデリングモジュール１２２は、概念タイプ識別を与えられた概念タイプの認識された概念に割り付け、そして概念タイプ識別に基づいた概念モデルを生成する。同様に、概念プロパティー識別、及び／又は結び付けられた概念プロパティー値識別は各々、英数字文字列及び／又は記号文字列であるが、概念モデルの中に含まれることがある。
【００６６】
別の実施例では、検索エンジン１３０が、検索を実行するときに概念分類構造８００を参照する概念検索を実行するように作られることがある。検索エンジン１３０は、概念連関辞書７０８をデータ伝送路１０６を介して参照するか、若しくは概念分類構造８００の少なくとも一部を含んでいる取り込まれたファイルを参照できる。
【００６７】
従って図８に関して、概念検索は、例えば概念タイプ“コンピュータソフトウェア会社”８１２の下位の概念のいずれかを表現する文書について照会することができる。この場合、検索は、概念“会社Ｂ”８０４と“会社Ｃ”８０６の一方か両方を表している一つ以上の文書を識別できる。別の例では、概念検索が、“会社”８１８と、概念プロパティー“所在地”８２０に結び付けられた概念プロパティー値“Ａ市”８２４を持っていることとにより文書を識別することがある。ここで、概念検索は概念“会社Ａ”８０２を表現している一つ以上の文書を識別できる。
【００６８】
本発明の実施例では、概念連関辞書７０８は複数の概念分類構造を含んでいる。本発明の別の実施例では、二以上の分類構造が、概念タイプの同一セットと概念の同一セットとを含んでいる。しかしながら、各々の概念分類構造は、概念タイプ及び／又は概念の異なるグループを持っていてよい。多重の概念分類構造は、異なる視点を含んだ種々のアプリケーションに合わせて単独の概念図４０２を作ることにより柔軟性を促進する。例えば、第一概念分類構造が、図８に示された概念分類構造８００であってよい。第二概念分類構造が、概念タイプの同一セットと概念の同一セットとを、図８に示されるように含んでいてよい。しかし、第二概念分類構造は、概念タイプ“コンピュータハードウェア会社”８１０の下位に概念“会社Ｂ”８０４を概念“会社Ａ”８０２と共に含むことがある。この例では、会社Ｂは、コンピュータソフトウェア製品とコンピュータハードウェア製品の両方を生産している。利用者の視点次第で、会社Ｂは、コンピュータソフトウェア会社又はコンピュータハードウェア会社とみなされてよい。第一及び第二の概念分類構造は、これらの異なる視点に合わせて作られ、概念検索が利用者の視点に従って文書を探し出すことを可能にする。各々の概念分類構造が、概念プロパティーと概念プロパティー値の対応するセットを持てることが理解されるはずである。
【００６９】
本発明の多重概念分類構造を持つ実施例では、文書モデリングモジュール１２２が、概念モデルを各々の概念分類構造に従って生成することがある。複数の概念モデルが、同一の認識された概念か複数の概念を示すことがある一方で、一つ以上の認識された概念に関する一つ以上の異なる概念連関を示すことがある。代わりに、文書モデリングモジュール１２２は、利用者、例えば図１のコンピュータ１２８の利用者、に指定された一つ以上の概念分類構造に従って概念モデルを生成してもよい。
【００７０】
本発明の多重概念分類構造を持つ他の実施例では、文書モデリングモジュール１２２は、全ての概念分類構造に対して一般的な一つの概念モデルを生成する。例えば、生成された概念モデルが、認識された概念、及び／又は対応する概念重要度を示すことはできるが、認識された概念に関する概念連関を示すことはできない。検索エンジン１３０が、関心の持てる一つ以上の概念分類構造を検索の間に参照する概念検索を実行するように作られることがある。前述したように、検索エンジン１３０が、データ伝送路１０６を介して概念連関辞書７０８を参照するか、又は一つ以上の関心の持てる概念分類構造の少なくとも一部分を含んで取り込まれたファイルを参照することがある。
【００７１】
文書についての概念モデル６００を生成することに加えて、文書モデリングモジュール１２２は、更に一つ以上の自動属性、及び／又は一つ以上の自動カテゴリを文書に付与することがある。
【００７２】
自動属性は、文書の概念モデル、及び／又は一つ以上の原属性に基づいて文書に生成されるか、又は付与される。前述したように、一つ以上の原属性が文書及び／又は文書ソース１０４から引き出されることがある。本発明の実施例では、文書統合モジュール１２０は、ＸＭＬ文書の中の一つ以上の原属性を含み、そして一つ以上の原属性をタグの対で前後を囲む。
【００７３】
本発明の実施例では、自動属性は、確実な判定基準を満足する文書に付与された、所定の記述的ラベルである。文書に付与され得る自動属性の例には、たとえば“有用文書”、“販売カタログ文書”、若しくは“ＦＡＱ文書”が含まれる。自動属性は、例えば“自動車”のような文書主題も示すことがある。文書に付与され得る自動属性は、対応する自動属性化規則を持っている。文書モデリングモジュール１２２は、図７に示される自動属性化辞書７１２の中に一つ以上の自動属性化規則を含んでいる。実行中、文書モデリングモジュール１２２は、文書が自動属性化規則を満足するかどうかを確認する。もし自動属性化規則が満足されたなら、文書モデリングモジュール１２２は、対応する自動属性を文書に付与する。
【００７４】
本発明の実施例では、自動属性化規則は、以下のタイプの要素：概念、概念重要度、概念プロパティー、概念プロパティー値、及び原属性、の一つ以上に基づいた判定基準を規定できる。ここで、自動属性を文書に生成若しくは付与するときに、文書モデリングモジュール１２２は、以下のソース：文書の概念モデル６００、概念連関辞書７０８、及びＸＭＬ形式（若しくは他の形式）の文書、の一つ以上を参照又は調べることができる。自動属性化規則は、一つ以上の論理的、及び／又は数学的比較式と連携する一つ以上の要素を含む判定基準を規定することができる。論理的及び数学的比較式の例には、“ａｎｄ”、“ｏｒ”、“ｎｏｔ”、“より大きい”、“以上”、“より小さい”、“以下”、“等しい”、“等しくない”、及び“類似”が含まれる。更に、“（）”として記号的に表された、グループ化比較式が使用されることがある。これらの比較式はここでは、擬似符号比較式を表すために使われ、個別のコンピュータ言語における比較式との一致を必要としない。
【００７５】
例として、概念“ウェブブラウザ“、若しくは概念“ネットワークアプリケーション“、若しくは概念“インターネット”を表現する文書には自動属性“技術”が付与されるべきであることを、自動属性化規則は規定できる。他の例として、概念タイプ“コンピュータソフトウェア”の下位にグループ化された概念を表現していて、“２０００年１月１２日”以降の作成日原属性を持っている文書が、自動属性“有用文書”を付与されるべきであることを、自動属性化規則は規定できる。自動属性化規則は、文書の概念モデルが、標本文書の概念モデルにどの程度厳密に一致するかに基づいた判定基準を規定することもできる。その様な判定基準は、前述した概念ＱＢＥ検索と同様であることが理解されるはずである。
【００７６】
自動属性化規則を使用することにより、本発明は、文書への正確で矛盾の無いラベルの付与を可能にする。次に、この正確で矛盾の無い付与は、効果的で正しい識別と文書の取り出しを利用者が、又は利用者のために可能とする。
【００７７】
本発明は、調査検分者による文書の再検討なしで文書にラベルを付与することができる。更に、自動属性化規則は、利用者により定義され得るものであり、また利用者の要求に合わせて作られ得るものである。例えば、自動属性化規則は、概念“インターネット”を表現していて“２００１年１月１日”以降の作成日原属性を持っている文書には、自動属性“有用文書”を付与すべきであることを規定できる。あるいは、自動属性化規則は、概念“地方債”を表現していて“２００１年１月１日”以降の作成日原属性を持っている文書に、自動属性“有用文書”を付与すべきであることを規定するように修正されることもある。
【００７８】
本発明の実施例では、文書は、その文書が満たす各々の自動属性規則についての自動属性を付与される。従って、文書は、二以上の自動属性を付与されることがある。別の実施例では、文書モデリングモジュール１２２が、文書が複数の自動属性規則を満たすか否かを順次確認し、そして文書が満たす一番目の自動属性規則に対応する自動属性を付与する。他の実施例は、文書が満たすことができ、且つ属性若しくは複数の属性を付与できる最も適切な規則若しくは複数の規則を捜し出すことを試みており、ここで前記属性若しくは複数の属性は、前記規則若しくは複数の規則に対応するものである。
【００７９】
本発明の実施例では、文書モデリングモジュール１２２は、カテゴリ化分類構造の中の一つ以上のカテゴリに文書を割り付けることができる。文書は、特定の基準を満たすと、カテゴリに割り付けられ得る。図９はカテゴリ化分類構造の例を示している。この例では、カテゴリ化分類構造９００は複数のカテゴリを含んでいて、前記複数のカテゴリは様々な文書の主題を表している。カテゴリ化分類構造９００は、カテゴリ“政治”９０２、“スポーツ”９０４、及び“コンピュータ”９０６を含んでおり、それらはこの例における主カテゴリである。カテゴリ化分類構造９００は、カテゴリ“政治”９０２の下位に、カテゴリ“米国政治”９１４、及び“外国政治”９１６も含んでいる。カテゴリ“バスケットボール”９０８、“フットボール”９１０、及び“野球”９１２が、カテゴリ“スポーツ”９０４の下位に含まれている。カテゴリ“米国政治”９１４に割り付けられた文書は、例えば、カテゴリ“政治”９０２にも割り付けられることが理解されるはずである。
【００８０】
本発明の実施例では、カテゴリ化分類構造の一つ以上のカテゴリが、対応する自動カテゴリ化規則を持っている。図７に関して、文書モデリングモジュール１２２は、一つ以上の自動カテゴリ化規則を自動カテゴリ化辞書７１４の中に含んでいる。文書モデリングモジュール１２２は、文書が自動カテゴリ化規則を満たすかどうかを確認する。自動カテゴリ化規則が満たされた場合は、文書モデリングモジュール１２２は文書を該当するカテゴリに割り付ける。本発明の実施例では、カテゴリ化分類構造におけるカテゴリの全てが対応する自動カテゴリ化規則を持っているわけではない。例えば、もし“米国政治”９１４及び“外国政治”９１６のような下位のカテゴリであるカテゴリが、対応する自動カテゴリ化規則を持っているなら、図９の“政治”９０２のような主カテゴリであるカテゴリは、対応する自動カテゴリ化規則を持たなくてもよい。
【００８１】
本発明の実施例では、カテゴリに割り付けられた文書は、カテゴリを示す自動カテゴリを割り付けられることがある。例えば、カテゴリ“米国政治”９１４に割り付けられた文書は、自動カテゴリ“米国政治（Ｕ．Ｓ．Ｐｏｌｉｔｉｃｓ）”を割り付けられることがある。自動カテゴリが、カテゴリを一意に識別するラベルであってよく、例えば英数字文字列及び／又は記号文字列のようなものであってよいことが理解されるはずである。
【００８２】
本発明の実施例では、自動カテゴリ化規則は、以下のタイプの要素：概念、概念重要度、概念タイプ、概念プロパティー、概念プロパティー値、原属性、及び自動属性、の一つ以上に基づいた判定基準を規定することができる。故に、自動カテゴリを文書に生成若しくは付与するときに、文書モデリングモジュール１２２は以下のソース：文書の概念モデル６００、概念連関辞書７０８、ＸＭＬ形式（又は他の形式）の文書、及び文書に割り付けられた一つ以上の自動属性、の一つ以上を参照若しくは調査することができる。自動属性化規則と同様に、自動カテゴリ化規則は、一つ以上の論理的及び／又は数学的比較式及び／又はグループ化比較式と連携する一つ以上の要素を含む判定基準を規定できる。自動カテゴリ化規則は、文書の概念モデルが、標本文書の概念モデルにどの程度厳密に一致するかに基づいた判定基準も規定することができる。
【００８３】
例として、自動カテゴリ化規則は、概念“ウェブブラウザ”、若しくは概念“ネットワークアプリケーション”、若しくは概念“インターネット”を表現する文書が図９のカテゴリ“コンピュータ”９０６に割り付けられることを規定できる。
【００８４】
自動カテゴリ化規則を使用することによって、本発明は、カテゴリ化分類構造の一つ以上のカテゴリへ、文書を正確で矛盾無く分類することを可能とする。この正確で矛盾の無い分類は、次には、利用者による、若しくは利用者のための、文書の効果的で正しい識別と検索とを可能にする。
【００８５】
本発明は、調査検分者による文書のどのような再吟味もなしに、文書を分類することができる。自動カテゴリ化規則が、利用者により定義されたものであって、利用者の要求に合わせて作られ得ることが理解されるはずである。
【００８６】
図１に関して、メモリ１１８はモデリングディレクトリ１２４を含んでいる。モデリングディレクトリ１２４は、例えば、関係データベースのようなデータ保存庫であってよい。本発明の一つの実施例では、文書モデリングモジュール１２２が、文書１０８に関する生成されたメタデータの少なくとも一部をモデリングディレクトリ１２４に保存する。特に、文書モデリングモジュール１２２は、生成された概念モデル６００の少なくとも一部を保存できる。その代わりに、若しくはこれと共に、文書モデリングモジュール１２２は、文書１０８に付与された一つ以上の自動属性、及び／又は文書１０８に付与された一つ以上の自動カテゴリを保存することがある。
【００８７】
本発明の実施例では、文書モデリングモジュール１２２は、例えば、文書１０８を識別したり、及び／又は文書ソース１０４の中での文書１０８の位置を与えるリンク若しくは識別子を与えることにより、保存されたメタデータの少なくとも一部を文書１０８に結びつける。このリンク若しくは識別子は、保存されたメタデータと共に保存されてもよい。検索エンジン１３０は、データ伝送路１０６を介してモデリングディレクトリ１２４にアクセスすることができ、そして文書１０８の保存されたメタデータが検索照会に一致した場合に、文書１０８を識別する。文書１０８が識別されたなら、利用者、例えばコンピュータ１２８の利用者は、文書ソース１０４から文書１０８を取り出すことができる。
【００８８】
その代わりに、及び／又は上述のことと共に、サーバーコンピュータ１０２は、生成されたメタデータの少なくとも一部を文書ソース１０４に伝送することができる。本発明の実施例では、文書モデリングモジュール１２２は、文書１０８を識別したり、及び／又は文書ソース１０４の中での文書１０８の位置を与えるリンク若しくは識別子を与えることにより、生成されたメタデータの少なくとも一部を文書１０８に結び付ける。文書モデリングモジュール１２２は、メタデータを（リンク若しくは識別子と共に）文書統合モジュール１２０に提出する。文書統合モジュール１２０は、データ伝送路１０６を介してメタデータを（リンク若しくは識別子と共に）文書ソース１０４に伝送する。文書ソース１０４は伝送されたメタデータをメモリ１３６に保存することができる。検索エンジン１３０は、メモリ１３６に保存されている伝送されたメタデータにアクセスすることが可能で、そして文書１０８の保存されたメタデータが検索照会に合致した場合に文書１０８を識別することができる。本発明の別の実施例における文書統合モジュール１２０が、リンク若しくは識別子を与えてもよいことが理解されるはずである。
【００８９】
図１０Ａ〜Ｅは、本発明の実施例により、文書上で実行されることがある処理ステップの順序を示したものである。図１０Ａは、文書１００２を示しており、この文書１００２はこの例ではワード文書である。文書１００２は最初に、文書ソース１０４に保存され、そして文書１００２のコピーが文書統合モジュール１２０により受け取られる。図１０Ａに示されるように、文書１００２には、テキスト部１００４と非テキスト部１００６とがある。この例では、非テキスト部１００６は静止画像（例えばＪＰＥＧ画像）である。
【００９０】
文書統合モジュール１２０は、ワード形式の文書１００２のコピーを図１０Ｂに示されるようなＸＭＬ文書１００２（ｂ）に変換する。この例では、文書統合モジュール１２０は、文書１００２の原属性“２００１年１月１日”１００８を文書ソース１０４から引き出し、そしてＸＭＬ文書１００２（ｂ）にその原属性を含めている。図１０Ｂに示されるように、“２００１年１月１日”は、一対のタグ＜作成日＞と＜／作成日＞によって前後を囲まれて示されている。非テキスト部１００６は分離されており、テキスト部１００４が、一対のタグ＜Ｐ１＞と＜／Ｐ１＞に囲まれて示されている。
【００９１】
文書モデリングモジュール１２２はＸＭＬ文書１００２（ｂ）を処理する。特に、文書モデリングモジュール１２２は概念“インターネット”を認識する。この例では、概念“インターネット”は、“ネットワーク”、“ウェブ”、“ＴＣＰ／ＩＰ”、“コンピュータ”、及び“インターネット”を含んでなる特徴セットにより定義され得る。図１０Ｃに示されるように、文書モデリングモジュール１２２は、二つの特徴（“ウェブ”と“コンピュータ”）がＸＭＬ文書１００２（ｂ）に存在するか否かを確認する。二つの特徴に結び付けられた特徴重要度（例えば、それぞれ０．９と０．０５）を使って、文書モデリングモジュール１２２は概念“インターネット”についての概念重要度を、例えば特徴重要度を加算することによって算出する。この例では、計算された概念重要度０．９５は、閾値０．１を超えているので、概念“インターネット”は、認識されることを決定される。図１０Ｃに示されるように、文書モデリングモジュール１２２は、第二の概念“ＩＢＭ”も認識する。概念“ＩＢＭ”が別の特徴セットによって定義されてもよく、前記特徴セットが概念“インターネット”を定義する一つ以上の特徴を含んでもよいことが理解されるはずである。
【００９２】
文書モデリングモジュール１２２は、概念“インターネット”と“ＩＢＭ”とに基づいて文書１００２についての概念モデル１０１０を生成する。図１０Ｄに示されるように、文書モデリングモジュール１２２は認識された概念“インターネット”と“ＩＢＭ”、及びそれらの計算された概念重要度を概念モデル１０１０に組み入れる。
【００９３】
図１０Ｅに示されるように、文書モデリングモジュール１２２は自動属性“有用文書”１０１２を文書１００２に付与する。この例では、自動属性“有用文書”１０１２についての自動属性化規則は、概念“インターネット”を表現していて、且つ “２０００年１月１日”以降の作成日原属性を持っている文書が、自動属性“有用文書”１０１２を付与されるべきことを規定する。文書モデリングモジュール１２２は概念モデル１０１０を参照し、そして概念“インターネット”が示されていると確認する。文書モデリングモジュール１２２はＸＭＬ形式１００２（ｂ）の文書を参照し、そして作成日原属性が“２０００年１月１日”以降であると確認する。
【００９４】
文書モデリングモジュール１２２は、自動カテゴリ“技術”１０１４も文書１００２に付与する。この例では、自動カテゴリ化規則は、概念“インターネット”若しくは概念“ＩＢＭ”を表現している文書が自動カテゴリ“技術“１０１４を付与されるべきであることを規定できる。
【００９５】
この例では、文書モデリングモジュールが、生成されたメタデータ１０１０、１０１２、及び１０１４をリンク若しくは識別子（図１０Ｅには図示されず）とともにモデリングディレクトリ１２４の中に保存する。検索エンジン１３０は、保存されたメタデータ１０１０、１０１２、及び１０１４が検索照会に合致する場合に文書１００２を識別するために、例えばデータ伝送路１０６を介して、モデリングディレクトリ１２４にアクセスすることができる。もし文書１００２が識別されたなら、利用者は文書１００２を文書ソース１０４から引き出すことができる。
【００９６】
本発明の詳細な実施例の前述した説明は、実例と解説を目的として提示されたものである。それらは、完全であること若しくは開示された形態に発明を限定することを意図するものではない。明らかに多くの修正と変更が上述の教示の観点から可能である。
【００９７】
例えば、図１に関連して、本発明により処理される文書は、サーバーコンピュータ１０２のメモリ１１８に最初に保存されていて、そして文書ソース１０４から取り出されたり提出されたりするとは限らない。この変更では、検索エンジン１３０は、サーバーコンピュータ１０２に保存されている文書をデータ伝送路１０６を介して識別することができる。
【００９８】
図１に関連して、文書１０８（若しくはそのコピー）を受け取ることの代わりに、文書統合モジュール１２０が、テキスト部１１０、及び／又は一つ以上の文書１０８の属性というような、文書１０８の一部分を受け取ってもよい。
【００９９】
図１に関連して、メタデータを保存することに加えて、メモリ１１８は文書１０８（又はそのコピー）を文書ソース１０４から受け取ったときと同じその初期形式で、若しくはその共通形式で保存してもよい。本発明の実施例では、文書１０８は、文書ソース１０４から受け取られてメモリ１１８に保存され、そして文書１０８のコピーが作成されて文書モデリングモジュール１２２による処理のために提出される。上記のことの代わりにまたは上記のことと同時に、メモリ１１８は、テキスト部１１０若しくは非テキスト部１１２というような、文書１０８の一部分を保存してもよい。上記のことの代わりにまたは上記のことと同時に、メモリ１１８は、文書１０８（若しくはそのコピー）から、及び／又は文書ソース１０４から抽出された一つ以上の原属性を保存することがある。
【０１００】
図１に関連して、文書統合モジュール１２０、文書モデリングモジュール１２２、及びモデリングディレクトリ１２４は、データ伝送路により接続された二以上の別個のサーバーコンピュータに存在することがあり、前記データ伝送路は、有線又は無線のデータ伝送路であってよい。
【０１０１】
図１に関連して、本発明の実施例は、メモリ１１８の中に、文書モデリングモジュール１２２を含むが文書統合モジュール１２０を含まないことがある。この実施例では、本発明により処理される文書は、サーバーコンピュータ１０２のメモリ１１８に最初に保存されており、文書ソース１０４から引き出されたり提出されたりする必要がない。
【０１０２】
本発明の実施例が、文書の一つ以上の自動カテゴリに基づいた自動属性を文書に付与若しくは生成してもよい。
【０１０３】
文書に対する一つ以上の自動カテゴリの付与に替えて、本発明の実施例は、文書を一つ以上の個々のデータベースに保存することにより文書を分類することがある。各々の個々のデータベースは、カテゴリに対応することができ、また個々のデータベースは、図１に示されるメモリ１１８に存在してもよい。
【０１０４】
本発明の実施例は、生成されたメタデータの一部分を文書それ自身に加える（又は別な方法で取り入れる）ことにより、文書の生成されたメタデータの少なくとも一部分を文書に結び付けてもよい。
【０１０５】
本発明の実施例は、コンピュータネットワーク（例えば、ネットワーク１００）を構成することと、その様々な構成要素とに責任のある技術スタッフと同様のヘルプシステムを含むことがあり、このヘルプシステムは利用者に援助を提供するウィザードを含んでいる。
【０１０６】
本発明の実施例は更に、コンピュータ読取り媒体を持つコンピュータ記憶製品に関係しており、前記コンピュータ読取り媒体はその上に、コンピュータに実行される様々な演算のための計算機コードを持っている。前記媒体と計算機コードは、本発明の目的のために特別に設計されて作られたものであってよく、又はそれらは、コンピュータソフトウェアの技術分野に知識を有する者には公知であり且つ利用される種類のものであり得る。コンピュータ読み取り媒体の例には、ハードディスク及びフロッピーディスク及び磁気テープのような磁気媒体、並びにＣＤ−ＲＯＭ及びホログラフィックデバイスのような光媒体、並びにフロプティカルディスクのような光磁気媒体、並びに特定用途向け集積回路（“ＡＳＩＣｓ”）及びプログラム可能論理デバイス（“ＰＬＤｓ”）及びＲＯＭとＲＡＭデバイスのようなプログラムコードを記憶しそして実行するように特に作られたハードウェア装置、が含まれるが、これらのものに制限されない。計算機コードの例には、コンパイラによって生成されるような機械コード、及びインタープリタを使ってコンピュータにより実行される高水準コードを含んでいるファイルが含まれる。例えば、本発明の実施例は、Ｊａｖａ、Ｃ＋＋、若しくは他のオブジェクト指向のプログラミング言語と開発ツールを使用して実行されることがある。
【０１０７】
最後に、本発明が、機械実行可能なソフトウェア命令の代わりに又はこれと組み合わされて、ハードウェアに組み込まれた回路の中で具現化され得ることが理解されるはずである。
【０１０８】
標準的な技術者は、本明細書に説明された方法とシステムの説明を更に発展させることを必要としないであろうが、それでもなお、これらの方法とシステムの準備に有用な手引きを、関連技術分野における標準的な参考資料を調査することによって見つけ出すことができよう。例えば、標準的な技術者は、米国特許第６０２８６０５号（Ｕ．Ｓ．ＰａｔｅｎｔＮｏ．６，０２８，６０５）名称“Ｍｕｌｔｉ−ＤｉｍｅｎｓｉｏｎａｌＡｎａｌｙｓｉｓｏｆＯｂｊｅｃｔｓｂｙＭａｎｉｐｕｌａｔｉｎｇＤｉｓｃｏｖｅｒｅｄＳｅｍａｎｔｉｃＰｒｏｐｅｒｔｉｅｓ”、交付日２０００年２月２２日、発明者ＴｏｍＣｏｎｒａｄ、ＳｃｏｔｔＷｉｅｎｅｒ、のような関連する特許を調査のために選択してもよい。なお前記特許はこの引用により説明に代える。
【０１０９】
熟練した技術者は、米国仮出願第６０／１９２２３６号（ＰｒｏｖｉｓｉｏｎａｌＡｐｐｌｉｃａｔｉｏｎＳｅｒｉａｌＮｏ．６０／１９２，２３６）、名称“ＭｅｔｈｏｄａｎｄＡｐｐａｒａｔｕｓｆｏｒＩｄｅｎｔｉｆｙｉｎｇＤｏｃｕｍｅｎｔＣｏｎｔｅｎｔｓｆｏｒＲａｐｉｄＲｅｔｒｉｅｖａｌ”、出願日２０００年３月２７日、発明者ＶｉｃｔｏｒＳｐｉｖａｋ、ＡｌｅｘＲａｎｋｏｖ、ＨｏｗａｒｄＳｈａｏ、ＲａｚｍｉｋＡｂｎｏｕｓ、及びＭａｔｔＳｈａｎａｎｈａｎ、を調べることにより有用な手引きを見つけ出すかもしれない。なお、前記特許はこの引用により説明に代える。
【０１１０】
実施例は、本発明の原理と応用例を説明するために選ばれて記述され、その結果本技術分野に知識を有する他の者が本発明を利用することを可能とし、様々な修正を伴う様々な実施例も同様に様々な用途に適応させられることが理解されるはずである。本発明の範囲は、前述の特許請求の範囲とその均等物とによって定められることが意図されている。
【図面の簡単な説明】
【図１】
図１は、本発明の実施例に従って運用されることがあるコンピュータネットワークを示した図である。
【図２】
図２は、本発明の実施例に従って実行される処理ステップを示した図である。
【図３】
図３は、本発明の実施例に従って、文書統合モジュールによって実行される処理ステップの詳細な説明を示した図である。
【図４】
図４は、本発明の実施例に従った文書モデリングモジュールを示した図である。
【図５】
図５は、本発明の実施例に従って、文書の中に一つ以上の概念を認識し、且つ一つ以上の概念に基づいた概念モデルを生成している文書モデリングモジュールが、実行している処理ステップの詳細な説明を提供する図である。
【図６】
図６は、本発明の実施例における、文書についての概念モデルを示した図である。
【図７】
図７は、本発明の別の実施例における、文書モデリングモジュールを示した図である。
【図８】
図８は、本発明の実施例に従って、概念分類構造の一例を示した図である。
【図９】
図９は、本発明の実施例に従って、カテゴリ化分類構造の一例を示した図である。
【図１０Ａ〜Ｅ】
図１０Ａ〜Ｅは、本発明の実施例に従って文書上に実行されることがある処理ステップの順序を示した図である。

Claims

コンピュータで実行される文書処理の方法であって、前記方法が：
文書を共通形式文書に変換する段階と；
前記共通形式文書の中の、前記共通形式文書に表現された基本観念を表しているところの概念を認識する段階と；
前記概念を概念モデルに組み入れる段階とを備えている、コンピュータで実行される文書処理の方法。
前記概念を認識する段階が、前記共通形式文書の中の複数の特徴を識別する段階を含んでいて、前記複数の特徴が、前記共通形式文書における前記概念の証拠を表しているところの、請求項１に記載のコンピュータで実行される文書処理の方法。
前記概念を認識する段階が更に：
前記概念についての概念重要度であって、前記概念に関する認識信頼水準を表している概念重要度を、前記複数の特徴に結び付けられた複数の特徴重要度を使って算出する段階と；
前記概念重要度を所定の閾値と比較する段階とを含んでいる、請求項２に記載のコンピュータで実行される文書処理の方法。
前記共通形式文書に対する記述的ラベルである自動属性を前記概念モデルの参照によって生成する段階を更に備える、請求項１に記載のコンピュータで実行される文書処理の方法。
前記概念モデルを参照することによって、前記共通形式文書を主題カテゴリに割り付ける段階を更に備える請求項１に記載のコンピュータで実行される文書処理の方法。
前記変換する段階が、前記文書をＸＭＬ形式の共通形式文書に変換する段階を含んでいるところの、請求項１に記載のコンピュータで実行される文書処理の方法。
指定された方法で機能することをコンピュータに命令するためのコンピュータ読み取り媒体であって：
文書に表現された基本観念を認識するための命令と；
前記基本観念に概念識別を付与するための命令と；
前記概念識別に基づいた概念モデルを生成するための命令とを含んでなるコンピュータ読み取り媒体。
前記基本観念を認識するための前記命令が、複数の特徴が前記文書に存在するか否かを確認するための命令を含んでいて、前記複数の特徴が、前記基本観念が前記文書に表現されていることの証拠を表しているところの、請求項７に記載のコンピュータ読み取り媒体。
前記基本観念を認識するための前記命令が更に：
前記複数の特徴に結び付けられた複数の特徴重要度を使って、前記基本観念についての認識信頼水準を算出するための命令と；
前記認識信頼水準を所定の閾値と比較する命令とを含んでいるところの、請求項８に記載のコンピュータ読み取り媒体。
前記概念モデルを生成するための前記命令が、前記認識信頼水準を前記概念モデルに組み入れるための命令を含んでいるところの、請求項９に記載のコンピュータ読み取り媒体。
前記概念モデルに基づいた自動属性を前記文書に付与するための命令を更に備えていて、前記自動属性が、前記文書に対する記述的ラベルを表している、請求項７に記載のコンピュータ読み取り媒体。
前記概念モデルに基づいた、カテゴリ化分類構造のカテゴリに前記文書を収納するための命令を更に備えていて、前記カテゴリ化分類構造が複数のカテゴリを含んでいる、請求項７に記載のコンピュータ読み取り媒体。
前記カテゴリに前記文書を収納するための前記命令が、前記文書に自動カテゴリを付与するための命令を含んでいて、前記自動カテゴリが、前記カテゴリに関する記述的ラベルを表している、請求項１２に記載のコンピュータ読み取り媒体。
プロセッサと、前記プロセッサに接続されたメモリとを具備するコンピュータであって、前記メモリが、文書モデリングモジュールを含んでいて、前記文書モデリングモジュールが、文書の中に表現された基本観念を表している概念を認識することを前記プロセッサに命令するように作られている第一モジュールと、前記概念に基づいた概念モデルを生成することを前記プロセッサに命令するように作られている第二モジュールとを持っている、コンピュータ。
前記メモリが、文書統合モジュールを更に含んでいて、前記文書統合モジュールが、第三モジュールを持っており、前記第三モジュールが、初期形式文書を共通形式を有する前記文書に変換することを前記プロセッサに命令するように作られているところの、請求項１４に記載のコンピュータ。
前記文書統合モジュールが、更に第四モジュールと第五モジュールとを持っていて：
前記第四モジュールが、テキスト部を前記初期形式文書から分離することを前記プロセッサに命令するように作られていて；
前記第五モジュールが、前記テキスト部を前記文書に組み入れることを前記プロセッサに命令するように作られているところの、請求項１５に記載のコンピュータ。
前記第一モジュールが第六モジュールと第七モジュールと第八モジュールとを持っていて：
前記第六モジュールが、前記文書の中に複数の特徴が存在するか否かを確認することを前記プロセッサに命令するように作られていて、前記複数の特徴が、文書における前記概念の証拠を表しており；
前記第七モジュールが、前記複数の特徴に結び付けられた複数の特徴重要度を使って、前記概念についての概念重要度を算出することを前記プロセッサに命令するように作られていて、前記概念重要度が、前記概念についての認識信頼水準を表しており；
前記第八モジュールが、前記概念重要度を所定の閾値と比較することを前記プロセッサに命令するように作られているところの、請求項１４に記載のコンピュータ。
前記メモリが、モデリングディレクトリを更に含んでいて、前記文書モデリングモジュールが、前記概念モデルを前記モデリングディレクトリの中に保存することを前記プロセッサに命令するよう作られた第九モジュールを更に持っているところの、請求項１４に記載のコンピュータ。
前記文書モデリングモジュールが第十モジュールを更に持っていて、前記第十モジュールが、前記概念モデルに基づいた自動属性を生成することをプロセッサに命令するように作られていおり、前記自動属性が記述的ラベルを表しているところの、請求項１４に記載のコンピュータ。
前記概念モデルに基づいた、複数のカテゴリの中の一つのカテゴリに、前記文書を分類することを前記プロセッサに命令するように作られた第十一モジュールを、前記文書モデリングモジュールが更に持っているところの、請求項１４に記載のコンピュータ。