JP2012526319A - 電子ドキュメントコレクション内の複数選択ドキュメントを標的調査する方法、システムおよび装置 - Google Patents

電子ドキュメントコレクション内の複数選択ドキュメントを標的調査する方法、システムおよび装置 Download PDF

Info

Publication number
JP2012526319A
JP2012526319A JP2012509771A JP2012509771A JP2012526319A JP 2012526319 A JP2012526319 A JP 2012526319A JP 2012509771 A JP2012509771 A JP 2012509771A JP 2012509771 A JP2012509771 A JP 2012509771A JP 2012526319 A JP2012526319 A JP 2012526319A
Authority
JP
Japan
Prior art keywords
document
vector
collection
intellectual property
static
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012509771A
Other languages
English (en)
Other versions
JP5516916B2 (ja
Inventor
レスニック,ジェイソン,デイヴィッド
ラカス,ランディー,ダブリュー
Original Assignee
シーピーエー ソフトウェア リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シーピーエー ソフトウェア リミテッド filed Critical シーピーエー ソフトウェア リミテッド
Publication of JP2012526319A publication Critical patent/JP2012526319A/ja
Application granted granted Critical
Publication of JP5516916B2 publication Critical patent/JP5516916B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/11Patent retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

電子ドキュメントコレクションを効率的かつ有効に調査する方法、システムおよび物品コレクション内の各ドキュメントが、あらかじめ小区分に分割され、各ドキュメントの各小区分の1つまたは組み合わせごとに静的ドキュメントベクトルが作成される。ドキュメントコレクションに提示されたクエリ文字列のための動的ドキュメントベクトルが作成される。クエリのパラメータに基づいて、動的ドキュメントベクトルの特定の静的ドキュメントベクトルとの比較で、各ドキュメントの特定の小区分が使用される。一連の動的ドキュメントベクトル内にあるすべての関連付けられた特定の静的ドキュメントベクトルに基づいて、IPドキュメントのコンパイルが作成される。

Description

本発明は、電子ドキュメントコレクションに関し、またクエリの受け取りに応じたコレクションの調査に関する。より具体的には、本発明は、各ドキュメントの複数の区分を分類し、コレクション内のドキュメントの分類された区分に応じてクエリを効率的に処理することに関する。
特許、商標および著作権出願を含むすべての知的財産ドキュメントは、そのような出願を受け取るように指定された政府機関の前に登録または審査のために提出されなければならない。政府特許庁の前に審査のために提出された特許出願は、各特許が新しく有用で非自明でなければならないことを含むいくつかの要件を満たさなければならない。類似の基準は、全てでないにしてもほとんどの外国特許庁の特許庁に適用される。審査のための特許出願を適切に準備するには、一発明に一特許しか与えられないので、関連技術分野の先行特許(すなわち、先行技術)の知識を有することが有用である。先行技術を確認する方法は、特許調査として知られる。特許調査の結果は、一般に、後工程の特許出願の作成者が、何が特許可能な内容でありそうかに集中し、また発明者の目的または特許権所有者の目的を達成するための妥当な戦略を策定するのを支援する。
現在の電子情報時代に技術が発展する前、特許調査が手作業で行われていたことは知られている。調査員は、特許情報開示を調べ、特許の分類体系に基づいて特許情報開示がどこで分類されるかを確認し、その後で調査を行なう。情報技術の到来で、全ての特許および公開特許出願が電子形式でしか入手できないので、紙の調査はもはや利用できない。電子形式の特許ドキュメントの場合でも、電子特許データベースの調査に、手による調査で使用されるのと類似の戦略を使用することができる。
様々な結果を得るために、様々なクラスの調査が依頼されることがある。例えば、特許を申請するかどうかを確認するための新規性調査が依頼されることがある。製品が現行特許のクレームによってカバーされているかどうかを確認するために、製品クリアランス調査が依頼されることがある。特許の発行クレームが有効かどうかなどを決定するために、無効性調査が依頼されることがある。従来の電子調査ツールは、異なるクラスの調査に対応していない。より正確に言うと、調査範囲に基づいて調査で調べる特許ドキュメントの区分を制限するには、調査を行う人(調査員としても知られる)に負担がかかる。データベース内の特許と出願特許出願の量が増大しているので、特許の数と共に調査の負担が増大し、また公開された特許出願を調査のたびに調べなければならない。
したがって、調査および関連調査範囲と関連した負担を軽減する調査員によって使用されるツールが必要とされている。このツールによって、調査員は、正確で望ましい調査結果をより効率的かつ効果的に取得するために調査中に特許ドキュメントの様々な区分を活用できなければならない。
本発明は、特許ドキュメントなどの知的財産ドキュメントのコレクションを効率的かつ有効に調査する方法、システムおよび物品を含む。
本発明の1つの態様では、電子ドキュメントコレクションを調査するコンピュータ手法が提供される。知的財産ドキュメントのコレクションがコンパイルされ、コレクション内の各知的財産ドキュメントは、複数の区分からなる。例えば、コレクションを索引付けするとき、コレクション内の各特許ドキュメントの少なくとも1つのドキュメントベクトルが導出される。ドキュメントベクトルの導出は、コレクション内に各ドキュメントの少なくとも1つの静的ドキュメントベクトルを作成することを含む。コレクションにクエリを提示するとき、クエリ入力と共に提示された文字列に基づいて動的ドキュメントベクトルが作成される。コレクションにクエリ入力を提示することにより、クエリ入力と関連付けられた動的ドキュメントベクトルが、コレクション内の各静的ドキュメントベクトルと比較される。コレクションの静的ドキュメントベクトルと動的ドキュメントベクトルの比較に基づいて、適切な特許ドキュメントのコンパイルが戻される。
本発明の別の態様では、コンピュータシステムは、記憶媒体と通信状態にあるプロセッサと、記憶媒体上に維持される電子ドキュメントコレクションが提供される。電子ドキュメントコレクションは、特許または他の知的財産ドキュメントのコンパイルである。特許ドキュメントの特徴に基づいて、コレクション内の特許ドキュメントはそれぞれは複数の区分を有する。索引付け時に、コレクション内の各特許ドキュメントの少なくとも1つのドキュメントベクトルが導出される。ドキュメントベクトルの作成は、ドキュメントコレクション内の各特許ドキュメントの少なくとも1つの静的ドキュメントベクトルを作成することを含む。クエリ時に、クエリ入力により受け取った文字列データから動的ドキュメントベクトルが作成される。動的ドキュメントベクトルを作成した後で、クエリ入力は、電子特許ドキュメントコレクションに提示される。入力マネージャと通信状態にあるクエリマネージャが、特許ドキュメントコレクションへのクエリ入力の提示に応じて、動的ドキュメントベクトルを、コレクション内の各静的ドキュメントベクトルと比較する。クエリマネージャによって提示された後で、静的ドキュメントベクトルと動的ドキュメントベクトルの比較に基づくコンパイルにより、適切な特許ドキュメントのコンパイルが戻される。
本発明の更に別の態様では、コンピュータメモリ上の電子ドキュメントコレクションを調査するように構成されたコンピュータプログラム命令を含むコンピュータ可読キャリアを備えた物品が提供される。コンピュータ可読キャリアは、ドキュメントコレクション上で実行すべきコンピュータプログラム命令を含む。特許ドキュメントのコレクションをコンパイルする命令が提供される。コレクション内の各特許ドキュメントは、複数の区分に分割される。コレクションを索引付け時に、コレクション内の特許ドキュメントごとに少なくとも1つのドキュメントベクトルを導出する命令が提供される。これは、ドキュメントコレクション内の特許ドキュメントごとに少なくとも1つの静的ドキュメントベクトルを作成することを含む。コレクションにクエリを提示するとき、クエリ入力からの文字列データに基づいて動的ドキュメントベクトルを作成する命令が提供される。動的ドキュメントベクトルを作成した後で、動的ドキュメントベクトルをコレクション内の各静的ドキュメントベクトルと比較するためのクエリが電子ドキュメントコレクションに提示される。クエリ提示の結果は、コレクション内の動的ドキュメントベクトルを静的ドキュメントベクトルと比較することに基づいて戻された適切な特許ドキュメントのコンパイルを含む。
本発明の他の特徴および利点は、添付図面と関連して行われる本発明の現在好ましい実施形態の以下の詳細な説明から明らかになる。
本明細書で参照された図面は、本明細書の一部を構成する。図面に示された特徴は、特に断らない限り、本発明のすべての実施形態の例示ではなく単に本発明のいくつかの実施形態の例示として示されたものである。他の状況では逆の意味付けは行われない。
電子ドキュメントコレクション、より具体的には特許および特許公報に関係するコレクションの調査を示すフローチャートである。 特許ドキュメントコレクションにクエリを提示する一般的なプロセスを示すフローチャートである。 ストップワードを使用して特許ドキュメントコレクション内の静的ドキュメントベクトルを更に解析するプロセスを示すフローチャートである。 コレクション内の各特許ドキュメントの複数のドキュメントベクトルを作成するプロセスを示すフローチャートである。 本発明の好ましい実施形態による、複数のドキュメントベクトルと共にドキュメントコレクションにクエリを提示するプロセスを示すフローチャートであり、交付済み特許の第1ページに印刷するように提案される。 電子ドキュメントコレクションに提示されたクエリを処理するために使用される1組のツールを示すブロック図である。 電子ドキュメントコレクションを調査するユーザ入力指示をするためのグラフィカルユーザインターフェースのブロック図である。
本明細書の図で概略的に示され説明された本発明の構成要素が、様々な異なる構成で構成され設計されてもよいことは容易に理解されよう。したがって、図に示されたような本発明の装置、システムおよび方法の実施形態に関する以下の詳細な説明は、請求された通り本発明の範囲を限定するものではなく、単に本発明の特定の実施形態を表すものである。
本明細書で述べる機能ユニットは、マネージャとして示された。マネージャは、フィールドプログラマブルゲートアレイ、プログラマブルアレイロジック、プログラマブルロジック装置などのプログラム可能なハードウェア装置で実現されてもよい。また、マネージャは、様々なタイプのプロセッサによって実行されるソフトウェアで実現されてもよい。例えば、実行可能コードの特定マネージャは、例えばオブジェクト、手順、関数または他の構成体として編成されてもよいコンピュータ命令の1つまたは複数の物理または論理ブロックから構成されてもよい。しかしながら、特定マネージャの実行ファイルは、物理的に一緒に配置されなくてよいが、論理的に結合されたときにマネージャを構成しかつマネージャの規定の目的を達成する様々な場所に格納された個々の命令を含んでもよい。
実際には、実行可能コードのマネージャは、単一命令でも複数命令でもよく、またいくつかの異なるコードセグメントに分配されてもよく、様々なアプリケーション間に分配されてもよく、またいくつかのメモリデバイスにわたって分配されてもよい。同様に、オペレーショナルデータが、マネージャ内で識別され示されてもよく、任意の適切な形式で実施され任意の適切なタイプのデータ構造内に編成されてもよい。オペレーショナルデータは、単一のデータセットとして収集されてもよく、様々な記憶装置を含む様々な場所に分散されてもよく、少なくとも部分的にシステムまたはネットワーク上の電子信号として存在してもよい。
本明細書の全体にわたって、「特定の実施形態(a select embodiment)」、「一実施形態(one embodiment)」、または「実施形態(an embodiment)」は、この実施形態と関連して説明された特定の特徴、構造または特性が、本発明の少なくとも1つの実施形態に含まれることを意味する。したがって、本明細書全体の様々な場所に現れる語句「特定の実施形態」、「一実施形態では(in one embodiment)」または「実施形態では(in an embodiment)」は、必ずしも同じ実施形態を指さない。
更に、記載した特徴、構造または特性は、1つまたは複数の実施形態において任意の適切な方法で組み合わされてもよい。以下の説明では、本発明の実施形態の完全な理解を提供するために、ドキュメントマネージャ、入力マネージャ、クエリマネージャなどの例のような多数の特定の詳細が提供される。しかしながら、当業者は、本発明を1つまたは複数の特定の詳細なしに、または他の方法、構成要素、材料などにより実施できることを理解するであろう。他の例では、本発明の態様を不明瞭にしないように、周知の構造、材料または操作は詳細に図示または言及されない。
本発明の図示された実施形態は、全体に亘って類似の部分が類似の数字によって示された図面を参照することにより最もよく理解されるであろう。以下の説明は、単なる例であり、本明細書で請求された本発明と一致する装置、システムおよび方法の特定の選択された実施形態だけを示す。
(概要)
静的ドキュメントベクトルと動的ドキュメントベクトルが、知的財産ドキュメントと共に使用される。以下では、特に特許ドキュメントに関して言及される。一実施形態では、ドキュメントベクトルは、任意の知的財産ドキュメントに適用されてもよい。ドキュメントベクトルは、1組の(キーワード,重み)ペアであり、ここで、キーワードは、基本ドキュメントと関連付けられた語または句であり、重みは、キーワードがドキュメントにとってどれだけ重要かの数値尺度である。より具体的には、ドキュメントベクトルは、ドキュメント間の比較を容易にするようにドキュメント内容を表わす一種のドキュメント署名である。これは、ドキュメントの非構造化テキスト内容の数値表現である。静的ドキュメントベクトルは、特許および公開特許出願と、そのようなドキュメントが頻繁に変更されないように関連付けられる。動的ドキュメントベクトルは、特許ドキュメントコレクションに提示されたクエリ文字列データ(以下では文字列)と関連付けられる。静的ドキュメントベクトルは、特許に特有でかつ調査を行う際に極小値を有する文字列を除外するように解析されてもよい。除外された文字列は、ストップワードと呼ばれる。一実施形態では、本明細書で使用されるストップワードは、特許業界に特有である。更に、各特許ドキュメントは中に定義された区分を有し、各区分は、特許ドキュメントの様々な部分を識別する。特許調査を行うとき、特許ドキュメントの様々な区分に異なる値がある。したがって、特許調査の範囲によって、調査は、特許ドキュメントの特定の区分に限定されることがある。したがって、コレクションに提示されたクエリに関係するデータによって結果セットを効率的かつ効果的に作成するために、特許ドキュメントコレクションにドキュメントベクトルが使用され、結果セットは、特許ドキュメントコレクションの内、提示されたクエリ文字列と関連付けられた動的ドキュメントベクトルのセット数値範囲内になるように計算された静的ドキュメントベクトルを有する1つまたは複数のドキュメントである。
(技術詳細)
実施形態の以下の説明では、本明細書の一部を構成し本発明を実施することができる特定の実施形態を例として示す添付図面を参照する。本発明の範囲を逸脱せずに構造を変更することができるので他の実施形態を利用できることを理解されたい。
図1は、電子ドキュメントコレクション、およびより具体的には特許および特許公報に関係するコレクションを調査する全体像を示すフローチャート(100)である。最初に、特許ドキュメントのコレクションが、コンパイルされる(102)。特許および特許公報が複数の区分からなることは当該技術分野で理解されている。ドキュメントのコンパイルに続いて、コレクションが、索引付けされる(104)。コンパイルを索引付けするプロセスは、データのコレクションを調査と抽出に適したデータベースに変換することを含む。より具体的には、ドキュメントコレクションの索引付けは、コレクション内の各特許ドキュメントのドキュメントベクトルを導出することを含む(106)。ドキュメントベクトルは、語と句の重み付けリストを含む。一実施形態では、ドキュメントベクトルに選択される用語には、名詞句、タイトルケースでかつ文の最初ではない語、およびドキュメントに頻繁に現れる語が挙げられるが、これらに限定されない。重みは、ベクトルに入れられた用語に関して間計算される。一実施形態では、重みを計算する以下の方法は、ドキュメント内の語の頻度が1〜0の数に正規化され、ここで1はドキュメントに最も頻繁に現れる語に割り当てられ、ドキュメントの選択されたフィールド内の語または語ペアを強調するステップと、名詞句により高い重みを割り当てるステップと、ドキュメントの本文内のタイトルケース語を強調するステップと、短い文字列より長い文字列により高い重みを割り当てるステップとを含むがこれらに限定されない。ドキュメントベクトルに含める語と句を選択され、その語と句の重みが選択された後で、積分器を利用することによりドキュメントベクトルが計算される。一実施形態では、積分器は、ベクトルにどのフィールドを含めるか、含む語と句をどれだけ強調するかを選択し、各要素が最終的な用語の重みにどれだけ寄付するかを選択し、ドキュメント内に見つけた企業体の重要性の強化や、データベース内に見つけた一般的な句を除去するためのストップワードリストの増大などのエンティティタイプをベクトルに追加することができる。コレクション内の各特許ドキュメントに作成されたドキュメントベクトルは、「静的ドキュメントベクトル」と名付けられる。
少数の例外以外、特許ドキュメントが発行された後、一般に変更は受けられない。この規則の例外には、補正証明書の発行、交付済み特許の再審査、および交付済み特許の再発行が挙げられるが、これらに限定されない。これらの例外に対処するために、ドキュメントコレクションが更新される。より具体的には、コレクション内のドキュメントに対する変更および関連ドキュメントベクトルを更新するための時間期間が設定される(108)。時間期間の例には、毎月、半年毎、毎年などがあるがこれらに限定されない。その後で、設定された時間期間が終了したかどうかが判定される(110)。ステップ(110)での判定に対する肯定応答の後で、ステップ(102)に戻る。これと逆に、ステップ(110)での判定に対する否定応答の後は、設定された時間期間待機して、特許ドキュメントに対する変更をドキュメントベクトルに組み込むように特許ドキュメントベクトルを更新し(112)、その後でステップ(110)に戻る。一実施形態では、特許コレクションは、交付済み特許に限定されず、公開特許出願を含む。したがって、特許に特有の性質に基づいて、特許ドキュメントコレクションは、コレクション内の特許のどれかに対する変更に対処するために、定期的に更新されなければならない。
ドキュメントコレクションを解析してコレクションの静的ドキュメントベクトルを作成した後、コレクション全体にクエリが実行されることがある。図2は、特許ドキュメントコレクションにクエリを提示する一般的なプロセスを示すフローチャート(200)である。最初に、入力クエリを受け取る(202)。一実施形態では、入力クエリは、文字列で構成される。クエリ入力用のドキュメントベクトルを作成する(204)。クエリ用のドキュメントベクトルは、提示時に作成されるので、今後、動的ドキュメントベクトルと呼ぶ。動的ドキュメントベクトルは、クエリ用のテキスト入力に基づいて作成される。より具体的には、動的ドキュメントベクトルは、クエリ入力テキストからの最も適切な用語から成る。動的ドキュメントベクトルに含める文字列を選択し、かつベクトルに含めるように選択された用語に重みを割り当てるために、様々なツールが使用できる。一実施形態では、入力クエリから、名詞句、タイトルケースの語(すなわち、最初の文字が大文字化されているが文の最初にない)、ドキュメントに頻繁に現れる語、ドキュメントに頻繁に現れる対の語が抽出される。静的ドキュメントベクトルと同じように、指定されたストップワードは、除去され、動的ドキュメントベクトルに含まれない。動的ベクトルに含めるための用語が、入力クエリのテキストから抽出された後、これらの用語に重みが割り当てられる。一実施形態では、ドキュメント内の各用語または句の頻度は、1〜0の数に正規化され、ここで、1は、ドキュメントに最も頻繁に現れる語に割り当てられる。同様に、一実施形態では、例えば、名称などの特別なフィールド内の語または語ペアが強調され、名詞句により高い重みが割り当てられ、ドキュメントの本文内のタイトルケース語が強調され、長い文字列に短い文字列より高い重みが割り当てられる。ドキュメントベクトルの計算は、高度に構成可能である。一実施形態では、ユーザは、調査語に重みを割り当てることができる。したがって、クエリ入力に基づいて適切な動的ドキュメントベクトルを作成するために呼び出すことができる様々なツールがある。
ステップ(204)の後で、動的ドキュメントベクトルの形のクエリが、ドキュメントコレクションに提示され(206)、ここで、動的ドキュメントベクトルは、特許ドキュメントコレクション内の静的ドキュメントベクトルと比較される(208)。次に、コレクション内の静的ドキュメントベクトルのどれかが、動的ドキュメントベクトルの定義された数値範囲内にあるとかどうかが判定される(210)。ステップ(210)での判定に対する肯定応答の後で、定義された数値範囲内にある1つまたは複数の静的ドキュメントベクトルを有するコレクション内のすべての基礎特許ドキュメントを結果セットに入れる(212)。ステップ(212)の後またはステップ(210)での判定に対する否定応答に応じて、ユーザが、ドキュメントコレクションに新しいクエリを提示したいかどうかが判定される(214)。一実施形態では、新しいクエリは、以前に提示されたクエリの範囲を狭くしてもよい。同様に、新しいクエリは、以前に提示されたクエリの範囲を広くしてもよい。新しいクエリの範囲にかかわらず、ステップ(214)での判定に対する肯定応答の後で、ステップ(204)に戻る。同様に、ステップ(214)での判定に対する否定応答は、ドキュメントコレクションに対するクエリ提示プロセスの終了となる。したがって、ドキュメントコレクションにクエリを提示することは、提示された文字列を動的ドキュメントベクトルに変換することと、ドキュメントベクトルをドキュメントコレクションの静的ベクトルと比較することを含む。
特許ドキュメントコレクションは、技術ドキュメントの固有のコレクションである。特許ドキュメントは、交付済み特許認可と公開特許出願の形で来る。ドキュメントの2つのカテゴリーの違いは、それらの実施可能な値を識別する。より具体的には、特許認可は、司法裁判所で実施することができる実際の所有権であり、一方、公開特許出願は、係属特許権である係属出願である。記述された各特許ドキュメントは、出願書類に入れる慣例的な語と句を含む。しかしながら、そのような語と句は、これらの語とが、ほとんどの特許ドキュメントに現われ、本発明に固有でないので、調査では極小価値を有する。そのような語と句の例には、「実施形態」、「例示的」、「先行技術」などがあるがこれらに限定されない。同様に、各国は、特許出願ではよくある様々な語を有することがある。例えば、いくつかの国では、語「特徴とする(characterized)」は、ほとんど特許性や調査価値がない一般的な語である。そのような語は、本明細書では、ストップワードと呼ばれる。国、言語、または文化に特有のストップワードを識別する目的は、調査するドキュメントベクトルのサイズを最小化することである。コレクションから識別されたストップワードを除去するために、特許ドキュメントコレクション内の各ドキュメントベクトルが解析されることがある。
図3は、特許ドキュメントコレクション内の静的ドキュメントベクトルを更に解析するためにストップワードを使用するプロセスを示すフローチャート(300)である。ドキュメントコレクションにクエリを提示する前に、静的ドキュメントベクトルのストップワードを解析すべきかどうか判定する。ストップワードは、特定の国(302)、特定の言語(304)および/または特定の文化(306)に限定されてもよい。ステップ(302)、(304)および/または(306)における任意の個々の選択または選択の組み合わせに対する肯定応答の後で、特許ドキュメントコレクション内の静的ドキュメントベクトルを解析するためのストップワードのコンパイルを作成する(308)。特許ドキュメントのコレクションをコンパイルする(310)。一実施形態では、特許ドキュメントのコレクションは、選択された国、言語および/または特定の文化に限定されもよい。ドキュメント(310)をコンパイルした後で、コレクションを索引付けし(312)、コレクションからストップワードを解析する(314)。コンパイルからストップワードを索引付けし取り出すプロセスは、データのコレクションを調査と抽出に適したデータベースに変換することを含む。ステップ(314)の後で、コレクション内のドキュメントの1つまたは複数の区分を、コレクション用に作成されるドキュメントベクトルに含めるように選択する(316)。ステップ(316)での少なくとも1つの区分の選択に基づいて、コレクション内の各特許ドキュメントのドキュメントベクトルを作成する(318)。より具体的には、ドキュメントコレクションを索引付けした後で、導出されたドキュメントベクトルから識別されたストップワードのないコレクション内の各特許ドキュメントの選択された区分のドキュメントベクトルを導出する。そのようなドキュメントベクトルは、本明細書では静的ドキュメントベクトルと呼ばれる。
少数の例外を除き、特許ドキュメントは発行された後、一般に変更を受けない。そのような例外に対処するために、ドキュメントコレクションは希に更新される。より具体的には、コレクション内のドキュメントに対する任意の変更および該当ドキュメントベクトルを更新するための時間期間(320)が設定される。時間期間の例には、毎月、半年毎、年毎などがあるがこれらに限定されない。その後で、設定された時間期間が終了したかどうかが判定される(322)。ステップ(322)の判定に対する否定応答の後で、設定された時間期間(324)待機して、特許ドキュメントに対する変更をドキュメントベクトルに組み込むように特許ドキュメントベクトルを更新し、その後でステップ(320)に戻る。これに対して、ステップ(322)での判定に対する肯定応答の後で、ドキュメントコレクションに適用される新しいストップワードがあるかどうかが判定される(326)。ステップ(326)での判定に対する肯定応答の後で、ステップ(310)に戻り、またステップ(326)の判定に対する否定応答の後で、非該当特許用語のコンパイルに新しいストップワードおよび/または句を追加する(328)。ステップ(328)の後で、特許ドキュメントコレクションの静的ドキュメントベクトルを作成しかつ/または更新するプロセスは、ステップ(310)に戻る。したがって、識別されたストップワードの選択のために静的ドキュメントベクトルを解析して、クエリの提示を可能にして、静的ドキュメントコレクション内の適切な文字列に集中できるようにしてもよい。
交付済み特許と公開特許出願が複数の区分に分割されることは認識される。特許ドキュメントの各区分は、完成した特許出願の提示に必要とされ、特許の各区分は目的を有する。特許出願の各区分の詳細は、本明細書では詳細に言及されない。しかしながら、様々な区分が識別される。大部分は、各特許出願は、名称、優先権出願日、概要、背景説明、要約、図面の簡単な説明(ある場合)、本発明の詳細な説明、およびクレームを含む。調査の目的により特許界で使用される様々な調査カテゴリーがある。例えば、侵害および/または製品クリアランス調査は、クレーム内の語と関係し、したがって、ドキュメントコレクション内にあるクレームが対象とされるはずである。有効性および/または無効性調査は、任意の既知の先行技術と関係し、特許ドキュメントの優先権出願日の識別を必要とする。発明者が、特許出願の前または後でその発明の新規性を判定しようとするとき、発明者またはその代行人または代理人が、新規性調査を依頼することがある。そのような調査は、クレームを重視するのをやめ、発明の詳細な説明に注目してもよい。したがって、本明細書に示されたように、各調査は、ドキュメントコレクション内の特許ドキュメントの様々な区分に重点を置く。
上記したように、コレクションの調査で極小価値を有するストップワードを選択するために、ドキュメントコレクション内の各特許を解析してもよい。しかしながら、ストップワードの選択に加えてまたはその選択と別に、単一の特許ドキュメントの複数の静的ドキュメントベクトルをコンパイルしたいことがあり、個別の各ドキュメントベクトルは、コレクション内の特許ドキュメントの識別された各区分に関係する。特定の区分を識別する各ベクトルによる複数のドキュメントベクトルの作成は、定義された調査範囲に基づいて、ドキュメントコレクションの調査を精密化してもよい。例えば、ドキュメントコレクション内の侵害調査は、ドキュメントコレクション内の各特許のクレーム区分に関係するドキュメントベクトルに限定されないことがある。
図4は、コレクション内の各特許ドキュメントに複数のドキュメントベクトルを作成するプロセスを示すフローチャート(400)である。最初に、特許ドキュメントのコレクションをコンパイルし(402)、索引付けする(404)。変数MTotalに特許ドキュメントコレクション内のドキュメントの総数が指定され(406)、カウント変数Mに整数1が指定される(408)。コレクションの特許ドキュメントM内の区分の量を識別する(410)。ステップ(410)の後で、変数NTotalに特許ドキュメントM内の区分の総数が指定され(412)、カウント変数Nに整数1に指定される(414)。コレクション内の各特許ドキュメントの各区分のドキュメントベクトルを作成する。より具体的には、「PatentDocument」の各「Section」のドキュメントベクトルを作成する(416)。ステップ(416)でドキュメントベクトルを作成した後で、特許ドキュメントの別の区分がある場合は、カウント変数Nを増分して(418)、次の区分の次のドキュメントベクトルを作成するために特許ドキュメントの次の区分に進む。ステップ(418)の後で、特許ドキュメントにドキュメントベクトルを作成する更に他の区分があるかどうかが判定される(420)。ステップ(420)での判定に対する否定応答の後で、ステップ(416)に戻る。これと反対に、ステップ(420)での判定に対する肯定応答の後で、変数Mが増分される(422)。次に、コレクション内の各ドキュメントを解析して複数のドキュメントベクトルが作成されたかどうかを判定する(424)。ステップ(424)の判定に対する否定応答の後で、ステップ(410)に戻り、コレクション内の次のドキュメント用の複数のドキュメントベクトルを作成する。前述のように、静的ドキュメントコレクションを定期的に更新しなければならないことがあることは、当該技術分野では既知である。更新の頻度は、コレクションの精度によって頻繁でも稀でもよい。一実施形態では、静的ドキュメントベクトルを更新する頻度は、特許の発行割合に比例してもよい。ステップ(424)での判定に対する肯定応答は、特許ドキュメントコレクションを解析して各特許ドキュメントの複数のドキュメントベクトルを作成したことを示す。次に、コレクション内の静的ベクトルを更新する時間期間が終了したかどうかが判定される(426)。ステップ(426)での判定に対する肯定応答の後で、ステップ(402)に戻る。これと反対に、ステップ(426)での判定に対する否定応答の後で、設定された時間期間待機して、特許ドキュメントに対する変更をドキュメントベクトルに組み込むために特許ドキュメントベクトルを更新し(428)、その後で、ステップ(426)に戻る。したがって、ドキュメントコレクション内の各特許ドキュメントを解析して複数の静的ドキュメントベクトルを作成してもよく、各ベクトルは、特許ドキュメントの1つの識別された区分に関係する。
特許ドキュメントを解析して、コレクション内の各ドキュメントの複数のドキュメントベクトルを作成した後で、クエリの提示は、ドキュメント区分の解析を活用してもよい。図5は、複数のドキュメントベクトルを有するドキュメントコレクションにクエリを提示するプロセスを示すフローチャート(500)である。最初に、クエリをコレクションに提示するユーザが、調査の範囲を定義する(502)。一実施形態では、調査の範囲の選択を容易にするために、ユーザには、コンピュータ命令の上の層としてグラフィカルユーザインターフェースが提供されてもよい。ステップ(502)の後で、定義された調査の範囲が、ドキュメントコレクションのドキュメントベクトルカテゴリーの選択と関連付けられ(504)、クエリ文字列がドキュメントコレクションに提示される(506)。その後で、提示されたクエリ文字列の動的ドキュメントベクトルが作成され(508)、その動的ドキュメントベクトルが、該当ドキュメントを決定するためにドキュメントコレクションに提示される(510)。クエリの提示は、動的ドキュメントベクトルのドキュメントコレクションの特定の静的ドキュメントベクトルとの比較に限定される(512)。一実施形態では、静的ドキュメントベクトルの選択は、静的ドキュメントベクトルのグループの選択でよい(513)。より具体的には、特許ドキュメントのクレーム区分に限定された調査で、特許ドキュメントコレクション内の特許のクレーム区分の静的ドキュメントベクトル、すなわち類似の静的ドキュメントベクトルのグループだけが調査される。ステップ(512)での比較は、動的ドキュメントベクトルと静的ドキュメントベクトルの数学的比較である。比較の結果セットは、数学的比較に基づいてソートされる(514)。一実施形態では、ソートは、ドキュメントコレクションの静的ドキュメントベクトルの動的ドキュメントベクトルとの近さに基づく階層的である。したがって、動的ドキュメントベクトルのコレクションの静的ドキュメントベクトルとの比較によって、結果セットが得られる。
結果セットをソートした後(514)、数値を利用して、該当するように決定されるソート済みドキュメントの近さの範囲を定義する(516)。ステップ(516)の後で、ソートされたコレクション内に、定義された数値範囲内にあるドキュメントがあるかどうかが判定される(518)。ステップ(518)での判定に対する肯定応答の後で、動的ドキュメントベクトルの定義された範囲内の静的ドキュメントベクトル内の基本特許の全てのリストを結果セットに入れる(520)。ステップ(520)の後またはステップ(518)での比較に対する否定応答の後で、ユーザが、新しいクエリ文字列を提示したいか、または前のクエリ文字列提示のクエリを制限したいかかどうかが判定される(522)。判定ステップ(522)に対する否定応答は、クエリ提示プロセスの終わりを知らせる。これと反対に、ステップ(522)での判定に対する肯定応答の後で、ユーザは、クエリ(すなわち、動的ドキュメントベクトル)と比較される調査の区分(すなわち、静的ドキュメントベクトル)を変更したいかどうかを判定する(524)。一実施形態では、調査の範囲の変更は、調査で使用される静的ドキュメントベクトルの選択を直接変更してもよい。ステップ(524)での判定に対する肯定応答の後で、ステップ(502)に戻り、次のクエリで評価される特許ドキュメントの区分を変更する。これと反対に、ステップ(524)での判定に対する否定応答は、特許コレクション内に前のクエリと同じドキュメントベクトルの制限を維持しながら新しいクエリが前のクエリの範囲を更に制限することを示す。したがって、否定応答の後で、特許ドキュメントコレクションではなくクエリのさらなる修正が提示され、ステップ(506)に戻る。したがって、調査の範囲は、クエリの動的ドキュメントベクトルを特許ドキュメントコレクションの静的ドキュメントベクトルと比較することに基づいて結果セットを修正するように、2つの点で変更されてもよい。
図1〜図5に示されたように、特許ドキュメントコレクションに特有のドキュメントベクトルが作成され、次にクエリの提示に使用されて、コレクションの静的ドキュメントベクトルの定義された範囲内にある動的ドキュメントベクトル内の結果セットが作成される。図6は、静的および動的ドキュメントベクトルを作成しかつそのベクトルをドキュメントコレクションに提示されるクエリと関連して使用する1組のツールを示すブロック図(600)である。図示されたように、コンピュータシステム(602)は、バス構造(608)によってメモリ(606)に結合された処理装置(604)を備える。1つの処理装置(604)だけを示すが、一実施形態では、拡張設計でもっと多くの処理装置が提供されてもよい。システム(602)は、ドキュメントコレクション(642)を収容するように構成された記憶媒体(640)と通信状態にあるように示されている。一実施形態では、電子ドキュメントコレクションは、交付済み特許と公開特許出願を含む特許ドキュメントのコンパイルを含む。記憶媒体(640)は、処理装置(604)と通信状態にある。更に、システムは、画像データを表現するための表示装置(650)と通信状態にあるように示されている。本明細書に図示され記述された要素はそれぞれ、ドキュメントコレクション(642)に対するクエリ提示を支援する。
コンピュータシステム(602)に対してローカルでかりかつメモリ(606)と通信状態のドキュメントマネージャ(660)が提供される。ドキュメントマネージャ(660)は、索引付け時にコレクション(642)の各特許ドキュメントのドキュメントベクトルを導出する役割をする。より具体的には、ドキュメントマネージャ(660)は、コレクション(642)内の各特許ドキュメントに少なくとも1つの静的ドキュメントベクトル(644)を作成する。前述のように、各特許ドキュメントは、同じ特許庁管轄から発行された場合に一貫していることもある特定の標準化された区分からなる。一実施形態では、ドキュメントマネージャ(660)は、各特許ドキュメントの複数の静的ドキュメントベクトル(644)を作成するために使用される。ドキュメントマネージャ(660)によって作成されたドキュメントベクトル(644)は、記憶媒体(640)に収容される。やはりコンピュータシステム(602)に対してローカルでかつメモリ(606)と通信状態の入力マネージャ(662)が提供される。入力マネージャ(662)は、クエリ入力から受け取った文字列データに基づいて、クエリ時に動的ドキュメントベクトルを作成する役割をする。入力マネージャ(662)は、クエリマネージャ(664)と通信状態にあり、やはりコンピュータシステム(602)に対してローカルでありかつメモリ(606)との通信状態に提供される。クエリマネージャ(664)は、入力マネージャ(662)によって作成された動的ドキュメントベクトルを、ドキュメントコレクション(642)へのクエリ入力の提示に応じて、各静的ドキュメントベクトル(644)と比較する役割をする。この比較により、適切な特許ドキュメント(646)がコンパイルされる。一実施形態では、コンパイルは、表示装置(650)上に提供される。同様に、一実施形態では、コンパイルは、記憶装置上に一時的に保持されてもよく永続的に保持されてもよい。
非該当文字列データ(648)のコンパイルを使用して、静的ドキュメントベクトル(644)からの非該当文字列データを解析してもよい。一実施形態では、非該当文字列データ(648)のコンパイルは、記憶媒体(640)上に保持され、ドキュメントマネージャ(660)によって定期的に更新される。非該当文字列データを使用するか無視することより、ドキュメントマネージャ(660)は、ドキュメントコレクション(642)内の各特許ドキュメントの複数の静的ドキュメントベクトルを作成するように指示されることがある。コンピュータシステム(602)に対してローカルでありかつメモリ(606)と通信状態の選択マネージャ(666)が提供される。より具体的には、選択マネージャ(666)は、ドキュメントコレクションに対する調査範囲を選択するためにクエリマネージャ(664)と通信状態にある。選択された調査範囲は、クエリを処理するためにクエリマネージャ(664)によって適用される静的ドキュメントベクトルの選択を決定する。
一実施形態では、入力マネージャ(662)、クエリマネージャ(664)、ドキュメントマネージャ(660)および選択マネージャ(666)は、コンピュータシステム(602)に対してローカルなメモリ(606)内にあってもよい。しかしながら、本発明は、この実施形態に限定されるべきでない。例えば、一実施形態では、入力、クエリ、ドキュメントおよび選択マネージャ(660)〜(666)はそれぞれ、ローカルメモリ(606)の外部のハードウェアツールとして存在してもよく、ハードウェアとソフトウェアの組み合わせとして実現されてもよい。同様に、一実施形態では、マネージャ(660)〜(666)は、記憶媒体(640)と通信状態にあるリモートシステム上にあってもよい。したがって、マネージャは、適切な特許ドキュメントのコンパイルを得るために、電子特許ドキュメントコレクションに対する1つまたは複数のクエリの提示を支援するソフトウェアツールまたはハードウェアツールとして実現されてもよい。
本明細書に記載されているように、クエリは、クエリ実行で処理される静的ドキュメントベクトルに関係する特定の命令と共に特許ドキュメントコレクションに提示されてもよい。図7は、命令の提示を支援するために使用されることがあるグラフィカルユーザインターフェース(702)のブロック図(700)である。インターフェース(702)は、電子ドキュメントコレクションの基礎データベースを支援する命令の上の化粧板として働く。図示されたように、4つの主フィールドがある。第1のフィールド(710)は、ドキュメントコレクションにクエリを提示するためのフィールド(712)を含む。第2のフィールド(720)は、調査カテゴリーを選択するための複数のフィールドを含む。より具体的には、図示されたように、第2のフィールド(720)は、調査カテゴリーを選択するための、新規性(722)、最新技術(724)、侵害(726)、製品クリアランス(728)、妥当性/無効性(730)のサブフィールドを含んでもよい。一実施形態では、調査フィールド(720)は、複数のサブフィールドの選択に対応することができる。第3のフィールド(740)は、結果コンパイルで戻される調査ドキュメントの最大量を選択するための複数のフィールドを含む。より具体的には、第3のフィールド(740)は、10ドキュメント(742)、50ドキュメント(744)、100ドキュメント(746)、500ドキュメント(748)、1000ドキュメント(750)、および戻される最大数量をカスタマイズした入力を支援する入力フィールド(752)などのサブフィールドを含んでもよい。本発明は、(742)〜(750)で示されたサブフィールドの量に限定されるべきでない。本明細書で提供される数は、単なる例示である。インターフェースの第4のフィールド(760)は、ドキュメントコレクションにクエリ文字列を提示するために使用される。一実施形態では、第4のフィールド(760)は、クエリ提示を入力するための実行ボタン(762)と、当該実行をキャンセルするためのキャンセルボタン(764)とを有する。したがって、本明細書で示されたインターフェースは、電子ドキュメントコレクションへのクエリの通信と提示を容易にして、電子ドキュメントコレクション内の1つまたは複数の静的ドキュメントベクトルの使用を強化する。
一実施形態では、本発明は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むがこれらに限定されないソフトウェアで実現される。本発明は、コンピュータまたは任意の命令実行システムによってまたはそれらと関連して使用するためのコンピュータ可用媒体またはコンピュータ可読媒体からアクセス可能なコンピュータプログラム製品の形態でよい。この説明のために、コンピュータ可用媒体またはコンピュータ可読媒体は、命令実行システム、機器または装置によってまたはそれらと関連して使用するプログラムを収容、記憶、通信、伝搬、または転送することができる任意の装置でよい。
本発明の範囲内の実施形態は、コード化されたプログラムコードを有するログラム記憶手段を含む製造物品も含む。そのようなプログラム記憶手段は、汎用または専用コンピュータがアクセスすることができる任意の利用可能な媒体でよい。限定ではなく一例として、そのようなプログラム記憶手段は、RAM、ROM、EEPROM、CD−ROM若しくは他の光学ディスク記憶装置、磁気ディスク記憶装置若しくは他の磁気記憶装置、または所望のプログラムコード手段を記憶するために使用することができ汎用または専用コンピュータがアクセスすることができる任意の他の媒体でよい。以上のものの組み合わせも、プログラム記憶手段の範囲に含まれるはずである。
媒体は、電子、磁気、光学、電磁気、赤外線、半導体システム(または、機器または装置)、または伝搬媒体でよい。コンピュータ可読媒体の例には、半導体または固体メモリ、磁気テープ、取外し式コンピュータディスケット、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、剛性磁気ディスク、および光ディスクがある。光ディスクの現在の例には、コンパクトディスクB読み出し専用(CD−ROM)、コンパクトディスクB読出し/書込み(CD−R/W)およびDVDが挙げられる。
プログラムコードを記憶しかつ/または実行するのに適したデータ処理システムは、システムバスを介してメモリ素子に直接または間接に結合された少なくとも1つのプロセッサを含む。メモリ素子には、プログラムコードの実際の実行中に使用されるローカルメモリ、大容量記憶装置、実行中に大容量記憶装置からコードを取り出さなければならない回数を減らすために少なくとも何らかのプログラムコードを一時的に記憶するキャッシュメモリを挙げることができる。
入力/出力またはI/O装置(キーボード、表示装置、ポインティング装置などを含むがこれらに限定されない)は、システムに対して直接または介在I/Oコントローラを介して結合されてもよい。また、データ処理システムが、介在する専用または公衆ネットワークを介して他のデータ処理システム、リモートプリンタまたは記憶装置に結合できるようにするために、システムにネットワークアダプタが結合されてもよい。
ソフトウェア実装は、コンピュータや任意の命令実行システムによってまたはそれらと関連して使用するためのプログラムコードを提供するコンピュータ可用媒体またはかコンピュータ可読媒体からアクセス可能なコンピュータプログラム製品の形態を取ることができる。
(先行技術に対する利点)
各特許ドキュメントは、法令出願要件を満たすために必要とされる区分の定義された概要を有することは当該技術分野において知られている。ドキュメントベクトルから非該当特許文字列を除去する選択肢により、個々の電子ドキュメントの複数のドキュメントベクトルを作成する。一実施形態では、ドキュメントコレクションのクレーム区分に1つのドキュメントベクトルが作成され、ドキュメントコレクションの名称、概要およびクレーム区分に別のドキュメントベクトルが作成され、組み合わされたドキュメントコレクションのすべての区分に第3のドキュメントベクトルが作成される。ベクトルを解析することによって、より小さくより簡潔なドキュメントベクトルが得られ、ドキュメントベクトルが小さいほど、ベクトルが解析文字列の追加の処理を必要としないので、クエリ処理効率が改善される。すべてのクエリが同じとは限らない。コレクションに様々なクエリが提示されて様々な結果が得られる。したがって、非該当特許用語を解析すると共に、静的ドキュメントベクトルの分類によって、クエリ提示を効率的かつ効果的に処理して、ドキュメント結果の望ましいコンパイルを行うことができる。
(他の実施形態)
本明細書で本発明の特定の実施形態を例示のために説明してきたが、本発明の趣旨と範囲から逸脱することなく様々な変更を行うことができることを理解されよう。詳細には、知的財産ドキュメントの調査は、交付済み特許と公開特許出願に限定されない。調査は、商標登録および出願、著作権登録および出願、ならびに全ての形態の特許ドキュメントを含むがこれに限定されない知的財産ドキュメントの全ての形態を含むように拡張されてもよい。クエリ提示のドキュメント分類にかかわらず、ドキュメントコレクション内の静的ドキュメントベクトルを更新するにはリソースの負担がある。科学の進歩の自然の成り行きで、ドキュメントコレクションは、新しいドキュメントが週一度または他の時間にコレクションに追加されることにより、増大するドキュメントのコレクションである。静的ドキュメントベクトルを更新するように設定される時間期間は、知的財産ドキュメントが設定頻度で与えられ公開されるように一定でよい。しかしながら、一実施形態では、時間期間を変更するために1つまたは複数の変数が使用されてもよい。例えば、一実施形態では、定義された時間期間内にコレクションに追加されるドキュメントの量に基づいて、時間期間変数が変更されてもよい。目標は、コレクション内の静的ドキュメントベクトルの定期的更新を必要とする正確なドキュメントコレクションを維持して、包括的なデータレポジトリを保証することである。
更に、電子ドキュメントコレクションは、特に、知的財産ドキュメントに関係して説明された。しかしながら、本発明は、これらの特定のカテゴリーの電子文書に限定されるべきでない。一実施形態では、電子ドキュメントコレクションは、定義された複数の区分を有する任意のタイプのドキュメントを含んでもよい。これにより、マネージャは、ドキュメントを定義された区分に解析し、定義された区分の複数の静的ドキュメントベクトルを作成し、ドキュメントの定義された区分に基づいてクエリを定義することに対応することができる。したがって、本発明の保護の範囲は、添付のクレームおよびその等価物によってのみ限定される。

Claims (39)

  1. 電子ドキュメントコレクションを調査するための、コンピュータによって実行される方法であって、
    知的財産ドキュメントのコレクションをコンパイルするステップであって、前記コレクション内の前記ドキュメントがそれぞれ少なくとも1つの区分を有するステップと、
    索引付けの時に、前記ドキュメントコレクション内のドキュメントごとに少なくとも1つの静的ドキュメントベクトルを作成する処理を含み、前記少なくとも1つの区分に基づいて前記コレクション内のドキュメントごとに少なくとも1つのドキュメントベクトルを導出するステップと、
    クエリ時に、クエリ入力に基づいて特定のドキュメントベクトルを識別するステップと、
    前記識別された特定のドキュメントベクトルを調査エンジンに提示するステップと、
    前記少なくとも1つの作成された静的ドキュメントベクトルに対する前記識別された特定のドキュメントベクトルの比較に基づいて、戻された該当ドキュメントをコンパイルするステップと、を含む方法。
  2. クエリ入力に基づいて特定のドキュメントベクトルを識別する前記ステップが、前記クエリ入力からの文字列データに基づいて動的ドキュメントベクトルを作成するステップを更に含む、請求項1に記載の方法。
  3. 前記ドキュメントベクトルの各々から前記コンパイル内の各文字列を除外する処理を含み、ファイル内の知的財産用語のストップ文字列のコンパイルを作成し、前記コンパイルを前記ドキュメントベクトルに適用するステップを更に含む、請求項1に記載の方法。
  4. 知的財産用語の前記コンパイルが言語に特有である、請求項3に記載の方法。
  5. 知的財産用語の前記コンパイルが文化に特有である、請求項3に記載の方法。
  6. 前記コンパイルに含めるための特定の用語を識別する処理を含み、知的財産用語のストップ文字列の前記コンパイルを動的に更新するステップを更に含む、請求項3に記載の方法。
  7. 前記静的ドキュメントベクトルを、知的財産ドキュメントからのフィールドの選択に制限するステップを更に含み、
    前記フィールドが、名称、概要、背景、要約、詳細な説明、クレーム、図面およびこれらの組み合わせからなるグループから選択された、請求項1に記載の方法。
  8. 前記コレクション内の知的財産ドキュメントごとに複数の静的ドキュメントベクトルのグループを作成するステップを更に含み、
    各静的ドキュメントベクトルが、前記知的財産ドキュメントの1つまたは複数のフィールドに基づく、請求項7に記載の方法。
  9. 前記ドキュメントコレクションに適用する調査範囲を選択するステップであって、前記調査範囲の選択が、前記ドキュメントコレクションからの少なくとも1つの静的ドキュメントベクトルカテゴリーと整合するステップと、
    定義された調査範囲に基づいて、前記少なくとも1つの静的ベクトルカテゴリーの前記選択を前記作成された動的ベクトルと比較するステップと、を更に含む、請求項8に記載の方法。
  10. 前記調査範囲が知的財産侵害調査であり、
    前記侵害調査のためのクレームベクトルカテゴリーを選択するステップを更に含み、
    前記クレームベクトルカテゴリー選択が、前記ドキュメントコレクションからの前記静的ドキュメントベクトルを、前記基本ドキュメントコレクション内にあるクレームに制限する、請求項9に記載の方法。
  11. 前記調査範囲が知的財産侵害調査無効性調査であり、
    前記無効性調査のためのクレーム名称、概要、要約、詳細な説明、クレームおよび図面のベクトルカテゴリーを選択するステップを更に含み、
    前記選択されたベクトルカテゴリーの選択が、前記ドキュメントコレクションからの前記静的ドキュメントベクトルを、前記基本ドキュメントコレクション内にあるドキュメントベクトルの形の知的財産ドキュメントの代表的区分に制限する、請求項9に記載の方法。
  12. 前記調査範囲が特許新規性調査であり、
    前記新規性調査のための前記詳細な説明ベクトルカテゴリーを選択するステップを更に含み、
    前記詳細な説明ベクトルカテゴリーの選択が、前記ドキュメントコレクションからの前記静的ドキュメントベクトルを、前記基本ドキュメントコレクション内にあるドキュメントベクトルの形の知的財産ドキュメントの詳細な説明区分に制限する、請求項9に記載の方法。
  13. 前記調査範囲を選択するためのグラフィカルユーザインターフェース層を使用するステップを更に含む、請求項9に記載の方法。
  14. 前記調査で戻された該当ドキュメントの量の最大限度を設定するステップを更に含む、請求項1に記載の方法。
  15. 戻された該当ドキュメントの前記コンパイルが、前記動的ドキュメントベクトルの定義された数値範囲内に少なくとも1つの静的ドキュメントベクトルを有するように決定されたドキュメントを含む、請求項1に記載の方法。
  16. 記憶媒体が電子ドキュメントコレクションを記憶し、前記電子ドキュメントコレクションが知的財産ドキュメントのコンパイルを含み、前記コレクション内の前記知的財産ドキュメントがそれぞれ複数の区分を有する、前記記憶媒体と通信するプロセッサと、
    索引付けの時に、前記ドキュメントコレクション内の知的財産ドキュメントごとに少なくとも1つの静的ドキュメントベクトルを作成する処理を行う、前記コレクション内の知的財産ドキュメントごとに少なくとも1つのドキュメントベクトルを導出するドキュメントマネージャと、
    クエリ時に、前記電子知的財産ドキュメントコレクションに提示されるクエリ入力からの文字列データに基づいて、動的ドキュメントベクトルを作成する入力マネージャと、
    前記入力マネージャと通信し、前記知的財産ドキュメントコレクションへの前記クエリ入力の提示に応じて、前記動的ドキュメントベクトルを前記コレクション内の各静的ドキュメントベクトルと比較するクエリマネージャと、
    前記クエリマネージャに応じかつ前記動的ドキュメントベクトルと前記静的ドキュメントベクトルの比較に基づいて、戻された該当知的財産ドキュメントのコンパイルと、を備えたシステム。
  17. ファイルに格納された知的財産用語の非該当文字列のコンパイルを更に備え、
    前記クエリマネージャが、前記コンパイルを前記静的ドキュメントベクトルに適用し、前記ドキュメントベクトルの各々から前記コンパイル内の各文字列を除外することを含む、請求項16に記載のシステム。
  18. 知的財産用語の前記コンパイルが言語に特有である、請求項17に記載のシステム。
  19. 知的財産用語の前記コンパイルが文化に特有である、請求項17に記載のシステム。
  20. 前記コンパイルに含めるための特定の用語を識別する処理を行う、非該当知的財産用語の前記コンパイルを動的に更新するドキュメントマネージャを更に備えた、請求項17に記載のシステム。
  21. 前記静的ドキュメントベクトルを知的財産ドキュメントからのフィールドの選択に制限する前記ドキュメントマネージャを更に備え、
    前記フィールドが、名称、背景、概要、要約、詳細な説明、クレーム、図面およびこれらの組み合わせからなるグループから選択された、請求項16に記載のシステム。
  22. 前記ドキュメントマネージャが、前記コレクション内の知的財産ドキュメントごとに複数の静的ドキュメントベクトルを作成し、
    各静的ドキュメントベクトルが、前記知的財産ドキュメントの1つまたは複数のフィールドに基づく、請求項20に記載のシステム。
  23. 前記クエリマネージャと通信する選択マネージャを更に備え、
    前記選択マネージャが、前記ドキュメントコレクションに適用する調査範囲を選択し、前記調査範囲の選択が、前記ドキュメントコレクションからの少なくとも1つの静的ドキュメントベクトルカテゴリーと整合し、定義された調査範囲に基づいて、前記少なくとも1つの静的ベクトルカテゴリーの前記選択を前記作成された動的ベクトルと比較する、請求項22に記載のシステム。
  24. 前記調査範囲が侵害調査であり、
    前記侵害調査のための前記クレームベクトルカテゴリーを選択する選択マネージャを更に備え、
    前記クレームベクトルカテゴリーの選択が、前記ドキュメントコレクションからの前記静的ドキュメントベクトルを、前記基本ドキュメントコレクション内にあるクレームに制限する、請求項23に記載のシステム。
  25. 前記調査範囲が無効性調査であり、
    前記無効性調査のためのクレーム名称、概要、要約、詳細な説明、クレームおよび図面のベクトルカテゴリーを選択する選択マネージャを更に備え、
    前記選択されたベクトルカテゴリーの選択が、前記ドキュメントコレクションからの前記静的ドキュメントベクトルを、前記基本ドキュメントコレクション内にあるドキュメントベクトルの形の知的財産ドキュメントの代表的区分に制限する、請求項23に記載のシステム。
  26. 前記調査範囲が新規性調査であり、
    前記新規性調査のための前記詳細な説明ベクトルカテゴリーを選択する選択マネージャを更に備え、
    前記詳細な説明ベクトルカテゴリーの選択が、前記ドキュメントコレクションからの前記静的ドキュメントベクトルを、前記基本ドキュメントコレクション内にあるドキュメントベクトルの形の知的財産ドキュメントの詳細な説明区分に制限する、請求項23に記載のシステム。
  27. 前記クエリマネージャと通信するグラフィカルユーザインターフェースを更に備え、
    前記グラフィカルユーザインターフェースが、前記ドキュメントコレクションに適用する前記調査範囲を選択するために定義された入力セレクタの配列を有する、請求項23に記載のシステム。
  28. コンピュータメモリ上の電子ドキュメントコレクションを調査するよう構成された物品であって、
    コンピュータプログラム命令を含み、クエリを実行するコンピュータ可読キャリアを備え、
    前記命令が、
    知的財産ドキュメントのコレクションをコンパイルする命令であって、前記コレクション内の前記知的財産ドキュメントがそれぞれ複数の区分を有する命令と、
    索引付けの時に、前記ドキュメントコレクション内の知的財産ドキュメントごとに少なくとも1つの静的ドキュメントベクトルを作成する命令を含み、前記コレクション内の知的財産ドキュメントごとに少なくとも1つのドキュメントベクトルを導出する命令と、
    クエリ時に、クエリ入力からの文字列データに基づいて、動的ドキュメントベクトルを作成する命令と、
    前記動的ドキュメントベクトルを前記コレクション内の各静的ドキュメントベクトルと比較する命令を含み、前記クエリ入力を前記電子ドキュメントコレクションに提示する命令と、
    前記動的ドキュメントベクトルと前記静的ドキュメントベクトルの比較に基づいて、該当知的財産ドキュメントのコンパイルを戻す命令と、を含む物品。
  29. ファイル内の知的財産用語の非該当文字列のコンパイルを作成し、前記コンパイルを前記ドキュメントベクトルに適用し、前記ドキュメントベクトルの各々から前記コンパイル内の各文字列を除外することを含む命令を更に含む、請求項27に記載の物品。
  30. 知的財産用語の前記コンパイルが言語に特有である、請求項29に記載の物品。
  31. 知的財産用語の前記コンパイルが文化に特有である、請求項29に記載の物品。
  32. 前記コンパイルに含めるための特定の用語を識別する命令を含む、非該当知的財産用語の前記コンパイルを動的に更新する命令を更に含む、請求項29に記載の物品。
  33. 前記静的ドキュメントベクトルを知的財産ドキュメントからのフィールドの選択に制限する命令を更に含み、
    前記フィールドが、名称、概要、背景、要約、詳細な説明、クレーム、図面およびこれらの組み合わせからなるグループから選択された、請求項28に記載の物品。
  34. 前記コレクション内の知的財産ドキュメントごとに複数の静的ドキュメントベクトルを作成する命令を更に含み、
    各静的ドキュメントベクトルが、前記知的財産ドキュメントの1つまたは複数のフィールドに基づく、請求項33に記載の物品。
  35. 前記ドキュメントコレクションに適用する調査範囲を選択する命令であって、前記調査範囲の選択が、前記ドキュメントコレクションからの少なくとも1つの静的ドキュメントベクトルカテゴリーと整合し、前記定義された調査範囲に基づいて、前記少なくとも1つの静的ベクトルカテゴリーの前記選択を前記作成された動的ベクトルと比較する、請求項34に記載の物品。
  36. 前記調査範囲が侵害調査であり、
    前記侵害調査のための前記クレームベクトルカテゴリーを選択する命令を更に含み、
    前記クレームベクトルカテゴリーの選択が、前記ドキュメントコレクションからの前記静的ドキュメントベクトルを、前記基本ドキュメントコレクション内にあるクレームに制限する、請求項35に記載の物品。
  37. 前記調査範囲が無効性調査であり、
    前記無効性調査のための名称、概要、要約、詳細な説明、クレーム、および図面のベクトルカテゴリーを選択する命令を更に含み、
    前記選択されたベクトルカテゴリーの選択が、前記ドキュメントコレクションからの前記静的ドキュメントベクトルを、前記基本ドキュメントコレクション内にあるドキュメントベクトルの形の知的財産ドキュメントの代表的区分に制限する、請求項35に記載の物品。
  38. 前記調査範囲が新規性調査であり、
    前記新規性調査のための前記詳細な説明ベクトルカテゴリーを選択する命令を更に含み、
    前記詳細な説明ベクトルカテゴリーの選択が、前記ドキュメントコレクションからの前記静的ドキュメントベクトルを、前記基本ドキュメントコレクション内にあるドキュメントベクトルの形の知的財産ドキュメントの詳細な説明区分に制限する、請求項35に記載の物品。
  39. コンピュータメモリ上の電子ドキュメントコレクションを調査するよう構成された物品あって、
    コンピュータプログラム命令を含み、クエリを実行するコンピュータ可読キャリアを備え、
    前記命令が、
    知的財産ドキュメントのコレクションをコンパイルするコンパイル手段であって、前記コレクション内の前記知的財産ドキュメントがそれぞれ複数の区分を有する手段と、
    索引付けの時に、前記ドキュメントコレクション内の知的財産ドキュメントごとに少なくとも1つの静的ドキュメントベクトルを作成する手段を含み、前記コレクション内の知的財産ドキュメントごとに少なくとも1つのドキュメントベクトルを導出する手段と、
    クエリ時に、クエリ入力からの文字列データに基づいて、動的ドキュメントベクトルを作成する手段と、
    前記動的ドキュメントベクトルを前記コレクション内の各静的ドキュメントベクトルと比較する手段を含み、前記クエリ入力を前記電子ドキュメントコレクションに提示する手段と、
    前記動的ドキュメントベクトルと前記静的ドキュメントベクトルの比較に基づいて、該当知的財産ドキュメントのコンパイルを戻す手段と、を含む物品。
JP2012509771A 2009-05-08 2009-05-08 電子ドキュメントコレクション内の複数選択ドキュメントを標的調査する方法、システムおよび装置 Active JP5516916B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2009/043371 WO2010128974A1 (en) 2009-05-08 2009-05-08 Method, system, and apparatus for targeted searching of multi-sectional documents within an electronic document collection

Publications (2)

Publication Number Publication Date
JP2012526319A true JP2012526319A (ja) 2012-10-25
JP5516916B2 JP5516916B2 (ja) 2014-06-11

Family

ID=43050307

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012509771A Active JP5516916B2 (ja) 2009-05-08 2009-05-08 電子ドキュメントコレクション内の複数選択ドキュメントを標的調査する方法、システムおよび装置

Country Status (8)

Country Link
EP (1) EP2438507A4 (ja)
JP (1) JP5516916B2 (ja)
KR (1) KR20140056402A (ja)
CN (1) CN102804125A (ja)
AU (1) AU2009345829A1 (ja)
CA (1) CA2761542A1 (ja)
NZ (1) NZ596910A (ja)
WO (1) WO2010128974A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5627750B1 (ja) * 2013-09-11 2014-11-19 株式会社Ubic 文書分析システム及び文書分析方法並びに文書分析プログラム
JP2015056185A (ja) * 2014-09-30 2015-03-23 株式会社Ubic 文書分析システム及び文書分析方法並びに文書分析プログラム
WO2015145524A1 (ja) * 2014-03-24 2015-10-01 株式会社Ubic 文書分析システム、文書分析方法、および、文書分析プログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6782858B2 (ja) 2017-11-22 2020-11-11 花王株式会社 文献分類装置
CN111078730A (zh) * 2019-12-23 2020-04-28 广东聚智诚科技有限公司 一种基于知识产权新颖性提取建立用户需求库的系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002015001A (ja) * 2000-06-29 2002-01-18 Nri & Ncc Co Ltd 概念検索装置、概念検索方法、概念検索プログラムを記録した記録媒体およびコンピュータプログラム
JP2007018186A (ja) * 2005-07-06 2007-01-25 Shigematsu:Kk 権利調査支援システム
WO2008004563A1 (fr) * 2006-07-03 2008-01-10 Intellectual Property Bank Corp. système d'adéquation d'offre d'emploi-demande d'emploi de chercheurs et systèmes d'adéquation de recherche en participation/entreprise en participation
WO2008075744A1 (ja) * 2006-12-20 2008-06-26 Intellectual Property Bank Corp. 情報処理装置、提携先を選定するための情報を生成する方法、およびプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6339767B1 (en) * 1997-06-02 2002-01-15 Aurigin Systems, Inc. Using hyperbolic trees to visualize data generated by patent-centric and group-oriented data processing
US6038561A (en) * 1996-10-15 2000-03-14 Manning & Napier Information Services Management and analysis of document information text
US8095581B2 (en) * 1999-02-05 2012-01-10 Gregory A Stobbs Computer-implemented patent portfolio analysis method and apparatus
US6662178B2 (en) * 2001-03-21 2003-12-09 Knowledge Management Objects, Llc Apparatus for and method of searching and organizing intellectual property information utilizing an IP thesaurus
US9235849B2 (en) * 2003-12-31 2016-01-12 Google Inc. Generating user information for use in targeted advertising

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002015001A (ja) * 2000-06-29 2002-01-18 Nri & Ncc Co Ltd 概念検索装置、概念検索方法、概念検索プログラムを記録した記録媒体およびコンピュータプログラム
JP2007018186A (ja) * 2005-07-06 2007-01-25 Shigematsu:Kk 権利調査支援システム
WO2008004563A1 (fr) * 2006-07-03 2008-01-10 Intellectual Property Bank Corp. système d'adéquation d'offre d'emploi-demande d'emploi de chercheurs et systèmes d'adéquation de recherche en participation/entreprise en participation
WO2008075744A1 (ja) * 2006-12-20 2008-06-26 Intellectual Property Bank Corp. 情報処理装置、提携先を選定するための情報を生成する方法、およびプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5627750B1 (ja) * 2013-09-11 2014-11-19 株式会社Ubic 文書分析システム及び文書分析方法並びに文書分析プログラム
WO2015037262A1 (ja) * 2013-09-11 2015-03-19 株式会社Ubic 文書分析システム及び文書分析方法並びに文書分析プログラム
WO2015145524A1 (ja) * 2014-03-24 2015-10-01 株式会社Ubic 文書分析システム、文書分析方法、および、文書分析プログラム
JP2015056185A (ja) * 2014-09-30 2015-03-23 株式会社Ubic 文書分析システム及び文書分析方法並びに文書分析プログラム

Also Published As

Publication number Publication date
KR20140056402A (ko) 2014-05-12
JP5516916B2 (ja) 2014-06-11
EP2438507A1 (en) 2012-04-11
NZ596910A (en) 2014-02-28
CN102804125A (zh) 2012-11-28
CA2761542A1 (en) 2010-11-11
WO2010128974A1 (en) 2010-11-11
AU2009345829A1 (en) 2012-01-12
EP2438507A4 (en) 2013-03-20

Similar Documents

Publication Publication Date Title
JP5534266B2 (ja) 電子文書コレクションからクエリ結果を送付する方法、システム及び装置
US7444325B2 (en) Method and system for information extraction
US8090724B1 (en) Document analysis and multi-word term detector
US20100287148A1 (en) Method, System, and Apparatus for Targeted Searching of Multi-Sectional Documents within an Electronic Document Collection
JP3497172B2 (ja) 自動文書分類システム
US11514701B2 (en) System and method for global identification in a collection of documents
TWI556180B (zh) 用以遞迴檢閱網際網路及其他來源以識別、收集、管理、判定及鑑定商業身分與相關資料之系統及方法
US8364679B2 (en) Method, system, and apparatus for delivering query results from an electronic document collection
JP2006251866A (ja) 情報処理装置および方法、プログラム、並びに記録媒体
US20090112845A1 (en) System and method for language sensitive contextual searching
JP5516916B2 (ja) 電子ドキュメントコレクション内の複数選択ドキュメントを標的調査する方法、システムおよび装置
US20100287177A1 (en) Method, System, and Apparatus for Searching an Electronic Document Collection
EP2427830B1 (en) Method, system, and apparatus for searching an electronic document collection
WO1998049632A1 (en) System and method for entity-based data retrieval
Hu et al. Passage extraction and result combination for genomics information retrieval
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
JP4604097B2 (ja) 文書分類付与方法、システムまたはコンピュータプログラム
CN107766545A (zh) 一种科技数据的管理方法及装置
Mrosek et al. Content-and Graph-based Tag Recommendation: Two Variations.
JP2004206571A (ja) 文書情報提示方法及び装置並びにプログラム及び記録媒体
Sarasvananda et al. The Balinese Lontar Manuscript Metadata Model: An Ontology-Based Approach
EP1681643A1 (en) Method and system for information extraction
Zubarev et al. Method for Expert Search Using Topical Similarity of Documents
JP5131565B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP2003016105A (ja) 関連度値算出装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130604

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130903

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130910

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20131004

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20131011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131031

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20140210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140304

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140318

R150 Certificate of patent or registration of utility model

Ref document number: 5516916

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250