JP2002278991A - 文書情報検索システム - Google Patents

文書情報検索システム

Info

Publication number
JP2002278991A
JP2002278991A JP2001077405A JP2001077405A JP2002278991A JP 2002278991 A JP2002278991 A JP 2002278991A JP 2001077405 A JP2001077405 A JP 2001077405A JP 2001077405 A JP2001077405 A JP 2001077405A JP 2002278991 A JP2002278991 A JP 2002278991A
Authority
JP
Japan
Prior art keywords
information
search
field
narrowed
designer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001077405A
Other languages
English (en)
Inventor
Takayuki Iida
孝之 飯田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Holdings Corp
Original Assignee
Fuji Photo Film Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Photo Film Co Ltd filed Critical Fuji Photo Film Co Ltd
Priority to JP2001077405A priority Critical patent/JP2002278991A/ja
Publication of JP2002278991A publication Critical patent/JP2002278991A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 特許情報の検索に不慣れな設計者であって
も、簡単に精度よく目標とする特許情報を検索可能にす
る。 【解決手段】 検索手法に習熟したサーチャーにより、
あらかじめ検索する分野の情報を絞り込み、この絞り込
んだ情報群を特許情報データベース21として、分類を
付して記憶しておく。この記憶された前記絞り込み情報
に対してインデックス構築をかける。インデックス構築
により、異なる分野にまたがる同一単語であって該当す
る分野以外の同一単語が排除される。設計者は検索手段
26により、対応する分類を指定した後に、キーワード
により二次検索を行う。サーチャーにより予め絞り込ま
れた情報群を用いて二次検索を行うため、検索に習熟し
ていない設計者であっても、簡単に精度よく目標とする
特許情報を検索することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は文書情報検索システ
ムに関し、特に特許情報などの文書情報を検索するシス
テムに関するものである。
【0002】
【従来の技術】従来、特許情報を検索する場合に、以下
のような処理手順で行っていた。まず専門技術者として
の特許情報検索者(以下、単にサーチャーという)の存
在が挙げられる。サーチャーは、検索依頼する開発設計
者(以下、単に設計者という)の調査目的、調査分野、
技術内容を聞き出し、それに適したデータベースを選択
し、検索式をたて、最適な結果を回答することを業務と
している。このサーチャーは、データベース毎の特徴
(収録情報、期間、検索コマンド、出力形式)を理解
し、設計者の要望に的確に応えるべく、あらゆるデータ
ベースを使いこなす技能を有している。つまりサーチャ
ーはデータベースに精通していること、また検索依頼者
の技術分野を理解することの双方の能力を備えている必
要がある。特に、精度のよい検索を行う場合に、検索依
頼者の技術分野の理解が不可欠である。
【0003】特許出願に際しては、最新の技術情報を調
べる必要性がある。サーチャーは常に設計者の技術分野
の情報収集を行っていたとしても、最新の技術情報に最
も精通している者は設計者である。したがって、設計者
とサーチャーの共同作業で先行特許の調査をすることが
望ましい。または、信頼性を確保しつつ、ある程度の母
集団までサーチャーが絞り込んだ(絞り込み過程)後
は、設計者自らがキーワードを試行錯誤させながら検索
し、内容をチェックする調査方法も一案と考えられる。
この絞り込み過程はデータベースに精通したサーチャー
の技術が生きるところで、サーチャーの得意とするもの
である。
【0004】ところで、設計者に比べサーチャーは少な
いのが実情であり、出願活動が盛んな企業では、このよ
うなサーチャーと設計者との共同作業を全出願に渡って
展開することは困難な状態にある。一方、近年は全文検
索機能を備えた「特許情報検索システム」が普及し、ま
た社内ネットワークで同システムを利用することができ
る環境が整い、サーチャーに依頼しなくても、設計者自
らが特許情報について検索することができるようになっ
てきている。
【0005】しかしながら、その利用状況をみると「特
許情報検索システム」は、設計者向きに作られておら
ず、改良点があることは否めない。それは、前述したよ
うな絞り込み過程までも、設計者が行うことを前提とし
ているところにある。
【0006】以下、設計者が特許を出願する場合に、全
文検索機能を備えた「特許情報検索システム」を使用し
て、先行特許を調査する場合を例にとって説明する。多
くの場合、最初の絞り込みからキーワード検索を行う。
しかし1回のキーワード検索ではヒット件数が多く、2
回、3回と更なるキーワードの追加でヒット件数を絞り
込んでいき、所望の件数(例えば20件以下)となった段
階で明細書の内容のチェックに入る。または、1回のキ
ーワード検索をした後に大量の件数をリスト表示させ、
その発明の名称、出願人から関連性を想像して、明細書
の内容のチェックに入る。
【0007】
【発明が解決しようとする課題】しかしながら、これら
の検索方法では、検索システムの評価である再現率(ユ
ーザーの求める文書、検索意図に該当する文書がどの程
度検索されるかを示す指標)と、適合率(検索された文
書中にユーザーが求める文書がどの程度の割合で存在す
るかを示す指標)とからみれば、以下のような不都合が
ある。数回に渡りキーワード検索を行う前者の場合に
は、キーワードによる絞り込みの多用で再現率が下がり
「検索漏れ」が発生する。また、1回のキーワード検索
後に一覧リストを表示する後者の場合には、適合率が低
く、調査に時間がかかることになる。ここで再現率は
(1)式、適合率は(2)式で表される。 再現率=検索された該当文書数/全文書中の該当文書数・・・ (1) 適合率=検索された該当文書数/検索された文書数 ・・・ (2) このことより、全文検索機能を備えた「特許情報検索シ
ステム」といえども、従来のサーチャーによる最適な結
果を得ることは設計者にとって困難であることが判る。
【0008】現在の「特許情報検索システム」は全文検
索機能を搭載し、誰でもが容易に特許情報検索が可能に
なってきているが、上記のような背景から「特許情報検
索システム」で特許分類指定を行おうとすると、初心者
には急に難しいものとなる。一般的に特許情報に関心の
ある研究者は、自らの専門分野を特許分類(IPC、F
I、Fターム)で表現することは可能である。しかし、
例えば機器開発部門に属し、部品点数が500〜100
0点それ以上になる機器開発に携わる者である場合に
は、搭載される技術もメカ、エレキ、ソフトと多岐に渡
り、それに関わる特許も広範で、特に出願件数の多い分
野であることが多い。
【0009】このため、まず自分の探したい特許情報は
どの分野に属しているかを、検索の前に調べることが必
要であり、この場合には、特許分類表で調べたり、類似
出願に付与されている特許分類(IPC、FI、Fター
ム)を参考にしたりする。しかしながら、調べたい分野
を特許分類でカバーし、それらの分類を検索式として組
み上げて、所望の特許群に絞り込む一連の作業を、再現
率を保ちつつ行うには、やはりサーチャーのノウハウが
必要である。
【0010】それには以下の理由がある。 1.特許分類は後追いである。IT技術、ビジネスモデ
ル特許などの注目される新規分野は、特許分類が定まっ
ておらず、どの分類が付与されるかは、しばらく経過し
なければ予測がつかない。 2.特許分類は改訂される。特にFタームなどは消滅す
ることもあり、常に最新情報に接している必要がある。 3.米国の場合、特許分類は年4回の改訂が行われてお
り、それに追従していくには、 設計者として限界があ
る。つまり、調べたい分野を特許分類でカバーし、それ
らの分類を検索式として組み上げて、所望の特許群に絞
り込む一連の作業を行うには、特許情報とその特許分類
に精通していることが必要である。
【0011】これに対して、設計者はサーチャーに比べ
て特許情報に接する時間が当然少ない。一時期に集中し
て検索ノウハウを覚え、式まで確立するノウハウを習得
しても、次に別の観点で調査する場合に、前回の検索式
は信頼出来るものか、判断が難しい。またその検索式を
修正しようとしても細部まで組立てられた式の場合、そ
の背景は忘れてしまっていることが多く、徒労に終わる
事となる。また特許分類等は設計者にとって馴染みが薄
いこともあり、結果的に「特許情報検索システム」を利
用することができても、その使い方の面で障害があり、
効率的な利用がされていない実情がある。
【0012】そこで本発明は、設計者によるキーワード
検索で、従来のサーチャーによる最適な調査結果に匹敵
する調査を行うことができるようにした文書情報検索シ
ステムを提供することを目的とする。
【0013】
【課題を解決するための手段】上記目的を達成するため
に、本発明では、文書情報を検索するシステムにおい
て、あらかじめ検索する分野の情報を絞り込み、この絞
り込んだ情報を記憶する手段と、この記憶手段に記憶さ
れた前記絞り込み情報に対してインデックス構築をかけ
ることで、異なる分野にまたがる同一単語であって前記
検索する分野以外の同一単語を排除する手段と、前記同
一単語が排除された絞り込み情報に対してキー情報を入
力してキー情報による検索を行う手段とを備えている。
【0014】また、請求項2記載の文書情報を検索する
システムでは、あらかじめ検索する分野を特定し、その
情報を絞り込み、この絞り込んだ情報を記憶する手段
と、この記憶手段に記憶された前記絞り込み情報に対し
てインデックス構築をかける手段と、前記分野を選択す
ることにより絞り込み情報を特定する手段と、特定され
た絞り込み情報に対してキー情報の入力により検索を行
う手段とを備えている。なお、前記文書情報は特許情報
であることが好ましい。また、分野を特定するキー情報
による検索を行い所望の情報を含む情報群に絞り込んだ
後に、その情報群を概念検索用データ群として取り扱う
ことが好ましい。さらに、前記キー情報は日付、著者、
発明者、出願人、会社名、分類コード、キーワードであ
ることが好ましい。前記絞り込みは、特許情報の検索に
習熟したサーチャーがその分野における開発技術者の意
向を聞いて行うことが好ましく、このようにして絞り込
まれた特許情報群に対して、キー情報による検索を開発
技術者が行うことで、精度の高い検索情報が得られるこ
とになる。
【0015】
【発明の実施の形態】図1に示すように、本発明の特許
情報検索システムでは、周知のOSを用いたパーソナル
コンピュータ(以下、パソコンという)が用いられる。
この特許情報検索システム10では、演算部11と、ハ
ードディスク12と、入力手段13と、表示手段として
のディスプレイ14とを備えている。特許情報検索シス
テム10では、この他に、CDROMやDVDなどの各
種記録媒体に記録された特許情報を読み取るための記録
媒体読取装置15が設けられている他、周知の通信手段
16によりインターネット等のネットワークに接続可能
にされており、外部の特許情報データベース17も利用
可能になっている。演算部11は周知のように、CP
U、ROM、RAM、バス等を備えている。
【0016】記録媒体読取装置15からは、CDROM
に記録された制御プログラムが読み出され、この制御プ
ログラム20がハードディスク12のプログラム格納領
域に格納される。演算部11は、この制御プログラム2
0に基づき、データベース17,21の検索と、検索し
た特許情報との表示等の各種動作を行うもので、本実施
形態の場合にはその動作機能は、制御手段25、検索手
段26、分類付与手段27として表されている。ハード
ディスク12には、制御プログラム20の他に、特許情
報データベース21が構築される。この特許情報データ
ベース21は、特許情報とこれのインデックス情報とか
らなり、検索手段26により、キーワードで各種情報を
検索して、これを抽出し、これをディスプレイ14に一
覧に表示したり、個別に表示したりすることができる。
【0017】外部の特許情報データベース17として
は、特許庁の電子図書館のような無償のデータベースの
他に、契約によって使用する有償の各種データベースが
ある。これらデータベースでは、周知の検索式などによ
り特許情報を絞り込むことができる。そして、絞り込ん
だ特許情報群に対して、この特許情報群の各データ(特
許出願の書誌事項、全文明細書、図面、要約書など)が
ダウンロードされ、または有償の場合には、別途CDR
OM等の記録媒体でこれら各特許情報が納品される。こ
の納品された特許情報は、絞り込まれた情報群毎に、分
類付与手段27により専用のラベルやインデックス情報
が割り振られて、ハードディスク12の所定領域に記憶
され、特許情報データベース21が構築される。なお、
インターネット接続の他に、専用の電話回線等で外部の
特許情報データベース17に接続してもよい。
【0018】ハードディスク12に特許情報データベー
ス21として記憶された絞り込み情報群に対しては、キ
ーボード13a、マウス13b等の入力手段13及びデ
ィスプレイ14を用いて、二次検索することができ、こ
の検索結果の一覧をディスプレイ14に表示したり、各
特許情報の書誌事項、明細書、図面、要約等の内容を個
別に表示したりすることができる。更には必要に応じて
図示しないプリンタにプリントアウトすることができ
る。この二次検索は主に開発設計者などが行うことにな
る。この二次検索は、既にサーチャーによって、分野毎
に的確な検索式情報に基づき一次検索された絞り込み集
合群にその分類を指定してなる母集団に対して行われる
ため、開発設計者は単にキーワード検索をかけて絞り込
むことで、欲しい特許情報を精度よく得ることができ
る。
【0019】このように、設計者が特許調査を行いたい
分野(通常は設計者の専門分野)を、特許情報の中から
的確な集合群(母集団)とする処理をサーチャーが行
い、その集合群に対し分類を付与して、各集合群毎に全
文検索が行えるシステム構成にしている。このシステム
構成をとるために、以下の方法を採用している。 (1)専門分野を特定する検索式を作り、活用する。 (2)特許調査を専門とするサーチャーとあらかじめ調
査基準を定め、一次抽出を行う。
【0020】上記(1)はSDI(Selective dissemin
ation of information) 方式と言われるものを指す。こ
れは特定の分野に対し、 検索式のみで絞り込みができ、
ノイズも少ない特許情報が入手可能な場合に適する。
(2)は検索式だけではノイズが多く、 必要な特許情報
を引き出すことができない場合で、出願件数が膨大な分
野であるところを定常監視するケースに用いられる。以
下、(2)の調査基準を定め、一次抽出する場合を例に
とって説明する。
【0021】調査基準を定め一次抽出する場合には、
(A)予備調査設計、(B)予備調査分析、(C)本調
査設計、(D)調査基準策定、(E)分類体系策定、
(F)全文検索システムへの収録、インデックス構築の
各処理を行う。
【0022】以上のプロセスを経ることで、技術観点別
の集合群を全文検索システム上に構築することができ
る。設計者は特許分類に精通していなくても、検索前に
分類のラベルを基準にして所望の集合群を選択すること
で、サーチャーによる絞り込み過程と同等の集合群を得
ることができる。次のステップとして、本当に探したい
情報のキーワードを入力することで、必要な情報に速や
かにたどり着くことができる。
【0023】まず、調査したい技術分野を特許分類、出
願人、日付情報等から絞り込み、数百〜千件程度にした
後、その集合群を概念検索システムに引渡し、インデッ
クス構築をかければ、一時的には千件程度のデータ領域
とインデックス領域を確保するだけで、自然文検索が可
能となり、設計者はキーワード検索よりさらに使いやす
いものとなり、システムも小型化することができる。
【0024】図2は上記(A)〜(C)の処理手順を示
したものである。まず、(A)の予備調査設計では、サ
ーチャーは設計者とインタビューを行い、調査ニーズを
理解する。次に、調査ニーズを把握するために、インタ
ビューから得た情報と自己の所有情報とを元に予備検索
式をたてる。そして、この予備検索式に基づき予備調査
を行う。この予備調査は、図1に示す特許情報検索シス
テム10において、通信手段16を介して外部特許情報
データベース17に接続(アクセス)し、検索手段26
を用いて、例えば平成10年の1年間のみのように、対
象調査期間を絞って行う。予備調査で絞られた特許情報
は、その書誌事項、抄録、全文明細書、図面等の各電子
データが記録媒体やオンラインで送られて、これがハー
ドディスク12の記憶領域に格納される。また、予備調
査で絞られた特許情報はプリントアウトされ、これが設
計者に渡される。
【0025】(B)の予備調査分析では、まず設計者
は、予備調査で得た資料を見て、絞り込まれた情報が適
正か否かを判断し、その結果をサーチャーへ戻す。この
プロセスから、サーチャーは調査ニーズを具体的な特許
資料から把握することができ、また付与されている特許
分類の分布、出願人情報も得られる。また設計者も、要
求時に気が付かなかった調査観点の補充機会が与えら
れ、調査ニーズがさらに明確になる。なお、予備調査で
は単に要約と書誌事項とを記録した抄録のみを入手し、
この資料のみで判断してもよい。
【0026】(C)の本調査設計では、予備調査結果か
ら、調査範囲を特許分類で定義し本検索式をたて検索を
実行する。調査の信頼性を保ちつつ、検索式の見直し・
検索実行を繰り返し、ある程度の集合群まで絞り込み、
母集団を確定する。
【0027】(D)の調査基準策定では、設計者に変わ
りサーチャーが母集団から一次抽出を行うために、その
指針となる調査基準を定める。これは特許の取捨選択基
準を明文化し、それを設計者と合意するためのものであ
る。
【0028】すなわち、図3に示すように、サーチャー
は、予備調査結果から、調査範囲を特許分類で定義し本
検索式をたてる。そして、外部の特許情報データベース
にアクセスし、本検索式による検索を実行する。そし
て、検索結果に基づき絞り込まれた特許情報の抄録を取
りよせ、抄録から内容を把握する。そして、抄録の内容
を検討し、データが不要か否かを個別に判断する。さら
に不要と判断したデータは、この絞り込み結果から除去
する。このように、調査の信頼性を保ちつつ、検索式の
見直し・検索実行を繰り返し、ある程度の集合群まで絞
り込み、母集団を確定する。
【0029】次に、(E)の分類体系策定により、技術
観点からの分類体系を作成し、一次抽出された特許群を
さらに分類する。図4はこのフローチャートを示すもの
で、制御プログラム20中の分類付与プログラムを起動
すると、演算部11に分類付与手段27が構成される。
分類付与手段27では、ディスプレイ14に、管理テー
ブル、分類名、対象フォルダーの入力画面を表示する。
この入力画面に基づきサーチャーはキーボード13aま
たはマウス13bを用いて、これらの入力を行う。この
入力により、検索ホーム画面にその分類選択ボタンが新
設され、これに基づき新たな分類を指定することができ
る。この新設された分類には対応する特許情報が格納さ
れる。
【0030】次に、図5に示すように、(F)の全文検
索システムへの収録・インデックス構築により、データ
変換を行って、分類体系別になった特許群を全文検索シ
ステムに収録し、その群毎にインデックス構築を行う。
また定常監視などで分類別に抽出された特許データは、
該当する分類のフォルダーに蓄積される。
【0031】この蓄積に際して、特許庁から発行される
特許データはSGMLで記述されているので、このSG
MLで記述されている特許データを、通常のブラウザな
どで閲覧可能なようにHTML形式のデータに変換す
る。図5は、特許情報のデータ変換(SGML→HTM
L)を示すフローチャートである。まず、分類1フォル
ダー(図示せず)に蓄積されたSGMLのデータ中、H
TMLへ未変換のデータのみ抽出する。次にデータ変換
を行う。この場合図面もTIFF形式からPNG形式に
変換し、 ブラウザから閲覧することができる形態にす
る。このHTMLへのデータ変換後に、該当する変換前
のSGMLデータは消去される。
【0032】次に、 インデックス構築を行う。図5でH
TML変換されたものに対して、全文検索で必要なワー
ドを抜き出し、これをインデックス記録領域に収める。
図6は、データ変換・インデックス構築を示すフローチ
ャートであり、SGMLからHTMLへのデータ変換、
データ蓄積の後に、各種キーワードによるインデックス
が作成され、このインデックスデータがハードディスク
12の特許情報データベース21中のインデックス記録
領域に記憶される。
【0033】なお、サーチャーによって一次検索されて
絞り込みがかけられて、分類別に1まとまりにされた分
類に対して、設計者がキーワード検索を行う場合に、形
態素解析を行うと、同一単語は唯一の意味しか持たなく
なり、キーワード検索の精度が向上する。このため、本
実施形態では検索手段26に形態素解析機能を付加して
いる。
【0034】形態素解析とは文章から単語を切り出す技
術であり、厳密に言えば、意味を持つ最小の言語単位
(形態素)の範囲を検出し、品詞や読みなど形態素の属
性を同定する技術である。単なる部分一致検索の場合
「カメラ」で検索したとき、「カメラマン」を含む文章
がヒットしたりするが、この解析方式では、単語を解析
した上で検索するので、左記のような検索ノイズがなく
なる。また、技術分野が違えば、同一単語も違う意味で
使用されているケースがある。例えば感材処理分野での
「プロセサ(processor )」は処理機を指すが、計算機
分野では演算処理装置を意味する。このような場合に、
本発明のように母集団がある特定の分野、例えば感材処
理分野に限定されている上で形態素解析を行うため、同
一単語の「プロセサ」は処理機という唯一の意味しか持
たなくなり、キーワード検索の精度が向上する。また本
システムに形態素解析を搭載しておくことにより、検索
に自然文を適用することが可能になる。形態素解析によ
り自然文の中からキーワード抽出が行われ、検索式の構
築を支援する仕組みによって、自然言語検索も可能にな
る。また同解析では表記のゆれ(「ディジタル」と「デ
ジタル」など)の解析も可能となっており、より設計者
にやさしいシステムとなる。
【0035】さらに、検索手段26には、概念検索の機
能も付加されている。概念検索の場合でも、本発明のよ
うに母集団がある特定の分野に限定されている上で検索
条件の語彙空間から検索対象文書の語彙空間を特定すれ
ば、検索結果の向上が図れる。しかし、単に一次検索前
の膨大なデータに対して概念検索を行おうとすると、概
念検索のためのインデックス容量が増大化して、実用的
でない。このため、本発明では、一次検索後の絞られた
母集団に対して概念検索を実行するシステムを採用して
いる。例えば、概念検索の考えを取り入れた特許情報検
索システムを例に取ると、システムを構築する場合に必
要となるインデックス容量は、データ量の1.6倍にな
る。一方、技術分野にもよるが、例えばある技術分野で
は特許情報は6000件/ 月で出願公開されている。年換算
では72、000 件となる。特許1件を100KB/件で計算して
も、年では7.2GB/年のデータ領域が必要である。またイ
ンデックス領域はこの1.6倍ゆえに、11.52GB/年とな
り、合計で18.72GB/年の領域を必要とする。また登録件
数に上限設定があることなどから、概念検索を単に特許
情報検索に取り入れようとしても問題がある。そこで、
本発明では、母集団をある特定分野に限定した集合群と
した上で、各種検索システムにインデックス構築してい
る。これにより、母集団のサイズが小さくなり、これに
伴いインデックス容量を小さくすることができ、一般的
なパソコンにおいて、概念検索を含むキーワード検索が
可能になる。
【0036】次に調査基準の見直し、特許分類コードの
見直しについて説明する。調査基準の見直しは、常にサ
ーチャーと設計者の視点を合わせておくことを目的と
し、本システムの設計者からの信頼性を保つ上で必要な
作業である。これは、調査基準に従い、 サーチャーは設
計者が必要とする特許情報をピンポイントで配信してい
るシステムのため、定期的に見直しをかけないと、陳腐
化・調査漏れが発生してしまうおそれがあるからであ
る。また特許分類コードの見直しは、ここに深い理解を
持つサーチャー自身が行う作業で、検索式の信憑性を維
持する上で必要な作業である。
【0037】図7は、調査基準の見直しを説明したフロ
ーチャートである。まず、サーチャーは設計者と定期的
に面談を行い、設計者からの情報をもとに調査基準に新
規調査観点を盛込む。また検索式の検証を行い現在の検
索式でカバーされているか、否かを判断する。また今ま
で未収録であった分に対し遡及調査の必要の有無を判断
する。
【0038】監視不要となった調査観点があれば、それ
を調査基準に盛込み、また検索式で不要な項があるか否
かを判断し、式の組直しを行う。要素開発で技術動向の
監視以外は、監視不要になるケースは少ない。
【0039】次に、特許分類コードの見直しは、一般的
にはIPC、FI、Fターム、米国の場合はUSCLA
SSの改訂が発生した時点で、速やかに行う。この特許
分類コードの見直しは、現調査範囲で十分か否かを検討
し、不十分であるときに、該当分類を追加し、または削
除する。このように、定常監視時に生成される特許群を
そのまま調査群として収録することで自動的に設計者に
とって最適な集合群が得られ、 最新情報が自動更新され
る。
【0040】この他に公知資料調査を行い、その調査し
た資料も技術観点別の集合群として利用することができ
る。図8は、公知資料調査のフローチャートを示してい
る。一般的には特許性を判断したい(無効、異議申立て
等を含む)対象公報の技術は、設計者にとっても関心の
ある分野である。サーチャーは公知資料調査の依頼を受
けた以降は、調査観点を定め対象公報の出願日以前に公
開されている公報群を対象にして調査する。設計者から
みるとその公報群はまさしく自分の専門分野でもある。
調査結果報告と共にその公報群情報も提供され、本シス
テムに新分類として収録されれば、同類の出願時の先行
特許調査として役立つ。
【0041】この場合には、図8に示すように、まず、
サーチャーは、対象となる公報を理解し、調査観点を立
案し、調査範囲を設定する。そして、検索式を構築し、
外部特許情報データベースで検索式を用いて検索を行
う。次に、絞り込んだ特許情報の各々について抄録の内
容を見て、抄録を整理し、不要なデータを除去して、必
要なデータのみをダウンロードし、または記録媒体によ
る電子データの納品を受ける。以下、通常の絞り込みし
た一次検索データ群と同じように、分類付与プログラム
を起動し、「分類名」、「対象フォルダー」の指定を行
う。その後、特許データ変換(SGML→HTML)を
行う。さらに、HTML変換されたものに対して、全文
検索で必要なワードを抜き出し、これをインデックス記
録領域に収めて、インデックス構築を行う。このよう
に、公知資料調査での調査群を適切なテーマ名として、
本システムに取込むことで、自動的に設計者にとって最
適な集合群が得られる。
【0042】上記実施形態では、特許庁から発行された
SGML形式の日本語データを対象に説明してきたが、
インデックスを構築するプログラムによっては英文、独
文でもよく、フォーマットもHTML以外にテキストで
もよい。したがって、米国特許もデータ形式を合わせれ
ば、特許情報群として本システムに搭載可能であり、設
計者はキーワードを英語に置き換えるだけで検索が可能
となる。また、キーワードを英語に置き換える他に、米
国特許情報を翻訳してこれを日本語データと同じように
扱ってもよい。また、上記実施形態では特許情報を例に
とって説明したが、本発明は特許情報に限定されず、例
えば判例やその他の文書情報の検索システムに適用して
もよい。
【0043】上記実施形態では、同一の特許情報検索シ
ステム10を用いて、サーチャーが外部特許情報データ
ベース17にアクセスして一次検索を行い、この一次検
索による絞り込み結果に対して分類を付与して、特許情
報データベース21に書き込むようにしているが、サー
チャーが行う一次検索用の検索システムと、設計者が分
類を指定してキー情報により二次検索を行う検索システ
ムとは別個に設けてもよい。また、これら検索システム
をLAN等のネットワークで接続してもよい。
【0044】
【発明の効果】本発明によれば、あらかじめ検索する分
野の情報を絞り込み、この絞り込んだ情報を記憶してお
き、この記憶された前記絞り込み情報に対してインデッ
クス構築をかけることで、異なる分野にまたがる同一単
語であって前記検索する分野以外の同一単語を排除する
から、キー情報による検索を行う場合に、精度のよい検
索結果が得られる。しかも、情報検索に習熟したサーチ
ャーが絞り込みを行うことで、精度良く分類され絞り込
まれた母集団が得られることになり、精度のよい情報検
索が可能になる。これにより、ノイズの極めて少ない検
索結果が得られる。また、予め検索処理に習熟したサー
チャーにより母集団が絞り込まれているため、分類や検
索手法にあまり知識のない例えば開発設計者等であって
も、ノイズの極めて少ない検索結果が簡単に得られる。
同様にして、あらかじめ検索する分野を特定し、その情
報を絞り込み、この絞り込んだ情報を記憶するので、こ
の分野を指定してキー情報により検索することで、精度
のよい検索が可能になる。
【図面の簡単な説明】
【図1】本発明を実施した特許情報検索システムを示す
機能ブロック図である。
【図2】調査基準の策定処理を示すフローチャートであ
る。
【図3】特許調査群の収集処理を示すフローチャートで
ある。
【図4】分類の付与処理を示すフローチャートである。
【図5】データの変換処理を示すフローチャートであ
る。
【図6】データ変換・インデックス構築の処理を示すフ
ローチャートである。
【図7】調査基準の見直し処理を示すフローチャートで
ある。
【図8】公知資料の調査処理を示すフローチャートであ
る。
【符号の説明】
10 特許情報検索システム 11 演算部 12 ハードディスク 13 入力手段 17 外部特許情報データベース 20 制御プログラム 21 特許情報データベース 26 検索手段 27 分類付与手段

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 文書情報を検索するシステムにおいて、 あらかじめ検索する分野の情報を絞り込み、この絞り込
    んだ情報を記憶する手段と、 この記憶手段に記憶された前記絞り込み情報に対してイ
    ンデックス構築をかけることで、異なる分野にまたがる
    同一単語であって前記検索する分野以外の同一単語を排
    除する手段と、 前記同一単語が排除された絞り込み情報に対してキー情
    報を入力してキー情報による検索を行う手段とを備えた
    ことを特徴とする文書情報検索システム。
  2. 【請求項2】 文書情報を検索するシステムにおいて、 あらかじめ検索する分野を特定し、その情報を絞り込
    み、この絞り込んだ情報を記憶する手段と、 この記憶手段に記憶された前記絞り込み情報に対してイ
    ンデックス構築をかける手段と、 前記分野を選択することにより絞り込み情報を特定する
    手段と、 特定された絞り込み情報に対してキー情報の入力により
    検索を行う手段とを備えたことを特徴とする文書情報検
    索システム。
  3. 【請求項3】 前記文書情報は特許情報であることを特
    徴とする請求項1または2記載の文書情報検索システ
    ム。
  4. 【請求項4】 前記分野を特定するキー情報による検索
    を行い所望の情報を含む情報群に絞り込んだ後に、その
    情報群を概念検索用データ群として取り扱うことを特徴
    とする請求項1ないし3いずれか1つ記載の文書情報検
    索システム。
  5. 【請求項5】 前記キー情報は、日付、著者、発明者、
    出願人、会社名、分類コード、キーワードのいずれか1
    つであることを特徴とする請求項1ないし4いずれか1
    つ記載の文書情報検索システム。
JP2001077405A 2001-03-19 2001-03-19 文書情報検索システム Pending JP2002278991A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001077405A JP2002278991A (ja) 2001-03-19 2001-03-19 文書情報検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001077405A JP2002278991A (ja) 2001-03-19 2001-03-19 文書情報検索システム

Publications (1)

Publication Number Publication Date
JP2002278991A true JP2002278991A (ja) 2002-09-27

Family

ID=18934166

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001077405A Pending JP2002278991A (ja) 2001-03-19 2001-03-19 文書情報検索システム

Country Status (1)

Country Link
JP (1) JP2002278991A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008176545A (ja) * 2007-01-18 2008-07-31 Cosmotec Patent Information Systems Inc データ検索のためのコンピュータシステムとそれを実現するためのコンピュータプログラムとその方法
JP2015022559A (ja) * 2013-07-19 2015-02-02 Necパーソナルコンピュータ株式会社 検索装置、検索システム及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008176545A (ja) * 2007-01-18 2008-07-31 Cosmotec Patent Information Systems Inc データ検索のためのコンピュータシステムとそれを実現するためのコンピュータプログラムとその方法
JP2015022559A (ja) * 2013-07-19 2015-02-02 Necパーソナルコンピュータ株式会社 検索装置、検索システム及びプログラム

Similar Documents

Publication Publication Date Title
JP5744873B2 (ja) トラステッドクエリのシステムおよび方法
US8346795B2 (en) System and method for guiding entity-based searching
US8983963B2 (en) Techniques for comparing and clustering documents
US8280878B2 (en) Method and apparatus for real time text analysis and text navigation
US20090070322A1 (en) Browsing knowledge on the basis of semantic relations
US10552467B2 (en) System and method for language sensitive contextual searching
WO2009154153A1 (ja) 文書検索システム
US20050149538A1 (en) Systems and methods for creating and publishing relational data bases
JP2010055618A (ja) トピックを基にした検索を提供する方法及びシステム
JP2006073012A (ja) 予め定められた個数の予め定義された質問に応答することによって情報を管理するシステムおよび方法
JP2003067419A (ja) 情報検索方法および情報検索システム
JP4967133B2 (ja) 情報取得装置、そのプログラム及び方法
JP4091146B2 (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
Kerremans et al. Using data-mining to identify and study patterns in lexical innovation on the web: The NeoCrawler
US7509303B1 (en) Information retrieval system using attribute normalization
US20100211562A1 (en) Multi-part record searches
WO2009035871A1 (en) Browsing knowledge on the basis of semantic relations
Roslan et al. Biodiversity Knowledge Retrieval Application Using Natural Language Processing Technique
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
CN101310274B (zh) 知识相关性搜索引擎
JP2002278991A (ja) 文書情報検索システム
Kanavos et al. Topic categorization of biomedical abstracts
JP2000105769A (ja) 文書表示方法
Iyad et al. Towards supporting exploratory search over the Arabic web content: The case of ArabXplore
JP4146067B2 (ja) 文書検索システムおよび文書検索方法