JP3486406B2 - 特許情報検索装置 - Google Patents

特許情報検索装置

Info

Publication number
JP3486406B2
JP3486406B2 JP2001361567A JP2001361567A JP3486406B2 JP 3486406 B2 JP3486406 B2 JP 3486406B2 JP 2001361567 A JP2001361567 A JP 2001361567A JP 2001361567 A JP2001361567 A JP 2001361567A JP 3486406 B2 JP3486406 B2 JP 3486406B2
Authority
JP
Japan
Prior art keywords
keyword
search
target
documents
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001361567A
Other languages
English (en)
Other versions
JP2003162542A (ja
Inventor
源一郎 末木
宏明 藤木
衛 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Space Software Co Ltd
Original Assignee
Mitsubishi Space Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Space Software Co Ltd filed Critical Mitsubishi Space Software Co Ltd
Priority to JP2001361567A priority Critical patent/JP3486406B2/ja
Publication of JP2003162542A publication Critical patent/JP2003162542A/ja
Application granted granted Critical
Publication of JP3486406B2 publication Critical patent/JP3486406B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、自然言語で記述
した文章を検索要求として入力し、その検索要求文書
類似した文書を検索結果として出力する情報検索装置に
関するものであり、特に検索対象とする文書が特許文書
の場合に好適な特許情報検索装置に関するものである。
【0002】
【従来の技術】従来の情報検索装置は、検索を行うため
に、あるキーワードが出現するデータベース中の文書を
インデックス情報として保持しておき、検索要求に対す
る検索結果をインデックス情報を用いて獲得し、それを
ユーザーに提供するという手法が取られていた。
【0003】しかし、インデックス情報を作成するに
は、キーワードの統計情報等の情報をデータベース中の
文書から獲得する必要があり、これに多くの時間を費や
していた。そのため、検索装置運用に多大な労力が必要
となり、さらに新たにデータベースに登録された文書は
インデックス情報を再構築するまで検索することができ
ないという問題があった。
【0004】また、従来の特許情報検索装置は、特許庁
がインターネット上で提供している特許電子図書館(I
PDL)のように、キーワード検索を採用したものが一
般的である。この場合には、検索要求に含まれているキ
ーワードの意味上の関係を検索プログラム中で表現する
ことができないため、検索対象文書中でキーワードが表
す手段や物質発明の場合の物質の使用目的及び使用方法
を考慮した検索を行うことは困難であった。そのため、
検索対象文書中に含まれる検索用キーワードが当該目的
と異なる他の目的に使用されている場合でも、この検索
用キーワードを含む文書が検索結果に出力されるという
問題があった。
【0005】また、文の構造情報等を用いて格フレーム
等に代表される構造情報を抽出し、検索対象文書中に出
現する文から抽出した構造と、構造レベルでのマッチン
グを行うことにより、キーワードの使用目的及び使用方
法までを考慮した検索を行う試みもなされているが、そ
のためには構造レベルのマッチングを行うための高度な
機構を検索エンジンに備える必要があった。
【0006】
【発明が解決しようとする課題】そこで、この発明は、
以上のような従来の検索装置の問題点に鑑み、検索要求
文書からキーワードをその意味上の役割別に抽出するキ
ーワード自動抽出部と、キーワードの意味上の役割に基
づいたキーワード検索による検索手段を採用し、検索要
求文書に類似した文書を検索するための情報検索装置を
提供することを目的とし、加えて検索対象とする文書が
特に特許文書の場合に好適な特許情報検索装置を提供す
ることを目的としている。
【0007】さらに、超並列計算機を用いることによ
り、データベース中の検索対象文書をインデックス化す
ることなく、高精度で類似した文書を検索することが可
能な情報検索装置及び特許情報検索装置を提供すること
を目的としている。
【0008】
【課題を解決するための手段】上記目的を達成するため
に、請求項1に記載の発明は、特定の発明を記述した文
章が検索要求文書として入力されたときに、該検索要求
文書に類似した文書を検索して出力する特許情報検索装
置であって、該特許情報検索装置は、キーワー ド自動抽
出部及び検索部を有し、前記キーワード自動抽出部は、
「対象」キーワード選定部、「対象」キーワード境界決
定部、「手段」キーワード選定部、及び「手段」キーワ
ード境界決定部を備え、前記「対象」キーワード選定部
は、前記検索要求文書より、前記検索要求文書に記載さ
れた発明の「対象」を記述しているキーワードを抽出す
る機能を備え、前記「手段」キーワード選定部は、前記
検索要求文書に記載された発明の目的を達成する「手
段」を記述しているキーワードを抽出する機能を備え、
前記検索部は、前記「対象」キーワードより第一の検索
条件式を作成し、かつ前記「手段」キーワードより第二
の検索条件式を作成する、検索条件式作成部を備え、該
検条件式作成部は、データベース内に保存された検索対
象文書から、前記第一及び第二の検索条件式に適合する
文書を検索して出力する機能を備えていることを特徴と
する。
【0009】請求項2に記載の発明は、請求項1に記載
の構成に加えて、前記「対象」及び「手段」キーワード
とは、名詞、複合名詞及び形態素解析システムに登録さ
れていない未知語とすることを特徴とする。
【0010】請求項3に記載の発明は、請求項1又は2
の構成に加えて、前記検索要求文書は、「AにおいてB
することを特徴とする」という形式で記述されているも
のとして、前記「A」の部分に出現するキーワードと、
前記「B」の部分に出現するキーワードのうち、助詞
「は」、格助詞「が」、格助詞「として」、格助詞
「を」及び格助詞+動詞「からなる」という形態素の前
にあるキーワードと、を抽出して、「対象」キーワード
とすることにより、前記「対象」キーワード選定部を構
成し、また、前記「B」に出現するキーワードで、前記
「対象」キーワード以外のキーワードを抽出して、「手
段」キーワードとすることにより、前記「手段」キーワ
ード選定部を構成することを特徴とする。
【0011】請求項4に記載の発明は、請求項1乃至3
のいずれか一つの構成に加えて、前記「対象」キーワー
ド選定部は、抽出された前記「対象」キーワードの各々
について、前記「対象」キーワードを含む前記検索対象
文書の数を取得し、その数の 検索対象文書の総数に対す
る割合が所定の値を超える場合には、前記「対象」キー
ワードは採用しないことを特徴とする。
【0012】請求項5に記載の発明は、請求項1乃至3
のいずれか一つの構成に加えて、前記「対象」キーワー
ド境界決定部及び「手段」キーワード境界決定部は、抽
出された前記キーワードが複合語である場合に、該複合
語を構成する形態素、及びこれら形態素の共起、の各々
について、それを含む前記検索対象文書の数を調べ、そ
の数の検索対象文書の総数に対する割合が所定の値以下
である場合には、それを前記キーワードとして採用し、
もし、所定の値以下のものが無かった場合には、前記複
合語そのものを前記キーワードとして採用する、ことに
よって前記複合語の境界決定を行うことを特徴とする。
【0013】請求項6に記載の発明は、請求項4又は5
のいずれか一つの構成に加えて、抽出された、前記「対
象」キーワード、前記「手段」キーワード、前記複合
語、前記形態素、又は前記形態素の共起、の各々につい
て、それを含む前記検索対象文書の数を取得する際、そ
の実行をキーワード毎に異なるプロセッサに割り当てる
ことにより同時並列に行うことを特徴とする。
【0014】請求項7に記載の発明は、請求項1乃至5
のいずれか一つの構成に加えて、前記検索条件式生成部
は、前記第一の検索条件式として、前記「対象」キーワ
ードについてブーリアン検索を行う検索条件式、つま
り、前記「対象」キーワードのand結合、or結合、
若しくはand結合とor結合の組み合わせが出現する
文書を検索する式を作成する、ことを特徴とする。
【0015】請求項8に記載の発明は、請求項7に記載
の構成に加えて、前記検索条件式生成部は、前記第二の
検索条件式として、前記「手段」キーワードに関するス
コア付けによるランキング式を作成する、又は前記「手
段」キーワードの共起に関するランキング式を作成す
る、ことを特徴とする。
【0016】
【発明の実施の形態】以下、この発明の一実施の形態に
係る特許情報検索装置を図面に従って詳細に説明する。
【0017】図1は、この発明の一実施の形態に係る特
許情報検索装置のブロック図である。
【0018】発明が特定の目的を達成するための特定の
手段を提供する技術的思想であることを考えれば、特許
文書を解析する場合に、そこに記載されている発明を目
的と手段で捉えることが重要である。
【0019】つまり、特許情報検索装置における類似の
特許文書を検索するといった目的は、検索要求文書に記
載された発明の「対象」を表す名詞(複合名詞を含む)
と同一若しくは類似した名詞(複合名詞を含む)を有す
る文書で、かつ検索要求文書に記載された発明の目的を
実現する「手段」や物質発明の場合の「具体的な物質
名」が同一若しくは類似した文書を検索することで達成
すると考えられる。そのためには、主に検索要求文書に
記載の発明の「対象」を表す名詞(複合名詞を含む)か
らなるキーワード(以下、「対象」キーワードとい
う。)と、検索要求文書に記載の発明の目的を実現する
ための「手段」や物質発明の場合の「具体的な物質名」
を表すキーワード(以下、「手段」キーワードとい
う。)の文書中における意味上の役割別に分類して抽出
する機能を有し、かつ役割別に抽出したキーワードを用
いた検索対象文書の絞り込みと「手段」キーワードによ
るスコア付け及びランキングを行う手段を有しているこ
とが望ましい。
【0020】また、「対象」キーワード及び「手段」キ
ーワードを形態素情報及び検索対象文書を統計処理した
統計情報を用いて、適切なキーワードの境界決定が可能
な機能を有し、検索時に検索対象文書を統計処理した統
計情報を用いて「手段」キーワードの共起によるスコア
付け及び単独出現によるスコア付けの自動判定を行う手
段を有することが望ましい。
【0021】図1において、入力文書解析部1は、形態
素解析部11及び節又は文節への分割部12から構成さ
れている。形態素解析部11では、検索要求文書を形態
素単位に分割し、形態素の品詞情報を取得する。また、
節又は文節への分割部12では形態素解析部11により
得られた形態素情報を用いて、検索要求文書より節及び
文節区切りの情報を得る。
【0022】文節の区切り位置は、助詞、接続詞等の直
後、若しくは助詞又は接続助詞等の連続の直後を文節区
切り位置とし、節の区切り位置は、動詞及び助動詞等の
連続を動詞句として動詞句の直後を節の区切り位置とす
る、等の一般的に知られている手法を用いればよい。
【0023】図1において、キーワード自動抽出部2
は、キーワード候補の抽出部21、「対象」キーワード
の選定部22、「対象」キーワードの境界決定部23、
「手段」キーワードの選定部24及び「手段」キーワー
ドの境界決定部25から構成されている。
【0024】キーワード候補の抽出部21においては、
キーワード候補として、たとえば、名詞、複合名詞及び
形態素解析システムに登録されていない未知語等、文書
の特徴を表すと予測される形態素を指定し、このキーワ
ード候補の抽出を行う。
【0025】なお、複合名詞は、たとえば、名詞の連続
をまとめて複合名詞とする処理により作成する。ただ
し、抽出キーワードの境界決定処理のため、複合名詞を
構成する形態素情報は保存しておく必要がある。
【0026】さらに、キーワード候補の抽出後、必ずキ
ーワードから除外する言葉等を除外リストとして保有し
ておき、この除外リスト中に出現するキーワード候補は
除外する機能を追加してもよい。この除外リストには、
キーワード候補と完全に一致することを除外条件とする
言葉の他に、部分的に一致していれば除外対象とする言
葉を含んでいてもよい。
【0027】「対象」キーワードの選定部22では、キ
ーワード候補の抽出部21より抽出されるキーワード候
補より「対象」キーワード候補の選定を行う。たとえ
ば、入力文書が「〜において〜することを特徴とする
〜」といういわゆるジェプソン形式で記述された特許請
求の範囲の請求項の場合、「おいて」よりも前の部分で
特許出願する発明の「対象」の全体的な説明が記述され
る。さらに、「おいて」よりも後の部分で特許出願する
発明の「対象」の具体的な部分を主題として限定し、主
題となった発明の「対象」について具体的な実現方法の
記述がなされている。よって、キーワード候補の抽出部
21より抽出されたキーワード候補のうち、「おいて」
の前の部分に出現するキーワード候補すべてと「おい
て」の後の部分で説明されている主題を表す名詞(複合
名詞を含む)からなるキーワード候補を「対象」キーワ
ード候補として抽出する。
【0028】「おいて」以降で説明されている主題は、
たとえば助詞等に注目して抽出することができ、取り立
てて助詞「は」、格助詞「が」、格助詞「として」、格
助詞「を」(ただし、「〜することを特徴とする」の直
前の「を」)、格助詞+動詞「からなる」の優先順位
で、以上の形態素の直前に出現するキーワード候補を1
つ抽出すればよい。ただし、抽出した「対象」キーワー
ド候補のうち、検索対象文書数全体に対する検索対象文
書中で各々のキーワードが含まれる文書数の割合が高い
「対象」キーワード候補は検索対象文書を絞り込む能力
が低いため、「対象」キーワード候補から除外する。
【0029】なお、検索対象文書中にキーワードが含ま
れる文書数の取得には、各々のキーワード候補に対応す
る検索条件式をそれぞれ作成し、それらの検索条件式を
複数の異なるプロセッサを有する超並列計算機5の複数
の異なるプロセッサ上に同時に設定し、検索対象文書が
保存されているデータベース6に蓄積されている文書群
を複数の検索条件式で全文検索し、検索条件式に合致し
た結果を用いることができる。ここで、各々の検索条件
式に合致した結果数が、検索対象文書中に各々のキーワ
ード候補が含まれる文書数となる。このキーワード抽出
部2の処理の都度、全文検索を行うことで統計情報を更
新するようにしているため、統計情報の正確さを保持す
ることができる。
【0030】ここで、超並列計算機5は、数千乃至数万
のプロセッサ(以下、これらをまとめてパイプラインと
いう)を内蔵することにより、このパイプラインに複数
の異なった検索条件式を同時に設定可能としている。そ
して、これら大量のプロセッサを同時に動作させること
によって、複数の異なった検索条件式とデータベース6
に保存されている検索対象文書のマッチングを行う全文
検索を実行する。マッチングの結果、検索条件式に合致
する文書が見つかったら、その文書が検索されたとみな
す機能を有している。
【0031】この超並列計算機5は、全文検索エンジン
(たとえば、Paracel社製、FDF(登録商標)
4T TextFinder)のような機器が望ましい
が、これと同等の機能及び性能を有するワークステーシ
ョン等の機器でもよい。
【0032】「対象」キーワードの境界決定部23で
は、「対象」キーワードの選定部22で抽出された「対
象」キーワード候補のうち、複合名詞等の複合語の「対
象」キーワードの境界決定を行う。複合語を構成する形
態素で分割し、適切な検索対象文書の絞り込み能力を持
つキーワードの境界決定と同時に共起の設定を行う。境
界決定及び共起の設定は、複合語、分割した形態素の共
起、分割した形態素それぞれの検索対象文書数全体に対
する検索対象文書中で各々が含まれる文書数の割合を用
いて、複合語、分割した形態素の共起、分割した形態素
の選定により行われる。「対象」キーワードの境界決定
手順は図2のフローチャートに示しているが、詳細は後
述する。なお、境界決定の対象外となる「対象」キーワ
ード候補は、そのまま「対象」キーワードとして選定さ
れる。
【0033】「手段」キーワードの選定部24では、キ
ーワード候補の抽出部21より出力されるキーワード候
補より「手段」キーワード候補の選定を行う。たとえ
ば、入力文書が「〜において〜することを特徴とする
〜」といういわゆるジェプソン形式で記述された特許請
求の範囲の請求項の場合、「おいて」よりも後の部分で
特許出願する発明の「対象」の具体的な部分を主題とし
て限定し、主題となった発明の「対象」について具体的
な実現方法、つまり実現のための「手段」や物質発明の
場合の使用する「具体的な物質名」の記述がなされてい
る。よって、「おいて」の後の部分に出現するキーワー
ド候補を「手段」キーワード候補として抽出する。「手
段」キーワード候補を抽出する際は、適合率向上のた
め、他の「手段」キーワード候補を補足的に修飾してい
ると考えられる、格助詞「の」の直前のキーワード候補
を削除してもよいし、さらに多くの修飾内容を削除する
ために、「手段」キーワード候補を節の末尾に出現する
キーワード候補に限定してもよい。
【0034】「手段」キーワードの境界決定部25で
は、「手段」キーワードの選定部24で抽出された「手
段」キーワード候補のうち、複合名詞等の複合語の「手
段」キーワードの境界決定を行う。「手段」キーワード
は「対象」キーワードにより検索対象を限定した後のマ
ッチングに用いられるため、既に検索対象文書の絞り込
みは完了しており、より多くの類似文書をスコアよりラ
ンキングすることが重要である。そのため、境界決定手
法を用いて複合語の「手段」キーワードにより、より多
くの類似文書をスコア付けランキングできるよう、キー
ワードの適切な区切り位置を求める。
【0035】たとえば、「ゴム状シート」のように「ゴ
ム状」が「シート」の説明のために用いられていること
が明らかな表現が出現するキーワードは「シート」のみ
を「手段」キーワードとしてもよい。ただし、検索対象
文書数全体に対する検索対象文書中で「シート」が含ま
れる文書数の割合が高い場合、「シート」は検索対象文
書中において非常に一般的な言葉であり、手段等の特徴
付けを行う能力が低いといえるため、より特徴付けを行
う能力のあるキーワードとして、「シート」を特徴づけ
る「ゴム」を「手段」キーワードとしてもよい。また、
複合語を構成する各形態素の隣接の頻度を求めることに
より、形態素の結びつきの強さを求め、結びつきの強さ
を元に境界決定を行う等の一般的に知られているキーワ
ード境界決定手法を用いてもよい。
【0036】さらに、検索対象文書にまったく表れない
「手段」キーワードは検索用キーワードの役割を果たさ
ないため、「手段」キーワードを構成する形態素の共起
を検索に利用する等の処理を行ってもよい。なお、境界
決定の対象外となる「手段」キーワード候補は、そのま
ま「手段」キーワードとして選定される。
【0037】図1において、検索条件式作成部3には検
索条件式の作成部31を有している。この検索条件式の
作成部31において、キーワード自動抽出部2により抽
出された「対象」キーワード及び「手段」キーワードを
用いた検索条件式を作成する。「対象」キーワードは検
索対象文書の絞り込みを行う検索条件式の作成に適用さ
れ、たとえば、「対象」キーワードのすべて(and結
合)若しくは一部(and結合とor結合の組み合わ
せ、又はor結合)が出現する文書を検索するための検
索条件式を作成する。
【0038】また、「手段」キーワードは「対象」キー
ワードにより絞り込まれた検索対象文書に対するスコア
付けランキングに適用され、基本的にキーワードのいず
れかが出現した際にスコアを与えればよいが(or結
合)、たとえば、検索対象文書数全体に対する検索対象
文書中での各々のキーワードが含まれる文書数の割合が
高い「手段」キーワードにおいては、検索要求文書中で
直前及び直後に出現する「手段」キーワードと共起した
際(直前若しくは直後のキーワードとのand結合)に
スコアを与えるように検索条件式を作成する等の処理を
用いて検索条件に修正を加えることにより、適合率を高
めることもできる。また、検索対象文書の絞り込み及び
スコア付けランキングのいずれの検索条件式において
も、キーワードに対する同義語や類義語をシソーラス等
を使用して検索条件式の中に追加してもよい。
【0039】図1において、検索部4には検索の実行部
41を有している。この検索の実行部41はブーリアン
検索と、キーワード出現によるスコア加算、ベクトル空
間法による類似度スコア計算等のスコア付けランキング
による検索の2種類の検索手法が可能な機能を有する。
【0040】ブーリアン検索とスコア付けランキングに
よる検索を1つの検索エンジンで実現してもよいし、そ
れぞれ別の検索エンジンで実現してもよい。検索の実行
部41では、まず、「対象」キーワードによる検索対象
文書の絞り込みをブーリアン検索により行い、検索結果
に対して「手段」キーワードによるスコア付けランキン
グをスコア付けランキングによる検索により行う。ま
た、検索エンジンとしてParacel社製、FDF
(登録商標)4T TextFinderを用いれば、
「対象」キーワードによる検索対象文書の絞り込みと
「手段」キーワードによるスコア付けランキングを1つ
の検索条件式内に記載することが可能であり、これによ
り同時に検索を行うことができるため、より高速な検索
が可能となる。
【0041】図2は、「対象」キーワードの境界決定手
順を示すフローチャートである。
【0042】ここで、idf値とは複合語、分割した形
態素の共起、分割した形態素それぞれの検索対象文書数
全体に対する検索対象文書中で各々が含まれる文書数の
割合を逆数にし、さらにlogをとった値であり、値
が大きいほど検索対象文書の絞り込み能力が高いことを
示す。
【0043】そこで、まず、複合語、分割した形態素の
共起、分割した形態素それぞれのidf値を求める(ス
テップS1)。もし、設定した閾値よりもidf値が高
い分割した形態素が存在するか否かを判断し(ステップ
S2)、idf値が高い分割した形態素が存在した場合
は、閾値を超えた形態素すべてを「対象」キーワードと
して採用する(ステップS4)。ステップS2で閾値を
超える分割した形態素がなく、かつ設定した閾値よりも
idf値が高い分割した形態素の共起が存在するか否か
を判断し(ステップS3)、閾値よりもidf値が高い
分割した形態素の共起が存在した場合は、分割した形態
素の共起を「対象」キーワードとする(ステップS
4)。それ以外の分割した形態素及びその共起が「対
象」キーワードとならない場合は、複合語を「対象」キ
ーワードとする(ステップS4)。以上のステップS1
からステップS4の処理を、すべての「対象」キーワー
ド候補について行う(ステップS5)。なお、ステップ
S2及びステップS3のidf値の閾値はそれぞれ別個
の値に設定してもよい。
【0044】表1に、図2の「対象」キーワードの境界
決定プログラムに対して、ステップS2のidf閾値を
5、ステップS3でのidf閾値を4として適用した例
を示す。
【0045】
【表1】
【0046】表1で示した例では、「対象」キーワード
候補として「感熱記録用転写材」、「バックコート層」
及び「加熱手段」を入力した場合は、「転写材」、「バ
ック」と「コート層」の共起(分割した形態素の共起)
が「対象」キーワードとして抽出され、さらに「加熱手
段」(複合語)が「対象」キーワードとして抽出され
る。
【0047】「感熱記録用転写材」においては、形態素
の区切りにより「感熱」、「記録用」及び「転写材」に
分割される。次に、ステップS1により、「感熱」、
「記録用」、「転写材」それぞれのidf値と「感
熱」、「記録用」、「転写材」が共起する場合のidf
値を求める。ステップS2により、「感熱」、「記録
用」、「転写材」それぞれのidf値をidfの閾値と
した5と比較すると、idf値が5.10である「転写
材」が「対象」キーワードとして選定され、ステップS
5へと移行することになる。
【0048】「バックコート層」においては、「バッ
ク」及び「コート層」に分割される。次に、idf値を
求め、ステップS2により「バック」、「コート層」の
idf値をidf閾値とした5と比較しても「バッ
ク」、「コート層」のいずれもidf値は5より低い値
となる。そのため、ステップS3に処理が移行し、「バ
ック」と「コート層」の共起時のidf値を共起時のi
df閾値とした4と比較する。その結果、「バック」と
「コート層」の共起(分割した形態素の共起)のidf
値は4.11となり、idf閾値を上回るため、「バッ
ク」と「コート層」の共起(分割した形態素の共起)が
「対象」キーワードとして選定され、ステップS5へと
移行することになる。
【0049】「加熱手段」においては、「加熱」及び
「手段」に分割されるが、「加熱」、「手段」の両方の
idf値がidf閾値を下回り、かつ「加熱」と「手
段」の共起のidf値もidf閾値を下回る。そのた
め、分割を行う前の「加熱手段」(複合語)が「対象」
キーワードとして選定され、ステップS5へと移行する
ことになる。
【0050】
【発明の効果】以上説明したように、請求項1に記載の
発明によれば、特定の発明を記述した文章が検索要求文
書として入力されたときに、該検索要求文書に類似した
文書を検索して出力する特許情報検索装置であって、該
特許情報検索装置は、キーワード自動抽出部及び検索部
を有し、前記キーワード自動抽出部は、「対象」キーワ
ード選定部、「対象」キーワード境界決定部、「手段」
キーワード選定部、及び「手段」キーワード境界決定部
を備え、前記「対象」キーワード選定部は、前記検索要
求文書より、前記検索要求文書に記載された発明の「対
象」を記述しているキーワードを抽出する機能を備え、
前記「手段」キーワード選定部は、前記検索要求文書に
記載された発明の目的を達成する「手段」を記述してい
るキーワードを抽出する機能を備え、前記検索部は、前
記「対象」キーワードより第一の検索条件式を作成し、
かつ前記「手段」キーワードより第二の検索条件式を作
成する、検索条件式作成部を備え、該検条件式作成部
は、データベース内に保存された検索対象文書から、前
記第一及び第二の検索条件式に適合する文書を検索して
出力する機能を備えているので、ユーザーが検索要求文
書からキーワードの選定を行ったり検索条件式を設定す
るといった手間を掛けずに済むため、検索作業を効率的
に行うことができる。さらに、データベースのデータ更
新の度にインデックス情報を再構築する必要がないか
ら、いつでも検索できる。
【0052】請求項2に記載の発明によれば、前記「対
象」及び「手段」キーワードとは、名詞、複合名詞及び
形態素解析システムに登録されていない未知語とする、
ことを特徴とするので、請求項1の効果に加え、「対
象」キーワード及び「手段」キーワードを検索用キーワ
ードとしているため重要でない単語を検索に使用するこ
とがなくなるため、適合率をより高めることができる。
【0053】請求項3に記載の発明によれば、前記検索
要求文書は、「AにおいてBすることを特徴とする」と
いう形式で記述されているものとして、前記「A」の部
分に出現するキーワードと、前記「B」の部分に出現す
るキーワードのうち、助詞「は」、格助詞「が」、格助
詞「として」、格助詞「を」及び格助詞+動詞「からな
る」という形態素の前にあるキーワードと、を抽出し
て、「対象」キーワードとすることにより、前記「対
象」キーワード選定部を構成し、また、前記「B」に出
現するキーワードで、前記「対象」キーワード以外のキ
ーワードを抽出して、「手段」キーワードとすることに
より、前記「手段」キーワード選定部を構成するので、
請求項1又は2の効果に加えて、従来のように、構造レ
ベルでのマッチング等の複雑な処理を行わず、キーワー
ドを用いた検索のみで類似した文書が検索可能であるか
ら、高度で複雑な機構を検索エンジンに備える必要がな
いため、高速な検索を実現することができる。
【0054】請求項4に記載の発明によれば、前記「対
象」キーワード選定部は、抽出された前記「対象」キー
ワードの各々について、前記「対象」キーワードを含む
前記検索対象文書の数を取得し、その数の検索対象文書
の総数に対する割合が所定の値を超える場合には、前記
「対象」キーワードは採用しないので、請求項1乃至3
のいずれか一つの効果に加えて、特許文書の検索におけ
る適合率をより高めることができる。
【0055】請求項5に記載の発明によれば、前記「対
象」キーワード境界決定部及び「手段」キーワード境界
決定部は、抽出された前記キーワードが複合語である場
合に、該複合語を構成する形態素、及びこれら形態素の
共起、の各々について、それを含む前記検索対象文書の
数を調べ、その数の検索対象文書の総数に対する割合が
所定の値以下である場合には、それを前記キーワードと
して採用し、もし、所定の値以下のものが無かった場合
には、前記複合語そのものを前記キーワードとして採用
する、ことによって前記複合語の境界決定を行うので、
請求項1乃至3のいずれか一つの効果に加えて、検索要
求文書に記載された発明の目的と同一又は類似した目的
を有する特許文書を集める際に最適な検索用キーワード
を決定することができる。
【0056】請求項6に記載の発明によれば、前記「対
象」キーワード、前記「手段」キーワード、前記複合
語、前記形態素、又は前記形態素の共起、の各々につい
て、それを含む前記検索対象文書の数を取得する際、そ
の実行をキーワード毎に異なるプロセッサに割り当てる
ことにより並列に行うことができるので、請求項4又は
5の効果に加えて、キーワード抽出部の処理の都度、全
文検索を行うことで統計情報を更新でき、統計情報の正
確さを保持することができる。データベース中の検索対
象文書のインデックス化が不要となるため、低コストで
運用が可能な高速情報検索が可能となる。
【0057】請求項7に記載の発明によれば、前記検索
条件式生成部は、前記第一の検索条件式として、前記
「対象」キーワードについてブーリアン検索を行う検索
条件式、つまり、前記「対象」キーワードのand結
合、or結合、若しくはand結合とor結合の組み合
わせが出現する文書を検索する式、を作成することを特
徴とする請求項1乃至5のいずれか一つの効果に加え、
用途に応じて検索文書数を調整することができると共
に、検索要求に合った特許文書を高い適合率で検索する
ことができる。
【0058】請求項8に記載の発明によれば、前記検索
条件式生成部は、前記第二の検索条 件式として、前記
「手段」キーワードに関するスコア付けによるランキン
グ式を作成する、又は前記「手段」キーワードの共起に
関するランキング式を作成するので、請求項7の効果に
加え、検索要求文書に記載された発明の目的を実現する
手段と同一又は類似する手段を有する特許文書を高い適
合率で検索することができる。
【図面の簡単な説明】
【図1】 この発明の一実施の形態に係る特許情報検索
装置のブロック図である。
【図2】 「対象」キーワードの境界決定手順を示すフ
ローチャートである。
【符号の説明】
1 入力文書解析部 2 キーワード自動抽出部 3 検索条件式作成部 4 検索部 5 超並列計算機 6 データベース 11 形態素解析部 12 節又は文節への分割部 21 キーワード候補抽出部 22 「対象」キーワードの選定部 23 「対象」キーワードの境界決定部 24 「手段」キーワードの選定部 25 「手段」キーワードの境界決定部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 松尾 衛 神奈川県鎌倉市上町屋792番地 三菱ス ペース・ソフトウエア株式会社鎌倉事業 部内 (56)参考文献 特開 平4−357568(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 JICSTファイル(JOIS)

Claims (8)

    (57)【特許請求の範囲】
  1. 【請求項1】 特定の発明を記述した文章が検索要求文
    書として入力されたときに、該検索要求文書に類似した
    文書を検索して出力する特許情報検索装置であって、 該特許情報検索装置は、キーワード自動抽出部及び検索
    部を有し、 前記キーワード自動抽出部は、 「対象」キーワード選定部、「対象」キーワード境界決
    定部、「手段」キーワード選定部、及び「手段」キーワ
    ード境界決定部を備え、 前記「対象」キーワード選定部は、 前記検索要求文書より、前記検索要求文書に記載された
    発明の「対象」を記述しているキーワードを抽出する機
    能を備え、 前記「手段」キーワード選定部は、 前記検索要求文書に記載された発明の目的を達成する
    「手段」を記述しているキーワードを抽出する機能を備
    え、 前記検索部は、 前記「対象」キーワードより第一の検索条件式を作成
    し、 かつ前記「手段」キーワードより第二の検索条件式を作
    成する、 検索条件式作成部を備え、 該検条件式作成部は、 データベース内に保存された検索対象文書から、前記第
    一及び第二の検索条件式に適合する文書を検索して出力
    する機能を備えている、 ことを特徴とする特許情報検索装置。
  2. 【請求項2】 前記「対象」及び「手段」キーワードと
    は、名詞、複合名詞及び形態素解析システムに登録され
    ていない未知語とする、ことを特徴とする請求項1に記
    載の特許情報検索装置。
  3. 【請求項3】 前記検索要求文書は、「AにおいてBす
    ることを特徴とする」という形式で記述されているもの
    として、 前記「A」の部分に出現するキーワードと、前記「B」
    の部分に出現するキーワードのうち、助詞「は」、格助
    詞「が」、格助詞「として」、格助詞「を」及び格助詞
    +動詞「からなる」という形態素の前にあるキーワード
    と、を抽出して、「対象」キーワードとすることによ
    り、前記「対象」キーワード選定部を構成し、 また、前記「B」に出現するキーワードで、前記「対
    象」キーワード以外のキーワードを抽出して、「手段」
    キーワードとすることにより、前記「手段」キーワード
    選定部を構成する、ことを特徴とする請求項1又は2に
    記載の特許情報検索装置。
  4. 【請求項4】 前記「対象」キーワード選定部は、抽出
    された前記「対象」キーワードの各々について、前記
    「対象」キーワードを含む前記検索対象文書の数を取得
    し、その数の検索対象文書の総数に対する割合が所定の
    値を超える場合には、前記「対象」キーワードは採用し
    ない、ことを特徴とする請求項1乃至3のいずれか一つ
    に記載の特許情報検索装置。
  5. 【請求項5】 前記「対象」キーワード境界決定部及び
    「手段」キーワード境界決定部は、抽出された前記キー
    ワードが複合語である場合に、該複合語を構成する形態
    素、及びこれら形態素の共起、の各々について、それを
    含む前記検索対象文書の数を調べ、その数の検索対象文
    書の総数に対する割合が所定の値以下である場合には、
    それを前記キーワードとして採用し、もし、所定の値以
    下のものが無かった場合には、前記複合語そのものを前
    記キーワードとして採用する、ことによって前記複合語
    の境界決定を行う、ことを特徴とする請求項1乃至3の
    いずれか一つに記載の特許情報検索装置。
  6. 【請求項6】 抽出された、前記「対象」キーワード、
    前記「手段」キーワード、前記複合語、前記形態素、又
    は前記形態素の共起、の各々について、それを含む前記
    検索対象文書の数を取得する際、その実行をキーワード
    毎に異なるプロセッサに割り当てることにより同時並列
    に行う、ことを特徴とする請求項4又は5に記載の特許
    情報検索装置。
  7. 【請求項7】 前記検索条件式生成部は、前記第一の検
    索条件式として、前記「対象」キーワードについてブー
    リアン検索を行う検索条件式、つまり、前 記「対象」キ
    ーワードのand結合、or結合、若しくはand結合
    とor結合の組み合わせが出現する文書を検索する式を
    作成する、ことを特徴とする請求項1乃至5のいずれか
    一つに記載の特許情報検索装置。
  8. 【請求項8】 前記検索条件式生成部は、前記第二の検
    索条件式として、前記「手段」キーワードに関するスコ
    ア付けによるランキング式を作成する、又は前記「手
    段」キーワードの共起に関するランキング式を作成す
    る、ことを特徴とする請求項7に記載の特許情報検索装
    置。
JP2001361567A 2001-11-27 2001-11-27 特許情報検索装置 Expired - Fee Related JP3486406B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001361567A JP3486406B2 (ja) 2001-11-27 2001-11-27 特許情報検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001361567A JP3486406B2 (ja) 2001-11-27 2001-11-27 特許情報検索装置

Publications (2)

Publication Number Publication Date
JP2003162542A JP2003162542A (ja) 2003-06-06
JP3486406B2 true JP3486406B2 (ja) 2004-01-13

Family

ID=19172201

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001361567A Expired - Fee Related JP3486406B2 (ja) 2001-11-27 2001-11-27 特許情報検索装置

Country Status (1)

Country Link
JP (1) JP3486406B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4394517B2 (ja) * 2004-05-12 2010-01-06 富士通株式会社 特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置
WO2009065146A2 (en) * 2007-11-15 2009-05-22 Gibbs Andrew H System and method for conducting a patent search
JP2018077548A (ja) * 2016-11-07 2018-05-17 株式会社Personal AI 考案文章の類似有無を対象文章群から自動判断する人工知能装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2943447B2 (ja) * 1991-01-30 1999-08-30 三菱電機株式会社 テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置

Also Published As

Publication number Publication date
JP2003162542A (ja) 2003-06-06

Similar Documents

Publication Publication Date Title
US6901399B1 (en) System for processing textual inputs using natural language processing techniques
Liu et al. Overview of the NTCIR-11 IMine Task.
Zhang et al. Narrative text classification for automatic key phrase extraction in web document corpora
JPWO2003012679A1 (ja) データ処理方法、データ処理システムおよびプログラム
Piskorski et al. Exploring linguistically-lightweight keyword extraction techniques for indexing news articles in a multilingual set-up
CN107967290A (zh) 一种基于海量科研资料的知识图谱网络构建方法及系统、介质
JP2011118689A (ja) 検索方法及びシステム
Gero et al. Namedkeys: Unsupervised keyphrase extraction for biomedical documents
JP3847273B2 (ja) 単語分類装置、単語分類方法及び単語分類プログラム
JPWO2010109594A1 (ja) 文書検索装置、文書検索システム、文書検索プログラム、および文書検索方法
Farhan et al. Survey of automatic query expansion for Arabic text retrieval
JP2009295052A (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
JP2006178599A (ja) 文書検索装置および方法
JPH10207910A (ja) 関連語辞書作成装置
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3486406B2 (ja) 特許情報検索装置
Ullah et al. Pattern and semantic analysis to improve unsupervised techniques for opinion target identification
US10572592B2 (en) Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
Klang et al. Linking, searching, and visualizing entities in wikipedia
JP2009129176A (ja) 構造化文書検索装置、方法およびプログラム
JP2004192374A (ja) 文書検索装置、プログラムおよび記録媒体
JP4378106B2 (ja) 文書検索装置、文書検索方法及びプログラム
JP5094096B2 (ja) 有名人の別表現の自動抽出装置、方法
JP2004086307A (ja) 情報検索装置、情報登録装置、情報検索方法、及びコンピュータ読み取り可能なプログラム
Malallah et al. Multi-document text summarization using fuzzy logic and association rule mining

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees