JP3735335B2

JP3735335B2 - 類似性判断のための例題ベース検索方法及び検索システム

Info

Publication number: JP3735335B2
Application number: JP2002322059A
Authority: JP
Inventors: ジョンスパク; ユンジンピ; チンサンキム; ナムゴンソン; ジョンヒェオクリー; オーウークォン
Original assignee: Posco Co Ltd
Current assignee: Posco Holdings Inc
Priority date: 2001-11-13
Filing date: 2002-11-06
Publication date: 2006-01-18
Anticipated expiration: 2022-11-06
Also published as: KR20030039576A; KR100685023B1; JP2003281186A

Description

【０００１】
【発明の属する技術分野】
本発明は文書を自動検索する例題ベース検索方法及び検索システムに関するもので、より詳しくは、文書の特定構造を利用して同一または類似する関連技術を検索する類似性判断のための例題ベース検索方法及び検索システムに関するものである。
【０００２】
【従来の技術】
新技術の開発は全く新たな思想に基づきもするが、今日に至っては同一または関連技術分野の技術を利用した改良技術から生み出される場合がより多く、その内容もより複雑多様化され、その価値も増大している。
従って、産業分野においては、既に開発・発表された技術同士の同一性及び/または類似性を判断すべき場合が頻繁になってくる。
【０００３】
例えば、企業や研究所などにて新技術の開発を図る場合または新技術の開発途中あるいは完成後に該技術と同一または類似な関連技術が存在するか否かを検索し、該技術が検索された関連技術に対して同一性及び類似性を有するか否かを判断する作業が行われている。
【０００４】
前記のように技術同士の同一性及び類似性を判断するために従来のキーワード(keyword)検索システムを利用する場合、使用者は例題技術(例えば、新技術)を具体的に把握し例題技術に関連する技術を検索してから例題技術と検索された関連技術との同一性及び/または類似性(差異点)などを直接判断しなければならない。
【０００５】
このように、従来のキーワード(keyword)検索システムを利用する場合、使用者が新たな知識を理解し且つ文書内容を確実に認知しなければならなく、例題技術と検索された関連技術との同一性及び/または類似性(差異点)などを判断するのに大変時間がかかり、また幾つかのキーワードにより検索が行われる為関連技術を見落とす可能性があり、検索の正確度が劣る問題があった。
【０００６】
こうして、前記のような従来のキーワード(keyword)検索システムの問題点を解決すべく例題ベース検索(example-based retrieval)に関連した技術が提案されてきた。
【０００７】
例えば、Verity社のSearch 97、Oracle社のIntermediaなどのような常用検索システム製作社にて検索システムの一部として提供するソフトウェアにかかる機能が一部具現されている。さらに、理論的にはジェラルド・サルトン(非特許文献１)やリカルドとベルチエ(非特許文献２)などの文献にも例題ベース検索のための基本的方法論が述べられている。
【０００８】
一般に例題ベース検索とは、情報検索システムにおいて特定文書を探し出すためにクエリー(query)として幾つかの核心キーワードを組み合せて用いる代わりに使用者が選択した例題文書(example)をそのままクエリーとして検索する方式のことをいう。即ち、文書からキーワードを抽出して単語ベクトルで表現するが、これを索引といい、かかる単語ベクトルがキーワードの組み合せと同様の役目を果たす。
【０００９】
しかし、前記常用検索システムや文献に提示された方法論においてはキーワードの取扱や文書の取扱を同一に看做し、索引過程において特定単語の出現当否だけを重視する為、単語の出現位置など文書の主題を示す重要情報が見落とされてしまう問題があった。
言い換えると、文書の特徴に対する処理を行わず文書における重要部分とそうでない部分の内容を区別しないので検索の正確率が低下する問題があった。
【００１０】
かかる諸問題は文書の構造的な特徴により文書が多くのフィールド(field)を含むことから惹起されるものと看做される。
かかる事項に鑑みて幾つかの常用システムにおいては、使用者が文書を幾つかのフィールドに区分するようにさせ、使用者が望むフィールド同士の単なる関連性(similarity)を利用し検索する方式を提供している。
しかし、かかる文書部分同士の比較による検索は文書全体の内容に対する精密な処理要求に符合しないとの問題がある。
【００１１】
【非特許文献１】
Gerard Salton. (1989). Automatic text processing : the transformation, analysis, and retrieval of information by computer. Addison-Weseley, Reading, Massachusetts.
【非特許文献２】
Ricardo Baeza-Yates & Berthier Riberio-Neto.(1999).Modern information retrieval. Addison-Weseley, Reading, Seoul
【００１２】
【発明が解決しようとする課題】
かかる従来技術の諸問題を解決すべく本発明者は研究を重ねその結果に基づき本発明を提案するまでに至ったもので、本発明は技術の同一性及び/または類似性をより迅速且つ正確に判断できるよう同一及び/または類似な関連技術をその類似度と共に表示する類似性判断のための例題ベース検索方法及び検索システムを提供することに目的がある。
【００１３】
【課題を解決するための手段】
以下、本発明について説明する。
本発明は、関連技術文書を入力する段階、文書の特定構造分析により前記関連技術文書を単語ベクトルで表現する段階、及び前記表現された単語ベクトルを貯蔵する段階を含む索引過程；、
例題文書を入力する段階、文書の特定構造分析により前記例題文書を単語ベクトルで表現する段階、及び前記索引過程において貯蔵された関連技術文書に対する単語ベクトルと例題文書に対する単語ベクトルとの類似度を求める段階を含む検索過程を含んで成る例題ベース検索方法に関するものである。
【００１４】
さらに、本発明の好ましき類似性判断のための例題ベース検索方法は例題ベース索引過程及び例題ベース検索過程を含み、
前記例題ベース索引過程は、関連技術文書を入力する段階；入力された関連技術文書において文書の構造的特性により段落を区分し、区分された段落別にキーワードを抽出する段階；前記各段落から抽出されたキーワードに対する各段落内での加重値を求め段落別にキーワード及びその加重値を単語ベクトルで表現する段階；前記単語ベクトルで表現されたキーワードとその加重値を貯蔵する段階を含み、並びに
前記例題ベース検索過程は、例題技術の記載された例題文書を入力する段階；入力された例題文書において文書の構造的特性により段落を区分し、区分された段落別にキーワードを抽出する段階；前記各段落から抽出されたキーワードに対する各段落内での加重値を求め段落別にキーワード及びその加重値を単語ベクトルで表現する段階；前記表現された例題文書に対する段落別単語ベクトルと前記索引過程において貯蔵された関連技術文書に対する段落別単語ベクトルを用いて例題文書と関連技術文書との対応段落同士の類似度を求め、その段落間類似度を用いて例題文書と関連技術文書との類似度を求める段階；及び前記求めた類似度の降冪順に関連技術文書を整列して使用者に提供する段階を含んで成る。
【００１５】
さらに、本発明は、関連技術文書を入力する関連技術入力部、文書の構造分析により前記関連技術入力部において入力された関連技術文書を単語ベクトルで表現する関連技術文書表現部、及び前記関連技術文書表現部において表現された単語ベクトルを貯蔵する関連技術文書貯蔵部を含む索引部；
例題技術の記載された例題文書を入力する例題文書入力部、文書の構造分析により例題文書入力部において入力された例題文書を単語ベクトルで表現する例題文書表現部、前記関連技術文書貯蔵部に貯蔵された関連技術文書に対する単語ベクトルと例題文書表現部で表現された例題文書に対する単語ベクトルを用いて例題文書に対する類似度を求める類似度演算部、及び類似度演算部から求めた類似度の降冪順に関連技術文書を整列して使用者に提供する表示部を含んで成る類似性判断のための例題ベース検索システムに関するものである。
【００１６】
さらに、本発明の好ましき類似性判断のための例題ベース検索システムは、例題ベース索引部及び例題ベース検索部を含み、
前記例題ベース索引部は、関連技術文書を入力する関連技術文書入力部；前記入力部で入力された関連技術文書において文書の構造的特性により段落を区分し、区分された段落別にキーワードを抽出する第１キーワード抽出部；前記第１キーワード抽出部において各段落から抽出されたキーワードに対する各段落内での加重値を求め段落別にキーワード及びその加重値を単語ベクトルで表現する第１単語ベクトル表現部；及び前記第１単語ベクトル表現部において単語ベクトルで表現されたキーワードとその加重値を貯蔵する単語ベクトル貯蔵部を含み、並びに
前記例題ベース検索部は、例題技術の記載された例題文書を入力する例題文書入力部；前記例題文書入力部で入力された例題文書において文書の構造的特性により段落を区分し、区分された段落別にキーワードを抽出する第２キーワード抽出部；前記第２キーワード抽出部において各段落から抽出されたキーワードに対する各段落内での加重値を求め段落別にキーワード及びその加重値を単語ベクトルで表現する第２単語ベクトル表現部；前記第２単語ベクトル表現部で表現された例題文書に対する段落別単語ベクトルと前記単語ベクトル貯蔵部に貯蔵された関連技術文書に対する段落別単語ベクトルを用いて例題文書と関連技術文書との対応段落同士の類似度を求め、該段落間類似度を用いて例題文書と関連技術文書との類似度を求める類似度演算部；及び類似度演算部において求めた類似度の降冪順に関連技術文書を整列して使用者に提供する表示部を含んで成る。
【００１７】
以下、本発明に対して詳しく説明する。
ここで使う「例題技術」とは類似技術が存在するか否かを判断しようとする技術のことを意味し、「関連技術」とは前記例題技術の他の全ての技術を意味するもので、関連技術には例題技術より先に公知されたものはいうまでもなくその後公知されたものも含まれる。
【００１８】
ここで使う「類似性判断」とは例題技術が関連技術と同一及び/または類似するか否かを判断することを意味する。
例えば、例題技術が特許に関わる発明である場合、前記「類似性判断」は該発明の完成時点及び/または出願時点等より先あるいは後に出願された特許文書または先あるいは後に頒布された刊行物などに記載された発明(考案、技術など)などと同一及び/または類似するか否かを判断することを意味し、同一または類似性(進歩性)を前提とする特許要件(新規性、進歩性、先願関係)判断、出願当否判断、特許侵害当否判断などに適用される。
【００１９】
ここで用いる用語「例題文書」は技術(発明、考案などを含む)などが記載された文書同士の同一性及び/または類似性を判断する際、他関連技術などと同一性及び/または類似性があるか否かを判断しようとする技術が記載された文書のことを意味し、「関連技術文書」とは同一性及び/または類似性があるか否かを判断しようとする技術の他の関連技術が記載された文書のことを意味する。
【００２０】
前記例題文書及び関連技術文書の代表例には、一般技術文献及び技術資料、各国特許庁で要求する記載要件に応じて発明などが記載された特許文書(特許明細書など)、並びに記載内容が前記記載要件を一部充たすか(発明申告書、提案書など)全く充たさない(発明申告書、提案書など)申請文書が挙げられる。
前記特許文書などには発明または考案が記載された、出願中の非公開明細書、特許または実用新案公開公報、特許または実用新案公告公報及び特許または実用新案登録公報などが挙げられる。
さらに、前記申請文書には研究課題を整理した文書、研究結果を整理した文書、完成した技術内容を整理した文書など(職務発明申告書、提案書など)が含まれる。
【００２１】
【発明の実施の形態】
以下、添付の図面に基づいて本発明による好ましき実施の形態を説明する。
本発明は既に構築されたデータベースの文書と例題文書との類似度合いを定量的に計算して使用者に提供することにより、例題文書と同一または類似な関連技術を短時間内に探し出すのに役立つ類似性判断のための例題ベース検索方法及び検索システムを提供するものである。
【００２２】
図１は本発明に符合する類似性判断のための例題ベース検索システムにおける全体構成図を示す。
図１によると、本発明に符合する例題ベース検索システム１００は一般の情報検索システムと同様に索引部１１０と検索部１２０とに大きく分かれる。
前記索引部１１０は関連技術文書が入力される関連技術文書入力部１１１、文書の構造分析により関連技術文書を表現する関連技術文書表現部１１２及び表現された文書を貯蔵する関連技術文書貯蔵部１１３を含み、また検索部１２０は例題文書が入力される例題文書入力部１２１、文書の特定構造分析により例題文書を表現する例題文書表現部１２２及び類似度演算部１２３を含む。
【００２３】
本発明において「索引」とは、本発明の例題ベースシステムにおいて関連技術文書を検索すべく該文書を予め検索し易い構造でシステムに記録する過程のことをいい、本発明において「検索」とは、関連技術文書に関わる類似性判断などのために使用者が提示した例題文書(例題技術)を分析し索引された関連技術文書から技術的類似性を求め検索する過程のことをいう。
【００２４】
一般に文書検索及び情報検索はベクトル空間モデル(vector space model)という理論に基づいている。本発明においても索引と検索をベクトル空間モデルに基づき構成する。
【００２５】
本発明を説明するために、先ずベクトル空間モデルに基づいた例題ベース検索システムについて図２を参照に説明する。
図２によると、一般の例題ベース検索システム２００においては、索引部２１０と検索部２２０の両方で所与された例題文書と関連文書を表現する共通過程の文書表現過程を介する。
【００２６】
ベクトル空間モデルに基づく例題ベース検索システムにおいては全ての文書を単語から成るベクトルで表現する。貯蔵する文書の集合に現れる単語の数をｎとすれば、文書Ｄ_ｉはｎ次元の単語ベクトル(Ｗ_ｉ、１、Ｗ_ｉ、２、.... 、Ｗ_ｉ、ｎ)で表現される。
【００２７】
この際、Ｗ_ｉ、ｊは文書Ｄ_ｉに対する単語Ｔ_ｊの加重値を意味する。一般の文書検索において文書Ｄ_ｉに対する単語Ｔ_ｊの加重値Ｗ_ｉ、ｊは単語頻度数(tf:term frequency)と文書逆頻度(idf:inverse document frequency)を利用して求める。
【００２８】
文書Ｄｉにおける単語Ｔｊの単語頻度数ｔｆ_ｉ、ｊは単語Ｔ_ｊが文書Ｄ_ｉに現れる出現回数であり、単語Ｔ_ｊが文書の内容をどれほど代表するのかに関する尺度である。
【００２９】
一方、単語Ｔ_ｊの文書逆頻度は文書集合において単語Ｔ_ｊが出現する文書数の比率である文書頻度(document frequency)の逆(reverse)を意味する。単語Ｔ_ｊが現れる文書の数が少ないほど単語Ｔ_ｊは単語Ｔ_ｊが現れる文書を他の文書と区別させ得る能力が高い。単語Ｔ_ｊの文書逆頻度は文書の差別性を表わす尺度として働く。
【００３０】
単語頻度数と文書逆頻度を使った様々な単語加重値計算法が研究されてきた。本発明においては広く知れ渡ったINQUERYシステムの単語加重値計算法を用いる。文書Ｄ_ｉに対する単語Ｔ_ｊの加重値Ｗ_ｉ、ｊは下記式（１）のように求める。
【数１】

(ここで、tｆ_ｉ、ｊ：文書Ｄ_ｉに対する単語Ｔ_ｊの頻度数、ｍａｘ_ｔｆ：文書Ｄ_ｉにおいて最も頻繁に現れる単語の頻度数、Ｎ：全体の文書の数、ｎ：単語Ｔ_ｊが現れる文書の数)
【００３１】
前記式（１）により文書に現れる各単語の加重値を求めれば文書を単語と単語加重値で表現することができる。
【００３２】
図２によると、索引部２１０を成す関連技術文書入力部２１１に入力された関連技術文書を第１文書表現部２１２において単語と単語加重値で表現する段階を経た後、該文書表現をシステムに迅速且つ容易な検索に適すよう記録すべく、文書貯蔵部２１３において逆索引ファイル(inverted indexing file)貯蔵構造で貯蔵する逆索引ファイル貯蔵段階を経ることになる。前記逆索引ファイル貯蔵段階は情報検索において伝統的に用いられてきた。
【００３３】
一方、例題ベース検索システムの検索部２２０においては、図２によると、前記式（１）により例題文書入力部２２１に入力された例題文書を第２文書表現部２２２において単語とその加重値から成るベクトルで表現した後、文書−文書類似度演算部２２３において前記文書貯蔵部２１３に既に貯蔵された関連文書のベクトル表現と比較して類似度を求める文書−文書類似度の計算過程を経てから、表示部において類似度が０より大きい関連文書を類似度順に整列して使用者に提供することになる。
【００３４】
索引過程において与えられた例題文書Ｄ_ｉと貯蔵された各関連文書Ｄ_ｘとの類似度[ｓｉｍ(Ｄ_ｘ、Ｄ_ｉ)]は伝統的に下記式（２）のコサイン類似度(cosine similarity)式及び下記式（３）の内的類似度(inner product similarity)式を用いて求める。
【００３５】
【数２】

(ここで、Ｗ_ｘ、ｊ：文書Ｄ_ｘに対する単語Ｔ_ｊの加重値、Ｗ_ｉ、ｊ：文書Ｄ_ｉに対する単語Ｔ_ｊの加重値)
【００３６】
【数３】

(ここで、Ｗ_ｘ、ｊ：文書Ｄ_ｘに対する単語Ｔ_ｊの加重値、Ｗ_ｉ、ｊ：文書Ｄ_ｉに対する単語Ｔ_ｊの加重値)
【００３７】
本発明は、図１及び図２から判るように例題ベース検索方法において索引過程と検索過程における文書表現段階と検索過程における類似度を求める段階を改善したものである。
即ち、本発明の改善ポイントは、図１に示すように例題ベース索引過程と例題ベース検索過程において文書表現を例題文書の特徴的な構造把握に基づいて行い、さらに例題ベース検索過程において類似度を例題文書の特徴的な構造把握に基づく文書表現を用いて求めることである。
【００３８】
本発明による例題ベース検索のための検索システムの一例を図３に示す。
図３によると、本発明の検索システム３００は例題ベース索引部３１０及び例題ベース検索部３２０を含み、前記例題ベース索引部３１０は関連技術文書を入力する関連技術文書入力部３１１、第１キーワード抽出部３１２、第１単語ベクトル表現部３１３及び単語ベクトル貯蔵部３１４を含む。
【００３９】
前記第１キーワード抽出部３１２は、前記入力部で入力された関連技術文書において文書の構造的特性により段落を区分し、区分された段落別にキーワードを抽出するよう構成され、前記第１単語ベクトル表現部３１３は、前記第１キーワード抽出部３１２において各段落から抽出されたキーワードに対する各段落内での加重値を求めて段落別にキーワード及びその加重値を単語ベクトルで表現するよう構成される。
【００４０】
さらに、前記単語ベクトル貯蔵部３１４は前記第１単語ベクトル表現部３１３において単語ベクトルで表現されたキーワードとその加重値を貯蔵するよう構成される。
【００４１】
一方、前記例題ベース検索部３２０は例題技術の記載された例題文書を入力する例題文書入力部３２１、第２キーワード抽出部３２２、第２単語ベクトル表現部３２３、類似度演算部３２４、及び表示部３２５を含む。
【００４２】
前記第２キーワード抽出部３２２は、前記例題文書入力部３２１で入力された例題文書(例えば、新技術など)において文書の構造的特性により段落を区分し、区分された段落別にキーワードを抽出するように構成され、前記第２単語ベクトル表現部３２３は、前記第２キーワード抽出部３２２において各段落から抽出されたキーワードに対する各段落内での加重値を求め段落別にキーワード及びその加重値を単語ベクトルで表現するよう構成される。
【００４３】
さらに、前記類似度演算部３２４は、前記第２単語ベクトル表現部３２３で表現された例題文書に対する段落別単語ベクトルと前記単語ベクトル貯蔵部３１４に貯蔵された関連技術文書に対する段落別単位ベクトルを用いて例題文書と関連技術文書との対応段落間の類似度を求め、該段落間類似度を用いて例題文書と関連技術文書との類似度を求めるよう構成され、さらに前記表示部３２５は類似度演算部３２４で求めた類似度の降冪順に関連技術文書を整列して使用者に提供するよう構成される。
【００４４】
以下、図３の検索システムに基づき本発明により検索する方法について説明する。
【００４５】
本発明により例題ベース検索を行うためには、先ず索引部３１０の関連技術文書入力部３１１に関連技術文書を入力する。
次いで、入力された関連技術文書において文書の構造的特性により段落を区分し、区分された段落別にキーワードを第１キーワード抽出部３１２で抽出する。
次いで、前記のように各段落から抽出されたキーワードに対する各段落内での加重値を求め、段落別にキーワード及びその加重値を第１単語ベクトル表現部３１３において単語ベクトルで表現する。
次いで、前記単語ベクトルで表現されたキーワードとその加重値を単語ベクトル貯蔵部３１４に貯蔵する。
【００４６】
次いで、例題技術の記載された例題文書を例題文書入力部３２１に入力する。
次いで、入力された例題文書において文書の構造的特性により段落を区分し、区分された段落別にキーワードを第２キーワード抽出部３２２で抽出する。
次いで、前記各段落から抽出されたキーワードに対する各段落内での加重値を求め、段落別にキーワード及びその加重値を第２単語ベクトル表現部３２３において単語ベクトルで表現する。
次いで、類似度演算部３２４において前記のように表現された例題文書に対する段落別単語ベクトルと前記索引過程において貯蔵された関連技術文書に対する段落別単位ベクトルを用いて例題文書と関連技術文書との対応段落間の類似度を求め、該段落間類似度を用いて例題文書と関連技術文書間の類似度を求める。
次いで、表示部３２５において前記求めた類似度の降冪順に関連技術文書を整列して使用者に提供するのである。
【００４７】
図４には、例題文書入力部１２１に入力された例題文書に対して文書の構造分析により段落を区分する段落区分部１２２１及び区分された段落別に文書を表現(単語加重値を設定)する段落別文書表現部１２２２を含んで成る本発明の例題文書表現部１２２の一例を示してある。
【００４８】
図４によると、本発明の類似性判断のための例題ベース検索方法において、索引過程と検索過程に共通に含まれる、文書の特徴的な構造把握による文書表現方法は大きく分けると２段階の過程から成る。
即ち、図４によると、本発明に符合する特許構造分析による文書表現方法は、例題文書入力部１２１に入力された例題文書に対して例題文書表現部１２２の段落区分部１２２１で文書の特徴的な構造分析により段落を区分する段階及び段落別文書表現部１２２２で段落別に文書を表現(単語加重値を設定)する段階から成る。
【００４９】
例えば、前記例題技術が特許関連発明(以下、「例題発明」ともいう)の場合には次のように行うことができる。
即ち、前記例題発明の記載された例題文書を本発明により表現するためには先ず、入力された各例題文書を特許構造把握により段落に区分するのであるが、その例として次のような題目により段落を区分(段落化)することが挙げられる。
１．発明の名称
２．要約書
３．索引語：発明の名称の他の重要なキーワードを文書作成者が書き込む場合
４．図面の詳細な説明
５．本発明の詳細な説明：下記のように「関連技術、発明の目的、構成、作用、効果、利用分野」の区分が具体的に記述されない形で記述された場合に適用
６．関連技術及び発明の技術分野
７．本発明が果たそうとする技術的課題(または発明の目的)：一部特許文書において「発明目的及び構成」または「発明の目的、作用及び効果」などの形態で下記構造のように現れる場合があるが、かかる場合には最も先の記述である「発明の目的」に区分する。
８．発明の構成：「発明の目的」に係り説明したように、「発明の構成及び作用」などの形態で作成された場合には「発明の構成」に区分する。
９．発明の作用：同じく「発明の作用及び効果」などの形態である場合、「発明の作用」に区分する。
１０．発明の効果：同じく「発明の効果及び利用分野」などの場合には、「発明の効果」に区分する。
１１．発明の利用分野
１２．構造把握ができない内容：具体的に如何なる特許構造に所属するかが明確に把握されない全ての内容をこの構造に分類する。非構造的な特許文書の場合には全内容がこの構造に区分される。
１３．特許請求範囲の各請求項
入力された例題文書において、このような段落は特許庁が要求する記載要件を充たす出願形式に応じた特許文書(特許明細書など)の場合、各段落の題目により容易に区分可能である。
【００５０】
とりわけ、特許庁が要求するＳＧＭＬ(Standard Generalized Markup Language)から成る特許文書やＸＭＬ(Extensible Markup Language)などにより作成された特許文書においては段落題目及び段落を区別し易いので、前記段落を容易に区別することができる。
【００５１】
このように段落を容易に区別できるマークアップ言語（Markup Language）で作成された特許文書の場合には、本発明において段落区分部１２２１を行うことなく直接段落文書表現部１２２２において段落別に単語ベクトルで表現して全体文書を表現する。
【００５２】
前記のように段落を容易に区分できない場合には、文書において特定段落を探し出すために各段落の題目を探す方法が必要となる。
例えば、例題発明の場合には特許庁が要求する記載要件を充たす文書及び、とりわけ記載要件を一部充たした、または全く充たさない文書において特定段落を探すために各段落の題目を探す方法が必要である。
【００５３】
本発明により技術文書の段落題目を探す好ましきシステム及び方法の一例を図５及び図６に夫々示す。
【００５４】
図５には本発明に符合する好ましき段落題目抽出システムの一例を示す。
図５によると、本発明に符合する好ましき段落題目抽出システム４００は、文章抽出部４１０、語節抽出部４２０、段落題目表示部４３０、選択部４４０、段落題目当否判断部４５０、及び段落題目抽出部４６０を含む。
【００５５】
前記文章抽出部４１０は、夫々入力された関連技術文書または例題文書から文章を抽出するよう構成され、前記語節抽出部４２０は前記文章抽出部４１０から抽出された文章から語節を抽出するよう構成され、そして段落題目表示部４３０は前記語節抽出部４２０において抽出された語節が構造判断規則に該当する段落題目を表示するよう構成される。
【００５６】
前記選択部４４０は、前記段落題目表示部において段落題目表示過程が完了した文章中最も多い語節と一致する段落題目を選択するよう構成され、前記段落題目当否判断部４５０は前記選択部４４０で選択された語節に対して一致する語節数/全体語節数の比が一定値以上、好ましくは０.８以上か判断して一定値(０.８)以上であれば新たな段落題目として判断し、その比が一定値(０.８)未満であれば関連段落に含ませるよう構成し、前記段落題目抽出部４６０は段落題目当否判断部４５０において段落題目として判断されたものを段落題目に抽出するよう構成される。
【００５７】
前記段落題目抽出システムは前記第１キーワード抽出部３１２及び第２キーワード抽出部３２２に夫々具備することが好ましい。
【００５８】
図５に示す段落題目抽出システムを用いて例題文書及び関連技術文書の段落題目を抽出する過程を図６に基づき説明する。
【００５９】
図６によると、本発明により例題文書または関連技術文書の段落題目を探すためには先ず、文章抽出部４１０において入力例題文書または関連技術文書から文章を抽出した後(段階５１０)、語節抽出部４２０において抽出された文章から語節を抽出する(段階５２０)。本発明においては抽出される文章の単位にはリターン(return)文字で区分される単位を用いることが好ましい。
次いで、段落題目表示部４３０において前記のように抽出された語節が段落判断規則に該当する段落題目を表示して蓄積する(段階５３０)。
前記語節抽出及び段落題目表示過程を抽出された文章が終わるまで繰り返し行う(段階５４０)。
【００６０】
次いで、抽出された文章に対して段落題目表示過程が完了すると、選択部４４０において文章中最も多い語節に一致する段落題目を選択する(段階５５０)。
次いで、段落題目当否判断部４５０において前記のように選択された語節に対して一致した語節数/全体語節数の比が一定値以上(図６には０.８以上としている)であるかを判断して、０.８以上であれば新たな段落題目として判断し、その比が０.８未満であれば関連段落に含ませる(段階５６０)。
次いで、段落題目当否判断部４５０において段落題目として判断されたものは段落題目抽出部４６０において段落題目に抽出(生成)する(段階５７０)。
前記過程を文書の最終文章まで繰り返し行うことにより例題文書に対する段落題目を検査することができる(段階５８０)。
【００６１】
以下、本発明により抽出された文章が新たな段落の始まりを知らせる段落題目であるか検査する過程、即ち抽出された文章から段落題目を抽出する過程の一例を説明する。
【００６２】
前記段落題目であるか検査するための段落判断規則の好ましき例として次のような構成を挙げられる。
[段落名][手掛り単語集合(相互間ＯＲ関係)][一致度合い][必要度合い]＄
・[段落名]：次の規則が一致する場合の特定段落を指す
・[手掛り単語集合]：端緒となる単語の羅列で、共に羅列される場合はそれらの中のいずれかが一致すればよいという意味である。即ち、ＯＲの関係である。
・[一致度合い]：３種の一致度合いがある。「＋」表示は手掛り単語集合の単語と正確に入力語節が完全一致しなければならず、「−」表示は手掛り単語と部分一致しなければならず、「＝」表示は手掛り単語が現れさえすれば該段落が確実に一致することを意味する。即ち、他規則を適用する必要無くその構造の初文章であることが明確に分かることを意味する。
・[必要度合い]：２つのタイプがある。「ｙ」タイプはその構造として認識されるために必ず現在の規則が充たされるべきであることを意味し、「ｎ」タイプは現在の構造として認識されるために必ず必要なものではなく、有り得ることを意味する。
・＄：一規則の終を区分する認識子である。
【００６３】
抽出された文章が段落題目であるかを検査するためには先ず、抽出された文章から語節を抽出し、抽出された各語節が前記各規則と比較して一致するかを把握する。
例えば、「発明の詳細な説明」の構造を把握するための規則は次のとおりである。
６ { 図面図案図名面の図面の簡単な図 } − ｙ＄
６ { 添付内容説明名称氏名簡単化説明図書名構成 } − ｙ＄
６ { 簡単な詳細な } ＋ｎ＄
６ { 考案発明 } ＋ｎ＄
６ { 各本 } − ｎ＄
６ { 主要 } − ｎ＄
６ { 対する } ＋ｎ＄
６ { 符合 } − ｎ＄
６ { 部分 } − ｎ＄
【００６４】
前記例において「６」は「図面の詳細な説明」を示す「段落名」フィールド(field)である。そして、最初の規則は「図面、図案、図名、面の、図面の簡単な、図」のように６つの手掛り単語に言及しながら、これらが該入力語節と「部分一致」してもよいことを意味する。ここで「部分一致」とは、所与された文章が「図面の詳細な説明」である場合、「図面」という手掛り単語が「図面の」という語節と一部一致する場合を意味する。
【００６５】
第三の規則は「＋」の完全一致とされ、先の入力文章の「詳細な」という語節に適用される。もしこの場合、所与された文章が「図面が詳細であれば説明がより…」であったとすると、第一の規則が「図面が」で一致する。しかし、第三の規則がたとえ「詳細であれば」で部分一致しても、如何なる単語とも完全一致にならないので適用されない。
【００６６】
先の「図面の詳細な説明」に対する規則中必ず適用されべき規則は「ｙ」で表示された第一と第二の規則である。即ち、入力文章が「図面の詳細な説明」に対する段落の始まり、即ち段落題目であることを示すためには、入力文章中この二つの規則を充たす語節が必ず存在しなければならない。
【００６７】
文書の特徴的構造分析過程において最も重要な規則は、入力文章の全体語節中８０％以上の語節が一つの段落を示す規則により正しく検査されてこそ新たな段落題目とすることである。例えば、「図面の説明で述べたように、図面１は…」のような文章が入力文章である場合、「図面」と「説明」が先の第一と第二の規則に適用され「発明の詳細な説明」に該当する段落題目となる可能性が高いが、全体文章において残りの単語がその他の規則により適用されない為その構造、即ち段落題目に分析されないのである。
【００６８】
次いで、前記のように文書の特徴的構造把握により区分された段落別に単語を抽出してその加重値を求め、単語及び加重値を単語ベクトルで表現する。
【００６９】
本発明においては関連例題ベース検索において文書を一つのベクトルで表示するのと違って、文書を諸段落のベクトルで表現する。
例えば、例題技術が特許関連発明の場合には前述のように例題文書(特許文書)を１３個の段落で定義することができ、その中１３段落である特許請求範囲の各請求項は特許文書により異なる。したがって、本発明においては各特許文書当り少なくとも１３個以上のベクトルが存在することになり、文書を１３個以上のベクトルで表現することができる。
【００７０】
したがって、特許文書Ｄ_ｉは段落集合の(Ｆ_i1、Ｆ_i2、…、Ｆ_im)で表記するとｍは１３以上の値となる。
【００７１】
さらに、各段落Ｆ_ｉｊはｎ次元の単語ベクトル(Ｗ_ｉｊ、１、Ｗ_ｉｊ、２、…、Ｗ_ｉｊ、ｎ)で表現される。この際、Ｗ_ｉｊ、ｑは文書Ｄ_ｉの段落Ｆ_ｉｊにおける単語Ｔ_ｑの加重値を示す。したがって、関連加重値計算法の前記式（１）を下記式（４）のように変更しなければならない。
【００７２】
【数４】

(ここで、ｔｆ_ｉｊ、ｑ：文書Ｄ_ｉの段落Ｆ_ｉｊにおける単語Ｔ_ｑの頻度数、ｍａｘ_ｔｆ：文書Ｄ_ｉの段落Ｆ_ｉｊにおいて最も多く現れる単語の頻度数、Ｎ：全体の文書の数、ｎ：単語Ｔ_ｑが現れる文書の数)
【００７３】
前記文書の特徴的な構造分析(把握)による文書表現方法は、本発明の例題ベース索引部及び検索部に共通に用いられる。かかる表現方法を例題ベース索引においては、前記索引部の関連技術文書貯蔵部に従来の方法の如く逆索引ファイル貯蔵構造として貯蔵して、検索の際迅速に検索可能にさせることが好ましい。
【００７４】
本発明に符合する例題ベース検索過程は、図１のように検索部の類似度演算部において後述の如く技術的類似度を判断する段階を含む。例えば、新たな発明の特許性を判断する場合、技術的類似度、即ち特許的類似度判断過程は次のとおりである。
【００７５】
本発明の例題ベース検索過程においては、特許性判断に役立つ特許的類似度計算を可能にすべく、特許専担者が特許性判断を下す論理的行為に倣う。
【００７６】
通常、特許専担者は新たな発明の特許性を判断するために、各請求項が関連特許において同じ形態で現れる場合に最も先に両特許間の特許性が一致するものと判断する。そして、両特許の目的及び効果と題目が類似する場合、その特許性が類似すると看做し、次いで各請求項、発明の構成と作用が類似するかを検査する。残りの内容はその後調べる。
【００７７】
したがって、本発明においても両特許文書の特許的類似性判断は、最も先に両特許の請求項中一つでも１００％一致すれば両特許の特許的類似性を手放しで１００％とし、そうでなければ重要段落が類似するほど両特許間には高い特許的類似性があると看做す仕方で行われることが好ましい。
【００７８】
例えば、例題文書と関連技術文書が特許文書(特許明細書)である場合、例題文書と関連技術文書との類似度判断は次のように行うことが好ましい。
【００７９】
前記両文書の特許請求範囲段落中同一請求項が一つでも存在すればその両特許は同一なものと判断し、前記両文書の特許請求範囲段落中同一請求項が一項も無い場合には類似度判断を次のように行う。
【００８０】
即ち、両文書の「発明の名称、発明の目的及び発明の効果」段落同士の類似度を求め、こうして求めた類似度中最も高いものをこれら段落の代表類似度値に選定した後最も高い加重値を与え、「要約書、発明の構成、発明の作用、請求範囲」段落同士の類似度を求め、こうして求めた類似度中最も高いものをこれら段落の代表類似度値として選定した後加重値を与え、また残りの段落同士の類似度を求めてこれらの平均値を代表類似度値として選定した後最も低い加重値を与える。前記各代表類似度値に夫々加重値を乗じた値を合わせた値を比較して類似度を判断する。
【００８１】
一方、本発明による各段落間類似性判断は、前記式（２）と前記式（３）において文書ベクトルを段落ベクトルに変更した類似度式を用いて行うことができる。
本発明においては前記式（２）のコサイン類似度式を用いて段落間類似度を求めることが好ましい。
【００８２】
例題文書Ｄ_ｉのｊ番目の段落Ｆ_ｉｊと関連技術文書Ｄ_ｐのｑ番目の段落Ｆ_ｐｑ間の類似度ｓｉｍ_Ｆ(Ｆ_ｉｊ、Ｆ_ｐｑ)は下記式（５）のように定義することができる。
【数５】

(ここで、Ｗ_ｉｊ、ｌ：単語Ｔ_ｌが文書Ｄ_ｉのｊ番目の段落Ｆ_ｉｊにおける加重値、Ｗ_ｐｑ、ｌ：単語Ｔ_ｌが文書Ｄ_ｐのｊ番目の段落Ｆ_ｐｑにおける加重値)
【００８３】
前記式（５）はコサイン類似度式を使うので、段落間類似度ｓｉｍ_Ｆ(Ｆ_ｉｊ、Ｆ_ｐｑ)は常に０と１の間の値となる。両段落間の類似度ｓｉｍ_Ｆ(Ｆ_ｉｊ、Ｆ_ｐｑ)が１の場合は１００％相互一致するベクトルであることを意味する。
【００８４】
段落表記法Ｆ_ｉｊにおいてｊは先に説明した段落把握から得られる段落順序と一致する。したがって、例えば、Ｆ_ｉ１は特許文書Ｄ_ｉの「発明の名称」段落を意味し、Ｆ_ｉ２は特許文書Ｄ_ｉの「要約書」段落を意味する。
【００８５】
次いで、前記のように段落間類似度を求めてから、該段落間類似度を用いて下記式（６）により所与された例題文書(例題技術)Ｄ_ｉと関連技術文書(関連技術)Ｄ_ｐ間の技術的類似度ｓｉｍ_Ｐ(Ｄ_ｉ、Ｄ_ｐ)を求めることが好ましい。
【数６】

【００８６】
例えば、前記例題文書と関連技術文書が特許文書である場合、前記式（６）の最初の項は、両特許の請求項中いずれかが一致すれば両特許間の特許的類似度ｓｉｍ_Ｐ(Ｄ_ｉ、Ｄ_ｐ)が１となり完全に特許性が一致すると看做すことを数式で表現したものである。そして、第二の項はそうでない場合、前述した段落重要度により求めることを意味する。この際、αとβ、μは各段落グループの重要度を示す。従って、αとβ、μの和は常に１にならなければならない。本発明においては実験によりα値を０.５、β値を０.３、μ値を０.２と定める。
【００８７】
したがって、第二の項は、例えば「発明の目的」と「発明の効果」と「発明の題目」の類似度中最も高い値に加重値０.５を乗じた値と、「要約書」と「発明の構成」と「発明の目的」と「請求項」の和から最も高い値に加重値０.３を乗じた値、そして最後に残りの段落の類似度平均に０.２を乗じた値を全て合わせた値により両特許間特許的類似度を求める数式を意味するのである。
【００８８】
前記数式（６）は一例に過ぎず、例えば各段落グループの重要度を３つでなく２つまたは４つ以上に設定でき、その重要度の値も変化させ得ることは言うまでもない。
【００８９】
前記式（６）により例題文書Ｄ_ｉに対する全ての関連技術文書の技術的類似度を求めると、これを降冪順に整列して使用者に提供する。そうすると、使用者は例題技術と技術的に類似する順に関連技術を検索できるようになる。
【００９０】
なお、本発明の好ましき実施例は例示を目的として開示されたものであり、当業者ならば本発明の思想と範囲内において多様な修正、変更、付加などが可能で、かかる修正・変更などは本発明の技術的範囲に属するものと看做されるべきである。
【００９１】
【発明の効果】
上述したように、本発明は技術的に類似する関連文書をその類似度合いと共に表示することにより類似性を容易且つ迅速に判断させ得る効果を奏する。
さらに、本発明を新たな発明の申告または出願時に用いる場合、特許性判断専担者や発明者が類似する関連文書をその類似度合いと共に見比べることができるので、発明の特許性などを容易且つ迅速に判断させ得る効果を奏する。
さらに、本発明は技術が記載された文書を直接本発明システムに提供することができるので、使用者が技術に対する知識を習得及び理解する必要が無く検索時間を大幅に短縮させ得る効果を奏する。
【図面の簡単な説明】
【図１】本発明に符合する類似性判断のための例題ベース検索システムにおける全体構成図である。
【図２】通常の例題ベース検索システムにおける全体構成図である。
【図３】本発明における好ましき例題ベース検索システムの一例を示す構成図である。
【図４】本発明による文書の特定構造把握により文書を表現する方法の一例を示すフロー図である。
【図５】本発明による文書の特定構造把握により段落題目を抽出する段落題目抽出システムの一例を示す構成図である。
【図６】本発明による文書の特定構造把握により段落題目を抽出する方法の一例を示すフロー図である。
【符号の説明】
１００、３００…検索システム、
１１０、３１０…索引部、
１１１、３１１…関連技術文書入力部、
１１２…関連技術文書表現部、
１１３…関連技術文書貯蔵部、
１２０、３２０…検索部、
１２１、３２１…例題文書入力部、
１２２…例題文書表現部、
１２３、３２４…類似度演算部、
３１２…第１キーワード抽出部、
３１３…第１単語ベクトル表現部、
３１４…単語ベクトル貯蔵部、
３２２…第２キーワード抽出部、
３２３…第２単語ベクトル表現部、
３２５…表示部、
４００…段落題目抽出システム、
４１０…文章抽出部、
４２０…語節抽出部、
４３０…段落題目表示部、
４４０…選択部、
４５０…段落題目当否判断部、
４６０…段落題目抽出部。

Claims

例題ベース索引部及び例題ベース検索部を含む例題ベース検索システムを用いる例題ベース検索方法であって、
関連技術文書入力部、第１キーワード抽出部、第１単語ベクトル表現部及び単語ベクトル貯蔵部を含む例題ベース索引部で行われる例題ベース索引過程及び例題文書入力部、第２キーワード抽出部、第２単語ベクトル表現部、類似度演算部、及び表示部を含む例題ベース検索部で行われる例題ベース検索過程を含み、
前記例題ベース索引過程は関連技術文書を関連技術文書入力部に入力する段階；
第１キーワード抽出部で、入力された関連技術文書において文書の段落題目に基づいて段落を区分し、区分された段落別にキーワードを抽出する段階；
第１単語ベクトル表現部で、前記のように各段落から抽出されたキーワードに対する各段落内での加重値を求め段落別にキーワード及びその加重値を単語ベクトルで表現する段階；及び
単語ベクトル貯蔵部で、前記のように単語ベクトルで表現されたキーワードとその加重値を貯蔵する段階を含み、並びに
前記例題ベース検索過程は例題技術が記載された例題文書を例題文書入力部に入力する段階；
第２キーワード抽出部で、入力された例題文書において文書の段落題目に基づいて段落を区分し、区分された段落別にキーワードを抽出する段階；
第２単語ベクトル表現部で、前記のように各段落から抽出されたキーワードに対する各段落内での加重値を求め段落別にキーワード及びその加重値を単語ベクトルで表現する段階；及び
類似度演算部で、前記のように表現された例題文書に対する段落別単語ベクトルと前記索引過程において貯蔵された関連技術文書に対する段落別単語ベクトルを用いて例題文書と関連技術文書との対応段落間の類似度を求め、該段落間類似度を用いて例題文書と関連技術文書間の類似度を求める段階；及び
表示部で、前記のように求めた類似度の降冪順に関連技術文書を整列して使用者に提供する段階を含んで成り、
前記段落題目に基づいて段落を区分し、段落別にキーワードを抽出する段階は、
文章抽出部、語節抽出部、段落題目表示部、選択部、段落題目当否判断部、及び段落題目抽出部を含む段落題目抽出システムを用いて、
文章抽出部で、夫々入力された関連技術文書または例題文書から文章を抽出した後、語節抽出部で、抽出された文章から語節を抽出する段階；
段落題目表示部で、前記のように抽出された語節が構造判断規則に該当する段落題目を表示する段階；
前記語節抽出及び段落題目表示過程を抽出された文章が終わるまで繰り返し行う段階；
抽出された文章に対して段落題目表示過程が完了すると、選択部で、文章中最も多い語節と一致する段落題目を選択する段階；
段落題目当否判断部で、前記のように選択された語節に対して一致する語節数 / 全体語節数の比が０ . ８以上であるかを判断し、０ . ８以上であれば新たな段落題目として判断し、その比が０ . ８未満であれば関連段落に含ませる段階；及び
段落題目抽出部で、前記過程を文書の最終文章まで繰り返し行い例題文書に対する段落題目を抽出する段階を含む
ことを特徴とする類似性判断のための例題ベース検索方法。
前記索引過程及び検索過程において、関連技術文書と例題文書の段落区分が各国特許庁が要求する記載要件を充たした特許文書に記載される段落題目に基づいて行われることを特徴とする請求項１に記載の類似性判断のための例題ベース検索方法。
前記構造判断規則が下記のように構成されることを特徴とする請求項１又は請求項２に記載の類似性判断のための例題ベース検索方法。
[段落名][手掛り単語集合(相互間ＯＲ関係)][一致度合い][必要度合い] ＄
{ここで、[段落名]：次の規則が一致する場合の特定段落を示す、[手掛り単語集合]：端緒になる単語の羅列で、共に羅列された場合はそれらの中からいずれかが一致するだけでもよいという意味、即ちＯＲの関係である、[一致度合い]：３種の一致度合いがあるが、「＋」表示は手掛り単語集合の単語と正確に入力語節が完全一致しなければならず、「−」表示は手掛り単語と部分一致しなければならず、「＝」の場合は手掛り単語が現れさえすれば該段落が確実に一致するという意味で、即ち他規則を適用する必要無くその構造の初文章であることを明確に判断可能なことを意味する、[必要度合い]：２タイプがあるが、「ｙ」タイプはその構造として認識されるために必ず現在の規則が満足されるべきという意味で、「ｎ」タイプは現在の構造として認識されるために必ず必要なものではなく、有り得ることを意味する、＄：一規則の終を区分する認識子。}
例題文書と関連技術文書は特許明細書から成り、例題文書と関連技術文書間の類似度は、
前記両文書の特許請求範囲段落中同一請求項が一つでも存在すればその両特許は同一なものと判断する段階；及び
両文書の特許請求範囲段落中同一請求項が一項も無い場合、両文書の「発明の名称、発明の目的及び発明の効果」段落間の類似度を求め、こうして求めた類似度中最も高いものをこれらの段落の代表類似度値に選定した後最も高い加重値を与え、「要約書、発明の構成、発明の作用、請求範囲」段落間の類似度を求め、こうして求めた類似度中最も高いものをこれら段落の代表類似度値に選定した後加重値を与え、そして残りの段落間の類似度を求め、これらの平均値を代表類似度値に選定した後最も低い加重値を与え、前記代表類似度値に各加重値を乗じた値を合わせた値を比較して類似度を判断する段階により判断されることを特徴とする請求項１から請求項３のいずれか１項に記載の類似性判断のための例題ベース検索方法。
例題ベース索引部及び例題ベース検索部を含み、
前記例題ベース索引部は関連技術文書を入力する関連技術文書入力部；
前記入力部において入力された関連技術文書において文書の段落題目に基づき段落を区分し、区分された段落別にキーワードを抽出する第１キーワード抽出部；
前記第１キーワード抽出部において各段落から抽出されたキーワードに対する各段落内での加重値を求め段落別にキーワード及びその加重値を単語ベクトルで表現する第１単語ベクトル表現部；及び
前記第１単語ベクトル表現部において単語ベクトルで表現されたキーワードとその加重値を貯蔵する単語ベクトル貯蔵部を含み、並びに
前記例題ベース検索部は例題技術が記載された例題文書を入力する例題文書入力部；
前記例題文書入力部で入力された例題文書において文書の段落題目に基づき段落を区分し、区分された段落別にキーワードを抽出する第２キーワード抽出部；
前記第２キーワード抽出部において各段落から抽出されたキーワードに対する各段落内での加重値を求め段落別にキーワード及びその加重値を単語ベクトルで表現する第２単語ベクトル表現部；
前記第２単語ベクトル表現部において表現された例題文書に対する段落別単語ベクトルと前記単語ベクトル貯蔵部に貯蔵された関連技術文書に対する段落別単語ベクトルを用いて例題文書と関連技術文書との対応段落間の類似度を求め、該段落間類似度を用いて例題文書と関連技術文書との類似度を求める類似度演算部；及び類似度演算部により求めた類似度の降冪順に関連技術文書を整列して使用者に提供する表示部を含んで成り、
前記第１キーワード抽出部及び第２キーワード抽出部は、
夫々入力された関連技術文書または例題文書から文章を抽出する文章抽出部；
前記文章抽出部から抽出された文章から語節を抽出する語節抽出部；
前記語節抽出部から抽出された語節が構造判断規則に該当する段落題目を表示する段落題目表示部；
前記段落題目表示部において段落題目表示過程が完了された文章中最も多くの語節と一致した段落題目を選択する選択部；
前記選択部において選択された語節に対して一致する語節数 / 全体語節数の比が０ . ８以上であるかを判断し、０ . ８以上であれば新たな段落題目として判断し、その比が０ . ８未満であれば関連段落に含ませる段落題目当否判断部；及び
段落題目当否判断部において段落題目として判断されたものを段落題目に抽出する段落題目抽出部を含んで成る段落題目抽出システムを含む
ことを特徴とする類似性判断のための例題ベース検索システム。
前記第１キーワード抽出部及び第２キーワード抽出部は、夫々関連技術文書と例題文書の段落区分を各国特許庁が要求する記載要件を満足する特許文書に記載される段落題目に基づき行うよう構成されることを特徴とする請求項５に記載の類似性判断のための例題ベース検索システム。