JP4357820B2 - Concept search system and computer program - Google Patents
Concept search system and computer program Download PDFInfo
- Publication number
- JP4357820B2 JP4357820B2 JP2002273900A JP2002273900A JP4357820B2 JP 4357820 B2 JP4357820 B2 JP 4357820B2 JP 2002273900 A JP2002273900 A JP 2002273900A JP 2002273900 A JP2002273900 A JP 2002273900A JP 4357820 B2 JP4357820 B2 JP 4357820B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- vector
- target document
- group
- search target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【発明が属する技術分野】
本発明は、あるデータベースに蓄積された検索対象文書群に対して、ベクトル演算を用いた概念検索を応用した検索システムであり、一般的な概念検索の欠点を補うものである。
【0002】
【先行技術】
(概念検索技術)
概念検索技術とは、以下のようなものである。すなわち、予め辞書作成用の文書から形態素解析などによって単語を切り出し、各単語に基本となるベクトルを付与して、辞書機能をなすベクトル群(ステムベクトル)を生成する。そのステムベクトルをもとにして、検索対象文書全体のベクトルを決定し、検索対象文書群から検索対象文書ベクトル群を生成する。その結果、検索対象文書は、各々一文書あたり一つのベクトルを持つこととなる。検索を実行する際には、検索のために入力した文章をステムベクトルに基づいて検索用文章ベクトルを生成し、その検索用文章ベクトルと検索対象文書ベクトル群との内積を演算し、内積値の高い検索対象文書から所定件数を出力させる。
この技術によれば、抽出したい対象を特定する文章(以下、「検索用文章」と記す)を自然文で入力すれば検索対象文書群から関連度の高い文書から順に所定件数を必ず出力させることが可能となり、キーワード検索による欠点を克服できる。
【0003】
【特許文献1】
特願2000−197027号
【0004】
この特許文献には、更新または追加が頻繁に行われる動的な検索対象文書群であって、且つ一文書当たりの単語数が多い検索対象文書(具体的には技術情報や特許情報)に対し、概念検索を達成するための技術が開示されている。
(類似検索)
上記の特許文献には、概念検索を行った結果として抽出された文書を用いて概念検索を連続して行う場合に、検索用文章の入力を省略可能な「類似検索」と定義された検索方法も開示されている。
【0005】
【発明が解決しようとする課題】
検索用文章に同音多義語が含まれている場合には、検索者が必要としない文献に高得点がついてしまう。
同音多義語として、「ビッグバン」という用語があるが、もともとは天文学における用語であり、金融業界において比喩的に「金融ビッグバン」と使われるようになった。現在では、単に「ビッグバン」と称されることが多く、天文用語を連想する人の割合のほうが低いくらいとなっている。この「ビッグバン」が検索用文章に含まれている場合には、天文分野の技術文献と金融分野の技術文献とに高得点がつくこととなる。
【0006】
上記の問題は、類似検索を用いても解消されない。例えば、検索用文章に「ビッグバン」を含ませて概念検索を行って、金融工学の分野のある技術文献が抽出されたとする。その技術文献を特定して類似検索を行ったとしても、その技術文献に含まれている「ビッグバン」という用語は、依然として天文学の用語でもあるからである。
【0007】
一般に、同音多義語は、複数の分野を跨いで存在する。すなわち、同一の分野において多義的に使用される用語はほとんどなく、多くの場合は異なる分野において異なる意義の用語となっているのである。
一方、検索者にとって、ある技術用語を使って概念検索や類似検索を行おうとする場合に、当該技術用語が同音多義語であることを認識していることは多くない。前述の例では、「ビッグバン」が天文学用語であることを認識せずに概念検索を行ってしまい、検索結果を見て気づく程度である。
【0008】
さて、仮に、分野別に概念検索を行えるようなシステムが提供されたとすると、概念検索の特徴が希釈されるおそれがある。すなわち、分野をまたがったとしても概念として類似する文献を抽出できるのが、概念検索の特徴だからである。
【0009】
本発明が解決すべき課題は、検索者が検索結果から排除したい分野を指定できる概念検索手法を提供することにある。
請求項1から請求項3に記載の発明は、検索結果から排除したい分野を指定できる概念検索システムを提供することを目的とする。
また、請求項4に記載の発明は、検索結果から排除したい分野を指定できる概念検索プログラムを提供することを目的とする。
【0010】
【課題を解決するための手段】
上記の課題を解決する手段として、本願発明は、以下の手段を提供する。
すなわち、検索対象となる文書を予め分類し、その分類による分野ごとに、ベクトル演算の基礎となる検索対象文書ベクトル群を用意しておき、排除したい分野以外の分野の検索対象文書ベクトル群を用いて検索結果を導く手法である。
【0011】
(請求項1)
請求項1記載の発明は、 辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手段と、 前記ステムベクトルおよび特許情報たる文書の集合体である検索対象文書群からそのセクションまたはクラスごとに検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手段と、 クライアントが入力した検索用文章を含む検索用データを受信する検索用データ受信手段と、 その検索用文章とステムベクトルとを用いて検索用文章ベクトルを作成する検索用文章ベクトル作成手段と、 その検索用文章ベクトルと検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手段と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手段と、を備えた概念検索システムに係る。
前記検索対象文書群の各検索対象文書には、国際特許分類に基づくセクションまたはクラスに関するデータを含み、前記検索用データには、検索対象文書群から排除したい国際特許分類を特定するための国際特許分類の所定セクションまたはクラスたる排除分野データを含み、 前記ベクトル演算手段は、その排除分野データに該当する検索対象文書ベクトル群以外の検索対象文書ベクトル群を前記検索対象文書ベクトル群から抽出し、その抽出した検索対象文書ベクトル群と検索用文章ベクトルとを用いてベクトル演算値を演算することとした概念検索システムである。
【0012】
(用語説明)
「クライアント」とは、本発明に係る概念検索システムを利用して検索を行う検索者に係る端末装置である。
「分野」とは、検索対象文書群の一般的な分類手法や、学術的な見地に基づいた分類手法によって分類された分類のグループなどをいう。 例えば、検索対象文書群が特許情報である場合には、AからHまでのセクションに振り分けた国際特許分類(いわゆるIPC)や、更にそのセクション毎に細かく分類されたクラスなどである。 なお、一般に、一のクラスを更に再分類した場合には、その再分類によって分けられた各クラスをサブクラスというが、本明細書においても「クラス、サブクラス」という表現を用いた場合には、大分類がクラスを指し、その下位の分類がサブクラスを指すものとする。
「分類データ」とは、n個の分野がある場合において、各分野のいずれかひとつを特定する場合のほか、複数の分野を特定する場合も含む。 また、分類の対象となる文書が複数の分類にまたがる場合があり、それを許容する分類を行っている場合には、複数の分野にまたがる条件指定も行えるものとする。具体的には、IPCにおいて、GセクションとHセクションとにまたがる文献を検索対象から排除したい場合に、「G and H」という排除分類データの入力が可能であるようにする。
「ステムベクトル作成手段」は、辞書作成用文書群の全体に対してステムベクトルを作成することとしてもよいし、辞書作成用文書群における複数に分割された分野ごとにステムベクトルを作成してもよい。 分野ごとにステムベクトルを作成した場合には、その分野のステムベクトルを用いて検索対象文書ベクトル群を作成することとなるので、より適切な検索対象文書ベクトルや検索用文章ベクトルを作成することができる。
また、検索対象文書に予め分野を特定する識別コードなどが付与されている場合には、検索対象文書ベクトル作成手段が検索対象文書を読み込んだ際に、当該識別コードを用いて当該検索対象文書の分野を判断した上で適切なステムベクトルを用いて検索対象文書ベクトルを作成することとしてもよい。
【0013】
(作用)
ステムベクトル作成手段は、辞書機能をなすステムベクトルを作成する。検索対象文書ベクトル作成手段は、前記ステムベクトルおよび検索対象文書群における検索分野を、国際特許分類に基づいて複数に分割されたその分野ごとに検索対象文書ベクトル群を作成する。
検索用データ受信手段は、クライアントが入力した検索用データを受信する。その検索用データには、検索用文章と検索対象から排除したい分野を特定するための排除分野データとを含んでいる。その検索用文章と前記ステムベクトルとを用いて、検索用文章ベクトル作成手段が検索用文章ベクトルを作成する。ベクトル演算手段は、排除分野データ以外の分野データに基づく検索対象文書ベクトル群と検索用文章ベクトルとを用いてベクトル演算値を演算する。
ソート手段は、演算されたベクトル演算値の順に検索対象文書群(特許情報)をソートして、クライアントへソート結果を出力する。出力結果は、排除分野データ以外の分野データにまたがった検索対象文書群が出力される。すなわち、概念検索のメリットが活かされつつ、排除したい分野からは検索対象文書群(特許情報)は抽出されない。
【0014】
(請求項2)
請求項2記載の発明は 国際特許分類に基づいて各セクションまたはクラスに予め分類された特許情報である検索対象文書群に対して概念検索を実行させるための概念検索システムに係る。
辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手段と、 ステムベクトルおよび国際特許分類に基づいて各セクションまたはクラスに分割された検索対象文書群からそのセクションまたはクラスごとに検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手段と、 クライアントが入力した検索用データを受信する検索用データ受信手段と、 検索対象文書ベクトル群を用いてベクトル演算値を演算するベクトル演算手段と、 演算されたベクトル演算値の順に検索対象文書群をソートしてクライアントへソート結果を出力するソート手段とを備える。
検索用データには、検索対象文書群から排除したい国際特許分類の所定セクションまたはクラスを特定するための排除分野データと検索用文章を特定するための文献データとを含み、 前記ベクトル演算手段は、その排除分野データに該当する検索対象文書ベクトル群以外の検索対象文書ベクトル群を抽出し、その抽出した検索対象文書ベクトル群と検索用文章ベクトルとを用いてベクトル演算値を演算することとした。
【0015】
(用語説明)
請求項2記載の発明は、請求項1記載の発明と異なり、「検索用文章ベクトル作成手段」を備えていない。
ここで、「文献データ」とは、検索対象文書を一元的に管理する番号等があれば、その文献番号等をいう。例えば、特許情報であれば、出願公開番号である。
「ステムベクトル作成手段」は、辞書作成用文書群の全体に対してステムベクトルを作成することとしてもよいし、辞書作成用文書群における複数に分割された分野ごとにステムベクトルを作成してもよい。 分野ごとにステムベクトルを作成した場合には、その分野のステムベクトルを用いて検索対象文書ベクトル群を作成することとなるので、より適切な検索対象文書ベクトルを作成することができる。また、検索対象文書に予め分野を特定する識別コードなどが付与されている場合には、検索対象文書ベクトル作成手段が検索対象文書を読み込んだ際に、当該識別コードを用いて当該検索対象文書の分野を判断した上で適切なステムベクトルを用いて検索対象文書ベクトルを作成することとしてもよい。
【0016】
(作用)
ステムベクトル作成手段は、辞書機能をなすステムベクトルを作成する。検索対象文書ベクトル作成手段は、前記ステムベクトルおよび検索対象文書群(特許情報)における検索分野を国際特許分類のセクションまたはクラスごとに検索対象文書ベクトル群を作成する。
検索用データ受信手段は、クライアントが入力した検索用データを受信する。検索用データにおける検索用文章を特定するための文献データを用いて検索用文章を特定する。特定されたその検索用文章と排除分野データ以外の分野データに基づく検索対象文書ベクトル群とを用いて、ベクトル演算手段がベクトル演算値を演算する。
ソート手段は、演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力する。出力結果は、排除分野データ以外の国際特許分類のセクションまたはクラスにまたがった検索対象文書群(特許情報)が出力される。すなわち、概念検索のメリットが活かされつつ、排除したい分野からは検索対象文書群(特許情報)は抽出されない。検索用文章は特定するためのデータを入力すれば、文章そのものを入力しなくてもよい。
【0017】
以下のような発明を提供することもできる。
すなわち、辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手段と、 ステムベクトルおよび国際特許分類に基づいて各セクションまたはクラス予め分類された特許情報である検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手段と、 クライアントが入力した検索用文章を含む検索用データを受信する検索用データ受信手段と、 その検索用データとステムベクトルとを用いて検索用文章ベクトルを作成する検索用文章ベクトル作成手段と、 その検索用文章ベクトルと検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手段と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手段と、を備えた概念検索システムに係る。
検索対象文書ベクトル作成手段は、検索対象文書群から国際特許分類のセクションまたはクラスごとに検索対象文書ベクトル群を作成し、 ソート手段には、クライアントの次回検索入力画面を提供する次回検索画面提供手段を含み、その次回検索入力画面は、検索対象から排除したい分野を特定するための排除分野データをクライアントから入力可能な画面とする。前記検索用データ受信手段が前記次回検索入力画面にクライアントから入力された排除分野データを受信する。
前記ベクトル演算手段は、前記次回検索入力画面にクライアントから入力されることで特定された国際特許分類の所定セクションまたはクラスたる排除分野データに該当する検索対象文書ベクトル群以外の検索対象文書ベクトル群を前記検索対象文書ベクトル群から抽出し、その抽出した検索対象文書ベクトル群と前記検索用文章ベクトルとを用いてベクトル演算値を再演算する。
前記ソート手段は、再演算されたベクトル演算値の順に国際特許分類に基づく検索対象文書群をソートした再ソート結果をもクライアントに出力することとした。以上のような概念検索システムである。
【0018】
(用語説明)
検索用文章のみを入力してソート結果を得た後、次回検索入力画面において、排除分野データを入力するような場合のほか、検索用文章と排除分野データにおけるクラスとを入力してソート結果を得た後、次回検索入力画面において、排除分野データとしてサブクラスを入力するような場合もある。
なお、次回検索入力画面での入力は、キーボードによる入力の他、プルダウンメニューによる選択指定や、選択可能なボタン(以下、ハイパーリンクを含む)によるクリックによる指定でもよい。
「ステムベクトル作成手段」は、辞書作成用文書群の全体に対してステムベクトルを作成することとしてもよいし、辞書作成用文書群における複数に分割された分野ごとにステムベクトルを作成してもよい。分野ごとにステムベクトルを作成した場合には、その分野のステムベクトルを用いて検索対象文書ベクトル群を作成することとなるので、より適切な検索対象文書ベクトルや検索用文章ベクトルを作成することができる。また、検索対象文書に予め分野を特定する識別コードなどが付与されている場合には、検索対象文書ベクトル作成手段が検索対象文書を読み込んだ際に、当該識別コードを用いて当該検索対象文書の分野を判断した上で適切なステムベクトルを用いて検索対象文書ベクトルを作成することとしてもよい。
【0019】
(作用)
検索用文章に基づいた概念検索の第一のソート結果に対して、クライアントが排除したい排除分野データを入力し、その排除分野データに基づいて再度、第二のソート結果を出力する作用について説明する。ただし、第二のソート結果に対して、更なるソート結果を出力させることもできる。
辞書作成用文書群から辞書機能をなすステムベクトルをステムベクトル作成手段が作成し、そのステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を、検索対象文書ベクトル作成手段が作成する。クライアントが入力した検索用文章を含む検索用データを検索用データ受信手段が受信すると、その検索用データとステムベクトルとを用いて検索用文章ベクトル作成手段が検索用文章ベクトルを作成し、その検索用文章ベクトルと検索対象文書ベクトル群とのベクトル演算値をベクトル演算手段が演算する。 そして、ソート手段が演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力する。
【0020】
そのソート結果には、クライアントの次回検索入力画面を提供する次回検索画面提供手段が含まれており、クライアントはその次回検索画面提供手段を用いて、検索対象から排除したい分野を特定するための排除分野データを入力する。
入力された排除分野データを用いて、ベクトル演算手段は、その排除分野データ以外の分野データに基づく検索対象文書ベクトル群と検索用文章ベクトルとを用いてベクトル演算値を再演算する。そして、ソート手段は、再演算されたベクトル演算値の順に分野データに基づく検索対象文書群をソートした再ソート結果を再びクライアントに出力する。
【0021】
以下のような発明を提供することもできる。
すなわち、その発明は、辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手段と、 ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手段と、 クライアントが入力した検索用データを受信する検索用データ受信手段と、 検索用文章ベクトルを作成する検索用文章ベクトル作成手段と、 その検索用文章ベクトルと検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手段と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手段とを備えた概念検索システムに係る。
そして、検索用データには、クライアントが強調したいキーワードである強調ワードデータを含み、 その強調ワードデータに基づいて検索用文章を編集する検索用文章編集手段を備え、 検索用文章ベクトル作成手段は、その検索用文章編集手段によって編集された検索用文章とステムベクトルとを用いて検索用文章ベクトルを作成することとしている。
【0022】
(用語説明)
「強調ワードデータ」とは、例えば、「レンズ付きフィルム」に関連する技術を抽出したい場合に、「カメラ」を強調ワードとしたり、「ビッグバン」などの同音多義語が存在する場合に「金融ビッグバン」に関連の深い文献を抽出するため、「金融」を強調ワードとする。
また、強調ワードデータにつき、ランクを設けておいたり、倍率を設定したりしてもよい。例えば、単なる「強調ワード」なら3倍、「超強調ワード」なら5倍、「否定ワード」なら−1倍、という自動設定としたり、倍率を適宜入力できるようにしてもよい。
「検索用文章編集手段」は、クライアント端末を操作するユーザが行う操作ではなく、サーバが自動的に行う。例えば、検索用文章中に強調ワードを複数回含ませた文章に書き直したり、検索用文章の最後に強調ワードを繰り返して書き加えたりする動作が、サーバにおいて行われる。
【0023】
(作用)
辞書作成用文書群から辞書機能をなすステムベクトルをステムベクトル作成手段が作成し、 そのステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を検索対象文書ベクトル作成手段が作成する。
クライアントが入力した検索用データを検索用データ受信手段が受信する。検索用データには、クライアントが強調したいキーワードである強調ワードデータを含んでおり、その強調ワードデータに基づいて検索用文章編集手段が検索用文章を編集する。検索用文章ベクトル作成手段は、その検索用文章編集手段によって編集された検索用文章とステムベクトルとを用いて検索用文章ベクトルを作成し、その検索用文章ベクトルと検索対象文書ベクトル群とのベクトル演算値をベクトル演算手段が演算する。そして、ソート手段が演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力する。
【0024】
検索結果は、強調したいキーワードが強調され、複数の分野データにまたがった検索対象文書群が出力される。すなわち、概念検索のメリットが活かされつつ、強調したいキーワードが強調された検索用文章による検索結果を得ることができる。
【0025】
以下のような発明を提供することもできる。
すなわち、その発明は、 辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手段と、 ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手段と、 クライアントが入力した検索用文章を含む検索用データを受信する検索用データ受信手段と、 その検索用文章とステムベクトルとを用いて検索用文章ベクトルを作成する検索用文章ベクトル作成手段と、 その検索用文章ベクトルと検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手段と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手段とを備えた概念検索システムに係る。
ソート手段には、クライアントの次回検索入力画面を提供する次回検索画面提供手段を含み、その次回検索入力画面は、クライアントが強調したいキーワードである強調ワードデータを入力可能な画面とし、 その強調ワードデータに基づいて検索用文章を編集する検索用文章編集手段を備える。 検索用文章ベクトル作成手段は、その検索用文章編集手段によって編集された検索用文章とステムベクトルとを用いて再検索用文章ベクトルを作成し、 ベクトル演算手段は、再検索用文章ベクトルと検索対象文書ベクトル群とのベクトル演算値を再演算し、 ソート手段は、再演算されたベクトル演算値の順に分野データに基づく検索対象文書群をソートした再ソート結果をクライアントに出力する。
【0026】
(作用)
辞書作成用文書群から辞書機能をなすステムベクトルをステムベクトル作成手段が作成し、 そのステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を検索対象文書ベクトル作成手段が作成する。クライアントが入力した検索用文章を含む検索用データを検索用データ受信手段が受信し、 その検索用文章とステムベクトルとを用いて検索用文章ベクトルを検索用文章ベクトル作成手段が作成する。そして、その検索用文章ベクトルと検索対象文書ベクトル群とのベクトル演算値をベクトル演算手段が演算し、ソート手段が演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力する。
【0027】
ソート手段には、クライアントの次回検索入力画面を提供する次回検索画面提供手段を含み、その次回検索入力画面は、クライアントが強調したいキーワードである強調ワードデータを入力可能な画面としている。その強調ワードデータに基づいて検索用文章編集手段が検索用文章を編集する。検索用文章ベクトル作成手段は、その検索用文章編集手段によって編集された検索用文章とステムベクトルとを用いて再検索用文章ベクトルを作成し、ベクトル演算手段は、再検索用文章ベクトルと検索対象文書ベクトル群とのベクトル演算値を再演算する。そしてソート手段は、再演算されたベクトル演算値の順に分野データに基づく検索対象文書群をソートした再ソート結果をクライアントに出力する。
ここにおいて、最初のソート結果を検討して強調ワードデータを入力し、その強調ワードデータによって編集された検索用文章によるベクトル演算がなされる。その結果は、概念検索のメリットが活かされつつ、強調したいキーワードが強調された検索用文章による検索結果を得ることができる。
【0028】
(削除)
【0029】
(削除)
【0030】
(削除)
【0031】
(削除)
【0032】
さて、請求項1に対応した方法発明、すなわち、辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手順と、 そのステムベクトルおよび検索分野を複数に分割された検索対象文書群からその分野ごとに検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手順と、 クライアントが入力した検索用文章と検索対象から排除したい分野を特定するための排除分野データとを含む検索用データを受信する検索用データ受信手順と、 その検索用文章とステムベクトルとを用いて検索用文章ベクトルを作成する検索用文章ベクトル作成手順と、 排除分野データ以外の分野データに基づく検索対象文書ベクトル群と検索用文章ベクトルとを用いてベクトル演算値を演算するベクトル演算手順と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手順とを備えた概念検索方法を提供することも可能である。
【0033】
また、請求項2に対応した方法発明、すなわち、辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手順と、 そのステムベクトルおよび検索分野を複数に分割された検索対象文書群からその分野ごとに検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手順と、 クライアントが入力した検索対象から排除したい分野を特定するための排除分野データと検索用文章を特定するための文献データとを含んだ検索用データを受信する検索用データ受信手順と、 排除分野データ以外の分野データに基づく検索対象文書ベクトル群と文献データによって特定された検索用文章とに基づいてベクトル演算値を演算するベクトル演算手順と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手順とを備えた概念検索方法を提供することも可能である。
【0034】
(請求項3)
請求項3に記載の発明は、コンピュータに対し、国際特許分類に基づいて各セクションまたはクラスに予め分類された特許情報である検索対象文書群に対して概念検索を実行させるためのプログラムに係る。
そのプログラムは、辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手順と、 そのステムベクトルおよび国際特許分類に基づいて各セクションまたはクラスに分割された検索対象文書群からそのセクションまたはクラスごとに検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手順と、 クライアントが入力した検索用文章を含む検索用データを受信する検索用データ受信手順と、 その検索用データとステムベクトルとを用いて検索用文章ベクトルを作成する検索用文章ベクトル作成手順と、 その検索用文章ベクトルと検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手順と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手順と、 検索対象から排除したい国際特許分類の所定セクションまたはクラスを特定するための排除分野データを受信する排除分野データ受信手順と、 その排除分野データに該当する検索対象文書ベクトル群以外の検索対象文書ベクトル群を前記検索対象文書ベクトル群から抽出し、その抽出した検索対象文書ベクトル群と検索用文章ベクトルとを用いてベクトル演算値を再演算する再演算手順と、 再演算されたベクトル演算値の順に国際特許分類に基づく検索対象文書群をソートした再ソート結果をクライアントに出力する再ソート手順と、をコンピュータに実行させるためのコンピュータ読み取り可能なプログラムである。
【0035】
(削除)
【0036】
(削除)
【0037】
請求項3に記載したプログラムを、記録媒体へ記憶させて提供することもできる。ここで、「記録媒体」とは、それ自身では空間を占有し得ないプログラムを担持することができる媒体であり、例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO(光磁気ディスク)、DVD−ROMなどである。
【0038】
なお、請求項1に対応するコンピュータプログラム発明を提供することも可能である。
そのプログラムとは、一般的な分類手法または学術的な見地に基づいた分類手法によって各分野に予め分類された検索対象文書群に対して概念検索を実行させるためのコンピュータ読取可能なプログラムであって、
辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手順と、 その検索分野を複数に分割された検索対象文書群からその分野ごとに検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手順と、 クライアントが入力した検索用文章と検索対象文書群から排除したい分野を特定するための排除分野データとを含む検索用データを受信する検索用データ受信手順と、 前記排除分野データを用いて、前記検索対象文書群から前記排除分野データに該当する検索対象文書群を外してから検索対象文書ベクトル群を作成する検索用文章ベクトル作成手順と、 その検索対象文書ベクトル群および前記検索用文章ベクトルを用いて、前記ベクトル演算手段がベクトル演算値を演算するベクトル演算手順と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手順とをコンピュータに実行させるためのコンピュータ読み取り可能なプログラムである。
【0039】
また、請求項2に対応するコンピュータプログラム発明を提供することも可能である。
そのプログラムとは、一般的な分類手法または学術的な見地に基づいた分類手法によって各分野に予め分類された検索対象文書群に対して概念検索を実行させるためのコンピュータ読取可能なプログラムであって、
辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手順と、 そのステムベクトルおよび検索分野を複数に分割された検索対象文書群からその分野ごとに検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手順と、 クライアントが入力した検索対象文書群から排除したい分野を特定するための排除分野データと検索用文章を特定するための文献データとを含んだ検索用データを受信する検索用データ受信手順と、 排除分野データ以外の分野データに基づく検索対象文書ベクトル群と文献データによって特定された検索用文章とに基づいてベクトル演算値を演算するベクトル演算手順と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手順とをコンピュータに実行させるためのコンピュータ読取可能なプログラムである。
【0040】
【発明の実施の形態】
以下、本発明を実施の形態及び図面に基づいて、更に詳しく説明する。ここで使用する図面は、図1乃至図10である。図1から図5は、実施形態を示す概念図である。図6は、第四、第五の実施形態にて用いる検索用文章編集手段の原理を示す概念図である。図7から図10は、具体的な検索結果の画面を示す図である。
【0041】
(図1)
図1は、本発明の第一の実施形態を示す概念図であり、クライアント・サーバシステムにおけるサーバに備えられる装置である。クライアントユーザは、サーバを運営する事業主体との契約に基づいて、会員IDおよびパスワードの提供を受け、インターネットにて接続して、サーバが提供するサービスを利用する。
【0042】
サーバには、辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手段と、ステムベクトルおよび検索分野を複数に分割された検索対象文書群からその分野ごとに検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手段と、クライアントが入力した検索用データを受信する検索用データ受信手段と、その検索用データを用いて検索用文章ベクトルを作成する検索用文章ベクトル作成手段と、その検索用文章ベクトルと検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手段と、演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手段とを備えている。
【0043】
本サーバは、特許情報に関する検索が行えるものであり、検索対象文書群も辞書作成用文書群も、特許情報としている。
前記のステムベクトル作成手段は、辞書作成用文書群からステムベクトルを予め作成することとしている。また、検索対象文書ベクトル作成手段は、検索対象文書群における検索分野がA,B,Cの三分野に分類可能であるように分野情報を持っており、その分野情報に基づいて分割された分野ごとに検索対象文書ベクトル群を予め作成しておく。
なお、本実施形態では検索対象文書群が特許情報であるので、国際特許分類、更にそのセクション毎に細かく分類されたクラスなどが、上記の「分野」に該当する。ここでは、分かりやすい説明のために、辞書作成用文書群における分野および検索対象文書群における検索分野とも三分野へ分割したとして説明しているが、より多くの分類としてもよいし、ある一分類の中で更なる分類を存在させるなど、階層化した分類としてもよい。
【0044】
さて、クライアントが検索用データ入力手段を介して入力した検索用データには、検索用文章と検索分野を特定するための排除したい分野についての分野データとを含むこととしている。具体的には、ある検索用文章と分野データとして「A」分野を特定する旨を含ませる。
検索用データ受信手段は、ある検索用文章と排除分野データ(A)とを受信する。検索用文章ベクトル作成手段は、その検索用文章の分野のステムベクトルを用いて検索用文章ベクトルを作成し、受信された排除分野データ(A)によって、検索対象文書ベクトル群から、A分野以外の検索対象文書ベクトル群を指定する。そして、ベクトル演算手段は、A分野以外の検索対象文書ベクトル群と検索用文章ベクトルとを用いてベクトル演算値を演算する。
【0045】
演算されたベクトル演算値は、A分野以外の検索対象文書ベクトル群に基づいており、更にそのA分野以外の検索対象文書ベクトル群は、ステムベクトルおよびB、C分野の検索対象文書群に基づいて作成されている。そのため、検索用文章の中に用いられた単語で、A分野において他の意味を表す同音多義語が含まれていたとしても、A分野における検索対象文書が抽出されることはない。すなわち、排除したい検索対象を外しつつ、概念検索のメリットを生かした検索結果を得ることができる。
【0046】
(図2)
図2は、本発明の第二の実施形態を示す概念図である。
ここに示すサーバには、辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手段と、ステムベクトルおよび検索分野を複数に分割された検索対象文書群からその分野ごとに検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手段と、クライアントが入力した検索用データを受信する検索用データ受信手段と、検索対象文書ベクトル群を用いてベクトル演算値を演算するベクトル演算手段と、演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手段とを備えている。
【0047】
第一の実施形態と大きく異なるのは、検索用文章ベクトル作成手段を省略している点である。また、検索用データには、検索分野を特定するための排除分野データと検索用文章を特定するための文献データとを含むこととしている。その文献データによって特定された検索用文章に基づいて、検索対象文書ベクトル作成手段が予め作成した検索対象文書ベクトル群の中から特定した一つの検索対象文書ベクトルを検索用文書ベクトルとして用いることとする。そして、ベクトル演算手段は、排除分野データにて特定された分野以外の分野に基づく検索対象文書ベクトル群と、特定した一つの検索対象文書ベクトルである検索用文書ベクトルとを用いてベクトル演算値を演算することとしている。ここに示す検索手法は、文献データによって特定された検索用文章に類似する概念の文書を抽出する類似検索の一種である。
【0048】
クライアントが検索用データである文献データと排除分野データとを入力したとする。ここで文献データとしては、文献を特定可能な公報番号などの文献番号(2000−123)を、排除分野データとしては、分野特定のための記号(C分野)を、それぞれ入力したとする。その検索用データは、サーバにおける検索用データ受信手段が受信する。そして、検索対象文書ベクトル群の中から、文献番号(2000−123)に合致するベクトルを抽出する。
ベクトル演算手段は、抽出された文献番号(2000−123)に合致するベクトルと、C分野以外の分野の検索対象文書ベクトル群とをベクトル演算することとなる。検索用文章ベクトル作成手段を存在させなくても、あるいは機能させなくても概念検索が行えることとなる。その結果、クライアントは検索用文章を全く入力することなく概念検索が行える一方、サーバ側はハードウエアに対する負担を軽減することができたり、演算時間を短縮できる、といった効果がある。
【0049】
(図3)
図3は、本発明の第三の実施形態を示す概念図である。この実施形態のシステムは、最初に検索用文章による検索を行わせ、その検索結果に基づいて分野を特定するための排除分野データによる再検索を行わせるものである。
ここに示すサーバには、辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手段と、ステムベクトルおよび検索分野を複数に分割された検索対象文書群からその分野ごとに検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手段と、クライアントが入力した検索用文章を含む検索用データを受信する検索用データ受信手段と、その検索用データを用いて検索用文章ベクトルを作成する検索用文章ベクトル作成手段と、その検索用文章ベクトルと検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手段と、演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手段とを備える。
【0050】
ステムベクトル作成手段は、辞書作成用文書群からステムベクトルを作成する。また、検索対象文書ベクトル作成手段は、検索対象文書群における検索分野がA,B,Cの三分野に分類可能であるように分野情報を持っており、その分野情報に基づいて分割された分野ごとに検索対象文書ベクトル群を予め作成しておく。なお、最初の検索では検索用文章しか入力されておらず、分野データによる分野の指定が行われていない。したがって、ベクトル演算手段は、検索対象文書ベクトル群に対しては全体のベクトル群と検索用文章ベクトルとを用いてベクトル演算が行われる。このベクトル演算の前提として、分野に別れていない全体のベクトル群は、全分野を対象としたステムベクトルを用いて作成してもよい。
また、ソート手段には、図示を省略するものの、クライアントの次回検索入力画面を提供する次回検索画面提供手段を含み、その次回検索入力画面は、排除したい検索分野を特定するための排除分野データをプルダウンメニューなどを用いて入力可能な画面としている。
【0051】
前述のベクトル演算手段は、次回検索入力画面から入力された排除分野データに基づいて排除分野以外の検索対象文書ベクトル群と検索用文章ベクトルとを用いてベクトル演算値を再演算する。そして、同じく前述のソート手段は、再演算されたベクトル演算値の順に分野データに基づく検索対象文書群をソートした再ソート結果をもクライアントに出力する。
【0052】
次回検索入力画面を提供されたクライアントが排除分野データ(A)を入力して送信したとする。その排除分野データ(A)によってA以外の分野の検索対象文書ベクトル群を抽出する。そして、ベクトル演算手段がベクトル演算値を再演算する。この場合、検索用文章の中に用いられた単語で、A分野において他の意味を表す同音多義語が含まれていたとすると、最初のソート結果では、A分野における文書が高得点を挙げている可能性がある。しかし、再ソート結果には、A分野における文書が含まれていないので、A分野における検索対象文書が抽出されることはない。換言すれば、この実施形態は、最初のソート結果によって、A分野において他の意味を表す同音多義語が含まれていると気づいた場合などに有効である。
【0053】
(図4)
図4は、本発明の第四の実施形態を示す概念図であり、検索用文章とともに、強調ワードデータ(α)を入力して検索する概念検索手法を示している。すなわち、検索用データとしての検索用文章の他に、検索抽出の際に強調したいキーワードである「強調ワードデータ(α)」を入力することによって、単に検索用文章を入力した場合に比べて適切な検索出力を得ようというものである。
検索用データ受信手段は、検索用文章と強調ワードデータ(α)との両方を受信する。そして検索用文章編集手段によって、強調ワードデータ(α)を加味した検索用文章を編集する。この検索用文章の編集は、クライアント端末を操作するユーザが行う操作ではなく、強調ワードデータ(α)を繰り返して文章中に織り込むなどの編集作業をサーバが自動的に行うものである。その編集した検索用文章と、別途作成されたステムベクトルとによって検索用文章ベクトル作成手段が検索用文章ベクトルを作成する。そして、その検索用文章ベクトルと検索対象文書ベクトル群とを用いてベクトル演算手段がベクトル演算値を出力し、ソート手段がソート結果をクライアントへ出力する。
【0054】
(図6)
図6を用いて、検索用データ入力手段を構成する検索用文章入力手段、強調ワード入力手段の原理について説明する。
検索用データの入力画面には、「検索用文章」を入力する欄、「強調ワード」を入力する欄、特に強調したい「超強調ワード」を入力する欄、反対言葉や排除したい言葉である「否定ワード」を入力する欄を設けてある。
「検索用文章」の欄には「中古車をネットオークションする。」と入力し、「強調ワード」の欄には「インターネット」と入力し、「超強調ワード」の欄には「自動車」と入力し、「否定ワード」に欄には「新車」と入力したとする。
【0055】
図6の下段左には、「中古車」、「オークション」、「インターネット」などの言葉が形成するベクトルを示している。検索用文章編集手段は、図6の下段右に示すように、強調ワードに係るベクトルを3倍、超強調ワードに係るベクトルを5倍、否定ワードに係るベクトルをマイナス1倍するという編集を行う。このように編集されてから作成される検索用文章ベクトルは、強調ワードや超強調ワードが3倍、5倍に強調され、否定ワードは反対方向のベクトルとして反映されたものとなる。
【0056】
(図5)
図5に示すのは、本発明の第五の実施形態を示す概念図である。まず検索用文章のみによって概念検索をさせ、その出力結果を用いて強調ワードデータ(α)を入力し、その強調ワードデータ(α)を活かした検索結果を得るという手順を示している。
最初の検索用文章は、そのまま検索用文章ベクトル作成手段が検索用文章ベクトルを作成し、その検索用文章ベクトルと検索対象文書ベクトル群とを用いてベクトル演算がなされてソート結果を得る。ソート結果と共に得た「次回検索画面」において強調ワードデータ(α)をクライアントが入力すると、その強調ワードデータ(α)は検索用文章編集手段が検索用文章を編集するのに用いられる。編集された検索用文章を用いて再検索用文章ベクトルが作成され、それを用いてベクトル演算が再度行われ、そのベクトル演算値をソート手段が再ソートし、再ソート結果として出力するのである。
【0057】
図5に示すような検索は、「中古車をネットオークションする。」といった検索用文章では、「ネット」が「インターネット」であることを明確にしないと検索結果がぶれる、ということを体験し、その体験を活かした検索結果を得ることができる。
【0058】
(組合せのバリエーション)
図1から図3には「排除分野データ」を活用した概念検索を、図4から図6には「強調ワードデータ」を活用した概念検索を、それぞれ独立させて説明したが、「排除分野データ」と「強調ワードデータ」との両方を検索用データとして入力可能なシステムを提供することは、当然可能である。
【0059】
(分野別の有無)
図4および図5に示す実施形態では、ステムベクトルや検索対象文書群につき、特に分野を分けずに作成したものとして説明しているが、ステムベクトルや検索対象文書群を分野別に作成しても、本発明の趣旨は実現可能である。
【0060】
(図7)
図7は、「中古車をネットオークションする。」という検索用文章による単なる概念検索を行った出力結果を示している。
上記検索用文章の「ネット」は、クライアントとしては「インターネット」のみを意識しているが、物理的な「網」の意味をも意味するため、「〜防護ネット及び漁網」、「車両用ネット」といった発明名称に係る特許出願も、ソート結果として出力されてしまっている。
【0061】
(図8)
図8は、強調ワードとして「インターネット」を入力した検索結果の画面を示す図である。この検索結果によれば、物理的な「網」の意味を意味すると予想される発明名称に係るソート結果は出力されていない。その一方で、「中古車オークション運営装置」、「オークションモールシステム」、「中古車売買システム」など、クライアントがヒットさせたかったであろう出願の割合が、図7の場合に比べて確実に増えている。
【0062】
(図9)
否定ワードとして「新車」を入力した検索結果の画面を示す図である。このソート結果を図8の場合と比較してみると、「中古車」と関係ない商品のオークションシステムが外れ、発明の名称に「中古車」が存在する出願の割合が増えていることがはっきりしている。
【0063】
(図10)
図10は、「中古車をネットオークションする。」という検索用文章と、排除分野データとして国際特許分類のA分類とを入力した検索結果の画面を示す図である。物理的な「網」の意味を意味する発明が多数存在しそうなA分類を排除分野データとして入力することにより、図7よりはクライアントが狙ったソート結果を得られたであろうと考えられる。
【0064】
前記してきた実施形態にあっては、辞書作成用文書群および検索対象文書群を、特許情報文献群とした検索システムとしているが、本願発明は、特許情報の検索システムに限られるものではない。
一方、特許情報の検索システムであっても、辞書作成用文書群を特許情報文献群以外の、例えば新聞情報などから作成することは可能である。
【0065】
【発明の効果】
請求項1から請求項3に記載の発明によれば、検索者が検索結果から排除したい分野を指定可能な概念検索システムを提供することができた。
また、請求項4に記載の発明によれば、検索者が検索結果から排除したい分野を指定可能な概念検索プログラムを提供することができた。
【図面の簡単な説明】
【図1】 第一の実施形態を示す概念図である。
【図2】 第二の実施形態を示す概念図である。
【図3】 第三の実施形態を示す概念図である。
【図4】 第四の実施形態を示す概念図である。
【図5】 第五の実施形態を示す概念図である。
【図6】 第四、第五の実施形態にて用いる検索用文章編集手段の原理を示す概念図である。
【図7】 最初に提供される具体的な画面(第一の検索用画面)を示す図である。
【図8】 強調ワードを入力した検索結果の画面を示す図である。
【図9】 否定ワードを入力した検索結果の画面を示す図である。
【図10】 ある分野を排除する排除分野データを入力した検索結果の画面を示す図である。[0001]
[Technical field to which the invention belongs]
The present invention is a search system that applies a concept search using a vector operation to a search target document group stored in a certain database, and compensates for the drawbacks of a general concept search.
[0002]
[Prior art]
(Concept search technology)
The concept search technique is as follows. That is, a word is cut out from a dictionary creation document in advance by morphological analysis, and a basic vector is assigned to each word to generate a vector group (stem vector) having a dictionary function. Based on the stem vector, a vector of the entire search target document is determined, and a search target document vector group is generated from the search target document group. As a result, each search target document has one vector per document. When performing a search, a search text vector is generated based on the stem vector from the text input for the search, the inner product of the search text vector and the search target document vector group is calculated, and the inner product value is calculated. A predetermined number of documents are output from a high search target document.
According to this technology, if a sentence specifying a target to be extracted (hereinafter referred to as “search sentence”) is input as a natural sentence, a predetermined number of documents are always output in order from documents with a high degree of relevance. It is possible to overcome the drawbacks of keyword search.
[0003]
[Patent Document 1]
Japanese Patent Application No. 2000-197027
[0004]
This patent document describes a search target document (specifically, technical information and patent information) that is a dynamic search target document group that is frequently updated or added and has a large number of words per document. A technique for achieving concept search is disclosed.
(Similar search)
In the above-mentioned patent document, a search method defined as “similar search” that can omit the input of search text when performing concept search continuously using documents extracted as a result of concept search Is also disclosed.
[0005]
[Problems to be solved by the invention]
When homonyms are included in the search sentence, a high score is given to a document that the searcher does not need.
There is the term “big bang” as a homonym, but it was originally an astronomy term, and it was used figuratively in the financial industry as “financial big bang”. Today, it is often referred to simply as the “Big Bang”, and the proportion of people who associate astronomy terms is lower. When this “big bang” is included in the text for search, a high score is obtained for technical documents in the astronomical field and technical documents in the financial field.
[0006]
The above problem cannot be solved even if a similar search is used. For example, it is assumed that a technical document in the field of financial engineering is extracted by performing a concept search by including “Big Bang” in the search text. This is because even if the technical document is specified and a similar search is performed, the term “Big Bang” included in the technical document is still an astronomy term.
[0007]
In general, homonyms exist across multiple fields. That is, there are few terms that are used ambiguously in the same field, and in many cases, the terms have different meanings in different fields.
On the other hand, when a searcher wants to perform a concept search or a similar search using a technical term, the searcher does not often recognize that the technical term is a homonym. In the above-described example, the concept search is performed without recognizing that “Big Bang” is an astronomy term, and the search result is noticed.
[0008]
Now, if a system capable of performing concept search by field is provided, the features of concept search may be diluted. That is, it is because the feature of the concept search is that documents that are similar as a concept can be extracted even if crossing fields.
[0009]
The problem to be solved by the present invention is to provide a concept search method in which a searcher can specify a field to be excluded from a search result.
It is an object of the present invention to provide a concept search system that can specify a field to be excluded from search results.
Another object of the present invention is to provide a concept search program that can specify a field to be excluded from search results.
[0010]
[Means for Solving the Problems]
As means for solving the above problems, the present invention provides the following means.
That is, the documents to be searched are classified in advance, a search target document vector group that is a basis for vector calculation is prepared for each field based on the classification, and the search target document vector group in a field other than the field to be excluded is used. This is a technique for deriving search results.
[0011]
(Claim 1)
According to the first aspect of the present invention, there is provided a stem vector creating means for creating a stem vector having a dictionary function from a dictionary creating document group, and a section or a section from a search target document group which is a collection of the stem vector and a document as patent information. Search target document vector generating means for generating a search target document vector group for each class, search data receiving means for receiving search data including search text input by a client, and the search text and stem vector A search sentence vector creating means for creating a search sentence vector by using, a vector calculation means for calculating a vector operation value of the search sentence vector and a search target document vector group, and a search in the order of the calculated vector operation value Sort means for sorting the target document group and outputting the sort result to the client. According to the example was the concept retrieval system.
Each search target document of the search target document group includes data related to a section or class based on an international patent classification, and the search data is to be excluded from the search target document group.International patent classificationIncluding the exclusion field data which is a predetermined section or class of the international patent classification for identifying the search object document vector group other than the search object document vector group corresponding to the exclusion field data. This is a concept search system that extracts a vector group and calculates a vector operation value using the extracted search target document vector group and a search text vector.
[0012]
(Glossary)
The “client” is a terminal device related to a searcher who performs a search using the concept search system according to the present invention.
The “field” refers to a group of classifications classified by a general classification method of a search target document group or a classification method based on an academic viewpoint. For example, when the document group to be searched is patent information, there are an international patent classification (so-called IPC) assigned to sections A to H, a class further classified into each section, and the like. In general, when a class is further reclassified, each class divided by the reclassification is called a subclass. However, in this specification, when the expression “class, subclass” is used, A classification indicates a class, and a subordinate classification indicates a subclass.
“Classification data” includes not only specifying one of each field but also specifying a plurality of fields when there are n fields. In addition, there may be cases where a document to be classified extends over a plurality of classifications, and when the classification is permitted, it is possible to specify conditions over a plurality of fields. Specifically, in the IPC, when it is desired to exclude a document spanning the G section and the H section from the search target, the exclusion classification data “G and H” can be input.
The “stem vector creation means” may create a stem vector for the entire dictionary creation document group, or create a stem vector for each of the divided fields in the dictionary creation document group. Good. When a stem vector is created for each field, a search target document vector group is created using the stem vector of that field, so that more appropriate search target document vectors and search text vectors can be created. it can.
In addition, when an identification code or the like for specifying a field is given to the search target document in advance, when the search target document vector creation unit reads the search target document, the search target document The search target document vector may be created using an appropriate stem vector after judging the field.
[0013]
(Function)
The stem vector creating means creates a stem vector having a dictionary function. The search target document vector creation means includes a search field in the stem vector and the search target document group,Based on international patent classificationA search target document vector group is created for each of the divided fields.
The search data receiving means receives search data input by the client. The search data includes search text and exclusion field data for specifying a field to be excluded from the search target. Using the search text and the stem vector, the search text vector creating means creates a search text vector. The vector calculation means calculates a vector calculation value using a search target document vector group and a search text vector based on field data other than the exclusion field data.
The sorting means is a search target document group in the order of the calculated vector operation value.(Patent information)Sort and output the sort result to the client. As an output result, a search target document group extending over field data other than the excluded field data is output. In other words, from the fields that you want to exclude while taking advantage of the concept search, search target documents(Patent information)Is not extracted.
[0014]
(Claim 2)
The invention according to claim 2Patent information pre-classified into sections or classes based on international patent classificationThe present invention relates to a concept search system for executing a concept search on a search target document group.
A stem vector creating means for creating a stem vector having a dictionary function from the dictionary creating document group, and a stem vector andEach section or class based on international patent classificationFrom the divided search target documents,Section or classA search target document vector creating means for creating a search target document vector group for each, a search data receiving means for receiving search data input by a client, and a vector for calculating a vector operation value using the search target document vector group Computation means and sorting means for sorting the search target document group in the order of the computed vector computation value and outputting the sort result to the client.
I want to exclude search data from search target documents.A prescribed section or class of international patent classificationThe vector operation means extracts a search target document vector group other than the search target document vector group corresponding to the exclusion field data. Then, the vector calculation value is calculated using the extracted search target document vector group and the search text vector.
[0015]
(Glossary)
The invention described in claim 2 is different from the invention described in
Here, “literature data” refers to the document number or the like if there is a number or the like that centrally manages the search target document. For example, in the case of patent information, it is an application publication number.
The “stem vector creation means” may create a stem vector for the entire dictionary creation document group, or create a stem vector for each of the divided fields in the dictionary creation document group. Good. When a stem vector is created for each field, a search target document vector group is created using the stem vector of the field, so that a more appropriate search target document vector can be created. In addition, when an identification code or the like for specifying a field is given to the search target document in advance, when the search target document vector creation unit reads the search target document, the search target document The search target document vector may be created using an appropriate stem vector after judging the field.
[0016]
(Function)
The stem vector creating means creates a stem vector having a dictionary function. The search target document vector creating means includes the stem vector and the search target document group.(Patent information)Search fields inInternational patent classification section or classA search target document vector group is created for each.
The search data receiving means receives search data input by the client. A search sentence is specified using document data for specifying a search sentence in the search data. The vector calculation means calculates a vector calculation value using the specified search text and a search target document vector group based on field data other than the exclusion field data.
The sorting means sorts the search target document group in the order of the calculated vector operation value, and outputs the sort result to the client. The output result is other than excluded field data.International patent classification section or classSearch target document group across(Patent information)Is output. In other words, from the fields that you want to exclude while taking advantage of the concept search, search target documents(Patent information)Is not extracted. If data for specifying the text for search is input, it is not necessary to input the text itself.
[0017]
The following inventions can also be provided.
That is,A stem vector creating means for creating a stem vector having a dictionary function from the dictionary creating document group, and a stem vector andPatent information pre-classified for each section or class based on international patent classificationSearch target document vector generating means for generating a search target document vector group from the search target document group, search data receiving means for receiving search data including search text input by a client, search data and stem vector A search text vector creating means for creating a search text vector by using a vector, a vector calculation means for calculating a vector calculation value of the search text vector and a search target document vector group, and a vector calculation value of the calculated vector calculation value The present invention relates to a concept retrieval system comprising sorting means for sequentially sorting a search target document group and outputting a sorting result to a client.
The search target document vector creation means is a search target document group.By section or class of international patent classificationA search target document vector group is created, and the sorting means includes a next search screen providing means for providing a next search input screen of the client, and the next search input screen is excluded for specifying a field to be excluded from the search target. Field dataFrom clientThe screen can be entered.The search data receiving means receives exclusion field data input from a client on the next search input screen.
The vector calculation means includesIt is a predetermined section or class of the international patent classification specified by being input from the client to the next search input screen.A search target document vector group other than the search target document vector group corresponding to the exclusion field data is extracted from the search target document vector group, and the extracted search target document vector group andAboveRecalculate the vector operation value using the search text vector.
The sorting means outputs to the client a re-sorting result obtained by sorting the search target document group based on the international patent classification in the order of the re-calculated vector operation value. The concept retrieval system as described above.
[0018]
(Glossary)
After entering the search text only and obtaining the sort result, in the next search input screen, in addition to entering the exclusion field data, enter the search text and the class in the exclusion field data and enter the sort result. After obtaining the information, there is a case where a subclass is input as excluded field data on the next search input screen.
The input on the next search input screen may be input by using a keyboard, selection by pull-down menu, or specification by clicking by a selectable button (hereinafter, including hyperlink).
The “stem vector creation means” may create a stem vector for the entire dictionary creation document group, or create a stem vector for each of the divided fields in the dictionary creation document group. Good. When a stem vector is created for each field, a search target document vector group is created using the stem vector of that field, so that more appropriate search target document vectors and search text vectors can be created. it can. In addition, when an identification code or the like for specifying a field is given to the search target document in advance, when the search target document vector creation unit reads the search target document, the search target document The search target document vector may be created using an appropriate stem vector after judging the field.
[0019]
(Function)
The operation of inputting the exclusion field data that the client wants to exclude with respect to the first sort result of the concept search based on the search text, and outputting the second sort result again based on the exclusion field data will be described. . However, a further sort result can be output for the second sort result.
A stem vector creating unit creates a stem vector having a dictionary function from the dictionary creating document group, and a search target document vector creating unit creates a search target document vector group from the stem vector and the search target document group. When the search data receiving means receives the search data including the search text input by the client, the search text vector creating means creates the search text vector by using the search data and the stem vector, and the search A vector calculation means calculates a vector calculation value of the text vector for search and the document vector group to be searched. Then, the search target document group is sorted in the order of the vector calculation values calculated by the sorting means, and the sort result is output to the client.
[0020]
The sorting result includes the next search screen providing means for providing the next search input screen of the client, and the client uses the next search screen providing means to exclude the area to be excluded from the search target. Enter the field data.
Using the input exclusion field data, the vector calculation means recalculates the vector calculation value using the search target document vector group and the search sentence vector based on the field data other than the exclusion field data. Then, the sorting means outputs the resort result obtained by sorting the search target document group based on the field data in the order of the recalculated vector operation value to the client again.
[0021]
The following inventions can also be provided.
That is, the invention includes a stem vector creation unit that creates a stem vector that performs a dictionary function from a dictionary creation document group, and a search target document vector creation unit that creates a search target document vector group from the stem vector and the search target document group. A search data receiving means for receiving search data input by the client, a search text vector creating means for creating a search text vector, and a vector operation value of the search text vector and the search target document vector group. The present invention relates to a concept search system comprising: vector calculation means for calculating; and sorting means for sorting search target document groups in the order of the calculated vector calculation values and outputting the sort result to a client.
The search data includes emphasized word data that is a keyword that the client wants to emphasize, and includes search text editing means for editing the search text based on the emphasized word data, and the search text vector creating means includes: A search text vector is created using the search text and the stem vector edited by the search text editing means.
[0022]
(Glossary)
“Enhanced word data” refers to “Financial big bang” when, for example, “camera” is used as an emphasized word when a technology related to “film with lens” is extracted, or there is a homonym such as “big bang”. "Finance" is used as an emphasized word in order to extract documents closely related to "
Further, ranks may be provided for the emphasized word data, or a magnification may be set. For example, automatic setting such as 3 times for a simple “emphasized word”, 5 times for a “superemphasized word”, and −1 time for a “negative word”, or a magnification can be appropriately input.
The “search text editing means” is automatically performed by the server, not by the user who operates the client terminal. For example, the server performs operations such as rewriting a sentence that includes an emphasis word a plurality of times in the search sentence or repeatedly adding the emphasis word to the end of the search sentence.
[0023]
(Function)
A stem vector creation unit creates a stem vector that performs a dictionary function from the dictionary creation document group, and a search target document vector creation unit creates a search target document vector group from the stem vector and the search target document group.
The search data receiving means receives the search data input by the client. The search data includes emphasized word data that is a keyword that the client wants to emphasize, and the search sentence editing means edits the search sentence based on the emphasized word data. The search text vector creating means creates a search text vector using the search text and the stem vector edited by the search text editing means, and a vector of the search text vector and the search target document vector group. The vector calculation means calculates the calculated value. Then, the search target document group is sorted in the order of the vector calculation values calculated by the sorting means, and the sort result is output to the client.
[0024]
In the search result, a keyword to be emphasized is emphasized, and a search target document group extending over a plurality of field data is output. That is, it is possible to obtain a search result based on a search sentence in which a keyword to be emphasized is emphasized while taking advantage of the concept search.
[0025]
The following inventions can also be provided.
That is, the invention includes a stem vector creation unit that creates a stem vector that performs a dictionary function from a dictionary creation document group, and a search target document vector creation unit that creates a search target document vector group from the stem vector and the search target document group. Search data receiving means for receiving search data including search text input by the client, search text vector creating means for creating a search text vector using the search text and stem vector, and A vector calculation means for calculating a vector operation value of a search text vector and a search target document vector group, a sorting means for sorting the search target document group in the order of the calculated vector calculation value, and outputting a sort result to a client; Relates to a concept search system comprising:
The sorting means includes a next search screen providing means for providing a next search input screen of the client. The next search input screen is a screen on which emphasized word data that is a keyword to be emphasized by the client can be input. A search text editing means for editing the search text based on the above. The search text vector creating means creates a re-search text vector using the search text and the stem vector edited by the search text editing means, and the vector calculation means is the re-search text vector and the search target The vector operation value with the document vector group is recalculated, and the sorting unit outputs a resort result obtained by sorting the search target document group based on the field data in the order of the recalculated vector operation value to the client.
[0026]
(Function)
A stem vector creation unit creates a stem vector that performs a dictionary function from the dictionary creation document group, and a search target document vector creation unit creates a search target document vector group from the stem vector and the search target document group. The search data receiving means receives the search data including the search text input by the client, and the search text vector creating means creates the search text vector using the search text and the stem vector. Then, the vector calculation means calculates the vector operation value of the search text vector and the search target document vector group, the sort means sorts the search target document group in the order of the calculated vector operation value, and the sorting result to the client Is output.
[0027]
The sorting means includes a next search screen providing means for providing a next search input screen of the client, and the next search input screen is a screen on which emphasized word data that is a keyword to be emphasized by the client can be input. The search text editing means edits the search text based on the emphasized word data. The search text vector creating means creates a search text vector by using the search text and the stem vector edited by the search text editing means, and the vector calculation means has the re-search text vector and the search target. Recalculate the vector operation value with the document vector group. Then, the sorting unit outputs a resort result obtained by sorting the search target document group based on the field data in the order of the recalculated vector operation value to the client.
Here, the first sorting result is examined, and the emphasized word data is input, and the vector operation is performed on the search sentence edited by the emphasized word data. As a result, it is possible to obtain a search result using a search sentence in which a keyword to be emphasized is emphasized while utilizing the merit of the concept search.
[0028]
(Delete)
[0029]
(Delete)
[0030]
(Delete)
[0031]
(Delete)
[0032]
A method invention corresponding to claim 1, that is, a stem vector creation procedure for creating a stem vector having a dictionary function from a dictionary creation document group, and a search target document group obtained by dividing the stem vector and the search field into a plurality of parts Search target document vector creation procedure for creating a search target document vector group for each field, and search data including search text input by the client and exclusion field data for specifying a field to be excluded from the search target. A search data receiving procedure to receive, a search text vector creation procedure to create a search text vector using the search text and stem vector, and a search target document vector group based on field data other than the exclusion field data; A vector calculation procedure for calculating a vector calculation value using a search sentence vector, and a calculation It is also possible to provide a concept search method including a sort procedure for sorting a search target document group in the order of vector operation values and outputting a sort result to a client.
[0033]
Further, a method invention corresponding to claim 2, that is, a stem vector creation procedure for creating a stem vector having a dictionary function from a dictionary creation document group, and a search target document group obtained by dividing the stem vector and the search field into a plurality of parts Search target document vector creation procedure for creating a search target document vector group for each field, and exclusion field data for specifying a field to be excluded from the search target input by the client and literature data for specifying the search text A vector calculation value is calculated based on a search data reception procedure for receiving search data including a search target document vector group based on field data other than exclusion field data and a search sentence specified by literature data. Sort the search target document group in the order of the vector calculation procedure and the calculated vector calculation value, It is also possible to provide a concept search method and a sorting procedure for outputting the sorted results to clients.
[0034]
(Claim 3)
Claim 3The invention described in FIG.Patent information pre-classified into sections or classes based on international patent classificationThe present invention relates to a program for executing a concept search on a search target document group.
The program includes a stem vector creation procedure for creating a stem vector having a dictionary function from a dictionary creation document group, the stem vector andEach section or class based on international patent classificationFrom the search target document group divided intoSection or classA search target document vector creation procedure for creating a search target document vector group for each, a search data reception procedure for receiving search data including search text input by a client, and the search data and stem vector. Search text vector creation procedure for creating a search text vector, a vector calculation procedure for calculating a vector calculation value of the search text vector and the search target document vector group, and a search target in the order of the calculated vector calculation value Sorting a group of documents and outputting the sorting result to the clientA prescribed section or class of international patent classificationExclusion field data receiving procedure for receiving exclusion field data for identifying the search field document vector group other than the search target document vector group corresponding to the exclusion field data is extracted from the search target document vector group and extracted Recalculation procedure for recalculating the vector operation value using the search target document vector group and the search text vector, and the recalculated vector operation value in this order.International patent classificationA computer-readable program for causing a computer to execute a re-sorting procedure for outputting a re-sorting result obtained by sorting a search target document group based on the above to a client.
[0035]
(Delete)
[0036]
(Delete)
[0037]
Claim 3It is also possible to provide the program described in 1 above by storing it in a recording medium. Here, the “recording medium” is a medium that can carry a program that cannot occupy space by itself, such as a flexible disk, a hard disk, a CD-ROM, an MO (magneto-optical disk), a DVD- ROM or the like.
[0038]
It is also possible to provide a computer program invention corresponding to claim 1.
The program is a computer-readable program for executing a concept search on a search target document group previously classified in each field by a general classification method or a classification method based on an academic viewpoint. ,
A stem vector creation procedure for creating a stem vector having a dictionary function from a dictionary creation document group, and a search target document for creating a search target document vector group for each field from the search target document group divided into a plurality of search fields. A search data receiving procedure for receiving search data including a vector creation procedure, search text input by a client, and exclusion field data for specifying a field to be excluded from a search target document group, and the exclusion field data A search text vector creation procedure for creating a search target document vector group after removing the search target document group corresponding to the exclusion field data from the search target document group, and the search target document vector group and the search target A vector calculation procedure in which the vector calculation means calculates a vector calculation value using a sentence vector; This is a computer-readable program for causing a computer to execute a sorting procedure for sorting a search target document group in the order of the calculated vector operation values and outputting a sorting result to a client.
[0039]
It is also possible to provide a computer program invention corresponding to claim 2.
The program is a computer-readable program for executing a concept search on a search target document group previously classified in each field by a general classification method or a classification method based on an academic viewpoint. ,
A stem vector creation procedure for creating a stem vector that performs a dictionary function from a dictionary creation document group, and a search target document vector group for each field from the search target document group obtained by dividing the stem vector and the search field into a plurality of fields. Search for receiving search data including search target document vector creation procedure, exclusion field data for specifying fields to be excluded from the search target document group input by the client, and literature data for specifying search text Data reception procedure, a vector calculation procedure for calculating a vector calculation value based on a search target document vector group based on field data other than exclusion field data and a search sentence specified by literature data, and a calculated vector calculation Sort the search target documents in the order of the values and output the sort result to the client A computer readable program for executing the steps on a computer.
[0040]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, the present invention will be described in more detail based on embodiments and drawings. The drawings used here are FIGS. 1 to 10. 1 to 5 are conceptual diagrams showing an embodiment. FIG. 6 is a conceptual diagram showing the principle of search text editing means used in the fourth and fifth embodiments. 7 to 10 are diagrams showing specific search result screens.
[0041]
(Figure 1)
FIG. 1 is a conceptual diagram showing a first embodiment of the present invention, which is a device provided in a server in a client / server system. A client user receives a member ID and a password based on a contract with a business entity that operates the server, connects to the Internet, and uses a service provided by the server.
[0042]
The server includes a stem vector creation means for creating a stem vector having a dictionary function from the dictionary creation document group, and a search target document vector group for each field from the search target document group obtained by dividing the stem vector and the search field into a plurality of fields. Search target document vector creating means for creating search data receiving means for receiving search data input by the client, search sentence vector creating means for creating a search sentence vector using the search data, Vector calculation means for calculating a vector operation value of the search sentence vector and the search target document vector group, and a sort means for sorting the search target document group in the order of the calculated vector operation value and outputting the sort result to the client And.
[0043]
This server can search for patent information, and both the search target document group and the dictionary creation document group are patent information.
The stem vector creation means creates a stem vector in advance from a dictionary creation document group. Further, the search target document vector creating means has field information so that the search fields in the search target document group can be classified into three fields A, B, and C, and fields divided based on the field information. A search target document vector group is created in advance for each.
In the present embodiment, since the search target document group is patent information, the international patent classification, and the class finely classified for each section correspond to the “field”. Here, for the sake of easy understanding, the field in the dictionary creation document group and the search field in the search target document group are described as being divided into three fields. However, more categories may be used, or a certain category. It is good also as a classification | category hierarchized, such as making the further classification exist in.
[0044]
The search data input by the client through the search data input means includes search text and field data for a field to be excluded for specifying the search field. Specifically, the fact that “A” field is specified is included as a certain search sentence and field data.
The search data receiving means receives a search text and exclusion field data (A). The search text vector creating means creates a search text vector using the stem vector of the field of the search text, and from the search target document vector group based on the received exclusion field data (A), Specifies a search target document vector group. Then, the vector calculation means calculates a vector calculation value by using the search target document vector group other than the A field and the search text vector.
[0045]
The calculated vector calculation value is based on a search target document vector group other than the A field, and the search target document vector group other than the A field is based on the stem vector and the search target document group of the B and C fields. Has been created. For this reason, even if a word used in the search sentence includes a homonymous word representing another meaning in the A field, a search target document in the A field is not extracted. That is, it is possible to obtain a search result that takes advantage of the concept search while removing the search target to be excluded.
[0046]
(Figure 2)
FIG. 2 is a conceptual diagram showing a second embodiment of the present invention.
The server shown here includes a stem vector creation means for creating a stem vector having a dictionary function from a dictionary creation document group, and a search target for each field from the search target document group divided into a plurality of stem vectors and search fields. A search target document vector creating means for creating a document vector group, a search data receiving means for receiving search data input by a client, a vector calculation means for calculating a vector operation value using the search target document vector group, Sorting means for sorting the search target document group in the order of the calculated vector operation value and outputting the sort result to the client is provided.
[0047]
A significant difference from the first embodiment is that the search sentence vector creating means is omitted. The search data includes exclusion field data for specifying the search field and document data for specifying the search text. Based on the search text specified by the document data, one search target document vector specified from the search target document vector group created in advance by the search target document vector generation means is used as the search document vector. . The vector calculation means calculates a vector calculation value using a search target document vector group based on a field other than the field specified by the exclusion field data and a search document vector that is one specified search target document vector. We are going to calculate. The search method shown here is a kind of similar search that extracts a document having a concept similar to a search sentence specified by document data.
[0048]
It is assumed that the client inputs document data and exclusion field data that are search data. Here, it is assumed that a document number (2000-123) such as a publication number capable of specifying a document is input as the document data, and a symbol (C field) for specifying the field is input as the excluded field data. The search data is received by the search data receiving means in the server. Then, a vector matching the document number (2000-123) is extracted from the search target document vector group.
The vector calculation means performs vector calculation on the vector matching the extracted document number (2000-123) and the search target document vector group in the field other than the C field. The concept search can be performed without the presence or function of the search text vector creation means. As a result, the client can perform the concept search without inputting any search text, while the server side can reduce the burden on the hardware and can shorten the calculation time.
[0049]
(Figure 3)
FIG. 3 is a conceptual diagram showing a third embodiment of the present invention. In the system of this embodiment, a search is first performed using a search sentence, and a re-search is performed using excluded field data for specifying a field based on the search result.
The server shown here includes a stem vector creation means for creating a stem vector having a dictionary function from a dictionary creation document group, and a search target for each field from the search target document group divided into a plurality of stem vectors and search fields. A search target document vector creating means for creating a document vector group, a search data receiving means for receiving search data including a search text input by a client, and a search text vector using the search data Search text vector creation means, vector calculation means for calculating a vector operation value of the search text vector and search target document vector group, and sort the search target document group in the order of the calculated vector operation value, Sorting means for outputting the sort result.
[0050]
The stem vector creation means creates a stem vector from the dictionary creation document group. Further, the search target document vector creating means has field information so that the search fields in the search target document group can be classified into three fields A, B, and C, and fields divided based on the field information. A search target document vector group is created in advance for each. In the initial search, only the search text is input, and the field is not designated by the field data. Therefore, the vector calculation means performs vector calculation on the search target document vector group using the entire vector group and the search text vector. As a premise of this vector operation, an entire vector group that is not divided into fields may be created using stem vectors for all fields.
The sorting means includes a next search screen providing means for providing a next search input screen of the client, although not shown in the drawing, and the next search input screen displays excluded field data for specifying a search field to be excluded. The screen can be entered using a pull-down menu.
[0051]
The above-described vector calculation means recalculates the vector calculation value using the search target document vector group and the search sentence vector other than the exclusion field based on the exclusion field data input from the next search input screen. Similarly, the above-described sorting means also outputs to the client a re-sorting result obtained by sorting the search target document group based on the field data in the order of the re-calculated vector operation value.
[0052]
Assume that the client provided with the next search input screen inputs and transmits the exclusion field data (A). A search target document vector group in a field other than A is extracted from the excluded field data (A). Then, the vector calculation means recalculates the vector calculation value. In this case, if a word used in the search sentence includes a homonym that represents another meaning in the A field, the document in the A field gives a high score in the first sort result. there is a possibility. However, since the resort result does not include the document in the A field, the search target document in the A field is not extracted. In other words, this embodiment is effective when, for example, it is noticed from the first sort result that a homonym with another meaning in the A field is included.
[0053]
(Fig. 4)
FIG. 4 is a conceptual diagram showing the fourth embodiment of the present invention, and shows a concept search method for searching by inputting emphasized word data (α) together with search sentences. In other words, in addition to the search text as search data, the keyword “emphasized word data (α)” that is to be emphasized at the time of search extraction is input. To get a good search output.
The search data receiving means receives both the search text and the emphasized word data (α). Then, the search text editing means taking into account the emphasized word data (α) is edited by the search text editing means. This search sentence editing is not an operation performed by the user operating the client terminal, but the server automatically performs an editing operation such as repeatedly emphasizing the emphasized word data (α) into the sentence. The search text vector creating means creates a search text vector based on the edited search text and a separately created stem vector. Then, the vector calculation means outputs a vector calculation value using the search text vector and the search target document vector group, and the sorting means outputs the sort result to the client.
[0054]
(Fig. 6)
The principle of the search text input means and the emphasized word input means constituting the search data input means will be described with reference to FIG.
On the search data input screen, there are a column for entering “search text”, a column for entering “emphasized word”, a column for inputting “super-emphasized word” to be emphasized, and an opposite word or a word to be excluded. A column for inputting “negative word” is provided.
In the “Search text” field, enter “Used car online auction.” In the “Highlight word” field, enter “Internet.” In the “Super-highlight word” field, enter “Automobile”. It is assumed that “new car” is entered in the “negative word” field.
[0055]
In the lower left of FIG. 6, vectors formed by words such as “used car”, “auction”, “Internet”, and the like are shown. As shown in the lower right part of FIG. 6, the search sentence editing means performs editing such that the vector related to the emphasized word is tripled, the vector related to the super-enhanced word is multiplied by 5, and the vector related to the negative word is
[0056]
(Fig. 5)
FIG. 5 is a conceptual diagram showing the fifth embodiment of the present invention. First, a procedure is shown in which a concept search is performed only by using a search sentence, the emphasized word data (α) is input using the output result, and a search result utilizing the emphasized word data (α) is obtained.
As for the first search text, the search text vector creating means creates the search text vector as it is, and a vector operation is performed using the search text vector and the search target document vector group to obtain a sorted result. When the client inputs the emphasized word data (α) on the “next search screen” obtained together with the sort result, the emphasized word data (α) is used by the search sentence editing means to edit the search sentence. A re-search text vector is created using the edited search text, and vector calculation is performed again using the search text. The vector operation value is re-sorted by the sorting means and output as a re-sort result.
[0057]
The search shown in FIG. 5 experiences that the search result is blurred unless it is clearly stated that “net” is “Internet” in a search sentence such as “auction a used car online”. You can get search results that take advantage of that experience.
[0058]
(Variation of combination)
The concept search utilizing “exclusion field data” is described in FIGS. 1 to 3 and the concept search utilizing “emphasized word data” is illustrated independently in FIGS. 4 to 6. ”And“ emphasized word data ”can naturally be provided as a search data.
[0059]
(Existence by field)
In the embodiment shown in FIGS. 4 and 5, the stem vector and the search target document group are described as being created without dividing the field, but the stem vector and the search target document group may be created for each field. The spirit of the present invention can be realized.
[0060]
(Fig. 7)
FIG. 7 shows an output result of a simple concept search using a search sentence “Auction a used car online”.
The "net" in the search text above is only conscious of "Internet" as a client, but also means the meaning of a physical "net", so "~ protection net and fishing net", "vehicle net" The patent application related to the invention name such as "" has also been output as a sort result.
[0061]
(Fig. 8)
FIG. 8 is a diagram showing a search result screen in which “Internet” is input as an emphasized word. According to this search result, the sort result related to the invention name which is expected to mean the meaning of physical “network” is not output. On the other hand, the percentage of applications that clients would have wanted to hit, such as “used car auction management device”, “auction mall system”, “used car buying and selling system”, definitely increased compared to the case of FIG. ing.
[0062]
(Fig. 9)
It is a figure which shows the screen of the search result which input "new car" as a negative word. Comparing this sort result with the case of FIG. 8, it is clear that the auction system for products not related to “used cars” has been removed and the ratio of applications with “used cars” in the name of the invention has increased. is doing.
[0063]
(Fig. 10)
FIG. 10 is a diagram showing a search result screen in which the search text “Auction a used car” and the international patent classification A classification as exclusion field data are input. It is considered that the sorting result targeted by the client could be obtained from FIG. 7 by inputting the A classification that seems to have many inventions meaning the physical “network” as exclusion field data.
[0064]
In the embodiment described above, a search system in which the dictionary creation document group and the search target document group are the patent information document group is used. However, the present invention is not limited to the patent information search system.
On the other hand, even in a patent information search system, it is possible to create a dictionary creation document group from, for example, newspaper information other than the patent information document group.
[0065]
【The invention's effect】
According to the first to third aspects of the invention, it is possible to provide a concept search system in which a searcher can specify a field to be excluded from a search result.
Further, according to the invention described in claim 4, it is possible to provide a concept search program that allows a searcher to specify a field to be excluded from a search result.
[Brief description of the drawings]
FIG. 1 is a conceptual diagram showing a first embodiment.
FIG. 2 is a conceptual diagram showing a second embodiment.
FIG. 3 is a conceptual diagram showing a third embodiment.
FIG. 4 is a conceptual diagram showing a fourth embodiment.
FIG. 5 is a conceptual diagram showing a fifth embodiment.
FIG. 6 is a conceptual diagram showing the principle of search text editing means used in the fourth and fifth embodiments.
FIG. 7 is a diagram showing a specific screen (first search screen) provided first.
FIG. 8 is a diagram showing a search result screen in which an emphasized word is input.
FIG. 9 is a diagram illustrating a search result screen in which a negative word is input.
FIG. 10 is a diagram showing a search result screen in which excluded field data for excluding a certain field is input.
Claims (3)
前記検索対象文書群の各検索対象文書には、国際特許分類に基づくセクションまたはクラスに関するデータを含み、
前記検索用データには、検索対象文書群から排除したい国際特許分類を特定するための国際特許分類の所定セクションまたはクラスたる排除分野データを含み、
前記ベクトル演算手段は、その排除分野データに該当する検索対象文書ベクトル群以外の検索対象文書ベクトル群を前記検索対象文書ベクトル群から抽出し、その抽出した検索対象文書ベクトル群と検索用文章ベクトルとを用いてベクトル演算値を演算することとした概念検索システム。Stem vector creation means for creating a stem vector having a dictionary function from the dictionary creation document group, and a search target document vector group for each section or class from the search target document group that is a collection of the stem vector and the document that is patent information Search target document vector creation means for creating search data, search data reception means for receiving search data including search text input by the client, and creation of a search text vector using the search text and stem vector A search sentence vector creating means, a vector calculation means for calculating a vector calculation value of the search sentence vector and the search target document vector group, and sorting the search target document group in the order of the calculated vector calculation value, A concept retrieval system comprising sorting means for outputting a sorting result to a client. Te,
Each search target document of the search target document group includes data on a section or class based on an international patent classification,
The search data includes exclusion field data as a predetermined section or class of an international patent classification for specifying an international patent classification to be excluded from a search target document group,
The vector calculation means extracts a search target document vector group other than the search target document vector group corresponding to the exclusion field data from the search target document vector group, and the extracted search target document vector group, search text vector, A concept search system that uses vector to calculate vector operation values.
辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手段と、 ステムベクトルおよび国際特許分類に基づいて各セクションまたはクラスに分割された検索対象文書群からそのセクションまたはクラスごとに検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手段と、 クライアントが入力した検索用データを受信する検索用データ受信手段と、 検索対象文書ベクトル群を用いてベクトル演算値を演算するベクトル演算手段と、 演算されたベクトル演算値の順に検索対象文書群をソートしてクライアントへソート結果を出力するソート手段とを備え、
検索用データには、検索対象文書群から排除したい国際特許分類の所定セクションまたはクラスを特定するための排除分野データと検索用文章を特定するための文献データとを含み、
前記ベクトル演算手段は、その排除分野データに該当する検索対象文書ベクトル群以外の検索対象文書ベクトル群を抽出し、その抽出した検索対象文書ベクトル群と検索用文章ベクトルとを用いてベクトル演算値を演算することとした概念検索システム。A concept search system for executing a concept search on a search target document group that is a collection of documents that are patent information including data on sections or classes based on an international patent classification ,
A stem vector creating means for creating a stem vector forming a dictionary function from the dictionary creation documents, retrieved from stem vector and target document group that is divided into sections or classes based on the international patent classification per the section or class Search target document vector generating means for generating a target document vector group, search data receiving means for receiving search data input by a client, vector calculation means for calculating a vector operation value using the search target document vector group, Sorting means for sorting the search target document group in the order of the calculated vector operation value and outputting the sort result to the client,
The search data includes excluded field data for specifying a predetermined section or class of the international patent classification to be excluded from the search target document group, and literature data for specifying the search text,
The vector calculation means extracts a search target document vector group other than the search target document vector group corresponding to the exclusion field data, and uses the extracted search target document vector group and the search sentence vector to obtain a vector calculation value. A concept search system that is supposed to be operated.
そのプログラムは、辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手順と、
そのステムベクトルおよび国際特許分類に基づいて各セクションまたはクラスに分割された検索対象文書群からそのセクションまたはクラスごとに検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手順と、
クライアントが入力した検索用文章を含む検索用データを受信する検索用データ受信手順と、
その検索用データとステムベクトルとを用いて検索用文章ベクトルを作成する検索用文章ベクトル作成手順と、
その検索用文章ベクトルと検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手順と、
演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手順と、
検索対象から排除したい国際特許分類の所定セクションまたはクラスを特定するための排除分野データを受信する排除分野データ受信手順と、
その排除分野データに該当する検索対象文書ベクトル群以外の検索対象文書ベクトル群を前記検索対象文書ベクトル群から抽出し、その抽出した検索対象文書ベクトル群と検索用文章ベクトルとを用いてベクトル演算値を再演算する再演算手順と、
再演算されたベクトル演算値の順に国際特許分類に基づく検索対象文書群をソートした再ソート結果をクライアントに出力する再ソート手順と、をコンピュータに実行させるためのコンピュータ読み取り可能なプログラム。A program for causing a computer to execute a concept search on a search target document group that is a collection of documents that are patent information including data on sections or classes based on international patent classifications ,
The program includes a stem vector creation procedure for creating a stem vector having a dictionary function from a dictionary creation document group,
A search target document vector creation procedure for creating a search target document vector group for each section or class from the search target document group divided into each section or class based on the stem vector and the international patent classification ;
Retrieval data reception procedure for receiving search data including search sentences entered by the client;
A search text vector creation procedure for creating a search text vector using the search data and stem vector;
A vector operation procedure for calculating a vector operation value between the search sentence vector and the search target document vector group,
A sorting procedure for sorting the search target document group in the order of the calculated vector operation value and outputting the sort result to the client,
Exclusion field data reception procedure for receiving exclusion field data for identifying a predetermined section or class of an international patent classification to be excluded from search,
A search target document vector group other than the search target document vector group corresponding to the exclusion field data is extracted from the search target document vector group, and a vector operation value is calculated using the extracted search target document vector group and search sentence vector. Recalculation procedure to recalculate
A computer-readable program for causing a computer to execute a re-sorting procedure for outputting to a client a re-sorting result obtained by sorting a search target document group based on an international patent classification in the order of re-calculated vector operation values.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002273900A JP4357820B2 (en) | 2002-09-19 | 2002-09-19 | Concept search system and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002273900A JP4357820B2 (en) | 2002-09-19 | 2002-09-19 | Concept search system and computer program |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008322967A Division JP4914430B2 (en) | 2008-12-18 | 2008-12-18 | Concept search system and computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004110562A JP2004110562A (en) | 2004-04-08 |
JP4357820B2 true JP4357820B2 (en) | 2009-11-04 |
Family
ID=32270539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002273900A Expired - Fee Related JP4357820B2 (en) | 2002-09-19 | 2002-09-19 | Concept search system and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4357820B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9158210B2 (en) | 2007-02-26 | 2015-10-13 | Dai Nippon Printing Co., Ltd. | Work stage of exposing apparatus, exposing method and method of manufacturing a structure |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009043051A (en) * | 2007-08-09 | 2009-02-26 | Ntt Advanced Technology Corp | Text processing method and apparatus |
-
2002
- 2002-09-19 JP JP2002273900A patent/JP4357820B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9158210B2 (en) | 2007-02-26 | 2015-10-13 | Dai Nippon Printing Co., Ltd. | Work stage of exposing apparatus, exposing method and method of manufacturing a structure |
Also Published As
Publication number | Publication date |
---|---|
JP2004110562A (en) | 2004-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110232149B (en) | Hot event detection method and system | |
EP2041669B1 (en) | Text categorization using external knowledge | |
US8001152B1 (en) | Method and system for semantic affinity search | |
JP2019502995A (en) | Similar term aggregation method and apparatus | |
JP5012078B2 (en) | Category creation method, category creation device, and program | |
CN112000776B (en) | Topic matching method, device, equipment and storage medium based on voice semantics | |
JP4349875B2 (en) | Document filtering apparatus, document filtering method, and document filtering program | |
CN114461890A (en) | Hierarchical multi-modal intellectual property search engine method and system | |
Bhardwaj et al. | A novel approach to analyze the sentiments of tweets related to TripAdvisor | |
Archchitha et al. | Opinion spam detection in online reviews using neural networks | |
Gupta et al. | Keyword extraction: a review | |
US20120096028A1 (en) | Information retrieving apparatus, information retrieving method, information retrieving program, and recording medium on which information retrieving program is recorded | |
Fernandes et al. | Analysis of product Twitter data though opinion mining | |
WO2008062822A1 (en) | Text mining device, text mining method and text mining program | |
JP2002007433A (en) | Information sorter, information sorting method, computer readable recording medium recorded with information sorting program and information sorting program | |
CN118113806A (en) | Interpretable event context generation method for large model retrieval enhancement generation | |
JP5224532B2 (en) | Reputation information classification device and program | |
JP4357820B2 (en) | Concept search system and computer program | |
Sood et al. | Reasoning through search: a novel approach to sentiment classification | |
JP4914430B2 (en) | Concept search system and computer program | |
JP2002215642A (en) | Feedback type internet retrieval method, and system and program recording medium for carrying out the method | |
JP4240280B2 (en) | Concept search system, concept search method and computer program | |
Vishwakarma et al. | Text classification using FP-growth association rule and updating the term weight | |
JP2001325104A (en) | Method and device for inferring language case and recording medium recording language case inference program | |
Yuvashree et al. | Product aspect ranking using sentimental analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050727 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081022 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081218 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090325 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090522 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090617 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090707 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090729 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090805 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120814 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4357820 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120814 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130814 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |