JP4497337B2 - Concept search device and recording medium recording computer program - Google Patents

Concept search device and recording medium recording computer program Download PDF

Info

Publication number
JP4497337B2
JP4497337B2 JP2000197027A JP2000197027A JP4497337B2 JP 4497337 B2 JP4497337 B2 JP 4497337B2 JP 2000197027 A JP2000197027 A JP 2000197027A JP 2000197027 A JP2000197027 A JP 2000197027A JP 4497337 B2 JP4497337 B2 JP 4497337B2
Authority
JP
Japan
Prior art keywords
search
vector
target document
group
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000197027A
Other languages
Japanese (ja)
Other versions
JP2002015001A (en
Inventor
誠司 高野
伸治 市川
英久 廣本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2000197027A priority Critical patent/JP4497337B2/en
Publication of JP2002015001A publication Critical patent/JP2002015001A/en
Application granted granted Critical
Publication of JP4497337B2 publication Critical patent/JP4497337B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

【0001】
【発明が属する技術分野】
この発明は、技術文献、特許文献についての検索システムに対して、概念検索を応用したものである。
【0002】
【先行技術】
(従来の文書検索技術)
予め検索対象文書からキーワードを切り出し、インデックスファイルを作成する。そしてそのインデックスファイルと、検索のために入力されたキーワードとのマッチングによってヒットした文書をピックアップする方法が一般に用いられている。
【0003】
この技術では、該当するキーワードが存在する文書がヒットするため、検索が終了するまではヒット件数を把握できない。そのため、期待していたヒット件数よりも少ないヒット数しか得られない場合には、検索キーワードの再検討が必要となる。一方、期待していたヒット件数よりも多いヒット数を得てしまった場合にも、いわゆる絞り込みと呼ばれる検索キーワードの再検討が必要となる。
【0004】
(概念検索技術)
近年、ベクトル演算を用いた検索技術(概念検索技術)が誕生した。この技術は、予め辞書作成用の文種から形態素解析などによって単語を切り出し、各単語に基本となるベクトルを付与して、辞書機能をなすベクトル群(ステムベクトル)を生成する。そのステムベクトルをもとにして、検索対象文書全体のベクトルを決定し、検索対象文書群から検索対象文書ベクトル群を生成する。その結果、検索対象文書は、各々一文書あたり一つのベクトルを持つこととなる。検索を実行する際には、検索のために入力した文章をステムベクトルに基づいて検索文章ベクトルを生成し、その検索文章ベクトルと前記検索対象文書ベクトル群との内積を演算し、内積値の高い検索対象文書から所定件数を出力させる。
【0005】
この技術によれば、検索対象文書群から関連度の高い文書から順に所定件数を必ず出力させることが可能となり、キーワード検索による欠点を克服できる。
【0006】
(調査結果)
なお、本出願人は、特許出願、実用新案登録出願を調査し、関連技術として次の技術を抽出した。
その関連技術たる特開2000−20520号は、「言語解析認識処理の方法等」に関するものである。そしてその技術は、操作者が自由に入力した自然語、入力文に対して柔軟に適応する機能を備えて作動することを特徴とする。そのほか、特願平9−219299号、特願平11−4523号などを抽出した。
【0007】
【発明が解決しようとする課題】
先行技術としての概念検索では、検索対象文書に含まれる単語にてヒットするようにするため、ステムベクトルを生成する際に、検索対象となる検索対象文書自身を用いていた。そのため、検索対象文書が追加されると、ステムベクトルに歪みが生じることとなる。この歪みを補正するためには、検索対象文書が更新または追加されるたびにステムベクトルを再生成する必要がある。このため、検索対象文書が更新または追加が頻繁に行われる動的な文書群の検索には採用されてこなかった。
【0008】
また、検索対象文書の数が多かったり、一文書当たりの単語数が多かったりする場合には、検索対象文書ベクトルの生成には、ハードウェアへの負荷が大きく、時間が掛かっていた。ところで、一文書当たりの単語数が多い場合、その中の特定範囲について、他の範囲よりも価値を高める工夫がされる場合が多い。具体的には、学術論文における抄録(サマリー)、特許情報における要約書や特許請求の範囲などである。
【0009】
本発明が解決すべき課題は、更新または追加が頻繁に行われる動的な検索対象文書群であって、且つ一文書当たりの単語数が多い検索対象文書に対し、概念検索を達成するための技術を提供することにある。
ここで、請求項1から請求項13に記載の発明の目的は、更新または追加が頻繁に行われる動的な検索対象文書群であって、且つ一文書当たりの単語数が多い検索対象文書に対して概念検索を行える装置を提供することである。
【0010】
また、請求項14から請求項15に記載の発明の目的は、更新または追加が頻繁に行われる動的な検索対象文書群であって、且つ一文書当たりの単語数が多い検索対象文書に対して概念検索を行えるコンピュータプログラムを提供することである。
【0011】
【課題を解決するための手段】
本発明は、上記した目的を達成するためのものである。
(請求項1)
請求項1記載の発明は、クライアント・サーバシステムにおけるサーバに備えられる装置に係る。
すなわち、 辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手段と、 前記ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手段と、 クライアントから所定出力数を入力される所定出力数入力手段と、 クライアントから入力された検索用文章と前記ステムベクトルとから検索用文章ベクトルを作成する検索用文章ベクトル作成手段と、 その検索用文章ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手段と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントの出力手段へソート結果を出力するソート手段と、を備える。
そして、前記の検索対象文書群は、特許情報文献群とするとともに特許情報文献群における各々の特許出願文献の所定部分とし、 前記のソート手段は、前記の所定出力数入力手段にて所定出力数として予め入力されたデータ件数の検索対象文書群をクライアントの出力手段へ出力するとともに、 出力される検索対象文書群のうち、最高スコアおよび最低スコアをクライアントの出力手段へ出力することとした概念検索装置に係る。
【0012】
(用語説明)
「クライアント・サーバシステム」は、LANで接続されたもののほか、イントラネット上のクライアント・サーバシステム、クライアントがサーバ運営者と契約してインターネットなどのネットワークにて接続された場合を含む。「ベクトル」とは、多次元のベクトルをいい、数次元から数百次元である。あまり少ないと精度が下がり、あまり多いと演算負担が大きいので、精度および演算負担に鑑みて、次元数を決定する。後述する実施形態では「280次元」とした。
「ベクトル演算値」とは、代表的には、検索対象文書ベクトルと検索用文章ベクトルとの内積値をいうが、各種の係数を掛けたり、外積としたりする他の計算手法を採用する場合もある。「辞書作成用文書群および検索対象文書群」としては、特許情報文献の他、新聞記事、学術書などを用いる。
「特許情報文献」とは、特許出願された公開公報、特許された特許公報、以前の特許法の下で出願公告された公告公報、実用新案登録出願に係る文献、特許出願を審査するために用いられる公開技報、技術論文などをいう。
「所定出力数」とは、クライアントの操作者が入力したり、サーバがクライアントへ選択してもらうような入力手段を提供したりして予め決定することをいう。なお、ソート手段による出力後に再入力することができるようにしてもよい。
【0013】
(作用)
まず、ステムベクトル作成手段が辞書作成用文書群から辞書機能をなすステムベクトルを作成し、検索対象文書ベクトル作成手段が前記ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する。続いて、検索用文章ベクトル作成手段が、クライアントから入力された検索用文章と前記ステムベクトルとから検索用文章ベクトルを作成し、ベクトル演算手段がその検索用文章ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算する。そして、ソート手段が演算されたベクトル演算値の順に検索対象文書群を並べたソート結果をクライアントの出力手段へ出力する。
辞書作成用文書群および検索対象文書群の少なくとも一方は、特許情報文献群としているので、特許文献検索に適している。また、更新または追加が頻繁に行われる動的な検索対象文書群であって、且つ一文書当たりの単語数が多い検索対象文書に対し、概念検索を達成できる。更に、辞書作成用文書群について検索対象文書群とは異なる種類の文献とすると、質の異なった概念検索が行える。
検索対象文書群を、特許情報文献群における各々の特許出願文献の所定部分としたので、検索対象文書ベクトルの作成、ベクトル演算値の演算などが短時間で行える。
概念検索には、「ヒット件数」ということがないが、所定出力数を入力してあれば、その数の検索対象文書群をクライアントの出力手段へ出力することができる。
最高スコアおよび最低スコアがクライアントの出力手段へ出力されるので、概念検索の検証、検索用文章についての再検討などが行える。
【0014】
前記の辞書作成用文書群は、その辞書作成用文書群の中から選ばれた数の辞書作成用文書群とした概念検索装置を提供することもできる。
【0015】
(用語説明)
「辞書作成用文書群の中から選ばれた数の辞書作成用文書群」とは、例えば、隔年毎に区切られた10年分の文書群の中の5年分の文書群である。
【0016】
(用語説明)
「辞書作成用文書群がなす群の中の一部分」とは、ある数の辞書作成用文書群の中から選ばれた数の辞書作成用文書群の意である。例えば、隔年毎に区切られた10年分の文書群の中の5年分の文書群である。
【0017】
(作用)
辞書作成用文書群を、辞書作成用文書群がなす群の中の一部分としているので、ステムベクトルの作成が短時間で行える。
【0018】
(用語説明)
「辞書作成用文書群における各々の辞書作成用文書の所定部分」とは、例えば、辞書作成用文書群が技術論文である場合に技術論文におけるサマリー、辞書作成用文書群が特許出願書類である場合における特許請求の範囲、要約書、請求項1、発明の詳細な説明、など、あるいはそれらの組み合わせである。
【0019】
(削除)
【0020】
「特許情報文献群における各々の特許出願文献の所定部分」とは、例えば、特許請求の範囲、要約書、請求項1、発明の詳細な説明のいずれか、あるいはそれらの組み合わせなどである。
【0021】
請求項1は、以下のようなバリエーションを提供することもできる。
すなわち、前記のソート手段は、所定スコアとして予めクライアントから入力されたスコアデータを上回る検索対象文書群をクライアントの出力手段へ出力することとした概念検索装置に係る。
【0022】
「所定スコア」とは、クライアントの操作者が入力したり、サーバがクライアントへ選択してもらうような入力手段を提供したりして予め決定することをいう。ベクトル演算値が内積値である場合には、完全一致スコアが1.00であるので、それよりも低い値を入力することとなる。なお、ソート手段による出力後に再入力することができるようにしてもよい。
【0023】
概念検索には、「ヒット件数」ということがないが、所定スコアを入力してあれば、そのスコアデータを上回る検索対象文書群をクライアントの出力手段へ出力することができる。所定スコアとして例えば「0.6」を予め入力しておくと、0.6を上回る検索対象文書群が高スコア順にソートされて出力されることとなる。
【0024】
(削除)
【0025】
(削除)
【0026】
なお、前述の「所定スコア」と組み合わせ、例えば、「50件までで且つ所定スコア=0.7以上」というように決定することができるようにしてもよい。
【0027】
(削除)
【0028】
(請求項2)
請求項2に記載の発明は、請求項1に記載の概念検索装置を限定したものであり、
クライアントから通常検索のためのキーワードまたは分類等を入力された場合に、キーワード検索または分類検索等の通常検索を行って、その検索結果をクライアントの出力手段へ出力させるための通常検索手段を備え、 その通常検索手段は、ソート結果に対してクライアントから通常検索のためのキーワードまたは分類等を入力された場合に、通常検索を行うこととした概念検索装置に係る。
【0029】
(用語説明)
「通常検索」とは、予め定められた分類を指定したり、検索対象文書において使用されているキーワードなどについてヒットしている文書を検索するものである。論理式(and、×、or、+など)を採用することができるようにしている場合が一般的である。
【0030】
(作用)
通常検索手段は、クライアントから通常検索のためのキーワードまたは分類を入力された場合に通常検索を行う。そして、その通常検索結果を更なる概念検索に用いたり、概念検索の後に通常検索を行ったりすることができる。
また、概念検索のソート結果に対して、通常検索を行わせることができる。従って、欲する情報を入手しやすくなる。
【0031】
(請求項3)
請求項3に記載の発明は、請求項2に記載の概念検索装置を限定したものであり、
通常検索手段は、検索結果の書誌的事項を一覧表示させる一覧表示機能と、 当該一覧表示の中からクライアントが選択した検索対象文書を呼び出して、その検索対象文書の一部または全部を、クライアントの出力手段へ出力させるためのリンク機能とを備える。
また、通常検索手段のリンク機能は、検索対象文書の一部または全部を、コピーアンドペースト可能であるようにクライアントの出力手段へ出力することとした概念検索装置である。
【0032】
(用語説明)
「書誌的事項」とは、各検索対象文書におけるインデックス的な情報であって、例えば、技術論文におけるタイトルや筆者名、特許情報書類における発明の名称や出願公開番号などである。「一覧表示機能」とは、複数の書誌的事項を表にして出力させる機能をいう。
【0033】
(作用)
通常検索手段の一覧表示機能が検索結果の書誌的事項を一覧表示させる。次いで、リンク機能が、クライアントが一覧表示から選択した検索対象文書を呼び出して、その検索対象文書の一部または全部を、クライアントの出力手段へ出力させる。ここにおいて、欲しい情報か否かの判断を素早く行うことができる。
また、リンク機能を用いて出力させた検索対象文書の一部または全部は、コピーアンドペースト可能である。したがって、続けて検索、特に概念検索を行う場合などにおいて、検索用文章を考えたり、タイプしたりするという入力の手間が軽減できる。
【0034】
(削除)
【0035】
(削除)
【0036】
(請求項4)
請求項4記載の発明は、請求項2に記載の概念検索装置を限定したものである。
通常検索手段は、検索結果の書誌的事項を一覧表示させる一覧表示機能と、当該一覧表示の中からクライアントが選択した検索対象文書の一部または全部を、検索用文章とすることが可能なリンク機能とを備えた概念検索装置に係る。
【0037】
(作用)
通常検索手段による検索結果は、一覧表示機能によって書誌的事項が一覧表示される。その中から検索対象文書の一部または全部をクライアントが選択すると、リンク機能が選択された検索対象文書の一部または全部を検索用文章として採択し、ベクトル演算手段によってベクトル演算値を演算する。ここにおいて、クライアントユーザは、検索用文章を入力する手間が要らないというメリットがある。
また、ベクトル群抽出手段が、検索対象文書ベクトル作成手段の作成した検索対象文書ベクトル群の中から所定の検索対象文書ベクトル群を抽出する。そして、そのベクトル群抽出手段は、通常検索手段の検索結果を用いて検索対象文書ベクトル群を抽出する。このようにすると、すべての検索対象ベクトル群を用いてベクトル演算する場合に比べて、ベクトル演算の数を絞ることができ、演算が短時間で行える。
【0038】
(請求項5)
請求項5に記載の発明は、請求項2または請求項4のいずれに記載の概念検索装置を限定したものであり、
前記の検索対象文書ベクトル作成手段が作成した検索対象文書ベクトル群の中から所定の検索対象文書ベクトル群を抽出するベクトル群抽出手段を備え、 そのベクトル群抽出手段は、通常検索手段の検索結果を用いて検索対象文書ベクトル群を抽出することとしたものである。
【0039】
(作用)
ベクトル群抽出手段が、検索対象文書ベクトル作成手段の作成した検索対象文書ベクトル群の中から所定の検索対象文書ベクトル群を抽出する。そして、そのベクトル群抽出手段は、通常検索手段の検索結果を用いて検索対象文書ベクトル群を抽出する。
このようにすると、すべての検索対象ベクトル群を用いてベクトル演算する場合に比べて、ベクトル演算の数を絞ることができ、演算が短時間で行える。
【0040】
なお、前記の通常検索手段は、ソート手段に対して検索結果を用いたソート結果を出力させることとしてもよい。
その場合、通常検索手段が検索した検索結果は、ソート手段がソート結果を出力する際に用いる。通常検索にいう「ヒット数」は概念検索には存在しないが、ソート出力の際に通常検索の検索結果、すなわちヒット数を用いることができる。
【0041】
(請求項6)
請求項6記載の発明は、請求項2から請求項5のいずれかに記載の概念検索装置を限定したものであり、
検索対象文書ベクトル作成手段は、通常検索手段の検索結果に対応する検索対象文書群を用いて検索対象文書ベクトル群を作成することとした概念検索装置に係る。
【0042】
(作用)
通常検索手段が検索した結果は、全検索対象文書群を絞り込むのに用いる。そこで絞り込まれた検索対象群を用いて、検索対象文書ベクトルが作成され、ベクトル演算され、ソート結果が出力される。このため、全検索対象文書群を用いる場合に比べてベクトル演算の数を絞ることができ、演算が短時間で行える。
【0043】
(請求項7)
請求項7記載の発明は、請求項2から請求項6のいずれかに記載の概念検索装置を限定したものであり、
ベクトル演算手段によって演算されたベクトル演算値における所定値以上のソート結果を記憶するソート結果記憶手段を備え、 通常検索手段は、ソート結果記憶手段に記憶された所定ベクトル演算値以上の検索対象文書群を用いて通常検索を行うこととした概念検索装置に係る。
【0044】
(作用)
ソート記憶手段が、ベクトル演算手段によって演算されたベクトル演算値における所定値以上のソート結果を記憶する。そして、通常検索手段は、ソート結果記憶手段に記憶された所定ベクトル演算値以上の検索対象文書群を用いてキーワード検索または分類検索を行う。これにより、概念検索による絞り込み結果に対して、キーワード検索または分類検索が行える。
【0045】
なお、ソート手段は、ソート結果の書誌的事項を一覧表示させる一覧表示機能と、 当該書誌的事項の中からクライアントが選択した検索対象文書を呼び出して、その検索対象文書の一部または全部を、クライアントの出力手段へ出力させるためのリンク機能とを備えた概念検索装置を提供することとしてもよい。
【0046】
そのような概念検索装置の場合、概念検索のソート結果として、一覧表示機能によって書誌的事項が一覧表示される。次いで、リンク機能が、クライアントが一覧表示から選択した検索対象文書を呼び出して、その検索対象文書の一部または全部を、クライアントの出力手段へ出力させる。ここにおいて、欲しい情報か否かの判断を素早く行うことができる。
【0047】
(請求項8)
請求項8記載の発明は、請求項2から請求項7のいずれかに記載の概念検索装置を限定したものである。
すなわち、予め所定の検索用文章を入力して登録しておく検索用文章蓄積手段を備え、 前記のベクトル演算手段は、検索対象文書群が更新または追加されたら、その検索用文章蓄積手段に登録された検索用文章を用いてベクトル演算値を演算することとする。 ソート手段は、更新または追加された検索対象文書群についてソート出力するとともに、所定スコアとして予めクライアントから入力されたスコアデータを上回る検索対象文書群をクライアントの出力手段へ出力することとした概念検索装置に係る。
【0048】
(作用)
クライアントユーザは、必要であれば、所定の検索用文章を入力し、サーバの検索用文章蓄積手段へ登録しておく。検索対象文書群が更新または追加されたら、ベクトル演算手段は、その検索用文章蓄積手段に登録された検索用文章を用いてベクトル演算値を演算する。そして、ソート手段が更新または追加された検索対象文書群についてソート出力する。予め登録した検索用文章に対するベクトル演算値が演算され、出力されるので、いわゆるSDIサービスを実現できることとなる。
【0049】
(請求項9)
請求項9記載の発明は、請求項2から請求項8のいずれかに記載の概念検索装置を限定したものである。
すなわち、予め所定の検索用文章を入力し、その検索用文章を用いて作成した検索用文章ベクトルを登録しておく検索用文章ベクトル蓄積手段を備え、 前記のベクトル演算手段は、検索対象文書群が更新または追加されたら、その検索用文章ベクトル蓄積手段に登録された検索用文章ベクトルを用いてベクトル演算値を演算する。
ソート手段は、更新または追加された検索対象文書群についてソート出力するするとともに、所定スコアとして予めクライアントから入力されたスコアデータを上回る検索対象文書群をクライアントの出力手段へ出力することとした概念検索装置に係る。
【0050】
(作用)
クライアントユーザは、必要であれば、所定の検索用文章を入力する。すると、検索用文章ベクトル作成手段が検索用文章ベクトルを作成し、検索用文章ベクトル蓄積手段へ登録する。検索対象文書群が更新または追加されたら、ベクトル演算手段は、その検索用文章蓄積手段に登録された検索用文章を用いてベクトル演算値を演算する。そして、ソート手段が更新または追加された検索対象文書群についてソート出力する。所定の検索用文章に対する検索用文章ベクトルが予め作成されているので、ベクトル演算が早く行えるという利点がある。
【0051】
(請求項10)
請求項10記載の発明は、請求項8または請求項9のいずれかに記載の概念検索装置を限定したものであり、 予め入力する検索用文章を複数入力するとともに、 ソート手段は、それら検索用文章に対応させてソート結果を出力させることとした概念検索装置に係る。
【0052】
(作用)
クライアントユーザは、所定の検索用文章を複数入力する。ベクトル演算手段は、それら複数の検索用文章を用いてベクトル演算値をそれぞれ演算する。そして、ソート手段は、それら検索用文章に対応させてソート結果を出力させる。例えば、複数の研究テーマを抱える一人の研究者に対して、研究テーマごとに検索用文章を入力しておく。すると、その検索用文章ごとにソート結果を得られる。
【0053】
(請求項11)
請求項11記載の発明は、請求項1から請求項10のいずれかに記載の概念検索装置を限定したものである。
すなわち、前記のソート手段による出力に基づいて作成した新たな検索用文章を再入力するための再入力手段をクライアントへ提供し、 前記の検索用文章ベクトル作成手段は、再入力された検索用文章を用いて新たな検索用文章ベクトルを作成し、 前記のベクトル演算手段は、その新たな検索用文章ベクトルを用いて新たなベクトル演算値を演算し、 前記のソート手段は、その新たなベクトル演算値に基づいてソートすることとした概念検索装置に係る。
【0054】
(作用)
サーバは、ソート手段による出力後、そのソート出力に基づいて作成した新たな検索用文章を再入力するための再入力手段をクライアントへ提供し、クライアントユーザは、新たな検索用文章を入力する。その新たな検索用文章によって新たな検索用文章ベクトルを作成し、ベクトル演算手段は、新たなベクトル演算値を演算し、ソート手段が新たなベクトル演算値に基づくソートを行う。
【0055】
請求項11に記載の発明は、以下のように形成することもできる。
すなわち、ソート手段は、ソート結果の書誌的事項を一覧表示させる一覧表示機能と、 当該書誌的事項の中からクライアントが選択した検索対象文書を呼び出して、その検索対象文書の一部または全部を、クライアントの出力手段へ出力させるためのリンク機能とを備えるとともに、 前記リンク機能は、検索対象文書の一部または全部を、コピーアンドペースト可能であるようにクライアントへ出力することとした概念検索装置としてもよい。
【0056】
そのような概念検索装置の場合、ソート手段の一覧表示機能によってソート結果の書誌的事項を一覧表示される。そして、リンク機能を用いて出力させた検索対象文書の一部または全部は、コピーアンドペースト可能である。したがって、続けて概念検索を行う場合などにおいて、検索用文章を考えたり、タイプしたりするという入力の手間が軽減できる。
【0057】
請求項11に記載の発明は、以下のように形成することもできる。
すなわち、ソート手段は、ソート結果の書誌的事項を一覧表示させる一覧表示機能を備え、再入力手段は、前記一覧表示の中から検索対象文書の一部または全部を、検索用文章として選択可能することで入力を代行するリンク機能を備えた概念検索装置に係る。
【0058】
そのような概念検索装置の場合、ソート結果は、ソート手段の一覧表示機能によって書誌的事項が一覧表示される。その中から検索対象文書の一部または全部をクライアントが選択すると、リンク機能が選択された検索対象文書の一部または全部を検索用文章として採択し、ベクトル演算手段によってベクトル演算値を演算する。ここにおいて、クライアントユーザは、検索用文章を入力する手間が要らないというメリットがある。
【0059】
(請求項12)
請求項12記載の発明は、請求項1から請求項11のいずれかに記載の概念検索装置を限定したものである。
すなわち、前記のステムベクトル作成手段は、複数の辞書作成用文書群から当該数のステムベクトルを作成し、 前記のベクトル演算手段は、検索対象文書群をステムベクトルごとにベクトル演算値を演算し、 前記のソート手段は、各検索対象文書群を、最も高いベクトル演算値のステムベクトルへ振り分けてソート結果を出力させることとした概念検索装置に係る。
【0060】
(用語説明)
複数のステムベクトルは、例えば、特許情報文献において技術分野ごとに作成したり、複数の発行時期に対して所定期間ごと、具体的には、1999年の1年間、1990年代の10年間、といった期間ごとに作成する。または、辞書作成用文書群の分類ごと、具体的には、特許公報、公開公報、実用新案登録公報ごとに作成する。
【0061】
(作用)
ステムベクトル作成手段は、複数の辞書作成用文書群、例えば年度ごと、文書種類ごとに当該数のステムベクトルを作成する。そして、ベクトル演算手段が、検索対象文書群をステムベクトルごとにベクトル演算値を演算し、ソート手段が、各検索対象文書群を、最も高いベクトル演算値のステムベクトルへ振り分けてソート結果を出力する。検索対象文書群は、複数のステムベクトルごとに設けられたカテゴリーのいずれかひとつに振り分けられることとなる。ここにおいて、辞書作成用文書群ごとにソート結果を得ることができる。複数のステムベクトルを時代ごとに作成した場合、ソート手段がそれら複数のステムベクトルに対応させてソート結果を出力させることとしているので、時代ごとに推移する言葉、キーワード、用語などに細かく対応した概念検索が可能となる。
【0062】
請求項12に記載の発明は、以下のように形成することもできる。
すなわち、検索対象文書ベクトル作成手段は、検索対象文書群における所定部分ごとに検索対象文書ベクトル群を作成し、 ベクトル演算手段は、その検索対象文書ベクトル群を用いてベクトル演算値を演算し、 ソート手段は、所定部分ごとにベクトル演算値をクライアントの出力手段へ出力することとした概念検索装置としてもよい。
【0063】
そのような概念検索装置の場合、まず、検索対象文書ベクトル作成手段が、検索対象文書群における所定部分ごとに検索対象文書ベクトル群を作成する。そして、ベクトル演算手段が、その検索対象文書ベクトル群を用いてベクトル演算値を演算し、ソート手段が、所定部分ごとにベクトル演算値をクライアントの出力手段へ出力する。ここにおいて、検索対象文書群における所定部分ごとにソート結果を得ることができる。
【0064】
(請求項13)
請求項13記載の発明は、一般にパテントマップと呼ばれている出力方式にて直接出力する概念検索装置であり、請求項1から請求項12のいずれかに記載の概念検索装置を限定したものである。
すなわち、前記の検索対象文書群は、所定母集団の検索対象文書群とし、 前記の検索用文章ベクトル作成手段は、前記検索対象文書群に対して複数の検索用文章による複数の検索用文章ベクトルを作成し、 前記のソート手段は、前記検索用文章ベクトルに基づく複数の座標軸に対するベクトル演算値をプロットしてクライアントの出力手段へ出力するとともに、 所定のプロットにおける検索対象文書群の書誌的事項の一部を、クライアントの出力手段へ出力可能とした概念検索装置に係る。
【0065】
(作用)
まず、検索対象文書群が所定母集団へ、何らかの手段によって絞られる。そして、検索用文章ベクトル作成手段が、前記検索対象文書群に対して複数の検索用文章による複数の検索用文章ベクトルを作成する。そして、ソート手段が、前記検索用文章ベクトルに基づく複数の座標軸に対するベクトル演算値をプロットしてクライアントの出力手段へ出力する。
プロットされている検索対象文書群の書誌的事項の一部がクライアントの出力手段へ出力できるので、使いやすい。
【0066】
(削除)
【0067】
請求項1に対応させた方法発明を提供することもできる。
すなわち、辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手順と、 前記ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手順と、 クライアントから入力された検索用文章と前記ステムベクトルとから検索用文章ベクトルを作成する検索用文章ベクトル作成手順と、 その検索用文章ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手順と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手順とを備え、 辞書作成用文書群および検索対象文書群の少なくとも一方は、特許情報文献群とした概念検索方法である。
【0068】
前述の概念検索方法は、クライアントから通常検索のためのキーワードまたは分類を入力された場合に、キーワード検索または分類による通常検索を行って、その検索結果をクライアントへ出力させるための通常検索手順とを備えた概念検索方法としてもよい。
【0069】
前述の概念検索方法は、以下のように形成しても良い。すなわち、通常検索手順には、検索結果の書誌的事項を一覧表示させる一覧表示手順と、 当該書誌的事項の中からクライアントが選択した検索対象文書を呼び出して、その検索対象文書の一部または全部を、クライアントへ出力させるためのリンク手順と含むこととした概念検索方法である。
【0070】
前述の概念検索方法は、以下のように形成しても良い。すなわち、辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手順と、 前記ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手順と、 クライアントから通常検索のためのキーワードまたは分類を入力された場合に、キーワード検索または分類による通常検索を行って、その検索結果の書誌的事項をクライアントへ一覧表示させる通常検索一覧表示手順と、 当該書誌的事項の中からクライアントが選択した検索対象文書の一部又は全部を、検索用文章とし、その検索用文章と前記ステムベクトルとから検索用文章ベクトルを作成する検索用文章ベクトル作成手順と、 その検索用文章ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手順と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手順とを備え、 辞書作成用文書群および検索対象文書群の少なくとも一方は、特許情報文献群とした概念検索方法である。
【0071】
前述の概念検索方法は、以下のように形成しても良い。すなわち、ベクトル演算手順によって演算されたベクトル演算値における所定値以上のソート結果を記憶するソート結果記憶手順を備え、 通常検索手順においては、ソート結果記憶手順において記憶された所定ベクトル演算値以上の検索対象文書群を用いてキーワード検索または分類検索を行うこととした概念検索方法である。
【0072】
前述の概念検索方法は、以下のように形成しても良い。すなわち、ソート手順においては、書誌的事項を一覧表示するとともに、 当該書誌的事項に対応する検索対象文書の一部又は全部を出力させることが可能であるように検索対象文書群とのリンク機能を備えた概念検索方法である。
【0073】
前述の概念検索方法は、以下のように形成しても良い。すなわち、予め所定の検索用文章を入力して登録しておく検索用文章蓄積手順を備え、 ベクトル演算手順においては、検索対象文書群が更新または追加されたら、その検索用文章蓄積手段によって登録された検索用文章を用いてベクトル演算値を演算することとし、 ソート手順においては、更新または追加された検索対象文書群についてソート出力することとした概念検索方法である。
【0074】
前述の概念検索方法は、以下のように形成しても良い。すなわち、予め所定の検索用文章を入力し、その検索用文章を用いて作成した検索用文章ベクトルを登録しておく検索用文章ベクトル蓄積手順を備え、 ベクトル演算手順においては、検索対象文書群が更新または追加されたら、その検索用文章ベクトル蓄積手順によって登録された検索用文章ベクトルを用いてベクトル演算値を演算することとし、 ソート手順においては、更新または追加された検索対象文書群についてソート出力することとした概念検索方法である。
【0075】
前述の概念検索方法は、以下のように形成しても良い。すなわち、ソート手順による出力に基づいて作成した新たな検索用文章を再入力するための再入力手段をクライアントへ提供する再入力提供手順を備え、 検索用文章ベクトル作成手順は、再入力された検索用文章を用いて新たな検索用文章ベクトルを作成し、 ベクトル演算手順においては、その新たな検索用文章ベクトルを用いて新たなベクトル演算値を演算し、 ソート手順においては、その新たなベクトル演算値に基づいてソートすることとした概念検索方法である。
【0076】
前述の概念検索方法は、以下のように形成しても良い。すなわち、ソート手順は、ソート結果の書誌的事項を一覧表示させる一覧表示手順と、 当該書誌的事項の中からクライアントが選択した検索対象文書を呼び出して、その検索対象文書の一部または全部を、クライアントへ出力させるためのリンク手順とを備えるとともに、 前記リンク手順は、検索対象文書の一部または全部を、コピーアンドペースト可能であるようにクライアントへ出力することとした概念検索方法である。
【0077】
前述の概念検索方法は、以下のように形成しても良い。すなわち、ソート結果の書誌的事項を一覧表示させる一覧表示手順と、 当該書誌的事項の中からクライアントが選択した検索対象文書の一部又は全部を、検索対象文章として再入力する検索用文章再入力手順とを備え、 検索用文章ベクトル作成手順は、再入力された検索用文章を用いて新たな検索用文章ベクトルを作成し、 ベクトル演算手順においては、その新たな検索用文章ベクトルを用いて新たなベクトル演算値を演算し、 ソート手順においては、その新たなベクトル演算値に基づいてソートすることとした概念検索方法である。
【0078】
前述の概念検索方法は、以下のように形成しても良い。すなわち、ステムベクトル作成手順において、複数のステムベクトルを作成し、ベクトル演算手順においては、検索対象文書群をステムベクトルごとにベクトル演算値を演算し、 ソート手順においては、各検索対象文書群を、最も高いベクトル演算値のステムベクトルへ振り分けてソート結果を出力させることとした概念検索方法である。
【0079】
前述の概念検索方法は、以下のように形成しても良い。すなわち、検索対象文書ベクトル作成手順においては、検索対象文書群における所定部分ごとに検索対象文書ベクトル群を作成し、 ベクトル演算手順においては、その検索対象文書ベクトル群を用いてベクトル演算値を演算し、 ソート手順においては、所定部分ごとにベクトル演算値をクライアントへ出力することとした概念検索方法である。
【0080】
前述の概念検索方法は、以下のように形成しても良い。すなわち、検索対象文書群は、所定母集団の検索対象文書群とし、 検索用文章ベクトル作成手順においては、前記検索対象文書群に対して複数の検索用文章による複数の検索用文章ベクトルを作成し、 ソート手順においては、前記検索用文章ベクトルに基づく複数の座標軸に対するベクトル演算値をプロットしてクライアントへ出力することとした概念検索方法である。
【0081】
なお、プログラムを記録したコンピュータ読み取り可能な記録媒体を提供することもできる。そして、そのプログラムは、辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手順と、 前記ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手順と、 クライアントから入力された検索用文章と前記ステムベクトルとから検索用文章ベクトルを作成する検索用文章ベクトル作成手順と、 その検索用文章ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手順と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手順とを備え、辞書作成用文書群および検索対象文書群の少なくとも一方は、特許情報文献群としたプログラムとする。
ここで、「記録媒体」とは、それ自身では空間を占有し得ないプログラムを担持することができる媒体であり、例えば、フロッピー(登録商標)ディスク、ハードディスク、CD−ROM、MO(光磁気ディスク)、DVD−ROM、PDなどである。
【0082】
(請求項14)
請求項14に記載の発明は、プログラムを記録したコンピュータ読み取り可能な記録媒体に係る。
そして、そのプログラムは、特許情報文献群からなる辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手順と、 前記ステムベクトルおよび特許情報文献群からなる検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手順と、 クライアントから所定出力数を入力される所定出力数入力手順と、 クライアントから入力された検索用文章と前記ステムベクトルとから検索用文章ベクトルを作成する検索用文章ベクトル作成手順と、 その検索用文章ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手順と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントの出力手段へソート結果を出力するソート手順と、 クライアントから通常検索のためのキーワードまたは分類を入力された場合に、キーワード検索または分類検索を行って、その検索結果をクライアントの出力手段へ出力させるための通常検索手順と、コンピュータに実行させるためのプログラムとする。
そして、前記の検索対象文書群は、特許情報文献群における各々の特許出願文献の所定部分とし、 前記のソート手順においては、所定出力数として予め入力されたデータ件数の検索対象文書群をクライアントの出力手段へ出力するとともに、 出力される検索対象文書群のうち、最高スコアおよび最低スコアをクライアントの出力手段へ出力することとする。
【0083】
(請求項15)
請求項15に記載の発明もまた、プログラムを記録したコンピュータ読み取り可能な記録媒体に係る。
そして、そのプログラムは、特許情報文献群からなる辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手順と、 前記ステムベクトルおよび特許情報文献群からなる検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手順と、 クライアントから所定出力数を入力される所定出力数入力手順と、 クライアントから入力された検索用文章と前記ステムベクトルとから検索用文章ベクトルを作成する検索用文章ベクトル作成手順と、 その検索用文章ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手順と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントの出力手段へソート結果を出力するソート手順と、 そのソート手順による出力に基づいて作成した新たな検索用文章を再入力するための再入力手段をクライアントへ提供する再入力提供手順と、をコンピュータに実行させるためのプログラムである。
前記の検索対象文書群は、特許情報文献群における各々の特許出願文献の所定部分とし、 前記のソート手順においては、所定出力数として予め入力されたデータ件数の検索対象文書群をクライアントの出力手段へ出力するとともに、 出力される検索対象文書群のうち、最高スコアおよび最低スコアをクライアントの出力手段へ出力することとする。
また、前記の検索用文章ベクトル作成手順は、再入力された検索用文章を用いて新たな検索用文章ベクトルを作成し、 前記のベクトル演算手順においては、その新たな検索用文章ベクトルを用いて新たなベクトル演算値を演算し、 前記のソート手順においては、その新たなベクトル演算値に基づいてソートすることとしたプログラムとする。
【0084】
前述のコンピュータプログラムは、以下のようにしても良い。
すなわち、特許情報文献群から辞書機能をなすステムベクトルを作成するステムベクトル作成手順と、 前記ステムベクトルおよび特許情報文献群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手順と、 クライアントから入力された検索用文章と前記ステムベクトルとから検索用文章ベクトルを作成する検索用文章ベクトル作成手順と、 その検索用文章ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手順と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手順とを備えたコンピュータプログラムである。
【0085】
【発明の実施の形態】
以下、本発明を実施の形態及び図面に基づいて、更に詳しく説明する。ここで使用する図面は、図1乃至図19である。なお、図1から図15は、本発明の実施形態を示す概念図であり、図16乃至図19は、本発明の実施形態における画面出力の主要部を示したものである。
【0086】
(図1)
図1は、本発明の第一の実施形態を示す概念図であり、クライアント・サーバシステムにおけるサーバに備えられる装置である。クライアントユーザは、サーバを運営する事業主体との契約に基づいて、会員IDおよびパスワードの提供を受け、インターネットにて接続して、サーバが提供するサービスを利用する。
【0087】
サーバには、辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手段と、前記ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手段と、クライアントから入力された検索用文章と前記ステムベクトルとから検索用文章ベクトルを作成する検索用文章ベクトル作成手段と、その検索用文章ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手段と、演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントへソート結果を出力するソート手段とを備えている。
【0088】
また、ソート手段によってクライアントの出力手段へ出力されるベクトル演算値の範囲を予め設定する「設定ベクトル演算値」を記憶する設定値記憶手段を備えている。この設定値については、図16において再度説明する。ここで、辞書作成用文書群および検索対象文書群とも、特許情報文献群としている。ここにいう「特許情報文献」とは、特許出願された公開公報、特許された特許公報、以前の特許法の下で出願公告された公告公報、実用新案登録出願に係る文献、特許出願を審査するために用いられる公開技報、技術論文などを含んでいる。
【0089】
「ベクトル」としては、精度と演算負担とを考慮して「280次元」とした。また、ベクトル演算としては、「内積」を演算することとした。クライアントユーザは、サーバと契約し、インターネットにて接続可能なクライアントである。クライアントユーザは、サーバから別途付与されたIDとパスワードとを用いてサーバが提供する上記概念検索システムへアクセスする。
【0090】
(第一の実施形態の作用)
まず、ステムベクトル作成手段が辞書作成用文書群から辞書機能をなすステムベクトルを作成し、検索対象文書ベクトル作成手段が前記ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する。続いて、検索用文章ベクトル作成手段が、クライアントから入力された検索用文章と前記ステムベクトルとから検索用文章ベクトルを作成し、ベクトル演算手段がその検索用文章ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算する。また、所定ベクトル演算値の設定手段にて設定した設定値をサーバへ送る。そして、ソート手段が演算されたベクトル演算値の順に、設定値の数だけ検索対象文書群を並べたソート結果をクライアントの出力手段へ出力する。
辞書作成用文書群および検索対象文書群の少なくとも一方は、特許情報文献群としているので、特許文献検索に適している。また、更新または追加が頻繁に行われる動的な検索対象文書群であって、且つ一文書当たりの単語数が多い検索対象文書たる特許情報文献に対し、概念検索を達成できる。
【0091】
(第一の実施形態のバリエーション)
第一のバリエーションとして、辞書作成用文書群を、辞書作成用文書群がなす群の中の一部分とすることができる。すなわち、辞書を作成するための文書群が数年分の特許公報とする場合、例えば1年分の特許公報に限ることとする。この場合、辞書作成用文書群を、辞書作成用文書群がなす群の中の一部分としているので、ステムベクトルの作成が短時間で行える。また、年々変化する技術の傾向に合致した概念検索を行えることが期待できる。
【0092】
第二のバリエーションとして、辞書作成用文書群を、辞書作成用文書群における各々の辞書作成用文書の所定部分とすることができる。すなわち、辞書を作成するための文書群が数年分の特許公報とする場合、その特許公報における要約書の部分のみ、または特許請求の範囲のみ、あるいはそれらの組み合わせを辞書作成用文書群とするのである。このようにすれば、ステムベクトルの作成が短時間で行える。
【0093】
第三のバリエーションとして、検索対象文書群は、特許情報文献群における各々の特許出願文献の所定部分とすることができる。すなわち、数年分の特許公報が存在する場合、検索対象文書群を、例えば、特許請求の範囲、要約書、あるいはそれらの組み合わせとするのである。その場合、検索対象文書ベクトルの作成、ベクトル演算値の演算などが短時間で行える。
【0094】
(図2)
続いて、図2に基づいて、第二の実施形態について説明する。第一の実施形態との相違点は、クライアントから通常検索のためのキーワードまたは分類等を入力された場合に、キーワード検索または分類検索等の通常検索を行って、その検索結果をクライアントの出力手段へ出力させるための通常検索手段を備えている点である。この実施形態では、通常検索によって絞り込んだ検索結果に対して概念検索が行えるものである。
【0095】
ここで、「通常検索」とは、予め定められた分類を指定したり、検索対象文書において使用されているキーワードなどについてヒットしている文書を検索するものである。論理式(and、×、or、+など)を採用することができるようにしている場合が一般的である。特許情報文献の検索の場合、「出願人」、技術用語などのキーワードや「国際特許分類」といった分類記号によって絞り込みを行える。
【0096】
(図3)
続いて、図3に基づいて、第三の実施形態について説明する。前述の実施形態との相違点は、通常検索の結果を用いて、概念検索を連続して行える点である。なお、概念検索を連続して行う場合、二度目以後の概念検索は、「類似検索」と定義する。
【0097】
キーワード等の入力に対する常検索の結果は、クライアントに対して一覧表示として出力される。そして、その一覧表示の書誌的事項から、クライアントが類似検索のための検索用文章を指定すれば、サーバのリンク機能が検索用文章の入力を代行する。指定された検索用文章を用いて検索用文章ベクトル作成手段は、検索用文章ベクトルを作成する。そして、検索対象文書ベクトル群とのベクトル演算を行い、ソート結果をクライアントの出力手段へ出力させる。
検索用文章は、本来ならクライアントユーザが入力しなければならないが(この様子は図4に示す)、この実施形態には、その入力を簡略化するリンク機能を備えている。このリンク機能については、図18の説明において詳述する。
【0098】
(図4)
図4は、クライアントユーザの操作の一例を示したものである。まず、ソート結果として一覧表示出力がなされたとする。ここでは、特許情報文献の書誌的事項が一覧表示されている。この中で、「D欄」に、「要約 請求」とあるのは、それぞれが当該特許情報文献における要約書、特許請求の範囲を表しており、ポインタによってこれをクリックする。
【0099】
すると、リンク機能によって、当該特許文献情報情報における要約書がクライアントへ画面出力する。ここで提供される画面出力は、コピーアンドペーストが可能であるように提供されている。したがって、ユーザは、出力された要約書における必要な部分を、検索用文章の入力欄へコピーアンドペーストすることができる。
なお、サーバ上において、「要約 請求」をクリックすれば、コピーアンドペーストしなくても自動的に検索用文章を入力したとして処理することにより、クライアントユーザの操作を省略するようにしてもよい。
【0100】
(図5)
続いて、図5に基づいて、第四の実施形態について説明する。前述の実施形態との相違点は、検索対象文書ベクトル作成手段が作成した検索対象文書ベクトル群の中から所定の検索対象文書ベクトル群を抽出するベクトル群抽出手段を備え、そのベクトル群抽出手段は、通常検索手段の検索結果を用いて検索対象文書ベクトル群を抽出することとした点である。
【0101】
ベクトル群抽出手段が、検索対象文書ベクトル作成手段の作成した検索対象文書ベクトル群の中から所定の検索対象文書ベクトル群を抽出する。そして、そのベクトル群抽出手段は、通常検索手段の検索結果を用いて検索対象文書ベクトル群を抽出する。このようにすると、すべての検索対象ベクトル群を用いてベクトル演算する場合に比べて、ベクトル演算の数を絞ることができ、演算が短時間で行えるというメリットがある。
【0102】
(図6)
続いて、図6に基づいて、第五の実施形態について説明する。前述の実施形態との相違点は、通常検索手段につき、ソート手段に対して検索結果を用いたソート結果を出力させることとした点である。すなわち、通常検索手段が検索した検索結果は、ソート手段がソート結果を出力する際に用いるのである。通常検索においては一般的な「ヒット数」ということが概念検索には存在しないが、ソート出力の際に通常検索の検索結果、すなわちヒット数を用いることができる。
【0103】
(図7)
続いて、図7に基づいて、第六の実施形態について説明する。前述の実施形態との相違点は、検索対象文書ベクトル作成手段について、通常検索手段の検索結果に対応する検索対象文書群を用いて検索対象文書ベクトル群を作成することとした点である。すなわち、通常検索手段が検索した結果は、全検索対象文書群を絞り込むのに用いる。そこで絞り込まれた検索対象群を用いて、検索対象文書ベクトルが作成され、ベクトル演算され、ソート結果が出力される。このため、全検索対象文書群を用いる場合に比べてベクトル演算の数を絞ることができ、演算が短時間で行える。
【0104】
(図8)
続いて、図8に基づいて、第七の実施形態について説明する。前述の実施形態との相違点は、ベクトル演算値について設定値を入力可能としておき、ベクトル演算手段によって演算されたベクトル演算値における所定値以上のソート結果を記憶するソート結果記憶手段を備える点である。更に、通常検索手段は、ソート結果記憶手段に記憶された所定ベクトル演算値以上の検索対象文書群を用いて通常検索を行うこととしている。
【0105】
ソート記憶手段が、ベクトル演算手段によって演算されたベクトル演算値における所定値以上のソート結果を記憶する。そして、通常検索手段は、ソート結果記憶手段に記憶された所定ベクトル演算値以上の検索対象文書群を用いてキーワード検索または分類検索を行う。これにより、概念検索による絞り込み結果に対して、キーワード検索または分類検索が行える。
【0106】
(図9)
続いて、図9に基づいて、第八の実施形態について説明する。前述の実施形態との相違点は、予め所定の検索用文章を入力して登録しておく検索用文章蓄積手段を備えた点である。更に、ベクトル演算手段は、検索対象文書群が更新または追加されたら、その検索用文章蓄積手段に登録された検索用文章を用いてベクトル演算値を演算することとしており、ソート手段は、更新または追加された検索対象文書群についてソート出力することとしている。
【0107】
クライアントユーザは、必要であれば、所定の検索用文章を入力し、サーバの検索用文章蓄積手段へ登録しておく。例えば、自分が課題としている研究テーマに関する検索用文章である。検索対象文書群が更新または追加されたら、ベクトル演算手段は、その検索用文章蓄積手段に登録された検索用文章を用いてベクトル演算値を演算する。そして、ソート手段が更新または追加された検索対象文書群についてソート出力する。
特許情報文献は、一週間に二回程度追加されるが、クライアントユーザは、その追加された検索対象文書群についての概念検索のソート結果を受け取ることができる。予め指定した検索用文章に対し、クライアントユーザはいわゆるSDIサービスを受けることできることとなる。
【0108】
(図10)
続いて、図10に基づいて、第九の実施形態について説明する。前述の実施形態との相違点は、予め所定の検索用文章を入力し、その検索用文章を用いて作成した検索用文章ベクトルを登録しておく検索用文章ベクトル蓄積手段を備えた点である。そして、ベクトル演算手段は、検索対象文書群が更新または追加されたら、その検索用文章ベクトル蓄積手段に登録された検索用文章ベクトルを用いてベクトル演算値を演算することとし、ソート手段は、更新または追加された検索対象文書群についてクライアントへソート出力することとしている。
【0109】
クライアントユーザは、必要であれば、所定の検索用文章を入力する。すると、検索用文章ベクトル作成手段が検索用文章ベクトルを作成し、検索用文章ベクトル蓄積手段へ登録する。検索対象文書群が更新または追加されたら、ベクトル演算手段は、その検索用文章蓄積手段に登録された検索用文章を用いてベクトル演算値を演算する。そして、ソート手段が更新または追加された検索対象文書群についてソート出力する。所定の検索用文章に対する検索用文章ベクトルが予め作成されているので、ベクトル演算が早く行えるという利点がある。
【0110】
(図11)
続いて、図11に基づいて、第十の実施形態について説明する。前述の実施形態との相違点は、ソート手段による出力に基づいて作成した新たな検索用文章を再入力するための再入力手段をクライアントへ提供している点である。検索用文章ベクトル作成手段は、再入力された検索用文章を用いて新たな検索用文章ベクトルを作成し、ベクトル演算手段は、その新たな検索用文章ベクトルを用いて新たなベクトル演算値を演算し、ソート手段は、その新たなベクトル演算値に基づいてソートすることとしている。
【0111】
また、ソート手段は、ソート結果の書誌的事項を一覧表示させる一覧表示機能と、当該書誌的事項の中からクライアントが選択した検索対象文書を呼び出して、その検索対象文書の一部または全部を、クライアントの出力手段へ出力させるためのリンク機能とを備えるとともに、前記リンク機能は、検索対象文書の一部または全部を、コピーアンドペースト可能であるようにクライアントの出力手段へ出力することとしている。
なお、サーバ上において、クリックすれば、コピーアンドペーストしなくても自動的に検索用文章を入力したとして処理することにより、クライアントユーザの操作を省略するようにしてもよい。
【0112】
サーバは、検索用文章1による概念検索の出力後、そのソート出力に基づいて作成した新たな検索用文章を再入力するための再入力手段をクライアントへ提供する。クライアントユーザは、リンク機能を用いるなどして、新たな検索用文章2を入力する。サーバではその新たな検索用文章2によって新たな検索用文章ベクトルを作成し、ベクトル演算手段は、新たなベクトル演算値を演算し、ソート手段が新たなベクトル演算値に基づくソートを行う。連続的な概念検索が可能であり、検索精度を徐々に高め、欲する情報を入手しやすい環境をクライアントユーザへ提供している。
【0113】
(図12)
続いて、図12に基づいて、第十一の実施形態について説明する。前述の実施形態との相違点は、ステムベクトル作成手段において、三群の辞書作成用文書群(A,B,C)から三つのステムベクトル(A,B,C)を作成することとした点である。また、ベクトル演算手段は、検索対象文書群をステムベクトルごとにベクトル演算値(A,B,C)を演算し、ソート手段は、各検索対象文書群を、最も高いベクトル演算値のステムベクトルへ振り分けてソート結果(A,B,C)を出力させることとしている。
【0114】
複数のステムベクトルは、例えば、技術分野ごと、または複数の発行時期に対して所定期間ごと、具体的には、1999年の1年間、1990年代の10年間、といった期間ごとに作成する。または、辞書作成用文書群の分類ごと、具体的には、特許公報、公開公報、実用新案登録公報ごとに作成することとしてもよい。
【0115】
ステムベクトル作成手段は、複数の辞書作成用文書群、例えば年度ごと、文書種類ごとに当該数のステムベクトルを作成する。そして、ベクトル演算手段が、検索対象文書群をステムベクトルごとにベクトル演算値を演算し、ソート手段が、各検索対象文書群を、最も高いベクトル演算値のステムベクトルへ振り分けてソート結果を出力する。検索対象文書群は、複数のステムベクトルごとに設けられたカテゴリーのいずれかひとつに振り分けられることとなる。ここにおいて、辞書作成用文書群ごとにソート結果を得ることができる。複数のステムベクトルを時代ごとに作成した場合、ソート手段がそれら複数のステムベクトルに対応させてソート結果を出力させることとしているので、時代ごとに推移する言葉、キーワード、用語などに細かく対応した概念検索が可能となる。
【0116】
(図13)
続いて、図13に基づいて、第十二の実施形態について説明する。前述の実施形態との相違点は、検索対象文書ベクトル作成手段について、検索対象文書群における所定部分ごとに検索対象文書ベクトル群を作成することとした点である。すなわち、特許情報において請求項1、要約書という所定部分が存在するが、その所定部分ごとに「請求項1ベクトル群」、「要約書ベクトル群」といった検索対象文書ベクトルを作成するのである。そして、ベクトル演算手段は、それらの検索対象文書ベクトル群を用いてベクトル演算値を演算し、ソート手段は、所定部分ごとにベクトル演算値をクライアントの出力手段へ出力する。ここにおいて、検索対象文書群における所定部分ごとにソート結果を得ることができる。
例えば、ある検索用文章に対して、特許公開公報aの要約書では、最高スコアとしての80.2を得たが、請求項1では65.5で、ランク13位、といった結果を得ることができる。
【0117】
(図14)
続いて、図14に基づいて、パテントマップ的な出力の一例を示す概念図である。検索用文章を2種類入力し、それらによるベクトル演算値をそれぞれ縦軸と横軸に採用する。そして、2種類のベクトル演算値とも、所定スコア以上を記録した検索対象文書をプロットして出力したものである。
プロットされた点にポインタを合わせると、当該プロットに該当する文書の書誌的事項が画面出力されるようにしている。更に、図示は省略するが、クリックすれば、当該文書の全文が出力されるようにしている。
【0118】
(図15)
図15に記載した実施形態は、クライアントが入力した検索用文章が、検索用文章ベクトル作成手段に用いる言語と異なる場合に、当該言語を検索用文章ベクトル作成手段に用いる言語へ翻訳する翻訳手段を備え、 検索用文章ベクトル作成手段は、前記翻訳手段によって翻訳された翻訳検索用文章を用いて検索用文章ベクトルを作成することとした概念検索装置である。
【0119】
この翻訳手段は、クライアントが入力した検索用文章が、検索用文章ベクトル作成手段に用いる言語と異なる場合に、当該言語を検索用文章ベクトル作成手段に用いる言語へ翻訳する。検索用文章ベクトル作成手段は、その翻訳検索用文章を用いて検索用文章ベクトルを作成する。ここにおいて、検索用文章が他言語であっても、翻訳手段が翻訳可能な文章であれば、そのまま検索に用いることができる。
【0120】
なお、概念検索方法として、クライアントが入力した検索用文章が、検索用文章ベクトル作成手段に用いる言語と異なる場合に、当該言語を検索用文章ベクトル作成手段に用いる言語へ翻訳する翻訳手順を備え、 検索用文章ベクトル作成手順においては、前記翻訳手順によって翻訳された翻訳検索用文章を用いて検索用文章ベクトルを作成する概念検索方法を提供することもできる。
【0121】
また、コンピュータ読み取り可能なプログラムとしては、特許情報文献群からなる辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手順と、 前記ステムベクトルおよび特許情報文献群からなる検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手順と、 クライアントから入力された検索用文章が検索用文章ベクトル作成手段に用いる言語と異なる場合に、当該言語を検索用文章ベクトル作成手段に用いる言語へ翻訳する翻訳手順と、 翻訳された検索用文章と前記ステムベクトルとから検索用文章ベクトルを作成する検索用文章ベクトル作成手順と、 その検索用文章ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手順と、 演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントに係る出力手段へソート結果を出力するソート手順とを備えたプログラムを提供することもできる。
【0122】
(図16)
図16は、概念検索を行うための検索用文章の入力画面として、サーバからクライアントへ提供される画面出力を示している。「検索項目」の右側には、プルダウン選択メニューとして、検索対象文書群の選択ボタン(10)を用意している。この検索項目とは、検索対象文書群たる特許情報書類のうちの一部分を表している。画面には、「要約」が選択された状態となっているが、特許請求の範囲、請求項1、発明の詳細な説明、あるいはそれらの組み合わせなどが選択できるようになっている。
【0123】
「一覧表示数」の右側には、プルダウン選択メニューとして、ソート出力数の選択ボタン(11)を用意している。この一覧表示数とは、概念検索には「ヒット数」という考え方がなく、ベクトル演算値として全ての検索対象文書群がスコア化されるので、出力表示させる数を制限するために設けたものである。図16の画面には、「100」が選択された状態となっているが、これは、ベクトル演算値のスコアが高い順に100件を一覧表示させるという指示となる。
【0124】
図16の中央には、文章を入力するボックスが用意されている。これは、検索用文章の入力欄(12)である。キーワードや分類、論理式などの入力と異なり、文章を入力する。検索用文章の入力を終えたら、図16の中央下部付近にある検索開始ボタン(13)をクリックして、概念検索を開始する。
【0125】
(図17)
図17は、図16において検索開始ボタン(13)をクリックした結果、サーバが概念検索を終え、クライアントへその結果を出力した状態である。図中の左上には、ソート出力数の表示欄(20)があり、図16でのソート出力数の選択ボタン(11)に対応した件数たる「上位100件」を表示している。またその右隣には、当該100件のうちの最高スコアと最低スコアとを表示するスコア範囲表示欄(21)が出力される。ベクトル演算としては、内積を計算するのであるから、最高点は1.000であるが、点数を見やすくするために、100倍して表示することとしている。
【0126】
このスコア範囲表示欄(21)を見て、希望する結果が得られなかったと判断する場合には、図17の下側に用意されている検索対象文書群の選択ボタン(10)、ソート出力数の選択ボタン(11)、検索用文章の入力欄(12)などに対して、再入力をして、検索開始ボタン(13)を再クリックする。一方、スコア範囲表示欄(21)を見て、希望する結果をおおむね得られたと判断した場合には、スコア範囲表示欄(21)の右隣にある一覧表示ボタン(22)をクリックする。すると、図18のような画面出力が提供される。
【0127】
(図18)
図18の上半分には、検索用文章が再現され、どのような検索結果なのかを表示している。一方、下半分には、表示件数100件のうちの一部が一覧表示(30)として出力されている。一覧表示(30)は、一行欄にて、1件の出願公開書類における書誌的事項を示している。一覧表示(30)における左から2番目の欄は、スコア表示欄(31)となっている。このスコア表示欄(31)の最上に表示されるスコアは、図17におけるスコア範囲表示欄(21)のスコアと一致している。
【0128】
さて、欄の最右欄は、書誌的事項にて特定される出願公開書類における「要約」または「特許請求の範囲」に記載された文章を、そのまま概念検索のための検索用文章として採用する「類似検索」をさせるためのリンクボタン(33)である。このリンクボタン(33)をクリックすると、図19に示すような出力画面が提供される。すなわち、図4に示した「コピーアンドペースト」の作業をクライアントにて行わずに済むよう、サーバが提供しているのである。
なお、文献番号の欄にもリンクボタン(32)を備えており、そのリンクボタン(32)をクリックすると、当該文献の全文を出力させることができる。
【0129】
(図19)
図19は、特許の出願公開書類における要約によって類似検索を行わせた結果の出力画面の一部を示しており、その上半分には、検索用文章として採用された文章の出所が再現されて表示している。一方、下半分には、再び表示件数100件のうちの一部が一覧表示(30)として出力されている。
【0130】
この場合、一覧表示(30)における最上行の左から2番目の欄は、最高スコア表示(34)として100.0が出力される。これは、図18の出力画面にて選択した類似検索において、完全一致する特許出願を選択してくるのであるから、満点となって当然である。なお、図19に示した欄の最右欄は、図18と同じリンクボタン(32,33)が用意されており、さらなる「類似検索」が行えるようになっている。
【0131】
【発明の効果】
請求項1から請求項13に記載の発明によれば、更新または追加が頻繁に行われる動的な検索対象文書群であって、且つ一文書当たりの単語数が多い検索対象文書に対して概念検索を行える装置を提供することができた。
【0132】
また、請求項14および請求項15に記載の発明によれば、更新または追加が頻繁に行われる動的な検索対象文書群であって、且つ一文書当たりの単語数が多い検索対象文書に対して概念検索を行えるコンピュータプログラムを提供することができた。
【図面の簡単な説明】
【図1】第一の実施形態を示す概念図である。
【図2】第二の実施形態を示す概念図である。
【図3】第三の実施形態を示す概念図である。
【図4】クライアントユーザの操作の一例を示す概念図である。
【図5】第四の実施形態を示す概念図である。
【図6】第五の実施形態を示す概念図である。
【図7】第六の実施形態を示す概念図である。
【図8】第七の実施形態を示す概念図である。
【図9】第八の実施形態を示す概念図である。
【図10】第九の実施形態を示す概念図である。
【図11】第十の実施形態を示す概念図である。
【図12】第十一の実施形態を示す概念図である。
【図13】第十二の実施形態を示す概念図である。
【図14】いわゆるパテントマップ的な出力の一例を示す概念図である。
【図15】第十三の実施形態を示す概念図である。
【図16】概念検索を行うための検索用文章の入力画面として、サーバからクライアントへ提供される画面出力の一部を示す図である。
【図17】図16の次画面出力の一部を示す図である。
【図18】概念検索のソート結果の次画面出力の一部を示す図である。
【図19】特許の出願公開書類における要約によって類似検索を行わせた結果の出力画面の一部を示した図である。
【符号の説明】
10 検索対象文書群の選択ボタン 11 ソート出力数の選択ボタン
12 検索用文章の入力欄 13 検索開始ボタン
20 ソート出力数の表示欄 21 スコア範囲表示欄
22 一覧表示の要求ボタン
30 一覧表示 31 スコア表示欄
32 リンクボタン 33 リンクボタン
34 最高スコア表示
[0001]
[Technical field to which the invention belongs]
The present invention is an application of concept search to a search system for technical documents and patent documents.
[0002]
[Prior art]
(Conventional document search technology)
A keyword is cut out from a search target document in advance and an index file is created. A method of picking up a hit document by matching the index file with a keyword input for search is generally used.
[0003]
With this technique, a document containing the relevant keyword is hit, so the number of hits cannot be determined until the search is completed. For this reason, when the number of hits smaller than the expected number of hits can be obtained, the search keyword needs to be reexamined. On the other hand, even when the number of hits larger than the expected number of hits is obtained, it is necessary to review the search keyword called so-called narrowing down.
[0004]
(Concept search technology)
In recent years, a search technique (concept search technique) using vector operations has been born. In this technique, words are extracted from a sentence creation sentence in advance by morphological analysis or the like, a basic vector is assigned to each word, and a vector group (stem vector) forming a dictionary function is generated. Based on the stem vector, a vector of the entire search target document is determined, and a search target document vector group is generated from the search target document group. As a result, each search target document has one vector per document. When executing the search, a search text vector is generated based on the stem vector from the text input for the search, the inner product of the search text vector and the search target document vector group is calculated, and the inner product value is high. A predetermined number is output from the search target document.
[0005]
According to this technique, it is possible to always output a predetermined number of documents in order from the search target document group in descending order of relevance, thereby overcoming the drawbacks of keyword search.
[0006]
(Investigation result)
The applicant investigated patent applications and utility model registration applications, and extracted the following technologies as related technologies.
Japanese Unexamined Patent Publication No. 2000-20520, which is a related technology, relates to “a method of language analysis recognition processing and the like”. The technique is characterized in that it operates with a function that flexibly adapts to natural language and input sentences freely input by the operator. In addition, Japanese Patent Application No. 9-219299 and Japanese Patent Application No. 11-4523 were extracted.
[0007]
[Problems to be solved by the invention]
In the concept search as the prior art, the search target document itself that is the search target is used when generating the stem vector in order to hit the word included in the search target document. For this reason, when a search target document is added, the stem vector is distorted. In order to correct this distortion, it is necessary to regenerate the stem vector each time the search target document is updated or added. For this reason, it has not been adopted for the retrieval of a dynamic document group in which the retrieval target document is frequently updated or added.
[0008]
Further, when the number of search target documents is large or the number of words per document is large, the generation of the search target document vector is heavy on hardware and takes time. By the way, when there are a large number of words per document, there are many cases where a particular range within the document is devised to increase its value over other ranges. Specifically, they are abstracts (summary) in academic papers, abstracts in patent information, and claims.
[0009]
A problem to be solved by the present invention is to achieve a concept search for a search target document that is a dynamic search target document group that is frequently updated or added and that has a large number of words per document. To provide technology.
The object of the invention described in claims 1 to 13 is a dynamic search target document group that is frequently updated or added, and is a search target document having a large number of words per document. An object of the present invention is to provide an apparatus capable of performing concept search.
[0010]
The object of the invention described in claims 14 to 15 is a dynamic search target document group that is frequently updated or added, and for a search target document having a large number of words per document. To provide a computer program that can perform concept searches.
[0011]
[Means for Solving the Problems]
The present invention is for achieving the above-described object.
(Claim 1)
The invention according to claim 1 relates to an apparatus provided in a server in a client-server system.
That is, a stem vector creating means for creating a stem vector having a dictionary function from a dictionary creating document group, a search target document vector creating means for creating a search target document vector group from the stem vector and the search target document group, and a client A predetermined output number input means for inputting a predetermined output number; a search sentence vector creating means for creating a search sentence vector from the search sentence input from a client and the stem vector; the search sentence vector; Vector calculation means for calculating a vector operation value with the search target document vector group, and sorting the search target document group in the order of the calculated vector operation value Output means Sorting means for outputting a sort result.
The search object document group is a patent information document group and a predetermined part of each patent application document in the patent information document group, and the sorting means is a predetermined output number by the predetermined output number input means. As the client, search target document group of the number of data entered in advance as Output means And output the highest score and the lowest score among the search target documents to be output to the client. Output means This relates to a concept retrieval device that is to output to.
[0012]
(Glossary)
The “client / server system” includes a client / server system on an intranet, a case where a client contracts with a server operator, and a case where the client / server system is connected via a network such as the Internet. “Vector” refers to a multi-dimensional vector and has several dimensions to several hundred dimensions. If the number is too small, the accuracy decreases, and if the number is too large, the calculation burden is large. Therefore, the number of dimensions is determined in consideration of the accuracy and the calculation burden. In the embodiment described later, “280 dimensions” is used.
The “vector operation value” is typically an inner product value of the search target document vector and the search sentence vector, but other calculation methods such as multiplying various coefficients or making an outer product may be employed. is there. As the “dictionary creation document group and search target document group”, newspaper articles and academic books are used in addition to patent information documents.
“Patent Information Document” means a patent application publication, a patent patent publication, a publication published under the previous patent law, a document related to a utility model registration application, and a patent application. This refers to public technical reports and technical papers used.
The “predetermined number of outputs” means to be determined in advance by inputting by an operator of the client or providing an input means for the server to select by the client. It may be possible to input again after output by the sorting means.
[0013]
(Function)
First, the stem vector creation means creates a stem vector having a dictionary function from the dictionary creation document group, and the search target document vector creation means creates a search target document vector group from the stem vector and the search target document group. Subsequently, the search text vector creating means creates a search text vector from the search text input from the client and the stem vector, and the vector calculation means has the search text vector and the search target document vector group. The vector operation value of is calculated. Then, the sorting result obtained by arranging the search target document groups in the order of the vector calculation values calculated by the sorting means is displayed on the client. Output means Output to.
Since at least one of the dictionary creation document group and the search target document group is a patent information document group, it is suitable for patent document search. Further, it is possible to achieve a concept search for a search target document that is a dynamic search target document group that is frequently updated or added and that has a large number of words per document. Furthermore, if the dictionary creation document group is a different type of document from the search target document group, a concept search with a different quality can be performed.
Since the search target document group is a predetermined part of each patent application document in the patent information document group, creation of a search target document vector, calculation of a vector calculation value, and the like can be performed in a short time.
In concept search, there is no “number of hits”, but if a predetermined number of outputs are entered, that number of documents to be searched is set as a client. Output means Can be output.
Highest score and lowest score are clients Output means Can be used to verify concept searches and re-examine search sentences.
[0014]
It is also possible to provide a concept search device in which the dictionary creation document group is a number of dictionary creation document groups selected from the dictionary creation document group.
[0015]
(Glossary)
The “number of dictionary creation document groups selected from the dictionary creation document group” is, for example, a document group for five years in a document group for ten years divided every other year.
[0016]
(Glossary)
The “part of the group formed by the dictionary creation document group” means the number of dictionary creation document groups selected from a certain number of dictionary creation document groups. For example, it is a document group for five years among a document group for ten years divided every other year.
[0017]
(Function)
Since the dictionary creating document group is a part of the dictionary creating document group, the stem vector can be created in a short time.
[0018]
(Glossary)
“Predetermined portion of each dictionary creation document in the dictionary creation document group” means, for example, when the dictionary creation document group is a technical paper, a summary in the technical paper, and the dictionary creation document group is a patent application document Claims, abstracts, claims 1, detailed descriptions of the invention, etc., or combinations thereof.
[0019]
(Delete)
[0020]
The “predetermined portion of each patent application document in the patent information document group” is, for example, any one of claims, abstract, claim 1, detailed description of the invention, or a combination thereof.
[0021]
Claim 1 can also provide the following variations.
That is, the sorting means relates to a concept search apparatus that outputs to the client output means a search target document group that exceeds the score data input from the client in advance as a predetermined score.
[0022]
The “predetermined score” is determined in advance by an operator of the client or by providing an input means for the server to select by the client. When the vector operation value is an inner product value, since the perfect match score is 1.00, a value lower than that is input. It may be possible to input again after output by the sorting means.
[0023]
In concept search, there is no “number of hits”, but if a predetermined score is entered, the search target document group that exceeds the score data is set to the client. Output means Can be output. For example, if “0.6” is input in advance as the predetermined score, search target document groups exceeding 0.6 are sorted and output in the order of high score.
[0024]
(Delete)
[0025]
(Delete)
[0026]
Note that it may be determined in combination with the above-mentioned “predetermined score”, for example, “up to 50 cases and the predetermined score = 0.7 or more”.
[0027]
(Delete)
[0028]
(Claim 2)
The invention described in claim 2 limits the concept search device described in claim 1,
A normal search means for performing a normal search such as a keyword search or a classification search and outputting the search results to the client output means when a keyword or classification for normal search is input from the client; The normal search means relates to a concept search device that performs normal search when a keyword or classification for normal search is input from a client to the sort result.
[0029]
(Glossary)
“Normal search” is to specify a predetermined classification or search for a document hitting a keyword or the like used in a search target document. In general, logical expressions (and, x, or, +, etc.) can be adopted.
[0030]
(Function)
The normal search means performs a normal search when a keyword or classification for normal search is input from a client. The normal search result can be used for further concept search, or the normal search can be performed after the concept search.
In addition, the normal search can be performed on the sorting result of the concept search. Therefore, it becomes easy to obtain desired information.
[0031]
(Claim 3)
The invention according to claim 3 limits the concept search device according to claim 2,
The normal search means displays a list of bibliographic items of the search results, calls the search target document selected by the client from the list display, and part or all of the search target document is A link function for outputting to the output means.
In addition, the link function of the normal search means allows the client to be able to copy and paste part or all of the search target document. Output means This is a concept retrieval device that outputs to
[0032]
(Glossary)
“Bibliographic items” are index-like information in each search target document, such as titles and author names in technical papers, invention names and application publication numbers in patent information documents. The “list display function” refers to a function for outputting a plurality of bibliographic items as a table.
[0033]
(Function)
The list display function of the normal search means displays a list of bibliographic items of the search results. Next, the link function calls the search target document selected by the client from the list display, and part or all of the search target document is transferred to the client. Output means To output. Here, it is possible to quickly determine whether the information is desired.
A part or all of the search target document output using the link function can be copied and pasted. Therefore, it is possible to reduce the time and labor of input for thinking or typing a search sentence when performing a search, particularly a concept search.
[0034]
(Delete)
[0035]
(Delete)
[0036]
(Claim 4)
The invention according to claim 4 limits the concept retrieval device according to claim 2.
The normal search means includes a list display function that displays a list of bibliographic items of search results, and a link that allows a part or all of a search target document selected by the client from the list display to be a search sentence. The present invention relates to a concept search device having a function.
[0037]
(Function)
Bibliographic items are displayed in a list by the list display function as a search result by the normal search means. When the client selects a part or all of the search target document from among them, a part or all of the search target document for which the link function is selected is adopted as a search sentence, and a vector calculation value is calculated by the vector calculation means. Here, there is an advantage that the client user does not need to input the search text.
The vector group extraction unit extracts a predetermined search target document vector group from the search target document vector group created by the search target document vector creation unit. Then, the vector group extraction unit extracts a search target document vector group using the search result of the normal search unit. In this way, the number of vector operations can be reduced as compared with the case of performing vector operations using all search target vector groups, and the operations can be performed in a short time.
[0038]
(Claim 5)
The invention according to claim 5 limits the concept search device according to claim 2 or claim 4,
A vector group extraction unit that extracts a predetermined search target document vector group from the search target document vector group generated by the search target document vector generation unit is provided, and the vector group extraction unit displays the search result of the normal search unit. This is used to extract a search target document vector group.
[0039]
(Function)
The vector group extraction unit extracts a predetermined search target document vector group from the search target document vector group created by the search target document vector creation unit. Then, the vector group extraction unit extracts a search target document vector group using the search result of the normal search unit.
In this way, the number of vector operations can be reduced as compared with the case of performing vector operations using all search target vector groups, and the operations can be performed in a short time.
[0040]
Note that the normal search unit may cause the sort unit to output a sort result using the search result.
In that case, the search result searched by the normal search means is used when the sort means outputs the sort result. The “hit number” in the normal search does not exist in the concept search, but the search result of the normal search, that is, the hit number can be used in the sort output.
[0041]
(Claim 6)
Invention of Claim 6 limited the concept search apparatus in any one of Claim 2-5,
The search target document vector creating means relates to a concept search device that creates a search target document vector group using a search target document group corresponding to a search result of a normal search means.
[0042]
(Function)
The search result of the normal search means is used to narrow down all search target document groups. Thus, a search target document vector is created using the narrowed search target group, a vector operation is performed, and a sort result is output. For this reason, the number of vector operations can be reduced as compared with the case where all search target document groups are used, and the operations can be performed in a short time.
[0043]
(Claim 7)
The invention according to claim 7 limits the concept search device according to any one of claims 2 to 6,
Sort result storage means for storing a sort result greater than or equal to a predetermined value in the vector operation value calculated by the vector operation means, and the normal search means is a search target document group greater than or equal to the predetermined vector operation value stored in the sort result storage means The present invention relates to a concept search apparatus that performs a normal search using the.
[0044]
(Function)
The sort storage means stores a sort result that is equal to or greater than a predetermined value in the vector operation value calculated by the vector operation means. Then, the normal search means performs a keyword search or a classification search using a search target document group equal to or greater than a predetermined vector operation value stored in the sort result storage means. Thereby, keyword search or classification search can be performed on the narrowing-down result by the concept search.
[0045]
The sort means calls a list display function for displaying a list of bibliographic items of the sorting result, a search target document selected by the client from the bibliographic items, and a part or all of the search target document, client Output means It is also possible to provide a concept retrieval apparatus having a link function for outputting to a network.
[0046]
In such a concept search device, bibliographic items are displayed as a list by the list display function as a result of sorting the concept search. Next, the link function calls the search target document selected by the client from the list display, and part or all of the search target document is transferred to the client. Output means To output. Here, it is possible to quickly determine whether the information is desired.
[0047]
(Claim 8)
The invention according to claim 8 limits the concept search device according to any one of claims 2 to 7.
That is, it comprises search text storage means for inputting and registering a predetermined search text in advance, and the vector calculation means is registered in the search text storage means when a search target document group is updated or added. A vector operation value is calculated using the retrieved text for search. The sorting unit sorts and outputs the updated or added search target document group, and sets the search target document group that exceeds the score data input from the client in advance as a predetermined score to the client. Output means This relates to a concept retrieval device that is to output to.
[0048]
(Function)
If necessary, the client user inputs a predetermined search text and registers it in the search text storage means of the server. When the search target document group is updated or added, the vector calculation means calculates a vector calculation value using the search text registered in the search text storage means. Then, the sort means outputs the sorted search target document group updated or added. Since a vector calculation value for a search sentence registered in advance is calculated and output, a so-called SDI service can be realized.
[0049]
(Claim 9)
The invention according to claim 9 limits the concept search device according to any one of claims 2 to 8.
That is, it comprises search text vector storage means for inputting a predetermined search text in advance and registering a search text vector created using the search text, and the vector calculation means includes a search target document group Is updated or added, a vector calculation value is calculated using the search text vector registered in the search text vector storage means.
The sorting means sorts and outputs the updated or added search target document group, and selects a search target document group that exceeds the score data previously input from the client as a predetermined score. Output means This relates to a concept retrieval device that is to output to.
[0050]
(Function)
The client user inputs a predetermined search sentence if necessary. Then, the search text vector creation means creates a search text vector and registers it in the search text vector storage means. When the search target document group is updated or added, the vector calculation means calculates a vector calculation value using the search text registered in the search text storage means. Then, the sort means outputs the sorted search target document group updated or added. Since a search text vector for a predetermined search text is created in advance, there is an advantage that vector calculation can be performed quickly.
[0051]
(Claim 10)
The invention according to claim 10 limits the concept search device according to claim 8 or claim 9, and inputs a plurality of search sentences to be input in advance, and the sorting means The present invention relates to a concept search device that outputs sort results in correspondence with sentences.
[0052]
(Function)
The client user inputs a plurality of predetermined search sentences. The vector calculation means calculates vector calculation values using the plurality of search sentences. Then, the sorting means outputs a sorting result corresponding to the search sentences. For example, a search sentence is input for each research theme for a single researcher who has a plurality of research themes. Then, a sorting result can be obtained for each search sentence.
[0053]
(Claim 11)
The invention described in claim 11 limits the concept search device according to any one of claims 1 to 10.
That is, a re-input means for re-inputting a new search text created based on the output from the sort means is provided to the client, and the search text vector creating means is configured to re-input the search text. A new search text vector is created using the new search text vector, the vector calculation means calculates a new vector calculation value using the new search text vector, and the sorting means calculates the new vector calculation. The present invention relates to a concept retrieval device that performs sorting based on values.
[0054]
(Function)
After the output by the sorting means, the server provides the client with re-input means for re-inputting the new search text created based on the sort output, and the client user inputs the new search text. A new search text vector is created by the new search text, the vector calculation means calculates a new vector calculation value, and the sorting means performs sorting based on the new vector calculation value.
[0055]
The invention according to claim 11 can also be formed as follows.
In other words, the sorting means calls up a list display function for displaying a list of bibliographic items of the sorting result, a search target document selected by the client from the bibliographic items, and a part or all of the search target document, client Output means A link function for outputting to the client, and the link function may be a concept search device that outputs a part or all of the search target document to the client so that it can be copied and pasted.
[0056]
In the case of such a concept retrieval device, a list of bibliographic items of the sorting result is displayed by the list display function of the sorting means. A part or all of the search target document output using the link function can be copied and pasted. Therefore, in the case where a concept search is continuously performed, it is possible to reduce the input trouble of thinking or typing a search sentence.
[0057]
The invention according to claim 11 can also be formed as follows.
That is, the sorting means has a list display function for displaying a list of bibliographic items of the sorting results, and the re-input means can select a part or all of the search target document from the list display as a search sentence. The present invention relates to a concept retrieval apparatus having a link function that performs input in substitution.
[0058]
In the case of such a concept retrieval device, the sorting result is displayed as a list of bibliographic items by the list display function of the sorting means. When the client selects a part or all of the search target document from among them, a part or all of the search target document for which the link function is selected is adopted as a search sentence, and a vector calculation value is calculated by the vector calculation means. Here, there is an advantage that the client user does not need to input the search text.
[0059]
(Claim 12)
The invention described in claim 12 limits the concept search device according to any one of claims 1 to 11.
That is, the stem vector creation means creates the number of stem vectors from a plurality of dictionary creation document groups, and the vector computation means computes a vector computation value for each search target document group, The sort means relates to a concept search apparatus that distributes each search target document group to a stem vector having the highest vector calculation value and outputs a sort result.
[0060]
(Glossary)
For example, a plurality of stem vectors are created for each technical field in the patent information literature, or for a predetermined period with respect to a plurality of publication dates, specifically, a period of 1 year in 1999, 10 years in the 1990s, etc. Create each. Alternatively, it is created for each classification of the dictionary creation document group, specifically, for each patent gazette, published gazette, and utility model registration gazette.
[0061]
(Function)
The stem vector creation means creates the number of stem vectors for each dictionary creation document group, for example, every year and every document type. Then, the vector calculation means calculates a vector calculation value for each search target document group for each stem vector, and the sorting means distributes each search target document group to the stem vector having the highest vector calculation value and outputs a sort result. . The search target document group is assigned to any one of the categories provided for each of the plurality of stem vectors. Here, the sort result can be obtained for each dictionary creation document group. When multiple stem vectors are created for each era, the sorting means outputs the sort results corresponding to the multiple stem vectors, so the concepts that correspond closely to the words, keywords, terms, etc. that change with each era Search is possible.
[0062]
The invention described in claim 12 can also be formed as follows.
That is, the search target document vector creation means creates a search target document vector group for each predetermined portion of the search target document group, and the vector calculation means calculates a vector operation value using the search target document vector group, and sorts Means the vector operation value for each predetermined part of the client Output means It is also possible to use a concept retrieval device that outputs to
[0063]
In the case of such a concept search device, first, the search target document vector creating means creates a search target document vector group for each predetermined portion in the search target document group. Then, the vector calculation means calculates a vector calculation value using the search target document vector group, and the sorting means calculates the vector calculation value for each predetermined portion as the client. Output means Output to. Here, the sort result can be obtained for each predetermined portion in the search target document group.
[0064]
(Claim 13)
The invention described in claim 13 is a concept search device that directly outputs in an output method generally called a patent map, and the concept search device according to any one of claims 1 to 12 is limited. is there.
That is, the search target document group is a search target document group of a predetermined population, and the search text vector creating means includes a plurality of search text vectors by a plurality of search texts for the search target document group. The sorting means plots vector operation values for a plurality of coordinate axes based on the search sentence vector and outputs them to the output means of the client, as well as the bibliographic items of the search target document group in the predetermined plot. Part of the client Output means The present invention relates to a concept retrieval device that can output to
[0065]
(Function)
First, the search target document group is narrowed down to a predetermined population by some means. Then, the search text vector creating means creates a plurality of search text vectors with a plurality of search texts for the search target document group. The sorting means plots the vector operation values for a plurality of coordinate axes based on the search sentence vector and Output means Output to.
Some of the bibliographic items of the search target documents being plotted are clients. Output means Easy to use.
[0066]
(Delete)
[0067]
A method invention corresponding to claim 1 can also be provided.
That is, a stem vector creation procedure for creating a stem vector having a dictionary function from a dictionary creation document group, a search target document vector creation procedure for creating a search target document vector group from the stem vector and the search target document group, and a client A search text vector creation procedure for creating a search text vector from the input search text and the stem vector, and a vector calculation procedure for calculating a vector operation value of the search text vector and the search target document vector group And a sorting procedure for sorting the search target document group in the order of the calculated vector operation value and outputting the sort result to the client, and at least one of the dictionary creation document group and the search target document group is a patent information document This is a group concept search method.
[0068]
The concept search method described above includes a normal search procedure for performing a normal search by keyword search or classification and outputting the search result to the client when a keyword or classification for normal search is input from the client. It is good also as the concept search method provided.
[0069]
The above concept retrieval method may be formed as follows. That is, in the normal search procedure, a list display procedure for displaying a list of bibliographic items of search results and a search target document selected by the client from the bibliographic items are called, and a part or all of the search target document is called. Is a concept search method including a link procedure for outputting to a client.
[0070]
The above concept retrieval method may be formed as follows. That is, a stem vector creation procedure for creating a stem vector having a dictionary function from a dictionary creation document group, a search target document vector creation procedure for creating a search target document vector group from the stem vector and the search target document group, and a client When a keyword or classification for normal search is entered, a normal search by keyword search or classification is performed, and a bibliographic item is displayed as a normal search list display procedure for displaying a bibliographic item of the search result to the client as a list. A search text vector creation procedure for creating a search text vector from the search text and the stem vector, with part or all of the search target document selected by the client from among the search text, and for the search A vector operation value between a text vector and the search target document vector group is calculated. A vector calculation procedure, and a sorting procedure for sorting the search target document group in the order of the calculated vector calculation value and outputting the sort result to the client, and at least one of the dictionary creation document group and the search target document group is: This is a concept retrieval method using a patent information document group.
[0071]
The above concept retrieval method may be formed as follows. That is, a sort result storage procedure for storing a sort result that is equal to or greater than a predetermined value in the vector calculation value calculated by the vector calculation procedure is provided. This is a concept search method in which a keyword search or a classification search is performed using a target document group.
[0072]
The above concept retrieval method may be formed as follows. That is, in the sorting procedure, a list of bibliographic items is displayed, and a link function with the search target document group is provided so that a part or all of the search target documents corresponding to the bibliographic items can be output. This is a concept search method provided.
[0073]
The above concept retrieval method may be formed as follows. That is, a search text storage procedure for inputting and registering a predetermined search text in advance is provided. In the vector calculation procedure, when a search target document group is updated or added, it is registered by the search text storage means. This is a conceptual search method in which vector calculation values are calculated using the search sentences, and in the sorting procedure, the updated or added search target document group is sorted and output.
[0074]
The above concept retrieval method may be formed as follows. That is, a search text vector accumulation procedure is provided in which a predetermined search text is input in advance and a search text vector created using the search text is registered. In the vector calculation procedure, a search target document group includes When updated or added, the vector calculation value is calculated using the search text vector registered by the search text vector storage procedure. In the sort procedure, the updated or added search target document group is sorted and output. It is a concept search method that we decided to do.
[0075]
The above concept retrieval method may be formed as follows. That is, a re-entry providing procedure is provided for providing the client with a re-input means for re-inputting a new search text created based on the output of the sorting procedure. A new search text vector is created using the text, and in the vector calculation procedure, a new vector calculation value is calculated using the new search text vector. In the sorting procedure, the new vector calculation is calculated. This is a concept retrieval method in which sorting is performed based on values.
[0076]
The above concept retrieval method may be formed as follows. That is, the sorting procedure includes a list display procedure for displaying a list of bibliographic items of the sorting result, a retrieval target document selected by the client from the bibliographic items, and a part or all of the retrieval target document. A link procedure for outputting to a client, and the link procedure is a concept search method in which a part or all of a search target document is output to a client so that it can be copied and pasted.
[0077]
The above concept retrieval method may be formed as follows. That is, a list display procedure for displaying a list of bibliographic items as a result of sorting, and re-entry of search text for re-inputting part or all of a search target document selected by the client from the bibliographic items as search target text The search text vector creation procedure creates a new search text vector using the re-entered search text, and the vector calculation procedure uses the new search text vector to create a new text vector. This is a concept search method that calculates a vector calculation value and sorts based on the new vector calculation value in the sorting procedure.
[0078]
The above concept retrieval method may be formed as follows. That is, a plurality of stem vectors are created in the stem vector creation procedure, a vector computation value is computed for each stem vector in the vector computation procedure, and each search subject document group is computed in the sort procedure. This is a concept retrieval method in which sorting results are output after sorting into stem vectors having the highest vector operation values.
[0079]
The above concept retrieval method may be formed as follows. That is, in the search target document vector creation procedure, a search target document vector group is created for each predetermined portion of the search target document group, and in the vector calculation procedure, a vector calculation value is calculated using the search target document vector group. The sorting procedure is a concept retrieval method in which a vector operation value is output to the client for each predetermined part.
[0080]
The above concept retrieval method may be formed as follows. That is, the search target document group is a search target document group of a predetermined population, and in the search text vector creation procedure, a plurality of search text vectors are created by a plurality of search texts for the search target document group. The sorting procedure is a concept retrieval method in which vector operation values for a plurality of coordinate axes based on the retrieval text vector are plotted and output to a client.
[0081]
A computer-readable recording medium in which the program is recorded can also be provided. The program includes a stem vector creation procedure for creating a stem vector having a dictionary function from a dictionary creation document group, and a search target document vector creation procedure for creating a search target document vector group from the stem vector and the search target document group. A search text vector creation procedure for creating a search text vector from the search text input from the client and the stem vector, and a vector operation value of the search text vector and the search target document vector group is calculated. And a sorting procedure for sorting the search target document group in the order of the calculated vector calculation value and outputting the sort result to the client, and at least one of the dictionary creation document group and the search target document group is The program is a patent information document group.
Here, the “recording medium” is a medium that can carry a program that cannot occupy space by itself, such as a floppy (registered trademark) disk, a hard disk, a CD-ROM, or an MO (magneto-optical disk). ), DVD-ROM, PD, and the like.
[0082]
(Claim 14)
The invention described in claim 14 relates to a computer-readable recording medium on which a program is recorded.
The program includes a stem vector creation procedure for creating a stem vector having a dictionary function from a dictionary creation document group including patent information document groups, and a search object from a search target document group including the stem vector and the patent information document group. Create a search text vector from the search target document vector creation procedure for creating a document vector group, a predetermined output number input procedure for inputting a predetermined output number from the client, a search text input from the client, and the stem vector. A search text vector creation procedure, a vector calculation procedure for calculating a vector calculation value of the search text vector and the search target document vector group, and a search target document group sorted in the order of the calculated vector calculation value. ,client Output means Sort procedure to output the sort result to the normal, and when a keyword or classification for normal search is input from the client, normal search to perform keyword search or classification search and output the search result to the client output means A search procedure and a program to be executed by a computer.
The search object document group is a predetermined part of each patent application document in the patent information document group, and in the sort procedure, the search object document group having the number of data items input in advance as the predetermined output number is used as the client. Output means And output the highest score and the lowest score among the search target documents to be output to the client. Output means Will be output.
[0083]
(Claim 15)
The invention described in claim 15 also relates to a computer-readable recording medium on which a program is recorded.
The program includes a stem vector creation procedure for creating a stem vector having a dictionary function from a dictionary creation document group including patent information document groups, and a search object from a search target document group including the stem vector and the patent information document group. Create a search text vector from the search target document vector creation procedure for creating a document vector group, a predetermined output number input procedure for inputting a predetermined output number from the client, a search text input from the client, and the stem vector. A search text vector creation procedure, a vector calculation procedure for calculating a vector calculation value of the search text vector and the search target document vector group, and a search target document group sorted in the order of the calculated vector calculation value. Sort procedure to output the sort result to the client output means and its Is a program for executing a re-input providing instructions to provide a re-input means for re-enter a new search for sentences created to the client on the basis of the output of procedure, to the computer.
The search object document group is a predetermined part of each patent application document in the patent information document group, and in the sort procedure, the search object document group of the number of data items input in advance as the predetermined output number is the client. Output means And output the highest score and the lowest score among the search target documents to be output to the client. Output means Will be output.
Further, the search text vector creation procedure generates a new search text vector using the re-input search text, and the vector calculation procedure uses the new search text vector. A new vector operation value is calculated, and in the sorting procedure, the program is arranged to sort based on the new vector operation value.
[0084]
The computer program described above may be configured as follows.
That is, a stem vector creation procedure for creating a stem vector having a dictionary function from a patent information document group, a search target document vector creation procedure for creating a search target document vector group from the stem vector and the patent information document group, and input from a client A search sentence vector creating procedure for creating a search sentence vector from the retrieved search sentence and the stem vector, and a vector calculation procedure for calculating a vector operation value of the search sentence vector and the search target document vector group, The computer program includes a sorting procedure for sorting the search target document group in the order of the calculated vector operation value and outputting the sorting result to the client.
[0085]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, the present invention will be described in more detail based on embodiments and drawings. The drawings used here are FIGS. 1 to 19. FIGS. 1 to 15 are conceptual diagrams showing an embodiment of the present invention, and FIGS. 16 to 19 show a main part of screen output in the embodiment of the present invention.
[0086]
(Fig. 1)
FIG. 1 is a conceptual diagram showing a first embodiment of the present invention, which is a device provided in a server in a client / server system. A client user receives a member ID and a password based on a contract with a business entity that operates the server, connects to the Internet, and uses a service provided by the server.
[0087]
The server includes a stem vector creation unit that creates a stem vector that performs a dictionary function from a dictionary creation document group, a search target document vector creation unit that creates a search target document vector group from the stem vector and the search target document group, A search text vector creating means for creating a search text vector from the search text input from the client and the stem vector, and a vector for calculating a vector operation value of the search text vector and the search target document vector group Computation means and sorting means for sorting the search target document group in the order of the computed vector computation value and outputting the sort result to the client are provided.
[0088]
Also provided is a set value storage means for storing a “set vector calculation value” for presetting the range of vector calculation values output to the client output means by the sorting means. This set value will be described again in FIG. Here, both the dictionary creation document group and the search target document group are the patent information document group. "Patent information document" here refers to examination of patent publications, patent patents, publications published under the previous patent law, documents relating to utility model registration applications, patent applications It includes public technical reports and technical papers used to
[0089]
The “vector” is set to “280 dimensions” in consideration of accuracy and calculation burden. Further, as the vector calculation, “inner product” is calculated. A client user is a client who makes a contract with a server and can connect to the Internet. The client user accesses the concept search system provided by the server using the ID and password separately assigned from the server.
[0090]
(Operation of the first embodiment)
First, the stem vector creation means creates a stem vector having a dictionary function from the dictionary creation document group, and the search target document vector creation means creates a search target document vector group from the stem vector and the search target document group. Subsequently, the search text vector creating means creates a search text vector from the search text input from the client and the stem vector, and the vector calculation means has the search text vector and the search target document vector group. The vector operation value of is calculated. Also, the set value set by the setting means for the predetermined vector calculation value is sent to the server. Then, the sorting result obtained by arranging the search target document groups by the number of set values in the order of the vector operation values calculated by the sorting means is displayed on the client. Output means Output to.
Since at least one of the dictionary creation document group and the search target document group is a patent information document group, it is suitable for patent document search. Further, it is possible to achieve a concept search for a patent information document that is a dynamic search target document group that is frequently updated or added and has a large number of words per document.
[0091]
(Variation of the first embodiment)
As a first variation, the dictionary creation document group may be a part of the group formed by the dictionary creation document group. That is, when a document group for creating a dictionary is a patent gazette for several years, it is limited to a patent gazette for one year, for example. In this case, since the dictionary creation document group is a part of the group formed by the dictionary creation document group, the stem vector can be created in a short time. In addition, it can be expected that concept searches that match the technological trends that change from year to year can be performed.
[0092]
As a second variation, the dictionary creation document group can be a predetermined portion of each dictionary creation document in the dictionary creation document group. That is, when a document group for creating a dictionary is a patent gazette for several years, only the abstract part of the patent gazette, only the claims, or a combination thereof is used as the document group for dictionary creation. It is. In this way, a stem vector can be created in a short time.
[0093]
As a third variation, the search target document group can be a predetermined portion of each patent application document in the patent information document group. That is, when there are patent publications for several years, the search target document group is, for example, a claim, a summary, or a combination thereof. In this case, creation of a search target document vector, calculation of a vector calculation value, and the like can be performed in a short time.
[0094]
(Figure 2)
Next, a second embodiment will be described based on FIG. The difference from the first embodiment is that when a keyword or classification for normal search is input from the client, a normal search such as keyword search or classification search is performed, and the search result is sent to the client. Output means It is a point provided with the normal search means for making it output to. In this embodiment, a concept search can be performed on search results narrowed down by a normal search.
[0095]
Here, the “normal search” is to search a document hitting a keyword or the like used in a search target document by designating a predetermined classification. In general, logical expressions (and, x, or, +, etc.) can be adopted. In the case of searching patent information documents, it is possible to narrow down by keywords such as “applicant”, technical terms, and classification symbols such as “international patent classification”.
[0096]
(Figure 3)
Next, a third embodiment will be described based on FIG. The difference from the above-described embodiment is that the concept search can be continuously performed using the result of the normal search. When the concept search is continuously performed, the concept search after the second time is defined as “similarity search”.
[0097]
The result of the regular search for the input of keywords or the like is output as a list display to the client. Then, if the client designates a search text for a similar search from the bibliographic items displayed in the list, the link function of the server acts as an input for the search text. The search text vector creating means creates a search text vector using the designated search text. Then, the vector calculation with the search target document vector group is performed, and the sorting result is displayed on the client. Output means To output.
The search text must be input by the client user (this situation is shown in FIG. 4), but this embodiment has a link function that simplifies the input. This link function will be described in detail in the description of FIG.
[0098]
(Fig. 4)
FIG. 4 shows an example of the operation of the client user. First, it is assumed that a list display is output as a sort result. Here, a list of bibliographic items of patent information documents is displayed. Among these, “summary request” in the “D column” represents an abstract and claims in the patent information document, and is clicked with a pointer.
[0099]
Then, the summary in the patent document information information is output to the client screen by the link function. The screen output provided here is provided so that it can be copied and pasted. Therefore, the user can copy and paste a necessary part in the output summary to the input field of the search text.
Note that if the user clicks on “summary request” on the server, it is possible to omit the operation of the client user by processing as if the search text was automatically input without copying and pasting.
[0100]
(Fig. 5)
Next, a fourth embodiment will be described based on FIG. The difference from the above-described embodiment is that it comprises a vector group extracting means for extracting a predetermined search target document vector group from the search target document vector group created by the search target document vector creating means, and the vector group extracting means The search target document vector group is extracted using the search result of the normal search means.
[0101]
The vector group extraction unit extracts a predetermined search target document vector group from the search target document vector group created by the search target document vector creation unit. Then, the vector group extraction unit extracts a search target document vector group using the search result of the normal search unit. In this way, there is an advantage that the number of vector operations can be reduced and the operation can be performed in a short time as compared with the case where the vector operation is performed using all search target vector groups.
[0102]
(Fig. 6)
Next, a fifth embodiment will be described based on FIG. The difference from the above-described embodiment is that the sort result using the search result is output to the sort means for the normal search means. That is, the search result searched by the normal search means is used when the sort means outputs the sort result. In the normal search, the general “hit number” does not exist in the concept search, but the search result of the normal search, that is, the hit number can be used in the sort output.
[0103]
(Fig. 7)
Next, a sixth embodiment will be described based on FIG. The difference from the above-described embodiment is that the search target document vector creating means creates the search target document vector group using the search target document group corresponding to the search result of the normal search means. That is, the search result of the normal search means is used to narrow down all search target document groups. Thus, a search target document vector is created using the narrowed search target group, a vector operation is performed, and a sort result is output. For this reason, the number of vector operations can be reduced as compared with the case where all search target document groups are used, and the operations can be performed in a short time.
[0104]
(Fig. 8)
Next, a seventh embodiment will be described based on FIG. The difference from the above-described embodiment is that a set value can be input for a vector operation value, and a sort result storage unit that stores a sort result that is equal to or greater than a predetermined value in the vector operation value calculated by the vector operation unit is provided. is there. Further, the normal search means performs a normal search using a search target document group that is equal to or greater than a predetermined vector operation value stored in the sort result storage means.
[0105]
The sort storage means stores a sort result that is equal to or greater than a predetermined value in the vector operation value calculated by the vector operation means. Then, the normal search means performs a keyword search or a classification search using a search target document group equal to or greater than a predetermined vector operation value stored in the sort result storage means. Thereby, keyword search or classification search can be performed on the narrowing-down result by the concept search.
[0106]
(Fig. 9)
Next, an eighth embodiment will be described based on FIG. The difference from the above-described embodiment is that a search text storage means for inputting and registering a predetermined search text in advance is provided. Further, when the search target document group is updated or added, the vector calculation means calculates a vector calculation value using the search text registered in the search text storage means, and the sort means updates or The added search target document group is sorted and output.
[0107]
If necessary, the client user inputs a predetermined search text and registers it in the search text storage means of the server. For example, it is a text for search related to a research theme that is a subject. When the search target document group is updated or added, the vector calculation means calculates a vector calculation value using the search text registered in the search text storage means. Then, the sort means outputs the sorted search target document group updated or added.
The patent information document is added about twice a week, but the client user can receive the sort result of the concept search for the added search target document group. The client user can receive a so-called SDI service for the search text specified in advance.
[0108]
(Fig. 10)
Next, a ninth embodiment will be described based on FIG. The difference from the above-described embodiment is that it is provided with a search text vector storage means for inputting a predetermined search text in advance and registering a search text vector created using the search text. . Then, when the search target document group is updated or added, the vector calculation means calculates a vector calculation value using the search text vector registered in the search text vector storage means, and the sorting means updates Alternatively, the added search target document group is sorted and output to the client.
[0109]
The client user inputs a predetermined search sentence if necessary. Then, the search text vector creation means creates a search text vector and registers it in the search text vector storage means. When the search target document group is updated or added, the vector calculation means calculates a vector calculation value using the search text registered in the search text storage means. Then, the sort means outputs the sorted search target document group updated or added. Since a search text vector for a predetermined search text is created in advance, there is an advantage that vector calculation can be performed quickly.
[0110]
(Fig. 11)
Next, a tenth embodiment will be described with reference to FIG. The difference from the above-described embodiment is that the client is provided with re-input means for re-inputting a new search text created based on the output from the sort means. The search text vector creation means creates a new search text vector using the re-entered search text, and the vector calculation means computes a new vector calculation value using the new search text vector. Then, the sorting means sorts based on the new vector operation value.
[0111]
In addition, the sorting means calls up a list display function for displaying a list of bibliographic items of the sorting result, a search target document selected by the client from the bibliographic items, and a part or all of the search target document, client Output means A link function for outputting to the client, and the link function allows the client to copy and paste part or all of the search target document. Output means To output to.
It should be noted that if the user clicks on the server, the processing of the client user may be omitted by processing as if the search text was automatically input without copying and pasting.
[0112]
The server provides the client with re-input means for re-inputting a new search text created based on the sorted output after the concept search is output by the search text 1. The client user inputs a new search sentence 2 by using a link function or the like. The server creates a new search text vector using the new search text 2, the vector calculation means calculates a new vector calculation value, and the sorting means performs sorting based on the new vector calculation value. Continuous concept search is possible, the search accuracy is gradually improved, and an environment in which desired information can be easily obtained is provided to client users.
[0113]
(Fig. 12)
Next, the eleventh embodiment will be described with reference to FIG. The difference from the above embodiment is that the stem vector creating means creates three stem vectors (A, B, C) from three groups of dictionary creation documents (A, B, C). It is. The vector computing means computes a vector computation value (A, B, C) for each stem vector for the search target document group, and the sorting means converts each search target document group to the stem vector having the highest vector computation value. Sorting results (A, B, C) are output.
[0114]
The plurality of stem vectors are generated, for example, for each technical field or for a predetermined period with respect to a plurality of issuing times, specifically, for one year in 1999, for ten years in the 1990s. Or it is good also as creating for every classification | category of the document group for dictionary creation, specifically, for every patent gazette, an open gazette, and a utility model registration gazette.
[0115]
The stem vector creation means creates the number of stem vectors for each dictionary creation document group, for example, every year and every document type. Then, the vector calculation means calculates a vector calculation value for each search target document group for each stem vector, and the sorting means distributes each search target document group to the stem vector having the highest vector calculation value and outputs a sort result. . The search target document group is assigned to any one of the categories provided for each of the plurality of stem vectors. Here, the sort result can be obtained for each dictionary creation document group. When multiple stem vectors are created for each era, the sorting means outputs the sort results corresponding to the multiple stem vectors, so the concepts that correspond closely to the words, keywords, terms, etc. that change with each era Search is possible.
[0116]
(Fig. 13)
Next, a twelfth embodiment will be described with reference to FIG. The difference from the above-described embodiment is that the search target document vector creating means creates a search target document vector group for each predetermined portion of the search target document group. That is, the patent information includes predetermined portions of claim 1 and abstract, and a search target document vector such as “claim 1 vector group” and “summary vector group” is created for each predetermined portion. Then, the vector calculation means calculates a vector calculation value using the search target document vector group, and the sorting means calculates the vector calculation value for each predetermined part as the client. Output means Output to. Here, the sort result can be obtained for each predetermined portion in the search target document group.
For example, in a summary of patent publication a for a certain search sentence, a maximum score of 80.2 was obtained, but in claim 1 a result of 65.5 and rank 13 was obtained. it can.
[0117]
(Fig. 14)
Then, based on FIG. 14, it is a conceptual diagram which shows an example of the output like a patent map. Two types of search sentences are input, and vector calculation values based on them are adopted for the vertical axis and the horizontal axis, respectively. Both types of vector calculation values are obtained by plotting and outputting a search target document in which a predetermined score or more is recorded.
When the pointer is placed on the plotted point, the bibliographic items of the document corresponding to the plot are output on the screen. Further, although not shown in the figure, if the user clicks, the full text of the document is output.
[0118]
(Fig. 15)
The embodiment described in FIG. 15 includes translation means for translating the language into the language used for the search text vector creation means when the search text input by the client is different from the language used for the search text vector creation means. The search text vector creating means is a concept search device that creates a search text vector using the translation search text translated by the translation means.
[0119]
When the search text input by the client is different from the language used for the search text vector creation means, the translation means translates the language into the language used for the search text vector creation means. The search text vector creation means creates a search text vector using the translation search text. Here, even if the search text is in another language, it can be used for the search as long as the translation means can translate it.
[0120]
As a concept search method, when the search text input by the client is different from the language used for the search text vector creation means, a translation procedure for translating the language into the language used for the search text vector creation means, In the search text vector creation procedure, it is also possible to provide a concept search method that creates a search text vector using the translation search text translated by the translation procedure.
[0121]
Further, as a computer-readable program, a stem vector creation procedure for creating a stem vector having a dictionary function from a dictionary creation document group made up of a patent information document group, and a search target document made up of the stem vector and the patent information document group A search target document vector creation procedure for creating a search target document vector group from a group, and if the search text input from the client is different from the language used for the search text vector creation means, the search text vector creation means A translation procedure for translating into the language used for the search, a search sentence vector creating procedure for creating a search sentence vector from the translated search sentence and the stem vector, the search sentence vector and the search target document vector group, The vector calculation procedure for calculating the vector calculation value of Sort the order searched documents torr calculation value, the program can also be provided with a sorting procedure for outputting the sorted results to the output unit according to the client.
[0122]
(Fig. 16)
FIG. 16 shows a screen output provided from the server to the client as a search text input screen for performing a concept search. On the right side of the “search item”, a search target document group selection button (10) is prepared as a pull-down selection menu. This search item represents a part of the patent information document which is a search target document group. “Summary” is selected on the screen, but claims, claim 1, detailed description of the invention, or a combination thereof can be selected.
[0123]
On the right side of “List Display Number”, a sort output number selection button (11) is prepared as a pull-down selection menu. This list display number is provided in order to limit the number to be output and displayed because the concept search does not have the concept of “number of hits” and all search target document groups are scored as vector operation values. is there. In the screen of FIG. 16, “100” is selected, and this is an instruction to display a list of 100 items in descending order of vector calculation score.
[0124]
In the center of FIG. 16, a box for inputting text is prepared. This is the search text input field (12). Unlike entering keywords, classifications, and logical expressions, enter sentences. When the input of the search text has been completed, the concept search is started by clicking the search start button (13) near the lower center of FIG.
[0125]
(Fig. 17)
FIG. 17 shows a state in which the server finishes the concept search as a result of clicking the search start button (13) in FIG. 16, and outputs the result to the client. In the upper left of the figure, there is a display column (20) for the number of sort outputs, which displays “the top 100 items” corresponding to the sort output number selection button (11) in FIG. Further, on the right side, a score range display field (21) for displaying the highest score and the lowest score among the 100 cases is output. As the vector operation, the inner product is calculated, and thus the highest point is 1.000. However, in order to make the score easy to see, it is displayed by multiplying by 100.
[0126]
If it is determined that the desired result has not been obtained by looking at the score range display field (21), the search target document group selection button (10) prepared at the bottom of FIG. Re-enter the selection button (11), search text input field (12), etc., and click the search start button (13) again. On the other hand, if it is determined that the desired result has been generally obtained by looking at the score range display field (21), the list display button (22) on the right side of the score range display field (21) is clicked. Then, the screen output as shown in FIG. 18 is provided.
[0127]
(Fig. 18)
In the upper half of FIG. 18, the search text is reproduced and the search result is displayed. On the other hand, in the lower half, a part of the display number 100 is output as a list display (30). The list display (30) shows bibliographic items in one application publication document in one line column. The second column from the left in the list display (30) is a score display column (31). The score displayed at the top of the score display field (31) matches the score in the score range display field (21) in FIG.
[0128]
The rightmost column of the column adopts the text described in the “Summary” or “Claims” in the application publication document specified by the bibliographic items as the search text for the concept search as it is. This is a link button (33) for "similar search". When this link button (33) is clicked, an output screen as shown in FIG. 19 is provided. That is, the server provides the “copy and paste” operation shown in FIG.
The document number column also includes a link button (32), and when the link button (32) is clicked, the full text of the document can be output.
[0129]
(Fig. 19)
FIG. 19 shows a part of an output screen as a result of performing a similar search by summarizing patent application publication documents. In the upper half, the origin of the text adopted as the search text is reproduced. it's shown. On the other hand, in the lower half, a part of the display number 100 is output again as a list display (30).
[0130]
In this case, 100.0 is output as the highest score display (34) in the second column from the left of the top row in the list display (30). This is naturally a perfect score because the patent application that matches completely is selected in the similarity search selected on the output screen of FIG. In the rightmost column of the column shown in FIG. 19, the same link button (32, 33) as that in FIG. 18 is prepared so that further “similar search” can be performed.
[0131]
【The invention's effect】
According to the invention described in claims 1 to 13, the concept is applied to a search target document that is a dynamic search target document group that is frequently updated or added and has a large number of words per document. We were able to provide a device that can perform searches.
[0132]
According to the invention described in claim 14 and claim 15, for a search target document that is a dynamic search target document group that is frequently updated or added and has a large number of words per document. We were able to provide a computer program that could perform concept searches.
[Brief description of the drawings]
FIG. 1 is a conceptual diagram showing a first embodiment.
FIG. 2 is a conceptual diagram showing a second embodiment.
FIG. 3 is a conceptual diagram showing a third embodiment.
FIG. 4 is a conceptual diagram illustrating an example of an operation of a client user.
FIG. 5 is a conceptual diagram showing a fourth embodiment.
FIG. 6 is a conceptual diagram showing a fifth embodiment.
FIG. 7 is a conceptual diagram showing a sixth embodiment.
FIG. 8 is a conceptual diagram showing a seventh embodiment.
FIG. 9 is a conceptual diagram showing an eighth embodiment.
FIG. 10 is a conceptual diagram showing a ninth embodiment.
FIG. 11 is a conceptual diagram showing a tenth embodiment.
FIG. 12 is a conceptual diagram showing the eleventh embodiment.
FIG. 13 is a conceptual diagram showing a twelfth embodiment.
FIG. 14 is a conceptual diagram showing an example of so-called patent map output.
FIG. 15 is a conceptual diagram showing a thirteenth embodiment.
FIG. 16 is a diagram showing a part of a screen output provided from a server to a client as a search text input screen for performing a concept search.
17 is a diagram showing a part of the next screen output of FIG. 16;
FIG. 18 is a diagram illustrating a part of the next screen output of the sorting result of the concept search.
FIG. 19 is a diagram showing a part of an output screen as a result of performing a similar search by summarization in a patent application publication document;
[Explanation of symbols]
10 Search target document group selection button 11 Sort output number selection button
12 Search text entry field 13 Search start button
20 Sort output number display column 21 Score range display column
22 List display request button
30 List display 31 Score display field
32 Link button 33 Link button
34 Highest score display

Claims (15)

クライアント・サーバシステムにおけるサーバに備えられる概念検索装置であって、
辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手段と、
前記ステムベクトルおよび検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手段と、
クライアントから所定出力数を入力される所定出力数入力手段と、
クライアントから入力された検索用文章と前記ステムベクトルとから検索用文章ベクトルを作成する検索用文章ベクトル作成手段と、
その検索用文章ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手段と、
演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントの出力手段へソート結果を出力するソート手段と、を備え、
前記の検索対象文書群は、特許情報文献群とするとともに特許情報文献群における各々の特許出願文献の所定部分とし、
前記のソート手段は、前記の所定出力数入力手段にて所定出力数として予め入力されたデータ件数の検索対象文書群をクライアントの出力手段へ出力するとともに、 出力される検索対象文書群のうち、最高スコアおよび最低スコアをクライアントの出力手段へ出力することとした概念検索装置。
A concept retrieval device provided in a server in a client-server system,
A stem vector creating means for creating a stem vector having a dictionary function from the dictionary creating document group;
Search target document vector creating means for creating a search target document vector group from the stem vector and the search target document group;
A predetermined output number input means for inputting a predetermined output number from the client;
A search sentence vector creating means for creating a search sentence vector from a search sentence input from a client and the stem vector;
A vector calculation means for calculating a vector calculation value of the search sentence vector and the search target document vector group;
Sorting means for sorting the search target document group in the order of the calculated vector operation value, and outputting the sort result to the output means of the client,
The search object document group is a patent information document group and a predetermined part of each patent application document in the patent information document group,
The sorting unit outputs a search target document group of the number of data items previously input as a predetermined output number by the predetermined output number input unit to the output unit of the client , and among the output search target document group, A concept retrieval device that outputs the highest score and the lowest score to the output means of the client.
クライアントから通常検索のためのキーワードまたは分類等を入力された場合に、キーワード検索または分類検索等の通常検索を行って、その検索結果をクライアントの出力手段へ出力させるための通常検索手段を備え、
その通常検索手段は、ソート結果に対してクライアントから通常検索のためのキーワードまたは分類等を入力された場合に、通常検索を行うこととした請求項1に記載の概念検索装置。
A normal search means for performing a normal search such as a keyword search or a classification search and outputting the search result to the output means of the client when a keyword or classification for normal search is input from the client;
The concept search device according to claim 1, wherein the normal search means performs normal search when a keyword or classification for normal search is input from the client to the sort result.
前記の通常検索手段は、検索結果の書誌的事項を一覧表示させる一覧表示機能と、
当該一覧表示の中からクライアントが選択した検索対象文書を呼び出して、その検索対象文書の一部または全部を、クライアントの出力手段へ出力させるためのリンク機能と、を備え、
通常検索手段のリンク機能は、検索対象文書の一部または全部を、コピーアンドペースト可能であるようにクライアントの出力手段へ出力することとした請求項2に記載の概念検索装置。
The normal search means includes a list display function for displaying a list of bibliographic items of search results,
A link function for calling a search target document selected by the client from the list display and outputting a part or all of the search target document to an output unit of the client,
3. The concept search device according to claim 2, wherein the link function of the normal search means outputs a part or all of the search target document to the output means of the client so that it can be copied and pasted.
前記の通常検索手段は、検索結果の書誌的事項を一覧表示させる一覧表示機能と、
当該一覧表示の中からクライアントが選択した検索対象文書の一部または全部を、検索用文章とすることが可能なリンク機能と、を備えた請求項2に記載の概念検索装置。
The normal search means includes a list display function for displaying a list of bibliographic items of search results,
The concept search device according to claim 2, further comprising: a link function that enables a part or all of a search target document selected by the client from the list display to be a search sentence.
前記の検索対象文書ベクトル作成手段が作成した検索対象文書ベクトル群の中から所定の検索対象文書ベクトル群を抽出するベクトル群抽出手段を備え、 そのベクトル群抽出手段は、通常検索手段の検索結果を用いて検索対象文書ベクトル群を抽出することとした請求項2または請求項4のいずれに記載の概念検索装置。  A vector group extraction unit that extracts a predetermined search target document vector group from the search target document vector group generated by the search target document vector generation unit, and the vector group extraction unit displays the search result of the normal search unit. 5. The concept search apparatus according to claim 2, wherein the search target document vector group is extracted by using the concept search vector group. 前記の検索対象文書ベクトル作成手段は、通常検索手段の検索結果に対応する検索対象文書群を用いて検索対象文書ベクトル群を作成することとした請求項2から請求項5のいずれかに記載の概念検索装置。  6. The search target document vector creating unit creates a search target document vector group using a search target document group corresponding to a search result of a normal search unit. Concept search device. 前記のベクトル演算手段によって演算されたベクトル演算値における所定値以上のソート結果を記憶するソート結果記憶手段を備え、
前記の通常検索手段は、前記のソート結果記憶手段に記憶された所定ベクトル演算値以上の検索対象文書群を用いて通常検索を行うこととした請求項2から請求項6のいずれかに記載の概念検索装置。
Sort result storage means for storing a sort result equal to or greater than a predetermined value in the vector operation value calculated by the vector operation means,
7. The normal search unit according to claim 2, wherein the normal search unit performs a normal search using a search target document group that is equal to or greater than a predetermined vector operation value stored in the sort result storage unit. Concept search device.
予め所定の検索用文章を入力して登録しておく検索用文章蓄積手段を備え、
前記のベクトル演算手段は、検索対象文書群が更新または追加されたら、その検索用文章蓄積手段に登録された検索用文章を用いてベクトル演算値を演算することとし、
前記のソート手段は、更新または追加された検索対象文書群についてソート出力するとともに所定スコアとして予めクライアントから入力されたスコアデータを上回る検索対象文書群をクライアントの出力手段へ出力することとした請求項2から請求項7のいずれかに記載の概念検索装置。
A search text storage means for inputting and registering a predetermined search text in advance is provided.
When the search target document group is updated or added, the vector calculation means calculates a vector calculation value using the search text registered in the search text storage means,
The sort means outputs a search target document group that exceeds the score data previously input from the client as a predetermined score, and outputs the search target document group as a predetermined score to the client output means . The concept search device according to claim 2.
予め所定の検索用文章を入力し、その検索用文章を用いて作成した検索用文章ベクトルを登録しておく検索用文章ベクトル蓄積手段を備え、
前記のベクトル演算手段は、検索対象文書群が更新または追加されたら、その検索用文章ベクトル蓄積手段に登録された検索用文章ベクトルを用いてベクトル演算値を演算することとし、
ソート手段は、更新または追加された検索対象文書群についてソート出力するするとともに所定スコアとして予めクライアントから入力されたスコアデータを上回る検索対象文書群をクライアントの出力手段へ出力することとした請求項2から請求項8のいずれかに記載の概念検索装置。
A search sentence vector storage means for inputting a predetermined search sentence in advance and registering a search sentence vector created using the search sentence,
When the search target document group is updated or added, the vector calculation means calculates a vector calculation value using the search text vector registered in the search text vector storage means,
The sorting means outputs the search target document group that has been updated or added, and outputs the search target document group that exceeds the score data previously input from the client as a predetermined score to the output means of the client. The concept search device according to claim 8.
予め入力する検索用文章を複数入力するとともに、
前記のソート手段は、それら検索用文章に対応させてソート結果を出力させることとした請求項8または請求項9のいずれかに記載の概念検索装置。
Enter multiple search sentences to be entered in advance,
The concept search device according to claim 8, wherein the sorting unit outputs a sort result in association with the search sentences.
前記のソート手段による出力に基づいて作成した新たな検索用文章を再入力するための再入力手段をクライアントへ提供し、
前記の検索用文章ベクトル作成手段は、再入力された検索用文章を用いて新たな検索用文章ベクトルを作成し、
前記のベクトル演算手段は、その新たな検索用文章ベクトルを用いて新たなベクトル演算値を演算し、
前記のソート手段は、その新たなベクトル演算値に基づいてソートすることとした請求項1から請求項10のいずれかに記載の概念検索装置。
Providing the client with a re-input means for re-inputting the new search text created based on the output by the sort means;
The search sentence vector creating means creates a new search sentence vector using the re-entered search sentence,
The vector calculation means calculates a new vector calculation value using the new search sentence vector,
The concept search device according to claim 1, wherein the sorting unit performs sorting based on the new vector operation value.
前記のステムベクトル作成手段は、複数の辞書作成用文書群から当該数のステムベクトルを作成し、
前記のベクトル演算手段は、検索対象文書群をステムベクトルごとにベクトル演算値を演算し、
前記のソート手段は、各検索対象文書群を、最も高いベクトル演算値のステムベクトルへ振り分けてソート結果を出力させることとした請求項1から請求項11のいずれかに記載の概念検索装置。
The stem vector creation means creates the number of stem vectors from a plurality of dictionary creation document groups,
The vector calculation means calculates a vector calculation value for each stem vector of the search target document group,
The concept search device according to claim 1, wherein the sorting unit distributes each search target document group to a stem vector having the highest vector operation value and outputs a sort result.
前記の検索対象文書群は、所定母集団の検索対象文書群とし、
前記の検索対象文書群は、特許情報文献群における各々の特許出願文献の所定部分とし、
前記の検索用文章ベクトル作成手段は、前記検索対象文書群に対して複数の検索用文章による複数の検索用文章ベクトルを作成し、
前記のソート手段は、前記検索用文章ベクトルに基づく複数の座標軸に対するベクトル演算値をプロットしてクライアントの出力手段へ出力するとともに、 所定のプロットにおける検索対象文書群の書誌的事項の一部を、クライアントの出力手段へ出力可能とした請求項1から請求項12のいずれかに記載の概念検索装置。
The search target document group is a search target document group of a predetermined population,
The search object document group is a predetermined part of each patent application document in the patent information document group,
The search sentence vector creating means creates a plurality of search sentence vectors by a plurality of search sentences for the search target document group,
The sorting means plots vector operation values for a plurality of coordinate axes based on the search sentence vector and outputs them to the client output means , and part of the bibliographic items of the search target document group in the predetermined plot, The concept search device according to claim 1, wherein the concept search device can output to an output unit of a client.
プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
そのプログラムは、特許情報文献群からなる辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手順と、
前記ステムベクトルおよび特許情報文献群からなる検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手順と、
クライアントから所定出力数を入力される所定出力数入力手順と、
クライアントから入力された検索用文章と前記ステムベクトルとから検索用文章ベクトルを作成する検索用文章ベクトル作成手順と、
その検索用文章ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手順と、
演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントの出力手段へソート結果を出力するソート手順と、
クライアントから通常検索のためのキーワードまたは分類を入力された場合に、キーワード検索または分類検索を行って、その検索結果をクライアントの出力手段へ出力させるための通常検索手順と、
をコンピュータに実行させるためのプログラムとし、
前記の検索対象文書群は、特許情報文献群における各々の特許出願文献の所定部分とし、
前記のソート手順においては、所定出力数として予め入力されたデータ件数の検索対象文書群をクライアントの出力手段へ出力するとともに、 出力される検索対象文書群のうち、最高スコアおよび最低スコアをクライアントの出力手段へ出力することとしたコンピュータ読み取り可能な記録媒体。
A computer-readable recording medium storing a program,
The program includes a stem vector creation procedure for creating a stem vector having a dictionary function from a dictionary creation document group consisting of a group of patent information documents,
A search target document vector creation procedure for creating a search target document vector group from a search target document group consisting of the stem vector and the patent information literature group;
A predetermined output number input procedure for inputting a predetermined output number from the client;
A search text vector creation procedure for creating a search text vector from the search text input from the client and the stem vector;
A vector calculation procedure for calculating a vector calculation value of the search sentence vector and the search target document vector group;
A sorting procedure for sorting the search target document group in the order of the calculated vector operation value and outputting the sorting result to the client output means ,
When a keyword or classification for normal search is input from the client , a normal search procedure for performing a keyword search or classification search and outputting the search result to the client output means ,
As a program for causing a computer to execute
The search object document group is a predetermined part of each patent application document in the patent information document group,
In the sorting procedure, the search target document group having the number of data items input in advance as the predetermined output number is output to the output unit of the client , and the highest score and the lowest score among the output search target document group are determined by the client . A computer-readable recording medium to be output to the output means .
プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
そのプログラムは、特許情報文献群からなる辞書作成用文書群から辞書機能をなすステムベクトルを作成するステムベクトル作成手順と、
前記ステムベクトルおよび特許情報文献群からなる検索対象文書群から検索対象文書ベクトル群を作成する検索対象文書ベクトル作成手順と、
クライアントから所定出力数を入力される所定出力数入力手順と、
クライアントから入力された検索用文章と前記ステムベクトルとから検索用文章ベクトルを作成する検索用文章ベクトル作成手順と、
その検索用文章ベクトルと前記検索対象文書ベクトル群とのベクトル演算値を演算するベクトル演算手順と、
演算されたベクトル演算値の順に検索対象文書群をソートして、クライアントの出力手段へソート結果を出力するソート手順と、
そのソート手順による出力に基づいて作成した新たな検索用文章を再入力するための再入力手段をクライアントへ提供する再入力提供手順と、をコンピュータに実行させるためのプログラムとし、
前記の検索対象文書群は、特許情報文献群における各々の特許出願文献の所定部分とし、
前記のソート手順においては、所定出力数として予め入力されたデータ件数の検索対象文書群をクライアントの出力手段へ出力するとともに、 出力される検索対象文書群のうち、最高スコアおよび最低スコアをクライアントの出力手段へ出力することとし、
前記の検索用文章ベクトル作成手順は、再入力された検索用文章を用いて新たな検索用文章ベクトルを作成し、
前記のベクトル演算手順においては、その新たな検索用文章ベクトルを用いて新たなベクトル演算値を演算し、
前記のソート手順においては、その新たなベクトル演算値に基づいてソートすることとしたコンピュータ読み取り可能な記録媒体。
A computer-readable recording medium storing a program,
The program includes a stem vector creation procedure for creating a stem vector having a dictionary function from a dictionary creation document group consisting of a group of patent information documents,
A search target document vector creation procedure for creating a search target document vector group from a search target document group consisting of the stem vector and the patent information literature group;
A predetermined output number input procedure for inputting a predetermined output number from the client;
A search text vector creation procedure for creating a search text vector from the search text input from the client and the stem vector;
A vector calculation procedure for calculating a vector calculation value of the search sentence vector and the search target document vector group;
A sorting procedure for sorting the search target document group in the order of the calculated vector operation value and outputting the sorting result to the client output means;
A program for causing a computer to execute a re-input providing procedure for providing a client with re-input means for re-inputting a new search sentence created based on an output by the sorting procedure,
The search object document group is a predetermined part of each patent application document in the patent information document group,
In the sorting procedure, the search target document group having the number of data items input in advance as the predetermined output number is output to the output unit of the client , and the highest score and the lowest score among the output search target document group are determined by the client . To output to the output means ,
The search text vector creation procedure described above creates a new search text vector using the re-input search text,
In the vector calculation procedure, a new vector calculation value is calculated using the new search sentence vector,
In the sorting procedure, a computer-readable recording medium in which sorting is performed based on the new vector operation value.
JP2000197027A 2000-06-29 2000-06-29 Concept search device and recording medium recording computer program Expired - Lifetime JP4497337B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000197027A JP4497337B2 (en) 2000-06-29 2000-06-29 Concept search device and recording medium recording computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000197027A JP4497337B2 (en) 2000-06-29 2000-06-29 Concept search device and recording medium recording computer program

Publications (2)

Publication Number Publication Date
JP2002015001A JP2002015001A (en) 2002-01-18
JP4497337B2 true JP4497337B2 (en) 2010-07-07

Family

ID=18695416

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000197027A Expired - Lifetime JP4497337B2 (en) 2000-06-29 2000-06-29 Concept search device and recording medium recording computer program

Country Status (1)

Country Link
JP (1) JP4497337B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005066837A1 (en) 2003-12-26 2005-07-21 Matsushita Electric Industrial Co., Ltd. Dictionary creation device and dictionary creation method
WO2008143116A1 (en) 2007-05-17 2008-11-27 So-Ti, Inc. Document retrieving apparatus and document retrieving method
JP5661995B2 (en) 2008-12-15 2015-01-28 エイチジーエスティーネザーランドビーブイ Magnetoresistive magnetic head
CN102804125A (en) * 2009-05-08 2012-11-28 Cpa软件有限公司 Method, system, and apparatus for targeted searching of multi-sectional documents within an electronic document collection

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH096799A (en) * 1995-06-19 1997-01-10 Sharp Corp Document sorting device and document retrieving device

Also Published As

Publication number Publication date
JP2002015001A (en) 2002-01-18

Similar Documents

Publication Publication Date Title
US20210286852A1 (en) User Interfaces for a Document Search Engine
US10528650B2 (en) User interface for presentation of a document
US6442540B2 (en) Information retrieval apparatus and information retrieval method
US7783644B1 (en) Query-independent entity importance in books
US6366908B1 (en) Keyfact-based text retrieval system, keyfact-based text index method, and retrieval method
US9323827B2 (en) Identifying key terms related to similar passages
JPH09101990A (en) Information filtering device
CN107967290A (en) A kind of knowledge mapping network establishing method and system, medium based on magnanimity scientific research data
JPH09153063A (en) Informatoin filtering device
JP4497337B2 (en) Concept search device and recording medium recording computer program
Revanth et al. Nl2sql: Natural language to sql query translator
JPH1145252A (en) Information retrieval device and computer readable recording medium for recording program for having computer function as the same device
JPH09153064A (en) Information filtering device
JP4497338B2 (en) Concept search device and recording medium recording computer program
JP4384736B2 (en) Image search device and computer-readable recording medium storing program for causing computer to function as each means of the device
JP4493825B2 (en) Concept retrieval device based on non-text input and recording medium recording computer program
JP2002183195A (en) Concept retrieving system
JP4138048B2 (en) Information retrieval device and computer-readable recording medium recording a program for causing a computer to function as the device
JPH1145251A (en) Information analysis support device for using retrieval function and computer readable recording medium for recording program for making computer function as the same device
JPH1145254A (en) Document retrieval device and computer readable recording medium recorded with program for functioning computer as the device
JP7428035B2 (en) Data retrieval device, data retrieval method and program
JPH1145249A (en) Information retrieval device and computer-readable recording medium where program for making computer function as same device is recorded
JP4368550B2 (en) Document search apparatus, document search method, and program causing computer to execute the method
JP2002245087A (en) Device and method for retrieving drawing and computer program
JPH1145255A (en) Document retrieval device and computer-readable recording medium where program making computer function as same device is recorded

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100311

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100331

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100407

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130423

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4497337

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140423

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term