JP6843588B2 - 文書検索方法及び装置 - Google Patents

文書検索方法及び装置 Download PDF

Info

Publication number
JP6843588B2
JP6843588B2 JP2016215796A JP2016215796A JP6843588B2 JP 6843588 B2 JP6843588 B2 JP 6843588B2 JP 2016215796 A JP2016215796 A JP 2016215796A JP 2016215796 A JP2016215796 A JP 2016215796A JP 6843588 B2 JP6843588 B2 JP 6843588B2
Authority
JP
Japan
Prior art keywords
search
document
query
keyword
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016215796A
Other languages
English (en)
Other versions
JP2018073309A (ja
Inventor
佐藤 祐介
祐介 佐藤
良彰 内木
良彰 内木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2016215796A priority Critical patent/JP6843588B2/ja
Priority to PCT/JP2017/039655 priority patent/WO2018084226A1/ja
Publication of JP2018073309A publication Critical patent/JP2018073309A/ja
Application granted granted Critical
Publication of JP6843588B2 publication Critical patent/JP6843588B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書検索の技術にかかる。
特許出願前の公知例調査や、他社の関連しうる特許の検索に、特許検索システムを利用し、効率化が図られている。例えば特許文献1に記載のような文書検索技術がある。
特開2012-164049号公報
検索方法の代表的なものとして、キーワード検索と、類似検索がある。キーワード検索は、クエリとして入力した書誌やキーワードを含む特許文献のみを抽出する。類似検索は、クエリとして入力したキーワード、文章、文書に類似する特許文献を、近い方から所定数抽出する。
しかしながら、キーワード検索では、クエリの条件に該当していれば、その中での優先順位は付けられていないので、検索結果の文献表示順が考慮されていない。一方、類似検索は、検索対象文献全体を類似度算出の対象としてしまうので、特定の箇所の記載を狙って検索がしにくい。
本発明は、上記課題を考慮してなされたものであり、キーワード検索と類似検索とを合わせた特許文献検索技術を提供することを目的とする。
本発明は、上記課題を解決するために、キーワードを含むクエリを用いて文献抽出するキーワード検索と、クエリに基づいて類似する順に文献を並べ替える類似検索を組み合わせて検索を行い、類似検索における類似スコアが上位の文献が、キーワード検索で抽出されているようにする機能を設ける。
本発明によれば、キーワード検索と類似検索とを合わせた特許文献検索において、類似検索上位の文献を確実に抽出し、それぞれの長所を活かした検索を行うことができる。
本発明の一実施例にかかる特許検索システムの構成図である。 (a)は書誌情報の一例であり、(b)は文献本体情報の一例である。 (a)は、キーワード検索におけるクエリの一例であり、(b)はキーワード検索結果の一例である。 (a)〜(c)は、類似検索におけるクエリの一例であり、(d)は類似検索結果の一例である。 本発明の一実施例にかかる特許検索のフローチャートである。 本発明の一実施例にかかるキーワード検索結果の一例である。 本発明の一実施例にかかる検索結果において文献選択した一例である。 本発明の一実施例にかかる類似順ソートした検索結果の一例である。 本発明の他の実施例にかかる検索クエリの一例である。 本発明の他の実施例にかかる特許検索のフローチャートである。 本発明の他の実施例を説明するための比較例である。 本発明の他の実施例にかかるクエリの表示例である。
以下、図面を用いて本発明の実施例を説明する。
図1に、本実施例にかかる特許文献検索システムの構成を示す。図1では、特許文献検索サーバ101と、端末110とが、ネットワーク109により接続されている。
特許文献検索サーバ101は、演算部102と記憶部を有する。演算部は、CPU(Central Processing Unit)などで構成され、キーワード検索を行うキーワード検索部103と、類似検索を行う類似検索部104と、これらに検索部が検索を行えるように入力された情報を処理したり、出力するための情報を作成したりする統合管理部105とを有する。記憶部は、HDD(Hard Disk Drive)や半導体メモリなどで構成され、書誌情報DB(データベース)107と、文書DB(データベース)108を有する。
端末110は、ユーザが情報の入出力を行うための端末であり、例えば、演算部、記憶部、ディスプレイ、入力装置等を有する一般的なPC端末で構成される。
ネットワーク109は、インターネットやイントラネットなどが該当する。
本実施例の検索機能について、説明する。
特許文献データの構成を、図2に示す。特許文献は、書誌情報と文献本体情報とを有し、書誌情報DB107と文書DB108に分かれて保存されおり、画面等に出力時には、文献番号に基づいて書誌情報と文献本体情報とが合体されて画面表示される。図2(a)に示す書誌情報は、特許出願にかかる属性を規定しており、例えば、文献種類、出願番号、公開番号、特許番号、出願日、公開日、登録日、出願人/権利者、発明者、国際分類(IPC)、代理人などの項目が含まれている。図2(b)に示す文献本体情報は、明細書、図面、特許請求の範囲、要約書など、特許出願の実体的な部分が含まれている。明細書は、さらに、発明の名称、背景技術、課題、解決手段、効果、実施例等の項目に細分化される。
キーワード検索機能について説明する。キーワード検索部103が行うキーワード検索機能は、クエリとして、書誌情報または文献本体情報の項目と、キーワードなどの条件をクエリとして入力し、このクエリに適合する文献を抽出するものである。
クエリの一例を、図3(a)に示す。クエリでは、項目名を指定されたキーワードが組になって入力される。キーワードの数は任意である。
検索における文献抽出は、クエリに適合しているかどうかによって行い、抽出文献数は都度変わる。図3(a)に示すクエリで検索した場合には、A社の出願であり、公開日が2015年1月1日から同年12月31日であり、「要約」に「掃除機」及び「バッテリー」の文字が含まれている日本の公開公報のみが検索結果に含まれる。類似語機能を有して稼働させていれば、「掃除機」の類似語である「クリーナー」や、「バッテリー」の類似語である「電池」「充電池」などを代わりに有する文献も抽出できる。
図3(b)に、キーワード抽出結果の一例を示す。クエリに適合した特許文献の公開番号、公開日、出願人、発明の名称が、羅列されている。本実施例では、公開番号順に文献が並べられているが、出願人など他の項目で並べ替えることも可能である。
類似検索について説明する。類似検索部104が行う類似検索は、クエリとして、キーワード、文章、文献(文献番号)を用いて、検索対象の各文献との類似度を算出し、類似度スコアの高い順に並べるものである。
クエリの一例を図4(a)〜(c)に示す。クエリは、(a)のようにキーワードでもよいし、(b)のように文書でもよいし、(c)のように文献番号(検索対象として保存されているものに限る)でもよい。
類似検索の処理では、まず、クエリをキーワード化する処理を行う。キーワードに重み付けを行ってもよい。図4(a)のようにクエリがキーワードの場合には、そのまま用いることができる。クエリが文章である場合には、構文解析を行うことでキーワードを抽出する。クエリが文献番号である場合には、予め文献を構文解析して保存してあるキーワードを用いる。
次に、クエリと文献との類似スコアを算出する。検索対象文献は、予め構文解析がされてキーワードが紐付けられて格納されている。キーワードの登場回数を記憶してもよい。クエリにかかるキーワードと、検索対象文献にかかるキーワードとが同一か(または、類似語機能を用いて類似か)、同一(又は類似)の場合には重みづけも考慮して類似度スコアを算出する。類似スコア算出は全検索対象文献について行うが、類似スコアが低いことが明らかな文献は予めスコア算出から除外してもよい。
図4(d)に、類似検索の結果の一例を示す。類似する文献の特許文献の公開番号、公開日、出願人、発明の名称に加え、類似スコアが、その特許文献の類似度スコアの大きい順に並べられている。抽出文献数については、予め決められた数だけ表示してもよいし、類似スコアが所定値より大きなものを表示するようにしてもよい。
ところで、これらの検索にも、使いにくい点はある。キーワード検索は、対象文献内の項目を指定して検索ができるため、書誌情報の他、発明の名称、課題、効果、手段など特定の項目の記載を狙って検索ができる点が長所である。また、クエリに基づいて検索結果の件数が変わり、クエリの適切さも評価できる。しかしながら、検索結果の文献の中では、クエリに沿った適切な順序で並べられていないため、抽出結果の文献数が多い場合には、それらを閲覧するのに手間がかかる。例えば、100件以上の文献が検索された場合、それらの中から適切な1件を選ぶのに多くの文献をチェックしなければならない。
一方で、類似検索は、類似度が高い文献から並んでいる点が長所であるため、検索順位の上位から文献をチェックすることで所望の文献を見つけることができる。しかしながら、文献全体から抽出したキーワードを用いるため、発明の重要な部分として記載したのか、実施例の一部分に一般技術として記載したのかの判別が困難である。例えば、掃除機の「吸引力」というキーワードを用いた場合、「発明の効果」として記載してありその発明が吸引力向上を目的にした発明なのか、実施例に記載し同分野では周知である技術の効果として記載したのかが判断できない。
そこで、本実施例では、キーワード検索と類似検索の長所を組みわせるために、図5に示す本実施例の検索フローを行う。まず、キーワード検索を行い、検索結果を表示させる(S501)。キーワード検索は、前述した通りの手順で行う。本実施例においては、図3(a)のようなクエリを用い、バッテリーを有するコードレス掃除機の文献を検索する。
キーワード検索の結果601を、図6に示す。文献番号や文献名称に加えて、本実施例では選択欄が表示されている。ユーザは抽出結果をみて、最も検索目的に適合していると考える文献を選択する(S502)。それぞれの文献の発明名称や詳細内容を見て、適している文献を選び、選択欄602にチェックをする。選択する文献は、1件でもよいし、複数でもよい。図7において、ユーザが文書内容をチェックし、項番3の「リモコン付掃除機」は本検索で所望の特許文献とは異なるため選択せず、項番1,2及び4の文献を選択する。選択は統合管理部105が受付け、類似検索部104が検索を行えるように処理する。
その状態で、類似検索ボタンをクリックすると、当該選択した文献をクエリとして、類似検索部104はキーワード検索で抽出した文献の類似検索を行う(S503)。図4(c)に示すように文献をクエリとして指定した類似検索を、先のキーワード検索で抽出された文献に対して行うのである。例えば、項番1の文献のみを選択した場合(図示せず)、最も類似度が高いのは当然ながらここの文献として、No2以下にキーワード検索で抽出した文献が並び変わる。
複数の文献を選択した場合には、その複数の文献の各々に紐付けられたキーワードに基づいて、類似検索用のクエリが作成される。例えば図7のように、項番1,2及び4の3つの文献を選択した場合、それらの各々に紐付けされたキーワードの合算をクエリにする。
複数の文献を選択した場合の類似検索の結果を、図8に示す。例えば、1〜3番目には選択した項番1,2及び4の文献が類似度順に並び、次いでそれらの文献に近い文献が4番目以降の上位に並ぶ。ユーザは、上位の文献を閲覧することにより、所望の文献を見つけることができる。
このようにして、検索して文献を並び替えることにより、所望の文献を見つけやすくなる。ユーザは、所望の文献を見つけた場合、その文献の電子データをダウンロードするなどして目的特許文献の取得を行う(S504)。
本発明の他の実施例について説明する。実施例1と同様のところは説明を割愛し、実施例1と異なるところを説明する。
実施例1では、キーワード検索、類似検索の順で行い、キーワード検索で抽出した特許群を類似検索で所望の順番に並べ替えるものである。実施例2では、キーワード検索と類似検索を並行して行う。
本実施例におけるクエリの例を図9に示す。本実施例のクエリは、キーワードクエリ部と類似クエリ部を有する。キーワードクエリ部は、キーワード検索で用いるクエリと同様であり、類似クエリ部は、類似検索で用いるクエリと同様で検索文、文献番号の一方または両方を有している。
本実施例のフローを、図10に示す。
図11に、比較例としての検索結果を示す。図11(a)は、説明のために作成した仮の検索結果である。類似クエリ部に規定された類似順に文献が並ぶとともに、それぞれの文献がキーワード検索で検索されるものかどうかのキーワード欄1101を有している。「○」は、キーワード検索で検索される文献であり、「−」は検索されない文献である。図11(a)の例では、類似検索で上位になった文献が、キーワード検索から外れている。これを実際に検索結果とすると、図11(b)のようになる。類似検索で上位の文献がキーワードから外れているため、検索結果から漏れてしまい、キーワード検索で該当した類似度スコアが低い文献が残っている。
本実施例では、上記問題を解決するために、次のようなことを行う。図9は、本実施例の入力工程におけるクエリである。まずは、ユーザから検索クエリの入力を受け付ける(S1001)。
クエリが入力され、検索指示がされると、類似検索部104は類似クエリ部を用いて類似検索を行い、各文献の類似度スコアを算出する(S1002)。ここでは、キーワード検索で該当しない文献についても類似度スコアを算出するものとする。そして、キーワード検索部103はキーワードクエリ部を用いてキーワード検索を行い、キーワードクエリに当てはまるか判断する(S1003)。
そして、統合管理部105は、類似クエリ部が示す文献が、キーワード検索で規定される条件に合致しているかどうか判断する(S1004)。すなわち、類似クエリ部で類似スコアが高いとされた文献が、キーワードクエリ部でキーワード検索を行って検索されたかどうかを調べる。本実施例では、図11(a)で項番1にある文献が、最も類似度スコアが高い文献となるが、ここでチェックする文献は、最も高い文献のみ、上位の数文献、所定の類似度スコアを越えた案件など任意に設定できる。また、複数文献をチェックする場合には、キーワード検索でヒットしているのが全文献以外にも、所定割合以上など基準も任意に設定できる。
チェックの結果、類似度スコアが上位の文献がキーワード検索でヒットしていた場合には、問題無く次に進み、検索結果を表示する(S1005)。キーワードクエリ部に合致していなかった場合には、その旨のユーザに通知する。通知は、例えば、図12(a)に示すように検索から外れる原因となったキーワードを強調表示する。また、図12(b)に示すように、修正案を示してもよい。ここでは、「バッテリー」か「電池」のどちらかが要約に含まれていればよいことを意味し、統合管理部が文献を解析して修正案を示す。強調表示や修正案は、色変更、文字拡大、マーカーなどの方法が採用できる。また、キーワードクエリ部ではなく類似クエリ部を強調表示や修正の対象としてもよい。
また、表示方法として、図11(a)のように、類似検索により類似度スコア順の並び表示と、キーワード検索でヒットしたかどうかを併せて表示する形式でもよい。
ユーザからクエリの修正の入力があった場合には、修正のあったクエリ部に対応して再び類似検索(S1002)またはキーワード検索(S1004)に戻って、処理フローを再開する。また、ユーザが通知を無視して結果表示(S1005)に進んでもよい。故意にキーワード検索から外れるような類似検索クエリを選ぶことがある。
検索結果は、キーワード検索でヒットした文献を、類似度スコア順に並べて表示する(S1005)。ユーザは、所望の文献を見つけ、その文献の電子データを格納するなどして目的特許文献の取得を行う(S1006)。
101・・・検索サーバ、102・・・CPU、103・・・キーワード検索部、104・・・類似検索部、105・・・統合管理部、106・・・データベース、107・・・書誌情報データベース、108・・・文書データベース、109・・・ネットワーク、110・・・操作端末。

Claims (4)

  1. 文書を検索する文書検索方法において、
    コンピュータが、
    検索用語を含む第一の検索クエリと、検索文または文献番号を含む第二の検索クエリとを受け付ける検索クエリ受付工程と、
    前記第二の検索クエリの検索文または文献番号にて指定された文書と、検索対象文書における各文書との類似度スコアを算出する類似検索工程と、
    前記検索対象文書から前記第一の検索クエリの検索用語を含む文書を抽出する用語検索工程と、
    を行い、
    前記第一の検索クエリには、複数のキーワードが含まれており、
    前記類似検索工程において類似度スコアが算出された各文書のうち少なくとも類似度スコアが高い文書が、前記用語検索工程において抽出されたかどうかを判断して出力し、
    前記類似度スコアが高い文書が前記用語検索工程において抽出されていない場合に、前記抽出されない原因となった前記キーワードを更に示すことを特徴とする文書検索方法。
  2. 請求項1において、
    前記抽出されない原因となった前記キーワードに対し、修正案を示すことを特徴とする文書検索方法。
  3. 文書を検索する文書検索装置において、
    検索用語を含む第一の検索クエリと、検索文または文献番号を含む第二の検索クエリとを受け付ける検索クエリ受付部と、
    前記第二の検索クエリの検索文または文献番号にて指定された文書と、検索対象文書における各文書との類似度スコアを算出する類似検索部と、
    前記検索対象文書から前記第一の検索クエリの検索用語を含む文書を抽出する用語検索部と、
    を備え、
    前記第一の検索クエリには、複数のキーワードが含まれており、
    前記類似検索部により類似度スコアが算出された各文書のうち少なくとも類似度スコアが高い文書が、前記用語検索部によって抽出されたかどうかを判断して出力すると共に、前記類似度スコアが高い文書が前記用語検索部によって抽出されていない場合に、前記抽出されない原因となった前記キーワードを出力する統合管理部を更に備えることを特徴とする文書検索装置。
  4. 請求項3において、
    前記統合管理部は、前記抽出されない原因となった前記キーワードに対し、修正案を示すことを特徴とする文書検索装置。
JP2016215796A 2016-11-04 2016-11-04 文書検索方法及び装置 Active JP6843588B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016215796A JP6843588B2 (ja) 2016-11-04 2016-11-04 文書検索方法及び装置
PCT/JP2017/039655 WO2018084226A1 (ja) 2016-11-04 2017-11-02 文書検索方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016215796A JP6843588B2 (ja) 2016-11-04 2016-11-04 文書検索方法及び装置

Publications (2)

Publication Number Publication Date
JP2018073309A JP2018073309A (ja) 2018-05-10
JP6843588B2 true JP6843588B2 (ja) 2021-03-17

Family

ID=62076718

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016215796A Active JP6843588B2 (ja) 2016-11-04 2016-11-04 文書検索方法及び装置

Country Status (2)

Country Link
JP (1) JP6843588B2 (ja)
WO (1) WO2018084226A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116431838A (zh) * 2023-06-15 2023-07-14 北京墨丘科技有限公司 文献检索方法、装置、系统及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732883A (zh) * 2020-12-31 2021-04-30 平安科技(深圳)有限公司 基于知识图谱的模糊匹配方法、装置和计算机设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4389102B2 (ja) * 2002-10-08 2009-12-24 宍戸 広信 技術文献検索システム
US9600568B2 (en) * 2006-01-23 2017-03-21 Veritas Technologies Llc Methods and systems for automatic evaluation of electronic discovery review and productions
JP2008070921A (ja) * 2006-09-12 2008-03-27 Hitachi Ltd 文書検索装置及び文書検索プログラム
JP2008102911A (ja) * 2006-09-19 2008-05-01 Ricoh Co Ltd 情報処理装置、情報処理方法、プログラム及び記録媒体
JP5268508B2 (ja) * 2008-09-08 2013-08-21 キヤノン株式会社 情報処理装置及び検索方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116431838A (zh) * 2023-06-15 2023-07-14 北京墨丘科技有限公司 文献检索方法、装置、系统及存储介质
CN116431838B (zh) * 2023-06-15 2024-01-30 北京墨丘科技有限公司 文献检索方法、装置、系统及存储介质

Also Published As

Publication number Publication date
WO2018084226A1 (ja) 2018-05-11
JP2018073309A (ja) 2018-05-10

Similar Documents

Publication Publication Date Title
US10997678B2 (en) Systems and methods for image searching of patent-related documents
JP5316158B2 (ja) 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
US8099415B2 (en) Method and apparatus for assessing similarity between online job listings
JP5746426B2 (ja) インデックスドキュメントの発見
EP1391834A2 (en) Document retrieval system and question answering system
JP3220886B2 (ja) 文書検索方法および装置
KR20080031262A (ko) 관계 네트워크
US9798776B2 (en) Systems and methods for parsing search queries
WO2010014082A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
US20080288483A1 (en) Efficient retrieval algorithm by query term discrimination
US10140297B2 (en) Supplementing search results with information of interest
Nguyen et al. A math-aware search engine for math question answering system
US10102272B2 (en) System and method for ranking documents
JP3584848B2 (ja) 文書処理装置、項目検索装置及び項目検索方法
US20120317141A1 (en) System and method for ordering of semantic sub-keys
JP6843588B2 (ja) 文書検索方法及び装置
US20120323904A1 (en) Automatic generation of a search query
CN106372123B (zh) 一种基于标签的相关内容推荐方法和系统
JP2001184358A (ja) カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
JP2007172179A (ja) 意見抽出装置、意見抽出方法、および意見抽出プログラム
Artiles et al. Web people search
Kadwe et al. Implementation of PDF crawler using boolean inverted index and n-gram model
Zheng et al. An improved focused crawler based on text keyword extraction
Pisal et al. AskUs: An opinion search engine
Gondaliya et al. Journey of Information Retrieval to Information Retrieval Tools-IR&IRT A Review

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20170126

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200721

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200915

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201006

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201215

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210224

R150 Certificate of patent or registration of utility model

Ref document number: 6843588

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150