JP6978735B2 - Document search device, document search method, and document search program - Google Patents

Document search device, document search method, and document search program Download PDF

Info

Publication number
JP6978735B2
JP6978735B2 JP2021513079A JP2021513079A JP6978735B2 JP 6978735 B2 JP6978735 B2 JP 6978735B2 JP 2021513079 A JP2021513079 A JP 2021513079A JP 2021513079 A JP2021513079 A JP 2021513079A JP 6978735 B2 JP6978735 B2 JP 6978735B2
Authority
JP
Japan
Prior art keywords
document
search
extended
documents
correlation information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021513079A
Other languages
Japanese (ja)
Other versions
JPWO2020208728A1 (en
Inventor
崇志 三上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Samurai Inc
Original Assignee
AI Samurai Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Samurai Inc filed Critical AI Samurai Inc
Application granted granted Critical
Publication of JP6978735B2 publication Critical patent/JP6978735B2/en
Publication of JPWO2020208728A1 publication Critical patent/JPWO2020208728A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書検索装置、文書検索方法、及び、文書検索プログラムに関し、特に、検索対象である文書集合における文書同士の相関性を利用して、一の文書に含まれるテキストと、当該一の文書に相関のある文書に基づき、拡張文書集合を生成し、検索条件に対する検索漏れを低減させる文書検索装置等に関する。 The present invention relates to a document retrieval device, a document retrieval method, and a document retrieval program, and in particular, utilizing the correlation between documents in a document set to be searched, a text contained in one document and the one. The present invention relates to a document retrieval device that generates an extended document set based on a document that correlates with a document and reduces search omissions for search conditions.

近年、出願前の発明を評価する装置が開発されている。特許文献1には、知的財産に関する情報を記憶し、出願前の出願書類についての評価、及び、作成の支援を行う、特許明細書評価・作成作業支援装置が開示されている。出願前の発明の評価には、新規性・進歩性といった登録の実体的要件を満足するか否かや、侵害の有無等を判定するため、通常、先行技術文献調査やクリアランス調査等の検索処理を行うことが求められる。 In recent years, devices for evaluating inventions before filing have been developed. Patent Document 1 discloses a patent specification evaluation / preparation work support device that stores information on intellectual property, evaluates application documents before filing, and supports preparation. In the evaluation of an invention before filing an application, a search process such as a prior art document search or a clearance search is usually performed in order to determine whether or not the substantive requirements for registration such as novelty and inventive step are satisfied and whether or not there is infringement. Is required to do.

特開2010−224984号公報Japanese Unexamined Patent Publication No. 2010-224984

従来、検索処理には、検索条件(検索クエリ)として入力された検索テキスト内のキーワードを、同義語辞書等により同義語で展開し、検索クエリを再構成する手法が存在する。しかしながら、上記の手法では適切に辞書を作成するのが困難であり、同義語として展開した(追加した)単語がノイズとなって、検索クエリとは関係のない文書を検索してしまうという問題がある。 Conventionally, in the search process, there is a method of reconstructing a search query by expanding keywords in a search text input as a search condition (search query) with synonyms using a synonym dictionary or the like. However, it is difficult to properly create a dictionary with the above method, and there is a problem that the expanded (added) word as a synonym becomes noise and searches for documents that are not related to the search query. be.

また、従来、単語の分散表現、ベクトル表現などを利用し、単語の文字列ではなく単語の意味を抽象化したベクトル空間上で類似度(距離)を計算して、類似文献を検索する、いわゆる概念検索が行われている。概念検索では、入力された検索テキスト中の単語そのものをベクトル空間上で類似する単語で拡張する方法と、文書をあらかじめベクトル空間上に変換し特徴量として持っておく方法とがある。いずれの場合も、ベクトル化は一般に機械学習により行われるが、全く関係のない文書同士又は単語同士で類似度が高くなり、ノイズとなる場合がある。また、一般に単語は対象とする分野によって意味が異なる場合が多く、検索対象とする分野毎にベクトル空間を構築する必要がある。 In addition, so-called similar documents are searched by calculating the degree of similarity (distance) in a vector space that abstracts the meaning of words instead of character strings of words by using distributed expressions and vector expressions of words. A concept search is being performed. In the concept search, there are a method of expanding the word itself in the input search text with similar words in the vector space, and a method of converting the document into the vector space in advance and having it as a feature quantity. In either case, vectorization is generally performed by machine learning, but the similarity between completely unrelated documents or words becomes high, which may cause noise. In general, words often have different meanings depending on the target field, and it is necessary to construct a vector space for each target field.

さらに、文書間の類似度を文書に含まれる単語等で分類(クラスタリング)し、キーワード一致による文書の周辺文書を検索結果とする手法がある。この手法では、文書同士の類似度をあらかじめ算出しておく必要があるが、その際の類似度の求め方と、実際に検索する際に求められる類似度の求め方が異なる場合があり、全く関係のない文書を検索してしまうという問題があった。 Further, there is a method of classifying (clustering) the similarity between documents by words included in the document and using the peripheral documents of the document by keyword matching as the search result. In this method, it is necessary to calculate the similarity between documents in advance, but the method of calculating the similarity at that time may differ from the method of calculating the similarity required when actually searching, so it is completely different. There was a problem of searching for unrelated documents.

本発明は上記に鑑みてなされたものであり、検索条件に対する検索漏れを低減させる文書検索装置等を提供する。 The present invention has been made in view of the above, and provides a document search device or the like that reduces search omissions for search conditions.

本発明の一実施形態による文書検索装置は、
受け付けた検索内容に対応する文書を検索する検索部を備える文書検索装置であって、
文書集合に含まれる一の文書と、前記一の文書に相関性のある文書に関する相関情報を蓄積する相関情報蓄積部と、
前記相関情報に基づいて、前記一の文書に相関性のある文書を用いて、前記一の文書を拡張させた一の拡張文書を生成し、前記文書集合に含まれる複数の文書についての前記相関情報に基づいて、当該文書についての拡張文書を生成する文書拡張部と、を備え、
前記検索部は、複数の文書についての前記拡張文書から、前記検索内容に対応する拡張文書を検索し、検索された拡張文書に対応する一の文書を検索結果として出力する。
The document retrieval device according to the embodiment of the present invention is
A document search device equipped with a search unit that searches for documents corresponding to the received search content.
A correlation information storage unit that stores correlation information about one document included in a document set and a document that is correlated with the one document.
Based on the correlation information, a document that is correlated with the one document is used to generate one extended document that is an extension of the one document, and the correlation for a plurality of documents included in the document set. A document extension unit that generates an extended document about the document based on the information.
The search unit searches for the extended document corresponding to the search content from the extended document for a plurality of documents, and outputs one document corresponding to the searched extended document as a search result.

本発明の一実施形態による文書検索装置において、
前記検索部は、前記検索内容としての検索テキストを受け付け、
前記検索テキストのグラフ単位での一致度が所定値以上の前記拡張文書を検索し、
検索された拡張文書に対応する一の文書を、検索結果として出力してもよい。
In the document retrieval apparatus according to the embodiment of the present invention.
The search unit receives the search text as the search content and receives the search text.
The extended document whose matching degree in graph units of the search text is equal to or more than a predetermined value is searched, and the search is performed.
One document corresponding to the searched extended document may be output as a search result.

本発明の一実施形態による文書検索装置において、
前記検索部は、前記検索内容としての検索テキストを受け付け、前記検索テキストに含まれるキーワードを含む前記拡張文書を検索し、検索された拡張文書に対応する一の文書を、検索結果として出力してもよい。
In the document retrieval apparatus according to the embodiment of the present invention.
The search unit receives the search text as the search content, searches for the extended document containing the keyword included in the search text, and outputs one document corresponding to the searched extended document as a search result. May be good.

本発明の一実施形態による文書検索装置において、
前記文書集合は、書誌情報を有する特許文献の集合であって、前記相関情報蓄積部には、前記書誌情報に基づいて、前記一の文書と前記複数の他の文書との間の相関情報が蓄積されていてもよい。
In the document retrieval apparatus according to the embodiment of the present invention.
The document set is a set of patent documents having bibliographic information, and the correlation information storage unit contains correlation information between the one document and the plurality of other documents based on the bibliographic information. It may be accumulated.

本発明の一実施形態による文書検索装置において、
前記文書集合は、書誌情報を有する特許文献の集合であって、
前記相関情報蓄積部には、前記一の文書の審査または審判に関する情報に基づいて、前記一の文書と前記複数の他の文書との間の相関情報が蓄積されていてもよい。
In the document retrieval apparatus according to the embodiment of the present invention.
The document set is a set of patent documents having bibliographic information.
Correlation information between the one document and the plurality of other documents may be accumulated in the correlation information storage unit based on the information regarding the examination or trial of the one document.

本発明の一実施形態による文書検索装置において、
前記文書集合は、書誌情報を有する特許文献と書誌情報を有する非特許文献の集合であって、前記相関情報蓄積部には、前記一の文書の書誌情報に基づいて、相関性のある非特許文献に関する情報をさらに蓄積し、当該非特許文献の文書データが蓄積された相関情報文書データベースをさらに備えていてもよい。
In the document retrieval apparatus according to the embodiment of the present invention.
The document set is a set of patent documents having bibliographic information and non-patent documents having bibliographic information, and the correlation information storage unit is a non-patent with correlation based on the bibliographic information of the one document. It may further include a correlation information document database in which information related to the document is further accumulated and document data of the non-patent document is accumulated.

本発明の一実施形態による文書検索装置において、
前記文書拡張部は、前記一の文書のグラフ構造に、前記一の文書に相関性のある文書のグラフ構造の一部または全部を追加することで、前記一の文書の拡張文書を生成してもよい。
In the document retrieval apparatus according to the embodiment of the present invention.
The document extension unit generates an extended document of the one document by adding a part or all of the graph structure of the document correlated with the one document to the graph structure of the one document. May be good.

本発明の一実施形態による文書検索装置において、
前記文書拡張部は、前記一の文書のグラフ構造であって、テキストの係り受け構造を利用した木構造グラフ構造に、前記一の文書に相関性のある文書のグラフ構造であって、テキストの係り受け構造を利用した木構造グラフ構造の一部または全部を追加することで、前記一の文書の拡張文書を生成してもよい。
In the document retrieval apparatus according to the embodiment of the present invention.
The document extension unit is a graph structure of the one document, which is a tree structure graph structure utilizing the dependency structure of the text, and a graph structure of the document having a correlation with the one document, and is a text. By adding a part or all of the tree structure graph structure using the dependency structure, an extended document of the above-mentioned one document may be generated.

本発明の一実施形態によると、
受け付けた検索内容に対応する文書を検索する文書検索方法であって、
コンピュータが、文書集合に含まれる一の文書に相関性のある文書を、相関情報蓄積部より抽出するステップと、前記相関性のある文書を用いて、前記一の文書を拡張した一の拡張文書を生成する文書拡張ステップと、を実行し、前記文書拡張ステップは、前記相関情報蓄積部の相関に基づいて、当該複数の文書についての前記拡張文書を作成し、
前記コンピュータは、前記複数の文書についての前記拡張文書から、前記検索内容に対応する拡張文書を検索し、検索された拡張文書に対応する一の文書を、検索結果として出力する検索ステップを実行する。
According to one embodiment of the invention
This is a document search method that searches for documents that correspond to the received search content.
A step of extracting a document that is correlated with one document included in the document set from the correlation information storage unit, and one extended document that is an extension of the one document by using the correlated document. Is executed, and the document expansion step creates the extended document for the plurality of documents based on the correlation of the correlation information storage unit.
The computer searches for the extended document corresponding to the search content from the extended document for the plurality of documents, and executes a search step of outputting one document corresponding to the searched extended document as a search result. ..

本発明の一実施形態によると、
受け付けた検索内容に対応する文書を検索する文書検索プログラムであって、コンピュータに、文書集合に含まれる一の文書に相関する文書に関する相関情報を相関情報蓄積部から抽出する機能と、前記相関情報を用いて、前記一の文書を拡張した一の拡張文書を生成する文書拡張機能と、を実現させ、前記文書拡張機能は、前記相関情報蓄積部に蓄積された前記相関情報に基づいて、当該複数の文書についての前記拡張文書作成し、
前記コンピュータに、前記複数の文書についての前記拡張文書から、前記検索内容に対応する拡張文書を検索し、検索された拡張文書に対応する一の文書を、検索結果として出力する文書検索機能をさらに実現させる。
According to one embodiment of the invention
A document search program that searches for documents that correspond to the received search content, and has a function to extract correlation information about documents that correlate with one document included in the document set from the correlation information storage unit, and the correlation information. To realize a document extension function that generates one extended document that is an extension of the one document, and the document extension function is based on the correlation information stored in the correlation information storage unit. Create the extended document for multiple documents and
Further, the computer has a document search function that searches for an extended document corresponding to the search content from the extended documents for the plurality of documents and outputs one document corresponding to the searched extended document as a search result. make it happen.

本発明の一実施形態によれば、検索条件に対する検索漏れを低減させる文書検索装置等を提供することができる。 According to one embodiment of the present invention, it is possible to provide a document retrieval device or the like that reduces search omissions with respect to search conditions.

本発明の一実施形態に係る文書検索装置の機能ブロック図の一例である。It is an example of the functional block diagram of the document retrieval apparatus which concerns on one Embodiment of this invention. 本発明の一実施形態に係る文書検索装置(コンピュータ)のハードウェア構成の一例である。This is an example of the hardware configuration of the document retrieval device (computer) according to the embodiment of the present invention. 文書データベースの一例である。This is an example of a document database. (a)は、拡張文書の生成例、(b)は、拡張文書データベースの一例である。(A) is an example of generating an extended document, and (b) is an example of an extended document database. 本発明の一実施形態に係る検索処理のフロー図である。It is a flow chart of the search process which concerns on one Embodiment of this invention. 本発明の一実施形態に係る知的財産創出支援システム構成の概略図である。It is a schematic diagram of the intellectual property creation support system configuration which concerns on one Embodiment of this invention.

以降、諸図面を参照しながら、本発明の一実施形態を詳細に説明する。 Hereinafter, an embodiment of the present invention will be described in detail with reference to the drawings.

<ハードウェア構成>
まず、図2を用いて、本発明の一実施形態に係る文書検索装置(コンピュータ)100のハードウェア構成について説明する。文書検索装置100は、プロセッサ101と、メモリ102と、ストレージ103と、入出力インタフェース(I/F)104と、通信I/F105とを備え、これらの協働により、本実施形態に記載される機能や方法を実現する。例えば、本開示の機能又は方法は、メモリ102に読み込まれたプログラムに含まれる命令をプロセッサ101が実行することによって実現される。
<Hardware configuration>
First, the hardware configuration of the document retrieval device (computer) 100 according to the embodiment of the present invention will be described with reference to FIG. The document retrieval device 100 includes a processor 101, a memory 102, a storage 103, an input / output interface (I / F) 104, and a communication I / F 105, and is described in the present embodiment by their cooperation. Realize functions and methods. For example, the function or method of the present disclosure is realized by the processor 101 executing an instruction included in a program read in the memory 102.

プロセッサ101は、ストレージ103に記憶されるプログラムに含まれるコード又は命令によって実現する機能、及び/又は、方法を実行する。プロセッサ101は、例えば、中央処理装置(CPU)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、マイクロプロセッサ(microprocessor)、プロセッサコア(processor core)、マルチプロセッサ(multiprocessor)、ASIC(Application-Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等を含み、集積回路(IC(Integrated Circuit)チップ、LSI(Large Scale Integration))等に形成された論理回路(ハードウェア)や専用回路によって各実施形態に開示される各処理を実現してもよい。また、これらの回路は、1又は複数の集積回路により実現されてよく、各実施形態に示す複数の処理を1つの集積回路により実現されることとしてもよい。また、LSIは、集積度の違いにより、VLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。 The processor 101 executes a function and / or a method realized by a code or an instruction contained in a program stored in the storage 103. The processor 101 is, for example, a central processing unit (CPU), an MPU (Micro Processing Unit), a GPU (Graphics Processing Unit), a microprocessor (microprocessor), a processor core (processor core), a multiprocessor (multiprocessor), and an ASIC (Application-). Specific Integrated Circuit), FPGA (Field Programmable Gate Array), etc. are included, and each is implemented by a logic circuit (hardware) or a dedicated circuit formed in an integrated circuit (IC (Integrated Circuit) chip, LSI (Large Scale Integration)), etc. Each process disclosed in the form may be realized. Further, these circuits may be realized by one or a plurality of integrated circuits, and a plurality of processes shown in each embodiment may be realized by one integrated circuit. In addition, LSI may be referred to as VLSI, super LSI, ultra LSI, or the like depending on the degree of integration.

メモリ102は、ストレージ103からロードしたプログラムを一時的に記憶し、プロセッサ101に対して作業領域を提供する。メモリ102には、プロセッサ101がプログラムを実行している間に生成される各種データも一時的に格納される。メモリ102は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)等を含む。 The memory 102 temporarily stores the program loaded from the storage 103 and provides a work area to the processor 101. Various data generated while the processor 101 is executing the program are also temporarily stored in the memory 102. The memory 102 includes, for example, a RAM (Random Access Memory), a ROM (Read Only Memory), and the like.

ストレージ103は、プログラムを記憶する。ストレージ103は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等を含む。 The storage 103 stores the program. The storage 103 includes, for example, an HDD (Hard Disk Drive), an SSD (Solid State Drive), a flash memory, and the like.

通信I/F105は、ネットワークアダプタ等のハードウェアや通信用ソフトウェア、及びこれらの組み合わせとして実装され、ネットワークNETを介して各種データの送受信を行う。当該通信は、有線、無線のいずれで実行されてもよく、互いの通信が実行できるのであれば、どのような通信プロトコルを用いてもよい。通信I/F105は、ネットワークNETを介して、例えばユーザ端末のゆな他の情報処理装置との通信を実行する。通信I/F105は、各種データをプロセッサ101からの指示に従って、他の情報処理装置に送信する。また、通信I/F105は、他の情報処理装置から送信された各種データを受信し、プロセッサ101に伝達する。 The communication I / F 105 is implemented as hardware such as a network adapter, communication software, and a combination thereof, and transmits / receives various data via the network NET. The communication may be executed by wire or wirelessly, and any communication protocol may be used as long as mutual communication can be executed. The communication I / F 105 executes communication with, for example, another information processing device such as Yuna of the user terminal via the network NET. The communication I / F 105 transmits various data to other information processing devices according to instructions from the processor 101. Further, the communication I / F 105 receives various data transmitted from other information processing devices and transmits them to the processor 101.

入出力I/F104は、文書検索装置100に対する各種操作を入力する入力装置、及び、文書検索装置100で処理された処理結果を出力する出力装置を含む。入出力I/F104は、入力装置と出力装置が一体化していてもよいし、入力装置と出力装置とに分離していてもよい。入力装置は、ユーザからの入力を受け付けて、当該入力に係る情報をプロセッサ101に伝達できる全ての種類の装置のいずれか、又は、その組み合わせにより実現される。入力装置は、例えば、タッチパネル、タッチディスプレイ、キーボード等のハードウェアキーや、マウス等のポインティングデバイス、カメラ(画像を介した操作入力)、マイク(音声による操作入力)を含む。出力装置は、プロセッサ101で処理された処理結果を出力する。出力装置は、例えば、タッチパネル、スピーカ等を含む。 The input / output I / F 104 includes an input device for inputting various operations to the document retrieval device 100 and an output device for outputting the processing result processed by the document retrieval device 100. The input / output I / F 104 may be integrated with the input device and the output device, or may be separated into the input device and the output device. The input device is realized by any one of all kinds of devices capable of receiving an input from a user and transmitting information related to the input to the processor 101, or a combination thereof. The input device includes, for example, a hardware key such as a touch panel, a touch display, and a keyboard, a pointing device such as a mouse, a camera (operation input via an image), and a microphone (operation input by voice). The output device outputs the processing result processed by the processor 101. The output device includes, for example, a touch panel, a speaker, and the like.

<機能構成>
次に、図1を用いて、本発明の一実施形態に係る文書検索装置100の機能構成について説明する。なお、図1に記載の各機能部が必須ではなく、また、これ以外の機能部を備えてもよい。また、各機能部の機能又は処理は、実現可能な範囲において、機械学習又はAI(Artificial Intelligence)により実現されてもよい。
<Functional configuration>
Next, the functional configuration of the document retrieval apparatus 100 according to the embodiment of the present invention will be described with reference to FIG. It should be noted that each functional unit shown in FIG. 1 is not essential, and other functional units may be provided. Further, the functions or processes of each functional unit may be realized by machine learning or AI (Artificial Intelligence) to the extent feasible.

文書検索装置100は、相関情報蓄積部110、文書拡張部120、検索部130、、相関情報文書データベース140、拡張文書データベース150を備える。なお、相関情報文書データベース140、及び拡張文書データベース150は、文書検索装置100の外部、例えばクラウド上に設けられ、ネットワークを介してアクセス可能であってもよい。本発明の一実施形態によれば、文書検索装置100は、検索対象である文書データベース200または、相関情報文書データベース140の文書データを拡張して拡張文書データベース150を生成し、拡張文書データベース150を検索対象とすることで、検索漏れを低減させることができる。 The document retrieval device 100 includes a correlation information storage unit 110, a document expansion unit 120, a search unit 130, a correlation information document database 140, and an extended document database 150. The correlation information document database 140 and the extended document database 150 may be provided outside the document retrieval device 100, for example, on the cloud, and may be accessible via a network. According to one embodiment of the present invention, the document retrieval device 100 expands the document data of the document database 200 or the correlation information document database 140 to be searched to generate the extended document database 150, and creates the extended document database 150. By making it a search target, it is possible to reduce search omissions.

相関情報蓄積部110は、文書集合(文書データベース200)に含まれる一の文書と、文書集合に含まれる一の文書とは異なる複数の他の文書との間の相関情報を備えている。また、後述するとおり相関情報蓄積部110は、文書集合に含まれる一の文書と相関する非特許文献に関する相関情報と、当該非特許文献の文書データを備えることもできる。ここで、文書データベース200が例えば特許文献を格納する特許庁のデータベースである場合、文書間の相関情報は特許文献における書誌情報を利用することができる。例えば、相関情報蓄積部110は、例えば、発明者の一致度、IPC等の特許分類の一致度、出願人などに基づいて作成された相関情報を蓄積することができる。また、相関情報蓄積部110は、一の文書に含まれるテキスト内のキーワードと、他の文書に含まれるテキスト内のキーワードとの共有数に基づいて作成された一の文書と他の文書との相関情報を蓄積してもよい。
また、相関情報蓄積部110は、一の文書の審査において審査官によって引用された拒絶理由通知の引用文献に関する情報を蓄積してもよい。また、相関情報蓄積部110は、一の文書の審判事件において引用された文献に関する情報を蓄積してもよい。また、相関情報蓄積部110は、発明者の一致度、IPC等の特許分類の一致度、出願人などから事前に対応付けされた、相関する非特許文献(技術論文、新聞、企業のプレスリリース情報)の情報を蓄積してもよい。その際には、当該文献の文書データも相関情報蓄積部110に蓄積することができる。
なお、相関情報としては、上述したものに限られるものではなく、文書間の相関を評価する既存の手法に基づき作成されたものが蓄積されてもよい。
さらに、相関情報蓄積部には事前に相関情報を蓄積する実施形態を上述したが、可能別の実施形態として、相関情報蓄積部内に文書間の相関を評価する既存技術を備えた抽出機能部を設け、検索のタイミングごとに検索内容の文章内容や書誌情報に基づいて、相関する文書に関する情報を文書データベースや相関情報文書データベースから抽出することで、相関情報蓄積部に相関情報を都度蓄積する構成とすることも可能である。
The correlation information storage unit 110 includes correlation information between one document included in the document set (document database 200) and a plurality of other documents different from the one document included in the document set. Further, as will be described later, the correlation information storage unit 110 can also include correlation information regarding a non-patent document that correlates with one document included in the document set, and document data of the non-patent document. Here, when the document database 200 is, for example, the database of the Japan Patent Office that stores the patent documents, the bibliographic information in the patent documents can be used as the correlation information between the documents. For example, the correlation information storage unit 110 can store correlation information created based on, for example, the degree of agreement of the inventor, the degree of agreement of patent classifications such as IPC, and the applicant. Further, the correlation information storage unit 110 includes a document and another document created based on the number of shares of the keywords in the text included in one document and the keywords in the text included in the other document. Correlation information may be accumulated.
Further, the correlation information storage unit 110 may store information regarding the cited document of the notice of reasons for refusal cited by the examiner in the examination of one document. Further, the correlation information storage unit 110 may store information on the documents cited in the trial case of one document. In addition, the correlation information storage unit 110 is associated with the degree of agreement of the inventor, the degree of agreement of patent classifications such as IPC, the applicant, and the like in advance, and correlates with non-patent documents (technical papers, newspapers, press releases of companies). Information) information may be accumulated. At that time, the document data of the document can also be stored in the correlation information storage unit 110.
The correlation information is not limited to the above-mentioned information, and information created based on an existing method for evaluating the correlation between documents may be accumulated.
Further, although the embodiment in which the correlation information is accumulated in advance is described in the correlation information storage unit, as another possible embodiment, the extraction function unit equipped with the existing technology for evaluating the correlation between documents is provided in the correlation information storage unit. By providing information on correlated documents from the document database and correlation information document database based on the text content and bibliographic information of the search content at each search timing, the correlation information is stored in the correlation information storage unit each time. It is also possible to.

ここで、図を用いて、文書データベース200の一例について説明する。図3は、文書データベース200の概念図、文書データベース200は、各文書を識別する識別子(文書ID)毎に、複数のテキストの集合(テキスト群)が関連付けられているとみなすことができる。例えば、文書ID「ID_X」の文書は、「テキストa」、「テキストb」、「テキストc」、「テキストd」…が関連付けられている。 Here, an example of the document database 200 will be described with reference to the figures. FIG. 3 is a conceptual diagram of the document database 200, and the document database 200 can be considered to be associated with a set of a plurality of texts (text group) for each identifier (document ID) that identifies each document. For example, a document with a document ID "ID_X" is associated with "text a", "text b", "text c", "text d", and the like.

文書拡張部120は、文書データベース200に含まれる一の文書と異なる複数の他の文書のうち、一の文書に対する相関情報が所定値以上の他の文書である類似文書を用いて、一の文書を拡張した一の拡張文書を生成する。
また、文書拡張部120は、文書データベース200に含まれる一の文書に関する相関情報に基づき、相関情報文書データベース140に含まれる非特許文献の文書データを用いて、一の文書を拡張した一の文書の拡張文書を生成することもできる。
The document extension unit 120 uses a similar document in which the correlation information for one document is equal to or more than a predetermined value among a plurality of other documents different from one document included in the document database 200, and one document is used. Generates one extended document that extends.
Further, the document expansion unit 120 expands one document by using the document data of the non-patent document included in the correlation information document database 140 based on the correlation information about one document included in the document database 200. You can also generate an extended document for.

文書拡張部120による拡張処理について、図4(a)(b)を用いて具体的に説明する。文書拡張部120は、図3の文書ID「ID_X」に含まれるテキストaと、文書ID「ID_Y」に含まれるテキストqとを、Bag Of Wordsにより、それぞれグラフ集合Ga、Gqに変換する。図4(a)の例では、テキストaは「そういえば、今日の天気は晴れのち曇りです。」であり、テキストqは「台風の接近により、明日の天気は晴れのち雨です。」である。 The expansion process by the document expansion unit 120 will be specifically described with reference to FIGS. 4A and 4B. The document extension unit 120 converts the text a included in the document ID “ID_X” of FIG. 3 and the text q included in the document ID “ID_Y” into graph sets Ga and Gq by Bag Of Words, respectively. In the example of FIG. 4A, the text a is "By the way, today's weather is sunny and then cloudy", and the text q is "Tomorrow's weather is sunny and then rainy due to the approaching typhoon." ..

ウィンドウ幅を3とすると、グラフ集合Gaは(そういえば,今日の,天気は)(今日の,天気は,晴れ)(天気は,晴れ,のち)(晴れ,のち,曇り)(のち,曇り,です)となり、グラフ集合Gqは(台風の,接近により,明日の)(接近により,明日の,天気は)(明日の,天気は,晴れ)(天気は,晴れ,のち)(晴れ,のち,雨)(のち,雨,です)となる。文書拡張部120は、グラフ集合Ga及びGqを比較し、グラフ集合Gqのうち所定数(ここでは2)の要素を共有するグラフ(明日の,天気は,晴れ)、(晴れ,のち,雨)及び(のち,雨,です)を、グラフ集合Gaに追加(統合)することで、拡張グラフ集合Ga′を生成する。すなわち、拡張グラフ集合Ga′は、(そういえば,今日の,天気は)(今日の,天気は,晴れ)(天気は,晴れ,のち)(晴れ,のち,曇り)(のち,曇り,です)(明日の,天気は,晴れ)(晴れ,のち,雨)(のち,雨,です)となる。そして、文書拡張部120は、拡張グラフ集合Ga′を文書ID「ID_X」の検索特徴量として、拡張文書データベース150に格納する。 Assuming that the window width is 3, the graph set Ga (by the way, today's weather is) (today's weather is sunny) (weather is sunny, later) (sunny, later, cloudy) (later cloudy, The graph set Gq is (tomorrow, due to the approach of the typhoon) (tomorrow, the weather is due to the approach) (tomorrow, the weather is sunny) (the weather is sunny, later) (sunny, later,). (Rain) (later, rain). The document extension unit 120 compares the graph sets Ga and Gq, and shares a predetermined number of elements (here, 2) of the graph sets Gq (tomorrow, the weather is sunny), (sunny, later, rain). And (later, rain) are added (integrated) to the graph set Ga to generate the extended graph set Ga'. That is, the extended graph set Ga'is (by the way, today's weather is) (today's weather is sunny) (weather is sunny, then) (sunny, later, cloudy) (after, cloudy). (Tomorrow, the weather will be sunny) (sunny, then rain) (later, rain). Then, the document expansion unit 120 stores the expansion graph set Ga'as a search feature amount of the document ID "ID_X" in the expansion document database 150.

文書拡張部120は、文書データベース200に含まれるすべての文書について、上述のように拡張文書を作成し、拡張文書データベース150に格納する事ができる。また、文書拡張部120は、相関情報文書データベース140に含まれるすべての非特許文献からなる文書についても、上述のように拡張文書を作成し、拡張文書データベース150に格納する事ができる。これにより、各文書に含まれる各テキストについて検索内容に対応した拡張文書が生成され、図4(b)に示すような拡張文書データベース150が生成される。 The document extension unit 120 can create an extended document as described above for all the documents included in the document database 200 and store the extended document in the extended document database 150. Further, the document extension unit 120 can also create an extended document as described above for a document composed of all non-patent documents included in the correlation information document database 140 and store the extended document in the extended document database 150. As a result, an extended document corresponding to the search content is generated for each text included in each document, and the extended document database 150 as shown in FIG. 4B is generated.

なお、上述ではウインドウ幅を3としたが、これに限られるものではなく、ウインドウ幅は任意に設定してよい。また、統合するグラフを抽出するための判断基準となる、共有するグラフの要素の数も、任意に設定してもよい。なお、グラフ集合への変換には、Bag Of Wordsではなく、テキストの係り受け構造を利用した木構造グラフを用いてもよい。木構造グラフを用いて、テキスト間のグラフ構造の類似度に応じて文書を拡張することにより、より関連性の高いグラフによって一の文書を拡張することができる。 In the above description, the window width is set to 3, but the present invention is not limited to this, and the window width may be set arbitrarily. Further, the number of shared graph elements, which is a criterion for extracting the graph to be integrated, may be arbitrarily set. For the conversion to the graph set, a tree structure graph using a text dependency structure may be used instead of Bag Of Words. Tree structure graphs can be used to extend a document with more relevant graphs by expanding the document according to the similarity of the graph structure between the texts.

検索部130は、検索条件300が入力されると、文書データベース200ではなく、拡張文書データベース150に格納されたグラフ集合を検索対象とした検索を行う。拡張文書データベース150に対する検索は、検索条件としての検索テキストを、文書拡張部120と同じ方式でグラフ化し、グラフの一致度を判定することで行うことができる。なお、検索は、各グラフ要素からキーワードの一致に応じて判定するものであってもよい。検索部130は、拡張文書データベース150から検索された拡張文書に対応する一の文書(すなわち、拡張前の元文書)を、文書データベース200から取得し、検索結果として出力する。 When the search condition 300 is input, the search unit 130 performs a search using the graph set stored in the extended document database 150 instead of the document database 200 as a search target. The search for the extended document database 150 can be performed by graphing the search text as a search condition in the same manner as in the document extension unit 120 and determining the degree of matching of the graphs. The search may be determined according to the matching of keywords from each graph element. The search unit 130 acquires one document (that is, the original document before expansion) corresponding to the extended document searched from the extended document database 150 from the document database 200 and outputs it as a search result.

なお、検索部130は、検索された文書が拡張文書であった場合、検索結果としての重み付けを弱くしてもよい。これにより、検索結果の正確性を担保することができる。 If the searched document is an extended document, the search unit 130 may weaken the weighting as a search result. This makes it possible to ensure the accuracy of the search results.

<検索処理>
次に、文書検索装置100による検索処理について、図5のフロー図を用いて説明する。
<Search process>
Next, the search process by the document retrieval device 100 will be described with reference to the flow chart of FIG.

まず、相関情報蓄積部110は、文書集合に含まれる一の文書に相関のある文献情報を相関情報蓄積部より抽出する。(ステップS11)。文書拡張部120は、複数の他の文書のうち、一の文書に対する相関情報が所定値以上である他の文書である類似文書を用いて、一の文書を拡張した拡張文書を生成する(ステップS12)。もし、相関情報が所定値以上の文書が非特許文献である場合には、文書拡張部120は、相関情報蓄積部に蓄積された当該非特許文献の文書データを用いて、一の文書を拡張した拡張文書を生成する(ステップS12’)。検索部130は、検索条件を受け付け(ステップS13)、検索条件に対応する拡張文書を検索する(ステップS14)。検索部130は、検索された拡張文書に対応する文書を、検索結果310として出力する(ステップS15)。 First, the correlation information storage unit 110 extracts document information correlated with one document included in the document set from the correlation information storage unit. (Step S11). The document expansion unit 120 generates an extended document in which one document is expanded by using a similar document which is another document whose correlation information with respect to one document is equal to or higher than a predetermined value among a plurality of other documents (step). S12). If a document having correlation information of a predetermined value or more is a non-patent document, the document expansion unit 120 expands one document by using the document data of the non-patent document stored in the correlation information storage unit. Generate the extended document (step S12'). The search unit 130 accepts the search condition (step S13) and searches for the extended document corresponding to the search condition (step S14). The search unit 130 outputs the document corresponding to the searched extended document as the search result 310 (step S15).

上述のように、本発明の一実施形態によれば、一の文書内のキーワードに共起するキーワードや、類似するテキストが拡張文書データベース150に格納され、検索条件である検索テキストと合致する確率が高くなる。また、拡張文書は、相関情報蓄積部110によって予め一の文書に相関する文書により生成されているため、既存方式の精度以上の検索率を確保することができる。また、類似文書の中から、さらに、グラフ類似度により拡張するテキストが選定されるので、検索精度(適合率)を落とすことなく、検索範囲を広げることが可能となる。 As described above, according to one embodiment of the present invention, the probability that a keyword co-occurring with a keyword in one document or similar text is stored in the extended document database 150 and matches the search text which is a search condition. Will be higher. Further, since the extended document is generated by the correlation information storage unit 110 in advance with a document that correlates with one document, it is possible to secure a search rate higher than the accuracy of the existing method. Further, since the text to be expanded according to the graph similarity is selected from the similar documents, it is possible to expand the search range without deteriorating the search accuracy (matching rate).

なお、文書拡張部120によって拡張文書を生成する対象を、一の文書のうち所定の構成部のみとしてもよい。例えば、一の文書が特許文書の場合、請求項のみを拡張対象とし、拡張グラフを取得する対象テキストとして、同一文書内の明細書および類似文書内の明細書を対象としてもよい。これにより、検索対象を絞りつつ類義語で展開した検索を実施できるようになる。 It should be noted that the target for generating the extended document by the document expanding unit 120 may be only a predetermined constituent unit in one document. For example, when one document is a patent document, only the claims may be expanded, and the specification in the same document and the specification in a similar document may be targeted as the target text for acquiring the expanded graph. As a result, it becomes possible to carry out a search expanded with synonyms while narrowing down the search target.

なお、上述した本発明の一実施形態による文書検索装置100を、知的財産創出支援システムに適用してもよい。図6に、知的財産創出支援システムの構成例を示す。図6に示すように、知的財産創出支援システム500は、ネットワークNETを介して互いに接続された、文書検索装置100と、文書データベース(DB)200と、通信端末400(400A〜400D)とを含む。なお、通信端末400の数は、図示したものに限られるものではない。 The document retrieval device 100 according to the embodiment of the present invention described above may be applied to the intellectual property creation support system. Figure 6 shows a configuration example of the intellectual property creation support system. As shown in FIG. 6, the intellectual property creation support system 500 includes a document retrieval device 100, a document database (DB) 200, and a communication terminal 400 (400A to 400D) connected to each other via a network NET. include. The number of communication terminals 400 is not limited to the one shown in the figure.

通信端末400A〜400Dは、知的財産創出支援システム500によって提供される知的財産創出支援サービスを利用するユーザの通信端末である。知的財産創出支援システム500において、文書検索装置100は、先行技術文献の検索を行うことができる。図6において、通信端末400はノートパソコンやデスクトップパソコンを示してあるが、通信端末400としては、ネットワークNETを介して文書検索サービスを利用可能とするものであれば、その種類は問わない。通信端末400は、例えば、スマートフォン、携帯電話(フィーチャーフォン)、ハンドヘルドコンピュータデバイス(例えば、PDA(Personal Digital Assistant)等)、ウェアラブル端末(例えば、メガネ型デバイス、時計型デバイス、ヘッドマウントディスプレイ(HMD:Head-Mounted Display等)、他種のコンピュータ、又はコミュニケーションプラットホームを含んでよい。通信端末400は、ユーザからの入力操作を受け付けて、ネットワークNETを介して、検索条件を文書検索装置100へ送信する。 The communication terminals 400A to 400D are communication terminals of users who use the intellectual property creation support service provided by the intellectual property creation support system 500. In the intellectual property creation support system 500, the document retrieval device 100 can search for prior art documents. In FIG. 6, the communication terminal 400 shows a notebook computer or a desktop computer, but the communication terminal 400 may be of any type as long as the document search service can be used via the network NET. The communication terminal 400 is, for example, a smartphone, a mobile phone (feature phone), a handheld computer device (for example, a PDA (Personal Digital Assistant), etc.), a wearable terminal (for example, a glasses-type device, a clock-type device, a head-mounted display (HMD:). A head-mounted display, etc.), another type of computer, or a communication platform may be included. The communication terminal 400 receives an input operation from a user and transmits a search condition to a document search device 100 via a network NET. ..

文書データベース200は、例えば特許庁のデータベースとすることができる。特許庁のデータベースは、1庁でも複数庁を含んでいてもよい。なお、米国、欧州、日本、中国、および韓国の5庁のデータベースを含むことで世界の特許の約90%を網羅することができるため、先行技術文献の検索精度を上げるためには、これらの5庁のデータベースを含んでいるとよい。なお、データベースとしては、上述のものに限られるものでなく、インターネット上に存在する情報であってもよい。 The document database 200 can be, for example, a database of the Japan Patent Office. The JPO database may include one or more offices. In addition, since it is possible to cover about 90% of the world's patents by including the databases of the five agencies of the United States, Europe, Japan, China, and South Korea, in order to improve the search accuracy of the prior art documents, these It is good to include the database of 5 agencies. The database is not limited to the above-mentioned one, and may be information existing on the Internet.

ネットワークNETは、無線ネットワークや有線ネットワークを含んでよい。具体的には、ネットワークNETは、ワイヤレスLAN(wireless LAN:WLAN)や広域ネットワーク(wide area network:WAN)、ISDNs(integrated service digital networks)、無線LANs、LTE(long term evolution)、LTE−Advanced、第4世代(4G)、第5世代(5G)、CDMA(code division multiple access)等である。なお、ネットワークNETは、これらの例に限られず、例えば、公衆交換電話網(Public Switched Telephone Network:PSTN)やブルートゥース(Bluetooth(登録商標))、光回線、ADSL(Asymmetric Digital Subscriber LINE)回線、衛星通信網等であってもよい。また、ネットワークNETは、これらの組み合わせであってもよい。 The network NET may include a wireless network or a wired network. Specifically, the network NET includes wireless LAN (WLAN), wide area network (WAN), ISDNs (integrated service digital networks), wireless LANs, LTE (long term evolution), LTE-Advanced, and so on. 4th generation (4G), 5th generation (5G), CDMA (code division multiple access) and the like. The network NET is not limited to these examples, and is, for example, a public switched telephone network (PSTN), Bluetooth (Bluetooth (registered trademark)), an optical line, an ADSL (Asymmetric Digital Subscriber LINE) line, and a satellite. It may be a communication network or the like. Further, the network NET may be a combination of these.

知的財産創出支援システム500において、ユーザは、先行技術文献調査、無効調査、クリアランス調査を少なくとも実行することができる。ユーザは、通信端末400を介して、検索条件を文書検索装置100へ送信する。例えば、先行技術文献調査の場合、ユーザは、検索条件として、自身の発明に関する情報として、例えば、発明を記載した発明文章を送信する。検索部130は、発明文章に含まれる発明を代表するキーワードを検索キーワードとして抽出する。そして、抽出された検索キーワードを基に、文書データベース200から類似特許文章群を抽出する。この際、文書検索装置100は、上述のように文書データベース200を拡張し、検索部130は、拡張文書データベース150を検索対象とする。 In the intellectual property creation support system 500, the user can at least perform a prior art literature search, an invalidity search, and a clearance search. The user transmits the search condition to the document retrieval device 100 via the communication terminal 400. For example, in the case of a prior art document search, the user sends, for example, an invention sentence describing the invention as information about his / her invention as a search condition. The search unit 130 extracts keywords representing the invention included in the invention text as search keywords. Then, a group of similar patent sentences is extracted from the document database 200 based on the extracted search keywords. At this time, the document search device 100 expands the document database 200 as described above, and the search unit 130 searches for the extended document database 150.

本発明を諸図面や実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形や修正を行うことが容易であることに注意されたい。従って、これらの変形や修正は本発明の範囲に含まれることに留意されたい。例えば、各構成部、各ステップ等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の構成部やステップ等を1つに組み合わせたり、或いは分割したりすることが可能である。また、上記実施の形態に示す構成を適宜組み合わせることとしてもよい。例えば、文書検索装置100が備えるとして説明した各構成部は、物理的に複数のコンピュータによって分散されて実現されてもよいし、一のコンピュータとして実現されてもよい。 Although the present invention has been described with reference to the drawings and examples, it should be noted that those skilled in the art can easily make various modifications and modifications based on the present disclosure. Therefore, it should be noted that these modifications and modifications are included in the scope of the present invention. For example, the functions included in each component, each step, etc. can be rearranged so as not to be logically inconsistent, and a plurality of components, steps, etc. can be combined or divided into one. Is. Further, the configurations shown in the above embodiments may be appropriately combined. For example, each component described as being included in the document retrieval device 100 may be physically distributed by a plurality of computers, or may be realized as one computer.

本開示の各実施形態のプログラムは、コンピュータに読み取り可能な記憶媒体に記憶された状態で提供されてもよい。記憶媒体は、「一時的でない有形の媒体」に、プログラムを記憶可能である。プログラムは、例えば、ソフトウェアプログラムやコンピュータプログラムを含む。 The program of each embodiment of the present disclosure may be provided stored in a computer-readable storage medium. The storage medium can store the program in a "non-temporary tangible medium". Programs include, for example, software programs and computer programs.

記憶媒体は適切な場合、1つ又は複数の半導体ベースの、又は他の集積回路(IC)(例えば、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向けIC(ASIC)等)、ハード・ディスク・ドライブ(HDD)、ハイブリッド・ハード・ドライブ(HHD)、光ディスク、光ディスクドライブ(ODD)、光磁気ディスク、光磁気ドライブ、フロッピィ・ディスケット、フロッピィ・ディスク・ドライブ(FDD)、磁気テープ、固体ドライブ(SSD)、RAMドライブ、セキュア・デジタル・カードもしくはドライブ、任意の他の適切な記憶媒体、又はこれらの2つ以上の適切な組合せを含むことができる。記憶媒体は、適切な場合、揮発性、不揮発性、又は揮発性と不揮発性の組合せでよい。 When appropriate, the storage medium may be one or more semiconductor-based or other integrated circuits (ICs) (eg, field programmable gate arrays (FPGAs), application-specific ICs (ASICs), etc.), hard disks. Disk drive (HDD), hybrid hard drive (HHD), optical disk, optical disk drive (ODD), optical magnetic disk, optical magnetic drive, floppy diskette, floppy disk drive (FDD), magnetic tape, solid drive (SSD), RAM drive, secure digital card or drive, any other suitable storage medium, or any suitable combination of two or more thereof can be included. The storage medium may be volatile, non-volatile, or a combination of volatile and non-volatile, where appropriate.

また、本開示のプログラムは、当該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して、情報処理装置に提供されてもよい。 Further, the program of the present disclosure may be provided to the information processing apparatus via an arbitrary transmission medium (communication network, broadcast wave, etc.) capable of transmitting the program.

また、本開示の各実施形態は、プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。 Each embodiment of the present disclosure may also be realized in the form of a data signal embedded in a carrier wave, in which the program is embodied by electronic transmission.

なお、本開示のプログラムは、例えば、JavaScript(登録商標)、Python等のスクリプト言語、C言語、Go言語、Swift,Koltin、Java(登録商標)等を用いて実装される。 The program of the present disclosure is implemented using, for example, a script language such as JavaScript (registered trademark), Python, C language, Go language, Swift, Kotlin, Java (registered trademark), and the like.

100 文書検索装置
101 プロセッサ
102 メモリ
103 ストレージ
110 相関情報蓄積部
120 文書拡張部
130 検索部
140 相関情報文書データベース
150 拡張文書データベース
200 文書データベース
300 検索条件
310 検索結果
500 知的財産創出支援システム
400 通信端末
400A〜400D 通信端末
100 Document search device 101 Processor 102 Memory 103 Storage 110 Correlation information storage unit 120 Document expansion unit 130 Search unit 140 Correlation information document database 150 Extended document database 200 Document database 300 Search conditions 310 Search results 500 Intellectual property creation support system 400 Communication terminal 400A-400D communication terminal

Claims (9)

受け付けた検索内容に対応する文書を検索する検索部を備える文書検索装置であって、
文書集合に含まれる一の文書と、前記一の文書に相関性のある文書に関する相関情報を蓄積する相関情報蓄積部と、
前記相関情報に基づいて、前記一の文書に相関性のある文書を用いて、前記一の文書を拡張させた一の拡張文書を生成し、前記文書集合に含まれる複数の文書についての前記相関情報に基づいて、当該文書についての拡張文書を生成する文書拡張部と、を備え、
前記検索部は、複数の文書についての前記拡張文書から、前記検索内容に対応する拡張文書を検索し、検索された拡張文書に対応する一の文書を検索結果として出力し、
前記文書拡張部は、前記一の文書のグラフ構造に、
前記一の文書に相関性のある文書のグラフ構造の一部または全部を追加することで、
前記一の文書の拡張文書を生成する文書検索装置。
A document search device equipped with a search unit that searches for documents corresponding to the received search content.
A correlation information storage unit that stores correlation information about one document included in a document set and a document that is correlated with the one document.
Based on the correlation information, a document that is correlated with the one document is used to generate one extended document that is an extension of the one document, and the correlation for a plurality of documents included in the document set. A document extension unit that generates an extended document about the document based on the information.
The search unit searches for the extended document corresponding to the search content from the extended document for a plurality of documents, and outputs one document corresponding to the searched extended document as a search result .
The document extension section has a graph structure of the one document.
By adding part or all of the graph structure of a correlated document to the one document above
A document retrieval device that generates an extended document of the above-mentioned one document.
前記検索部は、前記検索内容としての検索テキストを受け付け、
前記検索テキストのグラフ単位での一致度が所定値以上の前記拡張文書を検索し、
検索された拡張文書に対応する一の文書を、検索結果として出力することを特徴とする請求項1に記載の文書検索装置。
The search unit receives the search text as the search content and receives the search text.
The extended document whose matching degree in graph units of the search text is equal to or more than a predetermined value is searched, and the search is performed.
The document search device according to claim 1, wherein one document corresponding to the searched extended document is output as a search result.
前記検索部は、前記検索内容としての検索テキストを受け付け、
前記検索テキストに含まれるキーワードを含む前記拡張文書を検索し、
検索された拡張文書に対応する一の文書を、検索結果として出力することを特徴とする請求項1または2に記載の文書検索装置。
The search unit receives the search text as the search content and receives the search text.
Search for the extended document that contains the keywords contained in the search text,
The document search device according to claim 1 or 2, wherein one document corresponding to the searched extended document is output as a search result.
前記文書集合は、書誌情報を有する特許文献の集合であって、
前記相関情報蓄積部には、前記書誌情報に基づいて、前記一の文書と前記複数の他の文書との間の相関情報が蓄積されていることを特徴とする請求項1〜3のいずれか一項に記載の文書検索装置。
The document set is a set of patent documents having bibliographic information.
One of claims 1 to 3, wherein the correlation information storage unit stores correlation information between the one document and the plurality of other documents based on the bibliographic information. The document retrieval device described in paragraph 1.
前記文書集合は、書誌情報を有する特許文献の集合であって、
前記相関情報蓄積部には、前記一の文書の審査または審判に関する情報に基づいて、前記一の文書と前記複数の他の文書との間の相関情報が蓄積されていることを特徴と
する請求項1〜4のいずれか一項に記載の文書検索装置。
The document set is a set of patent documents having bibliographic information.
The claim is characterized in that the correlation information storage unit stores correlation information between the one document and the plurality of other documents based on the information regarding the examination or trial of the one document. The document retrieval device according to any one of Items 1 to 4.
前記文書集合は、書誌情報を有する特許文献と書誌情報を有する非特許文献の集合であって、
前記相関情報蓄積部には、前記一の文書の書誌情報に基づいて、相関性のある非特許文献に関する情報をさらに蓄積し、
当該非特許文献の文書データが蓄積された相関情報文書データベースをさらに備えることを特徴とする請求項1〜5のいずれか一項に記載の文書検索装置。
The document set is a set of patent documents having bibliographic information and non-patent documents having bibliographic information.
In the correlation information storage unit, information on correlated non-patent documents is further accumulated based on the bibliographic information of the one document.
The document retrieval apparatus according to any one of claims 1 to 5, further comprising a correlation information document database in which document data of the non-patent document is accumulated.
前記文書拡張部は、前記一の文書のグラフ構造であって、
テキストの係り受け構造を利用した木構造グラフ構造に、
前記一の文書に相関性のある文書のグラフ構造であって、テキストの係り受け構造を利用した木構造グラフ構造の一部または全部を追加することで、
前記一の文書の拡張文書を生成することを特徴とする請求項1〜6のいずれか一項に記載の文書検索装置。
The document extension unit is a graph structure of the one document.
For a tree structure graph structure using the dependency structure of text,
By adding a part or all of the tree structure graph structure that is the graph structure of the document that correlates with the one document and uses the dependency structure of the text.
The document retrieval apparatus according to any one of claims 1 to 6, wherein an extended document of the above-mentioned document is generated.
受け付けた検索内容に対応する文書を検索する文書検索方法であって、
コンピュータが、
文書集合に含まれる一の文書に相関性のある文書を、相関情報蓄積部より抽出するステップと、
前記相関性のある文書を用いて、前記一の文書を拡張した一の拡張文書を生成する文書拡張ステップと、
を実行し、
前記文書拡張ステップは、前記相関情報蓄積部の相関に基づいて、複数の文書についての前記拡張文書を作成し、
前記コンピュータは、前記複数の文書についての前記拡張文書から、前記検索内容に対応する拡張文書を検索し、検索された拡張文書に対応する一の文書を、検索結果として出力する検索ステップを実行し、
前記文書拡張ステップは、前記一の文書のグラフ構造に、
前記一の文書に相関性のある文書のグラフ構造の一部または全部を追加することで、
前記一の文書の拡張文書を生成する生成ステップを実行する、
文書検索方法。
This is a document search method that searches for documents that correspond to the received search content.
The computer
A step to extract a document that is correlated with one document included in the document set from the correlation information storage unit, and
A document expansion step that uses the correlated document to generate an extended document that is an extension of the one document.
And run
The document expansion step creates the extended document for a plurality of documents based on the correlation of the correlation information storage unit.
The computer, from the extensive documentation for said plurality of documents, searching the extended document corresponding to the search activity, one of the document corresponding to the retrieved extended document, perform a search step of outputting a retrieval result ,
The document expansion step has a graph structure of the one document.
By adding part or all of the graph structure of a correlated document to the one document above
Performing a generation step to generate an extended document of the one document,
Document search method.
受け付けた検索内容に対応する文書を検索する文書検索プログラムであって、
コンピュータに、
文書集合に含まれる一の文書に相関する文書に関する相関情報を相関情報蓄積部から抽出する機能と、
前記相関情報を用いて、前記一の文書を拡張した一の拡張文書を生成する文書拡張機能と、を実現させ、
前記文書拡張機能は、前記相関情報蓄積部に蓄積された前記相関情報に基づいて、複数の文書についての前記拡張文書を作成し、
前記コンピュータに、前記複数の文書についての前記拡張文書から、前記検索内容に対応する拡張文書を検索し、検索された拡張文書に対応する一の文書を、検索結果として出力する文書検索機能を実現させ、
前記文書拡張機能は、前記一の文書のグラフ構造に、
前記一の文書に相関性のある文書のグラフ構造の一部または全部を追加することで、
前記一の文書の拡張文書を生成する生成機能をさらに実現させる、文書検索プログラム。
A document search program that searches for documents that correspond to the received search content.
On the computer
A function to extract correlation information about documents that correlate with one document included in the document set from the correlation information storage unit, and
Using the correlation information, a document extension function for generating an extended document, which is an extension of the one document, is realized.
The document extension function creates the extended documents for a plurality of documents based on the correlation information stored in the correlation information storage unit.
A document search function is realized in which the computer searches for an extended document corresponding to the search content from the extended documents for the plurality of documents and outputs one document corresponding to the searched extended document as a search result. Let me
The document extension function is applied to the graph structure of the one document.
By adding part or all of the graph structure of a correlated document to the one document above
A document retrieval program that further realizes a generation function for generating an extended document of the above-mentioned one document.
JP2021513079A 2019-04-09 2019-04-09 Document search device, document search method, and document search program Active JP6978735B2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/015530 WO2020208728A1 (en) 2019-04-09 2019-04-09 Document searching device, document searching method, and document searching program

Publications (2)

Publication Number Publication Date
JP6978735B2 true JP6978735B2 (en) 2021-12-08
JPWO2020208728A1 JPWO2020208728A1 (en) 2021-12-16

Family

ID=72750644

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021513079A Active JP6978735B2 (en) 2019-04-09 2019-04-09 Document search device, document search method, and document search program

Country Status (2)

Country Link
JP (1) JP6978735B2 (en)
WO (1) WO2020208728A1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112463950B (en) * 2020-12-10 2023-10-24 中国科学院深圳先进技术研究院 Document searching method and device and electronic equipment
CN115408491B (en) * 2022-11-02 2023-01-17 京华信息科技股份有限公司 Text retrieval method and system for historical data

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006146458A (en) * 2004-11-18 2006-06-08 Nippon Telegr & Teleph Corp <Ntt> Document search device and document search program
JP5347878B2 (en) * 2009-09-29 2013-11-20 富士通株式会社 Inter-literature relationship analysis apparatus, program, and method
DE112011106041T5 (en) * 2011-12-27 2014-10-02 Mitsubishi Electric Corp. search device

Also Published As

Publication number Publication date
JPWO2020208728A1 (en) 2021-12-16
WO2020208728A1 (en) 2020-10-15

Similar Documents

Publication Publication Date Title
CN110837550B (en) Knowledge graph-based question answering method and device, electronic equipment and storage medium
JP7302022B2 (en) A text classification method, apparatus, computer readable storage medium and text classification program.
CN109086303B (en) Intelligent conversation method, device and terminal based on machine reading understanding
CN106960030B (en) Information pushing method and device based on artificial intelligence
US8903837B2 (en) Incorporating geographical locations in a search process
US9659004B2 (en) Retrieval device and method
CN104899322A (en) Search engine and implementation method thereof
CN105139237A (en) Information push method and apparatus
US20130198192A1 (en) Author disambiguation
CN110390106B (en) Semantic disambiguation method, device, equipment and storage medium based on two-way association
CN112100326B (en) Anti-interference question and answer method and system integrating retrieval and machine reading understanding
CN112052331A (en) Method and terminal for processing text information
JP2020087353A (en) Summary generation method, summary generation program, and summary generation apparatus
JP6978735B2 (en) Document search device, document search method, and document search program
KR20130108537A (en) Method of character string generation, program and system
CN112214583A (en) Extending knowledge graph using external data sources
CN105404677A (en) Tree structure based retrieval method
WO2011037753A1 (en) Method and apparatus for ordering results of a query
KR102663908B1 (en) Method for providing meaning search service through semantic analysis
JP6675742B1 (en) Document search device, document search method, and document search program
US9195940B2 (en) Jabba-type override for correcting or improving output of a model
CN113272799A (en) Coded information extractor
JP2021047553A (en) Document search device, document search method, and document search program
CN113297854A (en) Method, device and equipment for mapping text to knowledge graph entity and storage medium
TW201822031A (en) Method of creating chart index with text information and its computer program product capable of generating a virtual chart message catalog and schema index information to facilitate data searching

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210628

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210628

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210628

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211019

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211026

R150 Certificate of patent or registration of utility model

Ref document number: 6978735

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150