JP7348746B2 - Research support method, research support computer program, and research support system - Google Patents
Research support method, research support computer program, and research support system Download PDFInfo
- Publication number
- JP7348746B2 JP7348746B2 JP2019086100A JP2019086100A JP7348746B2 JP 7348746 B2 JP7348746 B2 JP 7348746B2 JP 2019086100 A JP2019086100 A JP 2019086100A JP 2019086100 A JP2019086100 A JP 2019086100A JP 7348746 B2 JP7348746 B2 JP 7348746B2
- Authority
- JP
- Japan
- Prior art keywords
- support method
- sentence
- sub
- citation
- token
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 45
- 238000011160 research Methods 0.000 title claims description 27
- 238000004590 computer program Methods 0.000 title claims description 4
- 238000011835 investigation Methods 0.000 claims description 36
- 238000011156 evaluation Methods 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 16
- 230000001537 neural effect Effects 0.000 claims description 10
- 230000009471 action Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 16
- 238000010801 machine learning Methods 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 9
- 238000010276 construction Methods 0.000 description 7
- 238000007781 pre-processing Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000004040 coloring Methods 0.000 description 5
- 239000002131 composite material Substances 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000013332 literature search Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、調査支援方法、調査支援用コンピュータプログラムおよび調査支援システムに関する。 The present invention relates to a research support method, a research support computer program, and a research support system.
特許審査や特許無効調査の際には、新規性や進歩性などの特許性の有無を判断するために、先行技術文献の調査を行う。先行技術文献の調査においては、特許審査や特許無効理由の調査対象となる請求項に対応するキーワードと、IPC(国際特許分類)、FI(ファイルインデックス)等の特許分類を組み合わせて、特許文献データベースの検索を行い、さらに非特許文献データベースの検索も行う。検索時には、大量の特許文献に対して、調査者の求める観点で特許分類やキーワードを選定し、組み合わせて検索を行うことで、文献数を絞り込み、所定数になった段階で文献内容の確認を行う。そして、内容の確認により発見された先行技術文献に基づいて、引用発明を認定し、請求項に係る発明と一の引用発明とを対比して、一致点及び相違点を認定する。次に、相違点について、再び先行技術調査を行なって、相違点に係る構成に対応する他の引用文献を発見すれば、一の引用発明に、他の引用発明を適用することが容易といえる論理付けが出来るか否かを検討する。この検討を繰り返し行い、特許審査や特許無効調査が完了する。 During patent examinations and patent invalidation searches, prior art documents are searched to determine the presence or absence of patentability, such as novelty and inventive step. When searching for prior art documents, a patent document database is created by combining keywords corresponding to the claims to be searched for patent examination and reasons for patent invalidation, and patent classifications such as IPC (International Patent Classification) and FI (File Index). , and also searches non-patent literature databases. When searching, the searcher narrows down the number of documents by selecting and combining patent classifications and keywords from the viewpoint of the researcher in a large amount of patent documents, and then confirms the content of the documents once a predetermined number is reached. conduct. Then, based on the prior art documents discovered by checking the content, the cited invention is identified, and the claimed invention and one cited invention are compared to identify points of agreement and differences. Next, if a prior art search is conducted again regarding the difference and other cited documents corresponding to the structure related to the difference are found, it can be said that it is easy to apply the other cited invention to the first cited invention. Consider whether you can reason with it. This review is repeated until the patent examination and patent invalidation investigation are completed.
一方、近年、ニューラル言語理解モデルが急速に発展を遂げている。
伝統的な言語理解モデルには、規則方式の言語理解モデルと統計方式の言語理解モデルの2種類があるが、規則方式の言語理解モデルでは、各ドメインに対する深い知識を持った者が、類義語判定や構文解析等の言語理解に必要なサブタスクの種類を考え、各サブタスクに対する必要な特徴量を設計するだけでなく、言語理解のための規則やアルゴリズムまで自ら考えなければならなかった。そのため、大規模で実用的なシステムを構築するのは困難であった。また、統計方式の言語理解モデルにおいては、サブタスクの種類を考え、特徴量を設計するのは人間であるが、言語理解のための規則は学習データから統計的機械学習の手法によって自動的に構築できる。しかしながら、各サブタスクに特化した学習データを別個に用意しなければならないため、実用上精度の高いモデルを作成することは、大変困難であった。
On the other hand, neural language understanding models have been rapidly developing in recent years.
There are two types of traditional language understanding models: a rule-based language understanding model and a statistical language understanding model.In the rule-based language understanding model, a person with deep knowledge of each domain can determine synonyms. They not only had to think about the types of subtasks necessary for language understanding, such as syntactic analysis and syntactic analysis, and design the necessary features for each subtask, but also had to come up with rules and algorithms for language understanding themselves. Therefore, it has been difficult to construct a large-scale practical system. In addition, in statistical language understanding models, humans consider the types of subtasks and design the features, but rules for language understanding are automatically constructed from training data using statistical machine learning techniques. can. However, since training data specialized for each subtask must be prepared separately, it is extremely difficult to create a model with high accuracy in practice.
特に、技術に関する説明文を扱う場合においては、同一の技術的概念を指し示す事柄が別の側面から記載されていたり、1つの単語で表され得る概念が、新技術が開発されたばかりのころは、説明文的に記載される等の特徴があるため、技術に関する説明文について、2文間の意味的な対比を考えた際に、伝統的な言語理解モデルを用いて、対比に必要な各サブタスクを全て列挙すること自体、困難性が高く、それらに即した特徴量設計とデータ収集も、また、大変ハードルが高かった。 In particular, when dealing with explanatory texts related to technology, things pointing to the same technical concept may be described from different aspects, or concepts that can be expressed with one word may be difficult to understand when a new technology has just been developed. When considering the semantic comparison between two sentences regarding technology-related explanatory sentences, we use traditional language understanding models to identify each subtask necessary for the comparison. Enumerating all of them was difficult in itself, and designing features and collecting data based on them was also extremely difficult.
一方、ニューラル言語理解モデルにおいては、ニューラルネットワークを用いて、入力から出力までエンド・トゥー・エンドで学習させることにより、各サブタスクの列挙と特徴量設計や、各サブタスクに特化したデータの準備を必要とせずに、精度の高い言語理解モデルを構築することが可能であるため、技術に関する説明文の対比の際にはメリットがある。ニューラル言語モデルにおいては、一般的に、単語等の入力トークンに対応する分散表現が用いられる。また、ニューラル言語理解モデルにおいては、言語を扱うことから、以下のような要件を満たす必要がある。
a) 任意の長さの文章を扱える。つまり可変長データを扱うことできる。
b) トークン(単語など)に出現順(時系列)を考慮する仕組みが利用できる。
c) 離れたトークン間にある長距離依存関係が扱える。
このような特徴を持つ既存の仕組みとして、CNN、RNN、位置埋め込み(positional embeddings)を用いたモデル等が考えられるが、ニューラル言語理解モデルにおいては、何れのモデルを用いることも可能である。例えば、CNN、RNN を使ったモデルについては、単純なニューラルネットワークでは扱いきれない、時系列データをうまく扱うことが出来る。CNN、RNNをエンコーダとして用いると、可変長トークン列を時系列として扱うことができる。これらのエンコーダとデコーダを組み合わせたモデルは、シーケンス・トゥー・シーケンスモデルと呼ばれ、主に機械翻訳等に用いられる。
On the other hand, a neural language understanding model uses a neural network to perform end-to-end learning from input to output, enumerating each subtask, designing features, and preparing data specialized for each subtask. Since it is possible to construct a highly accurate language understanding model without the need for this, it is advantageous when comparing explanatory texts related to technology. Neural language models generally use distributed representations that correspond to input tokens such as words. Furthermore, since the neural language understanding model deals with language, it is necessary to satisfy the following requirements.
a) Can handle sentences of arbitrary length. In other words, it can handle variable length data.
b) A mechanism can be used that takes into account the order of appearance (chronological order) of tokens (words, etc.).
c) It can handle long-distance dependencies between distant tokens.
Existing mechanisms with such characteristics include CNNs, RNNs, and models using positional embeddings, but any model can be used as a neural language understanding model. For example, models using CNN and RNN can successfully handle time-series data that cannot be handled by simple neural networks. When CNN and RNN are used as encoders, variable-length token strings can be treated as time series. A model that combines these encoders and decoders is called a sequence-to-sequence model, and is mainly used for machine translation and the like.
また、位置埋め込みを用いたエンコーダ、デコーダモデルの例として、トランスフォーマ(Transformer)が存在する。トランスフォーマは、自己アテンションを用いることで、トークン間の長距離依存関係の知識をうまく補足でき、シーケンス・トゥー・シーケンスモデルに比して、計算量が小さいメリットがあるため、トランスフォーマのエンコーダ部分を用いる研究も進んでいる。 Furthermore, there is a transformer as an example of an encoder/decoder model using positional embedding. The encoder part of the transformer is used because the transformer can successfully supplement the knowledge of long-range dependencies between tokens by using self-attention, and has the advantage of having a small amount of calculation compared to the sequence-to-sequence model. Research is also progressing.
ここで、非特許文献1には、アテンション機構を利用した強力なエンコーダを備えたモデルであるトランスフォーマのエンコーダ部分を利用したBERT(Bidirectional Encoder Representations from Transformers)という技術が提案されている。これは、言語モデルを大規模なデータによって事前学習(Pre-training)し、その後、タスクに特化した比較的小規模のファインチューニング(Fine-Tuning)を行うことで、8個のベンチマークタスクで最高性能(State of the art)を達成したモデルであり、近年注目されている。 Here, Non-Patent Document 1 proposes a technology called BERT (Bidirectional Encoder Representations from Transformers) that uses the encoder part of a transformer, which is a model equipped with a powerful encoder that uses an attention mechanism. This was achieved by pre-training the language model using large-scale data, and then performing relatively small-scale task-specific fine-tuning. It is a model that has achieved the highest performance (state of the art) and has been attracting attention in recent years.
特許審査や特許無効調査においては、国内だけでなく海外の文献の先行技術調査も必要とされるため、年々大量に蓄積される世界中の先行技術文献を、過去から遡って網羅的に調査しなければならないことを考えると、益々手間がかかるものとなっている。特許行政年次報告書2018によると、2007年に187.4万件であった世界の特許出願件数は、この10年で1.7倍に増加し2016年には412.8万件に達している。 In patent examinations and patent invalidation searches, it is necessary to conduct prior art searches of not only domestic but also foreign documents, so we conduct a comprehensive search of prior art documents from all over the world, which accumulate in large numbers year after year. Considering that it has to be done, it is becoming more and more time-consuming. According to the Patent Administration Annual Report 2018, the number of patent applications worldwide increased from 1.874 million in 2007 to 4.128 million in 2016, increasing 1.7 times in the past 10 years. ing.
そして、従来の先行技術文献調査においては、キーワードや特許分類を組み合わせて、検索を行った後、検索結果から発見された先行技術文献に基づいて、引用発明を認定して、請求項に係る発明と当該引用発明とを対比して、一致点及び相違点を認定するという複雑なステップを経るため、1つの先行技術文献を発見する検索の手間に加えて、当該先行技術文献に対して、一致点及び相違点を認定しなければならず、精度の高い結果を得るためには、特許審査や特許無効調査は、対象技術に関する有識者が、長い時間をかけて行う必要がある。 In conventional prior art document searches, after searching by combining keywords and patent classifications, cited inventions are identified based on the prior art documents discovered from the search results, and the claimed invention is identified. In addition to the trouble of searching to find a single prior art document, the process involves comparing the cited invention with the cited invention and identifying points of agreement and differences. Points and differences must be recognized, and in order to obtain highly accurate results, patent examinations and patent invalidity searches must be conducted by experts in the subject technology over a long period of time.
さらに、特許審査や特許無効調査においては、引用発明の検索結果だけではなく、引用文献となり得る理由について、出願人や依頼者が明確に理解できるように提示(支援)することが好ましい。 Furthermore, in patent examinations and patent invalidation searches, it is preferable to present (support) not only the search results for cited inventions, but also the reasons why cited documents can be cited so that applicants and clients can clearly understand them.
なお、非特許文献1には、特許審査や特許無効調査などについての具体的な開示もなく、調査対象と一致点を有する文献の具体的な検索方法についても開示は見当たらない。また、非特許文献1には、2文を比較して、文の特定部分を抜き出すタスクは記載されているが、2文を比較して、トークンごとにラベルの判別を行うタスクは記載されていない。
Note that Non-Patent
そこで、本発明は、調査対象と一致点を有する文献の検索調査を支援する技術を提供することを目的とする。 SUMMARY OF THE INVENTION Therefore, an object of the present invention is to provide a technology that supports searching and investigating documents that have matching points with a research target.
上記課題を解決するために、代表的な本発明の調査支援方法の一つは、コンピュータシステムが文献の調査を支援するための方法であって、対象文と参照文との一致点に関する情報を取得する入力ステップと、一致点を判別可能にする画面処理を加えた表示画面を生成し、表示画面を表示可能にする表示制御ステップとを備える。 In order to solve the above-mentioned problems, one of the typical research support methods of the present invention is a method for a computer system to support literature research, in which information about matching points between a target sentence and a reference sentence is collected. The method includes an input step of acquiring, and a display control step of generating a display screen with screen processing that enables matching points to be determined, and making the display screen displayable.
本発明は、調査対象と一致点を有する文献の検索調査を支援することが可能になる。
上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
INDUSTRIAL APPLICATION This invention becomes possible to support the search investigation of the document which has a point of coincidence with a research object.
Problems, configurations, and effects other than those described above will be made clear by the following description of the embodiments.
以下、図面を用いて、本発明の実施例を説明する。 Embodiments of the present invention will be described below with reference to the drawings.
<1.調査支援システム100の全体構成>
図1は、調査支援システム100の全体構成を説明する図である。
同図において、調査支援システム100は、判定部101、および演算部102を備える。
判定部101は、請求項保持部11、文献保持部12、前処理部13、変換部14、および言語理解モデル15を備える。
演算部102は、入力部103、ランキング部104、相違点抽出部105、および表示制御部106を備える。演算部102に関しては、より詳しくは、後述の図7の調査支援システムを応用した文書検索システムの仕組みを用いることが可能である。
<1. Overall configuration of investigation support system 100>
FIG. 1 is a diagram illustrating the overall configuration of a research support system 100.
In the figure, an investigation support system 100 includes a
The
The
請求項保持部11は、入力された自然言語の請求項文CLMn(対象文)を、Mecabなどの形態素解析器や、SentencePieceなどのトークナイザにより、トークンに分解して保持する。ここでのトークンは、自然言語処理の技術分野の用語であり、自然言語の文を構成する基本単位を表す。好ましくは、トークンは、文節よりも短く、文字よりも長い単位である。 The claim holding unit 11 decomposes the input natural language claim sentence CLMn (target sentence) into tokens using a morphological analyzer such as Mecab or a tokenizer such as SentencePiece and holds the tokens. The token here is a term in the technical field of natural language processing, and represents a basic unit that constitutes a natural language sentence. Preferably, a token is a unit that is shorter than a phrase and longer than a character.
文献保持部12は、特許文献PDm(参照文)の集合を、トークン列に分解して保持している。 The document holding unit 12 disassembles and holds a set of patent documents PDm (reference sentences) into token strings.
前処理部13は、請求項文CLMnと特許文献PDmを1対1で、前後に繋げて、1つの入力対象トークン列INiとする。請求項文CLMnと、特許文献PDmとの少なくとも片方のトークン列の長さが大きすぎ、後の操作に支障が出る際は、請求項文CLMnから、特定サイズのウィンドウ幅を、一定の間隔でずらすことによって、トークン列の一部としてCLMnjを生成し、同様に特許文献PDmとのトークン列の一部としてPDmkを生成して、CLMnjとPDmkとを前後に繋げ、jとkとを全て組み合わせて、入力対象トークン列INiとしてよい。 The preprocessing unit 13 connects the claim statement CLMn and the patent document PDm one-on-one, one after the other, to form one input target token string INi. If the length of the token string of at least one of the claim statement CLMn and the patent document PDm is too large and causes problems in subsequent operations, change the window width of a specific size from the claim statement CLMn at regular intervals. By shifting, CLMnj is generated as part of the token string, PDmk is similarly generated as part of the token string with patent document PDm, CLMnj and PDmk are connected back and forth, and j and k are all combined. This may be used as the input target token string INi.
変換部14は、言語理解モデル15を使用して、入力対象トークン列INiを出力対象トークン列OUTiに変換する。
The conversion unit 14 uses the
入力部103は、出力対象トークン列OUTiを、一致点に関する情報として判定部101から取得する。出力対象トークン列OUTiは、例えば、2値のラベルであり、対応する入力対象トークン列INi内のトークンと、同じインデックスを持つトークンについて、一致点であるトークンを「YES」、一致点でないトークンを「NO」として一致点に関する情報を表す。(後述の図4-5に、詳細の記載がある。)
The input unit 103 acquires the output target token string OUTi from the
ランキング部104は、一致点に関する情報に基づいて、参照文の比較対象としての適格性を評価する。ここでの比較対象は、処理の進行に応じて、後述の相違点抽出前に、第1番目に比較される参照文(以下「主引例」という)や、相違点抽出後に、第2番目以降に比較される参照文(以下「副引例」という)にそれぞれ該当する。
例えば、ランキング部104は、対象文に占める一致点の数(例えば、一致しているトークンの数)が多いほど、適格性の評価を高くする。
また例えば、ランキング部104は、対象文に占める一致点の割合(例えば、一致しているトークンの数を、前トークン数で割った値)が多いほど、適格性の評価を高くする。この割合には、文字数やトークン数などの割合の他に、対象文において複数の一致点が集中または分散する粗密の度合などを加味してもよい。
また例えば、ランキング部104は、一致点の評価値が高いほど、適格性の評価を高くする。例えば、一致点が示すトークンが専門分野の用語であるなど特殊性があって特徴的な用語であるほど、一致点の評価値を高くしてもよい。また、例えば、対象文の中の一致点の出現箇所が書式などから定まる重要箇所または基本箇所であるほど、一致点の評価値の重み付けを高くしてもよい。
さらに、これらの項目を評価関数などで組み合わせる、また他の評価をさらに加味するなどして、参照文の比較対象としての適格性を総合的に評価してもよい。
また、ランキング部104は、求めた適格性に基づいて、複数の参照文のランキングを行う。
なお、ランキング部104の適格性の評価やランキングなどの機能は、後述する結果保持部45、総合出力部46(図7参照)の機能と少なくとも一部重複するため、ランキング部104について、結果保持部45、総合出力部46と同様の機能については重複説明を省略する。また、結果保持部45、総合出力部46の機能の少なくとも一部を、ランキング部104の機能として、採用してもよい。
The
For example, the
For example, the
Also, for example, the
Furthermore, the suitability of the reference sentence as a comparison target may be comprehensively evaluated by combining these items using an evaluation function or by adding other evaluations.
Furthermore, the
Note that the functions of the
相違点抽出部105は、対象文から主引例との一致点を除くことにより、相違点を求める。さらに、相違点抽出部105は、対象文から、文、文節、単語、形態素などの意味のある言葉の単位(以下、言語単位という)になるように、相違点抽出範囲を調整する。これにより、Sentence Pieceなどを用いた場合に、形態素のうち一部分だけが相違点と認定されてしまうケース等で、言語的な意味のない相違点抽出を防ぐことが出来る。また、相違点抽出部105は、このように調整された相違点は請求項保持部11に改めて入力され、判定部101における副引例の探索に供せられる。
なお、相違点抽出部105の相違点を処理する機能は、後述するクエリ自動構築部44(図7参照)の機能と少なくとも一部重複するため、相違点抽出部105について、クエリ自動構築部44と同様の機能については重複説明を省略する。また、クエリ自動構築部44の機能の少なくとも一部を、相違点抽出部105の機能として、採用してもよい。
The difference extracting unit 105 finds differences by removing points that match the main citation from the target sentence. Further, the difference extraction unit 105 adjusts the difference extraction range so that the target sentence becomes a meaningful word unit (hereinafter referred to as a linguistic unit) such as a sentence, a clause, a word, or a morpheme. This prevents the extraction of differences that have no linguistic meaning, such as in cases where only part of a morpheme is recognized as a difference when using Sentence Piece or the like. Further, the difference extracting unit 105 inputs the thus adjusted differences to the claim holding unit 11 again, and provides the
Note that the function of processing differences of the difference extraction unit 105 overlaps at least in part with the function of the automatic query construction unit 44 (see FIG. 7), which will be described later. Duplicate explanations of functions similar to those will be omitted. Further, at least a part of the functions of the automatic query construction section 44 may be employed as the functions of the difference extraction section 105.
表示制御部106は、一致点を判別可能にする画面処理を加えた表示画面や、主引例の候補のランキング画面や、副引例と相違点との対比画面などの画面インタフェースを生成し、ユーザ端末へ送信する。 The display control unit 106 generates screen interfaces such as a display screen with screen processing added to enable identification of matching points, a ranking screen for primary citation candidates, and a comparison screen for sub-citations and differences, and displays the screen on the user terminal. Send to.
このような構成の調査支援システム100は、例えば、ハードウェアとしてCPU(Central Processing Unit)やメモリやデータベースなどを備えたコンピュータシステムにより構成される。 The investigation support system 100 having such a configuration is configured by, for example, a computer system including a CPU (Central Processing Unit), a memory, a database, and the like as hardware.
このハードウェアが調査支援用コンピュータプログラムを実行することにより、後述する図9および図10に示す調査支援方法が実施される。 When this hardware executes the investigation support computer program, the investigation support method shown in FIGS. 9 and 10, which will be described later, is carried out.
このハードウェアの一部または全部については、DSP(Digital Signal Processor)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などの均等の手段で代替してもよい。例えば、多数のベクトル演算が発生する変換部14(言語理解モデル15)は、多数の演算コアを備えたGPUなどの演算手段で実現し、判断分岐などの処理が発生する演算部102はCPUなどの演算手段で実現してもよい。
Part or all of this hardware may be replaced by equivalent means such as a DSP (Digital Signal Processor), an FPGA (Field-Programmable Gate Array), or a GPU (Graphics Processing Unit). For example, the conversion unit 14 (language understanding model 15) in which a large number of vector operations occur is realized by a calculation means such as a GPU equipped with a large number of calculation cores, and the
また、ハードウェアの一部または全部をネットワーク上のサーバーに集中または分散してクラウド配置し、複数の人がネットワークを介して共同使用してもよい。 Further, part or all of the hardware may be centralized or distributed on servers on a network and placed in the cloud so that multiple people can use it jointly via the network.
<2.言語理解モデル15の説明>
次に、言語理解モデル15について説明する。
<2. Description of
Next, the
言語理解モデル15とは、上述したとおり、コンピュータに人間が行っているような自然言語理解をさせることを目的としたモデルである。本明細書中では、ニューラル言語理解モデルの一種であるBERTを主として説明を行うが、他のニューラル言語理解モデルや伝統的な言語理解モデルを用いてもよい。
As mentioned above, the
図2は、BERTの基本的な構成を説明する図である。BERTは、トランスフォーマエンコーダTmをネットワーク状に結合させて構成される。E1~Enは入力埋め込み(input embeddings)であり、トークン埋め込み(token embeddings)、セグメント埋め込み(segment embeddings)、位置埋め込み(position embeddings)を足すことで生成してよい。個々のトランスフォーマエンコーダTmは、マルチヘッドアテンション21、残差接続・正規化のブロック22、フィードフォワードネットワーク23、および残差接続・正規化のブロック24などを備えて構成される。T1~Tnは、各入力トークンに対応した文脈表現(contextual representation)である。
FIG. 2 is a diagram illustrating the basic configuration of BERT. BERT is configured by connecting transformer encoders Tm in a network. E1 to En are input embeddings, which may be generated by adding token embeddings, segment embeddings, and position embeddings. Each transformer encoder Tm is configured with a
<3.言語理解モデル15の機械学習>
続いて、言語理解モデル15の機械学習について説明する。
図3は、言語理解モデル15の機械学習を説明する図である。
<3. Machine learning of
Next, machine learning of the
FIG. 3 is a diagram illustrating machine learning of the
同図において、入力データには、予め一致点を有することが分かっている学習用の文章を使用する。例えば、特許審決書類には、「本願請求項に係る発明」と、「主引例に記載された事項」のように、互いに表現上は異なっていても、意味的(技術的)な一致点を一部に有する文章データが蓄積されている。「本願請求項に係る発明」において、どの部分が主引例との一致点になるかは、具体的には、「一致点の認定」に記載されている。なお、特許審決書類と同様に、特許審査書類からも同様の事項は抽出可能である。 In the figure, a learning sentence that is known to have matching points in advance is used as input data. For example, in patent trial decision documents, there are points that are semantically (technically) consistent, such as "the claimed invention" and "matters stated in the main citation," even though they are expressed differently. Part of the text data is stored. Which parts of the "claimed invention" are the points of agreement with the main cited example are specifically described in ``Identification of points of agreement''. Note that similar matters can be extracted from patent examination documents as well as patent trial decision documents.
訓練用の文章は、それぞれトークン単位に区切られた後、「審決対象の請求項に係る発明」と、「主引例に記載された事項」のように、技術的な一致点を一部に有する文章同士について、適当なトークンを間に挟み、前後につなげて、1つの入力データが作成される。このとき、適当なトークンとして、文の切れ目を表す記号([SEP])を付加してもよく、また、文頭記号([CLS])や文末記号(文の切れ目を表す記号と同様に、[SEP])を付加してもよい。一方、「審決対象の請求項に係る発明」と、「一致点の認定」との記載を最長部分一致を用いるなどして、「審決対象の請求項に係る発明」をトークン単位で、「主引例に記載された事項」との一致、不一致を判定したものを出力データとして作成する。 After each training text is divided into tokens, it is divided into tokens and has some technical similarities, such as ``the claimed invention subject to trial decision'' and ``matters stated in the main citation.'' One input data is created by connecting sentences before and after each other with appropriate tokens in between. At this time, a symbol representing a sentence break ([SEP]) may be added as an appropriate token, and a symbol representing a sentence break ([CLS]) or a sentence end symbol (similar to the symbol representing a sentence break) may be added. SEP]) may be added. On the other hand, by using longest partial matching between the descriptions of "the invention claimed in the claim that is the subject of the trial decision" and "identification of matching points," the "invention claimed in the claim that is the subject of the trial decision" is divided into "main" in token units. The results determined to be consistent or inconsistent with the matters stated in the references are created as output data.
または、「審決対象の請求項に係る発明」と、「主引例に記載された事項」について、特定の指標を用いて、関連性が極めて低いと判定された文章同士について、適当なトークンを間に挟み、前後につなげて、1つの入力データが作成し、全トークンが不一致と判定された出力データを作成する。 Alternatively, between the "invention claimed in the claim subject to trial decision" and "matters stated in the main citation", appropriate tokens may be inserted between sentences that are determined to have extremely low relevance using a specific index. , and connect them before and after each other to create output data in which one input data is created and all tokens are determined to be inconsistent.
また、公知のデータ拡張の手法を用いて、学習データを増やしてもよい。このような入出力データを学習データとして収集することにより学習セットが得られる。言語理解モデル15は、当該学習セットによって、機械学習を行う。
Further, the learning data may be increased using a known data expansion method. A learning set is obtained by collecting such input/output data as learning data. The
なお、エンコーダ内部にアテンションを用いたBERT等のモデルにおいては、各入力トークンに対応した文脈表現Tiの出力に際して、「審決対象の請求項に係る発明」内の自身と対応する入力埋め込みEiを参照するだけではなく、「主引例に記載された事項」内の入力埋め込みEjをも参照するため、学習された結果として、「審決対象の請求項に係る発明」と、「主引例に記載された事項」とで技術的、意味的に一致するトークンが高い関連性を有するように言語理解モデル15の内部パラメータが更新される。
このような機械学習により、言語理解モデル15のうち、アテンションを用いたBERT等のモデルにおいては、一致点と推定されるトークンの組み合わせに対して、対応するアテンションの位置に高い値を生成するようになる。
In addition, in a model such as BERT that uses attention inside the encoder, when outputting the context expression Ti corresponding to each input token, refer to the input embedding Ei corresponding to itself in the "claimed invention subject to trial decision". In addition to referring to the input embedding Ej in "matters stated in the main citation," as a result of learning, the "invention related to the claim subject to the trial decision" and "matters stated in the main citation The internal parameters of the
Through such machine learning, among the
<4.言語理解モデル15の推定動作>
機械学習を済ませた言語理解モデル15の推定動作について説明する。
図4は、変換部14が、言語理解モデル15を使用して、入力対象トークン列INiを、出力対象トークン列OUTiに変換する例を示す図である。
<4. Estimated operation of
The estimation operation of the
FIG. 4 is a diagram showing an example in which the conversion unit 14 uses the
出力対象トークン列OUTiとしては、入力された自然言語の請求項文CLMn(CLMnj)のトークンのうち、特許文献PDm(PDmk)内の記載と内容的に一致するトークンに対応するトークンを「YES」として、それ以外を「NO」として出力する(パターン1)。 As the output target token string OUTi, among the tokens of the input natural language claim statement CLMn (CLMnj), the tokens corresponding to the tokens whose content matches the description in the patent document PDm (PDmk) are set as "YES". , and the others are output as "NO" (pattern 1).
このように、入力された自然言語の請求項文CLMnについて、トークン単位で特許文献PDmとの一致点(「YES」)と相違点(「NO」)が出力されることにより、引用発明を認定して、請求項に係る発明と一の引用発明とを対比するというステップを省略、または、機械的に認定した結果を修正することで、人間の作業を省力化することができる。 In this way, the cited invention is recognized by outputting points of agreement (“YES”) and points of difference (“NO”) with the patent document PDm on a token-by-token basis for the input natural language claim statement CLMn. By omitting the step of comparing the claimed invention and one cited invention, or by correcting the mechanically determined result, it is possible to save human labor.
別の構成として、変換部14は、言語理解モデル15の推定処理に基づいて、「YES」と「NO」をそのまま出力することに加えて、「YES」トークンの数COUNTyes(OUTi)を出力してもよい。このCOUNTyes(OUTi)が高い値であるほど、適格性の評価が高くなる構成としてよい。また、これらの数に基づいて、後述する主引例の候補の表示順(ランキング)を並び替えてもよい。
As another configuration, the conversion unit 14 outputs the number of “YES” tokens COUNTyes (OUTi) in addition to outputting “YES” and “NO” as they are based on the estimation processing of the
これによって、スコアに応じて、大量の文献を何らかの形で区別可能に表示させることができ、より有効な先行技術文献を素早く発見することが出来ると共に、キーワードや特許分類の組み合わせでクエリを考案する手間が減って、特許審査と特許無効調査をより効率よく行うことが可能となる。 This makes it possible to display a large amount of documents in some way distinguishable according to the score, allowing more effective prior art documents to be quickly discovered, and making it possible to devise queries using combinations of keywords and patent classifications. This will reduce the amount of time and effort required, making it possible to conduct patent examinations and patent invalidation searches more efficiently.
特許文献PDm(PDmk)内の記載のうち、自然言語の請求項文CLMn(CLMnj)に一致するトークンに対応するトークンを「YES」として、それ以外を「NO」として出力してもよいし(パターン2)、パターン1とパターン2に対応した出力の両方を出力してもよい。これにより、請求項の一致部分だけでなく、特許文献の一致部分が分かるため、人間が出力結果を修正する際に素早い対比箇所の参照が可能となる。
Among the descriptions in the patent document PDm (PDmk), the tokens corresponding to the tokens that match the natural language claim statement CLMn (CLMnj) may be output as "YES", and the others as "NO" ( Pattern 2), both of the outputs corresponding to
図5には、パターン1のみを使用し、パターン2は使用しない構成が記載されている。このような場合、パターン2に対応するトークンについては、何を入力してもよく、全て一致点(「YES」)か、相違点(「NO」)のどちらかとしてよい。
FIG. 5 shows a configuration in which only
特許文献PDmには、請求項、明細書等のテキスト情報だけではなく、図面から自動生成された、図面に記載された内容を説明するキャプション文や、符号やフロー図内の文字列など、図面に記載された文字列を含んでいてもよい。これによって、テキスト情報のみならず、図面を利用した一致点と相違点の認定も可能となる。 Patent document PDm includes not only text information such as claims and specifications, but also captions that are automatically generated from drawings to explain the content described in the drawings, character strings in codes and flow diagrams, etc. May contain the character strings listed in . This makes it possible to identify points of agreement and differences using not only text information but also drawings.
文献保持部12内の特許文献PDmの集合は、特許文献の全文または部分でもよい。特許文献の抄録や要約書などを含めてもよい。 The set of patent documents PDm in the document holding unit 12 may be the entire text or part of the patent documents. Abstracts and summaries of patent documents may also be included.
さらに、文献保持部12内の特許文献PDmの集合は、事前の検索式により選定されてもよいし、少なくとも1以上のデータベース内の文献の一部または全てが選定されてもよい。これによって、全ての文献に対して、時間のかかる文書変換を行うことなく、より引用文献になる確率が高い文献のみに対して、文書変換を行うことが出来る。 Furthermore, the set of patent documents PDm in the document holding unit 12 may be selected by a prior search formula, or some or all of the documents in at least one database may be selected. With this, it is possible to perform document conversion only on documents that have a higher probability of becoming cited documents, without having to perform time-consuming document conversion on all documents.
入力対象トークン列INiには、文頭記号([CLS])、文の切れ目を表す記号([SEP])、文末記号([SEP])を付加してもよく、出力対象トークン列OUTiでは、これらの記号をそのまま出力してもよい。 The input target token string INi may include a sentence initial symbol ([CLS]), a sentence break symbol ([SEP]), and a sentence end symbol ([SEP]), and the output target token string OUTi does not include these symbols. You can output the symbol as is.
請求項文CLMnと、特許文献PDmのうち、特にユーザが指定、若しくは、アルゴリズムで自動的に指定された単語や形態素等については、入力対象トークン列INiにする前に、何等かのプレースホルダに置き換えてもよく、その場合に対応するトークンの出力もプレースホルダとして出力してもよい。これにより、元の学習データにない新たな単語が、請求項や引用文献に出てきた場合に、不一致と判定される可能性が低くなる。そして、当該プレースホルダで置き換えられた単語について、改めて、出力対象トークン列OUTi後に、人手で作成するか、ルールベースか、または、機械学習で作成した類義語表に基づいて、請求項文CLMnと特許文献PDmを比較して、当該プレースホルダで置き換えられた単語に対応するトークンが、一致、または、不一致であるかを判定してもよい。このような構成とすることで、学習データにない新たな単語についても一致や、不一致を精度よく判定することが可能となる。 Of the claim statement CLMn and the patent document PDm, words and morphemes specified by the user or automatically specified by the algorithm are placed in some kind of placeholder before being made into the input target token string INi. It may be replaced, and in that case, the output of the corresponding token may also be output as a placeholder. This reduces the possibility that if a new word that is not in the original learning data appears in a claim or cited document, it will be determined as a mismatch. Then, for the word replaced by the placeholder, after the output target token string OUTi, the claim statement CLMn and patent The documents PDm may be compared to determine whether the token corresponding to the word replaced by the placeholder matches or does not match. With such a configuration, it is possible to accurately determine whether new words that are not in the learning data match or do not match.
変換部14が使用する言語理解モデル15としては、BERT (Bidirectional Encoder Representations from Transformers)や、MT-DNNを始めとしたBERTを拡張したモデルをはじめとするとトランスフォーマを利用したモデルを用いてもよいし、アテンション付きのRNN シーケンス・トゥー・シーケンスモデルを用いてもよく、その他の言語理解に関する何らかのモデルを適用してもよい。
The
入力対象トークン列INiのうち、特許文献PDm(PDmk)に対応するトークンや文頭記号等の記号に対応する出力対象トークン列ついては、便宜的に「NO」として出力してもよい。これによって、1つのトークン単位で付与するラベルの総数を減らすことが可能となる。また、これらのトークンを示す別種のトークンを設けてもよい。これにより、後述するCOUNTnoを少ない処理ステップで行うことが可能となる。さらに、判断保留などの無関係を示す「?」トークンを追加してもよい。これにより、学習データが良ければ、上手く比較ができないものを無理に「YES」、「NO」に分類せずに済み、より精度の向上が見込まれる。 Among the input target token string INi, output target token strings corresponding to symbols such as tokens and sentence initials corresponding to patent document PDm (PDmk) may be output as "NO" for convenience. This makes it possible to reduce the total number of labels assigned to each token. Further, another type of token may be provided to represent these tokens. This makes it possible to perform COUNTno, which will be described later, with fewer processing steps. Furthermore, a "?" token may be added to indicate irrelevance, such as pending judgment. As a result, if the training data is good, it is not necessary to forcefully classify items that cannot be compared well into ``YES'' and ``NO'', which is expected to further improve accuracy.
CLMnを分割したCLMnjとCLMnj-1、PDmを分割したPDmkとPDmk-1とで、元のCLMn、PDmの同一の部分に対応するトークンをそれぞれが保持し、かつ、YES/NOで異なる判定となっている場合は、「YES」を優先して出力してもよい。これにより、分割した部分に偶々請求項と引用文献が直接対比可能な記載が無くても、どこかの分割箇所で一致されていれば、OUTiの対応トークンも「YES」となる正しい結果となるため、CLMnとPDmとを、分割して対比した場合でも、正しい結果を出力することが可能となる。 CLMnj and CLMnj-1, which are obtained by dividing CLMn, and PDmk and PDmk-1, which are obtained by dividing PDm, each hold a token that corresponds to the same part of the original CLMn and PDm, and each of them has a different judgment with YES/NO. If so, "YES" may be output with priority. As a result, even if there is no statement in the divided part that allows direct comparison between the claim and the cited document, if they match somewhere in the divided part, the corresponding token in OUTi will also be "YES", which will be the correct result. Therefore, even when CLMn and PDm are divided and compared, it is possible to output correct results.
また、分割された部分において、トークンの左右に何個のトークンが存在するかをスコア化して、スコアに基づいて出力されたトークンの信頼度を算出し、信頼度に基づいてOUTiのYES/NOを決定してもよい。これにより、対象トークンが分割部分のたまたま文頭にあり、本来その前に存在すべきトークンの影響を受けないまま、誤判定した結果を、そのままOUTiに反映せずに済むことができる。また、判定保留を示す「?」を出力してもよく、ルールベース・機械学習でYES/NOを決定してもよい。 In addition, in the divided part, the number of tokens on the left and right of the token is scored, the reliability of the output token is calculated based on the score, and OUTi's YES/NO is determined based on the reliability. may be determined. As a result, the target token happens to be at the beginning of a sentence in the divided part, and the result of an erroneous determination can be avoided without being reflected in OUTi without being affected by the token that should originally exist before it. Further, a "?" indicating that the determination is pending may be output, or YES/NO may be determined by rule-based machine learning.
COUNTyes(OUTi)は、「YES」トークンの前提記載部分(ジェプソン形式の請求項における「~において」の部分など)のみを、COUNTyes(OUTi(プリアンブル))として、別途出力してもよい。これにより、後述するランキングの際に、前提部分が完全一致したもののみを対象とすることができ、前提構成が全く異なる文献を排除することが可能となる。また前提部分を除いた残りの部分(≒発明の特徴部分)だけを別途出力してもよく、事前にリスト化した重要語や動詞部分や化学式部分だけを、COUNTyes(OUTi(重要語))、COUNTyes(OUTi(動詞))、COUNTyes(OUTi(化学式))として別途出力してもよい。また、「YES」トークンの数COUNTyesに代えて、「NO」トークンの数COUNTno、「?」トークンの数COUNT ?を出力してもよい。 COUNTyes (OUTi) may separately output only the premise description part of the "YES" token (such as the "in" part in Jepson format claims) as COUNTyes (OUTi (preamble)). As a result, during ranking, which will be described later, it is possible to target only documents whose premises completely match, and it is possible to exclude documents whose premises are completely different. In addition, only the remaining part (≒ characteristic part of the invention) after excluding the premise part may be output separately, and only the important words, verb parts, and chemical formula parts listed in advance can be output using COUNTyes (OUTi (important words)). It may be output separately as COUNTyes (OUTi (verb)) or COUNTyes (OUTi (chemical formula)). Furthermore, instead of the number of "YES" tokens COUNTyes, the number of "NO" tokens COUNTno and the number of "?" tokens COUNT? may be output.
COUNTyes(OUTi)について、例えば、SentencePieceに基づいて作成したトークンを、特定の形態素に重みづけするためにmecab等の形態素解析器に基づいて作成しなおしてもよい。その場合、SentencePieceに基づくトークンが、形態素より細かい場合で、各々のトークンが「YES」と「NO」で分かれている場合は、数が多い方を「YES」としてもよく、多数決で決めてもよく、ルールベースや機械学習で決めてもよい。また、SentencePieceに基づくトークンが、形態素より荒い場合は、それぞれの形態素が、SentencePieceと、同じ「YES」と「NO」であると判定してもよい。SentencePieceと形態素の切れ目がずれている場合は、まずSentencePieceを形態素の切れ目と同じ切れ目で分解した後、上記のSentencePieceに基づくトークンが、形態素より細かい場合の手法を適用してもよい。 Regarding COUNTyes (OUTi), for example, a token created based on SentencePiece may be re-created based on a morphological analyzer such as mecab in order to weight a specific morpheme. In that case, if the tokens based on SentencePiece are smaller than the morphemes, and each token is divided into "YES" and "NO", the one with the largest number may be designated as "YES", or it may be determined by majority vote. Often, decisions can be made based on rules or machine learning. Furthermore, if the token based on SentencePiece is rougher than the morpheme, it may be determined that each morpheme is the same "YES" and "NO" as SentencePiece. If the SentencePiece and the morpheme break are misaligned, the SentencePiece may be first decomposed at the same break as the morpheme break, and then the method described above when the SentencePiece-based token is smaller than the morpheme may be applied.
<5.調査支援システム100の画面インタフェース>
続いて、画面インタフェースについて説明する。
<5. Screen interface of investigation support system 100>
Next, the screen interface will be explained.
図6は、調査支援システム100の画面インタフェースを例示する図である。
同図において、入力領域31(対象文の表示領域)には、特許審査対象、または、特許無効調査対象の請求項が入力される。また、引用文献表示領域32(参照文の表示領域)には、現在選択している引用文献の少なくとも一部分が表示される。文献一覧表示領域33(複数の参照文の一覧表示領域)には、文献一覧が表示される。さらに、文書変換対象となる特許文献PDmの集合を作るために、キーワードや、IPC(国際特許分類)、FI等を入力するテキストボックスと、検索ボタンが存在していてもよい。
FIG. 6 is a diagram illustrating a screen interface of the investigation support system 100.
In the figure, a claim to be the subject of patent examination or patent invalidation investigation is input into an input area 31 (display area for target sentences). Furthermore, at least a portion of the currently selected cited document is displayed in the cited document display area 32 (reference text display area). A literature list is displayed in the literature list display area 33 (a list display area of a plurality of reference sentences). Furthermore, in order to create a set of patent documents PDm to be converted, a text box for inputting keywords, IPC (International Patent Classification), FI, etc., and a search button may be provided.
入力領域31には、請求項が入力可能であって、請求項が表示され、当該請求項の記載のうち、引用文献表示領域32内の文書の記載と内容的に一致する部分に対応した部分の色が変更されている(強調表示)。強調表示を行うことにより、画面上で機械的に認定された請求項の一致部分を素早く確認することが可能となる。 In the input area 31, a claim can be entered, the claim is displayed, and a portion of the statement of the claim that corresponds in content to the statement of the document in the cited document display area 32 is displayed. The color of has changed (highlighted). By highlighting, it becomes possible to quickly check the mechanically recognized matching parts of claims on the screen.
引用文献表示領域32には、引用文献の少なくとも一部分が表示され、文献の記載のうち、入力領域31内の文書の記載と内容的に一致する部分に対応した部分の色が変更されている(強調表示)。強調表示を行うことにより、画面上で機械的に認定された引用文献の一致部分を素早く確認することが可能となる。なお、当該一致した部分に関しては、引用文献表示領域においては、段落単位、決まった文字単位に表示してもよい。 At least a portion of the cited document is displayed in the cited document display area 32, and the color of the portion of the document description that corresponds to the content of the document description in the input area 31 is changed ( Highlighting). By highlighting, it is possible to quickly check the matching parts of cited documents that have been mechanically recognized on the screen. Note that the matched portion may be displayed in units of paragraphs or in units of predetermined characters in the cited document display area.
入力領域31、または、引用文献表示領域32において、色が変更された部分については、引用文献表示領域32側の内容を人が精査できる。精査のうえで、内容的に一致している(いない)場合は、当該部分について、請求項と引用文献の記載が対応している(いない)として、入力領域31、または引用文献表示領域32の色を、着色(元の色に戻す)部分をマウスで選択する。選択部分を右クリックすることでストリップメニューを表示して、メニューから、内容的に一致(不一致)を選択すること、人手で着色(元の色に戻)してもよい。 In the input area 31 or the cited document display area 32, a person can carefully examine the contents of the cited document display area 32 in the portion where the color has been changed. After careful inspection, if the content matches (does not exist), it is determined that the claim and the cited document description correspond (do not correspond) in the input area 31 or the cited document display area 32. Select the part to be colored (return to original color) with the mouse. A strip menu may be displayed by right-clicking on the selected portion, and a content match (mismatch) may be selected from the menu, or it may be colored manually (returning to the original color).
以上のような構成により、文献の調査者が簡便に一致点と機械的に判定された部分を参照することができ、一から引用発明を認定して、請求項に係る発明と一の引用発明とを対比するというステップを省略、または、機械的に認定した結果を修正することで、省力化することができる。 With the above configuration, a document searcher can easily refer to the parts mechanically determined as matching points, identify cited inventions from scratch, and identify the claimed invention and one cited invention. Labor can be saved by omitting the step of comparing the results or by modifying the mechanically recognized results.
文献一覧表示領域33には、対象となる特許文献一覧が記載されており、文献一覧表示領域33において、文献を選択することで、引用文献表示領域32が対応した文献に変更される。文献一覧表示領域33においては、COUNTyes(OUTi)に基づく、複数のスコアを「一致指標○」として表示し、「一致指標○」の列か、インデックス名が記載された欄をクリックすることで、当該スコアに基づいて文献を並び替えることができる。 The document list display area 33 describes a list of target patent documents, and by selecting a document in the document list display area 33, the cited document display area 32 is changed to the corresponding document. In the literature list display area 33, multiple scores based on COUNTyes (OUTi) are displayed as "matching index ○", and by clicking on the "matching index ○" column or the column in which the index name is written, Documents can be sorted based on the score.
これにより、スコアに応じて、大量の文献を何らかの形で区別可能に表示させることができ、より有効な先行技術文献を素早く発見することが出来ると共に、スコア順にソートされた文献を上から見ていくことで、キーワードや特許分類の組み合わせでクエリを考案する手間が減って、特許審査と特許無効調査をより効率よく行うことが可能となる。 As a result, a large number of documents can be displayed in some way to distinguish them according to their scores, and more effective prior art documents can be quickly discovered, and documents sorted by score can be viewed from above. By doing so, the time and effort required to devise queries based on combinations of keywords and patent classifications is reduced, making it possible to perform patent examinations and patent invalidity searches more efficiently.
なお、入力領域31で強調処理された部分のみを、入力領域31とは別に一致点表示領域34として表示する構成としてもよい。これにより、一致点を一文として眺めることができ、どこか重要な構成で一致していない部分があるかを、文献の調査者が精査しやすくなる。
Note that a configuration may be adopted in which only the highlighted portion of the input area 31 is displayed as the matching
「一致指標○」として、前述した「YES」トークンの数COUNTyes(OUTi)に基づいて並べ替える他、プリアンブルが全て「YES」である文献だけ(COUNTyes(OUTi(プリアンブル))==COUNT(OUTi(プリアンブル)))を表示対象とし、そのうち、残りの部分が「YES」である数(COUNTyes(OUTi(notプリアンブル))で並べ替えを行う等、複数のCOUNT条件を用いて並べ替えを行ってもよいし、複数のCOUNT条件に重みづけして足し合わせるなどした、総合的なCOUNTスコアに基づいて並べ替えを行ってもよい。なお、「YES」トークンの数COUNTyes(OUTi)をそのまま用いるだけでなく、何らかの形で正規化したCOUNTyes(OUTi)を用いてもよい。 As a "match index ○", in addition to sorting based on the number of "YES" tokens COUNTyes (OUTi) mentioned above, only documents whose preambles are all "YES" (COUNTyes (OUTi (preamble)) ==COUNT (OUTi ( Even if you sort using multiple COUNT conditions, such as sorting by the number whose remaining part is "YES" (COUNTyes(OUTi(not preamble))) Alternatively, you can sort based on the overall COUNT score, such as adding weights to multiple COUNT conditions.In addition, you can simply use the number of "YES" tokens COUNTyes (OUTi) as is. Instead, COUNTyes (OUTi) normalized in some way may be used.
強調表示については、色の種別、濃さで表現してもよいし、色に代えて、記号等で表現してもよい。また、文字のフォントを変更してもよく、文字の太さを変更してもよく、下線等を追加する等の何らかの文字飾りをつける等、一般的に使われる何らかのフォントの変更を適用してもよい。また、文字にアニメーションをつけてもよい。 Highlighting may be expressed by color type and density, or by symbols etc. instead of color. You may also change the font of the text, change the thickness of the text, add some kind of text decoration such as adding an underline, or apply some commonly used font changes. Good too. You can also add animation to the characters.
アテンション機構を利用している場合、マウスオーバした入力領域31側のトークンに対応した、引用文献表示領域32側のトークンの色を特に強調してもよいし、引用文献表示領域32側の記載をマウスオーバして、入力領域31、側の対応箇所の色を特に強調してもよい。これにより、トークン単位でどの部分が一致しているか人が精査しやすくなる。色の強調については、複数のアテンションヘッドの出力のそれぞれに対応して複数色を用いてもよいし、アテンションヘッドの平均と関連付けた一色を用いてもよい。 When using the attention mechanism, the color of the token on the cited document display area 32 side that corresponds to the token on the input area 31 side that is moused over may be particularly emphasized, or the description on the cited document display area 32 side may be highlighted. The color of the corresponding part on the input area 31 side may be particularly emphasized by hovering over the mouse. This makes it easier for people to examine which parts of each token match. Regarding color enhancement, a plurality of colors may be used corresponding to each of the outputs of a plurality of attention heads, or a single color associated with the average of the attention heads may be used.
人手で着色/元の色に戻した結果に基づいて、後述する文献一覧表示領域33の並び順を再び変更してもよい。なお、人手で着色/元の色に戻した部分については、出力対象トークン列OUTiについて、着色した部分をYES、元の色に戻した部分をNOに変更する。そして、人手で着色/元の色に戻した結果を反映した出力対象トークン列OUTi’を用いて、COUNTyes(OUTi’)の値から、再び、後述する文献一覧表示領域33の並び順を再び変更する。これにより、人手で精査した結果を反映した、さらに高精度の並べ替えが可能となる。また、人手で着色/元の色に戻した結果を保存しておき、学習データとして用いることで、対比の精度をさらに精度を上げることが可能となる。例えば、人が着色/元の色に戻した結果を、不図示のクラウドサーバに蓄積し、請求項文CLMnと、特許文献PDmと、人が着色/元の色に戻した結果を反映した出力対象トークン列OUTi’’を、新たな学習データの少なくとも一部に含まれるようにして、定期的にBERTモデルの再ファインチューニングを行うことで精度を向上させる。 Based on the result of manually coloring/returning to the original color, the arrangement order of the document list display area 33, which will be described later, may be changed again. Note that for the parts that have been manually colored/restored to the original color, the colored parts are changed to YES and the parts restored to the original color are changed to NO for the output target token string OUTi. Then, using the output target token string OUTi' that reflects the result of manually coloring/returning to the original color, the arrangement order of the document list display area 33, which will be described later, is changed again from the value of COUNTyes (OUTi'). do. This enables even more accurate sorting that reflects the results of manual scrutiny. Furthermore, by saving the results of manually coloring/returning to the original color and using it as learning data, it is possible to further improve the accuracy of comparison. For example, the result of coloring/returning to the original color by a person is stored in a cloud server (not shown), and the claim statement CLMn, patent document PDm, and an output reflecting the result of coloring/returning to the original color by the person. The target token sequence OUTi'' is included in at least a part of the new learning data, and the BERT model is periodically fine-tuned to improve accuracy.
<6.文書検索システムへの応用>
図7は、調査支援システム100を応用した文書検索システムを示す図である。
<6. Application to document search system>
FIG. 7 is a diagram showing a document search system to which the research support system 100 is applied.
同図において、本願保持部41は、検索対象となる特許出願の請求項、明細書、図面を保持する。文書変換部42は、図1の調査支援システム100における判定部101に相当する。
In the figure, a patent application holding unit 41 holds claims, specifications, and drawings of patent applications to be searched. The document conversion unit 42 corresponds to the
複数のデータベース43は、特許文献や非特許文献のデータベースであって、検索クエリによる検索やその他の文献選別方法に基づいて、データベース43に保持されているデータから特定の文献データを抽出し、文書変換部42に、少なくとも一部の文献を提供する。 The plurality of databases 43 are databases of patent documents and non-patent documents, and specific document data is extracted from the data held in the database 43 based on a search using a search query or other document selection methods. The converter 42 is provided with at least some documents.
クエリ自動構築部44は、文書変換部42に入力される請求項と、図1に示す変換部14の出力結果とから、新たに文書変換部42に入力する編集された請求項(以下「編集済み請求項クエリ」という)を生成する。結果保持部45は、図1の変換部14の出力結果を保持する。総合出力部46は、結果保持部45の結果から、出力結果を作成する。 The automatic query construction unit 44 generates an edited claim (hereinafter referred to as “edited claim”) that is newly input to the document conversion unit 42 from the claim input to the document conversion unit 42 and the output result of the conversion unit 14 shown in FIG. Generate a completed claims query The result holding unit 45 holds the output result of the converting unit 14 in FIG. The comprehensive output unit 46 creates an output result from the result of the result holding unit 45.
本願保持部41は、検索対象となる特許出願の請求項を編集し、または、編集せずに、文書変換部42に入力する。編集の方法としては、請求項Aを検索する際、請求項Bが請求項Aを引用するとして、例えば、(1)AとBを接続詞等で繋げて1文とする。(2)Bに「○○に代えて、××を用いることを特徴とする」との記載があれば、A内の○○を、××に置換した請求項を作成する。(3)「○○、△△、または、××」との記載があれば、Aについて、3つの構成をそれぞれ含む3文にする。(4)明細書内の課題等を抜き出してAに付加した文にする。(5)図面から自動生成したキャプション文をA内の発明特定事項に付加する等、様々な方法が考えられる。 The present application holding unit 41 edits the claims of the patent application to be searched or inputs them to the document converting unit 42 without editing them. As an editing method, when searching for claim A, assuming that claim B cites claim A, for example, (1) connect A and B with a conjunction or the like to form one sentence. (2) If B contains the statement "characterized by using XX in place of XX," create a claim in which XX in A is replaced with XX. (3) If there is a description of “○○, △△, or ××”, write three sentences for A that include each of the three structures. (4) Extract issues, etc. from the specification and add them to A. (5) Various methods can be considered, such as adding a caption automatically generated from the drawing to the invention specifying matter in A.
文書変換部42は、入力された請求項、または、編集済み請求項クエリと、文献保持部12の内容に基づいて、出力結果を出力する。複数のデータベース43は、既存の検索方法である、キーワード検索、IPCやFI等の分類検索、または、概念検索等の結果を少なくとも1つ以上組み合わせて、データベース内の特許文献を選別し、または、その他の文献の選別方法に基づいて、図1に係る文献保持部12に、少なくとも一部の文献を提供し、または、全ての文献を提供する。 The document conversion unit 42 outputs an output result based on the input claim or edited claim query and the contents of the document holding unit 12. The plurality of databases 43 select patent documents in the database by combining at least one or more results of existing search methods such as keyword search, classification search such as IPC or FI, or concept search, or Based on another document selection method, at least some documents or all documents are provided to the document holding unit 12 according to FIG.
クエリ自動構築部44は、1つ目の文献に対して、一致点と相違点を機械的に判定するために、本願保持部41の請求項をそのまま文書変換部42に受け渡すか、1つ目の文献で相違点が埋まらなかった際に、相違点を埋めるための新たな文献を提示するために、結果保持部45のデータを参照して、文書変換部42に渡す新しい請求項を構築する。例えば、下記の(1)~(4)の通りである。 The automatic query construction unit 44 passes the claims in the main application holding unit 41 to the document conversion unit 42 as they are, or converts them into one In order to present a new document to fill in the discrepancies when the discrepancy cannot be covered by the second document, a new claim is constructed to be passed to the document conversion unit 42 by referring to the data in the result holding unit 45. do. For example, (1) to (4) below.
(1)出力対象トークン列OUTiで「YES」の部分は、既に検索済みであり、請求項と対象文献との一致点であるとして、残りの相違点を探すために、次に文書変換部42に入力する編集済み請求項クエリを、OUTiで「NO」に対応するトークンだけにする。その際、文書が不自然にならないように、1単語中の特定のトークンだけが「YES」の場合も、正しい単語の形を維持するために、当該特定のトークンに対応するOUTi中のトークンを「NO」とみなして、請求項クエリに含めたり、文法構造がおかしくならないように、ルールベース/機械学習に基づいて、助詞等も請求項クエリに含めたりしてもよい。 (1) The "YES" part in the output target token string OUTi has already been searched and is a match between the claim and the target document. Next, in order to search for the remaining differences, the document conversion unit 42 The edited claim query entered in OUTi should contain only tokens that correspond to "NO" in OUTi. At that time, in order to prevent the document from becoming unnatural, even if only a specific token in one word is "YES", in order to maintain the correct word form, the token in OUTi that corresponds to the specific token is It may be considered as "NO" and included in the claim query, or particles etc. may be included in the claim query based on rule base/machine learning so as not to make the grammatical structure strange.
(2)さらに(1)に加えて、検索対象をより適切にするために、単語を適宜上位概念化してもよい。例えば、請求項クエリ内の「携帯電話」を、機械学習等を用いて作成した類義語辞書を用いて、「無線通信機器」に変換して、上位概念化してもよい。 (2) Furthermore, in addition to (1), words may be made into higher-level concepts as appropriate in order to make the search target more appropriate. For example, "mobile phone" in a claim query may be converted into "wireless communication device" using a synonym dictionary created using machine learning or the like, and then converted into a higher-level concept.
(3)さらに(1)に加えて、係り受け関係がおかしくならないように、係り受け元が「NO」に対応するトークンの場合は、係り受け先が「YES」に対応するトークンであったとしても、当該特定のトークンに対応するOUTi中のトークンを「NO」とみなして、請求項クエリに含めてもよい。 (3) In addition to (1), in order to prevent the dependency relationship from becoming strange, if the dependency source is a token that corresponds to "NO", it is assumed that the modification destination is a token that corresponds to "YES". The token in OUTi corresponding to the specific token may also be considered as "NO" and included in the claim query.
(4)さらに(1)に加えて、特許文献PDmについても、請求項クエリと内容的に一致するトークンに対応するトークンを「YES」として、それ以外を「NO」として出力対象トークン列OUTiに含めている場合、「YES」に対応するトークンの発明の課題、構成、分野について、請求項クエリに含めてもよい。なお、クエリ自動構築部44で作成したクエリについては、人手で修正してもよい。 (4) In addition to (1), regarding the patent document PDm, the tokens corresponding to the tokens that match the claim query in content are set as "YES", and the others are set as "NO", and the output target token string OUTi is set. If included, the problem, structure, and field of the invention of the token corresponding to "YES" may be included in the claim query. Note that the query created by the automatic query construction unit 44 may be modified manually.
結果保持部45は、出力対象トークン列OUTiと、「YES」トークンの数COUNTyes(OUTi)を過去N回の検索時の分までさかのぼって保持している。総合出力部46は、結果保持部45の結果から、出力結果を作成する。例えば、N-1回目の検索時の文献PD1に対して、残りの相違点を探すための編集済み請求項クエリによるN回目の検索時の文献PD2について、文献PD1に対応する請求項トークン集合と、文献PD2に対応する請求項トークン集合について、同じインデックスのトークンのどちらか一方が「YES」であれば、文献PD1~2の合成請求項トークン集合の同じインデックスのトークンは「YES」であるとみなし、合成請求項トークン集合の「YES」トークンの数COUNTyes(OUTi)が高い順に、複数の文献の組み合わせを、ランキングして出力する。 The result holding unit 45 holds the output target token string OUTi and the number of "YES" tokens COUNTyes (OUTi) dating back to the past N searches. The comprehensive output unit 46 creates an output result from the result of the result holding unit 45. For example, for document PD1 at the N-1st search, document PD2 at the N-time search using an edited claim query to search for remaining differences is determined by the claim token set corresponding to document PD1. , if one of the tokens with the same index is "YES" for the claim token set corresponding to document PD2, then the tokens with the same index in the composite claim token set of documents PD1-2 are "YES". Combinations of multiple documents are ranked and output in descending order of the number of "YES" tokens COUNTyes (OUTi) in the deemed and combined claim token set.
なお、総合出力部46は、N-1回目の検索時の文献PD1に対して、残りの相違点を探すための編集済み請求項クエリのうち、どこが技術常識であるのか別途判断し、さらに残った部分に対して、相違点を探すために請求項クエリを編集して、N回目の検索を行ってもよい。そして、合成請求項トークンのうち、技術常識、または、周知技術であると判定された部分を「YES」と出力する。 In addition, the comprehensive output unit 46 separately determines which parts of the edited claim query for searching for remaining differences are common general technical knowledge for the document PD1 at the time of the N-1st search, and The Nth search may be performed by editing the claim query to search for differences. Then, among the composite claim tokens, a portion determined to be common technical knowledge or well-known technology is output as "YES".
これにより、発明との相違点を直接認定して、相違点に対して、適用すべき他の引用発明を提示するため、再検索をするステップと、引用発明を認定・対比するステップを省略、または、それぞれの結果に修正を加えることで、省力化することができ、特許審査と特許無効調査をさらに効率よく行うことが可能となる。 As a result, in order to directly identify differences with the invention and suggest other cited inventions that should be applied to the differences, the steps of re-searching and identifying and comparing cited inventions can be omitted. Alternatively, by making corrections to each result, it is possible to save labor and to perform patent examination and patent invalidation search more efficiently.
クエリ自動構築部44は、請求項クエリの再編集の際、出力対象トークン列OUTiと、「YES」トークンの数COUNTyes(OUTi)を、人手、または、アルゴリズムで編集したものを用いてもよい。 When re-editing the claim query, the automatic query construction unit 44 may use the output target token string OUTi and the number of "YES" tokens COUNTyes (OUTi) edited manually or using an algorithm.
合成請求項トークンについては、N-1回目の検索時の文献を分割したPD1kの集合とN回目の検索時の文献を分割したPD2kの集合について、当該トークンの左右に何個のトークンが存在するかをスコア化して、スコアに基づいて信頼度を算出し、信頼度に基づいて、「YES」と「NO」の数をスコア化して、スコアに基づいて、合成請求項トークンがYES/NOであるかを判定してもよく、PD1とPD2で判定が異なっているトークンについて、「YES(判断保留)」という新たなトークンを出力してもよく、ルールベース・機械学習でYES/NOを決定してもよい。 For a composite claim token, how many tokens exist on the left and right of the token in the set of PD1k obtained by dividing the document at the N-1st search and the set of PD2k obtained by dividing the document at the N-th search? and calculate the confidence level based on the score; based on the confidence level, score the number of “YES” and “NO”; and based on the score, calculate whether the synthetic claim token is YES/NO. It may be determined whether there is a token, or a new token called “YES (judgment pending)” may be output for tokens with different judgments between PD1 and PD2, and YES/NO is determined by rule-based machine learning. You may.
総合出力部46で、技術常識を別途判断することについては、(1)トークンに分割された請求項を入力し、トークンのとある部分が技術常識、または、周知技術であると判断されたかを出力する技術常識判定システム1を適用することによって行ってもよいし、(2)トークンに分割された請求項のうち、技術常識、または、周知技術であるか否かを判定したいトークンの部分集合を入力し、当該部分集合が、技術常識、または、周知技術であるか否かを2値で判断する技術常識判定システム2を用いてもよい。これらの技術常識判定システムについては、既存の言語理解モデルを用いて構成してよい。
To separately determine common general knowledge in the general output unit 46, (1) input a claim divided into tokens, and check whether a certain part of the token is determined to be common knowledge or well-known art; This may be done by applying the common general
合成請求項トークンのうち、「YES(判断保留)」という新たなトークンを出力してもよく、ルールベース・機械学習でYES/NOを決定してもよい。 Among the composite claim tokens, a new token "YES (determination pending)" may be output, or YES/NO may be determined by rule-based machine learning.
図8は、文書検索システムの画面インタフェースを例示する図である。図6の説明で既に述べた部分は省略する。 FIG. 8 is a diagram illustrating a screen interface of the document search system. The parts already described in the explanation of FIG. 6 will be omitted.
入力領域51には、特許審査対象、または、特許無効調査対象の請求項が入力され、引用文献表示領域52には、現在選択している引用文献の少なくとも一部分が表示され、文献一覧表示領域53には、文献一覧が表示されている。この他、文書変換処理に先立ち、特許文献PDmの集合を作るために、キーワードや、IPC、FI等を入力するテキストボックスと、検索ボタンが存在していてもよい。
In the input area 51, a claim to be the subject of patent examination or patent invalidity search is input, in the cited document display area 52 at least a part of the currently selected cited document is displayed, and in the document
入力領域51には、請求項が表示され、当該請求項の記載のうち、引用文献表示領域52a~b内の文書の記載と内容的に一致する部分に対応した部分の色が変更されている(強調処理)。なお、請求項の記載のうち、引用文献表示領域52a~bに対応した内容をそれぞれ別の色に変更してもよく、前述の技術常識判定システムで、技術常識、または、周知技術であると判断された部分を別の色に変更してもよい。 A claim is displayed in the input area 51, and the color of the part corresponding to the part of the description of the claim that matches the description of the document in the cited document display areas 52a to 52b is changed. (emphasis processing). Note that among the claims, the contents corresponding to the cited document display areas 52a to 52b may be changed to different colors. The determined portion may be changed to a different color.
引用文献表示領域52aには、選択された引用文献の少なくとも一部分が表示され、文献の記載のうち、入力領域51内の文書の記載と内容的に一致する部分に対応した部分の色が変更されている。また、引用文献表示領域52bには、選択された他の引用文献の少なくとも一部分が表示され、文献の記載のうち、入力領域51内の文書の記載と内容的に一致する部分に対応した部分の色が変更されている。
At least a portion of the selected cited document is displayed in the cited document display area 52a, and the color of the portion of the document description that corresponds to the content of the document description in the input area 51 is changed. ing. In addition, at least a portion of another selected cited document is displayed in the cited
文献一覧表示領域53には、対象となる特許文献一覧が組み合わせとして表示されており、例えば、主引例Y1と副引例Y2の順に表示されている。文献一覧表示領域53において、文献を選択することで、引用文献表示領域52a~bが、Y1、Y2に対応した文献に変更される。ここで、一行に表示される文献は、1つであってもよいし、複数の組み合わせであってもよい。
In the document
文献一覧表示領域53の特許文献一覧は、前述した合成請求項トークン集合の「YES」トークンの数COUNTyes(OUTi)が高い順に基づいて並べ替えられており、より本願発明と複数の引用文献に記載の引用発明とがより一致しているものから、順に引用文献の組み合わせを精査していくことができる。
The list of patent documents in the document
これにより、発明との相違点を直接認定して、相違点に対して、適用すべき他の引用発明を提示するため、再検索をするステップと、引用発明を認定・対比するステップを省略、または、それぞれの結果に修正を加えることで、省力化することができ、特許審査と特許無効調査をさらに効率よく行うことが可能となる。 As a result, in order to directly identify differences with the invention and suggest other cited inventions that should be applied to the differences, the steps of re-searching and identifying and comparing cited inventions can be omitted. Alternatively, by making corrections to each result, it is possible to save labor and to perform patent examination and patent invalidation search more efficiently.
引用文献表示領域52の数は、同時に表示すべき引用文献の数によって、増やしてもよいし、選択的に表示可能にしてもよい。これによって、ユーザが見やすい数の任意の引用文献を表示することが可能となる。 The number of cited documents display areas 52 may be increased depending on the number of cited documents to be displayed simultaneously, or may be made selectively displayable. This makes it possible to display any number of cited documents that are easy for the user to view.
「一致指標○」として、前述した「YES」トークンの数COUNTyes(OUTi)に基づいて並べ替える他、「YES」トークンの数COUNTyes(OUTi)をそのまま用いるだけでなく、何らかの形で正規化したCOUNTyes(OUTi)を用いてもよい。また、COUNTyes(OUTi)の複数の指標を「一致指標○」として、文献一覧表示領域33に同時に表示し、「一致指標○」の欄をクリックすることで、当該指標に基づいて、文献を再び並び替えてもよい。 As the "match index ○", in addition to sorting based on the number of "YES" tokens COUNTyes (OUTi) mentioned above, not only using the number of "YES" tokens COUNTyes (OUTi) as is, but also normalizing COUNTyes in some way (OUTi) may also be used. Also, by simultaneously displaying multiple indicators of COUNTyes (OUTi) as "matching index ○" in the document list display area 33, and clicking the "matching index ○" column, the documents can be displayed again based on the relevant index. May be rearranged.
入力領域51で強調処理された部分のみを、入力領域51とは別に一致点表示領域54として表示する構成としてもよい。
It may be configured such that only the highlighted portion of the input area 51 is displayed as the matching
学習データとしては、審決公報や拒絶理由通知、検索事業者の調査報告書を用いてもよい。 As the learning data, trial decision bulletins, notices of reasons for refusal, and search reports of search companies may be used.
<7.調査支援システムの動作>
次に、図1に記載の調査支援システム100の具体的動作について説明する。
図9および図10は、調査支援システム100の動作を示す流れ図である。
以下、同図に示すステップ番号に沿って説明する。
<7. Operation of investigation support system>
Next, the specific operation of the investigation support system 100 shown in FIG. 1 will be explained.
9 and 10 are flowcharts showing the operation of the investigation support system 100.
The steps will be explained below in accordance with the step numbers shown in the figure.
ステップS01: 調査支援システム100は、不図示の特許文献などのデータベースにアクセスし、特許文献(以下「参照文」という)の集団をプレサーチにより適当な標本数まで絞り込む。絞り込まれた参照文の集団は、文献保持部12に入力される。 Step S01: The research support system 100 accesses a database of patent documents (not shown) and narrows down the group of patent documents (hereinafter referred to as "reference sentences") to an appropriate number of samples by pre-search. The group of reference sentences that have been narrowed down is input to the literature holding unit 12.
ステップS02: 文献保持部12は、入力された参照文を一件ずつトークン単位に分解し、前処理部13へ出力する。請求項保持部11は、文献調査の対象である請求項(以下「対象文」という)を取り込んで、トークン単位に分解し、前処理部13へ出力する。前処理部13は、対象文のトークン群と、1文書分の参照文のトークン群とを前後に連結して、入力対象トークン列INiを生成し、変換部14へ出力する。なお、対象文のトークン群と、参照文のトークン群を一度にどの程度入力対象トークン列INiとするかについては、適宜変更してよい。 Step S02: The document holding unit 12 decomposes the input reference sentences into tokens one by one and outputs them to the preprocessing unit 13. The claim holding unit 11 takes in a claim (hereinafter referred to as a “target sentence”) that is the subject of a literature search, breaks it down into token units, and outputs it to the preprocessing unit 13 . The preprocessing unit 13 generates an input target token string INi by concatenating the token group of the target sentence and the token group of the reference sentence of one document back and forth, and outputs it to the conversion unit 14. Note that how many of the target sentence token group and the reference sentence token group are included in the input target token string INi at one time may be changed as appropriate.
ステップS03: 変換部14は、言語理解モデル15の入力に入力対象トークン列INiを与える。言語理解モデル15においては、対象文と参照文を比較して、対象文のトークンのうち、参照文に記載されている部分を一致点と判定し、その結果を出力対象トークン列OUTiとして出力する。
Step S03: The conversion unit 14 provides the input target token string INi to the input of the
ステップS04: 入力部103は、この出力対象トークン列OUTiを、トークン単位の一致点に関する情報として取得する。表示制御部106は、この情報に基づいて、一致点を判別可能にした画面インタフェースを生成して、入力領域31(図6参照)に表示する。 Step S04: The input unit 103 acquires this output target token string OUTi as information regarding matching points in token units. Based on this information, the display control unit 106 generates a screen interface that allows matching points to be determined, and displays it in the input area 31 (see FIG. 6).
ステップS05: ランキング部104は、対象文に占める一致点の数、割合、または位置に応じた重み付け評価値に基づいて、参照文の主引例としての適格性を評価する。
Step S05: The ranking
ステップS06: ランキング部104は、文献保持部12が保持する参照文の全てについて適格性の評価が完了した場合、ステップS07に動作を移行する。それ以外の場合、残りの参照文について処理を行うため、ランキング部104は、ステップS02に動作を戻す。
Step S06: If the
ステップS07: ランキング部104は、適格性が上位の参照文についてランキングを作成する。
Step S07: The ranking
ステップS08: 表示制御部106は、ランキング部104が作成したランキングに基づいて、適格性のランキング順位が判別可能になる画面インタフェースを生成して、文献一覧表示領域33(図6参照)に表示する。
Step S08: The display control unit 106 generates a screen interface that makes it possible to determine the ranking order of eligibility based on the ranking created by the
ステップS09: 表示制御部106は、ランキング1位またはユーザ選択された順位の参照文を主引例の候補に選択する。 Step S09: The display control unit 106 selects the reference sentence ranked first in the ranking or the rank selected by the user as a candidate for the main reference example.
ステップS10: 表示制御部106は、主引例の候補について、一致点を判別可能にした画面インタフェースを生成して、入力領域31(図6参照)に改めて表示する。 Step S10: The display control unit 106 generates a screen interface that allows matching points to be determined for the main reference example candidates, and displays the screen interface again in the input area 31 (see FIG. 6).
ステップS11: ここでユーザ端末(図1参照)において主引例を変更する操作がなされた場合、表示制御部106はステップS09に動作を戻すことにより、主引例の候補変更を受け付ける。一方、ユーザ端末(図1参照)において主引例を確定する操作がなされた場合(または変更する操作がなされない場合)、表示制御部106はステップS21に動作を移行する。 Step S11: If an operation is performed to change the main reference example on the user terminal (see FIG. 1), the display control unit 106 returns the operation to step S09 to accept the change of the main reference example candidate. On the other hand, if the user terminal (see FIG. 1) performs an operation to confirm the primary reference example (or does not perform an operation to change it), the display control unit 106 shifts the operation to step S21.
ステップS21: 相違点抽出部105は、確定された主引例との一致点を対象文から除いて、トークン単位の相違点を抽出する。 Step S21: The difference extraction unit 105 removes points that match the determined main reference example from the target sentence, and extracts differences in units of tokens.
ステップS22: 相違点抽出部105は、トークン単位の相違点に対して、前方後方のトークンを連結して文節または文章などの言語単位の相違点を生成する。この処理により、相違点は、文節や文章のように文意がつながり、言語理解が可能なものになる。したがって、相違点を言語理解モデル15において文意を含めて処理することが可能になる。
Step S22: The difference extracting unit 105 connects the front and rear tokens with respect to the differences in token units to generate differences in language units such as clauses or sentences. Through this processing, the differences become connected in meaning, like clauses or sentences, and the language becomes understandable. Therefore, it becomes possible to process differences including sentence meaning in the
ステップS23: 相違点抽出部105は、相違点に対して、主引例の課題、技術分野、および機能および作用の少なくとも1つの論理付け要素を追加する。この処理により、後述する副引例の検索では、主引例と課題、技術分野、機能および作用の少なくも1つが共通する副引例を検索することが可能になる。このような副引例は、主引例と組み合わせる一応の論理付けが可能になるため、副引例としての適格性が高くなる。 Step S23: The difference extraction unit 105 adds at least one logical element of the problem, technical field, and function and action of the main cited example to the difference. By this processing, in searching for sub-citations to be described later, it becomes possible to search for sub-citations that have at least one of the same problem, technical field, function, and action as the main citation. Such sub-citations can be logically combined with the main citation, making them more suitable as sub-citations.
ステップS24: 相違点抽出部105は、相違点を請求項保持部11へ出力する。前処理部13は、相違点のトークン群と、一件分の参照文のトークン群とを前後に連結して、入力対象トークン列INiを生成し、変換部14へ出力する。変換部14は、言語理解モデル15の入力に入力対象トークン列INiを与える。言語理解モデル15は、相違点と参照文との一致点をトークン単位に示す出力対象トークン列OUTiを出力する。ランキング部104は、相違点に占める一致点の数、割合、または位置に応じた重み付け評価値に基づいて、参照文の副引例としての適格性を評価する。
Step S24: The difference extraction unit 105 outputs the difference to the claim holding unit 11. The preprocessing unit 13 generates an input target token sequence INi by concatenating the token group of differences and the token group of one reference sentence back and forth, and outputs it to the conversion unit 14. The conversion unit 14 provides the input target token string INi to the input of the
ステップS25: ランキング部104は、文献保持部12が保持する参照文の全てについて適格性の評価が完了した場合、ステップS26に動作を移行する。それ以外の場合、残りの参照文について処理を行うため、ランキング部104は、ステップS24に動作を戻す。
Step S25: When the
ステップS26: ランキング部104は、副引例としての適格性が上位の参照文についてランキングを作成する。表示制御部106は、ランキング部104が作成したランキングに基づいて、適格性のランキング順位が判別可能になる画面インタフェースを生成して、図6と同様の画面に表示する。
Step S26: The ranking
ステップS27: 表示制御部106は、ランキング1位またはユーザ選択された順位の参照文を副引例の候補に選択する。 Step S27: The display control unit 106 selects the reference sentence ranked first in the ranking or the rank selected by the user as a candidate for the sub-citation.
ステップS28: 表示制御部106は、主引例の候補について、一致点を判別可能にした画面インタフェースを生成して、図6と同様の画面に表示する。 Step S28: The display control unit 106 generates a screen interface that allows matching points to be determined for the main citation example candidates, and displays it on a screen similar to that shown in FIG.
ステップS29: ここでユーザ端末(図1参照)において副引例を変更する操作がなされた場合、表示制御部106はステップS27に動作を戻すことにより、副引例の候補変更を受け付ける。一方、ユーザ端末(図1参照)において副引例を確定する操作がなされた場合(または変更する操作がなされない場合)、表示制御部106はステップS30に動作を移行する。 Step S29: If an operation to change the sub-citation is performed on the user terminal (see FIG. 1), the display control unit 106 returns the operation to step S27 to accept the change of the sub-citation candidate. On the other hand, if the user terminal (see FIG. 1) performs an operation to confirm the sub-citation (or does not change the sub-citation), the display control unit 106 shifts the operation to step S30.
ステップS30: 相違点抽出部105は、確定された副引例との一致点を相違点から除いて、新たな相違点を生成する。 Step S30: The difference extracting unit 105 generates a new difference by excluding points that match the confirmed sub-citation from the differences.
ステップS31: ここでユーザ端末(図1参照)において副引例の検索を継続する操作がなされた場合、表示制御部106はステップS22に動作を戻すことにより、さらなる副引例の検索を続行する。一方、ユーザ端末(図1参照)において副引例の検索を完了する操作がなされた場合(または継続する操作がなされない場合)、表示制御部106は動作を完了する。
上述した一連の動作により、調査支援方法が実行される。
Step S31: If an operation to continue searching for sub-citations is performed on the user terminal (see FIG. 1), the display control unit 106 returns the operation to step S22 to continue searching for further sub-citations. On the other hand, if the user terminal (see FIG. 1) performs an operation to complete the sub-citation search (or does not continue the search), the display control unit 106 completes the operation.
The investigation support method is executed through the series of operations described above.
<8.実施例の効果>
以下、上述した実施例の効果について説明する。
<8. Effects of Examples>
Hereinafter, the effects of the above-described embodiment will be explained.
(1)実施例では、対象文と参照文との一致点に関する情報に基づいて、一致点を判別可能にする画面処理を加えた表示画面を生成して表示可能にする。したがって、文献の調査者に、対象文と参照文の一致点を把握させることが可能になる。 (1) In the embodiment, a display screen is generated and made displayable based on information regarding the matching points between the target sentence and the reference sentence, with screen processing added to make it possible to determine the matching points. Therefore, it becomes possible for a literature researcher to grasp the points of agreement between the target sentence and the reference sentence.
(2)実施例では、トークン単位に一致点に関する情報を求める。そのため、文章や段落や文や文節といった単位よりも細かい粒度で一致点を判定することが出来るため、文節単位で請求項と引用例との一致判定する場合よりも、どの構成要件が相違しているか具体的にユーザに提示することが可能となる。 (2) In the embodiment, information regarding matching points is obtained for each token. Therefore, it is possible to determine matching points at a finer level of granularity than in units such as sentences, paragraphs, sentences, and clauses, which makes it possible to determine which constituent features are different than when determining the match between a claim and a cited example in units of clauses. It becomes possible to specifically present to the user whether the
(3)実施例では、単純なキーワードマッチングではなく、ニューラル言語理解モデルを使って、文の一致を判定するので、単語の分散表現によって類義語を考慮し、ニューラル言語理解モデルによってエンド・トゥー・エンドの学習で獲得した文の品詞や統語構造、単語の関係性等を考慮した、より精緻な一致点の判定を行うことが出来る。例えば、単にトークン対トークンという一致点だけでなく、トークンの前後方向に共起する他のトークンの出現傾向に基づいて同綴異義語を区別するなどが可能になるため、例えば、同綴異義語を区別した一致点の判定が可能になる。 (3) In the example, a neural language understanding model is used to determine the match between sentences, rather than simple keyword matching, so synonyms are considered using the distributed representation of words, and end-to-end analysis is performed using the neural language understanding model. It is possible to perform more precise matching points by taking into account the parts of speech, syntactic structure, word relationships, etc. of sentences acquired through learning. For example, it is possible to distinguish homographs not only based on the coincidence of tokens, but also based on the tendency of other tokens that co-occur in the front and back directions of the tokens. It becomes possible to determine matching points by distinguishing between them.
(4)実施例では、対象文に占める一致点の数、割合、または、一致点に基づいた評価値に応じて、対象文に対する参照文の主引例としての適格性を評価する。そのため、複数の参照文を主引例の候補として、どの参照文が主引例として適格であるかを比較することが可能になる。また、単純に検索ランキングを用いる場合と異なり、対象文に占める一致点に基づいて適格性の評価を行っていることから、当該参照文がどうして適格性が高いかの根拠について、一致点を具体的に表示することでユーザに提示することが可能となり、ユーザが、適格性が高い根拠を評価した上で利用することが可能となる。 (4) In the embodiment, the suitability of a reference sentence to a target sentence as a main citation example is evaluated according to the number and proportion of matching points in the target sentence, or an evaluation value based on the matching points. Therefore, it becomes possible to use a plurality of reference sentences as main reference examples and compare which reference sentences are suitable as main reference examples. In addition, unlike when simply using search rankings, eligibility is evaluated based on the match points in the target sentence, so it is possible to evaluate the match points in detail as to why the reference sentence is highly qualified. By displaying the information in a transparent manner, it becomes possible to present the information to the user, and the user can utilize the information after evaluating the basis for its high suitability.
(5)実施例では、一致点について対象文の中の出現箇所に応じた重み付けを行って評価値を求める。例えば、特許の請求項のように所定の書式に従って作成された対象文の場合、特徴を示す重要部分を対象文の中の出現箇所に応じて選別できる。そこで、対象文の中で、重要部分に出現した一致点については評価の重みを強め、非重要部分に出現した一致点については評価の重みを弱めることにより、主引例として適格か否かを重要度も加味して判定することが可能になる。 (5) In the embodiment, the evaluation value is determined by weighting the matching points according to their appearance in the target sentence. For example, in the case of a target sentence created according to a predetermined format such as a claim of a patent, important parts indicating characteristics can be selected according to their appearance in the target sentence. Therefore, by increasing the evaluation weight for matching points that appear in important parts of the target sentence, and weakening the evaluation weight for matching points that appear in unimportant parts, it is possible to determine whether or not they are suitable as main citation examples. This makes it possible to make a judgment taking into account the degree of occurrence.
(6)実施例では、複数の参照文について、主引例としての適格性のランキング順位を判別可能にした表示画面を表示可能にする。したがって、文献の調査者に対して、どの参照文が主引例として適格かを把握させることが可能になる。 (6) In the embodiment, it is possible to display a display screen on which it is possible to determine the ranking order of suitability as a main reference example for a plurality of reference sentences. Therefore, it becomes possible for a literature researcher to grasp which reference sentence is eligible as a main citation.
(7)実施例では、適格性に基づいて参照文の中から選択された主引例に応じて、対象文と主引例の一致点を対象文から除くことにより、相違点を求めることが可能になる。 (7) In the example, it is possible to find points of difference by removing points of agreement between the target sentence and the main reference example from the target sentence according to the main reference example selected from the reference sentences based on eligibility. Become.
(8)実施例では、対象文と主引例との一致点を対象文から除いて、残ったトークンに基づいて、言語単位を対象文から抽出して、相違点とする。したがって、文意を有する単位で相違点を対象文から抽出することが可能になる。 (8) In the embodiment, points of agreement between the target sentence and the main reference example are removed from the target sentence, and based on the remaining tokens, linguistic units are extracted from the target sentence and used as differences. Therefore, it becomes possible to extract differences from the target sentence in units having sentence meaning.
(9)実施例では、相違点の一部または全部と一致する副引例を検索する。したがって、文献の調査者に対し、副引例の検索作業を支援することが可能となる。 (9) In the embodiment, sub-citations that match part or all of the differences are searched. Therefore, it is possible to support literature searchers in searching for sub-citations.
(10)実施例では、相違点に対して、主引例から抽出した課題、技術分野、機能および作用の少なくとも1つの論理付け要素を追加し、主引例の論理付け要素と一致点を有する副引例を検索する。したがって、検索される副引例は、主引例に対して「課題の共通性」、「技術分野の共通性」、「機能や作用の共通性」のいずれかの論理付け要素を有するようになる。このような論理付け要素により、主引例の記載発明に副引例の記載発明を組み合わせる一応の論理付けが成り立つため、特許の進歩性判断などに役立つ副引例を検索することが可能になる。 (10) In the example, at least one logical element of the problem, technical field, function, and action extracted from the main cited example is added to the difference, and the sub cited example has points that match the logical elements of the primary cited example. Search for. Therefore, the sub-citations to be searched have one of the logical elements of "commonality of problem," "commonality of technical field," and "commonality of function or action" with respect to the main citation. Because of such logical elements, it is possible to establish a rationale that combines the invention described in the main citation with the invention described in the sub-citation, so it becomes possible to search for sub-citations that are useful for determining the inventive step of a patent.
(11)実施例では、相違点から副引例との一致点を削減し、残った相違点について副引例の検索を繰り返す。したがって、特許の進歩性判断に役立つ副引例を再帰的に検索することが可能になる。 (11) In the embodiment, points that match the sub-citations are reduced from the differences, and the sub-citation search is repeated for the remaining differences. Therefore, it becomes possible to recursively search for sub-citations that are useful in determining the inventive step of a patent.
(12)実施例では、副引例と、相違点との対応関係を判別可能にした表示画面を生成して表示可能にする。したがって、文献の調査者に対して、どの参照文が副引例として適格かを把握させることが可能になる。 (12) In the embodiment, a display screen is generated and displayed on which the correspondence between sub-citations and differences can be determined. Therefore, it becomes possible for the document searcher to grasp which reference sentences are eligible as subcitations.
(13)実施例では、対象文の表示領域において、一致点に相当する部分を強調表示する画面インタフェースを備える。したがって、文献の調査者に対して、参照文が対象文の中のどの部分と一致したかを容易に把握させることが可能になる。 (13) The embodiment includes a screen interface that highlights portions corresponding to matching points in the target sentence display area. Therefore, it becomes possible for a literature researcher to easily understand which part of the target sentence the reference sentence matches.
(14)実施例では、主引例や副引例の適格性について、判断項目を変更して、ランキングの並べ替えを行うことができる。したがって、文献の調査者は、種々の観点で判断項目を切り替えながら、どの参照文が主引例や副引例として適格かを比較することが可能になる。 (14) In the embodiment, the ranking can be rearranged by changing the judgment items regarding the suitability of the main citations and sub-citations. Therefore, the literature searcher can compare which reference sentences are suitable as main citations and sub-citations while switching judgment items from various viewpoints.
<9.実施例の補足事項>
なお、実施例では、特許審査や特許無効調査を支援する場合について特に説明した。しかしながら、本発明はこれに限定されない。文章間の一致点を判定する用途に広く適用することができる。例えば、論文やレポートの盗用問題や、文章の著作権問題などに対応して、対象文と似たものを検索するなどの用途に適用してもよい。
<9. Supplementary information for examples>
In addition, in the embodiment, the case where support for patent examination and patent invalidation investigation was particularly explained. However, the present invention is not limited thereto. It can be widely applied to determining matching points between sentences. For example, it may be applied to searches for sentences similar to the target sentence in response to plagiarism issues in papers and reports, copyright issues in texts, etc.
また、実施例では、言語理解モデルを使用する場合について特に説明した。しかしながら、本発明はこれに限定されない。例えば、ルールベースや類義語辞書データやカウントベースに基づいて一致点を判定してもよい。 Further, in the embodiment, a case in which a language understanding model is used has been particularly described. However, the present invention is not limited thereto. For example, matching points may be determined based on a rule base, thesaurus dictionary data, or a count base.
また、実施例では、一致点の数や割合や評価値などの適格性の評価について、言語理解モデルの出力後に行う場合について特に説明した。しかしながら、本発明はこれに限定されない。言語理解モデルの内部において適格性を評価し、言語理解モデルの出力の一部として適格性を出力するようにしてもよい。 Further, in the embodiment, the case where the evaluation of suitability such as the number and proportion of matching points and the evaluation value is performed after outputting the language understanding model has been particularly described. However, the present invention is not limited thereto. The suitability may be evaluated within the language understanding model and the suitability may be output as part of the output of the language understanding model.
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。
また、実施例の構成の一部について、他の構成を追加・削除・置換することが可能である。
Note that the present invention is not limited to the above-described embodiments, and includes various modifications. For example, the embodiments described above are described in detail to explain the present invention in an easy-to-understand manner, and the present invention is not necessarily limited to having all the configurations described.
Furthermore, it is possible to add, delete, or replace some of the configurations of the embodiments with other configurations.
11…請求項保持部、12…文献保持部、13…前処理部、14…変換部、15…言語理解モデル、41…本願保持部、42…文書変換部、42…文書変換部、43…データベース、44…クエリ自動構築部、45…結果保持部、46…総合出力部、100…調査支援システム、101…判定部、102…演算部、103…入力部、104…ランキング部、105…相違点抽出部、106…表示制御部 DESCRIPTION OF SYMBOLS 11... Claim holding part, 12... Literature holding part, 13... Preprocessing part, 14... Conversion part, 15... Language understanding model, 41... Main application holding part, 42... Document conversion part, 42... Document conversion part, 43... Database, 44...Query automatic construction section, 45...Result holding section, 46...Comprehensive output section, 100...Investigation support system, 101...Judgment section, 102...Calculation section, 103...Input section, 104...Ranking section, 105...Difference Point extraction section, 106...display control section
Claims (13)
対象文と参照文との一致点に関する情報を取得する入力ステップと、
トークンごとに一致点を判定する言語理解モデルに対して前記対象文および前記参照文を入力し、前記一致点に関する情報を求める判定ステップと、
前記一致点を判別可能にする画面処理を加えた表示画面を生成し、前記表示画面を表示可能にする表示制御ステップと
を備えたことを特徴とする調査支援方法。 A method for a computer system to support literature research, the method comprising:
an input step for obtaining information about points of agreement between the target sentence and the reference sentence;
a determination step of inputting the target sentence and the reference sentence to a language understanding model that determines matching points for each token, and obtaining information regarding the matching points;
An investigation support method comprising the steps of: generating a display screen to which screen processing has been applied to make it possible to determine the matching points, and displaying the display screen.
前記言語理解モデルは、ニューラル言語理解モデルであることを特徴とする調査支援方法。 In the investigation support method according to claim 1 ,
A research support method characterized in that the language understanding model is a neural language understanding model.
前記対象文に占める前記一致点に基づいた評価値に応じて、前記対象文に対する前記参照文の主たる比較対象(以下「主引例」という)としての適格性を評価するランキングステップを備える
ことを特徴とする調査支援方法。 In the research support method according to claim 1 or 2 ,
It is characterized by comprising a ranking step of evaluating the suitability of the reference sentence to the target sentence as a main comparison target (hereinafter referred to as "main reference example") according to an evaluation value based on the matching points in the target sentence. Research support method.
前記ランキングステップは、
前記一致点について前記対象文の中の出現箇所に応じた重み付けを行って前記評価値を求め、前記評価値に応じて前記参照文の前記主引例としての前記適格性を評価する
ことを特徴とする調査支援方法。 In the investigation support method according to claim 3 ,
The ranking step includes:
The evaluation value is obtained by weighting the matching points according to the occurrence location in the target sentence, and the suitability of the reference sentence as the main citation example is evaluated according to the evaluation value. Research support method.
前記表示制御ステップは、
複数の前記参照文について、前記主引例としての前記適格性のランキング順位を判別可能にする画面処理を加えた表示画面を生成し、前記表示画面を表示可能にする
ことを特徴とする調査支援方法。 In the investigation support method according to claim 3 or 4 ,
The display control step includes:
An investigation support method characterized by: generating a display screen that includes screen processing that makes it possible to determine the ranking order of the eligibility as the main citation examples for the plurality of reference sentences, and making the display screen displayable. .
前記適格性に基づいて前記参照文の中から選択された前記主引例に基づいて、前記対象文と前記主引例の前記一致点を前記対象文から除くことにより、相違点を求める相違点抽出ステップを備える
ことを特徴とする調査支援方法。 In the investigation support method according to claim 4 or 5 ,
a difference extraction step of determining differences by removing the matching points between the target sentence and the main reference example from the target sentence based on the main reference example selected from the reference sentences based on the eligibility; An investigation support method characterized by comprising the following.
前記相違点抽出ステップは、
前記対象文と前記主引例との前記一致点を前記対象文から除いた結果、残ったトークンに基づいて言語単位を前記対象文から抽出して、前記相違点とする
ことを特徴とする調査支援方法。 In the investigation support method according to claim 6 ,
The difference extraction step includes:
Research support characterized by extracting linguistic units from the target sentence based on remaining tokens after removing the matching points between the target sentence and the main reference example from the target sentence, and using the linguistic units as the differences. Method.
前記相違点の一部または全部と一致する従たる比較対象(以下「副引例」という)を検索する副引例検索ステップを備える
ことを特徴とする調査支援方法。 In the investigation support method according to claim 6 or 7 ,
A sub-citation search step for searching for a sub-comparison target (hereinafter referred to as "sub-citation") that matches some or all of the differences.
An investigation support method characterized by:
前記相違点抽出ステップは、
前記相違点に対して、前記主引例から抽出した課題、技術分野、機能および作用の少なくとも1つの論理付け要素を追加し、
前記副引例検索ステップは、
前記主引例の前記論理付け要素と前記一致点を有する前記副引例を検索する
ことを特徴とする調査支援方法。 In the investigation support method according to claim 8 ,
The difference extraction step includes:
Adding at least one logical element of the problem, technical field, function, and action extracted from the main cited example to the difference,
The sub-citation search step includes:
An investigation support method, comprising: searching for the sub-citation having the matching point with the logical element of the main citation.
前記相違点抽出ステップは、
前記相違点と前記副引例との一致点を、前記相違点から除き、
前記副引例検索ステップは、
残った前記相違点について、さらに次の副引例の検索を行い、
前記相違点抽出ステップと、前記副引例検索ステップとを繰り返す
ことを特徴とする調査支援方法。 In the research support method according to claim 8 or 9 ,
The difference extraction step includes:
Excluding points of agreement between the differences and the sub-citations from the differences,
The sub-citation search step includes:
Regarding the remaining differences, search for the next sub-citation,
An investigation support method characterized in that the step of extracting differences and the step of searching for sub-citations are repeated.
前記表示制御ステップは、
前記副引例と、前記相違点との対応関係を判別可能にする画面処理を加えた表示画面を生成し、前記表示画面を表示可能にする
ことを特徴とする調査支援方法。 In the research support method according to any one of claims 8 to 10 ,
The display control step includes:
An investigation support method comprising: generating a display screen that has been subjected to screen processing that makes it possible to determine the correspondence between the sub-citation and the difference, and making the display screen displayable.
ことを特徴とする調査支援用コンピュータプログラム。 A computer program for research support, which causes a computer to execute the research support method according to any one of claims 1 to 11 .
対象文と参照文との一致点に関する情報を取得する入力部と、
トークンごとに一致点を判定する言語理解モデルに対して前記対象文および前記参照文を入力し、前記一致点に関する情報を求める判定部と、
前記一致点を判別可能にする画面処理を加えた表示画面を生成し、前記表示画面を表示可能にする表示制御部と
を備えたことを特徴とする調査支援システム。 A research support system for supporting literature research, comprising:
an input unit that obtains information regarding points of agreement between the target sentence and the reference sentence;
a determination unit that inputs the target sentence and the reference sentence to a language understanding model that determines matching points for each token, and obtains information regarding the matching points;
An investigation support system comprising: a display control unit that generates a display screen that has been subjected to screen processing that allows the matching points to be determined, and that enables the display screen to be displayed.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019086100A JP7348746B2 (en) | 2019-04-26 | 2019-04-26 | Research support method, research support computer program, and research support system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019086100A JP7348746B2 (en) | 2019-04-26 | 2019-04-26 | Research support method, research support computer program, and research support system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020181529A JP2020181529A (en) | 2020-11-05 |
JP7348746B2 true JP7348746B2 (en) | 2023-09-21 |
Family
ID=73024779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019086100A Active JP7348746B2 (en) | 2019-04-26 | 2019-04-26 | Research support method, research support computer program, and research support system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7348746B2 (en) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000112949A (en) | 1998-09-30 | 2000-04-21 | Fuji Xerox Co Ltd | Information discrimination supporting device and record medium recording similar information discrimination supporting program |
JP2002175003A (en) | 2000-12-08 | 2002-06-21 | Tdk Corp | Pronunciation training system |
JP2005258624A (en) | 2004-03-10 | 2005-09-22 | Fuji Xerox Co Ltd | Language processing apparatus, method and program |
JP2005258831A (en) | 2004-03-11 | 2005-09-22 | Patolis Corp | Similar document retrieval method |
JP2008015774A (en) | 2006-07-05 | 2008-01-24 | Nagaoka Univ Of Technology | Imitation document detection system and program |
JP2012073877A (en) | 2010-09-29 | 2012-04-12 | Mitsubishi Space Software Kk | Document retrieval device, document retrieval system, computer program and document retrieval method |
JP2012212329A (en) | 2011-03-31 | 2012-11-01 | Tottori Univ | Information analyzer for analyzing redundancy of text data |
WO2018131259A1 (en) | 2017-01-11 | 2018-07-19 | パナソニックIpマネジメント株式会社 | Text evaluation device and text evaluation method |
-
2019
- 2019-04-26 JP JP2019086100A patent/JP7348746B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000112949A (en) | 1998-09-30 | 2000-04-21 | Fuji Xerox Co Ltd | Information discrimination supporting device and record medium recording similar information discrimination supporting program |
JP2002175003A (en) | 2000-12-08 | 2002-06-21 | Tdk Corp | Pronunciation training system |
JP2005258624A (en) | 2004-03-10 | 2005-09-22 | Fuji Xerox Co Ltd | Language processing apparatus, method and program |
JP2005258831A (en) | 2004-03-11 | 2005-09-22 | Patolis Corp | Similar document retrieval method |
JP2008015774A (en) | 2006-07-05 | 2008-01-24 | Nagaoka Univ Of Technology | Imitation document detection system and program |
JP2012073877A (en) | 2010-09-29 | 2012-04-12 | Mitsubishi Space Software Kk | Document retrieval device, document retrieval system, computer program and document retrieval method |
JP2012212329A (en) | 2011-03-31 | 2012-11-01 | Tottori Univ | Information analyzer for analyzing redundancy of text data |
WO2018131259A1 (en) | 2017-01-11 | 2018-07-19 | パナソニックIpマネジメント株式会社 | Text evaluation device and text evaluation method |
Non-Patent Citations (2)
Title |
---|
深谷 亮,単語の頻度統計を用いた文章の類似性の定量化,電子情報通信学会論文誌,社団法人電子情報通信学会,2004年02月01日,第J87-D-II巻, 第2号,pp.661~672 |
田辺 千夏,ビッグデータ時代における特許情報調査への人工知能の活用,情報の科学と技術,一般社団法人情報科学技術協会,2017年07月01日,第67巻, 第7号,pp.372~376 |
Also Published As
Publication number | Publication date |
---|---|
JP2020181529A (en) | 2020-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Moratanch et al. | A survey on abstractive text summarization | |
US5424947A (en) | Natural language analyzing apparatus and method, and construction of a knowledge base for natural language analysis | |
US7174507B2 (en) | System method and computer program product for obtaining structured data from text | |
US8639708B2 (en) | Fact-based indexing for natural language search | |
US10140333B2 (en) | Trusted query system and method | |
US7747555B2 (en) | System and method for retrieving and intelligently grouping definitions found in a repository of documents | |
WO2008107305A2 (en) | Search-based word segmentation method and device for language without word boundary tag | |
Fuchs | Natural language processing for building code interpretation: systematic literature review report | |
US11893537B2 (en) | Linguistic analysis of seed documents and peer groups | |
JP2014120053A (en) | Question answering device, method, and program | |
CN111325018A (en) | Domain dictionary construction method based on web retrieval and new word discovery | |
CN113269477B (en) | Scientific research project query scoring model training method, query method and device | |
JP7167997B2 (en) | Literature retrieval method and literature retrieval system | |
CN114896387A (en) | Military intelligence analysis visualization method and device and computer readable storage medium | |
Saleh et al. | TxLASM: A novel language agnostic summarization model for text documents | |
JP7348746B2 (en) | Research support method, research support computer program, and research support system | |
JPH08129554A (en) | Relation expression extracting device and retrieval device for relation expression | |
Bolzonello et al. | SEUPD@ CLEF: Team FADERIC on A Query Expansion and Reranking Approach for the LongEval Task. | |
JP2000293537A (en) | Data analysis support method and device | |
JP5506482B2 (en) | Named entity extraction apparatus, string-named expression class pair database creation apparatus, numbered entity extraction method, string-named expression class pair database creation method, program | |
KR20200122089A (en) | Apparatus and Method for Electronic Document Retrieval using Local Indexing | |
Elmenshawy et al. | Automatic arabic text summarization (AATS): A survey | |
Baril et al. | RFreeStem: A multilanguage rule-free stemmer | |
Kurz et al. | Neural Entity Linking on Technical Service Tickets | |
ELSAID et al. | Hybrid Arabic text summarization Approach based on Seq-to-seq and Transformer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220420 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230322 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230404 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230525 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230905 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230908 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7348746 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |