JP2020181529A - 調査支援方法、調査支援用コンピュータプログラムおよび調査支援システム - Google Patents

調査支援方法、調査支援用コンピュータプログラムおよび調査支援システム Download PDF

Info

Publication number
JP2020181529A
JP2020181529A JP2019086100A JP2019086100A JP2020181529A JP 2020181529 A JP2020181529 A JP 2020181529A JP 2019086100 A JP2019086100 A JP 2019086100A JP 2019086100 A JP2019086100 A JP 2019086100A JP 2020181529 A JP2020181529 A JP 2020181529A
Authority
JP
Japan
Prior art keywords
sentence
support method
investigation
target
token
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019086100A
Other languages
English (en)
Other versions
JP7348746B2 (ja
Inventor
雄太郎 石川
Yutaro Ishikawa
雄太郎 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JAPAN PATENT INFORMATION ORGANIZATION
Original Assignee
JAPAN PATENT INFORMATION ORGANIZATION
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JAPAN PATENT INFORMATION ORGANIZATION filed Critical JAPAN PATENT INFORMATION ORGANIZATION
Priority to JP2019086100A priority Critical patent/JP7348746B2/ja
Publication of JP2020181529A publication Critical patent/JP2020181529A/ja
Application granted granted Critical
Publication of JP7348746B2 publication Critical patent/JP7348746B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】本発明は、調査対象と一致点を有する文献の検索調査を支援する技術を提供する。【解決手段】代表的な本発明の調査支援方法の一つとしては、コンピュータシステムが文献の調査を支援するための方法であって、対象文と参照文との一致点に関する情報を取得する入力ステップと、一致点を判別可能にする画面処理を加えた表示画面を生成し、表示画面を表示可能にする表示制御ステップとを備える。また、トークン単位の一致点を判定する言語理解モデルに対して対象文および参照文を入力し、一致点に関する情報を求めてもよい。このような調査支援方法により、調査対象と一致点を有する文献の検索調査を支援することが可能になる。【選択図】図1

Description

本発明は、調査支援方法、調査支援用コンピュータプログラムおよび調査支援システムに関する。
特許審査や特許無効調査の際には、新規性や進歩性などの特許性の有無を判断するために、先行技術文献の調査を行う。先行技術文献の調査においては、特許審査や特許無効理由の調査対象となる請求項に対応するキーワードと、IPC(国際特許分類)、FI(ファイルインデックス)等の特許分類を組み合わせて、特許文献データベースの検索を行い、さらに非特許文献データベースの検索も行う。検索時には、大量の特許文献に対して、調査者の求める観点で特許分類やキーワードを選定し、組み合わせて検索を行うことで、文献数を絞り込み、所定数になった段階で文献内容の確認を行う。そして、内容の確認により発見された先行技術文献に基づいて、引用発明を認定し、請求項に係る発明と一の引用発明とを対比して、一致点及び相違点を認定する。次に、相違点について、再び先行技術調査を行なって、相違点に係る構成に対応する他の引用文献を発見すれば、一の引用発明に、他の引用発明を適用することが容易といえる論理付けが出来るか否かを検討する。この検討を繰り返し行い、特許審査や特許無効調査が完了する。
一方、近年、ニューラル言語理解モデルが急速に発展を遂げている。
伝統的な言語理解モデルには、規則方式の言語理解モデルと統計方式の言語理解モデルの2種類があるが、規則方式の言語理解モデルでは、各ドメインに対する深い知識を持った者が、類義語判定や構文解析等の言語理解に必要なサブタスクの種類を考え、各サブタスクに対する必要な特徴量を設計するだけでなく、言語理解のための規則やアルゴリズムまで自ら考えなければならなかった。そのため、大規模で実用的なシステムを構築するのは困難であった。また、統計方式の言語理解モデルにおいては、サブタスクの種類を考え、特徴量を設計するのは人間であるが、言語理解のための規則は学習データから統計的機械学習の手法によって自動的に構築できる。しかしながら、各サブタスクに特化した学習データを別個に用意しなければならないため、実用上精度の高いモデルを作成することは、大変困難であった。
特に、技術に関する説明文を扱う場合においては、同一の技術的概念を指し示す事柄が別の側面から記載されていたり、1つの単語で表され得る概念が、新技術が開発されたばかりのころは、説明文的に記載される等の特徴があるため、技術に関する説明文について、2文間の意味的な対比を考えた際に、伝統的な言語理解モデルを用いて、対比に必要な各サブタスクを全て列挙すること自体、困難性が高く、それらに即した特徴量設計とデータ収集も、また、大変ハードルが高かった。
一方、ニューラル言語理解モデルにおいては、ニューラルネットワークを用いて、入力から出力までエンド・トゥー・エンドで学習させることにより、各サブタスクの列挙と特徴量設計や、各サブタスクに特化したデータの準備を必要とせずに、精度の高い言語理解モデルを構築することが可能であるため、技術に関する説明文の対比の際にはメリットがある。ニューラル言語モデルにおいては、一般的に、単語等の入力トークンに対応する分散表現が用いられる。また、ニューラル言語理解モデルにおいては、言語を扱うことから、以下のような要件を満たす必要がある。
a) 任意の長さの文章を扱える。つまり可変長データを扱うことできる。
b) トークン(単語など)に出現順(時系列)を考慮する仕組みが利用できる。
c) 離れたトークン間にある長距離依存関係が扱える。
このような特徴を持つ既存の仕組みとして、CNN、RNN、位置埋め込み(positional embeddings)を用いたモデル等が考えられるが、ニューラル言語理解モデルにおいては、何れのモデルを用いることも可能である。例えば、CNN、RNN を使ったモデルについては、単純なニューラルネットワークでは扱いきれない、時系列データをうまく扱うことが出来る。CNN、RNNをエンコーダとして用いると、可変長トークン列を時系列として扱うことができる。これらのエンコーダとデコーダを組み合わせたモデルは、シーケンス・トゥー・シーケンスモデルと呼ばれ、主に機械翻訳等に用いられる。
また、位置埋め込みを用いたエンコーダ、デコーダモデルの例として、トランスフォーマ(Transformer)が存在する。トランスフォーマは、自己アテンションを用いることで、トークン間の長距離依存関係の知識をうまく補足でき、シーケンス・トゥー・シーケンスモデルに比して、計算量が小さいメリットがあるため、トランスフォーマのエンコーダ部分を用いる研究も進んでいる。
ここで、非特許文献1には、アテンション機構を利用した強力なエンコーダを備えたモデルであるトランスフォーマのエンコーダ部分を利用したBERT(Bidirectional Encoder Representations from Transformers)という技術が提案されている。これは、言語モデルを大規模なデータによって事前学習(Pre-training)し、その後、タスクに特化した比較的小規模のファインチューニング(Fine-Tuning)を行うことで、8個のベンチマークタスクで最高性能(State of the art)を達成したモデルであり、近年注目されている。
Jacob Devlin、外3名、"BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding."、[online]、2018年10月11日、[2019年4月5日検索]、インターネット〈URL:https://arxiv.org/pdf/1810.04805.pdf〉
特許審査や特許無効調査においては、国内だけでなく海外の文献の先行技術調査も必要とされるため、年々大量に蓄積される世界中の先行技術文献を、過去から遡って網羅的に調査しなければならないことを考えると、益々手間がかかるものとなっている。特許行政年次報告書2018によると、2007年に187.4万件であった世界の特許出願件数は、この10年で1.7倍に増加し2016年には412.8万件に達している。
そして、従来の先行技術文献調査においては、キーワードや特許分類を組み合わせて、検索を行った後、検索結果から発見された先行技術文献に基づいて、引用発明を認定して、請求項に係る発明と当該引用発明とを対比して、一致点及び相違点を認定するという複雑なステップを経るため、1つの先行技術文献を発見する検索の手間に加えて、当該先行技術文献に対して、一致点及び相違点を認定しなければならず、精度の高い結果を得るためには、特許審査や特許無効調査は、対象技術に関する有識者が、長い時間をかけて行う必要がある。
さらに、特許審査や特許無効調査においては、引用発明の検索結果だけではなく、引用文献となり得る理由について、出願人や依頼者が明確に理解できるように提示(支援)することが好ましい。
なお、非特許文献1には、特許審査や特許無効調査などについての具体的な開示もなく、調査対象と一致点を有する文献の具体的な検索方法についても開示は見当たらない。また、非特許文献1には、2文を比較して、文の特定部分を抜き出すタスクは記載されているが、2文を比較して、トークンごとにラベルの判別を行うタスクは記載されていない。
そこで、本発明は、調査対象と一致点を有する文献の検索調査を支援する技術を提供することを目的とする。
上記課題を解決するために、代表的な本発明の調査支援方法の一つは、コンピュータシステムが文献の調査を支援するための方法であって、対象文と参照文との一致点に関する情報を取得する入力ステップと、一致点を判別可能にする画面処理を加えた表示画面を生成し、表示画面を表示可能にする表示制御ステップとを備える。
本発明は、調査対象と一致点を有する文献の検索調査を支援することが可能になる。
上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
図1は、調査支援システムの全体構成を説明する図である。 図2は、BERTの基本構成を説明する図である。 図3は、言語理解モデルの機械学習を説明する図である。 図4は、入力対象トークン列を出力対象トークン列に変換する例を示す図である。 図5は、入力対象トークン列を出力対象トークン列に変換する例を示す図である。 図6は、画面インタフェースを例示する図である。 図7は、調査支援システムを応用した文書検索システムを示す図である。 図8は、文書検索システムの画面インタフェースを例示する図である。 図9は、調査支援システムの動作を示す流れ図(1/2)である。 図10は、調査支援システムの動作を示す流れ図(2/2)である。
以下、図面を用いて、本発明の実施例を説明する。
<1.調査支援システム100の全体構成>
図1は、調査支援システム100の全体構成を説明する図である。
同図において、調査支援システム100は、判定部101、および演算部102を備える。
判定部101は、請求項保持部11、文献保持部12、前処理部13、変換部14、および言語理解モデル15を備える。
演算部102は、入力部103、ランキング部104、相違点抽出部105、および表示制御部106を備える。演算部102に関しては、より詳しくは、後述の図7の調査支援システムを応用した文書検索システムの仕組みを用いることが可能である。
請求項保持部11は、入力された自然言語の請求項文CLMn(対象文)を、Mecabなどの形態素解析器や、SentencePieceなどのトークナイザにより、トークンに分解して保持する。ここでのトークンは、自然言語処理の技術分野の用語であり、自然言語の文を構成する基本単位を表す。好ましくは、トークンは、文節よりも短く、文字よりも長い単位である。
文献保持部12は、特許文献PDm(参照文)の集合を、トークン列に分解して保持している。
前処理部13は、請求項文CLMnと特許文献PDmを1対1で、前後に繋げて、1つの入力対象トークン列INiとする。請求項文CLMnと、特許文献PDmとの少なくとも片方のトークン列の長さが大きすぎ、後の操作に支障が出る際は、請求項文CLMnから、特定サイズのウィンドウ幅を、一定の間隔でずらすことによって、トークン列の一部としてCLMnjを生成し、同様に特許文献PDmとのトークン列の一部としてPDmkを生成して、CLMnjとPDmkとを前後に繋げ、jとkとを全て組み合わせて、入力対象トークン列INiとしてよい。
変換部14は、言語理解モデル15を使用して、入力対象トークン列INiを出力対象トークン列OUTiに変換する。
入力部103は、出力対象トークン列OUTiを、一致点に関する情報として判定部101から取得する。出力対象トークン列OUTiは、例えば、2値のラベルであり、対応する入力対象トークン列INi内のトークンと、同じインデックスを持つトークンについて、一致点であるトークンを「YES」、一致点でないトークンを「NO」として一致点に関する情報を表す。(後述の図4−5に、詳細の記載がある。)
ランキング部104は、一致点に関する情報に基づいて、参照文の比較対象としての適格性を評価する。ここでの比較対象は、処理の進行に応じて、後述の相違点抽出前に、第1番目に比較される参照文(以下「主引例」という)や、相違点抽出後に、第2番目以降に比較される参照文(以下「副引例」という)にそれぞれ該当する。
例えば、ランキング部104は、対象文に占める一致点の数(例えば、一致しているトークンの数)が多いほど、適格性の評価を高くする。
また例えば、ランキング部104は、対象文に占める一致点の割合(例えば、一致しているトークンの数を、前トークン数で割った値)が多いほど、適格性の評価を高くする。この割合には、文字数やトークン数などの割合の他に、対象文において複数の一致点が集中または分散する粗密の度合などを加味してもよい。
また例えば、ランキング部104は、一致点の評価値が高いほど、適格性の評価を高くする。例えば、一致点が示すトークンが専門分野の用語であるなど特殊性があって特徴的な用語であるほど、一致点の評価値を高くしてもよい。また、例えば、対象文の中の一致点の出現箇所が書式などから定まる重要箇所または基本箇所であるほど、一致点の評価値の重み付けを高くしてもよい。
さらに、これらの項目を評価関数などで組み合わせる、また他の評価をさらに加味するなどして、参照文の比較対象としての適格性を総合的に評価してもよい。
また、ランキング部104は、求めた適格性に基づいて、複数の参照文のランキングを行う。
なお、ランキング部104の適格性の評価やランキングなどの機能は、後述する結果保持部45、総合出力部46(図7参照)の機能と少なくとも一部重複するため、ランキング部104について、結果保持部45、総合出力部46と同様の機能については重複説明を省略する。また、結果保持部45、総合出力部46の機能の少なくとも一部を、ランキング部104の機能として、採用してもよい。
相違点抽出部105は、対象文から主引例との一致点を除くことにより、相違点を求める。さらに、相違点抽出部105は、対象文から、文、文節、単語、形態素などの意味のある言葉の単位(以下、言語単位という)になるように、相違点抽出範囲を調整する。これにより、Sentence Pieceなどを用いた場合に、形態素のうち一部分だけが相違点と認定されてしまうケース等で、言語的な意味のない相違点抽出を防ぐことが出来る。また、相違点抽出部105は、このように調整された相違点は請求項保持部11に改めて入力され、判定部101における副引例の探索に供せられる。
なお、相違点抽出部105の相違点を処理する機能は、後述するクエリ自動構築部44(図7参照)の機能と少なくとも一部重複するため、相違点抽出部105について、クエリ自動構築部44と同様の機能については重複説明を省略する。また、クエリ自動構築部44の機能の少なくとも一部を、相違点抽出部105の機能として、採用してもよい。
表示制御部106は、一致点を判別可能にする画面処理を加えた表示画面や、主引例の候補のランキング画面や、副引例と相違点との対比画面などの画面インタフェースを生成し、ユーザ端末へ送信する。
このような構成の調査支援システム100は、例えば、ハードウェアとしてCPU(Central Processing Unit)やメモリやデータベースなどを備えたコンピュータシステムにより構成される。
このハードウェアが調査支援用コンピュータプログラムを実行することにより、後述する図9および図10に示す調査支援方法が実施される。
このハードウェアの一部または全部については、DSP(Digital Signal Processor)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などの均等の手段で代替してもよい。例えば、多数のベクトル演算が発生する変換部14(言語理解モデル15)は、多数の演算コアを備えたGPUなどの演算手段で実現し、判断分岐などの処理が発生する演算部102はCPUなどの演算手段で実現してもよい。
また、ハードウェアの一部または全部をネットワーク上のサーバーに集中または分散してクラウド配置し、複数の人がネットワークを介して共同使用してもよい。
<2.言語理解モデル15の説明>
次に、言語理解モデル15について説明する。
言語理解モデル15とは、上述したとおり、コンピュータに人間が行っているような自然言語理解をさせることを目的としたモデルである。本明細書中では、ニューラル言語理解モデルの一種であるBERTを主として説明を行うが、他のニューラル言語理解モデルや伝統的な言語理解モデルを用いてもよい。
図2は、BERTの基本的な構成を説明する図である。BERTは、トランスフォーマエンコーダTmをネットワーク状に結合させて構成される。E1〜Enは入力埋め込み(input embeddings)であり、トークン埋め込み(token embeddings)、セグメント埋め込み(segment embeddings)、位置埋め込み(position embeddings)を足すことで生成してよい。個々のトランスフォーマエンコーダTmは、マルチヘッドアテンション21、残差接続・正規化のブロック22、フィードフォワードネットワーク23、および残差接続・正規化のブロック24などを備えて構成される。T1〜Tnは、各入力トークンに対応した文脈表現(contextual representation)である。
<3.言語理解モデル15の機械学習>
続いて、言語理解モデル15の機械学習について説明する。
図3は、言語理解モデル15の機械学習を説明する図である。
同図において、入力データには、予め一致点を有することが分かっている学習用の文章を使用する。例えば、特許審決書類には、「本願請求項に係る発明」と、「主引例に記載された事項」のように、互いに表現上は異なっていても、意味的(技術的)な一致点を一部に有する文章データが蓄積されている。「本願請求項に係る発明」において、どの部分が主引例との一致点になるかは、具体的には、「一致点の認定」に記載されている。なお、特許審決書類と同様に、特許審査書類からも同様の事項は抽出可能である。
訓練用の文章は、それぞれトークン単位に区切られた後、「審決対象の請求項に係る発明」と、「主引例に記載された事項」のように、技術的な一致点を一部に有する文章同士について、適当なトークンを間に挟み、前後につなげて、1つの入力データが作成される。このとき、適当なトークンとして、文の切れ目を表す記号([SEP])を付加してもよく、また、文頭記号([CLS])や文末記号(文の切れ目を表す記号と同様に、[SEP])を付加してもよい。一方、「審決対象の請求項に係る発明」と、「一致点の認定」との記載を最長部分一致を用いるなどして、「審決対象の請求項に係る発明」をトークン単位で、「主引例に記載された事項」との一致、不一致を判定したものを出力データとして作成する。
または、「審決対象の請求項に係る発明」と、「主引例に記載された事項」について、特定の指標を用いて、関連性が極めて低いと判定された文章同士について、適当なトークンを間に挟み、前後につなげて、1つの入力データが作成し、全トークンが不一致と判定された出力データを作成する。
また、公知のデータ拡張の手法を用いて、学習データを増やしてもよい。このような入出力データを学習データとして収集することにより学習セットが得られる。言語理解モデル15は、当該学習セットによって、機械学習を行う。
なお、エンコーダ内部にアテンションを用いたBERT等のモデルにおいては、各入力トークンに対応した文脈表現Tiの出力に際して、「審決対象の請求項に係る発明」内の自身と対応する入力埋め込みEiを参照するだけではなく、「主引例に記載された事項」内の入力埋め込みEjをも参照するため、学習された結果として、「審決対象の請求項に係る発明」と、「主引例に記載された事項」とで技術的、意味的に一致するトークンが高い関連性を有するように言語理解モデル15の内部パラメータが更新される。
このような機械学習により、言語理解モデル15のうち、アテンションを用いたBERT等のモデルにおいては、一致点と推定されるトークンの組み合わせに対して、対応するアテンションの位置に高い値を生成するようになる。
<4.言語理解モデル15の推定動作>
機械学習を済ませた言語理解モデル15の推定動作について説明する。
図4は、変換部14が、言語理解モデル15を使用して、入力対象トークン列INiを、出力対象トークン列OUTiに変換する例を示す図である。
出力対象トークン列OUTiとしては、入力された自然言語の請求項文CLMn(CLMnj)のトークンのうち、特許文献PDm(PDmk)内の記載と内容的に一致するトークンに対応するトークンを「YES」として、それ以外を「NO」として出力する(パターン1)。
このように、入力された自然言語の請求項文CLMnについて、トークン単位で特許文献PDmとの一致点(「YES」)と相違点(「NO」)が出力されることにより、引用発明を認定して、請求項に係る発明と一の引用発明とを対比するというステップを省略、または、機械的に認定した結果を修正することで、人間の作業を省力化することができる。
別の構成として、変換部14は、言語理解モデル15の推定処理に基づいて、「YES」と「NO」をそのまま出力することに加えて、「YES」トークンの数COUNTyes(OUTi)を出力してもよい。このCOUNTyes(OUTi)が高い値であるほど、適格性の評価が高くなる構成としてよい。また、これらの数に基づいて、後述する主引例の候補の表示順(ランキング)を並び替えてもよい。
これによって、スコアに応じて、大量の文献を何らかの形で区別可能に表示させることができ、より有効な先行技術文献を素早く発見することが出来ると共に、キーワードや特許分類の組み合わせでクエリを考案する手間が減って、特許審査と特許無効調査をより効率よく行うことが可能となる。
特許文献PDm(PDmk)内の記載のうち、自然言語の請求項文CLMn(CLMnj)に一致するトークンに対応するトークンを「YES」として、それ以外を「NO」として出力してもよいし(パターン2)、パターン1とパターン2に対応した出力の両方を出力してもよい。これにより、請求項の一致部分だけでなく、特許文献の一致部分が分かるため、人間が出力結果を修正する際に素早い対比箇所の参照が可能となる。
図5には、パターン1のみを使用し、パターン2は使用しない構成が記載されている。このような場合、パターン2に対応するトークンについては、何を入力してもよく、全て一致点(「YES」)か、相違点(「NO」)のどちらかとしてよい。
特許文献PDmには、請求項、明細書等のテキスト情報だけではなく、図面から自動生成された、図面に記載された内容を説明するキャプション文や、符号やフロー図内の文字列など、図面に記載された文字列を含んでいてもよい。これによって、テキスト情報のみならず、図面を利用した一致点と相違点の認定も可能となる。
文献保持部12内の特許文献PDmの集合は、特許文献の全文または部分でもよい。特許文献の抄録や要約書などを含めてもよい。
さらに、文献保持部12内の特許文献PDmの集合は、事前の検索式により選定されてもよいし、少なくとも1以上のデータベース内の文献の一部または全てが選定されてもよい。これによって、全ての文献に対して、時間のかかる文書変換を行うことなく、より引用文献になる確率が高い文献のみに対して、文書変換を行うことが出来る。
入力対象トークン列INiには、文頭記号([CLS])、文の切れ目を表す記号([SEP])、文末記号([SEP])を付加してもよく、出力対象トークン列OUTiでは、これらの記号をそのまま出力してもよい。
請求項文CLMnと、特許文献PDmのうち、特にユーザが指定、若しくは、アルゴリズムで自動的に指定された単語や形態素等については、入力対象トークン列INiにする前に、何等かのプレースホルダに置き換えてもよく、その場合に対応するトークンの出力もプレースホルダとして出力してもよい。これにより、元の学習データにない新たな単語が、請求項や引用文献に出てきた場合に、不一致と判定される可能性が低くなる。そして、当該プレースホルダで置き換えられた単語について、改めて、出力対象トークン列OUTi後に、人手で作成するか、ルールベースか、または、機械学習で作成した類義語表に基づいて、請求項文CLMnと特許文献PDmを比較して、当該プレースホルダで置き換えられた単語に対応するトークンが、一致、または、不一致であるかを判定してもよい。このような構成とすることで、学習データにない新たな単語についても一致や、不一致を精度よく判定することが可能となる。
変換部14が使用する言語理解モデル15としては、BERT (Bidirectional Encoder Representations from Transformers)や、MT-DNNを始めとしたBERTを拡張したモデルをはじめとするとトランスフォーマを利用したモデルを用いてもよいし、アテンション付きのRNN シーケンス・トゥー・シーケンスモデルを用いてもよく、その他の言語理解に関する何らかのモデルを適用してもよい。
入力対象トークン列INiのうち、特許文献PDm(PDmk)に対応するトークンや文頭記号等の記号に対応する出力対象トークン列ついては、便宜的に「NO」として出力してもよい。これによって、1つのトークン単位で付与するラベルの総数を減らすことが可能となる。また、これらのトークンを示す別種のトークンを設けてもよい。これにより、後述するCOUNTnoを少ない処理ステップで行うことが可能となる。さらに、判断保留などの無関係を示す「?」トークンを追加してもよい。これにより、学習データが良ければ、上手く比較ができないものを無理に「YES」、「NO」に分類せずに済み、より精度の向上が見込まれる。
CLMnを分割したCLMnjとCLMnj-1、PDmを分割したPDmkとPDmk-1とで、元のCLMn、PDmの同一の部分に対応するトークンをそれぞれが保持し、かつ、YES/NOで異なる判定となっている場合は、「YES」を優先して出力してもよい。これにより、分割した部分に偶々請求項と引用文献が直接対比可能な記載が無くても、どこかの分割箇所で一致されていれば、OUTiの対応トークンも「YES」となる正しい結果となるため、CLMnとPDmとを、分割して対比した場合でも、正しい結果を出力することが可能となる。
また、分割された部分において、トークンの左右に何個のトークンが存在するかをスコア化して、スコアに基づいて出力されたトークンの信頼度を算出し、信頼度に基づいてOUTiのYES/NOを決定してもよい。これにより、対象トークンが分割部分のたまたま文頭にあり、本来その前に存在すべきトークンの影響を受けないまま、誤判定した結果を、そのままOUTiに反映せずに済むことができる。また、判定保留を示す「?」を出力してもよく、ルールベース・機械学習でYES/NOを決定してもよい。
COUNTyes(OUTi)は、「YES」トークンの前提記載部分(ジェプソン形式の請求項における「〜において」の部分など)のみを、COUNTyes(OUTi(プリアンブル))として、別途出力してもよい。これにより、後述するランキングの際に、前提部分が完全一致したもののみを対象とすることができ、前提構成が全く異なる文献を排除することが可能となる。また前提部分を除いた残りの部分(≒発明の特徴部分)だけを別途出力してもよく、事前にリスト化した重要語や動詞部分や化学式部分だけを、COUNTyes(OUTi(重要語))、COUNTyes(OUTi(動詞))、COUNTyes(OUTi(化学式))として別途出力してもよい。また、「YES」トークンの数COUNTyesに代えて、「NO」トークンの数COUNTno、「?」トークンの数COUNT ?を出力してもよい。
COUNTyes(OUTi)について、例えば、SentencePieceに基づいて作成したトークンを、特定の形態素に重みづけするためにmecab等の形態素解析器に基づいて作成しなおしてもよい。その場合、SentencePieceに基づくトークンが、形態素より細かい場合で、各々のトークンが「YES」と「NO」で分かれている場合は、数が多い方を「YES」としてもよく、多数決で決めてもよく、ルールベースや機械学習で決めてもよい。また、SentencePieceに基づくトークンが、形態素より荒い場合は、それぞれの形態素が、SentencePieceと、同じ「YES」と「NO」であると判定してもよい。SentencePieceと形態素の切れ目がずれている場合は、まずSentencePieceを形態素の切れ目と同じ切れ目で分解した後、上記のSentencePieceに基づくトークンが、形態素より細かい場合の手法を適用してもよい。
<5.調査支援システム100の画面インタフェース>
続いて、画面インタフェースについて説明する。
図6は、調査支援システム100の画面インタフェースを例示する図である。
同図において、入力領域31(対象文の表示領域)には、特許審査対象、または、特許無効調査対象の請求項が入力される。また、引用文献表示領域32(参照文の表示領域)には、現在選択している引用文献の少なくとも一部分が表示される。文献一覧表示領域33(複数の参照文の一覧表示領域)には、文献一覧が表示される。さらに、文書変換対象となる特許文献PDmの集合を作るために、キーワードや、IPC(国際特許分類)、FI等を入力するテキストボックスと、検索ボタンが存在していてもよい。
入力領域31には、請求項が入力可能であって、請求項が表示され、当該請求項の記載のうち、引用文献表示領域32内の文書の記載と内容的に一致する部分に対応した部分の色が変更されている(強調表示)。強調表示を行うことにより、画面上で機械的に認定された請求項の一致部分を素早く確認することが可能となる。
引用文献表示領域32には、引用文献の少なくとも一部分が表示され、文献の記載のうち、入力領域31内の文書の記載と内容的に一致する部分に対応した部分の色が変更されている(強調表示)。強調表示を行うことにより、画面上で機械的に認定された引用文献の一致部分を素早く確認することが可能となる。なお、当該一致した部分に関しては、引用文献表示領域においては、段落単位、決まった文字単位に表示してもよい。
入力領域31、または、引用文献表示領域32において、色が変更された部分については、引用文献表示領域32側の内容を人が精査できる。精査のうえで、内容的に一致している(いない)場合は、当該部分について、請求項と引用文献の記載が対応している(いない)として、入力領域31、または引用文献表示領域32の色を、着色(元の色に戻す)部分をマウスで選択する。選択部分を右クリックすることでストリップメニューを表示して、メニューから、内容的に一致(不一致)を選択すること、人手で着色(元の色に戻)してもよい。
以上のような構成により、文献の調査者が簡便に一致点と機械的に判定された部分を参照することができ、一から引用発明を認定して、請求項に係る発明と一の引用発明とを対比するというステップを省略、または、機械的に認定した結果を修正することで、省力化することができる。
文献一覧表示領域33には、対象となる特許文献一覧が記載されており、文献一覧表示領域33において、文献を選択することで、引用文献表示領域32が対応した文献に変更される。文献一覧表示領域33においては、COUNTyes(OUTi)に基づく、複数のスコアを「一致指標○」として表示し、「一致指標○」の列か、インデックス名が記載された欄をクリックすることで、当該スコアに基づいて文献を並び替えることができる。
これにより、スコアに応じて、大量の文献を何らかの形で区別可能に表示させることができ、より有効な先行技術文献を素早く発見することが出来ると共に、スコア順にソートされた文献を上から見ていくことで、キーワードや特許分類の組み合わせでクエリを考案する手間が減って、特許審査と特許無効調査をより効率よく行うことが可能となる。
なお、入力領域31で強調処理された部分のみを、入力領域31とは別に一致点表示領域34として表示する構成としてもよい。これにより、一致点を一文として眺めることができ、どこか重要な構成で一致していない部分があるかを、文献の調査者が精査しやすくなる。
「一致指標○」として、前述した「YES」トークンの数COUNTyes(OUTi)に基づいて並べ替える他、プリアンブルが全て「YES」である文献だけ(COUNTyes(OUTi(プリアンブル))==COUNT(OUTi(プリアンブル)))を表示対象とし、そのうち、残りの部分が「YES」である数(COUNTyes(OUTi(notプリアンブル))で並べ替えを行う等、複数のCOUNT条件を用いて並べ替えを行ってもよいし、複数のCOUNT条件に重みづけして足し合わせるなどした、総合的なCOUNTスコアに基づいて並べ替えを行ってもよい。なお、「YES」トークンの数COUNTyes(OUTi)をそのまま用いるだけでなく、何らかの形で正規化したCOUNTyes(OUTi)を用いてもよい。
強調表示については、色の種別、濃さで表現してもよいし、色に代えて、記号等で表現してもよい。また、文字のフォントを変更してもよく、文字の太さを変更してもよく、下線等を追加する等の何らかの文字飾りをつける等、一般的に使われる何らかのフォントの変更を適用してもよい。また、文字にアニメーションをつけてもよい。
アテンション機構を利用している場合、マウスオーバした入力領域31側のトークンに対応した、引用文献表示領域32側のトークンの色を特に強調してもよいし、引用文献表示領域32側の記載をマウスオーバして、入力領域31、側の対応箇所の色を特に強調してもよい。これにより、トークン単位でどの部分が一致しているか人が精査しやすくなる。色の強調については、複数のアテンションヘッドの出力のそれぞれに対応して複数色を用いてもよいし、アテンションヘッドの平均と関連付けた一色を用いてもよい。
人手で着色/元の色に戻した結果に基づいて、後述する文献一覧表示領域33の並び順を再び変更してもよい。なお、人手で着色/元の色に戻した部分については、出力対象トークン列OUTiについて、着色した部分をYES、元の色に戻した部分をNOに変更する。そして、人手で着色/元の色に戻した結果を反映した出力対象トークン列OUTi’を用いて、COUNTyes(OUTi’)の値から、再び、後述する文献一覧表示領域33の並び順を再び変更する。これにより、人手で精査した結果を反映した、さらに高精度の並べ替えが可能となる。また、人手で着色/元の色に戻した結果を保存しておき、学習データとして用いることで、対比の精度をさらに精度を上げることが可能となる。例えば、人が着色/元の色に戻した結果を、不図示のクラウドサーバに蓄積し、請求項文CLMnと、特許文献PDmと、人が着色/元の色に戻した結果を反映した出力対象トークン列OUTi’’を、新たな学習データの少なくとも一部に含まれるようにして、定期的にBERTモデルの再ファインチューニングを行うことで精度を向上させる。
<6.文書検索システムへの応用>
図7は、調査支援システム100を応用した文書検索システムを示す図である。
同図において、本願保持部41は、検索対象となる特許出願の請求項、明細書、図面を保持する。文書変換部42は、図1の調査支援システム100における判定部101に相当する。
複数のデータベース43は、特許文献や非特許文献のデータベースであって、検索クエリによる検索やその他の文献選別方法に基づいて、データベース43に保持されているデータから特定の文献データを抽出し、文書変換部42に、少なくとも一部の文献を提供する。
クエリ自動構築部44は、文書変換部42に入力される請求項と、図1に示す変換部14の出力結果とから、新たに文書変換部42に入力する編集された請求項(以下「編集済み請求項クエリ」という)を生成する。結果保持部45は、図1の変換部14の出力結果を保持する。総合出力部46は、結果保持部45の結果から、出力結果を作成する。
本願保持部41は、検索対象となる特許出願の請求項を編集し、または、編集せずに、文書変換部42に入力する。編集の方法としては、請求項Aを検索する際、請求項Bが請求項Aを引用するとして、例えば、(1)AとBを接続詞等で繋げて1文とする。(2)Bに「○○に代えて、××を用いることを特徴とする」との記載があれば、A内の○○を、××に置換した請求項を作成する。(3)「○○、△△、または、××」との記載があれば、Aについて、3つの構成をそれぞれ含む3文にする。(4)明細書内の課題等を抜き出してAに付加した文にする。(5)図面から自動生成したキャプション文をA内の発明特定事項に付加する等、様々な方法が考えられる。
文書変換部42は、入力された請求項、または、編集済み請求項クエリと、文献保持部12の内容に基づいて、出力結果を出力する。複数のデータベース43は、既存の検索方法である、キーワード検索、IPCやFI等の分類検索、または、概念検索等の結果を少なくとも1つ以上組み合わせて、データベース内の特許文献を選別し、または、その他の文献の選別方法に基づいて、図1に係る文献保持部12に、少なくとも一部の文献を提供し、または、全ての文献を提供する。
クエリ自動構築部44は、1つ目の文献に対して、一致点と相違点を機械的に判定するために、本願保持部41の請求項をそのまま文書変換部42に受け渡すか、1つ目の文献で相違点が埋まらなかった際に、相違点を埋めるための新たな文献を提示するために、結果保持部45のデータを参照して、文書変換部42に渡す新しい請求項を構築する。例えば、下記の(1)〜(4)の通りである。
(1)出力対象トークン列OUTiで「YES」の部分は、既に検索済みであり、請求項と対象文献との一致点であるとして、残りの相違点を探すために、次に文書変換部42に入力する編集済み請求項クエリを、OUTiで「NO」に対応するトークンだけにする。その際、文書が不自然にならないように、1単語中の特定のトークンだけが「YES」の場合も、正しい単語の形を維持するために、当該特定のトークンに対応するOUTi中のトークンを「NO」とみなして、請求項クエリに含めたり、文法構造がおかしくならないように、ルールベース/機械学習に基づいて、助詞等も請求項クエリに含めたりしてもよい。
(2)さらに(1)に加えて、検索対象をより適切にするために、単語を適宜上位概念化してもよい。例えば、請求項クエリ内の「携帯電話」を、機械学習等を用いて作成した類義語辞書を用いて、「無線通信機器」に変換して、上位概念化してもよい。
(3)さらに(1)に加えて、係り受け関係がおかしくならないように、係り受け元が「NO」に対応するトークンの場合は、係り受け先が「YES」に対応するトークンであったとしても、当該特定のトークンに対応するOUTi中のトークンを「NO」とみなして、請求項クエリに含めてもよい。
(4)さらに(1)に加えて、特許文献PDmについても、請求項クエリと内容的に一致するトークンに対応するトークンを「YES」として、それ以外を「NO」として出力対象トークン列OUTiに含めている場合、「YES」に対応するトークンの発明の課題、構成、分野について、請求項クエリに含めてもよい。なお、クエリ自動構築部44で作成したクエリについては、人手で修正してもよい。
結果保持部45は、出力対象トークン列OUTiと、「YES」トークンの数COUNTyes(OUTi)を過去N回の検索時の分までさかのぼって保持している。総合出力部46は、結果保持部45の結果から、出力結果を作成する。例えば、N−1回目の検索時の文献PD1に対して、残りの相違点を探すための編集済み請求項クエリによるN回目の検索時の文献PD2について、文献PD1に対応する請求項トークン集合と、文献PD2に対応する請求項トークン集合について、同じインデックスのトークンのどちらか一方が「YES」であれば、文献PD1〜2の合成請求項トークン集合の同じインデックスのトークンは「YES」であるとみなし、合成請求項トークン集合の「YES」トークンの数COUNTyes(OUTi)が高い順に、複数の文献の組み合わせを、ランキングして出力する。
なお、総合出力部46は、N−1回目の検索時の文献PD1に対して、残りの相違点を探すための編集済み請求項クエリのうち、どこが技術常識であるのか別途判断し、さらに残った部分に対して、相違点を探すために請求項クエリを編集して、N回目の検索を行ってもよい。そして、合成請求項トークンのうち、技術常識、または、周知技術であると判定された部分を「YES」と出力する。
これにより、発明との相違点を直接認定して、相違点に対して、適用すべき他の引用発明を提示するため、再検索をするステップと、引用発明を認定・対比するステップを省略、または、それぞれの結果に修正を加えることで、省力化することができ、特許審査と特許無効調査をさらに効率よく行うことが可能となる。
クエリ自動構築部44は、請求項クエリの再編集の際、出力対象トークン列OUTiと、「YES」トークンの数COUNTyes(OUTi)を、人手、または、アルゴリズムで編集したものを用いてもよい。
合成請求項トークンについては、N−1回目の検索時の文献を分割したPD1kの集合とN回目の検索時の文献を分割したPD2kの集合について、当該トークンの左右に何個のトークンが存在するかをスコア化して、スコアに基づいて信頼度を算出し、信頼度に基づいて、「YES」と「NO」の数をスコア化して、スコアに基づいて、合成請求項トークンがYES/NOであるかを判定してもよく、PD1とPD2で判定が異なっているトークンについて、「YES(判断保留)」という新たなトークンを出力してもよく、ルールベース・機械学習でYES/NOを決定してもよい。
総合出力部46で、技術常識を別途判断することについては、(1)トークンに分割された請求項を入力し、トークンのとある部分が技術常識、または、周知技術であると判断されたかを出力する技術常識判定システム1を適用することによって行ってもよいし、(2)トークンに分割された請求項のうち、技術常識、または、周知技術であるか否かを判定したいトークンの部分集合を入力し、当該部分集合が、技術常識、または、周知技術であるか否かを2値で判断する技術常識判定システム2を用いてもよい。これらの技術常識判定システムについては、既存の言語理解モデルを用いて構成してよい。
合成請求項トークンのうち、「YES(判断保留)」という新たなトークンを出力してもよく、ルールベース・機械学習でYES/NOを決定してもよい。
図8は、文書検索システムの画面インタフェースを例示する図である。図6の説明で既に述べた部分は省略する。
入力領域51には、特許審査対象、または、特許無効調査対象の請求項が入力され、引用文献表示領域52には、現在選択している引用文献の少なくとも一部分が表示され、文献一覧表示領域53には、文献一覧が表示されている。この他、文書変換処理に先立ち、特許文献PDmの集合を作るために、キーワードや、IPC、FI等を入力するテキストボックスと、検索ボタンが存在していてもよい。
入力領域51には、請求項が表示され、当該請求項の記載のうち、引用文献表示領域52a〜b内の文書の記載と内容的に一致する部分に対応した部分の色が変更されている(強調処理)。なお、請求項の記載のうち、引用文献表示領域52a〜bに対応した内容をそれぞれ別の色に変更してもよく、前述の技術常識判定システムで、技術常識、または、周知技術であると判断された部分を別の色に変更してもよい。
引用文献表示領域52aには、選択された引用文献の少なくとも一部分が表示され、文献の記載のうち、入力領域51内の文書の記載と内容的に一致する部分に対応した部分の色が変更されている。また、引用文献表示領域52bには、選択された他の引用文献の少なくとも一部分が表示され、文献の記載のうち、入力領域51内の文書の記載と内容的に一致する部分に対応した部分の色が変更されている。
文献一覧表示領域53には、対象となる特許文献一覧が組み合わせとして表示されており、例えば、主引例Y1と副引例Y2の順に表示されている。文献一覧表示領域53において、文献を選択することで、引用文献表示領域52a〜bが、Y1、Y2に対応した文献に変更される。ここで、一行に表示される文献は、1つであってもよいし、複数の組み合わせであってもよい。
文献一覧表示領域53の特許文献一覧は、前述した合成請求項トークン集合の「YES」トークンの数COUNTyes(OUTi)が高い順に基づいて並べ替えられており、より本願発明と複数の引用文献に記載の引用発明とがより一致しているものから、順に引用文献の組み合わせを精査していくことができる。
これにより、発明との相違点を直接認定して、相違点に対して、適用すべき他の引用発明を提示するため、再検索をするステップと、引用発明を認定・対比するステップを省略、または、それぞれの結果に修正を加えることで、省力化することができ、特許審査と特許無効調査をさらに効率よく行うことが可能となる。
引用文献表示領域52の数は、同時に表示すべき引用文献の数によって、増やしてもよいし、選択的に表示可能にしてもよい。これによって、ユーザが見やすい数の任意の引用文献を表示することが可能となる。
「一致指標○」として、前述した「YES」トークンの数COUNTyes(OUTi)に基づいて並べ替える他、「YES」トークンの数COUNTyes(OUTi)をそのまま用いるだけでなく、何らかの形で正規化したCOUNTyes(OUTi)を用いてもよい。また、COUNTyes(OUTi)の複数の指標を「一致指標○」として、文献一覧表示領域33に同時に表示し、「一致指標○」の欄をクリックすることで、当該指標に基づいて、文献を再び並び替えてもよい。
入力領域51で強調処理された部分のみを、入力領域51とは別に一致点表示領域54として表示する構成としてもよい。
学習データとしては、審決公報や拒絶理由通知、検索事業者の調査報告書を用いてもよい。
<7.調査支援システムの動作>
次に、図1に記載の調査支援システム100の具体的動作について説明する。
図9および図10は、調査支援システム100の動作を示す流れ図である。
以下、同図に示すステップ番号に沿って説明する。
ステップS01: 調査支援システム100は、不図示の特許文献などのデータベースにアクセスし、特許文献(以下「参照文」という)の集団をプレサーチにより適当な標本数まで絞り込む。絞り込まれた参照文の集団は、文献保持部12に入力される。
ステップS02: 文献保持部12は、入力された参照文を一件ずつトークン単位に分解し、前処理部13へ出力する。請求項保持部11は、文献調査の対象である請求項(以下「対象文」という)を取り込んで、トークン単位に分解し、前処理部13へ出力する。前処理部13は、対象文のトークン群と、1文書分の参照文のトークン群とを前後に連結して、入力対象トークン列INiを生成し、変換部14へ出力する。なお、対象文のトークン群と、参照文のトークン群を一度にどの程度入力対象トークン列INiとするかについては、適宜変更してよい。
ステップS03: 変換部14は、言語理解モデル15の入力に入力対象トークン列INiを与える。言語理解モデル15においては、対象文と参照文を比較して、対象文のトークンのうち、参照文に記載されている部分を一致点と判定し、その結果を出力対象トークン列OUTiとして出力する。
ステップS04: 入力部103は、この出力対象トークン列OUTiを、トークン単位の一致点に関する情報として取得する。表示制御部106は、この情報に基づいて、一致点を判別可能にした画面インタフェースを生成して、入力領域31(図6参照)に表示する。
ステップS05: ランキング部104は、対象文に占める一致点の数、割合、または位置に応じた重み付け評価値に基づいて、参照文の主引例としての適格性を評価する。
ステップS06: ランキング部104は、文献保持部12が保持する参照文の全てについて適格性の評価が完了した場合、ステップS07に動作を移行する。それ以外の場合、残りの参照文について処理を行うため、ランキング部104は、ステップS02に動作を戻す。
ステップS07: ランキング部104は、適格性が上位の参照文についてランキングを作成する。
ステップS08: 表示制御部106は、ランキング部104が作成したランキングに基づいて、適格性のランキング順位が判別可能になる画面インタフェースを生成して、文献一覧表示領域33(図6参照)に表示する。
ステップS09: 表示制御部106は、ランキング1位またはユーザ選択された順位の参照文を主引例の候補に選択する。
ステップS10: 表示制御部106は、主引例の候補について、一致点を判別可能にした画面インタフェースを生成して、入力領域31(図6参照)に改めて表示する。
ステップS11: ここでユーザ端末(図1参照)において主引例を変更する操作がなされた場合、表示制御部106はステップS09に動作を戻すことにより、主引例の候補変更を受け付ける。一方、ユーザ端末(図1参照)において主引例を確定する操作がなされた場合(または変更する操作がなされない場合)、表示制御部106はステップS21に動作を移行する。
ステップS21: 相違点抽出部105は、確定された主引例との一致点を対象文から除いて、トークン単位の相違点を抽出する。
ステップS22: 相違点抽出部105は、トークン単位の相違点に対して、前方後方のトークンを連結して文節または文章などの言語単位の相違点を生成する。この処理により、相違点は、文節や文章のように文意がつながり、言語理解が可能なものになる。したがって、相違点を言語理解モデル15において文意を含めて処理することが可能になる。
ステップS23: 相違点抽出部105は、相違点に対して、主引例の課題、技術分野、および機能および作用の少なくとも1つの論理付け要素を追加する。この処理により、後述する副引例の検索では、主引例と課題、技術分野、機能および作用の少なくも1つが共通する副引例を検索することが可能になる。このような副引例は、主引例と組み合わせる一応の論理付けが可能になるため、副引例としての適格性が高くなる。
ステップS24: 相違点抽出部105は、相違点を請求項保持部11へ出力する。前処理部13は、相違点のトークン群と、一件分の参照文のトークン群とを前後に連結して、入力対象トークン列INiを生成し、変換部14へ出力する。変換部14は、言語理解モデル15の入力に入力対象トークン列INiを与える。言語理解モデル15は、相違点と参照文との一致点をトークン単位に示す出力対象トークン列OUTiを出力する。ランキング部104は、相違点に占める一致点の数、割合、または位置に応じた重み付け評価値に基づいて、参照文の副引例としての適格性を評価する。
ステップS25: ランキング部104は、文献保持部12が保持する参照文の全てについて適格性の評価が完了した場合、ステップS26に動作を移行する。それ以外の場合、残りの参照文について処理を行うため、ランキング部104は、ステップS24に動作を戻す。
ステップS26: ランキング部104は、副引例としての適格性が上位の参照文についてランキングを作成する。表示制御部106は、ランキング部104が作成したランキングに基づいて、適格性のランキング順位が判別可能になる画面インタフェースを生成して、図6と同様の画面に表示する。
ステップS27: 表示制御部106は、ランキング1位またはユーザ選択された順位の参照文を副引例の候補に選択する。
ステップS28: 表示制御部106は、主引例の候補について、一致点を判別可能にした画面インタフェースを生成して、図6と同様の画面に表示する。
ステップS29: ここでユーザ端末(図1参照)において副引例を変更する操作がなされた場合、表示制御部106はステップS27に動作を戻すことにより、副引例の候補変更を受け付ける。一方、ユーザ端末(図1参照)において副引例を確定する操作がなされた場合(または変更する操作がなされない場合)、表示制御部106はステップS30に動作を移行する。
ステップS30: 相違点抽出部105は、確定された副引例との一致点を相違点から除いて、新たな相違点を生成する。
ステップS31: ここでユーザ端末(図1参照)において副引例の検索を継続する操作がなされた場合、表示制御部106はステップS22に動作を戻すことにより、さらなる副引例の検索を続行する。一方、ユーザ端末(図1参照)において副引例の検索を完了する操作がなされた場合(または継続する操作がなされない場合)、表示制御部106は動作を完了する。
上述した一連の動作により、調査支援方法が実行される。
<8.実施例の効果>
以下、上述した実施例の効果について説明する。
(1)実施例では、対象文と参照文との一致点に関する情報に基づいて、一致点を判別可能にする画面処理を加えた表示画面を生成して表示可能にする。したがって、文献の調査者に、対象文と参照文の一致点を把握させることが可能になる。
(2)実施例では、トークン単位に一致点に関する情報を求める。そのため、文章や段落や文や文節といった単位よりも細かい粒度で一致点を判定することが出来るため、文節単位で請求項と引用例との一致判定する場合よりも、どの構成要件が相違しているか具体的にユーザに提示することが可能となる。
(3)実施例では、単純なキーワードマッチングではなく、ニューラル言語理解モデルを使って、文の一致を判定するので、単語の分散表現によって類義語を考慮し、ニューラル言語理解モデルによってエンド・トゥー・エンドの学習で獲得した文の品詞や統語構造、単語の関係性等を考慮した、より精緻な一致点の判定を行うことが出来る。例えば、単にトークン対トークンという一致点だけでなく、トークンの前後方向に共起する他のトークンの出現傾向に基づいて同綴異義語を区別するなどが可能になるため、例えば、同綴異義語を区別した一致点の判定が可能になる。
(4)実施例では、対象文に占める一致点の数、割合、または、一致点に基づいた評価値に応じて、対象文に対する参照文の主引例としての適格性を評価する。そのため、複数の参照文を主引例の候補として、どの参照文が主引例として適格であるかを比較することが可能になる。また、単純に検索ランキングを用いる場合と異なり、対象文に占める一致点に基づいて適格性の評価を行っていることから、当該参照文がどうして適格性が高いかの根拠について、一致点を具体的に表示することでユーザに提示することが可能となり、ユーザが、適格性が高い根拠を評価した上で利用することが可能となる。
(5)実施例では、一致点について対象文の中の出現箇所に応じた重み付けを行って評価値を求める。例えば、特許の請求項のように所定の書式に従って作成された対象文の場合、特徴を示す重要部分を対象文の中の出現箇所に応じて選別できる。そこで、対象文の中で、重要部分に出現した一致点については評価の重みを強め、非重要部分に出現した一致点については評価の重みを弱めることにより、主引例として適格か否かを重要度も加味して判定することが可能になる。
(6)実施例では、複数の参照文について、主引例としての適格性のランキング順位を判別可能にした表示画面を表示可能にする。したがって、文献の調査者に対して、どの参照文が主引例として適格かを把握させることが可能になる。
(7)実施例では、適格性に基づいて参照文の中から選択された主引例に応じて、対象文と主引例の一致点を対象文から除くことにより、相違点を求めることが可能になる。
(8)実施例では、対象文と主引例との一致点を対象文から除いて、残ったトークンに基づいて、言語単位を対象文から抽出して、相違点とする。したがって、文意を有する単位で相違点を対象文から抽出することが可能になる。
(9)実施例では、相違点の一部または全部と一致する副引例を検索する。したがって、文献の調査者に対し、副引例の検索作業を支援することが可能となる。
(10)実施例では、相違点に対して、主引例から抽出した課題、技術分野、機能および作用の少なくとも1つの論理付け要素を追加し、主引例の論理付け要素と一致点を有する副引例を検索する。したがって、検索される副引例は、主引例に対して「課題の共通性」、「技術分野の共通性」、「機能や作用の共通性」のいずれかの論理付け要素を有するようになる。このような論理付け要素により、主引例の記載発明に副引例の記載発明を組み合わせる一応の論理付けが成り立つため、特許の進歩性判断などに役立つ副引例を検索することが可能になる。
(11)実施例では、相違点から副引例との一致点を削減し、残った相違点について副引例の検索を繰り返す。したがって、特許の進歩性判断に役立つ副引例を再帰的に検索することが可能になる。
(12)実施例では、副引例と、相違点との対応関係を判別可能にした表示画面を生成して表示可能にする。したがって、文献の調査者に対して、どの参照文が副引例として適格かを把握させることが可能になる。
(13)実施例では、対象文の表示領域において、一致点に相当する部分を強調表示する画面インタフェースを備える。したがって、文献の調査者に対して、参照文が対象文の中のどの部分と一致したかを容易に把握させることが可能になる。
(14)実施例では、主引例や副引例の適格性について、判断項目を変更して、ランキングの並べ替えを行うことができる。したがって、文献の調査者は、種々の観点で判断項目を切り替えながら、どの参照文が主引例や副引例として適格かを比較することが可能になる。
<9.実施例の補足事項>
なお、実施例では、特許審査や特許無効調査を支援する場合について特に説明した。しかしながら、本発明はこれに限定されない。文章間の一致点を判定する用途に広く適用することができる。例えば、論文やレポートの盗用問題や、文章の著作権問題などに対応して、対象文と似たものを検索するなどの用途に適用してもよい。
また、実施例では、言語理解モデルを使用する場合について特に説明した。しかしながら、本発明はこれに限定されない。例えば、ルールベースや類義語辞書データやカウントベースに基づいて一致点を判定してもよい。
また、実施例では、一致点の数や割合や評価値などの適格性の評価について、言語理解モデルの出力後に行う場合について特に説明した。しかしながら、本発明はこれに限定されない。言語理解モデルの内部において適格性を評価し、言語理解モデルの出力の一部として適格性を出力するようにしてもよい。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。
また、実施例の構成の一部について、他の構成を追加・削除・置換することが可能である。
11…請求項保持部、12…文献保持部、13…前処理部、14…変換部、15…言語理解モデル、41…本願保持部、42…文書変換部、42…文書変換部、43…データベース、44…クエリ自動構築部、45…結果保持部、46…総合出力部、100…調査支援システム、101…判定部、102…演算部、103…入力部、104…ランキング部、105…相違点抽出部、106…表示制御部

Claims (14)

  1. コンピュータシステムが文献の調査を支援するための方法であって、
    対象文と参照文との一致点に関する情報を取得する入力ステップと、
    前記一致点を判別可能にする画面処理を加えた表示画面を生成し、前記表示画面を表示可能にする表示制御ステップと
    を備えたことを特徴とする調査支援方法。
  2. 請求項1に記載の調査支援方法において、
    トークンごとに一致点を判定する言語理解モデルに対して前記対象文および前記参照文を入力し、前記一致点に関する情報を求める判定ステップを備える
    ことを特徴とする調査支援方法。
  3. 請求項2に記載の調査支援方法において、
    前記言語理解モデルは、ニューラル言語理解モデルであることを特徴とする調査支援方法。
  4. 請求項2〜3の何れか一項に記載の調査支援方法において、
    前記対象文に占める前記一致点の数、割合、または一致点に基づいた評価値に応じて、前記対象文に対する前記参照文の主たる比較対象(以下「主引例」という)としての適格性を評価するランキングステップを備える
    ことを特徴とする調査支援方法。
  5. 請求項4に記載の調査支援方法において、
    前記ランキングステップは、
    前記一致点について前記対象文の中の出現箇所に応じた重み付けを行って前記評価値を求め、前記評価値に応じて前記参照文の前記主引例としての前記適格性を評価する
    ことを特徴とする調査支援方法。
  6. 請求項4〜5のいずれか一項に記載の調査支援方法において、
    前記表示制御ステップは、
    複数の前記参照文について、前記主引例としての前記適格性のランキング順位を判別可能にする画面処理を加えた表示画面を生成し、前記表示画面を表示可能にする
    ことを特徴とする調査支援方法。
  7. 請求項5〜6のいずれか一項に記載の調査支援方法において、
    前記適格性に基づいて前記参照文の中から選択された前記主引例に基づいて、前記対象文と前記主引例の前記一致点を前記対象文から除くことにより、相違点を求める相違点抽出ステップを備える
    ことを特徴とする調査支援方法。
  8. 請求項7に記載の調査支援方法において、
    前記相違点抽出ステップは、
    前記対象文と前記主引例との前記一致点を前記対象文から除いた結果、残ったトークンに基づいて文節または文章などの言語単位を前記対象文から抽出して、前記相違点とする
    ことを特徴とする調査支援方法。
  9. 請求項7〜8のいずれか一項に記載の調査支援方法において、
    前記判定ステップは、
    前記相違点の一部または全部と一致する従たる比較対象(以下「副引例」という)を検索する
    ことを特徴とする調査支援方法。
  10. 請求項9に記載の調査支援方法において、
    前記相違点抽出ステップは、
    前記相違点に対して、前記主引例から抽出した課題、技術分野、機能および作用の少なくとも1つの論理付け要素を追加し、
    前記判定ステップは、
    前記主引例の前記論理付け要素と前記一致点を有する前記副引例を検索する
    ことを特徴とする調査支援方法。
  11. 請求項9〜10のいずれか一項に記載の調査支援方法において、
    前記相違点抽出ステップは、
    前記相違点と前記副引例との一致点を、前記相違点から除き、
    前記判定ステップは、
    残った前記相違点について、さらに次の副引例の検索を行い、
    前記相違点抽出ステップと、前記判定ステップとを繰り返す
    ことを特徴とする調査支援方法。
  12. 請求項9〜11のいずれか一項に記載の調査支援方法において、
    前記表示制御ステップは、
    前記副引例と、前記相違点との対応関係を判別可能にする画面処理を加えた表示画面を生成し、前記表示画面を表示可能にする
    ことを特徴とする調査支援方法。
  13. コンピュータに、請求項1〜12のいずれか一項に記載の前記調査支援方法を実行させる
    ことを特徴とする調査支援用コンピュータプログラム。
  14. 文献の調査を支援するための調査支援システムであって、
    対象文と参照文との一致点に関する情報を取得する入力部と、
    前記一致点を判別可能にする画面処理を加えた表示画面を生成し、前記表示画面を表示可能にする表示制御部と
    を備えたことを特徴とする調査支援システム。
JP2019086100A 2019-04-26 2019-04-26 調査支援方法、調査支援用コンピュータプログラムおよび調査支援システム Active JP7348746B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019086100A JP7348746B2 (ja) 2019-04-26 2019-04-26 調査支援方法、調査支援用コンピュータプログラムおよび調査支援システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019086100A JP7348746B2 (ja) 2019-04-26 2019-04-26 調査支援方法、調査支援用コンピュータプログラムおよび調査支援システム

Publications (2)

Publication Number Publication Date
JP2020181529A true JP2020181529A (ja) 2020-11-05
JP7348746B2 JP7348746B2 (ja) 2023-09-21

Family

ID=73024779

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019086100A Active JP7348746B2 (ja) 2019-04-26 2019-04-26 調査支援方法、調査支援用コンピュータプログラムおよび調査支援システム

Country Status (1)

Country Link
JP (1) JP7348746B2 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000112949A (ja) * 1998-09-30 2000-04-21 Fuji Xerox Co Ltd 情報判別支援装置及び類似情報判別支援プログラムを記録した記録媒体
JP2005258624A (ja) * 2004-03-10 2005-09-22 Fuji Xerox Co Ltd 言語処理装置、言語処理方法およびプログラム
JP2005258831A (ja) * 2004-03-11 2005-09-22 Patolis Corp 類似文書検索方法
JP2008015774A (ja) * 2006-07-05 2008-01-24 Nagaoka Univ Of Technology 模倣文書検出システム及びプログラム
JP2012073877A (ja) * 2010-09-29 2012-04-12 Mitsubishi Space Software Kk 文書検索装置及び文書検索システム及びコンピュータプログラム及び文書検索方法
JP2012212329A (ja) * 2011-03-31 2012-11-01 Tottori Univ テキストデータの冗長性を解析する情報解析装置
WO2018131259A1 (ja) * 2017-01-11 2018-07-19 パナソニックIpマネジメント株式会社 文章評価装置、及び文章評価方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002175003A (ja) 2000-12-08 2002-06-21 Tdk Corp 発音学習システム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000112949A (ja) * 1998-09-30 2000-04-21 Fuji Xerox Co Ltd 情報判別支援装置及び類似情報判別支援プログラムを記録した記録媒体
JP2005258624A (ja) * 2004-03-10 2005-09-22 Fuji Xerox Co Ltd 言語処理装置、言語処理方法およびプログラム
JP2005258831A (ja) * 2004-03-11 2005-09-22 Patolis Corp 類似文書検索方法
JP2008015774A (ja) * 2006-07-05 2008-01-24 Nagaoka Univ Of Technology 模倣文書検出システム及びプログラム
JP2012073877A (ja) * 2010-09-29 2012-04-12 Mitsubishi Space Software Kk 文書検索装置及び文書検索システム及びコンピュータプログラム及び文書検索方法
JP2012212329A (ja) * 2011-03-31 2012-11-01 Tottori Univ テキストデータの冗長性を解析する情報解析装置
WO2018131259A1 (ja) * 2017-01-11 2018-07-19 パナソニックIpマネジメント株式会社 文章評価装置、及び文章評価方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
深谷 亮: "単語の頻度統計を用いた文章の類似性の定量化", 電子情報通信学会論文誌, vol. 第J87-D-II巻, 第2号, JPN6023012889, 1 February 2004 (2004-02-01), pages 661 - 672, ISSN: 0005026720 *
田辺 千夏: "ビッグデータ時代における特許情報調査への人工知能の活用", 情報の科学と技術, vol. 第67巻, 第7号, JPN6023012888, 1 July 2017 (2017-07-01), pages 372 - 376, ISSN: 0005026719 *

Also Published As

Publication number Publication date
JP7348746B2 (ja) 2023-09-21

Similar Documents

Publication Publication Date Title
KR102577514B1 (ko) 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체
CN110298033B (zh) 关键词语料标注训练提取系统
US10140333B2 (en) Trusted query system and method
CN112507715A (zh) 确定实体之间关联关系的方法、装置、设备和存储介质
US7987416B2 (en) Systems and methods for modular information extraction
CN110321432A (zh) 文本事件信息提取方法、电子装置和非易失性存储介质
US20080052262A1 (en) Method for personalized named entity recognition
US20150081277A1 (en) System and Method for Automatically Classifying Text using Discourse Analysis
US20040163043A1 (en) System method and computer program product for obtaining structured data from text
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
Kmail et al. An automatic online recruitment system based on exploiting multiple semantic resources and concept-relatedness measures
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
US20220129448A1 (en) Intelligent dialogue method and apparatus, and storage medium
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
JPH08255172A (ja) 文書検索システム
JP2014120053A (ja) 質問応答装置、方法、及びプログラム
CN110020024B (zh) 一种科技文献中链接资源的分类方法、系统、设备
Haq et al. Urdu named entity recognition system using deep learning approaches
CN114896387A (zh) 军事情报分析可视化方法、装置以及计算机可读存储介质
JP2006227823A (ja) 情報処理装置及びその制御方法
JPH0844771A (ja) 情報検索装置
JP7167997B2 (ja) 文献検索方法および文献検索システム
Khan et al. Pattern and semantic analysis to improve unsupervised techniques for opinion target identification.
JPH08129554A (ja) 関係表現抽出装置および関係表現検索装置
JP7348746B2 (ja) 調査支援方法、調査支援用コンピュータプログラムおよび調査支援システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220420

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230908

R150 Certificate of patent or registration of utility model

Ref document number: 7348746

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150