JP2020181529A

JP2020181529A - 調査支援方法、調査支援用コンピュータプログラムおよび調査支援システム

Info

Publication number: JP2020181529A
Application number: JP2019086100A
Authority: JP
Inventors: 雄太郎石川; Yutaro Ishikawa
Original assignee: JAPAN PATENT INFORMATION ORGANIZATION
Current assignee: JAPAN PATENT INFORMATION ORGANIZATION
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2020-11-05
Anticipated expiration: 2039-04-26
Also published as: JP7348746B2

Abstract

【課題】本発明は、調査対象と一致点を有する文献の検索調査を支援する技術を提供する。【解決手段】代表的な本発明の調査支援方法の一つとしては、コンピュータシステムが文献の調査を支援するための方法であって、対象文と参照文との一致点に関する情報を取得する入力ステップと、一致点を判別可能にする画面処理を加えた表示画面を生成し、表示画面を表示可能にする表示制御ステップとを備える。また、トークン単位の一致点を判定する言語理解モデルに対して対象文および参照文を入力し、一致点に関する情報を求めてもよい。このような調査支援方法により、調査対象と一致点を有する文献の検索調査を支援することが可能になる。【選択図】図１

Description

本発明は、調査支援方法、調査支援用コンピュータプログラムおよび調査支援システムに関する。

特許審査や特許無効調査の際には、新規性や進歩性などの特許性の有無を判断するために、先行技術文献の調査を行う。先行技術文献の調査においては、特許審査や特許無効理由の調査対象となる請求項に対応するキーワードと、ＩＰＣ（国際特許分類）、ＦＩ（ファイルインデックス）等の特許分類を組み合わせて、特許文献データベースの検索を行い、さらに非特許文献データベースの検索も行う。検索時には、大量の特許文献に対して、調査者の求める観点で特許分類やキーワードを選定し、組み合わせて検索を行うことで、文献数を絞り込み、所定数になった段階で文献内容の確認を行う。そして、内容の確認により発見された先行技術文献に基づいて、引用発明を認定し、請求項に係る発明と一の引用発明とを対比して、一致点及び相違点を認定する。次に、相違点について、再び先行技術調査を行なって、相違点に係る構成に対応する他の引用文献を発見すれば、一の引用発明に、他の引用発明を適用することが容易といえる論理付けが出来るか否かを検討する。この検討を繰り返し行い、特許審査や特許無効調査が完了する。

一方、近年、ニューラル言語理解モデルが急速に発展を遂げている。
伝統的な言語理解モデルには、規則方式の言語理解モデルと統計方式の言語理解モデルの２種類があるが、規則方式の言語理解モデルでは、各ドメインに対する深い知識を持った者が、類義語判定や構文解析等の言語理解に必要なサブタスクの種類を考え、各サブタスクに対する必要な特徴量を設計するだけでなく、言語理解のための規則やアルゴリズムまで自ら考えなければならなかった。そのため、大規模で実用的なシステムを構築するのは困難であった。また、統計方式の言語理解モデルにおいては、サブタスクの種類を考え、特徴量を設計するのは人間であるが、言語理解のための規則は学習データから統計的機械学習の手法によって自動的に構築できる。しかしながら、各サブタスクに特化した学習データを別個に用意しなければならないため、実用上精度の高いモデルを作成することは、大変困難であった。

特に、技術に関する説明文を扱う場合においては、同一の技術的概念を指し示す事柄が別の側面から記載されていたり、１つの単語で表され得る概念が、新技術が開発されたばかりのころは、説明文的に記載される等の特徴があるため、技術に関する説明文について、２文間の意味的な対比を考えた際に、伝統的な言語理解モデルを用いて、対比に必要な各サブタスクを全て列挙すること自体、困難性が高く、それらに即した特徴量設計とデータ収集も、また、大変ハードルが高かった。

一方、ニューラル言語理解モデルにおいては、ニューラルネットワークを用いて、入力から出力までエンド・トゥー・エンドで学習させることにより、各サブタスクの列挙と特徴量設計や、各サブタスクに特化したデータの準備を必要とせずに、精度の高い言語理解モデルを構築することが可能であるため、技術に関する説明文の対比の際にはメリットがある。ニューラル言語モデルにおいては、一般的に、単語等の入力トークンに対応する分散表現が用いられる。また、ニューラル言語理解モデルにおいては、言語を扱うことから、以下のような要件を満たす必要がある。
a) 任意の長さの文章を扱える。つまり可変長データを扱うことできる。
b) トークン(単語など)に出現順（時系列）を考慮する仕組みが利用できる。
c) 離れたトークン間にある長距離依存関係が扱える。
このような特徴を持つ既存の仕組みとして、CNN、RNN、位置埋め込み（positional embeddings）を用いたモデル等が考えられるが、ニューラル言語理解モデルにおいては、何れのモデルを用いることも可能である。例えば、CNN、RNN を使ったモデルについては、単純なニューラルネットワークでは扱いきれない、時系列データをうまく扱うことが出来る。CNN、RNNをエンコーダとして用いると、可変長トークン列を時系列として扱うことができる。これらのエンコーダとデコーダを組み合わせたモデルは、シーケンス・トゥー・シーケンスモデルと呼ばれ、主に機械翻訳等に用いられる。

また、位置埋め込みを用いたエンコーダ、デコーダモデルの例として、トランスフォーマ（Transformer）が存在する。トランスフォーマは、自己アテンションを用いることで、トークン間の長距離依存関係の知識をうまく補足でき、シーケンス・トゥー・シーケンスモデルに比して、計算量が小さいメリットがあるため、トランスフォーマのエンコーダ部分を用いる研究も進んでいる。

ここで、非特許文献１には、アテンション機構を利用した強力なエンコーダを備えたモデルであるトランスフォーマのエンコーダ部分を利用したＢＥＲＴ(Bidirectional Encoder Representations from Transformers)という技術が提案されている。これは、言語モデルを大規模なデータによって事前学習（Pre-training）し、その後、タスクに特化した比較的小規模のファインチューニング（Fine-Tuning）を行うことで、8個のベンチマークタスクで最高性能（State of the art）を達成したモデルであり、近年注目されている。

Jacob Devlin、外3名、"BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding."、［online］、2018年10月11日、［2019年4月5日検索］、インターネット〈ＵＲＬ：https://arxiv.org/pdf/1810.04805.pdf〉

特許審査や特許無効調査においては、国内だけでなく海外の文献の先行技術調査も必要とされるため、年々大量に蓄積される世界中の先行技術文献を、過去から遡って網羅的に調査しなければならないことを考えると、益々手間がかかるものとなっている。特許行政年次報告書２０１８によると、２００７年に１８７．４万件であった世界の特許出願件数は、この１０年で１．７倍に増加し２０１６年には４１２．８万件に達している。

そして、従来の先行技術文献調査においては、キーワードや特許分類を組み合わせて、検索を行った後、検索結果から発見された先行技術文献に基づいて、引用発明を認定して、請求項に係る発明と当該引用発明とを対比して、一致点及び相違点を認定するという複雑なステップを経るため、1つの先行技術文献を発見する検索の手間に加えて、当該先行技術文献に対して、一致点及び相違点を認定しなければならず、精度の高い結果を得るためには、特許審査や特許無効調査は、対象技術に関する有識者が、長い時間をかけて行う必要がある。

さらに、特許審査や特許無効調査においては、引用発明の検索結果だけではなく、引用文献となり得る理由について、出願人や依頼者が明確に理解できるように提示（支援）することが好ましい。

なお、非特許文献１には、特許審査や特許無効調査などについての具体的な開示もなく、調査対象と一致点を有する文献の具体的な検索方法についても開示は見当たらない。また、非特許文献１には、２文を比較して、文の特定部分を抜き出すタスクは記載されているが、２文を比較して、トークンごとにラベルの判別を行うタスクは記載されていない。

そこで、本発明は、調査対象と一致点を有する文献の検索調査を支援する技術を提供することを目的とする。

上記課題を解決するために、代表的な本発明の調査支援方法の一つは、コンピュータシステムが文献の調査を支援するための方法であって、対象文と参照文との一致点に関する情報を取得する入力ステップと、一致点を判別可能にする画面処理を加えた表示画面を生成し、表示画面を表示可能にする表示制御ステップとを備える。

本発明は、調査対象と一致点を有する文献の検索調査を支援することが可能になる。
上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。

図１は、調査支援システムの全体構成を説明する図である。図２は、ＢＥＲＴの基本構成を説明する図である。図３は、言語理解モデルの機械学習を説明する図である。図４は、入力対象トークン列を出力対象トークン列に変換する例を示す図である。図５は、入力対象トークン列を出力対象トークン列に変換する例を示す図である。図６は、画面インタフェースを例示する図である。図７は、調査支援システムを応用した文書検索システムを示す図である。図８は、文書検索システムの画面インタフェースを例示する図である。図９は、調査支援システムの動作を示す流れ図（１／２）である。図１０は、調査支援システムの動作を示す流れ図（２／２）である。

以下、図面を用いて、本発明の実施例を説明する。

＜１．調査支援システム１００の全体構成＞
図１は、調査支援システム１００の全体構成を説明する図である。
同図において、調査支援システム１００は、判定部１０１、および演算部１０２を備える。
判定部１０１は、請求項保持部１１、文献保持部１２、前処理部１３、変換部１４、および言語理解モデル１５を備える。
演算部１０２は、入力部１０３、ランキング部１０４、相違点抽出部１０５、および表示制御部１０６を備える。演算部１０２に関しては、より詳しくは、後述の図７の調査支援システムを応用した文書検索システムの仕組みを用いることが可能である。

請求項保持部１１は、入力された自然言語の請求項文CLMn（対象文）を、Mecabなどの形態素解析器や、SentencePieceなどのトークナイザにより、トークンに分解して保持する。ここでのトークンは、自然言語処理の技術分野の用語であり、自然言語の文を構成する基本単位を表す。好ましくは、トークンは、文節よりも短く、文字よりも長い単位である。

文献保持部１２は、特許文献PDm（参照文）の集合を、トークン列に分解して保持している。

前処理部１３は、請求項文CLMnと特許文献PDmを1対1で、前後に繋げて、1つの入力対象トークン列INiとする。請求項文CLMnと、特許文献PDmとの少なくとも片方のトークン列の長さが大きすぎ、後の操作に支障が出る際は、請求項文CLMnから、特定サイズのウィンドウ幅を、一定の間隔でずらすことによって、トークン列の一部としてCLMnjを生成し、同様に特許文献PDmとのトークン列の一部としてPDmkを生成して、CLMnjとPDmkとを前後に繋げ、jとkとを全て組み合わせて、入力対象トークン列INiとしてよい。

変換部１４は、言語理解モデル１５を使用して、入力対象トークン列INiを出力対象トークン列OUTiに変換する。

入力部１０３は、出力対象トークン列OUTiを、一致点に関する情報として判定部１０１から取得する。出力対象トークン列OUTiは、例えば、２値のラベルであり、対応する入力対象トークン列INi内のトークンと、同じインデックスを持つトークンについて、一致点であるトークンを「YES」、一致点でないトークンを「NO」として一致点に関する情報を表す。（後述の図４−５に、詳細の記載がある。）

ランキング部１０４は、一致点に関する情報に基づいて、参照文の比較対象としての適格性を評価する。ここでの比較対象は、処理の進行に応じて、後述の相違点抽出前に、第１番目に比較される参照文（以下「主引例」という）や、相違点抽出後に、第２番目以降に比較される参照文（以下「副引例」という）にそれぞれ該当する。
例えば、ランキング部１０４は、対象文に占める一致点の数（例えば、一致しているトークンの数）が多いほど、適格性の評価を高くする。
また例えば、ランキング部１０４は、対象文に占める一致点の割合（例えば、一致しているトークンの数を、前トークン数で割った値）が多いほど、適格性の評価を高くする。この割合には、文字数やトークン数などの割合の他に、対象文において複数の一致点が集中または分散する粗密の度合などを加味してもよい。
また例えば、ランキング部１０４は、一致点の評価値が高いほど、適格性の評価を高くする。例えば、一致点が示すトークンが専門分野の用語であるなど特殊性があって特徴的な用語であるほど、一致点の評価値を高くしてもよい。また、例えば、対象文の中の一致点の出現箇所が書式などから定まる重要箇所または基本箇所であるほど、一致点の評価値の重み付けを高くしてもよい。
さらに、これらの項目を評価関数などで組み合わせる、また他の評価をさらに加味するなどして、参照文の比較対象としての適格性を総合的に評価してもよい。
また、ランキング部１０４は、求めた適格性に基づいて、複数の参照文のランキングを行う。
なお、ランキング部１０４の適格性の評価やランキングなどの機能は、後述する結果保持部４５、総合出力部４６（図７参照）の機能と少なくとも一部重複するため、ランキング部１０４について、結果保持部４５、総合出力部４６と同様の機能については重複説明を省略する。また、結果保持部４５、総合出力部４６の機能の少なくとも一部を、ランキング部１０４の機能として、採用してもよい。

相違点抽出部１０５は、対象文から主引例との一致点を除くことにより、相違点を求める。さらに、相違点抽出部１０５は、対象文から、文、文節、単語、形態素などの意味のある言葉の単位（以下、言語単位という）になるように、相違点抽出範囲を調整する。これにより、Sentence Pieceなどを用いた場合に、形態素のうち一部分だけが相違点と認定されてしまうケース等で、言語的な意味のない相違点抽出を防ぐことが出来る。また、相違点抽出部１０５は、このように調整された相違点は請求項保持部１１に改めて入力され、判定部１０１における副引例の探索に供せられる。
なお、相違点抽出部１０５の相違点を処理する機能は、後述するクエリ自動構築部４４（図７参照）の機能と少なくとも一部重複するため、相違点抽出部１０５について、クエリ自動構築部４４と同様の機能については重複説明を省略する。また、クエリ自動構築部４４の機能の少なくとも一部を、相違点抽出部１０５の機能として、採用してもよい。

表示制御部１０６は、一致点を判別可能にする画面処理を加えた表示画面や、主引例の候補のランキング画面や、副引例と相違点との対比画面などの画面インタフェースを生成し、ユーザ端末へ送信する。

このような構成の調査支援システム１００は、例えば、ハードウェアとしてＣＰＵ（Central Processing Unit）やメモリやデータベースなどを備えたコンピュータシステムにより構成される。

このハードウェアが調査支援用コンピュータプログラムを実行することにより、後述する図９および図１０に示す調査支援方法が実施される。

このハードウェアの一部または全部については、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）などの均等の手段で代替してもよい。例えば、多数のベクトル演算が発生する変換部１４（言語理解モデル１５）は、多数の演算コアを備えたＧＰＵなどの演算手段で実現し、判断分岐などの処理が発生する演算部１０２はＣＰＵなどの演算手段で実現してもよい。

また、ハードウェアの一部または全部をネットワーク上のサーバーに集中または分散してクラウド配置し、複数の人がネットワークを介して共同使用してもよい。

＜２．言語理解モデル１５の説明＞
次に、言語理解モデル１５について説明する。

言語理解モデル１５とは、上述したとおり、コンピュータに人間が行っているような自然言語理解をさせることを目的としたモデルである。本明細書中では、ニューラル言語理解モデルの一種であるＢＥＲＴを主として説明を行うが、他のニューラル言語理解モデルや伝統的な言語理解モデルを用いてもよい。

図２は、ＢＥＲＴの基本的な構成を説明する図である。ＢＥＲＴは、トランスフォーマエンコーダＴｍをネットワーク状に結合させて構成される。Ｅ１〜Ｅｎは入力埋め込み（input embeddings）であり、トークン埋め込み（token embeddings）、セグメント埋め込み（segment embeddings）、位置埋め込み（position embeddings）を足すことで生成してよい。個々のトランスフォーマエンコーダＴｍは、マルチヘッドアテンション２１、残差接続・正規化のブロック２２、フィードフォワードネットワーク２３、および残差接続・正規化のブロック２４などを備えて構成される。Ｔ１〜Ｔｎは、各入力トークンに対応した文脈表現（contextual representation）である。

＜３．言語理解モデル１５の機械学習＞
続いて、言語理解モデル１５の機械学習について説明する。
図３は、言語理解モデル１５の機械学習を説明する図である。

同図において、入力データには、予め一致点を有することが分かっている学習用の文章を使用する。例えば、特許審決書類には、「本願請求項に係る発明」と、「主引例に記載された事項」のように、互いに表現上は異なっていても、意味的（技術的）な一致点を一部に有する文章データが蓄積されている。「本願請求項に係る発明」において、どの部分が主引例との一致点になるかは、具体的には、「一致点の認定」に記載されている。なお、特許審決書類と同様に、特許審査書類からも同様の事項は抽出可能である。

訓練用の文章は、それぞれトークン単位に区切られた後、「審決対象の請求項に係る発明」と、「主引例に記載された事項」のように、技術的な一致点を一部に有する文章同士について、適当なトークンを間に挟み、前後につなげて、１つの入力データが作成される。このとき、適当なトークンとして、文の切れ目を表す記号（[SEP]）を付加してもよく、また、文頭記号（[CLS]）や文末記号（文の切れ目を表す記号と同様に、[SEP]）を付加してもよい。一方、「審決対象の請求項に係る発明」と、「一致点の認定」との記載を最長部分一致を用いるなどして、「審決対象の請求項に係る発明」をトークン単位で、「主引例に記載された事項」との一致、不一致を判定したものを出力データとして作成する。

または、「審決対象の請求項に係る発明」と、「主引例に記載された事項」について、特定の指標を用いて、関連性が極めて低いと判定された文章同士について、適当なトークンを間に挟み、前後につなげて、１つの入力データが作成し、全トークンが不一致と判定された出力データを作成する。

また、公知のデータ拡張の手法を用いて、学習データを増やしてもよい。このような入出力データを学習データとして収集することにより学習セットが得られる。言語理解モデル１５は、当該学習セットによって、機械学習を行う。

なお、エンコーダ内部にアテンションを用いたＢＥＲＴ等のモデルにおいては、各入力トークンに対応した文脈表現Ｔｉの出力に際して、「審決対象の請求項に係る発明」内の自身と対応する入力埋め込みＥｉを参照するだけではなく、「主引例に記載された事項」内の入力埋め込みＥｊをも参照するため、学習された結果として、「審決対象の請求項に係る発明」と、「主引例に記載された事項」とで技術的、意味的に一致するトークンが高い関連性を有するように言語理解モデル１５の内部パラメータが更新される。
このような機械学習により、言語理解モデル１５のうち、アテンションを用いたＢＥＲＴ等のモデルにおいては、一致点と推定されるトークンの組み合わせに対して、対応するアテンションの位置に高い値を生成するようになる。

＜４．言語理解モデル１５の推定動作＞
機械学習を済ませた言語理解モデル１５の推定動作について説明する。
図４は、変換部１４が、言語理解モデル１５を使用して、入力対象トークン列INiを、出力対象トークン列OUTiに変換する例を示す図である。

出力対象トークン列OUTiとしては、入力された自然言語の請求項文CLMn（CLMnj）のトークンのうち、特許文献PDm（PDmk）内の記載と内容的に一致するトークンに対応するトークンを「YES」として、それ以外を「NO」として出力する（パターン１）。

このように、入力された自然言語の請求項文CLMnについて、トークン単位で特許文献PDmとの一致点（「YES」）と相違点（「NO」）が出力されることにより、引用発明を認定して、請求項に係る発明と一の引用発明とを対比するというステップを省略、または、機械的に認定した結果を修正することで、人間の作業を省力化することができる。

別の構成として、変換部１４は、言語理解モデル１５の推定処理に基づいて、「YES」と「NO」をそのまま出力することに加えて、「YES」トークンの数COUNTyes（OUTi）を出力してもよい。このCOUNTyes(OUTi)が高い値であるほど、適格性の評価が高くなる構成としてよい。また、これらの数に基づいて、後述する主引例の候補の表示順（ランキング）を並び替えてもよい。

これによって、スコアに応じて、大量の文献を何らかの形で区別可能に表示させることができ、より有効な先行技術文献を素早く発見することが出来ると共に、キーワードや特許分類の組み合わせでクエリを考案する手間が減って、特許審査と特許無効調査をより効率よく行うことが可能となる。

特許文献PDm（PDmk）内の記載のうち、自然言語の請求項文CLMn（CLMnj）に一致するトークンに対応するトークンを「YES」として、それ以外を「NO」として出力してもよいし（パターン２）、パターン１とパターン２に対応した出力の両方を出力してもよい。これにより、請求項の一致部分だけでなく、特許文献の一致部分が分かるため、人間が出力結果を修正する際に素早い対比箇所の参照が可能となる。

図５には、パターン１のみを使用し、パターン２は使用しない構成が記載されている。このような場合、パターン２に対応するトークンについては、何を入力してもよく、全て一致点（「YES」）か、相違点（「NO」）のどちらかとしてよい。

特許文献PDmには、請求項、明細書等のテキスト情報だけではなく、図面から自動生成された、図面に記載された内容を説明するキャプション文や、符号やフロー図内の文字列など、図面に記載された文字列を含んでいてもよい。これによって、テキスト情報のみならず、図面を利用した一致点と相違点の認定も可能となる。

文献保持部１２内の特許文献PDmの集合は、特許文献の全文または部分でもよい。特許文献の抄録や要約書などを含めてもよい。

さらに、文献保持部１２内の特許文献PDmの集合は、事前の検索式により選定されてもよいし、少なくとも１以上のデータベース内の文献の一部または全てが選定されてもよい。これによって、全ての文献に対して、時間のかかる文書変換を行うことなく、より引用文献になる確率が高い文献のみに対して、文書変換を行うことが出来る。

入力対象トークン列INiには、文頭記号（[CLS]）、文の切れ目を表す記号（[SEP]）、文末記号（[SEP]）を付加してもよく、出力対象トークン列OUTiでは、これらの記号をそのまま出力してもよい。

請求項文CLMnと、特許文献PDmのうち、特にユーザが指定、若しくは、アルゴリズムで自動的に指定された単語や形態素等については、入力対象トークン列INiにする前に、何等かのプレースホルダに置き換えてもよく、その場合に対応するトークンの出力もプレースホルダとして出力してもよい。これにより、元の学習データにない新たな単語が、請求項や引用文献に出てきた場合に、不一致と判定される可能性が低くなる。そして、当該プレースホルダで置き換えられた単語について、改めて、出力対象トークン列OUTi後に、人手で作成するか、ルールベースか、または、機械学習で作成した類義語表に基づいて、請求項文CLMnと特許文献PDmを比較して、当該プレースホルダで置き換えられた単語に対応するトークンが、一致、または、不一致であるかを判定してもよい。このような構成とすることで、学習データにない新たな単語についても一致や、不一致を精度よく判定することが可能となる。

変換部１４が使用する言語理解モデル１５としては、ＢＥＲＴ (Bidirectional Encoder Representations from Transformers)や、MT-DNNを始めとしたＢＥＲＴを拡張したモデルをはじめとするとトランスフォーマを利用したモデルを用いてもよいし、アテンション付きのRNN シーケンス・トゥー・シーケンスモデルを用いてもよく、その他の言語理解に関する何らかのモデルを適用してもよい。

入力対象トークン列INiのうち、特許文献PDm（PDmk）に対応するトークンや文頭記号等の記号に対応する出力対象トークン列ついては、便宜的に「NO」として出力してもよい。これによって、1つのトークン単位で付与するラベルの総数を減らすことが可能となる。また、これらのトークンを示す別種のトークンを設けてもよい。これにより、後述するCOUNTnoを少ない処理ステップで行うことが可能となる。さらに、判断保留などの無関係を示す「？」トークンを追加してもよい。これにより、学習データが良ければ、上手く比較ができないものを無理に「YES」、「NO」に分類せずに済み、より精度の向上が見込まれる。

CLMnを分割したCLMnjとCLMnj-1、PDmを分割したPDmkとPDmk-1とで、元のCLMn、PDmの同一の部分に対応するトークンをそれぞれが保持し、かつ、YES／NOで異なる判定となっている場合は、「YES」を優先して出力してもよい。これにより、分割した部分に偶々請求項と引用文献が直接対比可能な記載が無くても、どこかの分割箇所で一致されていれば、OUTiの対応トークンも「YES」となる正しい結果となるため、CLMnとPDmとを、分割して対比した場合でも、正しい結果を出力することが可能となる。

また、分割された部分において、トークンの左右に何個のトークンが存在するかをスコア化して、スコアに基づいて出力されたトークンの信頼度を算出し、信頼度に基づいてOUTiのYES／NOを決定してもよい。これにより、対象トークンが分割部分のたまたま文頭にあり、本来その前に存在すべきトークンの影響を受けないまま、誤判定した結果を、そのままOUTiに反映せずに済むことができる。また、判定保留を示す「？」を出力してもよく、ルールベース・機械学習でYES／NOを決定してもよい。

COUNTyes（OUTi）は、「YES」トークンの前提記載部分（ジェプソン形式の請求項における「〜において」の部分など）のみを、COUNTyes（OUTi（プリアンブル））として、別途出力してもよい。これにより、後述するランキングの際に、前提部分が完全一致したもののみを対象とすることができ、前提構成が全く異なる文献を排除することが可能となる。また前提部分を除いた残りの部分（≒発明の特徴部分）だけを別途出力してもよく、事前にリスト化した重要語や動詞部分や化学式部分だけを、COUNTyes（OUTi（重要語））、COUNTyes（OUTi（動詞））、COUNTyes（OUTi（化学式））として別途出力してもよい。また、「YES」トークンの数COUNTyesに代えて、「NO」トークンの数COUNTno、「？」トークンの数COUNT ?を出力してもよい。

COUNTyes（OUTi）について、例えば、SentencePieceに基づいて作成したトークンを、特定の形態素に重みづけするためにmecab等の形態素解析器に基づいて作成しなおしてもよい。その場合、SentencePieceに基づくトークンが、形態素より細かい場合で、各々のトークンが「YES」と「NO」で分かれている場合は、数が多い方を「YES」としてもよく、多数決で決めてもよく、ルールベースや機械学習で決めてもよい。また、SentencePieceに基づくトークンが、形態素より荒い場合は、それぞれの形態素が、SentencePieceと、同じ「YES」と「NO」であると判定してもよい。SentencePieceと形態素の切れ目がずれている場合は、まずSentencePieceを形態素の切れ目と同じ切れ目で分解した後、上記のSentencePieceに基づくトークンが、形態素より細かい場合の手法を適用してもよい。

＜５．調査支援システム１００の画面インタフェース＞
続いて、画面インタフェースについて説明する。

図６は、調査支援システム１００の画面インタフェースを例示する図である。
同図において、入力領域３１（対象文の表示領域）には、特許審査対象、または、特許無効調査対象の請求項が入力される。また、引用文献表示領域３２（参照文の表示領域）には、現在選択している引用文献の少なくとも一部分が表示される。文献一覧表示領域３３（複数の参照文の一覧表示領域）には、文献一覧が表示される。さらに、文書変換対象となる特許文献PDmの集合を作るために、キーワードや、ＩＰＣ（国際特許分類）、ＦＩ等を入力するテキストボックスと、検索ボタンが存在していてもよい。

入力領域３１には、請求項が入力可能であって、請求項が表示され、当該請求項の記載のうち、引用文献表示領域３２内の文書の記載と内容的に一致する部分に対応した部分の色が変更されている（強調表示）。強調表示を行うことにより、画面上で機械的に認定された請求項の一致部分を素早く確認することが可能となる。

引用文献表示領域３２には、引用文献の少なくとも一部分が表示され、文献の記載のうち、入力領域３１内の文書の記載と内容的に一致する部分に対応した部分の色が変更されている（強調表示）。強調表示を行うことにより、画面上で機械的に認定された引用文献の一致部分を素早く確認することが可能となる。なお、当該一致した部分に関しては、引用文献表示領域においては、段落単位、決まった文字単位に表示してもよい。

入力領域３１、または、引用文献表示領域３２において、色が変更された部分については、引用文献表示領域３２側の内容を人が精査できる。精査のうえで、内容的に一致している（いない）場合は、当該部分について、請求項と引用文献の記載が対応している（いない）として、入力領域３１、または引用文献表示領域３２の色を、着色（元の色に戻す）部分をマウスで選択する。選択部分を右クリックすることでストリップメニューを表示して、メニューから、内容的に一致（不一致）を選択すること、人手で着色（元の色に戻）してもよい。

以上のような構成により、文献の調査者が簡便に一致点と機械的に判定された部分を参照することができ、一から引用発明を認定して、請求項に係る発明と一の引用発明とを対比するというステップを省略、または、機械的に認定した結果を修正することで、省力化することができる。

文献一覧表示領域３３には、対象となる特許文献一覧が記載されており、文献一覧表示領域３３において、文献を選択することで、引用文献表示領域３２が対応した文献に変更される。文献一覧表示領域３３においては、COUNTyes（OUTi）に基づく、複数のスコアを「一致指標○」として表示し、「一致指標○」の列か、インデックス名が記載された欄をクリックすることで、当該スコアに基づいて文献を並び替えることができる。

これにより、スコアに応じて、大量の文献を何らかの形で区別可能に表示させることができ、より有効な先行技術文献を素早く発見することが出来ると共に、スコア順にソートされた文献を上から見ていくことで、キーワードや特許分類の組み合わせでクエリを考案する手間が減って、特許審査と特許無効調査をより効率よく行うことが可能となる。

なお、入力領域３１で強調処理された部分のみを、入力領域３１とは別に一致点表示領域３４として表示する構成としてもよい。これにより、一致点を一文として眺めることができ、どこか重要な構成で一致していない部分があるかを、文献の調査者が精査しやすくなる。

「一致指標○」として、前述した「YES」トークンの数COUNTyes（OUTi）に基づいて並べ替える他、プリアンブルが全て「YES」である文献だけ（COUNTyes（OUTi（プリアンブル））==COUNT（OUTi（プリアンブル）））を表示対象とし、そのうち、残りの部分が「YES」である数（COUNTyes（OUTi（notプリアンブル））で並べ替えを行う等、複数のCOUNT条件を用いて並べ替えを行ってもよいし、複数のCOUNT条件に重みづけして足し合わせるなどした、総合的なCOUNTスコアに基づいて並べ替えを行ってもよい。なお、「YES」トークンの数COUNTyes（OUTi）をそのまま用いるだけでなく、何らかの形で正規化したCOUNTyes（OUTi）を用いてもよい。

強調表示については、色の種別、濃さで表現してもよいし、色に代えて、記号等で表現してもよい。また、文字のフォントを変更してもよく、文字の太さを変更してもよく、下線等を追加する等の何らかの文字飾りをつける等、一般的に使われる何らかのフォントの変更を適用してもよい。また、文字にアニメーションをつけてもよい。

アテンション機構を利用している場合、マウスオーバした入力領域３１側のトークンに対応した、引用文献表示領域３２側のトークンの色を特に強調してもよいし、引用文献表示領域３２側の記載をマウスオーバして、入力領域３１、側の対応箇所の色を特に強調してもよい。これにより、トークン単位でどの部分が一致しているか人が精査しやすくなる。色の強調については、複数のアテンションヘッドの出力のそれぞれに対応して複数色を用いてもよいし、アテンションヘッドの平均と関連付けた一色を用いてもよい。

人手で着色／元の色に戻した結果に基づいて、後述する文献一覧表示領域３３の並び順を再び変更してもよい。なお、人手で着色／元の色に戻した部分については、出力対象トークン列OUTiについて、着色した部分をYES、元の色に戻した部分をNOに変更する。そして、人手で着色／元の色に戻した結果を反映した出力対象トークン列OUTi’を用いて、COUNTyes（OUTi’）の値から、再び、後述する文献一覧表示領域３３の並び順を再び変更する。これにより、人手で精査した結果を反映した、さらに高精度の並べ替えが可能となる。また、人手で着色／元の色に戻した結果を保存しておき、学習データとして用いることで、対比の精度をさらに精度を上げることが可能となる。例えば、人が着色／元の色に戻した結果を、不図示のクラウドサーバに蓄積し、請求項文CLMnと、特許文献PDmと、人が着色／元の色に戻した結果を反映した出力対象トークン列OUTi’’を、新たな学習データの少なくとも一部に含まれるようにして、定期的にBERTモデルの再ファインチューニングを行うことで精度を向上させる。

＜６．文書検索システムへの応用＞
図７は、調査支援システム１００を応用した文書検索システムを示す図である。

同図において、本願保持部４１は、検索対象となる特許出願の請求項、明細書、図面を保持する。文書変換部４２は、図１の調査支援システム１００における判定部１０１に相当する。

複数のデータベース４３は、特許文献や非特許文献のデータベースであって、検索クエリによる検索やその他の文献選別方法に基づいて、データベース４３に保持されているデータから特定の文献データを抽出し、文書変換部４２に、少なくとも一部の文献を提供する。

クエリ自動構築部４４は、文書変換部４２に入力される請求項と、図１に示す変換部１４の出力結果とから、新たに文書変換部４２に入力する編集された請求項（以下「編集済み請求項クエリ」という）を生成する。結果保持部４５は、図１の変換部１４の出力結果を保持する。総合出力部４６は、結果保持部４５の結果から、出力結果を作成する。

本願保持部４１は、検索対象となる特許出願の請求項を編集し、または、編集せずに、文書変換部４２に入力する。編集の方法としては、請求項Aを検索する際、請求項Bが請求項Aを引用するとして、例えば、（１）AとBを接続詞等で繋げて１文とする。（２）Bに「○○に代えて、××を用いることを特徴とする」との記載があれば、A内の○○を、××に置換した請求項を作成する。（３）「○○、△△、または、××」との記載があれば、Aについて、3つの構成をそれぞれ含む3文にする。（４）明細書内の課題等を抜き出してAに付加した文にする。（５）図面から自動生成したキャプション文をA内の発明特定事項に付加する等、様々な方法が考えられる。

文書変換部４２は、入力された請求項、または、編集済み請求項クエリと、文献保持部１２の内容に基づいて、出力結果を出力する。複数のデータベース４３は、既存の検索方法である、キーワード検索、IPCやFI等の分類検索、または、概念検索等の結果を少なくとも1つ以上組み合わせて、データベース内の特許文献を選別し、または、その他の文献の選別方法に基づいて、図１に係る文献保持部１２に、少なくとも一部の文献を提供し、または、全ての文献を提供する。

クエリ自動構築部４４は、１つ目の文献に対して、一致点と相違点を機械的に判定するために、本願保持部４１の請求項をそのまま文書変換部４２に受け渡すか、1つ目の文献で相違点が埋まらなかった際に、相違点を埋めるための新たな文献を提示するために、結果保持部４５のデータを参照して、文書変換部４２に渡す新しい請求項を構築する。例えば、下記の（１）〜（４）の通りである。

（１）出力対象トークン列OUTiで「YES」の部分は、既に検索済みであり、請求項と対象文献との一致点であるとして、残りの相違点を探すために、次に文書変換部４２に入力する編集済み請求項クエリを、OUTiで「NO」に対応するトークンだけにする。その際、文書が不自然にならないように、１単語中の特定のトークンだけが「YES」の場合も、正しい単語の形を維持するために、当該特定のトークンに対応するOUTi中のトークンを「NO」とみなして、請求項クエリに含めたり、文法構造がおかしくならないように、ルールベース／機械学習に基づいて、助詞等も請求項クエリに含めたりしてもよい。

（２）さらに（１）に加えて、検索対象をより適切にするために、単語を適宜上位概念化してもよい。例えば、請求項クエリ内の「携帯電話」を、機械学習等を用いて作成した類義語辞書を用いて、「無線通信機器」に変換して、上位概念化してもよい。

（３）さらに（１）に加えて、係り受け関係がおかしくならないように、係り受け元が「NO」に対応するトークンの場合は、係り受け先が「YES」に対応するトークンであったとしても、当該特定のトークンに対応するOUTi中のトークンを「NO」とみなして、請求項クエリに含めてもよい。

（４）さらに（１）に加えて、特許文献PDmについても、請求項クエリと内容的に一致するトークンに対応するトークンを「YES」として、それ以外を「NO」として出力対象トークン列OUTiに含めている場合、「YES」に対応するトークンの発明の課題、構成、分野について、請求項クエリに含めてもよい。なお、クエリ自動構築部４４で作成したクエリについては、人手で修正してもよい。

結果保持部４５は、出力対象トークン列OUTiと、「YES」トークンの数COUNTyes（OUTi）を過去Ｎ回の検索時の分までさかのぼって保持している。総合出力部４６は、結果保持部４５の結果から、出力結果を作成する。例えば、Ｎ−１回目の検索時の文献ＰＤ１に対して、残りの相違点を探すための編集済み請求項クエリによるＮ回目の検索時の文献ＰＤ２について、文献ＰＤ１に対応する請求項トークン集合と、文献ＰＤ２に対応する請求項トークン集合について、同じインデックスのトークンのどちらか一方が「ＹＥＳ」であれば、文献ＰＤ１〜２の合成請求項トークン集合の同じインデックスのトークンは「ＹＥＳ」であるとみなし、合成請求項トークン集合の「YES」トークンの数COUNTyes（OUTi）が高い順に、複数の文献の組み合わせを、ランキングして出力する。

なお、総合出力部４６は、Ｎ−１回目の検索時の文献ＰＤ１に対して、残りの相違点を探すための編集済み請求項クエリのうち、どこが技術常識であるのか別途判断し、さらに残った部分に対して、相違点を探すために請求項クエリを編集して、N回目の検索を行ってもよい。そして、合成請求項トークンのうち、技術常識、または、周知技術であると判定された部分を「YES」と出力する。

これにより、発明との相違点を直接認定して、相違点に対して、適用すべき他の引用発明を提示するため、再検索をするステップと、引用発明を認定・対比するステップを省略、または、それぞれの結果に修正を加えることで、省力化することができ、特許審査と特許無効調査をさらに効率よく行うことが可能となる。

クエリ自動構築部４４は、請求項クエリの再編集の際、出力対象トークン列OUTiと、「YES」トークンの数COUNTyes（OUTi）を、人手、または、アルゴリズムで編集したものを用いてもよい。

合成請求項トークンについては、Ｎ−１回目の検索時の文献を分割したPD１kの集合とＮ回目の検索時の文献を分割したPD２kの集合について、当該トークンの左右に何個のトークンが存在するかをスコア化して、スコアに基づいて信頼度を算出し、信頼度に基づいて、「YES」と「NO」の数をスコア化して、スコアに基づいて、合成請求項トークンがYES／NOであるかを判定してもよく、PD1とPD2で判定が異なっているトークンについて、「YES（判断保留）」という新たなトークンを出力してもよく、ルールベース・機械学習でYES／NOを決定してもよい。

総合出力部４６で、技術常識を別途判断することについては、（１）トークンに分割された請求項を入力し、トークンのとある部分が技術常識、または、周知技術であると判断されたかを出力する技術常識判定システム１を適用することによって行ってもよいし、（２）トークンに分割された請求項のうち、技術常識、または、周知技術であるか否かを判定したいトークンの部分集合を入力し、当該部分集合が、技術常識、または、周知技術であるか否かを２値で判断する技術常識判定システム２を用いてもよい。これらの技術常識判定システムについては、既存の言語理解モデルを用いて構成してよい。

合成請求項トークンのうち、「YES（判断保留）」という新たなトークンを出力してもよく、ルールベース・機械学習でYES／NOを決定してもよい。

図８は、文書検索システムの画面インタフェースを例示する図である。図６の説明で既に述べた部分は省略する。

入力領域５１には、特許審査対象、または、特許無効調査対象の請求項が入力され、引用文献表示領域５２には、現在選択している引用文献の少なくとも一部分が表示され、文献一覧表示領域５３には、文献一覧が表示されている。この他、文書変換処理に先立ち、特許文献PDmの集合を作るために、キーワードや、ＩＰＣ、ＦＩ等を入力するテキストボックスと、検索ボタンが存在していてもよい。

入力領域５１には、請求項が表示され、当該請求項の記載のうち、引用文献表示領域５２ａ〜ｂ内の文書の記載と内容的に一致する部分に対応した部分の色が変更されている（強調処理）。なお、請求項の記載のうち、引用文献表示領域５２ａ〜ｂに対応した内容をそれぞれ別の色に変更してもよく、前述の技術常識判定システムで、技術常識、または、周知技術であると判断された部分を別の色に変更してもよい。

引用文献表示領域５２ａには、選択された引用文献の少なくとも一部分が表示され、文献の記載のうち、入力領域５１内の文書の記載と内容的に一致する部分に対応した部分の色が変更されている。また、引用文献表示領域５２ｂには、選択された他の引用文献の少なくとも一部分が表示され、文献の記載のうち、入力領域５１内の文書の記載と内容的に一致する部分に対応した部分の色が変更されている。

文献一覧表示領域５３には、対象となる特許文献一覧が組み合わせとして表示されており、例えば、主引例Y1と副引例Y2の順に表示されている。文献一覧表示領域５３において、文献を選択することで、引用文献表示領域５２ａ〜ｂが、Y1、Y２に対応した文献に変更される。ここで、一行に表示される文献は、１つであってもよいし、複数の組み合わせであってもよい。

文献一覧表示領域５３の特許文献一覧は、前述した合成請求項トークン集合の「YES」トークンの数COUNTyes（OUTi）が高い順に基づいて並べ替えられており、より本願発明と複数の引用文献に記載の引用発明とがより一致しているものから、順に引用文献の組み合わせを精査していくことができる。

引用文献表示領域５２の数は、同時に表示すべき引用文献の数によって、増やしてもよいし、選択的に表示可能にしてもよい。これによって、ユーザが見やすい数の任意の引用文献を表示することが可能となる。

「一致指標○」として、前述した「YES」トークンの数COUNTyes（OUTi）に基づいて並べ替える他、「YES」トークンの数COUNTyes（OUTi）をそのまま用いるだけでなく、何らかの形で正規化したCOUNTyes（OUTi）を用いてもよい。また、COUNTyes（OUTi）の複数の指標を「一致指標○」として、文献一覧表示領域３３に同時に表示し、「一致指標○」の欄をクリックすることで、当該指標に基づいて、文献を再び並び替えてもよい。

入力領域５１で強調処理された部分のみを、入力領域５１とは別に一致点表示領域５４として表示する構成としてもよい。

学習データとしては、審決公報や拒絶理由通知、検索事業者の調査報告書を用いてもよい。

＜７．調査支援システムの動作＞
次に、図１に記載の調査支援システム１００の具体的動作について説明する。
図９および図１０は、調査支援システム１００の動作を示す流れ図である。
以下、同図に示すステップ番号に沿って説明する。

ステップＳ０１：調査支援システム１００は、不図示の特許文献などのデータベースにアクセスし、特許文献（以下「参照文」という）の集団をプレサーチにより適当な標本数まで絞り込む。絞り込まれた参照文の集団は、文献保持部１２に入力される。

ステップＳ０２：文献保持部１２は、入力された参照文を一件ずつトークン単位に分解し、前処理部１３へ出力する。請求項保持部１１は、文献調査の対象である請求項（以下「対象文」という）を取り込んで、トークン単位に分解し、前処理部１３へ出力する。前処理部１３は、対象文のトークン群と、１文書分の参照文のトークン群とを前後に連結して、入力対象トークン列INiを生成し、変換部１４へ出力する。なお、対象文のトークン群と、参照文のトークン群を一度にどの程度入力対象トークン列INiとするかについては、適宜変更してよい。

ステップＳ０３：変換部１４は、言語理解モデル１５の入力に入力対象トークン列INiを与える。言語理解モデル１５においては、対象文と参照文を比較して、対象文のトークンのうち、参照文に記載されている部分を一致点と判定し、その結果を出力対象トークン列OUTiとして出力する。

ステップＳ０４：入力部１０３は、この出力対象トークン列OUTiを、トークン単位の一致点に関する情報として取得する。表示制御部１０６は、この情報に基づいて、一致点を判別可能にした画面インタフェースを生成して、入力領域３１（図６参照）に表示する。

ステップＳ０５：ランキング部１０４は、対象文に占める一致点の数、割合、または位置に応じた重み付け評価値に基づいて、参照文の主引例としての適格性を評価する。

ステップＳ０６：ランキング部１０４は、文献保持部１２が保持する参照文の全てについて適格性の評価が完了した場合、ステップＳ０７に動作を移行する。それ以外の場合、残りの参照文について処理を行うため、ランキング部１０４は、ステップＳ０２に動作を戻す。

ステップＳ０７：ランキング部１０４は、適格性が上位の参照文についてランキングを作成する。

ステップＳ０８：表示制御部１０６は、ランキング部１０４が作成したランキングに基づいて、適格性のランキング順位が判別可能になる画面インタフェースを生成して、文献一覧表示領域３３（図６参照）に表示する。

ステップＳ０９：表示制御部１０６は、ランキング１位またはユーザ選択された順位の参照文を主引例の候補に選択する。

ステップＳ１０：表示制御部１０６は、主引例の候補について、一致点を判別可能にした画面インタフェースを生成して、入力領域３１（図６参照）に改めて表示する。

ステップＳ１１：ここでユーザ端末（図１参照）において主引例を変更する操作がなされた場合、表示制御部１０６はステップＳ０９に動作を戻すことにより、主引例の候補変更を受け付ける。一方、ユーザ端末（図１参照）において主引例を確定する操作がなされた場合（または変更する操作がなされない場合）、表示制御部１０６はステップＳ２１に動作を移行する。

ステップＳ２１：相違点抽出部１０５は、確定された主引例との一致点を対象文から除いて、トークン単位の相違点を抽出する。

ステップＳ２２：相違点抽出部１０５は、トークン単位の相違点に対して、前方後方のトークンを連結して文節または文章などの言語単位の相違点を生成する。この処理により、相違点は、文節や文章のように文意がつながり、言語理解が可能なものになる。したがって、相違点を言語理解モデル１５において文意を含めて処理することが可能になる。

ステップＳ２３：相違点抽出部１０５は、相違点に対して、主引例の課題、技術分野、および機能および作用の少なくとも１つの論理付け要素を追加する。この処理により、後述する副引例の検索では、主引例と課題、技術分野、機能および作用の少なくも１つが共通する副引例を検索することが可能になる。このような副引例は、主引例と組み合わせる一応の論理付けが可能になるため、副引例としての適格性が高くなる。

ステップＳ２４：相違点抽出部１０５は、相違点を請求項保持部１１へ出力する。前処理部１３は、相違点のトークン群と、一件分の参照文のトークン群とを前後に連結して、入力対象トークン列INiを生成し、変換部１４へ出力する。変換部１４は、言語理解モデル１５の入力に入力対象トークン列INiを与える。言語理解モデル１５は、相違点と参照文との一致点をトークン単位に示す出力対象トークン列OUTiを出力する。ランキング部１０４は、相違点に占める一致点の数、割合、または位置に応じた重み付け評価値に基づいて、参照文の副引例としての適格性を評価する。

ステップＳ２５：ランキング部１０４は、文献保持部１２が保持する参照文の全てについて適格性の評価が完了した場合、ステップＳ２６に動作を移行する。それ以外の場合、残りの参照文について処理を行うため、ランキング部１０４は、ステップＳ２４に動作を戻す。

ステップＳ２６：ランキング部１０４は、副引例としての適格性が上位の参照文についてランキングを作成する。表示制御部１０６は、ランキング部１０４が作成したランキングに基づいて、適格性のランキング順位が判別可能になる画面インタフェースを生成して、図６と同様の画面に表示する。

ステップＳ２７：表示制御部１０６は、ランキング１位またはユーザ選択された順位の参照文を副引例の候補に選択する。

ステップＳ２８：表示制御部１０６は、主引例の候補について、一致点を判別可能にした画面インタフェースを生成して、図６と同様の画面に表示する。

ステップＳ２９：ここでユーザ端末（図１参照）において副引例を変更する操作がなされた場合、表示制御部１０６はステップＳ２７に動作を戻すことにより、副引例の候補変更を受け付ける。一方、ユーザ端末（図１参照）において副引例を確定する操作がなされた場合（または変更する操作がなされない場合）、表示制御部１０６はステップＳ３０に動作を移行する。

ステップＳ３０：相違点抽出部１０５は、確定された副引例との一致点を相違点から除いて、新たな相違点を生成する。

ステップＳ３１：ここでユーザ端末（図１参照）において副引例の検索を継続する操作がなされた場合、表示制御部１０６はステップＳ２２に動作を戻すことにより、さらなる副引例の検索を続行する。一方、ユーザ端末（図１参照）において副引例の検索を完了する操作がなされた場合（または継続する操作がなされない場合）、表示制御部１０６は動作を完了する。
上述した一連の動作により、調査支援方法が実行される。

＜８．実施例の効果＞
以下、上述した実施例の効果について説明する。

（１）実施例では、対象文と参照文との一致点に関する情報に基づいて、一致点を判別可能にする画面処理を加えた表示画面を生成して表示可能にする。したがって、文献の調査者に、対象文と参照文の一致点を把握させることが可能になる。

（２）実施例では、トークン単位に一致点に関する情報を求める。そのため、文章や段落や文や文節といった単位よりも細かい粒度で一致点を判定することが出来るため、文節単位で請求項と引用例との一致判定する場合よりも、どの構成要件が相違しているか具体的にユーザに提示することが可能となる。

（３）実施例では、単純なキーワードマッチングではなく、ニューラル言語理解モデルを使って、文の一致を判定するので、単語の分散表現によって類義語を考慮し、ニューラル言語理解モデルによってエンド・トゥー・エンドの学習で獲得した文の品詞や統語構造、単語の関係性等を考慮した、より精緻な一致点の判定を行うことが出来る。例えば、単にトークン対トークンという一致点だけでなく、トークンの前後方向に共起する他のトークンの出現傾向に基づいて同綴異義語を区別するなどが可能になるため、例えば、同綴異義語を区別した一致点の判定が可能になる。

（４）実施例では、対象文に占める一致点の数、割合、または、一致点に基づいた評価値に応じて、対象文に対する参照文の主引例としての適格性を評価する。そのため、複数の参照文を主引例の候補として、どの参照文が主引例として適格であるかを比較することが可能になる。また、単純に検索ランキングを用いる場合と異なり、対象文に占める一致点に基づいて適格性の評価を行っていることから、当該参照文がどうして適格性が高いかの根拠について、一致点を具体的に表示することでユーザに提示することが可能となり、ユーザが、適格性が高い根拠を評価した上で利用することが可能となる。

（５）実施例では、一致点について対象文の中の出現箇所に応じた重み付けを行って評価値を求める。例えば、特許の請求項のように所定の書式に従って作成された対象文の場合、特徴を示す重要部分を対象文の中の出現箇所に応じて選別できる。そこで、対象文の中で、重要部分に出現した一致点については評価の重みを強め、非重要部分に出現した一致点については評価の重みを弱めることにより、主引例として適格か否かを重要度も加味して判定することが可能になる。

（６）実施例では、複数の参照文について、主引例としての適格性のランキング順位を判別可能にした表示画面を表示可能にする。したがって、文献の調査者に対して、どの参照文が主引例として適格かを把握させることが可能になる。

（７）実施例では、適格性に基づいて参照文の中から選択された主引例に応じて、対象文と主引例の一致点を対象文から除くことにより、相違点を求めることが可能になる。

（８）実施例では、対象文と主引例との一致点を対象文から除いて、残ったトークンに基づいて、言語単位を対象文から抽出して、相違点とする。したがって、文意を有する単位で相違点を対象文から抽出することが可能になる。

（９）実施例では、相違点の一部または全部と一致する副引例を検索する。したがって、文献の調査者に対し、副引例の検索作業を支援することが可能となる。

（１０）実施例では、相違点に対して、主引例から抽出した課題、技術分野、機能および作用の少なくとも１つの論理付け要素を追加し、主引例の論理付け要素と一致点を有する副引例を検索する。したがって、検索される副引例は、主引例に対して「課題の共通性」、「技術分野の共通性」、「機能や作用の共通性」のいずれかの論理付け要素を有するようになる。このような論理付け要素により、主引例の記載発明に副引例の記載発明を組み合わせる一応の論理付けが成り立つため、特許の進歩性判断などに役立つ副引例を検索することが可能になる。

（１１）実施例では、相違点から副引例との一致点を削減し、残った相違点について副引例の検索を繰り返す。したがって、特許の進歩性判断に役立つ副引例を再帰的に検索することが可能になる。

（１２）実施例では、副引例と、相違点との対応関係を判別可能にした表示画面を生成して表示可能にする。したがって、文献の調査者に対して、どの参照文が副引例として適格かを把握させることが可能になる。

（１３）実施例では、対象文の表示領域において、一致点に相当する部分を強調表示する画面インタフェースを備える。したがって、文献の調査者に対して、参照文が対象文の中のどの部分と一致したかを容易に把握させることが可能になる。

（１４）実施例では、主引例や副引例の適格性について、判断項目を変更して、ランキングの並べ替えを行うことができる。したがって、文献の調査者は、種々の観点で判断項目を切り替えながら、どの参照文が主引例や副引例として適格かを比較することが可能になる。

＜９．実施例の補足事項＞
なお、実施例では、特許審査や特許無効調査を支援する場合について特に説明した。しかしながら、本発明はこれに限定されない。文章間の一致点を判定する用途に広く適用することができる。例えば、論文やレポートの盗用問題や、文章の著作権問題などに対応して、対象文と似たものを検索するなどの用途に適用してもよい。

また、実施例では、言語理解モデルを使用する場合について特に説明した。しかしながら、本発明はこれに限定されない。例えば、ルールベースや類義語辞書データやカウントベースに基づいて一致点を判定してもよい。

また、実施例では、一致点の数や割合や評価値などの適格性の評価について、言語理解モデルの出力後に行う場合について特に説明した。しかしながら、本発明はこれに限定されない。言語理解モデルの内部において適格性を評価し、言語理解モデルの出力の一部として適格性を出力するようにしてもよい。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。
また、実施例の構成の一部について、他の構成を追加・削除・置換することが可能である。

１１…請求項保持部、１２…文献保持部、１３…前処理部、１４…変換部、１５…言語理解モデル、４１…本願保持部、４２…文書変換部、４２…文書変換部、４３…データベース、４４…クエリ自動構築部、４５…結果保持部、４６…総合出力部、１００…調査支援システム、１０１…判定部、１０２…演算部、１０３…入力部、１０４…ランキング部、１０５…相違点抽出部、１０６…表示制御部

Claims

コンピュータシステムが文献の調査を支援するための方法であって、
対象文と参照文との一致点に関する情報を取得する入力ステップと、
前記一致点を判別可能にする画面処理を加えた表示画面を生成し、前記表示画面を表示可能にする表示制御ステップと
を備えたことを特徴とする調査支援方法。
請求項１に記載の調査支援方法において、
トークンごとに一致点を判定する言語理解モデルに対して前記対象文および前記参照文を入力し、前記一致点に関する情報を求める判定ステップを備える
ことを特徴とする調査支援方法。
請求項２に記載の調査支援方法において、
前記言語理解モデルは、ニューラル言語理解モデルであることを特徴とする調査支援方法。
請求項２〜３の何れか一項に記載の調査支援方法において、
前記対象文に占める前記一致点の数、割合、または一致点に基づいた評価値に応じて、前記対象文に対する前記参照文の主たる比較対象（以下「主引例」という）としての適格性を評価するランキングステップを備える
ことを特徴とする調査支援方法。
請求項４に記載の調査支援方法において、
前記ランキングステップは、
前記一致点について前記対象文の中の出現箇所に応じた重み付けを行って前記評価値を求め、前記評価値に応じて前記参照文の前記主引例としての前記適格性を評価する
ことを特徴とする調査支援方法。
請求項４〜５のいずれか一項に記載の調査支援方法において、
前記表示制御ステップは、
複数の前記参照文について、前記主引例としての前記適格性のランキング順位を判別可能にする画面処理を加えた表示画面を生成し、前記表示画面を表示可能にする
ことを特徴とする調査支援方法。
請求項５〜６のいずれか一項に記載の調査支援方法において、
前記適格性に基づいて前記参照文の中から選択された前記主引例に基づいて、前記対象文と前記主引例の前記一致点を前記対象文から除くことにより、相違点を求める相違点抽出ステップを備える
ことを特徴とする調査支援方法。
請求項７に記載の調査支援方法において、
前記相違点抽出ステップは、
前記対象文と前記主引例との前記一致点を前記対象文から除いた結果、残ったトークンに基づいて文節または文章などの言語単位を前記対象文から抽出して、前記相違点とする
ことを特徴とする調査支援方法。
請求項７〜８のいずれか一項に記載の調査支援方法において、
前記判定ステップは、
前記相違点の一部または全部と一致する従たる比較対象（以下「副引例」という）を検索する
ことを特徴とする調査支援方法。
請求項９に記載の調査支援方法において、
前記相違点抽出ステップは、
前記相違点に対して、前記主引例から抽出した課題、技術分野、機能および作用の少なくとも１つの論理付け要素を追加し、
前記判定ステップは、
前記主引例の前記論理付け要素と前記一致点を有する前記副引例を検索する
ことを特徴とする調査支援方法。
請求項９〜１０のいずれか一項に記載の調査支援方法において、
前記相違点抽出ステップは、
前記相違点と前記副引例との一致点を、前記相違点から除き、
前記判定ステップは、
残った前記相違点について、さらに次の副引例の検索を行い、
前記相違点抽出ステップと、前記判定ステップとを繰り返す
ことを特徴とする調査支援方法。
請求項９〜１１のいずれか一項に記載の調査支援方法において、
前記表示制御ステップは、
前記副引例と、前記相違点との対応関係を判別可能にする画面処理を加えた表示画面を生成し、前記表示画面を表示可能にする
ことを特徴とする調査支援方法。
コンピュータに、請求項１〜１２のいずれか一項に記載の前記調査支援方法を実行させる
ことを特徴とする調査支援用コンピュータプログラム。
文献の調査を支援するための調査支援システムであって、
対象文と参照文との一致点に関する情報を取得する入力部と、
前記一致点を判別可能にする画面処理を加えた表示画面を生成し、前記表示画面を表示可能にする表示制御部と
を備えたことを特徴とする調査支援システム。