JP6691280B1

JP6691280B1 - 管理システム及び管理方法

Info

Publication number: JP6691280B1
Application number: JP2020008423A
Authority: JP
Inventors: 篤志久々宇; 昌夫後藤; 明紀関口; 隆二西出; 裕一間野; 光司目黒; 忠紀森口
Original assignee: 特許庁長官
Priority date: 2019-07-30
Filing date: 2020-01-22
Publication date: 2020-04-28
Anticipated expiration: 2040-01-22
Also published as: WO2021019831A1; JP2021022359A

Abstract

【課題】特許文献に関する情報を効率良く管理することができる管理システム及び管理方法を提供する。【解決手段】管理システム１は、照会サーバ１００と、書誌サーバ２００と、管理サーバ３００と、ＡＩサーバ４００と、を有する。照会サーバ１００は、複数の特許文献について形式情報と内容情報とが含まれるデータ群１５１から各特許文献について形式情報を取得する。書誌サーバ２００は、外部データベース１８から、各特許文献について、文献番号と共通のデータ形式に変換された書誌情報とを取得する。管理サーバ３００は、照会サーバ１００が形式情報を取得した各特許文献について、形式情報及び書誌情報を統合した第１統合情報を生成する。ＡＩサーバ４００は、各特許文献の分類情報を生成する。管理サーバ３００は、第１統合情報が完成した後に、各特許文献について第１統合情報及び分類情報を統合した第２統合情報を生成する。【選択図】図４

Description

本開示は、特許文献を管理する管理システム及び管理方法に関する。

特許庁では、特許出願の審査時等に先行技術を調査するために、過去に出願された特許文献の検索用データベースが利用されている。この検索用データベースには、世界各国で出願された特許文献に関する情報が記憶されており、管理システムにより、最新の特許文献に関する情報が適宜登録されるように更新される。しかしながら、世界各国において常時膨大な量の特許が出願されており、管理システムはデータベースの更新に膨大な時間を要している。

例えば、特許文献１には、図書館の蔵書を管理するシステムにおいて、ユーザの趣向に応じてお勧めの図書を提示するレコメンドシステムが開示されている。このレコメンドシステムは、高評価図書リスト及び低貸出頻度図書リストを生成し、高評価図書リスト及び低貸出頻度図書リストのいずれにも図書ＩＤが含まれている図書のリストを抽出することにより、提示対象の図書のリストを生成する。

特開２０１５−０２２５０７号公報

特許文献に関する情報を検索用データベースに登録するための管理システムでは、特許文献に関する情報を効率良く管理することが求められている。

管理システム及び管理方法の目的は、特許文献に関する情報を効率良く管理することにある。

実施形態に係る管理システムは、複数の特許文献に関する情報を検索用データベースに登録するための管理システムであって、所定期間に、自国の特許庁及び複数の他国の特許庁が有するデータベースからそれぞれ収集した、国毎にデータ形式が異なる複数の特許文献について、少なくとも文献番号を含み且つ特許文献を一意に識別可能なデータを含む形式情報と、少なくとも各特許文献の発明の内容を含む内容情報とが含まれるデータ群から、各特許文献について、形式情報を取得する第１サーバと、複数の国の特許庁に出願又は登録された特許文献について、国毎にデータ形式が異なるデータを含む書誌情報が共通のデータ形式に変換されて記憶された外部データベースから、各特許文献について、文献番号と、共通のデータ形式に変換された書誌情報とを取得する第２サーバと、第１サーバが形式情報を取得した各特許文献について、形式情報に含まれる各データを、形式情報及び書誌情報の各データ項目が所定の順序で並べられた第１テーブルの対応する位置に格納し、当該各特許文献について第２サーバが書誌情報を取得している場合は、文献番号をキーとして、当該書誌情報に含まれる各データを第１テーブルの対応する位置に格納することにより、形式情報及び書誌情報を統合した第１統合情報を生成する第３サーバと、データ群から、各特許文献について、文献番号と、内容情報とを取得し、発明の内容が所定言語で記載された特許文献については当該発明の内容に基づき、発明の内容が所定言語で記載されていない特許文献については発明の内容が所定言語に翻訳された翻訳文に基づいて、学習モデルを用いて、各特許文献の分類情報を生成する第４サーバと、を有し、第３サーバは、第１統合情報が完成した後に、第１サーバが形式情報を取得した特許文献について、文献番号をキーとして、第１統合情報に含まれる各データと、分類情報に含まれる各データとを、第１統合情報及び分類情報の各データ項目が所定の順序で並べられた第２テーブルの対応する位置に格納することにより、第１統合情報及び分類情報を統合した第２統合情報を生成し、生成した第２統合情報を検索用データベースに登録する。

実施形態に係る管理システムにおいて、第４サーバは、第３サーバが第１統合情報を生成している間に、分類情報を生成することが好ましい。

実施形態に係る管理システムにおいて、第４サーバは、発明の内容が所定言語で記載されていない特許文献について、翻訳文を生成することが好ましい。

実施形態に係る管理システムにおいて、第３サーバは、ファミリー出願に係る特許文献から生成した第２統合情報を一つの第２テーブル内で相互に対応付けて記憶し、ファミリー出願に係る特許文献から生成された第２統合情報のインデックスとして、ファミリー出願に係る特許文献で共通のインデックスを設定する第５サーバをさらに有することが好ましい。

実施形態に係る管理システムにおいて、第３サーバは、学習モデルを用いて、各特許文献の技術分野又は翻訳データを検索情報として生成することが好ましい。

実施形態に係る管理システムにおいて、第４サーバは、特定の出願に係る特許文献について生成した分類情報を、当該特定の出願のファミリー出願に係る特許文献の分類情報として使用することが好ましい。

実施形態に係る管理システムにおいて、第４サーバは、各特許文献について、それぞれ次元数が異なる複数の第１特徴ベクトルをさらに生成し、第２テーブルには、第１統合情報及び分類情報の各データ項目と、複数の第１特徴ベクトルとが所定の順序で並べられており、第３サーバは、文献番号をキーとして、第１統合情報に含まれる各データと、分類情報に含まれる各データと、複数の第１特徴ベクトルとを第２テーブルの対応する位置に格納することにより、第１統合情報、分類情報及び複数の第１特徴ベクトルを統合して第２統合情報を生成することが好ましい。

実施形態に係る管理システムにおいて、第４サーバは、それぞれ異なる複数のＬＳＨを用いて各特許文献の第２特徴ベクトルを変換したハッシュ値を各要素とする特徴ベクトルを第１特徴ベクトルとして生成することが好ましい。

実施形態に係る管理システムにおいて、利用者によって指定された指定データについて複数の第１特徴ベクトルを生成し、次元数の昇順又は降順に、指定データについて生成された第１特徴ベクトルと、各特許文献について生成された第１特徴ベクトルとを比較することにより、指定データに対応する特許文献を抽出する第５サーバをさらに有することが好ましい。

実施形態に係る管理システムにおいて、利用者によって指定された指定データに対応する複数の特許文献を並べて表示するための第１表示データを生成する第５サーバと、第１表示データに従って、複数の特許文献を並べて表示する端末装置と、をさらに有し、第５サーバは、端末装置において利用者によって指定された特許文献又は所定時間以上連続して表示された特許文献との類似度に基づいて、第１表示データにより表示される特許文献を並べ替えた第２表示データを生成することが好ましい。

実施形態に係る管理システムにおいて、第３サーバは、第１サーバが形式情報を取得した特許文献の内、第２サーバが書誌情報を取得しなかった特許文献に関する情報を出力することが好ましい。

実施形態に係る管理システムにおいて、第１サーバは、第２統合情報が完成した後に、第１サーバが形式情報を取得した特許文献について、文献番号をキーとして、第２統合情報に含まれる各データと、内容情報に含まれるデータとを、第２統合情報及び内容情報の各データ項目が所定の順序で並べられた第３テーブルの対応する位置に格納することにより、第２統合情報及び内容情報を統合した第３統合情報を生成し、生成した第３統合情報を検索用データベースに登録することが好ましい。

実施形態に係る管理システムにおいて、第４サーバは、技術分野の大分類毎に、技術分野の小分類を特定するための学習モデルを記憶し、各特許文献の技術分野の大分類を特定し、特定した大分類に対応する学習モデルを用いて、各特許文献の技術分野の小分類を特定し、各特許文献の技術分野の大分類及び小分類を分類情報として生成することが好ましい。

実施形態に係る管理方法は、複数の特許文献に関する情報を検索用データベースに登録するための管理システムにおける管理方法であって、第１サーバが、所定期間に、自国の特許庁及び複数の他国の特許庁が有するデータベースからそれぞれ収集した、国毎にデータ形式が異なる複数の特許文献について、少なくとも文献番号を含み且つ特許文献を一意に識別可能なデータを含む形式情報と、少なくとも各特許文献の発明の内容を含む内容情報とが含まれるデータ群から、各特許文献について、形式情報を取得し、第２サーバが、データ群から、各特許文献について、文献番号を含み且つ形式情報と異なる書誌情報を取得し、第３サーバが、第１サーバが形式情報を取得した各特許文献について、形式情報に含まれる各データを、形式情報及び書誌情報の各データ項目が所定の順序で並べられた第１テーブルの対応する位置に格納し、当該各特許文献について第２サーバが書誌情報を取得している場合は、文献番号をキーとして、当該書誌情報に含まれる各データを第１テーブルの対応する位置に格納することにより、形式情報及び書誌情報を統合した第１統合情報を生成し、第４サーバが、データ群から、各特許文献について、文献番号と、内容情報とを取得し、発明の内容が所定言語で記載された特許文献については当該発明の内容に基づき、発明の内容が所定言語で記載されていない特許文献については発明の内容が所定言語で記載された翻訳文に基づいて、学習モデルを用いて、各特許文献の分類情報を生成することを含み、第３サーバは、第１統合情報が完成した後に、第１サーバが形式情報を取得した特許文献について、文献番号をキーとして、第１統合情報に含まれる各データと、分類情報に含まれる各データとを、第１統合情報及び分類情報の各データ項目が所定の順序で並べられた第２テーブルの対応する位置に格納することにより、第１統合情報及び分類情報を統合した第２統合情報を生成し、生成した第２統合情報を検索用データベースに登録する。

実施形態に係る管理システムは、複数の特許文献に関する情報を検索用データベースに登録するための管理システムであって、所定期間に、自国の特許庁及び複数の他国の特許庁が有するデータベースからそれぞれ収集した、国毎にデータ形式が異なる複数の特許文献について、少なくとも文献番号を含み且つ特許文献を一意に識別可能なデータを含む形式情報と、少なくとも各特許文献の発明の内容を含む内容情報とが含まれるデータ群から、各特許文献について、形式情報を取得する第１サーバと、複数の国の特許庁に出願又は登録された特許文献について、国毎にデータ形式が異なるデータを含む書誌情報が共通のデータ形式に変換されて記憶された外部データベースから、各特許文献について、文献番号と、共通のデータ形式に変換された書誌情報とを取得する第２サーバと、第１サーバが形式情報を取得した各特許文献について、形式情報に含まれる各データを、形式情報及び書誌情報の各データ項目が所定の順序で並べられた第１テーブルの対応する位置に格納することにより、形式情報及び書誌情報を統合した第１統合情報を生成する第３サーバと、データ群から、各特許文献について文献番号と内容情報とを取得し、内容情報に基づいて学習モデルを用いて各特許文献の検索情報を生成する第４サーバと、を有し、第３サーバは、第１統合情報が完成した後に、第１サーバが形式情報を取得した特許文献について、文献番号をキーとして、第１統合情報に含まれる各データと、第１統合情報が完成する前に生成された検索情報に含まれる各データとを、第１統合情報及び検索情報の各データ項目が所定の順序で並べられた第２テーブルの対応する位置に格納することにより、第１統合情報と、第１統合情報が完成する前に生成された検索情報とを統合した第２統合情報を生成し、生成した第２統合情報を検索用データベースに登録する。

実施形態に係る管理方法は、複数の特許文献に関する情報を検索用データベースに登録するための管理システムにおける管理方法であって、第１サーバが、所定期間に、自国の特許庁及び複数の他国の特許庁が有するデータベースからそれぞれ収集した、国毎にデータ形式が異なる複数の特許文献について、少なくとも文献番号を含み且つ特許文献を一意に識別可能なデータを含む形式情報と、少なくとも各特許文献の発明の内容を含む内容情報とが含まれるデータ群から、各特許文献について、形式情報を取得し、第２サーバが、複数の国の特許庁に出願又は登録された特許文献について、国毎にデータ形式が異なるデータを含む書誌情報が共通のデータ形式に変換されて記憶された外部データベースから、各特許文献について、文献番号と、共通のデータ形式に変換された書誌情報とを取得し、第３サーバが、第１サーバが形式情報を取得した各特許文献について、形式情報に含まれる各データを、形式情報及び書誌情報の各データ項目が所定の順序で並べられた第１テーブルの対応する位置に格納することにより、形式情報及び書誌情報を統合した第１統合情報を生成し、第４サーバが、データ群から、各特許文献について文献番号と内容情報とを取得し、内容情報に基づいて学習モデルを用いて各特許文献の検索情報を生成することを含み、第３サーバは、第１統合情報が完成した後に、第１サーバが形式情報を取得した特許文献について、文献番号をキーとして、第１統合情報に含まれる各データと、第１統合情報が完成する前に生成された検索情報に含まれる各データとを、第１統合情報及び検索情報の各データ項目が所定の順序で並べられた第２テーブルの対応する位置に格納することにより、第１統合情報と、第１統合情報が完成する前に生成された検索情報とを統合した第２統合情報を生成し、生成した第２統合情報を検索用データベースに登録する。

管理システム及び管理方法は、特許文献に関する情報を効率良く管理することができる。

本発明の目的及び効果は、特に請求項において指摘される構成要素及び組み合わせを用いることによって認識され且つ得られるだろう。前述の一般的な説明及び後述の詳細な説明の両方は、例示的及び説明的なものであり、特許請求の範囲に記載されている本発明を制限するものではない。

管理システム１による処理の一例を説明するための模式図である。管理システム１による処理の一例を説明するための模式図である。管理システム１による処理の一例を説明するための模式図である。実施形態に係る管理システム１の概略構成を示す図である。照会サーバ１００の概略構成を示す図である。書誌サーバ２００の概略構成を示す図である。管理サーバ３００の概略構成を示す図である。ＡＩサーバ４００の概略構成を示す図である。検索サーバ５００の概略構成を示す図である。管理テーブル５１１のデータ構造の一例を示す模式図である。管理テーブル５１１のデータ構造の一例を示す模式図である。管理テーブル５１１のデータ構造の一例を示す模式図である。管理テーブル５１１のデータ構造の一例を示す模式図である。更新処理に係る動作シーケンスの一例を示す。形式情報のデータ構造の一例を示す模式図である。書誌情報のデータ構造の一例を示す模式図である。第１統合情報のデータ構造の一例を示す模式図である。検索情報のデータ構造の一例を示す模式図である。第２統合情報のデータ構造の一例を示す模式図である。第３統合情報のデータ構造の一例を示す模式図である。検索情報生成処理の動作の例を示すフローチャートである。各処理の実行タイミングについて説明するための模式図である。出力処理に係る動作シーケンスの一例を示す。検索画面２４００の一例を示す模式図である。検索処理の動作の例を示すフローチャートである。更新処理の動作の例を示すフローチャートである。他の管理システム２による処理の一例を説明するための模式図である。

以下、実施形態の一側面に係る管理システム及び管理方法について図を参照しつつ説明する。但し、本発明の技術的範囲はそれらの実施の形態に限定されず、特許請求の範囲に記載された発明とその均等物に及ぶ点に留意されたい。

図１〜３は、実施形態に係る管理システム１による処理の一例を説明するための模式図である。

管理システム１は、複数の特許文献に関する情報を検索用データベースに登録するためのシステムである。各特許文献は、特許出願又は特許登録に係る文献であり、所定の文献形式に基づいて構成され且つ書誌情報及び内容情報を含んでいる。所定の文献形式は、その特許文献が格納される格納アドレス、その特許文献に付与されるファイル名又はその特許文献が記載された言語等である。各特許文献のデータ形式（フォーマット）は、特許出願又は特許登録が行われる国毎に異なる。各特許文献は、各特許文献の文献形式に応じた形式情報を用いて管理される。形式情報は、少なくとも文献番号を含み且つ特許文献を一意に識別可能なデータを含む。書誌情報は、その特許文献に記載された出願番号、発行日、出願日、優先権情報等の書誌的事項に関する情報であり、各特許文献を特定するために使用される。内容情報は、その特許文献に記載された内容であり、特許請求の範囲、明細書、図面及び要約書等である。即ち、内容情報は、少なくとも各特許文献の発明の内容を含む。形式情報は、各国で共通のデータ形式を有しており、書誌情報及び内容情報は、国毎にデータ形式が異なるデータを含んでいる。

図１〜３に示すように、管理システム１は、照会サーバ１００と、書誌サーバ２００と、管理サーバ３００と、ＡＩ（Artificial Intelligence）サーバ４００と、検索サーバ５００とを有する。照会サーバ１００は第１サーバの一例であり、書誌サーバ２００は第２サーバの一例であり、管理サーバ３００は第３サーバの一例であり、ＡＩサーバ４００は第４サーバの一例である。検索サーバ５００は、検索用データベース６００を有している。検索用データベース６００には、過去に収集された既存の特許文献に関する情報が記憶されている。管理システム１には、情報処理装置１５と、自国の特許庁が有する第１データベース１６と、複数の他国の特許庁が有する第２データベース１７と、外部データベース１８とが通信接続される。各特許文献は、各国特許庁に出願又は登録され、第１データベース１６、第２データベース１７及び外部データベース１８に記憶されている。

図１に示すように、情報処理装置１５は、第１データベース１６及び第２データベース１７から所定期間に出願又は登録された新規の特許文献を収集し、各特許文献の形式情報及び内容情報をデータ群１５１として記憶する。一方、外部データベース１８は、複数の国の特許庁に出願又は登録された特許文献を任意のタイミングで収集し、収集した各特許文献の書誌情報を各国で共通のデータ形式に変換して、各特許文献の文献番号と関連付けて記憶する。

図２に示すように、照会サーバ１００は、情報処理装置１５のデータ群１５１から、情報処理装置１５が所定期間に収集した各特許文献について、形式情報を取得する。書誌サーバ２００は、外部データベース１８から、情報処理装置１５が所定期間に収集した各特許文献について、文献番号と、共通のデータ形式に変換された書誌情報とを取得する。但し、外部データベース１８は、独自の意向に従って任意の複数の国の特許庁に出願又は登録された特許文献を任意のタイミングで収集するため、情報処理装置１５が所定期間に収集した特許文献の一部について書誌情報を記憶してない可能性がある。一方、情報処理装置１５は、自国の特許庁の意向に従って、必要十分な特許文献の形式情報を必ず記憶している。即ち、情報処理装置１５と外部データベース１８とでは、各特許文献について取得している情報と、各情報を取得するタイミングとが異なっている。

管理サーバ３００は、各特許文献について、形式情報及び書誌情報の各データ項目が所定の順序で並べられた第１テーブルを記憶する。管理サーバ３００は、照会サーバ１００が形式情報を取得した各特許文献について、照会サーバ１００から形式情報を取得し、形式情報に含まれる各データを第１テーブルの対応する位置に格納する。また、管理サーバ３００は、照会サーバ１００が形式情報を取得した各特許文献について、書誌サーバ２００が書誌情報を取得している場合は、文献番号をキーとして書誌情報に含まれる各データを第１テーブルの対応する位置に格納する。一方、管理サーバ３００は、各特許文献について書誌サーバ２００が書誌情報を取得していない場合は、第１テーブルの書誌情報に対応する位置にブランクを設定する。これにより、管理サーバ３００は、各特許文献について、形式情報及び書誌情報を統合した第１統合情報を生成する。なお、書誌サーバ２００が特許文献自体を収集して書誌情報を生成する場合、書誌サーバ２００は必ず書誌情報を取得できるため、第１テーブルの書誌情報に対応する位置にブランクを設定する処理は省略されてもよい。

図３に示すように、ＡＩサーバ４００は、情報処理装置１５のデータ群１５１から、情報処理装置１５が所定期間に収集した各特許文献について、文献番号と、内容情報とを取得する。ＡＩサーバ４００は、管理サーバ３００が、第１統合情報を生成している間に、各特許文献の書誌情報又は内容情報に基づいて、各特許文献には記載されず且つ検索に利用される検索情報を生成する。検索情報は、外国特許文献の機械翻訳文、特許文献の技術分野の分類（特許分類）を示す分類情報、特許文献中に開示された発明の技術的特徴を表すキーワード、特許文献中の図面のメタデータ、特許文献の特徴を示す特徴ベクトル等である。特に、ＡＩサーバ４００は、発明の内容が自国の言語、即ち管理システム１が適用される検索システムを提供する特許庁における使用言語で記載されていない特許文献１１について、発明の内容が自国の言語に翻訳された翻訳文を生成する。ＡＩサーバ４００は、発明の内容が自国の言語で記載された特許文献０１についてはその発明の内容に基づき、発明の内容が自国の言語で記載されていない特許文献１１については生成した翻訳文に基づいて、学習モデルを用いて各特許文献の分類情報を生成する。

管理サーバ３００は、各特許文献について、第１統合情報及び検索情報の各データ項目が所定の順序で並べられた第２テーブルを記憶する。管理サーバ３００は、第１統合情報が完成した後に、照会サーバ１００が形式情報を取得した各特許文献について、文献番号をキーとして、第１統合情報に含まれる各データと、検索情報に含まれる各データとを第２テーブルの対応する位置に格納する。これにより、管理サーバ３００は、第１統合情報及び検索情報を統合した第２統合情報を生成する。管理サーバ３００は、生成した第２統合情報を、検索サーバ５００の検索用データベース６００に登録する。

照会サーバ１００及び書誌サーバ２００は、情報処理装置１５が所定期間に収集した各特許文献に対して短期間で、情報処理装置１５のデータ群１５１から形式情報を取得し、外部データベース１８から書誌情報を取得することができる。しかしながら、ＡＩサーバ４００は、各特許文献には記載されていない検索情報を生成するため、検索情報の生成には長時間を要する。管理サーバ３００は、検索情報の完成を待たずに、まず、別個の装置から取得した形式情報と書誌情報を統合して第１統合情報を生成し、その後、検索情報を統合して第２統合情報を生成するため、第２統合情報を効率良く短時間に生成することができる。また、管理サーバ３００は、情報処理装置１５が所定期間に収集した複数の特許文献について、検索用データベース６００に登録するために必要な第２統合情報をまとめて生成する。これにより、管理サーバ３００は、情報処理装置１５が所定期間に収集した複数の特許文献に関する情報を検索用データベース６００に一括して登録することができ、検索用データベース６００を効率良く短時間に更新することができる。したがって、管理システム１は、特許文献に関する情報を効率良く管理することが可能となる。

図４は、実施形態に係る管理システム１の概略構成を示す図である。

管理システム１は、特許文献に含まれる各情報を管理し、技術分類又はキーワード等の各情報を用いて特許文献を検索するためのサービスを利用者に提供する。管理システム１は、例えば、特許情報プラットフォーム（Ｊ−ＰｌａｔＰａｔ（登録商標））、外国特許情報サービス（ＦＯＰＩＳＥＲ）、Ｅｓｐａｃｅｎｅｔ（登録商標）、ＰＡＴＥＮＴＳＣＯＰＥ（登録商標）等の検索システムに適用される。なお、管理システム１は、他の各国特許庁が提供する特許文献の検索システムに適用されてもよい。以下では、管理システム１が適用される検索システムを提供する特許庁を対象特許庁と称する場合がある。

特許情報プラットフォームは、日本、米国、欧州特許庁（ＥＰＯ）、イギリス、ドイツ、フランス、スイス、世界知的所有権機関（ＷＩＰＯ）、カナダ、韓国、中国等の特許・実用新案の各種公報及びＣＳＤＢ（Computer Software Data Base）の各種文献を記憶するデータベースを有する。外国特許情報サービスは、ロシア、台湾、オーストラリア、シンガポール、ベトナム、タイ等の特許・実用新案の各種公報を記憶するデータベースを有する。Ｅｓｐａｃｅｎｅｔは、欧州特許庁が提供する１００か国以上の特許公報等を記憶するデータベースを有する。ＰＡＴＥＮＴＳＣＯＰＥは、公開済みのＰＣＴ国際出願３４３万件を含む、７１９６万件の特許文献を記憶するデータベースを有する。

図４に示すように、管理システム１は、照会サーバ１００、書誌サーバ２００、管理サーバ３００、ＡＩサーバ４００及び検索サーバ５００等を有する。管理システム１は、さらに、複数の端末装置１０、ゲートウェイサーバ１１、ＵＩ（User Interface）サーバ１２、バックアップサーバ１３、ログ管理サーバ１４、情報処理装置１５、第１データベース１６、複数の第２データベース１７及び外部データベース１８等を有する。複数の端末装置１０、ゲートウェイサーバ１１及びＵＩサーバ１２は、それぞれ第１ネットワーク２０に通信接続する。照会サーバ１００、書誌サーバ２００、管理サーバ３００、ＡＩサーバ４００、検索サーバ５００、ゲートウェイサーバ１１、ＵＩサーバ１２、バックアップサーバ１３、ログ管理サーバ１４、情報処理装置１５及び外部データベース１８は、それぞれ第２ネットワーク２１に通信接続する。情報処理装置１５、第１データベース１６及び第２データベース１７は、それぞれ第３ネットワーク２２に通信接続する。第１ネットワーク２０、第２ネットワーク２１及び第３ネットワーク２２は、端末装置１０の利用者の事業所及び各サーバの設置場所に設けられたローカルエリアネットワーク又はクラウドネットワーク等である。管理システム１は、各サーバを、それぞれ複数有してもよい。各サーバは、物理サーバである。なお、各サーバは、統合されていてもよく、各サーバは、仮想サーバでもよい。

各端末装置１０は、パーソナルコンピュータ、タブレット端末、スマートフォン等であり、特許文献を検索する利用者により使用される。各端末装置１０は、表示装置、入力装置、記憶装置、メモリ、ＣＰＵ及び通信インタフェース回路等を有する。

ゲートウェイサーバ１１は、検索サーバ５００と各端末装置１０の間の通信を中継するサーバであり、各端末装置１０からの指示に従って検索サーバ５００に特許文献の検索を指示し、検索サーバ５００から検索結果を受信して各端末装置１０に送信する。

ＵＩサーバ１２は、特許文献を検索するための検索画面を提供するサーバであり、各端末装置１０からの指示に従って、検索画面を表示するための表示データを各端末装置１０に送信する。

バックアップサーバ１３は、管理サーバ３００及び検索サーバ５００に格納された各情報を定期的にバックアップするサーバである。バックアップのタイミングは、データベース１６に記憶されたデータの更新開始前が望ましいが、それに限定されない。各サーバに障害が発生した場合、管理システム１は、バックアップサーバ１３に格納された情報に基づいて、各サーバを復旧させることができ、サービスの継続性を向上させることが可能となる。

ログ管理サーバ１４は、管理サーバ３００からの指示に従って、照会サーバ１００及び検索サーバ５００等の稼働状態又は第１データベース１６の記憶データ等を監視し、サーバ管理者又は利用者に監視結果を通知するサーバである。ログ管理サーバ１４は、サーバの稼働状態をリアルタイムに監視し、グラフ又は表で図示した画像を用いて、サーバ管理者に通知する。これにより、サーバ管理者は、異常発生時にその異常を早期に回復させることができる。また、ログ管理サーバ１４は、第１データベース１６におけるデータ更新の前後に、第１データベース１６の記憶データを確認し、サーバ管理者及び利用者に通知する。これにより、サーバ管理者及び利用者は、第１データベース１６の記憶装置の空き容量不足によりデータを更新できなくなることを未然に防ぐことができる。

また、ログ管理サーバ１４は、定期的に、照会サーバ１００、管理サーバ３００又は検索サーバ５００から、新たに追加された特許文献に関する情報を収集し、収集した情報を発行年毎又は発行機関毎に集計する。ログ管理サーバ１４は、集計した情報をグラフ又は表で図示した画像を用いて、システム管理者又は利用者に通知する。これにより、システム管理者又は利用者は、発行年毎又は発行機関毎の特許文献の件数の分布等を把握することができ、ログ管理サーバ１４は、利用者の利便性を向上させることが可能となる。

情報処理装置１５は、定期的に、第１データベース１６及び第２データベース１７から、新たに出願又は登録された特許文献を収集し、照会サーバ１００及びＡＩサーバ４００に配信する。情報処理装置１５は、所定期間毎に、第３ネットワーク２２を介して第１データベース１６及び第２データベース１７に、その所定期間に新たに出願、登録又は更新された特許文献の取得要求信号を送信する。情報処理装置１５は、第１データベース１６及び第２データベース１７から各特許文献を受信した場合、受信した各特許文献の形式情報及び内容情報をデータ群１５１として記憶する。即ち、データ群１５１には、情報処理装置１５が所定期間に第１データベース１６及び第２データベース１７からそれぞれ収集した複数の特許文献についての形式情報及び内容情報が含まれる。また、情報処理装置１５は、受信した各特許文献の形式情報及び内容情報を、第２ネットワーク２１を介して照会サーバ１００及びＡＩサーバ４００のそれぞれに送信する。

また、情報処理装置１５は、取得した各特許文献にファミリー出願が存在するか否かを判定し、ファミリー出願が存在する場合、そのファミリー出願に係る特許文献を第１データベース１６及び第２データベース１７から取得する。また、情報処理装置１５は、各特許文献とともに、各特許文献が記載された言語を示す情報、及び、各特許文献の最新の更新日も取得する。情報処理装置１５は、取得した各特許文献の形式情報及び内容情報をデータ群１５１として記憶するとともに、照会サーバ１００及びＡＩサーバ４００に送信する。なお、情報処理装置１５は第２ネットワーク２１と通信接続されずに、情報処理装置１５の管理者が、ＵＳＢ（Universal Serial Bus）メモリ等を利用して、受信した各特許文献の形式情報及び内容情報を照会サーバ１００及びＡＩサーバ４００に複写してもよい。

第１データベース１６は、自国の特許庁（対象特許庁）が有するデータベースであり、例えば日本国特許庁（ＪＰＯ）において出願又は登録された特許文献を記憶する。第１データベース１６の数は、１つに限定されず、複数でもよい。

複数の第２データベース１７は、それぞれ複数の他国の特許庁（対象特許庁以外の特許庁）が有するデータベースである。各第２データベース１７は、例えば米国特許商標庁（ＵＳＰＴＯ）、欧州特許庁（ＥＰＯ）、世界知的所有権機関（ＷＩＰＯ）、中国特許庁（ＳＩＰＯ）、ドイツ特許商標庁（ＤＰＭＡ）、韓国特許庁（ＫＩＰＯ）等の各国特許庁において出願又は登録された特許文献を記憶する。第２データベース１７の数は、１つでもよい。

外部データベース１８は、第１データベース１６及び第２データベース１７とは異なるデータベースである。外部データベース１８は、例えば欧州特許庁（ＥＰＯ）が管理するＤｏｃＤＢ（Document Database）等である。外部データベース１８は、複数の国の特許庁に出願又は登録された特許文献を任意のタイミングで収集し、収集した各特許文献の書誌情報を各国で共通のデータ形式に変換して記憶する。即ち、外部データベース１８には、複数の国の特許庁に出願又は登録された特許文献について、国毎にデータ形式が異なるデータを含む書誌情報が共通のデータ形式に変換されて記憶される。外部データベース１８の数は、１つに限定されず、複数でもよい。

図５は、照会サーバ１００の概略構成を示す図である。

照会サーバ１００は、対象特許庁を含む各国特許庁が発行する各特許文献のテキストデータ及びイメージデータを取得して記憶し、各特許文献の形式に応じた形式情報を取得する。照会サーバ１００は、利用者により文献番号が指定された照会要求信号を端末装置１０から受信した場合、指定された文献番号に対応する特許文献のテキストデータ及びイメージデータを端末装置１０に送信する。また、照会サーバ１００は、特許文献の検索に用いられる各種情報を検索サーバ５００に提供する。図５に示すように、照会サーバ１００は、第１通信装置１０１、第１記憶装置１１０及び第１制御装置１２０等を有する。

第１通信装置１０１は、照会サーバ１００が第２ネットワーク２１を介して各装置と所定の通信プロトコルに従って通信を行うための通信インタフェース回路を有する。所定の通信プロトコルは、ＴＣＰ／ＩＰ（Transmission Control Protocol/Internet Protocol）等である。第１通信装置１０１は、第２ネットワーク２１を介して各装置から受信したデータを第１制御装置１２０に送るとともに、第１制御装置１２０から受け取ったデータを、第２ネットワーク２１を介して各装置に送信する。

第１記憶装置１１０は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等のメモリ装置、ハードディスク等の固定ディスク装置、又はフレキシブルディスク、光ディスク等の可搬用の記憶装置等を有する。また、第１記憶装置１１０には、照会サーバ１００の各種処理に用いられるコンピュータプログラム、データベース、テーブル等が格納される。コンピュータプログラムは、コンピュータ読み取り可能な可搬型記録媒体から公知のセットアッププログラム等を用いて第１記憶装置１１０にインストールされてもよい。可搬型記録媒体は、例えばＣＤ−ＲＯＭ（compact disc read only memory）、ＤＶＤ−ＲＯＭ（digital versatile disc read only memory）等である。コンピュータプログラムは、所定のサーバ等からインストールされてもよい。

第１制御装置１２０は、予め第１記憶装置１１０に記憶されているプログラムに基づいて動作するＣＰＵ（Control Processing Unit）等のプロセッサである。なお、第１制御装置１２０として、ＤＳＰ（digital signal processor）等が用いられてもよい。また、第１制御装置１２０として、ＬＳＩ（large scale integration）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programming Gate Array）等の制御回路が用いられてもよい。第１制御装置１２０は、第１通信装置１０１及び第１記憶装置１１０等と接続され、これらの各部を制御するとともに、形式情報の管理制御等を行う。

第１制御装置１２０は、第１記憶装置１１０に記憶されたコンピュータプログラムを読み取り、読み取ったコンピュータプログラムに従って動作することにより、形式情報生成部１２１、第３統合情報生成部１２２及び第３統合情報送信部１２３として機能する。

図６は、書誌サーバ２００の概略構成を示す図である。

書誌サーバ２００は、特許文献に記載された書誌的事項に関する書誌情報を格納する。図６に示すように、書誌サーバ２００は、第２通信装置２０１、第２記憶装置２１０及び第２制御装置２２０等を有する。

第２通信装置２０１は、第１通信装置１０１と同様の通信装置であり、書誌サーバ２００が第２ネットワーク２１を介して各装置と所定の通信プロトコルに従って通信を行うための通信インタフェース回路を有する。第２通信装置２０１は、第２ネットワーク２１を介して各装置から受信したデータを第２制御装置２２０に送るとともに、第２制御装置２２０から受け取ったデータを、第２ネットワーク２１を介して各装置に送信する。

第２記憶装置２１０は、第１記憶装置１１０と同様の記憶装置である。また、第２記憶装置２１０には、書誌サーバ２００の各種処理に用いられるコンピュータプログラム、データベース、テーブル等が格納される。コンピュータプログラムは、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ等のコンピュータ読み取り可能な可搬型記録媒体から公知のセットアッププログラム等を用いて、又は、所定のサーバ等から第２記憶装置２１０にインストールされてもよい。

第２制御装置２２０は、第１制御装置１２０と同様の制御装置であり、予め第２記憶装置２１０に記憶されているプログラムに基づいて動作する。第２制御装置２２０として、ＣＰＵ、ＤＳＰ、ＬＳＩ、ＡＳＩＣ、ＦＰＧＡ等のプロセッサ又は制御回路が用いられる。第２制御装置２２０は、第２通信装置２０１及び第２記憶装置２１０等と接続され、これらの各部を制御するとともに、書誌情報の管理制御等を行う。

第２制御装置２２０は、第２記憶装置２１０に記憶されたコンピュータプログラムを読み取り、読み取ったコンピュータプログラムに従って動作することにより、書誌情報生成部２２１として機能する。

図７は、管理サーバ３００の概略構成を示す図である。

管理サーバ３００は、照会サーバ１００、書誌サーバ２００、管理サーバ３００、ＡＩサーバ４００及び検索サーバ５００の各サーバの処理、各サーバが記憶するデータ及び各サーバ間の通信を管理する。管理サーバ３００は、特許文献に関する情報を収集し、利用者が検索可能な状態になるように統合する。図７に示すように、管理サーバ３００は、第３通信装置３０１、第３記憶装置３１０及び第３制御装置３２０等を有する。

第３通信装置３０１は、第１通信装置１０１と同様の通信装置であり、管理サーバ３００が第２ネットワーク２１を介して各装置と所定の通信プロトコルに従って通信を行うための通信インタフェース回路を有する。第３通信装置３０１は、第２ネットワーク２１を介して各装置から受信したデータを第３制御装置３２０に送るとともに、第３制御装置３２０から受け取ったデータを、第２ネットワーク２１を介して各装置に送信する。

第３記憶装置３１０は、第１記憶装置１１０と同様の記憶装置である。また、第３記憶装置３１０には、管理サーバ３００の各種処理に用いられるコンピュータプログラム、データベース、テーブル等が格納される。コンピュータプログラムは、プロセッサ上で動作するソフトウェアにより実装される機能モジュールである。コンピュータプログラムは、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ等のコンピュータ読み取り可能な可搬型記録媒体から公知のセットアッププログラム等を用いて、又は、所定のサーバ等から第３記憶装置３１０にインストールされてもよい。

第３制御装置３２０は、第１制御装置１２０と同様の制御装置であり、予め第３記憶装置３１０に記憶されているプログラムに基づいて動作する。第３制御装置３２０として、ＣＰＵ、ＤＳＰ、ＬＳＩ、ＡＳＩＣ、ＦＰＧＡ等のプロセッサ又は制御回路が用いられる。第３制御装置３２０は、第３通信装置３０１及び第３記憶装置３１０等と接続され、これらの各部を制御するとともに、特許文献に関する各情報の管理制御等を行う。

第３制御装置３２０は、第３記憶装置３１０に記憶されたコンピュータプログラムを読み取り、読み取ったコンピュータプログラムに従って動作することにより、第１統合情報生成部３２１、第２統合情報生成部３２２及び第２統合情報送信部３２３として機能する。

図８は、ＡＩサーバ４００の概略構成を示す図である。

ＡＩサーバ４００は、ＡＩ技術を利用して、特許文献から推定される検索情報を生成し、生成した検索情報を格納する。図８に示すように、ＡＩサーバ４００は、第４通信装置４０１、第４記憶装置４１０及び第４制御装置４２０等を有する。

第４通信装置４０１は、第１通信装置１０１と同様の通信装置であり、ＡＩサーバ４００が第２ネットワーク２１を介して各装置と所定の通信プロトコルに従って通信を行うための通信インタフェース回路を有する。第４通信装置４０１は、第２ネットワーク２１を介して各装置から受信したデータを第４制御装置４２０に送るとともに、第４制御装置４２０から受け取ったデータを、第２ネットワーク２１を介して各装置に送信する。

第４記憶装置４１０は、第１記憶装置１１０と同様の記憶装置である。また、第４記憶装置４１０には、ＡＩサーバ４００の各種処理に用いられるコンピュータプログラム、データベース、テーブル等が格納される。コンピュータプログラムは、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ等のコンピュータ読み取り可能な可搬型記録媒体から公知のセットアッププログラム等を用いて、又は、所定のサーバ等から第４記憶装置４１０にインストールされてもよい。

第４記憶装置４１０には、対象特許庁における使用言語と異なる複数の言語毎に、各言語で記載された特許文献をその使用言語に翻訳するための機械翻訳エンジンである第１学習モデル４１１が記憶される。対象特許庁における使用言語は、所定言語の一例であり、対象特許庁が設置された国の母国語のように、対象特許庁に出願される特許文献が記載される言語等である。

また、第４記憶装置４１０には、対象特許庁により割り当てられる技術分野の大分類毎に、技術分野の小分類を特定するための第２学習モデル４１２が記憶される。例えば、対象特許庁が日本国特許庁である場合、技術分野の大分類はテーマコード等であり、小分類はＦＩ又はＦターム等である。即ち、対象特許庁が日本国特許庁である場合、テーマコード毎に、ＦＩ及び／又はＦタームを特定するための第２学習モデル４１２が記憶される。なお、ＦＩ及びＦタームをまとめて特定するための第２学習モデル４１２が記憶されてもよい。一方、対象特許庁が米国特許商標庁又は欧州特許庁である場合、技術分野の小分類はＣＰＣ（Cooperative. Patent Classification、欧州米国共通特許分類）等であり、大分類は複数のＣＰＣの集合等である。

ＦＩは、ＩＰＣ（国際特許分類）を細分化した日本国特許庁独自の各特許文献の分類である。ＩＰＣは、世界知的所有権機関（ＷＩＰＯ）が管理する国際特許分類に関するストラスブール協定に基づいて作成された、国際的に統一されて用いられている、各特許文献の技術内容による分類である。テーマコードは、ＦＩの各項目（約２０万項目）を約２６００にまとめた各テーマに割り当てられたコードであり、各特許文献の対象技術の範囲を表す。Ｆタームは、日本国特許庁が編纂している、各特許文献に記載された発明の技術的特徴による分類体系であり、その分類体系において用いられる分類記号である。Ｆタームは、ＩＰＣ及びＦＩの特許分類体系とは異なる複数の技術的観点によって特許文献を分類する。

第４制御装置４２０は、第１制御装置１２０と同様の制御装置であり、予め第４記憶装置４１０に記憶されているプログラムに基づいて動作する。第４制御装置４２０として、ＣＰＵ、ＤＳＰ、ＬＳＩ、ＡＳＩＣ、ＦＰＧＡ等のプロセッサ又は制御回路が用いられる。第４制御装置４２０は、第４通信装置４０１及び第４記憶装置４１０等と接続され、これらの各部を制御するとともに、検索情報の管理制御等を行う。

第４制御装置４２０は、第４記憶装置４１０に記憶されたコンピュータプログラムを読み取り、読み取ったコンピュータプログラムに従って動作することにより、検索情報生成部４２１として機能する。

図９は、検索サーバ５００の概略構成を示す図である。

検索サーバ５００は、特許文献の検索に用いられる検索用データベース６００を有し、検索用データベース６００において、特許文献毎に、各特許文献の形式情報、書誌情報、検索情報及び内容情報等を一括して管理する。検索サーバ５００は、ゲートウェイサーバ１１を介して端末装置１０から受信した利用者の指示に従って特許文献を検索し、検索結果（特許文献の文献番号等）を、ゲートウェイサーバ１１を介して端末装置１０に送信する。図９に示すように、検索サーバ５００は、第５通信装置５０１、第５記憶装置５１０及び第５制御装置５２０等を有する。

第５通信装置５０１は、第１通信装置１０１と同様の通信装置であり、検索サーバ５００が第２ネットワーク２１を介して各装置と所定の通信プロトコルに従って通信を行うための通信インタフェース回路を有する。第５通信装置５０１は、第２ネットワーク２１を介して各装置から受信したデータを第５制御装置５２０に送るとともに、第５制御装置５２０から受け取ったデータを、第２ネットワーク２１を介して各装置に送信する。

第５記憶装置５１０は、第１記憶装置１１０と同様の記憶装置である。また、第５記憶装置５１０には、検索サーバ５００の各種処理に用いられるコンピュータプログラム、データベース、テーブル等が格納される。コンピュータプログラムは、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ等のコンピュータ読み取り可能な可搬型記録媒体から公知のセットアッププログラム等を用いて、又は、所定のサーバ等から第５記憶装置５１０にインストールされてもよい。第５記憶装置５１０は、検索用データベースの一例である。第５記憶装置５１０には、データとして、管理テーブル５１１が記憶される。

第５制御装置５２０は、第１制御装置１２０と同様の制御装置であり、予め第５記憶装置５１０に記憶されているプログラムに基づいて動作する。第５制御装置５２０として、ＣＰＵ、ＤＳＰ、ＬＳＩ、ＡＳＩＣ、ＦＰＧＡ等のプロセッサ又は制御回路が用いられる。第５制御装置５２０は、第５通信装置５０１及び第５記憶装置５１０等と接続され、これらの各部を制御するとともに、管理テーブル５１１の管理制御等を行う。

第５制御装置５２０は、第５記憶装置５１０に記憶されたコンピュータプログラムを読み取り、読み取ったコンピュータプログラムに従って動作することにより、第３統合情報記憶制御部５２１及び検索部５２２として機能する。

図１０〜図１３は、管理テーブル５１１のデータ構造の一例を示す模式図である。

管理テーブル５１１には、複数の特許文献毎に、各特許文献の文献番号、基本情報、検索情報、テキストデータ、二次データ及び管理データ等が記憶される。なお、図面を簡略化するために、図１０〜図１３には、一つのファミリー出願に対応する二つの特許文献についてのテーブルのみが示されているが、管理テーブル５１１には、ファミリー出願のセット毎のテーブルが含まれる。文献番号は、特許文献の公開番号又は登録番号である。

基本情報は、各特許文献の形式情報及び書誌情報に基づく情報であり、発行機関、言語、文献種別、出願番号、発行日、出願日、テーマコード、Ｆターム、ＦＩ、ＩＰＣ、出願人名及び発明者名等を含む。発行機関は、その特許文献を発行する特許庁である。言語は、その特許文献が記載されている言語である。文献種別は、その特許文献の種別（公開公報又は特許公報等）である。出願番号は、その特許文献に係る出願に割り当てられた出願番号である。発行日は、その特許文献が発行された日である。出願日は、その特許文献が出願された日である。出願人名は、その特許文献に係る出願の出願人の名前である。発明者名は、その特許文献に記載された発明の発明者の名前である。なお、各情報について一つの特許文献に複数の値が存在する場合、各値が、カンマ等のデリミタで区切られて一つのフィールドに格納される。なお、本実施形態の各図面では、対象特許庁が日本国特許庁であり、技術分野の分類がテーマコード、Ｆターム、ＦＩ及びＩＰＣである場合の例について図示するが、技術分野の分類は、対象特許庁により割り当てられる分類に合わせて設定される。

検索情報は、各特許文献から推定されて生成された情報であり、テーマコード、Ｆターム、ＦＩ、機械翻訳文、翻訳方式、図面のメタデータ及び複数の第１特徴ベクトル等を含む。テーマコード、Ｆターム及びＦＩは、それぞれ学習モデルを用いて推定された各特許文献のテーマコード、Ｆターム及びＦＩである。機械翻訳文は、学習モデルを用いて各特許文献のテキストコードを対象特許庁における使用言語に翻訳した翻訳文である。翻訳方式は、各機械翻訳の方式であり、例えば統計的機械翻訳（ＳＭＴ）又はニューラル機械翻訳（ＮＭＴ）等である。検索情報には、一又は複数の翻訳方式毎に、その翻訳方式で翻訳された機械翻訳文が含まれる。図面のメタデータは、学習モデルを用いて推定された各特許文献の図面の特徴情報（付帯情報）である。第１特徴ベクトルは、各特許文献の特徴を示す特徴ベクトルである。また、図示されないが、検索情報には、学習モデルを用いて推定された各特許文献のキーワード等がさらに含まれてもよい。

テキストデータは、各特許文献に含まれるテキストデータであり、発明の名称、抄録、特許請求の範囲、詳細な説明及び全テキスト等を含む。テキストデータとして内容情報に含まれるデータが記憶される。

二次データは、各特許文献の形式情報、書誌情報及びテキストデータから分析されて生成された二次的（付帯的）なデータであり、ファミリーＩＤ及び代表文献フラグ等を含む。ファミリーＩＤは、各特許文献に係るファミリー出願（同一の特許出願を基礎として各国に出願された一群の出願）に対応する特許文献を示す識別情報である。代表文献フラグは、ファミリー出願に対応する特許文献の中で最も優先度が高い特許文献を示す。

管理情報は、各特許文献の形式情報に基づく情報であり、更新日、格納アドレス、ファイル名、検索サーバ名及び照会サーバ名等を含む。更新日は、各特許文献の最新の更新日である。格納アドレスは、各特許文献のテキストファイルが格納されたアドレスである。ファイル名は、各特許文献のファイル名である。検索サーバ名は、各特許文献を検索する際にアクセスされるべきサーバの識別情報であり、各特許文献の管理テーブルを記憶する検索サーバの識別情報である。照会サーバ名は、各特許文献を照会する際にアクセスされるべきサーバの識別情報であり、各特許文献のテキストデータ及びイメージデータを記憶する検索サーバの識別情報である。

管理テーブル５１１では、上記した項目毎に、データ型、インデックス及び一又は複数のレコードが記憶される。データ型は、管理テーブル５１１に記憶されるデータの種類（文字列又は数値等）を示す。インデックスは、各レコードの索引であり、特許文献の検索に使用される。例えば、テーマコード、Ｆターム、ＦＩ、ＩＰＣのインデックスとして、テーマコード、Ｆターム、ＦＩ、ＩＰＣを示す文字列が設定される。また、出願人名、発明者名、翻訳文及び各テキストデータのインデックスは、英語のように空白によって区切られる言語の場合、形態素単位で設定され、日本語のように空白によって区切られない言語の場合、Ｎ−ｇｒａｍにより設定される。第１特徴ベクトルのインデックスとして、第１特徴ベクトルの各要素の値が設定される。他の項目のインデックスにはブランクが設定される。レコードは、データ項目の一例である。

管理テーブル５１１ではファミリー出願に対応する特許文献毎に各情報が管理され、レコードは特許文献毎に設定される。例えば、日本国出願に係る特許文献と、そのファミリー出願である国際出願に係る特許文献とは同一のテーブルに記憶され、各特許文献に関する情報が別個のレコードに記憶される。また、ファミリー出願に係る特許文献のインデックスとして、ファミリー出願に係る特許文献で共通のインデックスが記憶される。

日本国特許庁に出願された特許文献にはテーマコード、Ｆターム及びＦＩが付与され、一方、日本国特許庁以外の特許庁に出願された特許文献にはテーマコード、Ｆターム及びＦＩが付与されない。したがって、日本国以外の特許庁に出願された特許文献の基本情報のテーマコード、Ｆターム及びＦＩにはブランクが設定される。また、日本国特許庁に出願された特許文献については、ＡＩを用いてテーマコード、Ｆターム及びＦＩが推定されず、検索情報のテーマコード、Ｆターム及びＦＩにはブランクが設定される。同様に、日本語で出願された特許文献については、ＡＩを用いて機械翻訳文が生成されず、検索情報の機械翻訳文及び翻訳方式にはブランクが設定される。

上記したように、管理システム１では、管理テーブル５１１において、各特許文献に関する情報が集約されて一元管理されているため、検索サーバ５００は、複数のフィールドにまたがった条件が指定された検索を、簡易な検索式によって、実行することができる。例えば、検索サーバ５００は、検索条件としてキーワードと図面のメタデータ等がまとめて指定された場合でも、両方の検索条件を満たす特許文献を簡易に検出することが可能となる。したがって、検索サーバ５００は、ビッグデータを効率良く且つ高速に検索することができる。

また、検索サーバ５００は、検索条件として技術分野の分類が指定されたときに、特許文献の書誌的事項に記載された技術分野の分類と、ＡＩサーバ４００により推定された技術分野の分類とをまとめて照合でき、効率良く且つ高速に検索することができる。同様に、検索サーバ５００は、検索条件としてキーワード等が指定されたときに、特許文献の原文と、ＡＩサーバ４００により生成された機械翻訳文とをまとめて照合でき、効率良く且つ高速に検索することができる。さらに、検索サーバ５００は、検索条件としてキーワード等が指定されたときに、特許文献の原文と、ＡＩサーバ４００により生成された第１特徴ベクトルとをまとめて照合でき、効率良く且つ高速に検索することができる。

図１４は、管理システム１による更新処理に係る動作シーケンスの一例を示す。

以下に説明する動作シーケンスは、管理システム１が有する各サーバの記憶装置に予め記憶されているプログラムに基づいて、主に各サーバの制御装置により、各サーバの各要素と協働して実行される。この動作シーケンスは、一定期間（例えば１週間）毎に実行される。

まず、情報処理装置１５は、所定期間（例えば直近の１週間）に第１データベース１６及び第２データベース１７からそれぞれ収集した複数の特許文献について、データ群１５１に記憶された形式情報及び内容情報を照会サーバ１００に送信する（ステップＳ１０１）。情報処理装置１５は、自発的に、形式情報を照会サーバ１００に送信する。なお、情報処理装置１５は、照会サーバ１００からの要求に従って、形式情報及び内容情報を照会サーバ１００に送信してもよい。

照会サーバ１００の形式情報生成部１２１は、第１通信装置１０１を介して情報処理装置１５から形式情報及び内容情報を受信する。これにより、形式情報生成部１２１は、情報処理装置１５が所定期間に第１データベース１６及び第２データベース１７からそれぞれ収集した複数の特許文献について、データ群１５１から形式情報を取得する（ステップＳ１０２）。なお、形式情報生成部１２１は、情報処理装置１５から特許文献自体を収集し、収集した特許文献毎に、各特許文献の文献形式を特定して、各特許文献の文献形式に応じた形式情報を生成することにより取得してもよい。また、各特許文献から抽出される文献番号のフォーマットは、国毎に異なるため、形式情報生成部１２１は、抽出した文献番号を管理システム１内の共通形式のフォーマットに変換する。

図１５は、形式情報のデータ構造の一例を示す模式図である。

図１５に示すように、形式情報には、発行機関、文献番号、文献種別、格納アドレス、ファイル名、言語及び更新日等が含まれる。格納アドレス及びファイル名は、照会サーバ１００の第１記憶装置１１０において各特許文献を格納するアドレス及びそのファイル名である。更新日は、各データベースにおいて各特許文献が更新された日である。図１５に示すように、形式情報には、上記した項目毎に、データ型及び一又は複数のレコードが含まれる。形式情報生成部１２１は、各特許文献にファミリー出願が存在する場合、そのファミリー出願に係る特許文献についてデータ群１５１から形式情報を取得し、ファミリー出願に係る特許文献の形式情報を一つのテーブル内で相互に対応付けて記憶する。形式情報生成部１２１は、一つのテーブル内で、ファミリー出願に係る特許文献毎に形式情報のレコードを設定する。

一方、外部データベース１８は、情報処理装置１５が所定期間に第１データベース１６及び第２データベース１７からそれぞれ収集した複数の特許文献について、文献番号と、共通のデータ形式に変換された書誌情報とを書誌サーバ２００に送信する（ステップＳ１０３）。外部データベース１８は、書誌サーバ２００からの要求に従って、文献番号及び書誌情報を書誌サーバ２００に送信する。但し、外部データベース１８は、複数の国の特許庁に出願又は登録された特許文献を任意のタイミングで収集するため、情報処理装置１５が所定期間に収集した特許文献の一部について書誌情報を記憶してない可能性がある。そのため、外部データベース１８は、情報処理装置１５が所定期間に収集した特許文献の内、共通のデータ形式に変換された書誌情報を記憶している特許文献についてのみ、書誌サーバ２００に書誌情報を送信する。

書誌サーバ２００の書誌情報生成部２２１は、第２通信装置２０１を介して外部データベース１８から、文献番号と、共通のデータ形式に変換された書誌情報とを受信する。これにより、書誌情報生成部２２１は、情報処理装置１５が所定期間に第１データベース１６及び第２データベース１７からそれぞれ収集した複数の特許文献について、外部データベース１８から、文献番号と、共通のデータ形式に変換された書誌情報とを取得する（ステップＳ１０４）。なお、書誌情報生成部２２１は、外部データベース１８、第１データベース１６又は第２データベース１７から特許文献自体を収集し、収集した特許文献毎に、各特許文献に記載された書誌的事項を抽出して、書誌情報を生成してもよい。また、各特許文献から抽出される文献番号のフォーマットは、国毎に異なるため、書誌情報生成部２２１は、抽出した文献番号を管理システム１内の共通形式のフォーマットに変換する。

図１６は、書誌情報のデータ構造の一例を示す模式図である。

図１６に示すように、書誌情報には、発行機関、文献番号、文献種別、出願番号、発行日、出願日、ＦＩ、テーマコード、Ｆターム、ＩＰＣ、出願人名、発明者名及び更新日等が含まれる。図１６に示すように、書誌情報には、上記した項目毎に、データ型及び一又は複数のレコードが含まれる。書誌情報生成部２２１は、各特許文献にファミリー出願が存在する場合、そのファミリー出願に係る特許文献について外部データベース１８から書誌情報を取得し、ファミリー出願に係る特許文献の書誌情報を一つのテーブル内で相互に対応付けて記憶する。書誌情報生成部２２１は、一つのテーブル内で、ファミリー出願に係る特許文献毎に書誌情報のレコードを設定する。

一方、情報処理装置１５は、所定期間に第１データベース１６及び第２データベース１７からそれぞれ収集した複数の特許文献について、データ群１５１に記憶された文献番号及び内容情報をＡＩサーバ４００に送信する（ステップＳ１０５）。情報処理装置１５は、自発的に、文献番号及び内容情報を照会サーバ１００に送信する。なお、情報処理装置１５は、ＡＩサーバ４００からの要求に従って、文献番号及び内容情報をＡＩサーバ４００に送信してもよい。

ＡＩサーバ４００の検索情報生成部４２１は、第４通信装置４０１を介して情報処理装置１５から文献番号及び内容情報を受信する。これにより、検索情報生成部４２１は、情報処理装置１５が所定期間に第１データベース１６及び第２データベース１７からそれぞれ収集した複数の特許文献について、データ群１５１から文献番号及び内容情報を取得する。次に、検索情報生成部４２１は、情報処理装置１５が所定期間に収集した各特許文献について、検索情報生成処理を実行する（ステップＳ１０６）。検索情報生成処理において、検索情報生成部４２１は、各特許文献の内容情報に基づいて、各特許文献の検索情報を生成する。特に、検索情報生成部４２１は、学習モデルを用いて、各特許文献の分類情報、キーワード、メタデータ又は複数の第１特徴ベクトル等を検索情報として生成する。なお、検索情報生成部４２１は、情報処理装置１５から特許文献自体を収集し、収集した特許文献から書誌的事項を抽出して書誌情報を生成し、生成した書誌情報にさらに基づいて検索情報を生成してもよい。検索情報生成処理の詳細については後述する。

なお、ステップＳ１０１〜Ｓ１０６の各処理は、更新処理に係る動作シーケンスが実行される一定期間の開始時である第１タイミングに開始されて、並列して実行される。但し、ステップＳ１０６の処理は、ステップＳ１０２及びＳ１０４の処理より長時間を要するため、ステップＳ１０１〜Ｓ１０４及び後述するステップＳ１０７〜Ｓ１１１の各処理と並列して実行される。即ち、検索情報生成部４２１は、管理サーバ３００が第１統合情報を生成している間に検索情報を生成する。なお、ＡＩサーバ４００及び管理サーバ３００は相互に独立し、検索情報生成部４２１は、管理サーバ３００の第１統合情報生成部３２１が第１統合情報を生成する処理と並行して検索情報を生成する。第１統合情報生成部３２１による第１統合情報の生成が開始する前に、検索情報生成部４２１による検索情報の生成が完了してもよいし、検索情報生成部４２１による検索情報の生成が開始する前に、第１統合情報生成部３２１による第１統合情報の生成が完了してもよい。

一方、管理サーバ３００の第１統合情報生成部３２１は、形式情報の取得を要求するための形式情報要求を、第３通信装置３０１を介して照会サーバ１００に送信する（ステップＳ１０７）。

照会サーバ１００の形式情報生成部１２１は、第１通信装置１０１を介して管理サーバ３００から形式情報要求を受信した場合、ステップＳ１０２で取得した形式情報を、第１通信装置１０１を介して管理サーバ３００に送信する（ステップＳ１０８）。

また、管理サーバ３００の第１統合情報生成部３２１は、書誌情報の取得を要求するための書誌情報要求を、第３通信装置３０１を介して書誌サーバ２００に送信する（ステップＳ１０９）。

書誌サーバ２００の書誌情報生成部２２１は、第２通信装置２０１を介して管理サーバ３００から書誌情報要求を受信した場合、ステップＳ１０４で取得した書誌情報を、第２通信装置２０１を介して管理サーバ３００に送信する（ステップＳ１１０）。

なお、ステップＳ１０７及びステップＳ１０９の処理は、更新処理に係る動作シーケンスが実行される一定期間内で、第１タイミングより後の第２タイミングに実行される。第２タイミングは、第１タイミングより、少なくとも形式情報及び形式情報の取得が完了するための十分な期間（例えば２日間）だけ後のタイミングに設定される。

管理サーバ３００の第１統合情報生成部３２１は、第３通信装置３０１を介して照会サーバ１００から形式情報を受信し、書誌サーバ２００から書誌情報を受信した場合、受信した形式情報及び書誌情報を統合した第１統合情報を生成する（ステップＳ１１１）。第１統合情報生成部３２１は、照会サーバ１００が形式情報を取得した各特許文献について、第１統合情報を生成する。

管理サーバ３００は、各特許文献について、形式情報及び書誌情報の各データ項目が所定の順序で並べられた第１テーブルを第３記憶装置３１０に記憶する。第１統合情報生成部３２１は、各特許文献について、照会サーバ１００から受信した形式情報に含まれる各データを第１テーブルの対応する位置に格納する。また、第１統合情報生成部３２１は、各特許文献について、書誌サーバ２００が外部データベース１８から書誌情報を取得している場合は、書誌サーバ２００から受信した文献番号をキーとして、書誌サーバ２００から受信した書誌情報に含まれる各データを第１テーブルの対応する位置に格納する。一方、第１統合情報生成部３２１は、各特許文献について書誌サーバ２００が外部データベース１８から書誌情報を取得していない場合は、第１テーブルの書誌情報に対応する位置にブランクを設定する。これにより、第１統合情報生成部３２１は、照会サーバ１００が形式情報を取得した各特許文献について、第１統合情報を生成する。

なお、第１統合情報生成部３２１は、照会サーバ１００が形式情報を取得した特許文献の内、書誌サーバ２００が外部データベース１８から書誌情報を取得しなかった特許文献に関する情報を出力してもよい。第１統合情報生成部３２１は、書誌サーバ２００が書誌情報を取得しなかった特許文献に関する情報として、例えばその特許文献の文献番号を出力する。第１統合情報生成部３２１は、書誌サーバ２００が書誌情報を取得しなかった特許文献に関する情報を、第３通信装置３０１を介してログ管理サーバ１４に送信することにより出力する。なお、第１統合情報生成部３２１は、書誌サーバ２００が書誌情報を取得しなかった特許文献に関する情報を、不図示の表示装置に表示させることにより出力してもよい。これにより、管理システム１の管理者は、第１統合情報、第２統合情報又は第３統合情報において、共通のデータ形式に変換された書誌情報が記憶されていない特許文献を判別することができ、そのような特許文献に対して個別に各情報を更新することができる。

図１７は、第１統合情報（第１テーブル）のデータ構造の一例を示す模式図である。

図１７に示すように、第１統合情報には、発行機関、文献番号、文献種別、格納アドレス、ファイル名、言語、（形式情報の）更新日、出願番号、発行日、出願日、ＦＩ、テーマコード、Ｆターム、ＩＰＣ、出願人名、発明者名及び（書誌情報の）更新日等が含まれる。図１７に示すように、第１統合情報には、上記した項目毎に、データ型及び一又は複数のレコードが含まれる。このように、第１テーブルには、形式情報及び書誌情報の各データ項目が所定の順序で並べられている。

第１統合情報生成部３２１は、受信した各形式情報及び書誌情報の内、文献番号が同一である形式情報及び書誌情報の組合せを統合（マージ）することにより、第１統合情報を生成する。第１統合情報生成部３２１は、形式情報に含まれる発行機関、文献番号、文献種別、格納アドレス、ファイル名、言語、更新日と、書誌情報に含まれる更新日、出願番号、発行日、出願日、ＦＩ、テーマコード、Ｆターム、ＩＰＣ、出願人名、発明者名及び更新日とを含む第１統合情報を生成する。なお、第１統合情報生成部３２１は、発行機関、文献番号及び文献種別を、形式情報からでなく書誌情報から抽出してもよい。第１統合情報生成部３２１は、各特許文献にファミリー出願が存在する場合、ファミリー出願に係る各特許文献から生成した第１統合情報を一つの第１テーブル内で相互に対応付けて記憶する。第１統合情報生成部３２１は、一つの第１テーブル内で、ファミリー出願に係る特許文献毎に第１統合情報のレコードを設定する。

一方、ＡＩサーバ４００の検索情報生成部４２１は、ステップＳ１０６の検索情報生成処理で生成した各検索情報を第４記憶装置４１０に記憶する（ステップＳ１１２）。

図１８は、検索情報のデータ構造の一例を示す模式図である。

図１８に示すように、検索情報には、文献番号と、テーマコードと、Ｆタームと、ＦＩと、一又は複数の機械翻訳文及び翻訳方式の組合せと、図面のメタデータと、複数の第１特徴ベクトル等とが含まれる。また、図示されないが、検索情報には、各特許文献のキーワード等がさらに含まれてもよい。図１８に示すように、検索情報には、上記した項目毎に、データ型及び一又は複数のレコードが含まれる。なお、各特許文献に含まれる文献番号のフォーマットは、国毎に異なるため、検索情報生成部４２１は、各特許文献に含まれる文献番号を管理システム１内の共通形式のフォーマットに変換して検索情報に記憶する。また、検索情報生成部４２１は、各特許文献にファミリー出願が存在する場合、そのファミリー出願に係る特許文献についてデータ群１５１から内容情報を取得して検索情報を生成し、ファミリー出願に係る特許文献の検索情報を一つのテーブル内で相互に対応付けて記憶する。検索情報生成部４２１は、一つのテーブル内で、ファミリー出願に係る特許文献毎に検索情報を設定する。

次に、管理サーバ３００の第２統合情報生成部３２２は、検索情報の取得を要求するための検索情報要求を、第３通信装置３０１を介してＡＩサーバ４００に送信する（ステップＳ１１３）。

ＡＩサーバ４００の検索情報生成部４２１は、第４通信装置４０１を介して管理サーバ３００から検索情報要求を受信した場合、ステップＳ１１２で記憶した検索情報を、第４通信装置４０１を介して管理サーバ３００に送信する（ステップＳ１１４）。

なお、ステップＳ１１３の処理は、更新処理に係る動作シーケンスが実行される一定期間内で、第２タイミングより後の第３タイミングに実行される。第３タイミングは、第１タイミングより、少なくとも検索情報生成部４２１による検索情報の生成が完了するための十分な期間（例えば３．５日間）だけ後のタイミングに設定される。

管理サーバ３００の第２統合情報生成部３２２は、第３通信装置３０１を介してＡＩサーバ４００から検索情報を受信した場合、ステップＳ１１１で生成した第１統合情報と、受信した検索情報を統合した第２統合情報を生成する（ステップＳ１１５）。第２統合情報生成部３２２は、照会サーバ１００が形式情報を取得した各特許文献について、第２統合情報を生成する。この第２統合情報は、検索用データベース６００に登録を行うために使用される。

管理サーバ３００は、各特許文献について、第１統合情報及び検索情報の各データ項目が所定の順序で並べられた第２テーブルを第３記憶装置３１０に記憶する。第２統合情報生成部３２２は、各特許文献について、文献番号をキーとして、第１統合情報生成部３２１が生成した第１統合情報に含まれる各データと、ＡＩサーバ４００から受信した検索情報に含まれる各データとを、第２テーブルの対応する位置に格納する。これにより、第２統合情報生成部３２２は、照会サーバ１００が形式情報を取得した各特許文献について、第２統合情報を生成する。

図１９は、第２統合情報（第２テーブル）のデータ構造の一例を示す模式図である。

図１９に示すように、第２統合情報には、第１統合情報に含まれる各情報に加えて、検索情報のテーマコード、Ｆターム、ＦＩ、機械翻訳文、翻訳方式、図面のメタデータ及び複数の第１特徴ベクトル等が含まれる。図１９に示すように、第２統合情報には、上記した項目毎に、データ型及び一又は複数のレコードが含まれる。このように、第２テーブルには、第１統合情報及び検索情報の各データ項目が所定の順序で並べられている。

第２統合情報生成部３２２は、生成した第１統合情報及び受信した検索情報の内、文献番号が同一である第１統合情報及び検索情報の組合せを統合（マージ）することにより、第２統合情報を生成する。第２統合情報生成部３２２は、第１統合情報に含まれる各情報と、検索情報に含まれる各情報とを含む第２統合情報を生成する。第２統合情報生成部３２２は、各特許文献にファミリー出願が存在する場合、ファミリー出願に係る各特許文献から生成した第２統合情報を一つの第２テーブル内で相互に対応付けて記憶する。第２統合情報生成部３２２は、一つの第２テーブル内で、ファミリー出願に係る特許文献毎に第２統合情報のレコードを設定する。

このように、第２統合情報生成部３２２は、照会サーバ１００が形式情報を取得した各特許文献に係る第１統合情報が完成した後に、各特許文献について、第２統合情報を生成する。即ち、第２統合情報生成部３２２は、照会サーバ１００が形式情報を取得した各特許文献に係る第１統合情報の生成が完了するまで第２統合情報の生成を開始しない。これにより、第２統合情報生成部３２２は、第２統合情報を効率良く生成することができる。

次に、第２統合情報送信部３２３は、第２統合情報を、第３通信装置３０１を介して照会サーバ１００に送信する（ステップＳ１１６）。

照会サーバ１００の第３統合情報生成部１２２は、第１通信装置１０１を介して管理サーバ３００から第２統合情報を受信した場合、受信した第２統合情報と、各特許文献に含まれる内容情報のテキストデータとを統合した第３統合情報を生成する（ステップＳ１１７）。第３統合情報生成部１２２は、照会サーバ１００が形式情報を取得した各特許文献について、ステップＳ１０１で受信した内容情報からテキストデータを抽出する。テキストデータは、内容情報に含まれるデータの一例である。なお、第３統合情報生成部１２２は、抽出したテキストデータを管理システム１内の共通形式のフォーマットに変換する。

照会サーバ１００は、各特許文献について、第２統合情報及び内容情報の各データ項目が所定の順序で並べられた第３テーブルを第１記憶装置１１０に記憶する。第３統合情報生成部１２２は、各特許文献について、文献番号をキーとして、管理サーバ３００から受信した第２統合情報に含まれる各データと、内容情報から抽出したテキストデータとを、第３テーブルの対応する位置に格納する。これにより、第３統合情報生成部１２２は、照会サーバ１００が形式情報を取得した各特許文献について、第３統合情報を生成する。

図２０は、第３統合情報（第３テーブル）のデータ構造の一例を示す模式図である。

図２０に示すように、第３統合情報には、第２統合情報に含まれる各情報に加えて、テキストデータ、二次データ及び管理情報等が含まれる。図２０に示すように、第３統合情報には、上記した項目毎に、データ型及び一又は複数のレコードが含まれる。このように、第２テーブルには、第２統合情報及び内容情報の各データ項目が所定の順序で並べられている。また、第３統合情報のデータ構造は、図１０〜図１３に示した管理テーブル５１１のデータ構造と同様である。

第３統合情報生成部１２２は、受信した各第２統合情報と、抽出したテキストデータの内、文献番号が同一である第２統合情報及びテキストデータの組合せを統合（マージ）する。第３統合情報生成部１２２は、各特許文献にファミリー出願が存在する場合、ファミリー出願に係る各特許文献から生成した第３統合情報を一つの第３テーブル内で相互に対応付けて記憶する。第３統合情報生成部１２２は、一つの第３テーブル内で、ファミリー出願に係る特許文献毎に第３統合情報のレコードを設定する。また、第３統合情報生成部１２２は、各特許文献に係るファミリー出願にファミリーＩＤを割り当てるとともに、ファミリー出願に対応する特許文献の中で特定の特許文献の代表文献フラグを有効に設定し、ファミリーＩＤ及び代表文献フラグを二次データとして記憶する。また、第３統合情報生成部１２２は、その特許文献の最新の更新日を更新日に設定する。また、第３統合情報生成部１２２は、自サーバ内で各特許文献のテキストファイルが格納されたアドレスを格納アドレスに設定する。さらに、第３統合情報生成部１２２は、第３統合情報の送信先の検索サーバ５００の識別情報を検索サーバ名に設定し、自サーバの識別情報を照会サーバ名に設定する。そして、第３統合情報生成部１２２は、更新日、格納アドレス、検索サーバ名及び照会サーバ名を管理情報として記憶する。

このように、第３統合情報生成部１２２は、照会サーバ１００が形式情報を取得した各特許文献に係る第２統合情報が完成した後に、各特許文献について、第３統合情報を生成する。即ち、第３統合情報生成部１２２は、照会サーバ１００が形式情報を取得した各特許文献に係る第２統合情報の生成が完了するまで第３統合情報の生成を開始しない。これにより、第３統合情報生成部１２２は、第３統合情報を効率良く生成することができる。

次に、第３統合情報送信部１２３は、第３統合情報を、検索用データベース６００に一括して登録するように、第１通信装置１０１を介して検索サーバ５００に送信する（ステップＳ１１８）。

検索サーバ５００の第３統合情報記憶制御部５２１は、第５通信装置５０１を介して照会サーバ１００から第３統合情報を受信した場合、照会サーバ１００から送信された第３統合情報を一括して管理テーブル５１１に記憶する（ステップＳ１１９）。これにより、第３統合情報記憶制御部５２１は、第３統合情報を検索用データベース６００に一括して登録する。第３統合情報記憶制御部５２１は、第３統合情報に含まれる各項目を管理テーブル５１１の対応する項目の位置に記憶する。上記したように、第３統合情報のデータ構造は、管理テーブル５１１のデータ構造と同様である。そのため、第３統合情報記憶制御部５２１は、第３統合情報を加工することなく、単純に管理テーブル５１１に追加することにより、管理テーブル５１１を簡易に更新できる。したがって、第３統合情報記憶制御部５２１は、管理テーブル５１１の更新処理の処理負荷を軽減させ、且つ、処理時間を低減させることが可能となる。

また、図１０〜図１３に示すように、第３統合情報記憶制御部５２１は、第３統合情報の各レコード（データ項目）に対してインデックスを設定する。第３統合情報記憶制御部５２１は、各特許文献にファミリー出願が存在する場合、ファミリー出願に係る特許文献から生成された第３統合情報に含まれる各情報のデータ項目のインデックスとして、ファミリー出願に係る特許文献で共通のインデックスを設定する。例えば、第３統合情報記憶制御部５２１は、代表文献フラグが有効に設定された特許文献について設定したインデックスをファミリー出願に係る特許文献で共通のインデックスとして使用する。これにより、検索サーバ５００は、特許文献の検索を行う際に、インデックスを用いて短時間に検索を行うことができる。以上により、更新処理に係る動作シーケンスは終了する。

このように、照会サーバ１００は、第２統合情報を含む第３統合情報を検索用データベース６００に登録する。なお、照会サーバ１００の代わりに、管理サーバ３００が、第３統合情報を生成し、検索用データベース６００に登録してもよい。または、管理サーバ３００が、第２統合情報を検索用データベース６００に登録し、照会サーバ１００又は管理サーバ３００が、内容情報を検索用データベース６００に登録してもよい。

また、上記したように、検索情報生成処理は、形式情報の取得及び書誌情報の取得より長時間を有する。そのため、検索情報生成処理は、形式情報の取得及び書誌情報の取得の開始時である第１タイミングより前に開始されてもよい。その場合、検索情報生成処理は、第１統合情報が完成する前又は第１統合情報の生成が開始される前に完了してもよい。

また、管理サーバ３００は、第１統合情報が完成した時点で検索情報生成処理が完了していない場合、即時にＡＩサーバ４００に検索要求情報を送信し、第１統合情報が完成する前に生成された検索情報のみをＡＩサーバ４００から取得してもよい。その場合、管理サーバ３００は、第１統合情報が完成した後に、第１統合情報に含まれる各データと、第１統合情報が完成する前に生成された検索情報に含まれる各データとを、第２テーブルの対応する位置に格納する。これにより、管理サーバ３００は、第１統合情報と、第１統合情報が完成する前に生成された検索情報とを統合した第２統合情報を生成する。なお、管理サーバ３００は、第１統合情報が完成した時点で生成されていなかった検索情報については、次に更新処理が実行される期間に第２統合情報を生成する。

図２１は、ＡＩサーバ４００における検索情報生成処理の動作の例を示すフローチャートである。

図２１に示す検索情報生成処理は、図１４に示す更新処理のステップＳ１０６で実行される。以下のステップＳ２０１〜Ｓ２０６の処理は、特許文献毎に実行される。

まず、検索情報生成部４２１は、ＡＩ技術を用いて、各特許文献の書誌情報及び内容情報を翻訳した翻訳文を検索情報として生成する（ステップＳ２０１）。検索情報生成部４２１は、各特許文献、即ち検索情報を生成する対象の特許文献の内容情報に示される発明の内容が、対象特許庁における使用言語と異なる言語で記載されているか否かを判定する。発明の内容が使用言語と異なる言語で記載されている場合、検索情報生成部４２１は、その言語で記載された発明の内容を使用言語に翻訳するための機械翻訳エンジンである第１学習モデル４１１を利用して、その発明の内容の使用言語による翻訳文を生成する。翻訳文は、翻訳データの一例である。

使用言語、即ち翻訳後の言語は、日本語、英語、ドイツ語、フランス語、中国語、韓国語等の任意の言語であり、特許文献が記載されている言語と異なる言語であればどのような言語でもよい。このような機械翻訳エンジンとして任意の翻訳エンジンを利用してよい。また、ＡＩサーバ４００は、公知のＡＩ技術を利用して、様々な言語で記載された学習用特許文献を用いて事前学習することにより、第１学習モデル４１１を独自に生成してもよい。なお、検索情報生成部４２１は、各特許文献の書誌情報及び内容情報を翻訳した翻訳文の作成を要求する作成要求信号を他のサーバに送信し、翻訳文を他のサーバから受信することにより取得してもよい。また、検索情報生成部４２１は、外部の翻訳業者により作成された翻訳文をＵＳＢ（Universal Serial Bus）等のインタフェース規格に従った不図示のインタフェース装置から入力することにより取得してもよい。

次に、検索情報生成部４２１は、各特許文献の内容情報に基づいて、その特許文献の技術分野の大分類を特定し、特定した大分類を分類情報として生成する（ステップＳ２０２）。なお、検索情報生成部４２１は、各特許文献の内容情報及び書誌情報に基づいて、その特許文献の技術分野の大分類を特定してもよい。検索情報生成部４２１は、各特許文献において、対象特許庁が割り当てるべき技術分野の小分類が規定されているか否かを判定する。その小分類が規定されていない場合、検索情報生成部４２１は、まず、以下の四つの方法により、技術分野の大分類を特定する。

検索情報生成部４２１は、第１の方法として、各特許文献に含まれる対象特許庁以外の特許庁により規定された技術分野の分類に基づいて、対象特許庁により規定される技術分野の大分類を特定する。各特許文献を発行した特許庁が米国特許商標庁又は欧州特許庁等である場合、各特許文献に含まれる技術分野の分類として、ＩＰＣ、ＣＰＣ等が使用可能である。また、各特許文献を発行した特許庁が日本国特許庁である場合、各特許文献に規定された技術分野の分類として、日本国特許庁が割り当てるテーマコード、ＦＩ及びＦターム等が使用可能である。

ＡＩサーバ４００は、各国特許庁により規定される技術分野の分類毎に、対象特許庁により規定される技術分野の大分類を対応付けて第５記憶装置５１０に予め設定しておく。検索情報生成部４２１は、各特許文献から、何れかの国の特許庁により規定された技術分野の分類を特定し、特定した技術分野の分類に対応付けて設定された対象特許庁により規定される技術分野の大分類を特定する。

検索情報生成部４２１は、第２の方法として、ファミリー出願間の技術分野の分類の対応関係の統計データに基づいて、技術分野の大分類を特定する。ＡＩサーバ４００は、過去に出願されたファミリー出願に係る特許文献の組合せに基づいて統計データを事前に生成しておく。ＡＩサーバ４００は、対象特許庁以外の各国特許庁により規定される技術分野の分類毎に、その分類が割り当てられた特許文献のファミリー出願の内、対象特許庁へのファミリー出願に係る特許文献を抽出する。そして、ＡＩサーバ４００は、対象特許庁以外の各国特許庁により規定される技術分野の分類毎に、抽出した各特許文献において、対象特許庁により規定される各分類が割り当てられている数又は比率を統計データとして算出して記憶しておく。検索情報生成部４２１は、各特許文献が、対象特許庁以外の各国特許庁から収集した特許文献である場合、その特許文献から、その国の特許庁により規定された技術分野の分類を特定する。そして、検索情報生成部４２１は、特定した技術分野の分類に対応付けて記憶された統計データが閾値以上である分類の大分類を、取得した特許文献の技術分野の大分類として特定する。

例えば、対象特許庁が日本国特許庁である場合、ＡＩサーバ４００は、特定のＩＰＣ又はＣＰＣ等が割り当てられた出願のファミリー出願において特定のＦＩ又はＦターム等が割り当てられた数又は比率を統計データとして算出しておく。検索情報生成部４２１は、各特許文献において割り当てられたＩＰＣ又はＣＰＣを特定し、特定したＩＰＣ又はＣＰＣに対応付けられた統計データが閾値以上であるＦＩ又はＦタームのテーマコードを、各特許文献の技術分野の大分類として特定する。

検索情報生成部４２１は、第３の方法として、概念検索を利用して、技術分野の大分類を特定する。検索情報生成部４２１は、後述する概念検索を利用して、取得した特許文献と類似する、対象特許庁に出願された特許文献を所定数抽出する。概念検索では、例えば各特許文献の内容情報に含まれる各用語の出現頻度が近似する特許文献が抽出される。検索情報生成部４２１は、抽出した各特許文献において、割り当てられている数又は比率が閾値以上である技術分野の分類の大分類を、各特許文献の技術分野の大分類として特定する。

また、検索情報生成部４２１は、第４の方法として、内容情報に基づいて、機械学習（ＳＶＭ等）によって大分類を特定する。

検索情報生成部４２１は、第１〜第４の方法で特定した全ての大分類を、各特許文献の技術分野の大分類として特定する。なお、検索情報生成部４２１は、第１〜第４の方法の内の一つ又は二つの方法のみにより、各特許文献の技術分野の大分類を特定してもよい。

次に、検索情報生成部４２１は、ＡＩ技術を用いて、各特許文献の技術分野の小分類を特定し、特定した小分類を分類情報として生成する（ステップＳ２０３）。

検索情報生成部４２１は、ステップＳ２０２で特定された大分類に対応する第２学習モデル４１２を用いて、各特許文献の技術分野の小分類を特定する。各第２学習モデル４１２は、対象特許庁における使用言語で記載された複数の学習用特許文献を用いて、各特許文献の内容情報に関する情報が入力された場合に、その特許文献の技術分野に関する情報を出力するように事前学習されている。特に、各第２学習モデル４１２は、各特許文献の内容情報から算出された特徴量が入力された場合に、その特許文献の技術分野の小分類に関する情報を出力するように事前学習されている。

例えば、各第２学習モデル４１２は、小分類毎に生成され、ＳＶＭ（Support Vector Machine）を用いて学習される。各第２学習モデル４１２は、各特許文献の内容情報から算出された特徴量が入力されたときに、その特許文献が、対応する小分類に合致している場合は＋１を出力し、合致していない場合は−１を出力するように学習される。即ち、各第２学習モデル４１２は、対応する小分類に合致している特許文献から算出された特徴量と、対応する小分類に合致していない特許文献から算出された特徴量とを識別する識別平面を含む。各第２学習モデル４１２は、入力された特徴量が、その識別平面に対して、対応する小分類に合致している側に位置する場合は＋１を出力し、対応する小分類に合致している側に位置する場合は−１を出力する。なお、各第２学習モデル４１２は、入力された特徴量が、その識別平面に対して、対応する小分類に合致している側に位置する場合、その特徴量の識別平面からの距離（マージン）を正規化したスコア値を出力してもよい。パラメータ調整及び閾値調整は、公知の調整方法により実行される。

特徴量として、例えばＴＦ−ＩＤＦ（Term Frequency Inverse Document Frequency）が使用される。ＡＩサーバ４００は、形態素解析技術を用いて、各学習用特許文献内の内容情報を単語（形態素）毎に分解し、各単語の出現頻度と逆文書頻度とを算出して、ＴＦ−ＩＤＦを算出する。なお、逆文書頻度は、同一のテーマコードを有する特許文献から算出される。また、各単語の出現頻度の次元数を削減するために、下限閾値以下又は上限閾値以上である形態素は除去されてもよい。また、ＡＩサーバ４００は、墨付き括弧で囲まれた「技術分野」又は「背景技術」等の特許文献における特定のフォーマットに対応する各用語を除去してから文書を分解してもよい。

なお、特徴量として、ＢａｇｏｆＷｏｒｄｓ等のＴＦ−ＩＤＦ以外の特徴量が用いられてもよい。また、特徴量として、各形態素（単語）、文、段落もしくは文献の分散表現、テキスト及び／又はＩＰＣ等の技術分野の分類情報が用いられてもよい。また、特徴量として、各特許文献の内容情報に含まれる図面内の画像から抽出された対象物の角又は交点等の特徴点の数又は分布等に関する情報が用いられてもよい。

また、第２学習モデル４１２は、ロジスティック回帰、ＭＬＰ（Multilayer Perceptron）、ＲＮＮ（Recurrent Neural Network）、ＣＮＮ（Convolutional Neural Network）、ＮＡＭ（Neural Attention Model）等の他の公知の機械学習技術を用いて学習されてもよい。また、第２学習モデル４１２は、アンサンブル学習等の手法を用い、複数の機械学習技術を組み合わせて学習されてもよい。その場合には、複数の機械学習を組み合わせるパラメータ自体も機械学習で求めてもよい。

検索情報生成部４２１は、ＡＩサーバ４００による事前学習処理と同様にして、各特許文献から特徴量を算出する。特徴量がＴＦ−ＩＤＦである場合、検索情報生成部４２１は、形態素解析技術を用いて、特許文献内の内容情報を単語毎に分解し、各単語の出現頻度と逆文書頻度とを算出して、ＴＦ−ＩＤＦを算出する。検索情報生成部４２１は、算出した特徴量を、ステップＳ２０３で特定された大分類に属する各小分類に対応する各第２学習モデル４１２に入力し、各第２学習モデル４１２からの出力値を取得する。検索情報生成部４２１は、出力値が閾値以上である第２学習モデル４１２に対応する小分類を、取得した特許文献の技術分野の小分類として特定し、特定した技術分野の小分類を検索情報として生成する。

検索情報を生成する対象の特許文献が対象特許庁における使用言語と異なる言語で記載されている場合、検索情報生成部４２１は、その特許文献の使用言語による翻訳文から特徴量を算出する。この特徴量は、特許文献の使用言語による翻訳文に関する情報の一例である。この場合、検索情報生成部４２１は、特許文献の使用言語による翻訳文から算出された特徴量を第２学習モデル４１２に入力することにより、その特許文献の技術分野に関する情報を取得する。これにより、管理システム１は、様々な言語の特許文献に対して、各特許文献が記載された言語の種別に関わらず、技術分野を適切に付与することができる。

なお、検索情報生成部４２１は、対象特許庁における使用言語で記載され且つ技術分野の小分類が付与されていない特許文献についても、各第２学習モデル４１２に入力して、その特許文献の小分類を特定してもよい。

また、検索情報生成部４２１は、分類付与の根拠となる単語（形態素）、文又は段落等を特定してもよい。例えば、第２学習モデル４１２が、ＴＦ−ＩＤＦ等を特徴量として、ＳＶＭ又はロジスティック回帰等を用いて学習される場合、その学習時に特徴量内の各要素の重みが定められる。検索情報生成部４２１は、特許文献から算出された特徴量内の各要素に、各要素に定められた重みを乗算した乗算値を算出し、乗算値が所定閾値以上である要素に対応する単語を、分類付与の根拠となる単語として特定する。なお、検索情報生成部４２１は、特許文献内の文又は段落毎に、各文又は段落に含まれる単語に係る乗算値の総和値を算出し、総和値が所定閾値以上である要素に対応する文又は段落を、分類付与の根拠となる文又は段落として特定してもよい。検索情報生成部４２１は、特定した単語、文又は段落を示す情報を、各特許文献及び技術分野を示す情報と関連付けて照会サーバ１００に通知する。照会サーバ１００は、端末装置１０から照会要求信号を受信した場合に、指定された文献番号に対応する特許文献のテキストデータ及びイメージデータとともに、検索情報生成部４２１により特定された技術分野、単語、文又は段落を端末装置１０に送信する。これにより、端末装置１０の利用者は、技術分野が特定された根拠となる単語、文又は段落から、特定された技術分野の妥当性を検討することができ、必要に応じて技術分野を修正することができる。

また、検索情報生成部４２１は、特許文献内のブロック毎に、技術分野の小分類に関する情報を算出し、段落毎に算出した情報に基づいて、技術分野の小分類を特定してもよい。ブロックは、文又は段落等である。その場合、例えば、第２学習モデル４１２は、小分類毎に生成され、学習用特許文献に含まれる各ブロックから算出されたＢａｇｏｆＷｏｒｄｓ等を特徴量として、ＳＶＭを用いて学習される。各第２学習モデル４１２は、入力された特徴量が、識別平面に対して、対応する小分類に合致している側に位置する場合に、その特徴量の識別平面からの距離（マージン）を正規化したスコア値を出力するように学習される。なお、特定の小分類に対応する学習用特許文献に含まれるブロックの内、その小分類と関連しないブロックが、特定の小分類に対応しない学習用サンプルとして使用されてもよい。

検索情報生成部４２１は、特許文献に含まれる各ブロックから算出した特徴量を、対応する第２学習モデル４１２に入力し、各第２学習モデル４１２から出力されたスコア値を取得する。検索情報生成部４２１は、スコア値が閾値以上であるブロックが所定数（例えば１つ）以上存在する場合、その第２学習モデル４１２に対応する小分類を、その特許文献の技術分野の小分類として特定する。検索情報生成部４２１は、その特許文献に係る出力値の最大値に基づいて第２閾値を設定し、スコア値が第２閾値以上であるブロックが所定数以上存在する場合、その第２学習モデル４１２に対応する小分類を、その特許文献の技術分野の小分類として特定してもよい。第２閾値は、例えば最大値の所定倍（例えば０．５倍）に設定される。これらにより、検索情報生成部４２１は、より精度良く、特許文献の技術分野を特定することができる。

この場合の特徴量として、ＴＦ−ＩＤＦ、各形態素（単語）、又は、文、段落もしくは文献の分散表現等が用いられてもよい。また、第２学習モデル４１２は、ロジスティック回帰、ＭＬＰ、ＲＮＮ、ＣＮＮ、ＮＡＭ等の他の公知の機械学習技術を用いて、又は、複数の機械学習技術を組み合わせて学習されてもよい。

また、この場合、検索情報生成部４２１は、特許文献に含まれるブロック毎に、閾値を異ならせてもよい。例えば、検索情報生成部４２１は、特許請求の範囲又は発明の概要等に含まれるブロックに対応する閾値を、他のブロックに対応する閾値より小さくする。これにより、検索情報生成部４２１は、特許請求の範囲又は発明の概要に含まれる用語を、より優先的に考慮して、特許文献の技術分野を特定することができる。

また、検索情報生成部４２１は、特許文献の内容情報全体から算出されたスコア値と、特許文献内の各ブロックから算出されたスコア値とに基づいて、技術分野の小分類を特定してもよい。その場合、検索情報生成部４２１は、特許文献の内容情報全体から算出された特徴量を、学習用特許文献の内容情報全体を用いて学習された学習モデルに入力して第１スコア値を取得する。また、検索情報生成部４２１は、特許文献内の各ブロックから算出された特徴量を、学習用特許文献内の各ブロックを用いて学習された学習モデルに入力して第２スコア値を取得する。また、ＡＩサーバ４００は、第１スコア値及び第２スコア値が入力された場合に、その特許文献が、対応する小分類に合致するか否かを出力するように事前学習された学習モデルを第４記憶装置４１０に事前に記憶しておく。検索情報生成部４２１は、取得した第１スコア値及び第２スコア値をその学習モデルに入力することにより、その特許文献が、対応する小分類に合致するか否かを判定する。なお、検索情報生成部４２１は、第１スコア値及び第２スコア値の和又は重み付き和が所定値以上であるか否かにより、その特許文献が、対応する小分類に合致するか否かを判定してもよい。これにより、検索情報生成部４２１は、より精度良く、特許文献の技術分野を特定することができる。

また、第２学習モデル４１２は、各特許文献から算出された特徴量が入力された場合に、その特許文献が最も合致する小分類を示す情報を出力するように事前学習されてもよい。その場合、第２学習モデル４１２は、複数の学習用特許文献を用いて、例えばディープラーニングにより学習される。ニューラルネットワークである学習モデルは、入力層、中間層及び出力層から構成される多層構造を有する。入力層の各ノードには、特徴量として、各特許文献から算出されたＴＦ−ＩＤＦ等の各要素等が入力される。中間層の各ノードには、入力層の各ノードから出力された値の、所定の重みに基づく重み付け和が入力される。出力層の各ノードには、中間層の各ノードから出力された値の、所定の重みに基づく重み付け和が入力される。出力層は、例えば、入力された値をそのまま出力する。各重みは、出力層によって出力された値と学習用特許文献に割り当てられた技術分野の小分類を示す値との差分が小さくなるように設定される。重みの設定には、例えば、誤差逆伝搬法などの公知の手法が使用される。検索情報生成部４２１は、算出した特徴量を各第２学習モデル４１２に入力し、各第２学習モデル４１２からの出力値に対応する小分類を、取得した特許文献の技術分野の小分類として特定する。

このように、検索情報生成部４２１は、学習モデルを用いて、各特許文献の書誌情報又は内容情報に基づいて、各特許文献の技術分野又は翻訳データ等を、各特許文献から推定される検索情報として生成する。各データベースには、人手によって技術分野が割り当てられた特許文献が多数存在しており、検索情報生成部４２１は、多数の教師データを利用して、各特許文献の技術分野を高精度に特定することができる。

特に、検索情報生成部４２１は、発明の内容が対象特許庁における使用言語で記載されていない特許文献について、発明の内容がその使用言語に翻訳された翻訳文を生成する。検索情報生成部４２１は、発明の内容がその使用言語で記載された特許文献についてはその発明の内容に基づき、発明の内容がその使用言語で記載されていない特許文献については発明の内容がその使用言語に翻訳された翻訳文に基づいて、学習モデルを用いて、各特許文献の分類情報を生成する。即ち、検索情報生成部４２１は、外国語の特許文献を、学習モデルが対応する言語に翻訳してから、その技術分野の小分類を特定する。これにより、ＡＩサーバ４００は、複数の言語毎に学習モデルを用意する必要がなくなり、事前学習に要する担当者の作業量を削減するとともに、第５記憶装置５１０の記憶容量の削減を図ることができる。また、ＡＩサーバ４００は、特定の言語に絞って学習モデルを生成すればよく、十分な時間及び労力をかけて学習モデルを生成することができ、結果として、学習モデルの精度を向上させることが可能となる。特に、近年では、ファミリー出願に係る特許文献対を用いて学習することにより、ＡＩ技術を用いた特許文献の翻訳技術が向上しており、検索情報生成部４２１は、高品質な翻訳文を取得できる。そのため、検索情報生成部４２１は、高品質な翻訳文を利用して、技術分野の小分類を高精度に特定することができる。

なお、ＡＩサーバ４００は、対象特許庁における使用言語以外の複数の言語毎に、各言語で記載された学習用特許文献を用いて事前学習した学習モデルを第４記憶装置４１０に記憶しておいてもよい。その場合、ＡＩサーバ４００は、使用言語以外の言語で記載された学習用特許文献として、使用言語で記載された特許文献から翻訳した翻訳文を用いてもよい。また、学習モデルは、その学習用特許文献のファミリー出願に割り当てられた技術分野の小分類を用いて学習されてもよい。この場合、検索情報生成部４２１は、取得した特許文献を翻訳することなく、その特許文献が記載された言語に対応した学習モデルを用いて、技術分野の小分類を特定する。これにより、検索情報生成部４２１は、短時間で技術分野の小分類を特定することができ、検索情報生成処理に係る処理時間を短縮させるとともに、処理負荷を軽減させることができる。

また、検索情報生成部４２１は、各特許文献の技術分野の大分類を特定してから、その大分類に対応する学習モデルを用いて、技術分野の小分類を特定する。これにより、検索情報生成部４２１は、各特許文献を、全ての小分類に対応する学習モデルに適用させる必要がなくなり、検索情報生成処理に係る処理時間を短縮させるとともに、処理負荷を軽減させることができる。なお、検索情報生成部４２１は、各特許文献の技術分野の大分類を特定することなく、各特許文献の内容情報から技術分野の小分類を特定してもよい。

次に、検索情報生成部４２１は、各特許文献の内容情報から第２特徴ベクトルを生成する（ステップＳ２０４）。第２特徴ベクトルとして、例えば内容情報から算出されたＴＦ−ＩＤＦが使用される。なお、第２特徴ベクトルとして、ＢａｇｏｆＷｏｒｄｓ又はＢＭ２５等のＴＦ−ＩＤＦ以外の特徴ベクトルが用いられてもよい。また、第２特徴ベクトルとして、各形態素（単語）、文、段落もしくは文献の分散表現が用いられてもよい。分散表現として、例えばＷｏｒｄ２Ｖｅｃ、Ｄｏｃ２Ｖｅｃ、ＳＤＣＶ（Sparse Composite Document Vectors）等が用いられる。

次に、検索情報生成部４２１は、各特許文献について、第２特徴ベクトルから、それぞれ次元数が異なる複数の第１特徴ベクトルを生成する（ステップＳ２０５）。検索情報生成部４２１は、それぞれ異なる複数のハッシュ関数ＬＳＨ（Locality-Sensitive Hashing）を用いて各特許文献の第２特徴ベクトルを変換したハッシュ値を各要素とする特徴ベクトルを第１特徴ベクトルとして生成する。

ハッシュ関数ＬＳＨは、特徴ベクトルが近似している程、ハッシュ値が近似するように設定される関数である。各ハッシュ関数は、以下の式により定義される。
ここで、ｖは、第２特徴ベクトルであり、ａは、ガウス分布を例とするｐ安定分布から選択された、第２特徴ベクトルｖの次元数ｍと同数の確率変数からなるｍ次元ベクトルであり、ｂは平空間［０、Ｗ］（Ｗ＞０）から一様ランダムに選ばれた実数である。第２特徴ベクトルｖの特徴量空間は、ｈ（ｖ）によって、ベクトルａと直交する等間隔の超平面で分割される。

第１特徴ベクトルｇ_k（ｖ）は、以下の式により定義される。
ｇ_k（ｖ）＝（ｈ₁（ｖ）、ｈ₂（ｖ）…ｈ_k（ｖ））
ここで、ｈ₁（ｖ）〜ｈ_k（ｖ）は、ランダムに設定された、それぞれ異なるａ、ｂにより定義されるハッシュ関数ｈ（ｖ）のハッシュ値である。即ち、第１特徴ベクトルｇ_k（ｖ）は、ｋ次元の特徴ベクトルであり、ｋ個の等間隔な超平面集合で第２特徴ベクトルｖの特徴量空間を分割した各部分空間（バケツ）の内、その特許文献に対応する部分空間（バケツ）を表している。

検索情報生成部４２１は、次元数ｋがそれぞれ異なる二以上の所定数の第１特徴ベクトルｇ_k（ｖ）の式を設定する。検索情報生成部４２１は、例えば次元数ｋが１、２、４、８、１６、３２、６４、１２８、２５６である９個の第１特徴ベクトルｇ₁（ｖ）、ｇ₂（ｖ）、ｇ₄（ｖ）、ｇ₈（ｖ）、ｇ₁₆（ｖ）、ｇ₃₂（ｖ）、ｇ₆₄（ｖ）、ｇ₁₂₈（ｖ）、ｇ₂₅₆（ｖ）を設定する。

検索情報生成部４２１は、設定した所定数の第１特徴ベクトルｇ_k（ｖ）の各式に第２特徴ベクトルｖを代入することにより、それぞれ次元数が異なる複数の第１特徴ベクトルを生成する。第１特徴ベクトルｇ_k（ｖ）の次元数ｋは、第２特徴ベクトルの特徴量空間を各部分空間に分割する分割数に対応し、次元数ｋが大きい程、分割数は大きくなり、各第１特徴ベクトルｇ_k（ｖ）が表す情報量は大きくなる。

次に、検索情報生成部４２１は、情報処理装置１５が所定期間に収集した全ての特許文献について処理が完了したか否かを判定する（ステップＳ２０６）。まだ処理が完了していない特許文献が存在する場合、検索情報生成部４２１は、処理をステップＳ２０１に戻し、ステップＳ２０１〜Ｓ２０６の処理を繰り返す。一方、全ての特許文献について処理が完了した場合、検索情報生成部４２１は、一連のステップを終了する。

なお、ＡＩサーバ４００は、さらに、各特許文献の内容情報のテキスト又は図面が入力された場合に、その特許文献の特徴ベクトル、キーワード又は図面のメタデータを出力するように事前学習された学習モデルを有してもよい。その場合、学習モデルは、例えばディープラーニングを用いて学習され、各重みは、出力層によって出力された値と学習用特許文献に割り当てられた特徴ベクトル、キーワード又はメタデータを示す値との差分が小さくなるように設定される。検索情報生成部４２１は、各特許文献の内容情報のテキスト又は図面を各学習モデルに入力し、各学習モデルからの出力値に対応する特徴ベクトル、キーワード又はメタデータを、各特許文献の特徴ベクトル、キーワード又はメタデータに決定する。検索情報生成部４２１は、決定した特徴ベクトル、キーワード又はメタデータを検索情報として生成する。

また、検索情報生成部４２１は、各特許文献にファミリー出願が存在する場合、ファミリー出願に係る各特許文献について共通の検索情報を生成してもよい。その場合、検索情報生成部４２１は、代表文献フラグが有効に設定された特許文献について生成した検索情報を、ファミリー出願に係る特許文献で共通の検索情報として使用する。即ち、検索情報生成部４２１は、特定の出願に係る特許文献について生成した分類情報を含む検索情報を、その特定の出願のファミリー出願に係る特許文献の検索情報として使用する。これにより、検索情報生成部４２１は、より短時間で技術分野の小分類を設定することができ、検索情報生成処理に係る処理時間を短縮させるとともに、処理負荷を軽減させることができる。

図２２は、図１４に示した更新処理内の各処理の実行タイミングについて説明するための模式図である。

図２２に示す例では、更新処理は、７日間（１週間）周期で実行される。形式情報の取得処理、書誌情報の取得処理及び検索情報の生成処理が１日目に同時に開始され、形式情報の取得処理及び書誌情報の取得処理は３日目に完了するが、検索情報の生成処理は４日目まで完了しない。形式情報及び書誌情報を用いた第１統合情報の生成処理が３日目に開始され、４日目に完了する。そして、第１統合情報及び検索情報を用いた第２統合情報の生成処理が５日目に開始され、６日目に完了する。最後に、第２統合情報及び内容情報を用いた第３統合情報の生成処理が６日目に開始され、７日目に完了する。

このように、管理サーバ３００は、生成に多大な時間を要する検索情報の完成を待つことなく、第１統合情報の生成処理を開始させる。これにより、管理サーバ３００は、検索情報が完成するまでに第１統合情報を生成しておき、生成した第１統合情報及び検索情報を用いて、効率良く短時間に第２統合情報を生成できる。

また、管理サーバ３００は、各特許文献の形式情報及び書誌情報を取得するたびに第１統合情報を生成するのでなく、所定期間に情報処理装置１５が収集した複数の特許文献の形式情報及び書誌情報の取得が完了してから第１統合情報を生成する。これにより、各サーバにおける形式情報及び書誌情報の送受信処理を含む、第１統合情報の生成処理に係るオーバーヘッドが低減される。同様に、管理サーバ３００は、所定期間に情報処理装置１５が収集した複数の特許文献の第１統合情報及び検索情報が完成してから第２統合情報を生成して照会サーバ１００に送信する。これにより、各サーバにおける検索情報及び第２統合情報の送受信処理を含む、第２統合情報の生成処理に係るオーバーヘッドが低減される。さらに、照会サーバ１００は、所定期間に情報処理装置１５が収集した複数の特許文献の第２統合情報が完成してから第３統合情報を生成して検索サーバ５００に送信する。これにより、各サーバにおける第３統合情報の送受信処理を含む、照会サーバ１００による第３統合情報の生成処理及び検索サーバ５００における管理テーブルの更新処理に係るオーバーヘッドが低減される。

図２３は、管理システム１による出力処理に係る動作シーケンスの一例を示す。

以下に説明する動作シーケンスは、管理システム１が有する各サーバ又は装置の記憶装置に予め記憶されているプログラムに基づいて、主に各サーバ又は装置の制御装置により、各サーバ又は装置の各要素と協働して実行される。この動作シーケンスは、定期的に実行される。

まず、端末装置１０は、利用者が特許文献を検索するための検索画面を表示するための検索画面表示データの取得を要求するための検索画面表示データ要求信号をＵＩサーバ１２に送信する（ステップＳ３０１）。

ＵＩサーバ１２は、端末装置１０から検索画面表示データ要求信号を受信した場合、検索画面表示データを端末装置１０に送信する（ステップＳ３０２）。検索画面表示データは、ＨＴＭＬ又はＪａｖａ（登録商標）ｓｃｒｉｐｔ等の公知のプログラミング言語によって生成される。

端末装置１０は、ＵＩサーバ１２から検索画面表示データを受信した場合、検索画面表示データに従って、検索画面を表示する（ステップＳ３０３）。端末装置１０は、ウェブブラウザ等に検索画面を表示する。

図２４は、検索画面２４００の一例を示す模式図である。

図２４に示す検索画面２４００は、対象特許庁が日本国特許庁である場合の検索画面の一例である。図２４に示すように、検索画面２４００には、検索指定領域２４１０及び検索結果表示領域２４３０が含まれる。なお、ＵＩサーバ１２から受信する表示データには、検索結果表示領域２４３０を表示するためのデータが含まれておらず、ステップＳ３０３で表示される検索画面には、検索結果表示領域２４３０は表示されない。検索指定領域２４１０には、発行国指定ボックス２４１１、種別選択ボックス２４１２、審査対象指定ボックス２４１３、テーマ指定ボタン２４１４、公知日指定ボックス２４１５、検索式指定ボックス２４１６、画像指定ボックス２４１７、概念検索選択ボタン２４１８、機械翻訳文選択ボタン２４１９、推定分類選択ボタン２４２０及び検索ボタン２４２１等が含まれる。

発行国指定ボックス２４１１は、検索対象の特許文献を発行した国を指定するためのボックスである。利用者は、検索対象の特許文献を発行した国として外国を指定する場合、さらにその国を指定することができる。種別選択ボックス２４１２は、検索対象の特許文献が全文献であるか公開された文献のみであるかを選択するためのボックスである。審査対象指定ボックス２４１３は、審査対象の特許文献を指定するためのボックスである。テーマ指定ボタン２４１４は、テーマコードを指定するためのボタンである。テーマ指定ボタン２４１４が押下されると、テーマコードを入力するためのボックスが表示される。公知日指定ボックス２４１５は、検索対象の特許文献の公知日を指定するためのボックスである。検索式指定ボックス２４１６は、検索式（キーワード、ＦＩ及び／又はＦターム）を入力するためのボックスである。

画像指定ボックス２４１７は、画像を入力するためのボックスである。なお、画像指定ボックス２４１７には、審査対象指定ボックス２４１３で指定された審査対象の特許文献に含まれる図面内の画像が選択可能に表示されてもよい。画像指定ボックス２４１７において画像が指定された場合、指定された画像と類似する画像を含む図面が記載された特許文献が検索される。概念検索選択ボタン２４１８は、概念検索を実行するか否かを選択するためのボタンである。機械翻訳文選択ボタン２４１９は、ＡＩサーバ４００により生成された翻訳文を検索対象に含ませるか否かを選択するためのボタンである。推定分類選択ボタン２４２０は、ＡＩサーバ４００により生成された分類を検索対象に含ませるか否かを選択するためのボタンである。検索ボタン２４２１は、上記した各ボタン及びボックスで指定又は選択した条件で検索を実行させるためのボタンである。

利用者により検索ボタン２４２１が押下された場合、端末装置１０は、検索の実行を要求するための検索要求信号をゲートウェイサーバ１１に送信する（ステップＳ３０４）。検索要求信号には、検索画面２４００で指定された各条件（検索クエリ）、即ち利用者によって指定された、検索のための指定データが含まれる。

ゲートウェイサーバ１１は、端末装置１０から検索要求信号を受信した場合、検索の実行を指示するための検索指示信号を複数の検索サーバ５００に送信する（ステップＳ３０５）。ゲートウェイサーバ１１は、検索要求信号に含まれる検索クエリを検索サーバ５００が処理可能なフォーマット（ＳＱＬフォーマット等）に変換し、変換した検索クエリを含む検索指示信号を各検索サーバ５００に送信する。なお、ゲートウェイサーバ１１は、各端末装置１０から受信した検索要求信号に含まれる検索クエリを受付キューに登録し、検索サーバ５００の処理状況を踏まえて検索指示信号を送信する。これにより、ゲートウェイサーバ１１は、ロードバランサとして機能し、検索サーバ５００の負荷を平準化することができる。

各検索サーバ５００の検索部５２２は、第５通信装置５０１を介してゲートウェイサーバ１１から検索指示信号を受信した場合、検索指示信号に含まれる検索クエリに従って、検索処理を実行する（ステップＳ３０６）。検索処理において、検索部５２２は、検索用データベース６００に記憶された第３統合情報から、検索指示信号に含まれる検索クエリ（条件）を満たす特許文献、即ち利用者によって指定された指定データに対応する複数の特許文献を並べて表示するための第１表示データを生成する。検索処理の詳細については後述する。

次に、検索部５２２は、検索処理において生成した第１表示データを、第５通信装置５０１を介してゲートウェイサーバ１１に送信する（ステップＳ３０７）。

ゲートウェイサーバ１１は、各検索サーバ５００から第１表示データを受信した場合、各検索サーバ５００から受信した第１表示データを統合して、端末装置１０に送信する（ステップＳ３０８）。

端末装置１０は、ゲートウェイサーバ１１から統合された第１表示データを受信した場合、受信した第１表示データを記憶するとともに、第１表示データに従って、複数の特許文献を並べて表示する（ステップＳ３０９）。

端末装置１０は、ゲートウェイサーバ１１から統合された検索結果を受信した場合、受信した第１表示データを記憶するとともに、第１表示データに従って、複数の特許文献を並べて表示する（ステップＳ３０９）。

図２４に示すように、ゲートウェイサーバ１１から第１表示データを受信した場合、検索画面２４００には、検索結果表示領域２４３０がさらに表示される。検索結果表示領域２４３０には、検索結果に示される特許文献毎に、各特許文献の文献番号２４３１、テーマコード２４３２、ＦＩ２４３３、公知日２４３４、発明の名称２４３５、チェックボックス２４３６等が含まれる。また、検索結果表示領域２４３０には、スクロールバー２４３７及び更新ボタン２４３８が含まれる。

検索結果表示領域２４３０において、各特許文献は、検索処理において決定された順番に従って表示される。チェックボックス２４３６は、利用者が注目する特許文献を指定するためのボタンである。スクロールバー２４３７は、検索結果表示領域２４３０に一度に表示できない数の特許文献が含まれる場合、表示されていない特許文献を表示可能に、検索結果表示領域２４３０をスクロールさせるためのバーである。更新ボタン２４３８は、各特許文献を、チェックボックス２４３６で指定された特許文献との類似度に基づいて並べ替えて表示させるためのボタンである。

利用者により更新ボタン２４３８が押下された場合、端末装置１０は、特許文献の並べ替えを要求するための更新要求信号をゲートウェイサーバ１１に送信する（ステップＳ３１０）。更新要求信号には、チェックボックス２４３６で指定された特許文献、即ち端末装置１０において利用者によって指定された特許文献を示す情報が含まれる。なお、更新要求信号には、検索結果表示領域２４３０において所定時間以上連続して表示された特許文献を示す情報が含まれてもよい。

ゲートウェイサーバ１１は、端末装置１０から更新要求信号を受信した場合、特許文献の並べ替えを指示するための更新指示信号を複数の検索サーバ５００に送信する（ステップＳ３０５）。ゲートウェイサーバ１１は、更新要求信号に含まれる特許文献を示す情報を検索サーバ５００が処理可能なフォーマット（ＳＱＬフォーマット等）に変換し、変換した検索クエリを含む更新指示信号を各検索サーバ５００に送信する。

各検索サーバ５００の検索部５２２は、第５通信装置５０１を介してゲートウェイサーバ１１から更新指示信号を受信した場合、更新指示信号に含まれる特許文献を示す情報に従って、更新処理を実行する（ステップＳ３１２）。更新処理において、検索部５２２は、第１表示データにより表示される特許文献を、更新指示信号において指定された特許文献との類似度に基づいて並べ替えた第２表示データを生成する。更新処理の詳細については後述する。

次に、検索部５２２は、検索処理において生成した第２表示データを、第５通信装置５０１を介してゲートウェイサーバ１１に送信する（ステップＳ３１３）。

ゲートウェイサーバ１１は、各検索サーバ５００から第２表示データを受信した場合、各検索サーバ５００から受信した第２表示データを統合して、端末装置１０に送信する（ステップＳ３１４）。なお、更新処理は、一つの検索サーバ５００により実行されてもよい。その場合、ゲートウェイサーバ１１は、一つの検索サーバ５００から第２表示データを端末装置１０に送信する。

端末装置１０は、ゲートウェイサーバ１１から第２表示データを受信した場合、受信した第２表示データを記憶するとともに、第２表示データに従って、第１表示データにより表示される特許文献を並べ替えて表示する（ステップＳ３１５）。以上により、出力処理に係る動作シーケンスは終了する。

なお、検索サーバ５００は、受信した検索指示信号に含まれる検索クエリに示される審査対象の特許文献、テーマコード（技術分野の大分類）及び検索式に含まれるＦＩ、Ｆターム（技術分野の小分類）等をＡＩサーバ４００にフィードバックさせてもよい。その場合、検索サーバ５００は、その審査対象の特許文献と、技術分野の大分類と、技術分野の小分類とをＡＩサーバ４００に送信する。ＡＩサーバ４００は、受信した特許文献と、技術分野の大分類と、技術分野の小分類とを用いて、技術分野を特定するための学習モデルを更新する。これにより、管理システム１は、学習モデルにより特定される技術分野の精度を継続的に向上させることが可能となる。

図２５は、検索サーバ５００における検索処理の動作の例を示すフローチャートである。

図２５に示す検索処理は、図２３に示す出力処理のステップＳ３０６で実行される。

まず、検索部５２２は、受信した検索指示信号に含まれる検索クエリ（条件）において、概念検索を実行することが指定されているか否かを判定する（ステップＳ４０１）。

概念検索を実行することが指定されていない場合、検索部５２２は、検索用データベース６００に記憶された第３統合情報を参照して、検索指示信号に含まれる検索クエリ（条件）を満たす特許文献を抽出し（ステップＳ４０２）、処理をステップＳ４０８へ移行する。検索部５２２は、検索用データベース６００に記憶された特許文献の中から、検索クエリで指定された発行国、公知日、テーマコード、ＦＩ、Ｆターム及び／又は各キーワードが、第３統合情報において対応する各データ項目と合致する特許文献を抽出する。検索用データベース６００には、一つの特許文献に関する複数の情報が第３統合情報としてまとめて記憶される。検索サーバ５００は、ユーザが複数の情報を指定して検索を行った場合でも、指定された複数の情報をまとめて検索できるため、検索処理の検索時間を短縮し、処理負荷を軽減させることができる。

なお、検索クエリにおいて、ＡＩサーバ４００により生成された翻訳文又は分類を検索対象に含ませることが指定されている場合、検索部５２２は、ＡＩサーバ４００により生成された翻訳文又は分類を対象として、指定された検索式を満たす特許文献を抽出する。検索用データベース６００には、対象特許庁における使用言語と異なる言語で記載された特許文献について、その使用言語で記載された翻訳文が記憶される。検索部５２２は、検索クエリに含まれるキーワードが、対象特許庁における使用言語で指定されている場合、その使用言語と異なる言語で記載された特許文献については、その使用言語による翻訳文に対して検索を行う。そのため、利用者は、各特許文献における言語の違いを意識することなく、様々な言語で記載された特許文献を一括して効率良く検索することができ、管理システム１は、利用者の利便性を向上させることができる。

なお、検索部５２２は、検索クエリに含まれるキーワードが、対象特許庁における使用言語以外の言語で指定されている場合、その言語で記載された特許文献に対して検索を行ってもよい。これにより、検索部５２２は、より精度良く検索を実行することができる。

一方、概念検索を実行することが指定されている場合、検索部５２２は、検索指示信号に含まれる検索クエリにおいて指定されたキーワード又は画像、即ち利用者によって指定された指定データについて複数の第１特徴ベクトルを生成する（ステップＳ４０３）。検索部５２２は、図２１に示した検索情報生成処理のステップＳ２０４及びＳ２０５と同様にして、検索クエリにおいて指定されたキーワード又は画像の第１特徴ベクトルを生成する。

次に、検索部５２２は、比較対象の第１特徴ベクトルを選択する（ステップＳ４０４）。検索部５２２は、ステップＳ４０４の処理が最初に実行されるときは、複数の第１特徴ベクトルの内、次元数が最大である第１特徴ベクトルを比較対象の第１特徴ベクトルとして選択する。検索部５２２は、ステップＳ４０４の処理が二回目以降に実行されるときは、前回選択された第１特徴ベクトルの次に次元数が大きい第１特徴ベクトルを比較対象の第１特徴ベクトルとして選択する。

次に、検索部５２２は、検索用データベース６００に記憶された第３統合情報を参照して、検索指示信号に含まれる検索クエリ（条件）を満たす特許文献を抽出する（ステップＳ４０５）。検索部５２２は、検索用データベース６００に記憶された特許文献の中から、検索クエリで指定された発行国、公知日、テーマコード、各キーワード、ＦＩ、Ｆターム及び／又は比較対象の第１特徴ベクトルが、第３統合情報において対応する各データ項目と合致する特許文献を抽出する。

一般に、情報処理装置は、二つの特徴ベクトルが対応するか否かを判定する場合、二つの特徴ベクトルの類似度（例えばコサイン類似度等）を算出し、類似度が閾値以上であるか否かにより、二つの特徴ベクトルが対応するか否かを判定する。そのため、情報処理装置は、発行国、公知日、テーマコード、各キーワード、ＦＩ、Ｆタームが合致する特許文献を抽出してから、抽出した特許文献毎に特徴ベクトルの類似度を算出し、類似度が閾値以上である特許文献を特定する必要がある。

一方、第１特徴ベクトルは、ＬＳＨを用いて各特許文献の第２特徴ベクトルを変換したハッシュ値を要素とする特徴ベクトルであり、その次元数の等間隔な超平面集合で第２特徴ベクトルの特徴量空間を分割した各部分空間（バケツ）を表す。検索サーバ５００は、二つの第１特徴ベクトルが対応するか否かを判定する場合、二つの第１特徴ベクトルが表す部分空間が一致するか否かを判定することにより、二つの第１特徴ベクトルが対応するか否かを高精度に判定することができる。即ち、検索サーバ５００は、第１特徴ベクトルの各要素（ハッシュ値）が一致するか否かを判定するだけで、二つの第１特徴ベクトルが対応するか否かを高精度に判定することができる。そのため、検索サーバ５００は、第１特徴ベクトル同士の比較を文字列同士の比較と同様に扱うことができ、発行国、公知日、テーマコード、各キーワード、ＦＩ、Ｆタームの照合と、第１特徴ベクトルの照合とをまとめて実行することができる。したがって、検索サーバ５００は、検索処理の処理負荷を軽減させることができ、多数の特許文献を高速に検索することができる。

次に、検索部５２２は、抽出した特許文献毎に、評価値を算出する（ステップＳ４０６）。例えば、検索部５２２は、各特許文献の評価値の初期値を０とし、各特許文献を抽出するたびに、各特許文献を抽出した際の第１特徴ベクトルの次元数を評価値に加算する。次元数が大きいほど第１特徴ベクトルが表す情報量は大きく、抽出した特許文献が、検索クエリにおいて指定されたキーワード又は画像に対応している可能性が高い。そのため、検索部５２２は、次元数が大きいほど評価値を大きくすることにより、検索クエリにおいて指定されたキーワード又は画像に対応する特許文献を精度良く抽出することができる。

次に、検索部５２２は、評価値が基準値以上である特許文献の数が所定数以上であるか否かと、比較対象の第１特徴ベクトルの次元数が最小の次元数であるか否かと、を判定する（ステップＳ４０７）。基準値及び所定数は、事前に設定される。評価値が基準値以上である特許文献の数が所定数未満であり且つ比較対象の第１特徴ベクトルの次元数が最小の次元数でない場合、検索部５２２は、処理をステップＳ４０４へ戻し、ステップＳ４０４〜Ｓ４０７の処理を繰り返す。このように、検索部５２２は、第１特徴ベクトルの次元数の降順に、指定データについて生成された第１特徴ベクトルと、各特許文献について生成された第１特徴ベクトルとを比較することにより、指定データに対応する特許文献を抽出する。検索部５２２は、情報量が大きい順に第１特徴ベクトルを比較することにより、指定データに近似する特許文献を精度良く抽出することができる。また、検索部５２２は、十分な数の特許文献を抽出した時点で検索処理を終了することができ、検索処理の処理時間を短縮させることができる。また、検索部５２２は、最大でも、第１特徴ベクトルの最大次元数分だけステップＳ４０４〜Ｓ４０７の処理を繰り返すことにより、検索処理を完了させることができ、検索処理の処理時間が増大することを抑制できる。

一方、評価値が基準値以上である特許文献の数が所定数以上である場合、又は、比較対象の第１特徴ベクトルの次元数が最小の次元数である場合、検索部５２２は、抽出した各特許文献を並べて表示するための第１表示データを生成し（ステップＳ４０８）、一連のステップを終了する。これにより、検索部５２２は、利用者によって指定された指定データに対応する複数の特許文献を並べて表示するための第１表示データを生成する。検索部５２２は、抽出した各特許文献を、公知日の順に従って又はランダムに並べて表示するように第１表示データを生成する。なお、検索部５２２は、抽出した特許文献毎に、指定データとの類似度（各特許文献の特徴ベクトルと指定データの特徴ベクトルのコサイン類似度又はユークリッド距離等）を算出し、抽出した各特許文献を類似度が高い順に並べて表示してもよい。

このように、検索部５２２は、利用者からの要求に従って、第３統合情報を用いて複数の特許文献を検索する。なお、検索部５２２は、第１特徴ベクトルの次元数の昇順に、指定データについて生成された第１特徴ベクトルと、各特許文献について生成された第１特徴ベクトルとを比較することにより、指定データに対応する特許文献を抽出してもよい。

その場合、検索部５２２は、ステップＳ４０４の処理が最初に実行されるときは、複数の第１特徴ベクトルの内、次元数が最小である第１特徴ベクトルを比較対象の第１特徴ベクトルとして選択する。検索部５２２は、ステップＳ４０４の処理が二回目以降に実行されるときは前回選択された第１特徴ベクトルの次に次元数が小さい第１特徴ベクトルを比較対象の第１特徴ベクトルとして選択する。また、ステップＳ４０６の処理は省略され、ステップＳ４０７において、検索部５２２は、抽出した特許文献の数が所定範囲内であるか否かと、比較対象の第１特徴ベクトルの次元数が最大の次元数であるか否かと、を判定する。抽出した特許文献の数が所定範囲内でなく且つ比較対象の第１特徴ベクトルの次元数が最大の次元数でない場合、検索部５２２は、処理をステップＳ４０４へ戻し、ステップＳ４０４〜Ｓ４０７の処理を繰り返す。一方、抽出した特許文献の数が所定範囲内である場合、又は、比較対象の第１特徴ベクトルの次元数が最大の次元数である場合、ステップＳ４０８において、検索部５２２は、抽出した各特許文献を並べて表示するための第１表示データを生成し、一連のステップを終了する。

利用者によって指定された指定データに対応する特許文献の数が少ない場合、検索部５２２は、情報量が小さい順に第１特徴ベクトルを比較することにより、より早期に適切な数の特許文献を抽出することができ、検索処理の処理時間を短縮させることができる。

また、検索部５２２が生成する第１特徴ベクトルは、ＬＳＨを用いて各特許文献の第２特徴ベクトルを変換したハッシュ値を要素とする特徴ベクトルに限定されない。複数の第１特徴ベクトルは、それぞれ次元数が異なる特徴ベクトルであればよく、ＴＦ−ＩＤＦ、ＢａｇｏｆＷｏｒｄｓ又はＢＭ２５等を各要素とする特徴ベクトルでもよい。

図２６は、検索サーバ５００における更新処理の動作の例を示すフローチャートである。

図２６に示す更新処理は、図２３に示す出力処理のステップＳ３１２で実行される。

まず、検索部５２２は、受信した更新指示信号に含まれる特許文献を示す情報から、端末装置１０において利用者によって指定された特許文献又は所定時間以上連続して表示された特許文献を特定する（ステップＳ５０１）。

次に、検索部５２２は、図２５に示した検索処理のステップＳ４０８で生成した第１表示データにより表示される各特許文献と、ステップＳ５０１で特定した特許文献との類似度を算出する（ステップＳ５０２）。検索部５２２は、類似度として、各特許文献の第１特徴ベクトルのコサイン類似度又はユークリッド距離等を算出する。

次に、検索部５２２は、算出した類似度に基づいて、第１表示データにより表示される特許文献を並べ替えた第２表示データを生成し（ステップＳ５０３）、一連のステップを終了する。検索部５２２は、第１表示データにより表示される特許文献を、類似度が高い順に並べて表示するように第２表示データを生成する。これにより、利用者は、注目する特許文献に類似する特許文献から順番に確認することが可能となり、管理システム１は、利用者の利便性を向上させることができる。なお、検索部５２２は、第１表示データにより表示される特許文献の内、先頭の特許文献から、更新指示信号で指定された特許文献までは元の順番で並べつつ、更新指示信号で指定された特許文献から、最後の特許文献までのみを類似度に基づいて並べ替えてもよい。これにより、利用者が既に確認した特許文献については現状の順番のままとなり、利用者は、既に確認した特許文献を重複して確認する必要がなくなり、管理システム１は、利用者の利便性を向上させることができる。

以上説明してきたように、管理サーバ３００は、照会サーバ１００から取得した形式情報と、書誌サーバ２００から取得した書誌情報とを統合した第１統合情報を生成してから、ＡＩサーバ４００から受信した検索情報をさらに統合して第１統合情報を生成する。これにより、管理サーバ３００は、第２統合情報を短時間に生成することが可能となり、特許文献に関する情報を効率良く管理することが可能となった。

また、管理システム１は、各サーバにおける処理負荷及びネットワーク負荷を抑制することが可能となり、小規模なサーバ群によってビッグデータを検索サーバに蓄積することが可能となり、システム構築費用を低減させることが可能となった。

また、管理システム１では、短期間で開発を見直す手法を取り且つ開発内容に柔軟性を持たせることが可能なアジャイル開発手法により、利用者からのフィードバックを踏まえて短期間でＰＤＣＡ（Plan-Do-Check-Act）サイクルを循環させることが可能となった。

また、各特許文献には、テキスト、技術分野の分類及び画像等の様々な情報が含まれる。仮に、テキスト、技術分野の分類及び画像がそれぞれ異なる検索サーバにまたがって検索される場合、各検索サーバに大きな負荷がかかる。例えば５０００万件の特許文献を対象として検索が行われ、ある検索キーによって１つの検索サーバで３０００万件がヒットし、他の検索サーバで２０００万件がヒットし、さらに他の検索サーバで１０００万件がヒットした場合を想定する。その場合、トータルとして（３０００万×２０００万×１０００万）回だけ、各サーバでヒットした特許文献を突合させる必要があり、検索サーバの負荷は膨大となる。また、各サーバでヒットした特許文献を突合させる処理の負荷量は、検索サーバの数に応じて指数関数的に増大していく。

管理システム１では、一つの特許文献に関する情報が複数の検索サーバに分割されて記憶されるのでなく、一つの特許文献に関する全ての情報が一つの検索サーバ５００に記憶される。そのため、ユーザが複数の情報を指定して検索を行った場合でも、各検索サーバ５００が、指定された複数の情報をまとめて検索するため、効率良く検索することができ、各検索サーバ５００におけるトータルの処理負荷を軽減させることができる。これにより、管理システム１は、大規模なサーバ群を構築することなく円滑に検索を行うことができ、サーバの導入にかかる各種設定、サーバの運用及び保守等にかかる人件費と、設置スペースに係る費用とを抑制することができる。また、管理システム１は、検索条件に上限等を設定することなく円滑に検索することができ、検索漏れの発生等を抑制することができる。

以上、好適な実施形態について説明してきたが、実施形態はこれらに限定されない。例えば、管理システムが有する各サーバの機能分担は、図１に示す管理システム１の例に限られず、各サーバの各部を何れのサーバに配置するかは適宜変更可能である。または、管理システム１が有する全てのサーバを一つのサーバで構成してもよい。

また、管理システム１が管理する文献は、特許文献に限定されず、分類に紐づく文献であれば、どのような文献でもよく、例えば論文、ニュース記事等の非特許文献でもよい。

また、ＡＩサーバ４００が使用する各学習モデルは、ＡＩサーバ４００により生成されて第４記憶装置４１０に記憶されるのでなく、外部のサーバに生成されて外部のサーバに記憶されていてもよい。その場合、検索情報生成部４２１は、各学習モデルに入力する情報を外部のサーバに送信し、各学習モデルからの出力値を外部のサーバから受信してもよい。

以下、図２５のステップＳ４０３〜Ｓ４０７で説明した概念検索の他の実施形態について説明する。

検索サーバ５００は、第５記憶装置５１０に記憶された特許文献から、直近の所定期間（例えば数年間）に登録された特許文献を抽出し、各特許文献の全文において出現頻度が高い順に上位所定数の用語を特徴語として抽出する。そして、検索サーバ５００は、第５記憶装置５１０に記憶された特許文献毎に、全文内の各特徴語の出現回数を要素とする第３特徴ベクトルと、特許請求の範囲内の各特徴語の出現回数を要素とする第４特徴ベクトルとを生成しておく。

検索部５２２は、概念検索を実行する場合、審査対象の特許文献の全文内の各特徴語の出現回数を要素とする第３特徴ベクトルと、審査対象の特許文献の特許請求の範囲内の各特徴語の出現回数を要素とする第４特徴ベクトルとを生成する。次に、検索部５２２は、審査対象の特許文献の第３特徴ベクトルと、第５記憶装置５１０に記憶された各特許文献の第３特徴ベクトルとの第１類似度を算出する。第１類似度は、例えば正規化相互相関値である。次に、検索部５２２は、第５記憶装置５１０に記憶された特許文献の内、第１類似度が高い順に上位第１所定数の特許文献を、審査対象の特許文献に類似する特許文献として抽出する。次に、検索部５２２は、審査対象の特許文献の第４特徴ベクトルと、抽出した各特許文献の第４特徴ベクトルとの第２類似度を算出し、抽出した各特許文献を示す情報を第２類似度が高い順に並べて、検索結果として送信する。第２類似度は、例えば正規化相互相関値である。なお、検索部５２２は、抽出した各特許文献の内、第２類似度が高い順に上位第２所定数の特許文献を示す情報のみを検索結果として送信してもよい。一方、端末装置１０は、検索結果に示される各特許文献を示す情報を、検索結果に示される順に並べて表示する。これにより、利用者は、各特許文献を類似度が高い順に効率良く参照することができる。

なお、検索部５２２は、審査対象の特許文献の特許請求の範囲に記載された各文を読点等で区切って複数の構成要素に分割し、利用者に各構成要素を提示し、提示した構成要素の中から、絞り込み検索に用いられる一又は複数の構成要素を選択させてもよい。構成要素が所定文字数未満である場合、検索部５２２は、その構成要素をその構成要素に続く構成要素と連結させてもよい。また、検索部５２２は、利用者に、選択された構成要素と、その構成要素に含まれる各単語とを提示し、提示した単語の中から、絞り込み検索に用いられる一又は複数の単語をさらに選択させてもよい。

その場合、検索部５２２は、選択された各構成要素について、構成要素に含まれる単語及びそのシソーラスを含むことを条件とする検索式を作成し、審査対象の特許文献に類似する特許文献として抽出した各特許文献が、作成した検索式を満たす度合いを算出する。検索部５２２は、抽出した各特許文献を示す情報を、算出した度合いが高い順に並べて、検索結果として送信する。なお、検索部５２２は、抽出した各特許文献の内、算出した度合いが高い順に上位第３所定数の特許文献を示す情報のみを検索結果として送信してもよい。また、検索部５２２は、検索結果において、各特許文献を示す情報に、各構成要素に対応する検索式を満たすか否かを示す情報を関連付けてもよい。端末装置１０は、検索結果に示される各特許文献を示す情報を、各構成要素に対応する検索式を満たすか否かを示す情報とともに表示する。これにより、利用者は、所望の条件を満たす特許文献を効率良く参照することができる。

また、検索部５２２は、概念検索で抽出された各特許文献に含まれる各図面を、図２４の検索画面２４００の画像指定ボックス２４１７で指定された画像との一致度合いに基づいて、順位付けしてもよい。

その場合、検索部５２２は、二つの画像が入力された場合に、その二つの画像の一致度合いを出力するように事前学習された学習モデルを用いて、概念検索で抽出された特許文献に含まれる図面と、指定された画像との一致度合いを取得する。この学習モデルは、複数の学習用画像を用いて、例えばディープラーニングを用いて学習される。ニューラルネットワークである学習モデルは、入力層、中間層及び出力層から構成される多層構造を有する。入力層の各ノードには、特徴量として、二つの画像からそれぞれ抽出された対象物の角又は交点等の特徴点の数又は分布等に関する各情報が入力される。中間層の各ノードには、入力層の各ノードから出力された値の、所定の重みに基づく重み付け和が入力される。出力層の各ノードには、中間層の各ノードから出力された値の、所定の重みに基づく重み付け和が入力される。出力層は、例えば、入力された値をそのまま出力する。各重みは、二つの画像が類似している程、出力層によって出力される値が大きくなるように設定される。重みの設定には、例えば、誤差逆伝搬法などの公知の手法が使用される。検索部５２２は、概念検索で抽出された各特許文献に含まれる各図面に含まれる画像と、指定された画像とから特徴量を算出し、算出した特徴量を学習モデルに入力し、その一致度合いを取得する。

検索部５２２は、検索結果において、各特許文献に含まれる各図面を示す情報に、各図面について算出した一致度合いを関連付ける。端末装置１０は、検索結果に示される各特許文献に含まれる各図面を、その一致度合いが高い順に表示する。これにより、利用者は、所望の画像を含む特許文献の図面を効率良く参照することができる。また、この場合、端末装置１０は、検索結果として表示された図面の内の何れかの図面が利用者により指定された場合、指定された図面に対応する記載又は図面の説明をテキスト表示してもよい。また、端末装置１０は、利用者により指定された図面に類似する順に、各図面をソートしてもよい。

図２７は、他の実施形態に係る管理システム２による処理の一例を説明するための模式図である。

管理システム２では、情報処理装置１５は、所定期間毎に、所定の特許庁データベースから、新たに出願又は登録された特許文献を収集し、照会サーバ１００、書誌サーバ２００及びＡＩサーバ４００に配信する。照会サーバ１００は、所定期間に収集した新規の各特許文献から形式情報を取得する。書誌サーバ２００は、各特許文献から書誌情報を抽出する。管理サーバ３００は、各特許文献について、形式情報と書誌情報を統合した第１統合情報を生成する。一方、ＡＩサーバ４００は、管理サーバ３００が、第１統合情報を生成している間に、各特許文献の書誌情報又は内容情報に基づいて、各特許文献には記載されず且つ検索に利用される検索情報を生成する。そして、管理サーバ３００は、第１統合情報が完成した後に、各特許文献について、第１統合情報と検索情報を統合した第２統合情報を生成する。この第２統合情報は、検索用データベースに登録を行うために使用される。その他の点については、管理システム２は、管理システム１と同様に動作する。管理システム２も、特許文献に関する情報を効率良く管理することが可能となる。

１管理システム
１００照会サーバ
２００書誌サーバ
３００管理サーバ
４００ＡＩサーバ
５００検索サーバ
６００検索用データベース

Claims

複数の特許文献に関する情報を検索用データベースに登録するための管理システムであって、
所定期間に、自国の特許庁及び複数の他国の特許庁が有するデータベースからそれぞれ収集した、国毎にデータ形式が異なる複数の特許文献について、少なくとも文献番号を含み且つ特許文献を一意に識別可能なデータを含む形式情報と、少なくとも各特許文献の発明の内容を含む内容情報とが含まれるデータ群から、各特許文献について、前記形式情報を取得する第１サーバと、
複数の国の特許庁に出願又は登録された特許文献について、国毎にデータ形式が異なるデータを含む書誌情報が共通のデータ形式に変換されて記憶された外部データベースから、各特許文献について、文献番号と、前記共通のデータ形式に変換された書誌情報とを取得する第２サーバと、
前記第１サーバが前記形式情報を取得した各特許文献について、前記形式情報に含まれる各データを、前記形式情報及び前記書誌情報の各データ項目が所定の順序で並べられた第１テーブルの対応する位置に格納し、当該各特許文献について前記第２サーバが書誌情報を取得している場合は、文献番号をキーとして、当該書誌情報に含まれる各データを前記第１テーブルの対応する位置に格納することにより、前記形式情報及び前記書誌情報を統合した第１統合情報を生成する第３サーバと、
前記データ群から、各特許文献について、文献番号と、前記内容情報とを取得し、前記発明の内容が所定言語で記載された特許文献については当該発明の内容に基づき、前記発明の内容が前記所定言語で記載されていない特許文献については前記発明の内容が前記所定言語で記載された翻訳文に基づいて、学習モデルを用いて、各特許文献の分類情報を生成する第４サーバと、を有し、
前記第３サーバは、前記第１統合情報が完成した後に、前記第１サーバが前記形式情報を取得した特許文献について、文献番号をキーとして、前記第１統合情報に含まれる各データと、前記分類情報に含まれる各データとを、前記第１統合情報及び前記分類情報の各データ項目が所定の順序で並べられた第２テーブルの対応する位置に格納することにより、前記第１統合情報及び前記分類情報を統合した第２統合情報を生成し、前記生成した第２統合情報を検索用データベースに登録する、
ことを特徴とする管理システム。
前記第４サーバは、前記第３サーバが前記第１統合情報を生成している間に、前記分類情報を生成する、請求項１に記載の管理システム。
前記第４サーバは、前記発明の内容が前記所定言語で記載されていない特許文献について、前記翻訳文を生成する、請求項１または２に記載の管理システム。
前記第３サーバは、ファミリー出願に係る特許文献から生成した第２統合情報を一つの第２テーブル内で相互に対応付けて記憶し、
ファミリー出願に係る特許文献から生成された第２統合情報のインデックスとして、ファミリー出願に係る特許文献で共通のインデックスを設定する第５サーバをさらに有する、請求項１または３に記載の管理システム。
前記第４サーバは、特定の出願に係る特許文献について生成した分類情報を、当該特定の出願のファミリー出願に係る特許文献の分類情報として使用する、請求項１〜４の何れか一項に記載の管理システム。
前記第４サーバは、各特許文献について、それぞれ次元数が異なる複数の第１特徴ベクトルをさらに生成し、
前記第２テーブルには、前記第１統合情報及び前記分類情報の各データ項目と、前記複数の第１特徴ベクトルとが所定の順序で並べられており、
前記第３サーバは、文献番号をキーとして、前記第１統合情報に含まれる各データと、前記分類情報に含まれる各データと、前記複数の第１特徴ベクトルとを前記第２テーブルの対応する位置に格納することにより、前記第１統合情報、前記分類情報及び前記複数の第１特徴ベクトルを統合して前記第２統合情報を生成する、請求項１〜５の何れか一項に記載の管理システム。
前記第４サーバは、それぞれ異なる複数のＬＳＨを用いて各特許文献の第２特徴ベクトルを変換したハッシュ値を各要素とする特徴ベクトルを前記第１特徴ベクトルとして生成する、請求項６に記載の管理システム。
利用者によって指定された指定データについて前記複数の第１特徴ベクトルを生成し、前記次元数の昇順又は降順に、前記指定データについて生成された第１特徴ベクトルと、各特許文献について生成された第１特徴ベクトルとを比較することにより、前記指定データに対応する特許文献を抽出する第５サーバをさらに有する、請求項６または７に記載の管理システム。
利用者によって指定された指定データに対応する複数の特許文献を並べて表示するための第１表示データを生成する第５サーバと、
前記第１表示データに従って、複数の特許文献を並べて表示する端末装置と、をさらに有し、
前記第５サーバは、前記端末装置において利用者によって指定された特許文献又は所定時間以上連続して表示された特許文献との類似度に基づいて、前記第１表示データにより表示される特許文献を並べ替えた第２表示データを生成する、請求項１〜７の何れか一項に記載の管理システム。
前記第３サーバは、前記第１サーバが前記形式情報を取得した特許文献の内、前記第２サーバが前記書誌情報を取得しなかった特許文献に関する情報を出力する、請求項１〜９の何れか一項に記載の管理システム。
前記第１サーバは、前記第２統合情報が完成した後に、前記第１サーバが前記形式情報を取得した特許文献について、文献番号をキーとして、前記第２統合情報に含まれる各データと、前記内容情報に含まれるデータとを、前記第２統合情報及び前記内容情報の各データ項目が所定の順序で並べられた第３テーブルの対応する位置に格納することにより、前記第２統合情報及び前記内容情報を統合した第３統合情報を生成し、前記生成した第３統合情報を前記検索用データベースに登録する、請求項１〜１０の何れか一項に記載の管理システム。
前記第４サーバは、
技術分野の大分類毎に、技術分野の小分類を特定するための学習モデルを記憶し、
各特許文献の技術分野の大分類を特定し、前記特定した大分類に対応する学習モデルを用いて、各特許文献の技術分野の小分類を特定し、各特許文献の技術分野の大分類及び小分類を前記分類情報として生成する、請求項１〜１１の何れか一項に記載の管理システム。
複数の特許文献に関する情報を検索用データベースに登録するための管理システムにおける管理方法であって、
第１サーバが、所定期間に、自国の特許庁及び複数の他国の特許庁が有するデータベースからそれぞれ収集した、国毎にデータ形式が異なる複数の特許文献について、少なくとも文献番号を含み且つ特許文献を一意に識別可能なデータを含む形式情報と、少なくとも各特許文献の発明の内容を含む内容情報とが含まれるデータ群から、各特許文献について、前記形式情報を取得し、
第２サーバが、前記データ群から、各特許文献について、文献番号を含み且つ前記形式情報と異なる書誌情報を取得し、
第３サーバが、前記第１サーバが前記形式情報を取得した各特許文献について、前記形式情報に含まれる各データを、前記形式情報及び前記書誌情報の各データ項目が所定の順序で並べられた第１テーブルの対応する位置に格納し、当該各特許文献について前記第２サーバが書誌情報を取得している場合は、文献番号をキーとして、当該書誌情報に含まれる各データを前記第１テーブルの対応する位置に格納することにより、前記形式情報及び前記書誌情報を統合した第１統合情報を生成し、
第４サーバが、前記データ群から、各特許文献について、文献番号と、前記内容情報とを取得し、前記発明の内容が所定言語で記載された特許文献については当該発明の内容に基づき、前記発明の内容が前記所定言語で記載されていない特許文献については前記発明の内容が前記所定言語で記載された翻訳文に基づいて、学習モデルを用いて、各特許文献の分類情報を生成することを含み、
前記第３サーバは、前記第１統合情報が完成した後に、前記第１サーバが前記形式情報を取得した特許文献について、文献番号をキーとして、前記第１統合情報に含まれる各データと、前記分類情報に含まれる各データとを、前記第１統合情報及び前記分類情報の各データ項目が所定の順序で並べられた第２テーブルの対応する位置に格納することにより、前記第１統合情報及び前記分類情報を統合した第２統合情報を生成し、前記生成した第２統合情報を検索用データベースに登録する、
ことを特徴とする管理方法。
複数の特許文献に関する情報を検索用データベースに登録するための管理システムであって、
所定期間に、自国の特許庁及び複数の他国の特許庁が有するデータベースからそれぞれ収集した、国毎にデータ形式が異なる複数の特許文献について、少なくとも文献番号を含み且つ特許文献を一意に識別可能なデータを含む形式情報と、少なくとも各特許文献の発明の内容を含む内容情報とが含まれるデータ群から、各特許文献について、前記形式情報を取得する第１サーバと、
複数の国の特許庁に出願又は登録された特許文献について、国毎にデータ形式が異なるデータを含む書誌情報が共通のデータ形式に変換されて記憶された外部データベースから、各特許文献について、文献番号と、前記共通のデータ形式に変換された書誌情報とを取得する第２サーバと、
前記第１サーバが前記形式情報を取得した各特許文献について、前記形式情報に含まれる各データを、前記形式情報及び前記書誌情報の各データ項目が所定の順序で並べられた第１テーブルの対応する位置に格納することにより、前記形式情報及び前記書誌情報を統合した第１統合情報を生成する第３サーバと、
前記データ群から、各特許文献について文献番号と前記内容情報とを取得し、前記内容情報に基づいて学習モデルを用いて各特許文献の検索情報を生成する第４サーバと、を有し、
前記第３サーバは、前記第１統合情報が完成した後に、前記第１サーバが前記形式情報を取得した特許文献について、文献番号をキーとして、前記第１統合情報に含まれる各データと、前記第１統合情報が完成する前に生成された前記検索情報に含まれる各データとを、前記第１統合情報及び前記検索情報の各データ項目が所定の順序で並べられた第２テーブルの対応する位置に格納することにより、前記第１統合情報と、前記第１統合情報が完成する前に生成された前記検索情報とを統合した第２統合情報を生成し、前記生成した第２統合情報を検索用データベースに登録する、
ことを特徴とする管理システム。
複数の特許文献に関する情報を検索用データベースに登録するための管理システムにおける管理方法であって、
第１サーバが、所定期間に、自国の特許庁及び複数の他国の特許庁が有するデータベースからそれぞれ収集した、国毎にデータ形式が異なる複数の特許文献について、少なくとも文献番号を含み且つ特許文献を一意に識別可能なデータを含む形式情報と、少なくとも各特許文献の発明の内容を含む内容情報とが含まれるデータ群から、各特許文献について、前記形式情報を取得し、
第２サーバが、複数の国の特許庁に出願又は登録された特許文献について、国毎にデータ形式が異なるデータを含む書誌情報が共通のデータ形式に変換されて記憶された外部データベースから、各特許文献について、文献番号と、前記共通のデータ形式に変換された書誌情報とを取得し、
第３サーバが、前記第１サーバが前記形式情報を取得した各特許文献について、前記形式情報に含まれる各データを、前記形式情報及び前記書誌情報の各データ項目が所定の順序で並べられた第１テーブルの対応する位置に格納することにより、前記形式情報及び前記書誌情報を統合した第１統合情報を生成し、
第４サーバが、前記データ群から、各特許文献について文献番号と前記内容情報とを取得し、前記内容情報に基づいて学習モデルを用いて各特許文献の検索情報を生成することを含み、
前記第３サーバは、前記第１統合情報が完成した後に、前記第１サーバが前記形式情報を取得した特許文献について、文献番号をキーとして、前記第１統合情報に含まれる各データと、前記第１統合情報が完成する前に生成された前記検索情報に含まれる各データとを、前記第１統合情報及び前記検索情報の各データ項目が所定の順序で並べられた第２テーブルの対応する位置に格納することにより、前記第１統合情報と、前記第１統合情報が完成する前に生成された前記検索情報とを統合した第２統合情報を生成し、前記生成した第２統合情報を検索用データベースに登録する、
ことを特徴とする管理方法。