JP7493195B1 - プログラム、方法、情報処理装置、システム - Google Patents
プログラム、方法、情報処理装置、システム Download PDFInfo
- Publication number
- JP7493195B1 JP7493195B1 JP2024011001A JP2024011001A JP7493195B1 JP 7493195 B1 JP7493195 B1 JP 7493195B1 JP 2024011001 A JP2024011001 A JP 2024011001A JP 2024011001 A JP2024011001 A JP 2024011001A JP 7493195 B1 JP7493195 B1 JP 7493195B1
- Authority
- JP
- Japan
- Prior art keywords
- population
- classification
- patent documents
- information
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 112
- 230000010365 information processing Effects 0.000 title claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 257
- 230000004044 response Effects 0.000 claims abstract description 69
- 238000000605 extraction Methods 0.000 claims abstract description 62
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000003860 storage Methods 0.000 claims description 56
- 238000013145 classification model Methods 0.000 claims description 45
- 230000004931 aggregating effect Effects 0.000 claims 1
- 238000013136 deep learning model Methods 0.000 abstract description 4
- 238000011156 evaluation Methods 0.000 description 44
- 238000013473 artificial intelligence Methods 0.000 description 36
- 238000010586 diagram Methods 0.000 description 25
- 238000012216 screening Methods 0.000 description 23
- 238000005516 engineering process Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 12
- 230000002349 favourable effect Effects 0.000 description 11
- 238000005070 sampling Methods 0.000 description 11
- 239000000284 extract Substances 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 239000004065 semiconductor Substances 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013210 evaluation model Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
特許文献1には、請求項の理解を支援するための技術に関し、請求項中のポイントとなる構成要素を特定して提示し、その説明を重点的に読むことができるようにする技術が開示されている。
そこで、本開示は、上記課題を解決すべくなされたものであって、その目的は、多量の教師データを用意することなしに複数の特許文書に対して好適な処理を適用する技術を提供することである。
本開示におけるシステム1は、特許文書の処理支援サービスを提供する情報処理システムである。
システム1は、ネットワークNを介して接続された、サーバ10、ユーザ端末20、人工知能システム40の情報処理装置を備える。
図1は、システム1の機能構成を示すブロック図である。
図2は、サーバ10の機能構成を示すブロック図である。
図3は、ユーザ端末20の機能構成を示すブロック図である。
サーバ10は、特許文書の処理支援サービスを提供する情報処理装置である。
サーバ10は、記憶部101、制御部104を備える。
サーバ10の記憶部101は、アプリケーションプログラム1011、ユーザテーブル1012、文書テーブル1013、母集団テーブル1014、第1支援テーブル1015、第2支援テーブル1016、教師テーブル1017、タスクマスタ1021、パラメータマスタ1022を備える。
アプリケーションプログラム1011は、ウェブブラウザアプリケーションなどのアプリケーションを含む。
ユーザテーブル1012は、ユーザIDを主キーとして、ユーザID、ユーザ名のカラムを有するテーブルである。
図4は、ユーザテーブル1012のデータ構造を示す図である。
ユーザ名は、ユーザの氏名を記憶する項目である。ユーザ名は、氏名ではなく、ニックネームなど任意の文字列を設定しても良い。
文書テーブル1013は、文書ID、ユーザID、文書名、文書内容のカラムを有するテーブルである。
図5は、文書テーブル1013のデータ構造を示す図である。
ユーザIDは、ユーザを識別するためのユーザ識別情報を記憶する項目である。
文書名は、特許文書の名称を記憶する項目である。文書名は任意の文字列を設定することができる。例えば、文書名は、特許文書の公開番号、登録番号、出願番号、その他、整理番号等を記憶する。
文書内容は、特許文書の文書内容を記憶する項目である。具体的に、特許文書のテキスト情報が記憶される。例えば、文書内容は、特許文書(明細書)に含まれる「特許請求の範囲」「要約」「発明の詳細な説明」「実施例」「実施形態」等の、一部または全部を含む。具体的には、公開公報、特許公報等の公報テキストが記憶される。
母集団テーブル1014は、母集団IDを主キーとして、母集団ID、母集団データ、タスクID、クエリデータのカラムを有するテーブルである。
図6は、母集団テーブル1014のデータ構造を示す図である。
母集団データは、複数の特許文書の文書IDからなる母集団を特定する情報記憶する項目である。母集団データは、文書IDだけでなく、文書IDと関連付けて文書名、文書内容等を記憶する構成としても良い。また、複数の特許文書を文書IDにより特定する必要は必ずしもなく、特許を検索するための検索式、検索条件、論理式により複数の特許文書からなる母集団を特定しても構わない。
タスクIDは、母集団識別情報により特定される複数の特許文書を含む母集団に対して適用するタスクを示すタスク識別情報を記憶する項目である。
クエリデータは、母集団識別情報により特定される複数の特許文書を含む母集団に対して適用するクエリを記憶する項目である。具体的に、クエリデータは、タスクの種類に応じて以下のようなクエリが記憶される。
・分類付与タスク:分類対象を定義する文章(文字列)および分類対象を表現する複数の例示的な文章(文字列)を例示列挙したものが記憶される。
例)分類Aは「・・・」、分類Bは「・・・」、分類Cは「・・・」
・スクリーニング:ターゲット発明を記述した文章(文字列)が記憶される。
例)・・・手段と、・・・手段と、・・・を備える装置
・該非判定:対象製品を表現した文章(文字列)が記憶される。
例)・・・手段と、・・・手段と、・・・を備える装置
・発明評価:評価項目、評価基準を表現した文章が記憶される。
例)革新性:Aランクとは・・・、Bランクとは・・・、Cランクとは・・・
経済性:Aランクとは・・・、Bランクとは・・・、Cランクとは・・・
第1支援テーブル1015は、第1文書ID、プロンプト、第1出力値のカラムを有するテーブルである。
図7は、第1支援テーブル1015のデータ構造を示す図である。
プロンプトは、人工知能システムに対する問い合わせ文章に関するプロンプトを記憶する項目である。プロンプトとは、主に人工知能システムに対して入力される問い合わせ文(テキスト)である。具体的に、ユーザは、人工知能システムが所望の出力結果を出力するように、人工知能システムに対してプロンプトの入力を行うことができる。なお、プロンプトは文字列である必要はなく、画像、動画、音声等によるプロンプトでも良い。例えば、ユーザによるジェスチャ、音声指示等もプロンプトになり得る。
第1出力値は、プロンプトに対する人工知能システムからの出力データを記憶する項目である。具体的に、プロンプトを生成する際に用いたタスク情報に応じた出力データ(文字列情報)が記憶される。
第2支援テーブル1016は、第2文書ID、第2出力値、精度のカラムを有するテーブルである。
図8は、第2支援テーブル1016のデータ構造を示す図である。
第2出力値は、第2文書IDにより特定される特許文書を入力データとして分類モデル1051に適用したことに応じて出力される分類ラベル等の出力データ(文字列情報)を記憶する項目である。第2出力値は、複数の分類ラベル等の出力データを記憶しても良い。
精度は、第2文書IDにより特定される特許文書を入力データとして分類モデル1051に適用したことに応じて出力される分類ラベルに対する分類精度等の、第2出力値の品質を示す情報が記憶される項目である。精度は、複数の分類ラベル等のそれぞれに対する品質を示す情報を記憶しても良い。
教師テーブル1017は、教師文書ID、教師ラベルのカラムを有するテーブルである。
図9は、教師テーブル1017のデータ構造を示す図である。
教師ラベルは、今日私文書IDにより特定される特許文書の分類ラベル等の教師データ(文字列情報)を記憶する項目である。
タスクマスタ1021は、タスクIDを主キーとして、タスクID、タスク種別、抽出項目、タスクデータのカラムを有するテーブルである。
図10は、タスクマスタ1021のデータ構造を示す図である。
タスク種別は、タスクの種別に関するタスク種別情報を記憶する項目である。具体的に、タスク種別は、特許文書に対して実行される処理(タスク)の目的に応じたタスクの内容を特定する文字列が記憶される。本開示において、タスク種別には、以下のタスクの内容に応じて「分類付与」、「スクリーニング」、「該非判定」、「発明評価」などの情報が記憶される。なお、本開示においては上記タスクは一例であり、特許文書に対する任意のタスクに対して本開示は適用可能である。
・分類付与タスク:複数の特許文書のそれぞれの内容に応じて分類を付与するタスクである。
・スクリーニングタスク:複数の特許文書のそれぞれがターゲット文書と関連しているか否かを判定させるタスクである。具体的に、「従来技術調査」、「先行技術調査」、「無効資料調査」などのように、タスクを細分化しても良い。
・該非判定タスク:複数の特許文書のそれぞれが対象製品と関連しているか否かを判定させるタスクである。例えば、「クリアランス調査」、「FTO調査」、「他社侵害品調査」などの特許業務において実行されるタスクである。
・発明評価タスク:複数の特許文書のそれぞれの革新性、経済性、実用性、他社実施可能性、侵害発見容易性などの特許文書にかかる発明の価値を評価させるタスクである。例えば、「出願要否判断」、「外国出願検討、出願国の検討」、「登録特許の維持要否」などの特許業務において実行されるタスクである。
抽出項目は、タスクを実行する際に特許文書の抽出項目を示す情報(抽出項目情報)を記憶する項目である。具体的に、抽出項目は、「要約書」、「明細書」、「特許請求の範囲」、「図面」などのタスクを提供する特許文書の抽出項目を示す文字列を含む。また、抽出項目は、「発明の名称」、「発明の詳細な説明」、「技術分野」、「背景技術」、「先行技術文献」、「発明が解決しようとする課題」、「課題を解決するための手段」、「発明の効果」、「図面の簡単な説明」、「発明を実施するための形態」、「実施例」、「産業上の利用可能性」、「符号の説明等」、「課題」、「解決手段」などのタスクを提供する特許文書の抽出項目を示す文字列を含む。
具体的に、抽出項目は、タスク種別に応じて以下のような抽出項目情報が記憶される。
・分類付与:要約書、特許請求の範囲、独立請求項、請求項1、明細書など
・スクリーニング:要約書、特許請求の範囲、独立請求項、請求項1、明細書など
・該非判定:請求項1、特許請求の範囲、独立請求項
・発明評価:請求項1、独立請求項
タスクデータは、タスクに関する情報(文字列)を記憶する項目である。具体的に、タスクデータは、タスク種別に応じて以下のような文字列が記憶される。なお、<クエリ>の項目には後述するクエリデータが、<抽出文書>には、特許文書に含まれる文章のうち、抽出項目に基づき特定される抽出箇所(抽出内容、部分文章)が挿入されプロンプトが生成される。
・タスク種別が「分類付与」の場合
『
以下のように技術分類を定義します。以下の「対象特許」に記載された発明が分類A、B、Cのいずれかに分類してください。対象特許と分類との関連度を0~100の間で算定してください。そのように判断した理由を出力してください。
#技術分類:<クエリ>(分類A「・・・」、分類B「・・・」、分類C「・・・」)
#対象特許:<抽出文書>(特許文書のうち要約書、特許請求の範囲の箇所(内容))
』
・タスク種別が「スクリーニング」の場合
『
以下の「ターゲット発明」に記載された発明が、以下の「対象特許」に記載された発明に記載されているか否かの検討をしてください。ターゲット発明と対象特許との関連度を0~100の間で算定してください。そのように判断した理由を出力してください。
#ターゲット発明:<クエリ>(・・・手段と、・・・手段と、・・・を備える装置)
#対象特許:<抽出文書>(特許文書のうち要約書、特許請求の範囲、明細書の箇所(内容))
』
・タスク種別が「該非判定」の場合
『
以下の「対象製品」に記載された製品、サービス等が、以下の「対象特許」に記載された発明の権利範囲に含まれるか否かの検討をしてください。対象製品と対象特許との関連度を0~100の間で算定してください。そのように判断した理由を出力してください。
#対象製品:<クエリ>(・・・手段と、・・・手段と、・・・を備える装置)
#対象特許:<抽出文書>(特許文書のうち請求項1の箇所(内容))
』
・タスク種別が「発明評価の場合」
『
以下のように評価基準を定義します。以下の「対象特許」に記載された発明が評価A、B、Cのいずれかに評価してください。そのように判断した理由を出力してください。
#評価基準:<クエリ>(評価A「・・・」、評価B「・・・」、評価C「・・・」)
#対象特許:<抽出文書>(特許文書のうち要約書、特許請求の範囲の箇所(内容))』
パラメータマスタ1022は、抽出割合、精度閾値、適用条件のカラムを有するテーブルである。
図11は、パラメータマスタ1022のデータ構造を示す図である。
精度閾値は、1または複数の第2特許文書からなる第2特許集合を特定する際の精度等の第2出力値の品質を示す情報に関する条件を記憶する項目である。例えば、分類モデル1051が出力する第2出力値と精度に基づき、当該精度が精度閾値よりも大きいもののみを第2特許文書として特定し、記憶する。具体的に、精度閾値は、0~1の値をとる。
適用条件は、抽出割合および精度閾値を適用する際の適用条件を記憶する項目である。
具体的に、適用条件は、文書処理の実行回数、未処理文書の数、割合等に関する条件を記憶する。
サーバ10の制御部104は、ユーザ登録制御部1041、文書処理部1042、分類モデル1051を備える。制御部104は、記憶部101に記憶されたアプリケーションプログラム1011を実行することにより、各機能ユニットが実現される。
ユーザテーブル1012に記憶される情報は、ユーザが任意の情報処理端末からサービス提供者が運営するウェブページなどを開き、所定の入力フォームに情報を入力しサーバ10へ送信する。ユーザ登録制御部1041は、受信した情報をユーザテーブル1012の新しいレコードに記憶し、ユーザ登録が完了する。これにより、ユーザテーブル1012に記憶されたユーザはサービスを利用することができるようになる。
ユーザ登録制御部1041によるユーザ情報のユーザテーブル1012への登録に先立ち、サービス提供者は所定の審査を行いユーザによるサービス利用可否を制限しても良い。
ユーザIDは、ユーザを識別できる任意の文字列または数字で良く、ユーザが希望する任意の文字列または数字、もしくはユーザ登録制御部1041が自動的に任意の文字列または数字を設定しても良い。
分類モデル1051は、機械学習モデル、深層学習モデル、人工知能モデル等の任意の学習モデルを含む。本開示における、分類モデル1051は、特許文書等の文書(テキストデータ)の入力に応じて、分類名(分類ラベル)および当該分類名に応じた精度(推論精度、推論の品質を示す情報)を出力可能な学習モデルを含む。例えば、分類モデル1051は、ベイズ分類、SVM(Support VectorMachines)、決定木(Decision Trees)、ランダムフォレスト(Random Forest)、ロジスティック回帰、深層学習モデル、BERTを含む。
なお、分類モデル1051は、CNN、ResNet、Inception、VGGNetなどの画像分類モデルを含んでも良い。特許文書は、図面等の画像を含むため、当該図面等の画像に応じて分類名を出力可能な構成としても良い。
分類モデル1051は、自然言語処理に使用される多くの汎用的なライブラリにより実現することができる。例えば、分類モデル1051は、NLTK(Natural Language Toolkit)、spaCy、Scikit-learn、TensorFlow and Keras、PyTorch、FastText、Gensimなどを含む。
ユーザ端末20は、サービスを利用するユーザが操作する情報処理装置である。ユーザ端末20は、例えば、スマートフォン、タブレット等の携帯端末でもよいし、据え置き型のPC(Personal Computer)、ラップトップPCであってもよい。また、HMD(Head Mount Display)、腕時計型端末等のウェアラブル端末であってもよい。
ユーザ端末20は、記憶部201、制御部204、入力装置206、出力装置208を備える。
ユーザ端末20の記憶部201は、ユーザID2011、アプリケーションプログラム2012を備える。
アプリケーションプログラム2012は、ウェブブラウザアプリケーションなどのアプリケーションを含む。
アプリケーションプログラム2012は、ユーザ端末20に記憶されているウェブブラウザアプリケーション上で実行されるJavaScript(登録商標)などのインタープリター型プログラミング言語を含む。
ユーザ端末20の制御部204は、入力制御部2041、出力制御部2042を備える。制御部204は、記憶部201に記憶されたアプリケーションプログラム2012を実行することにより、各機能ユニットが実現される。
ユーザ端末20の入力装置206は、カメラ2061、マイク2062、位置情報センサ2063、モーションセンサ2064、タッチデバイス2065を備える。
ユーザ端末20の出力装置208は、ディスプレイ2081、スピーカ2082を備える。
人工知能システム40は、プロンプトに対する回答内容を出力する情報処理装置である。例えば、人工知能システム40は、ChatGPT、OpenAI GPT、PerplexityAsk、BingAI等が含まれる。これらの人工知能システムは対話応対(チャット)の機能を備えており、ユーザは任意の問い合わせや命令指示を文章で人工知能システムに与えることにより、当該問い合わせに対する回答や命令指示に対する回答を得ることができる。本開示においては、ユーザは、問合処理において作成したプロンプトを人工知能システム40へ送信することにより、特許文書の読解を支援する文章を回答内容として得ることができる。
また本開示において、人工知能システムは、テキストベースの対話応対に限られない。例えば、Midjourney、Stable Diffusion等の画像生成AIシステムであっても構わない。例えば、ユーザは、問合処理において作成したプロンプトを、そのような画像生成AIシステムに送信することにより、特許文書の読解を支援する画像や動画を回答内容として得ることができる。
その他、本開示は、動画や音声等により回答内容を出力する人工知能システムに対しても適用可能である。人工知能システム40は、大規模言語モデルシステム(LLMシステム)を含む。
以下、システム1の各処理について説明する。
図12は、文書処理の動作を示すフローチャートである。
図13は、母集団作成処理ページの動作を示す画面例である。
文書処理は、特許文書に対して処理を適用する処理である。
文書処理は、文書処理の処理対象となる母集団を作成し、当該母集団から第1集合をサンプリングにより特定し、当該第1集合に適用するプロンプトを生成し、当該プロンプトを大規模言語モデルへ送信することにより大規模言語モデルから出力される第1出力値を取得し、第1出力値をユーザへ提示し、当該ユーザからの入力操作に応じて教師データを作成し、母集団から第2集合を特定し、第2集合に対して教師データに基づき学習した分類モデルによる分類処理を実行し、母集団のうち未処理文書がなくなるまで上記処理を反復して実行する一連の処理である。
以下に、文書処理の詳細を説明する。
ステップS101において、サーバ10の文書処理部1042は、複数の特許文書を含む母集団に関する母集団情報を受け付ける母集団受付ステップを実行する。
具体的に、ユーザは、ユーザ端末20の入力装置206を操作することにより、ウェブブラウザ等に母集団作成処理を実行するためのページ(母集団作成処理ページD1)のURLを入力し、母集団作成処理ページを開く。ユーザ端末20の制御部204は、母集団作成処理ページを開くためのリクエストを、サーバ10へ送信する。サーバ10の制御部104は、受信したリクエストに基づき、母集団作成処理ページD1を生成しユーザ端末20へ送信する。ユーザ端末20の制御部204は、受信した母集団作成処理ページD1をユーザ端末20のディスプレイ2081に表示する。
図13は、文書処理における母集団作成処理ページD1の画面例である。ユーザ端末20のディスプレイ2081には、母集団作成処理ページD1が表示される。母集団作成処理ページD1は、タスク選択欄D101、抽出項目選択欄D111、クエリ入力欄D102、文書入力欄D103、プロンプト表示欄D104、送信ボタンD105を含む。
ユーザ端末20の制御部204は、複数のタスク情報を選択可能にユーザに提示するタスク提示ステップを実行する。
具体的に、サーバ10の文書処理部1042は、タスクマスタ1021を参照してタスクID、タスク種別の項目を取得し、ユーザ端末20へ送信する。ユーザ端末20の制御部204は、受信した複数のタスク種別を選択可能な態様でタスク選択欄D101に表示する。例えば、ユーザ端末20の制御部204は、タスク選択欄D101に表示される複数のタスク種別のそれぞれを、タスク種別を選択するためのラジオボタンと関連付けてユーザに対して提示する。
具体的に、ユーザは、ユーザ端末20の入力装置206を操作することにより、タスク選択欄D101に表示されている複数のタスク種別から特許文書に対して実行する所定のタスク種別を選択する。
具体的に、ユーザは、分類付与タスク、スクリーニングタスク、該非判定タスク、発明評価タスク、などのタスク種別から、所定のタスク種別を選択することができる。なお、複数のタスク種別を選択できる構成としても良い。
また、タスク情報は選択により受け付ける構成はなく、後述するクエリ受付ステップにおいて受け付けたクエリの内容に基づき特定される構成としても良い。
また、タスク選択欄D101に代えて、ユーザがタスク情報、タスク種別等を入力可能なタスク入力欄を設けても良い、ユーザは、タスク入力欄に、分類付与タスク、スクリーニングタスク、該非判定タスク、発明評価タスクなどのタスク情報を示す情報を入力し、ユーザ端末20の制御部204またはサーバ10の文書処理部1042がタスク種別を受け付ける構成としても構わない。
サーバ10の文書処理部1042は、特許文書に対して適用されるクエリ情報を受け付けるクエリ受付ステップを実行する。
具体的に、ユーザは、ユーザ端末20の入力装置206を操作することにより、クエリ入力欄D102に特許文書に対して適用するクエリに関する文字列を入力する。例えば、ユーザは、ユーザ端末20の入力装置206を操作することにより、ステップS501において選択されたタスク種別に応じて、以下のようなクエリをクエリ入力欄D102に入力する。
分類Aは、情報処理機器に関する分類である。
分類Bは、農機具に関する分類である。
分類Cは、食料品に関する分類である。
クエリ例1)・・・手段と、・・・手段と、・・・を備える装置
クエリ例2)・・・工程と、・・・工程と、・・・を備える方法
クエリ例3)・・・ステップと、・・・ステップと、・・・を実行するプログラム
クエリ例1)・・・手段と、・・・手段と、・・・を備える装置
クエリ例2)・・・工程と、・・・工程と、・・・を備える方法
クエリ例3)・・・ステップと、・・・ステップと、・・・を実行するプログラム
革新性:Aランクとは・・・、Bランクとは・・・、Cランクとは・・・
経済性:Aランクとは・・・、Bランクとは・・・、Cランクとは・・・
サーバ10の文書処理部1042は、特許に関する特許文書を取得する文書取得ステップを実行する。
具体的に、ユーザは、ユーザ端末20の入力装置206を操作することにより、文書入力欄D103に特許文書の文書IDを入力する。なお、特許文書は文書テーブル1013における文書IDにより指定される必要はなく、ユーザは、文書入力欄D103に、公開特許公報等の特許番号、特許文書ごとの要約、特許請求の範囲および特許明細書等の特許文書の内容を入力しても良い。ユーザは、ユーザ端末20の記憶部201に記憶された、Word、Excel、CSVファイル等に含まれる特許文書の情報をアップロード対象として直接選択できる構成としても構わない。ユーザは、任意の手段により所定の特許文書をサーバ10へ送信できる構成であればどのような手段であっても良い。
なお、ユーザは、ユーザ端末20の入力装置206を操作することにより、複数の特許文書をサーバ10に対して送信する構成としても良い。ユーザは、ユーザ端末20の入力装置206を操作することにより、文書入力欄D103に複数の特許文書の文書IDを入力しても良い。また、ユーザは、複数の特許文書の情報を含むExcel、CSVファイル等をサーバ10へ送信しても良い。
ステップS101において、母集団受付ステップは、第1母集団に関する第1母集団情報を受け付けるステップと、第1母集団情報から、第2記憶ステップにおいて第2出力結果と関連付けて記憶された1または複数の特許文書を除いた1または複数の特許文書を含む第2母集団に関する第2母集団情報を受け付けるステップと、を含む。
具体的に、文書処理をステップS109まで実行した後に、再度ステップS101を実行する場合(2回目以降に実行される際)には、母集団データに含まれる特許文書から、第2支援テーブル1016において第2出力値と関連付けられた第2文書IDにより特定される特許文書を除外して新たな母集団として受け付ける。
これにより、学習モデルによる第2処理結果の品質が好適ではない特許文書に対して改めて第1処理および第2処理を実行することができる。最初に与えた母集団から、第2処理結果の品質が好適である特許文書は徐々に除かれていくため、最初に与えた母集団に含まれる複数の特許文書に対して徐々に第1処理、第2処理を適用することができる。母集団に対して可能な限り第2処理を適用することにより、第1処理の適用を抑制することができる。
具体的に、文書処理をステップS109まで実行した後に、再度ステップS101を実行する場合(2回目以降に実行される際)には、母集団データに含まれる特許文書から、教師テーブル1017において教師ラベルと関連付けられた教師文書IDにより特定される特許文書、および、第2支援テーブル1016において第2出力値と関連付けられた第2文書IDにより特定される特許文書を除外して新たな母集団として受け付けても良い。
同様に、母集団データに含まれる特許文書から、第1支援テーブル1015において第1出力値と関連付けられた第1文書IDにより特定される特許文書を除外して新たな母集団として受け付けても良い。
これにより、第1出力結果または第1出力結果に基づき教師データが与えられた特許文書と、第2処理結果の品質が好適である特許文書と、を除く特許文書に対して改めて第1処理および第2処理を実行することができる。最初に与えた母集団から、教師データが与えられた、または、第2処理結果の品質が好適である特許文書は徐々に除かれていくため、最初に与えた母集団に含まれる複数の特許文書に対して徐々に第1処理、第2処理を適用することができる。母集団に対して可能な限り第2処理を適用することにより、第1処理の適用を抑制することができる。
ステップS102において、サーバ10の文書処理部1042は、母集団受付ステップにおいて受け付けた母集団に含まれる複数の特許文書のうち、第1特許文書を抽出する第1特許抽出ステップを実行する。
具体的に、サーバ10の文書処理部1042は、ステップS101において母集団テーブル1014に記憶された母集団データに含まれる複数の特許文書から、一部の特許文書(第1特許文書)を無作為(ランダム)に抽出する(サンプリングを行う)。
例えば、本開示において第1特許文書は母集団データに含まれる複数の特許文書に対して実行される処理の教師データを作成するためのものであるので、母集団データに含まれる複数の特許文書のうち10~20%の抽出割合で特許文書を抽出する。
例えば、母集団データに含まれる特許文書の件数が1000件である場合には、100~200件の特許文書を抽出する。
ステップS102において、第1特許抽出ステップは、母集団受付ステップにおいて受け付けた母集団に含まれる複数の特許文書を複数のグループに分けるステップと、複数のグループのそれぞれから、1または複数の特許文書を第1特許文書として抽出するステップと、を含む。
具体的に、サーバ10の文書処理部1042は、ステップS101において母集団テーブル1014に記憶された母集団データに含まれる複数の特許文書に対してクラスタリング処理を実行する。具体的に、サーバ10の文書処理部1042は、複数の特許文書の文書内容(特許請求の範囲、要約、発明の詳細な説明、実施例、実施形態、その他、明細書等のテキストデータや、図面等の画像データ)の類似度に基づき、複数の特許文書に対するクラスタリング処理を実行する。例えば、クラスタリング処理は、k平均法(k-means)、階層的クラスタリング、DBSCAN、スペクトラルクラスタリングなど、任意の手法を用いることができる。これにより、母集団データに含まれる複数の特許文書を、グループA、グループB、グループC・・・などのグループ(クラスタ)に分類することができる。
サーバ10の文書処理部1042は、それぞれのグループから所定数の特許文書を抽出する。具体的に、サーバ10の文書処理部1042は、母集団データに含まれる複数の特許文書の数の10~20%を総数として、当該総数をグループ数で割った数の特許文書を、それぞれのグループから抽出する。
例えば、母集団データに含まれる特許文書の件数が1000件である場合において、グループがA、B、C、Dの4つである場合には、抽出する特許文書の総数が100件である場合には各グループから25件ずつ特許文書を抽出する。同様に、抽出する特許文書の総数が200件である場合には各グループから50件ずつ特許文書を抽出する。なお、グループからの特許文書の抽出は無作為(ランダム)に抽出することが好適である。
これにより、母集団に含まれる特許文書の内容に偏りが合った場合においても、グループごとに所定数の特許文書をサンプリングすることにより、母集団に含まれる特許文書の表現空間の全域にわたってバランス良く第1処理を適用することができる。例えば、ユーザは、母集団に含まれる特許文書の表現空間の全域にわたってバランス良く教師データを準備することができる。これにより、第2処理を品質良く行うことができるとともに、処理時間や処理費用を節約することができる。
なお、グループごとに抽出する第1特許文書の件数は所定の定まった数でも良いし、グループに含まれる特許文書の件数や、グループごとの件数割合に応じた所定数の第1特許文書を抽出する構成としても良い。
ステップS102において、第1特許抽出ステップは、第1母集団情報から、第1割合に応じた数の第1特許文書を抽出するステップと、第2母集団情報から、第2割合に応じた数の第1特許文書を抽出するステップと、を含む。
具体的に、文書処理をステップS109まで実行した後に、再度ステップS101を実行する場合(2回目以降に実行される際)には、1回目のステップS102において母集団からP%(第1割合)の割合の第1特許文書を抽出し、2回目のステップS102において母集団からP%とは異なるQ%(第2割合)の割合の第1特許文書を抽出するものとする。
この場合、第2処理結果の品質が好適ではない特許文書が多い場合には、処理の収束性が悪いことが考えられる。第2割合を第1割合より大きくすると、母集団のうち大規模言語モデルにより処理される特許文書の割合が増えることから、第2処理に用いる教師データを増加させることができ、第2処理結果の品質が好適ではない特許文書の割合を減らすことができる。これにより、本開示における処理の処理回数を減らすことにより、トータルの処理時間を短縮させることができる場合がある。
この場合、第2割合を第1割合より小さくすると、母集団のうち大規模言語モデルにより処理される特許文書の割合が減ることから、第1処理に伴う処理費用を節約することができる。
ステップS103において、第1特許文書に基づく大規模言語モデルに処理を実行させるための入力データであるプロンプトを作成するステップを実行する。
本開示においては、一例として1の特許文書を入力した場合の処理を以下に説明する。なお、サーバ10の文書処理部1042は、第1特許文書に含まれる複数の特許文書のそれぞれに対してプロンプト生成ステップを実行する。
ステップS103において、サーバ10の文書処理部1042は、大規模言語モデルに、第1特許抽出ステップにおいて抽出した第1特許文書を含むプロンプトを生成するプロンプト生成ステップを実行する。プロンプト生成ステップは、第1文書の読解を支援するための支援情報を含む補足情報を大規模言語モデルに出力させるためのプロンプトを生成するステップを含んでも良い。
具体的に、サーバ10の文書処理部1042は、母集団テーブル1014の対象レコードのタスクIDに基づき、タスクマスタ1021のタスクIDの項目を検索し、抽出項目、タスクデータの項目を取得する。サーバ10の文書処理部1042は、第1支援テーブル1015の対象レコードの第1文書IDに基づき、文書テーブル1013の文書IDの項目を検索し文書内容(特許請求の範囲、要約、発明の詳細な説明、実施例、実施形態などの特許文書の内容)を取得する。サーバ10の文書処理部1042は、取得した抽出項目に基づき、文書内容のうち所定の抽出箇所(抽出内容、部分文章)を抽出する。なお、抽出箇所の抽出は行わなくても構わない。
サーバ10の文書処理部1042は、取得したタスクデータ、母集団テーブル1014の対象レコードのクエリデータ、抽出した抽出箇所に基づきプロンプトを生成する。サーバ10の文書処理部1042は、生成したプロンプトを第1支援テーブル1015のプロンプトの生成対象となる特許文書の文書IDにより特定される第1支援情報のレコードのプロンプトの項目に記憶する。つまり、サーバ10の文書処理部1042は、第1支援テーブル1015に記憶されている第1支援情報のそれぞれに対してプロンプトを生成し、関連付けて記憶する。
ステップS103において、プロンプト生成ステップは、第1特許文書および分類ルールが規定された分類定義文章を含み、第1特許文書の分類に関する第1分類情報を大規模言語モデルに出力させるためのプロンプトを生成するステップを含む。
なお、本開示においては、分類付与タスク、スクリーニングタスク、該非判定タスク、発明評価タスクを一例として開示するが、適用可能な処理およびタスクはこれらに限られない。大規模言語モデルが取り扱うことが可能な任意のタスクに適用できる。
以下のように技術分類を定義します。以下の「対象特許」に記載された発明が分類A、B、Cのいずれかに分類してください。対象特許と分類との関連度を0~100の間で算定してください。そのように判断した理由を出力してください。
#技術分類:
分類Aは、情報処理機器に関する分類である。
分類Bは、農機具に関する分類である。
分類Cは、食料品に関する分類である。
#対象特許:
〔要約書〕
・・・
〔特許請求の範囲〕
・・・
以下の「ターゲット発明」に記載された発明が、以下の「対象特許」に記載された発明に記載されているか否かの検討をしてください。ターゲット発明と対象特許との関連度を0~100の間で算定してください。そのように判断した理由を出力してください。
#ターゲット発明:
・・・手段と、・・・手段と、・・・を備える装置
#対象特許:
〔要約書〕
・・・
〔特許請求の範囲〕
・・・
〔明細書〕
・・・
以下の「対象製品」に記載された製品、サービス等が、以下の「対象特許」に記載された発明の権利範囲に含まれるか否かの検討をしてください。対象製品と対象特許との関連度を0~100の間で算定してください。そのように判断した理由を出力してください。
#対象製品:
・・・手段と、・・・手段と、・・・を備える装置
#対象特許:
〔請求項1〕
・・・
以下の「対象特許」に記載された発明を、以下の評価項目ごとの評価基準に従って評価してください。
#評価項目・評価基準:
革新性:Aランクとは・・・、Bランクとは・・・、Cランクとは・・・
経済性:Aランクとは・・・、Bランクとは・・・、Cランクとは・・・
#対象特許:
〔請求項1〕
・・・
プロンプト生成ステップ(第二実施形態)において分類付与タスクや発明評価タスクを実行する場合には、予め分類定義および評価項目・評価基準を定義しておく必要がある。
サーバ10の文書処理部1042は、母集団受付ステップにおいて受け付けた母集団に含まれる複数の特許文書のうち、第3特許文書を抽出する第3特許抽出ステップを実行しても良い。これら分類定義および評価項目・評価基準も、人工知能システム40を用いることにより作成することができる。
以下、主に分類付与タスクにおける分類定義の作成方法について説明するがこれに限られない。同様に、発明評価タスクにおける評価項目・評価基準を人工知能システム40により作成しても良い。
具体的に、サーバ10の文書処理部1042は、ステップS101において母集団テーブル1014に記憶された母集団データに含まれる複数の特許文書から、一部の特許文書(第3特許文書)を無作為(ランダム)に抽出する(サンプリングを行う)。なお、特許文書の抽出はステップS102における第1特許文書の抽出と同様の処理を実行しても良い。
サーバ10の文書処理部1042は、抽出した第3特許文書に含まれる複数の特許文書の文書内容と、分類観点が規定された分類観点文章と、に基づき以下のようなプロンプトを作成する。これにより、サーバ10の文書処理部1042は、抽出した複数の特許文書のそれぞれに対してプロンプトを作成する。
以下の「対象特許」に記載された発明を以下の分類観点に従い分類してください。
#分類観点:
技術分野、用途、課題、目的、構成、解決手段、効果
〔要約書〕
・・・
〔特許請求の範囲〕
・・・
サーバ10の文書処理部1042は、送信したプロンプトに対するレスポンスを受信する。レスポンスは、プロンプトに対する回答内容に関する文字列を含む。具体的に、分類作成タスクにおいて以下のような回答内容が得られる。
なお、本開示においては一例として以下のような回答内容を説明するが、回答内容は「分類名」に関するフィールド(key)を有するJSON等の構造化されたデータで受信する構成が好適である。例えば、ChatGPTと呼ばれる大規模言語モデル(LLM)では、Function Callingという機能を用いることにより、回答結果を構造化(型付け)されたデータとすることができる。
なお、回答内容は、複数の特許文書のそれぞれに作成したプロンプトに対して、複数の特許文書のそれぞれに対する回答内容(複数の特許文書ごとの回答内容)が得られる。
#分類観点1:技術分野
#分類名:半導体技術
#理由:要約書において、・・・
#分類観点2:目的
#分類名:微細化
#理由:要約書において、・・・
具体的に、サーバ10の文書処理部1042は、1または複数の特許文書に対して人工知能システム40から回答結果として取得した複数の分類名に基づき、以下のようなプロンプトを作成する。分類名A、分類名B、分類名Cには、例えば、「半導体技術」「微細化」「高集積化」などの分類作成タスクにおいて作成した分類名(分類ラベル)が入力される。
以下の「分類名」に記載された分類ラベルを分類観点により大括り化することにより分類定義を作成してください。
#分類名:〔分類名A〕〔分類名B〕〔分類名C〕・・・
サーバ10の文書処理部1042は、送信したプロンプトに対するレスポンスを受信する。レスポンスは、プロンプトに対する回答内容に関する文字列を含む。具体的に、分類定義タスクにおいて以下のような回答内容(分類定義)が得られる。
このように、第3特許文書に含まれる複数の特許文書に対して人工知能システム40を適用することにより作成した分類名を用いて、分類定義を自動的に作成することができる。このように得られた分類定義を、既に説明した分類付与タスクのクエリとして用いることができる。これにより、分類定義を人手により用意することなしに、複数の特許文書を含む母集団に含まれる複数の特許文書を自動的に分類することができる。
#分類名1:半導体の高性能化技術
#分類の説明:半導体の性能を高性能化させる技術に関する発明
#小分類:配線の工夫、高集積化の工夫、・・・
#分類名2:半導体の低コスト化技術
#分類の説明:半導体の設計、製造コストを低下させる技術に関する発明
#小分類:材料の工夫、加工処理の工夫、・・・
ステップS104において、サーバ10の文書処理部1042は、大規模言語モデルに、第1特許抽出ステップにおいて抽出した第1特許文書を含むプロンプトを入力することに応じて出力される第1出力結果を取得する第1処理ステップを実行する。
ステップS104において、第1処理ステップは、大規模言語モデルに、第1特許文書および分類ルールが規定された分類定義文章を含むプロンプトを入力することに応じて出力される第1特許文書の分類に関する第1分類情報を取得するステップを実行する。
ステップS104において、第1処理ステップは、分類定義取得ステップにおいて取得した分類定義文章に基づき第1分類情報を取得するステップを実行する。
サーバ10の文書処理部1042は、送信したプロンプトに対するレスポンスを受信する。レスポンスは、プロンプトに対する回答内容に関する文字列を含む。具体的に、分類付与タスク、スクリーニングタスク、該非判定タスク、発明評価タスクのそれぞれのタスクに応じて、分類付与結果、スクリーニング結果、該非判定結果、発明評価結果のそれぞれの回答内容に関する文字列が人工知能システム40から出力される。
例えば、回答内容は以下のような情報を含む。なお、本開示においては一例として以下のような回答内容を説明するが、回答内容は「分類名」などのフィールド(key)を有するJSON等の構造化されたデータで受信する構成が好適である。例えば、ChatGPTと呼ばれる大規模言語モデル(LLM)では、Function Callingという機能を用いることにより、回答結果を構造化(型付け)されたデータとすることができる。
なお、回答内容は、複数の特許文書のそれぞれに作成したプロンプトに対して、複数の特許文書のそれぞれに対する回答内容(複数の特許文書ごとの回答内容)が得られる。
サーバ10の文書処理部1042は、回答結果を第1支援テーブル1015のプロンプトの生成対象となる特許文書の文書IDにより特定される第1支援情報のレコードの第1出力値の項目に記憶する。
#分類:A
#関連度:80
#理由:
対象特許は、構成・・、構成・・・を備えている。一方、対象特許は、構成・・、構成・・・を備えていない。分類Aの分類定義に合致しており、分類B、分類Cの分類定義に合致しない。分類Aとの関連度は80程度である。
#関連度:40
#理由:
ターゲット発明は、対象特許と、・・・の観点で一致しており、・・・の観点で相違する。
相違する部分が大きく、対象特許との関連度は40程度である。
#関連度:20
#理由:
対象製品は、対象特許と、・・・の観点で一致しており、・・・の観点で相違する。
対象製品は、対象特許の権利範囲には含まれない。対象特許との関連度は20程度である。
#革新性:Bランク
#理由:対象特許は、・・・などの構成を備えており、・・・
#経済性:Aランク
#理由:対象特許は、・・・などの構成を備えており、・・・
ステップS105において、サーバ10の文書処理部1042は、第1処理ステップにおいて取得した第1出力結果をユーザに提示する第1提示ステップを実行する。
具体的に、サーバ10の文書処理部1042は、受信した回答内容をユーザ端末20へ送信する。ユーザ端末20の制御部204は、受信した回答内容をユーザ端末20のディスプレイ2081に表示する。なお、ユーザは、ユーザ端末20の入力装置206を操作することにより、回答結果にかかる情報をWord、Excel、CSVファイル等のファイル形式でダウンロード可能な構成としても良い。
サーバ10の文書処理部1042は、指標値および根拠に加えて、特許文書の抽出箇所をユーザに提示しても良い。これにより、ユーザは特許文書のどの箇所に基づき指標値がどのような根拠で算定されたのか確認することができる。
また、ユーザは、ユーザ端末20の入力装置206を操作することにより、複数の特許文書の文書ID、公報番号、文書名等の文書を特定する情報と、それぞれの文書ごとに生成されたプロンプト、当該プロンプトに応じて人工知能システム40から受信した回答内容が記憶されたWord、Excel、CSVファイル等のファイルをダウンロード可能な構成としても良い。
ステップS106において、サーバ10の文書処理部1042は、ユーザから、第1提示ステップにおいて提示した第1出力結果に対する入力操作を受け付け、入力操作に応じて第1特許文書に関する教師データを作成する教師データ作成ステップを実行する。
具体的に、ユーザは、ユーザ端末20の入力装置206を操作することにより、ユーザ端末20のディスプレイ2081に表示し提示した第1出力結果を編集することができる。具体的に、ユーザは、ユーザ端末20の入力装置206を操作することにより第1出力結果の内容を修正したり削除することができる。ユーザは、ユーザ端末20の入力装置206を操作することにより第1出力結果に対する修正および削除などの編集内容をサーバ10へ送信する。
大規模言語モデルから出力された第1出力値の内容は誤った内容、不正確な情報が含まれていることも多いため、ユーザは第1出力値の内容を修正、編集、削除することにより第1出力値に基づく教師データを作成することが好適である。
具体的に、サーバ10の文書処理部1042は、ユーザ端末20から受信した編集内容に基づき、第1文書IDと、修正、編集した第1出力結果と、を関連付けて、教師テーブル1017の新たなレコードの教師文書ID、教師ラベルの項目に記憶する。なお、ユーザは、第1出力値の内容が妥当である場合において、第1文書ID、第1出力結果をそのままサーバ10へ送信し、サーバ10の文書処理部1042受信した第1文書ID、第1出力結果を、教師テーブル1017の教師文書ID、教師ラベルの項目に記憶する。
これにより、ユーザは第1出力結果を参考に、少ない作業負荷で教師データを作成することができる。第2処理は、第1出力結果をそのまま教師データとして用いた場合に比べ、ユーザにより作成および編集された教師データに基づき実行されるため、より品質が高い処理結果が期待される。
ステップS107において、サーバ10の文書処理部1042は、母集団受付ステップにおいて受け付けた母集団に含まれる複数の特許文書のうち、第2特許文書を抽出する第2特許抽出ステップを実行する。
具体的に、サーバ10の文書処理部1042は、ステップS101において母集団テーブル1014に記憶された母集団データに含まれる複数の特許文書のすべてを第2特許文書として抽出する。
なお、サーバ10の文書処理部1042は、母集団データに含まれる複数の特許文書のうち、教師テーブル1017の教師文書IDの項目により特定される特許文書を除いて第2特許文書を特定しても良い。
同様に、サーバ10の文書処理部1042は、母集団データに含まれる複数の特許文書のうち、第1支援テーブル1015の第1文書IDの項目により特定される特許文書を除いて第2特許文書を特定しても良い。
その他、サーバ10の文書処理部1042は、複数の特許文書から、一部の特許文書(第1特許文書)を無作為(ランダム)に抽出し(サンプリングを行い)、第2特許文書としても構わない。なお、サンプリング処理については、ステップS102におけるサンプリングステップと同様の処理を実行しても構わない。詳細な説明は省略する。
ステップS108において、サーバ10の文書処理部1042は、分類モデル1051の学習処理を実行する。分類モデル1051の学習処理を以下に説明する。
分類モデル1051の学習処理は、分類モデル1051に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
分類モデル1051の学習処理は、特許文書の文書内容(母集団情報のタスクIDを参照して、タスクマスタ1021の抽出項目に基づき抽出される抽出箇所としても良い、その他、特許請求の範囲、要約、発明の詳細な説明、実施例、実施形態等の任意の抽出箇所としても構わない)を入力データ(入力ベクトル)として、教師ラベル(第1出力結果)を出力データ(教師データ)となるように、分類モデル1051に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
サーバ10の制御部104は、教師文書ID、教師ラベルを含む教師情報を教師テーブル1017から取得する。サーバ10の文書処理部1042は、教師文書IDに基づき、文書テーブル1013の文書IDの項目を検索し、文書内容を取得する。サーバ10の文書処理部1042は、タスクマスタ1021の抽出項目に基づき文書内容から抽出箇所を抽出することが好適である。つまり、ステップS104において第1出力値を取得した際の入力データと同じになるように、特許文書から所定の抽出箇所を抽出することが好適である。
サーバ10の制御部104は、文書内容、抽出箇所などを入力データ(入力ベクトル)として、教師ラベルを出力データ(教師データ)となるよう、学習データを作成する。
サーバ10の制御部104は、学習データに基づき、分類モデル1051のディープニューラルネットワークを学習させるための訓練データ、テストデータ、検証データなどのデータセットを作成する。
サーバ10の制御部104は、作成したデータセットに基づき分類モデル1051に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる。
ステップS108において、第2特許文書に基づく入力データを分類モデル1051に入力することにより、第2出力値を取得するステップを実行する。
本開示においては、一例として1の特許文書を入力した場合の処理を以下に説明する。なお、サーバ10の文書処理部1042は、第2特許文書に含まれる複数の特許文書のそれぞれに対して第2出力値取得ステップを実行する。
ステップS108において、第2処理ステップは、分類モデルである学習モデルに、第2特許文書を入力することに応じて出力される第2特許文書の分類に関する第2分類情報を取得するステップを実行する。
第2処理ステップは、学習モデルに、第2特許文書を入力することに応じて出力される第2特許文書に含まれる1または複数の特許文書に対する分類の品質を示す第2品質情報を取得するステップを含み。
サーバ10の文書処理部1042は、第2処理ステップにおいて取得した第2品質情報が所定の条件を満たす場合に、第2特許文書に含まれる1または複数の特許文書の少なくとも一部を、第2分類情報と関連付けて記憶する第2分類記憶ステップを実行する。
具体的に、サーバ10の文書処理部1042は、母集団テーブル1014の対象レコードのタスクIDに基づき、タスクマスタ1021のタスクIDの項目を検索し、抽出項目の項目を取得する。サーバ10の文書処理部1042は、第2支援テーブル1016の対象レコードの第2文書IDに基づき、文書テーブル1013の文書IDの項目を検索し文書内容(特許請求の範囲、要約、発明の詳細な説明、実施例、実施形態などの特許文書の内容)を取得する。サーバ10の文書処理部1042は、取得した抽出項目に基づき、文書内容のうち所定の抽出箇所(抽出内容、部分文章)を抽出する。なお、抽出箇所の抽出は行わなくても構わない。
サーバ10の文書処理部1042は、文書内容または抽出箇所を分類モデル1051の入力データとして入力する。なお、サーバ10の文書処理部1042は、文書内容または抽出箇所に対して形態素解析などの処理を適用することにより抽出したキーワード等を分類モデル1051の入力データとして入力しても良い。
分類モデル1051は、入力データの入力に応じて、分類ラベル(文字列)および精度等の入力データを分類ラベルへ分類する際の分類処理の品質を示す指標(品質指標)を出力する。具体的に、精度とは、分類モデル1051がどの程度正確に分類ラベルを予測したかを示す指標である。精度とは、分類モデル1051が正しく予測したサンプルの数を全サンプル数で割ったものである。精度は0から1の間の値を取り、パーセンテージ(0%から100%)で表すことができる。分類処理の品質を示す指標は、混同行列(Confusion Matrix)、適合率(Precision)、再現率(Recall)、F1スコアなどを含む。
例えば、ある特定の特許文書Aに対して、分類モデル1051は、「分類ラベル:半導体技術(精度0.7)」などの第2出力値を出力する。
第2記憶ステップを実行する。
具体的に、サーバ10の文書処理部1042は第2特許文書に含まれる複数の特許文書のそれぞれに対して分類ラベル、品質指標を取得する。サーバ10の文書処理部1042は、品質指標を所定値である精度閾値と比較し、精度閾値以上の場合という条件を満たしている場合に、取得した分類ラベル、品質指標を、第2支援テーブル1016の処理対象の文書IDに基づき特定される特許文書のレコードの第2出力値、精度の項目に記憶する。
つまり、サーバ10の文書処理部1042は、分類モデル1051から出力された第2出力結果のすべてを第2支援テーブル1016に記憶せずに、品質指標が所定の条件を充足した第2出力結果のみを第2支援テーブル1016に記憶する。つまり、第2出力結果の品質指標が不十分な場合には、第2支援テーブル1016に記憶しない。この場合、2回目以降の文書処理において分類モデル1051の学習が十分に進むと第2出力結果の品質指標が十分な値となり、第2支援テーブル1016に記憶されることになる。
サーバ10の文書処理部1042は、第2支援テーブル1016に記憶されている第2支援情報のうち、品質指標が所定の条件を充足しない第2支援情報のレコード(第2文書IDのみが記憶されており、第2出力値、精度の値がブランク)を削除しても良い。
ステップS108において、サーバ10の文書処理部1042は、第1処理ステップにおいて取得した第1出力結果に基づく情報を教師データとして学習させた学習モデルに、第2特許抽出ステップにおいて抽出した第2特許文書を入力することに応じて出力される第2出力結果を取得する第2処理ステップを実行する。
第2処理ステップは、教師データ作成ステップにおいて作成した教師データに基づき学習した学習モデルに、第2特許文書を入力することに応じて出力される第2出力結果を取得するステップを実行する。
第2処理ステップは、学習モデルに、第2特許文書を入力することに応じて出力される第2特許文書に含まれる1または複数の特許文書に対する処理の品質を示す第2品質情報を取得するステップを含む。
具体的に、本開示においては分類モデル1051により第2出力値が出力される事例を一例としたがこれに限られない。
例えば、分類モデル1051に代えて、特許文書の文書内容、抽出箇所の入力に応じて、対象特許との関連度、当該関連度に関する品質指標(精度等)を出力するスクリーニングモデルを用いても良い。この場合、スクリーニングモデルは、スクリーニングタスクの場合の回答内容(第1出力値)に基づく教師データを用いて学習される。スクリーニングモデルは、第2特許文書の特許文書の文書内容、抽出箇所の入力に応じて、対象特許との関連度と、当該関連度に関する品質指標(精度等)を出力する。例えば、ある特定の特許文書Aに対して、スクリーニングモデルは、「関連度:80%(精度0.7)」などの第2出力値を出力する。
例えば、分類モデル1051に代えて、特許文書の文書内容、抽出箇所の入力に応じて、対象製品との関連度、当該関連度に関する品質指標(精度等)を出力する該非判定モデルを用いても良い。この場合、該非判定モデルは、該非判定タスクの場合の回答内容(第1出力値)に基づく教師データを用いて学習される。該非判定モデルは、第2特許文書の特許文書の文書内容、抽出箇所の入力に応じて、対象製品との関連度と、当該関連度に関する品質指標(精度等)を出力する。例えば、ある特定の特許文書Aに対して、該非判定モデルは、「関連度:80%(精度0.7)」などの第2出力値を出力する。
例えば、分類モデル1051に代えて、特許文書の文書内容、抽出箇所の入力に応じて、対象発明の評価項目ごとの評価値(評価ランク)、評価項目ごとの評価値(評価ランク)に関する品質指標(精度等)を出力する発明評価モデルを用いても良い。この場合、発明評価モデルは、発明評価タスクの場合の回答内容(第1出力値)に基づく教師データを用いて学習される。発明評価モデルは、第2特許文書の特許文書の文書内容、抽出箇所の入力に応じて、評価項目ごとの評価値(評価ランク)と、当該関連度に関する品質指標(精度等)を出力する。例えば、ある特定の特許文書Aに対して、発明評価判定モデルは、「革新性:Aランク(精度0.7)、経済性:Bランク(精度0.6)、」などの第2出力値を出力する。
ステップS108において、第2記憶ステップは、母集団受付ステップにおいて受け付けた母集団情報が第1母集団情報である場合は、第2品質情報が第1条件を満たす場合に、第2特許文書に含まれる1または複数の特許文書の少なくとも一部を第2出力結果と関連付けて記憶し、第2品質情報が第1条件を満たさない場合に、第2特許文書に含まれる1または複数の特許文書の少なくとも一部を第2出力結果と関連付けて記憶しない、母集団受付ステップにおいて受け付けた母集団情報が第2母集団情報である場合は、第2品質情報が第2条件を満たす場合に、第2特許文書に含まれる1または複数の特許文書の少なくとも一部を第2出力結果と関連付けて記憶し、第2品質情報が第2条件を満たさない場合に、第2特許文書に含まれる1または複数の特許文書の少なくとも一部を第2出力結果と関連付けて記憶しない、ステップを含む。
具体的に、文書処理をステップS109まで実行した後に、再度ステップS108を実行する場合(2回目以降に実行される際)には、精度閾値を1回目の精度閾値Sと2回目の精度閾値Tとで異なる値としても良い。サーバ10の文書処理部1042は、第2特許文書に含まれる複数の特許文書に対して出力された第2出力結果のうち、精度閾値(S、T)に基づく第2条件を満たす第2出力結果を第2支援テーブル1016に記憶し、第2条件を満たさない第2出力結果を第2支援テーブル1016に記憶しないものとしても良い。
サーバ10の文書処理部1042は、第2支援テーブル1016に記憶されている第2支援情報のうち、第2出力結果が所定の条件を充足しない第2支援情報のレコード(第2文書IDのみが記憶されており、第2出力値、精度の値がブランク)を削除しても良い。
これにより、複数回にわたって第1処理、第2処理を実行する場合において、第2処理結果の品質に関する条件が徐々に厳しくなる。最終的に得られる処理品質を向上させることができる。
これにより、複数回にわたって第1処理、第2処理を実行する場合において、第2処理結果の品質に関する条件が徐々に緩くなる。トータルの処理時間を短縮したり処理費用を節約することができる。
ステップS109において、サーバ10の文書処理部1042は、ステップS101において受け付けた母集団に含まれる特許文書のうち、第1出力結果、教師データ、または、第2出力結果と関連付けられて記憶されていない特許文書の有無を判定する未処理文書判定ステップを実行する。
具体的に、サーバ10の文書処理部1042は、ステップS101において母集団テーブル1014に記憶された母集団データに含まれる複数の特許文書の文書IDに基づき、第2支援テーブル1016の第2文書IDの項目を検索し、取得する。このとき、第2支援テーブル1016において第2出力値の項目に値が記憶されているレコードのみを検索対象とする。
サーバ10の文書処理部1042は、母集団データに含まれる複数の特許文書の文書IDと、取得した第2文書IDとを比較し、母集団データに含まれる複数の特許文書の文書IDのすべてが取得した第2文書IDに含まれている場合に、未処理文書が存在しないものと判定する。
サーバ10の文書処理部1042は、教師テーブル1017の教師文書IDの項目を取得し、母集団データに含まれる複数の特許文書の文書IDと、取得した第2文書IDおよび教師文書IDとを比較し、母集団データに含まれる複数の特許文書の文書IDのすべてが取得した第2文書IDおよび教師文書IDに含まれている場合に、未処理文書が存在しないものと判定しても良い。つまり、教師ラベルが付与されている特許文書は、未処理文書の判定対象から除外しても良い。
サーバ10の文書処理部1042は、第1支援テーブル1015の第1文書IDの項目を取得し、母集団データに含まれる複数の特許文書の文書IDと、取得した第2文書IDおよび第1文書IDとを比較し、母集団データに含まれる複数の特許文書の文書IDのすべてが取得した第2文書IDおよび第1文書IDに含まれている場合に、未処理文書が存在しないものと判定しても良い。つまり、第1支援テーブル1015に第1出力値が記憶されている特許文書は、未処理文書の判定対象から除外しても良い。
つまり、サーバ10の文書処理部1042は、文書作成処理において未処理文書が存在する限りステップS101~S109までの各ステップは自動的に反復的に実行する(iterateする)。
ステップS110において、サーバ10の文書処理部1042は、母集団受付ステップにおいて受け付けた母集団情報のうち、第1記憶ステップにおいて第1出力結果に基づく情報と関連付けて記憶された1または複数の特許文書と、第2記憶ステップにおいて第2出力結果と関連付けて記憶された1または複数の特許文書と、を除く特許文書が存在しない場合に処理を終了する処理終了ステップを実行する。
これにより、母集団受付ステップにおいて受け付けた母集団に含まれるすべての特許文書に対して第1処理結果に基づく情報(教師データ)、第2処理結果とが関連付けて記憶されるまで、第1処理および第2処理等が反復的に実行される。
サーバ10の文書処理部1042は、文書処理のステップS101~S109を反復的に実行することにより、母集団データに含まれるすべての特許文書に対する処理結果が、教師テーブル1017、第2支援テーブル1016、第1支援テーブル1015に記憶される。
本開示の文書処理により、多量の教師データを用意することなしに、少量の教師データ、または、教師データなしに複数の特許文書を含む母集団に対して好適な処理を適用することができる。大規模言語モデルを用いた第1処理は、第2処理に比べて高価かつ時間がかかる傾向にある。本開示により、母集団に含まれる全ての特許文書に対して第1処理を適用する必要がないため、処理時間および処理費用を節約することができる。
図14は、コンピュータ90の基本的なハードウェア構成を示すブロック図である。コンピュータ90は、プロセッサ901、主記憶装置902、補助記憶装置903、通信IF991(インタフェース、Interface)を少なくとも備える。これらは通信バス921により相互に電気的に接続される。
ネットワークは、インターネット、LAN、無線基地局等によって構築される各種移動通信システム等で構成される。例えば、ネットワークには、3G、4G、5G移動通信システム、LTE(Long Term Evolution)、所定のアクセスポイントによってインターネットに接続可能な無線ネットワーク(例えばWi-Fi(登録商標))等が含まれる。無線で接続する場合、通信プロトコルとして例えば、Z-Wave(登録商標)、ZigBee(登録商標)、Bluetooth(登録商標)等が含まれる。有線で接続する場合は、ネットワークには、USB(Universal Serial Bus)ケーブル等により直接接続するものも含む。
コンピュータ90の基本ハードウェア構成(図14)により実現されるコンピュータの機能構成を説明する。コンピュータは、制御部、記憶部、通信部の機能ユニットを少なくとも備える。
通常、各テーブル、各マスタにはレコードを一意に特定するための主キーとなるカラムが設定されるが、カラムへの主キーの設定は必須ではない。制御部は、各種プログラムに従ってプロセッサ901に、記憶部に記憶された特定のテーブル、マスタにレコードを追加、削除、更新を実行させることができる。
また、記憶部に、データ、各種プログラム、各種データベースを記憶させることにより、本開示にかかる情報処理装置、情報処理システムが製造されたものとして捉えることができる。
以上の各実施形態で説明した事項を以下に付記する。
プロセッサと、記憶部とを備えるコンピュータに実行させるためのプログラムであって、プロセッサが、複数の特許文書を含む母集団に関する母集団情報を受け付ける母集団受付ステップ(S101)と、母集団受付ステップにおいて受け付けた母集団に含まれる複数の特許文書のうち、第1特許文書を抽出する第1特許抽出ステップ(S102)と、大規模言語モデルに、第1特許抽出ステップにおいて抽出した第1特許文書を含むプロンプトを入力することに応じて出力される第1出力結果を取得する第1処理ステップ(S104)と、母集団受付ステップにおいて受け付けた母集団に含まれる複数の特許文書のうち、第2特許文書を抽出する第2特許抽出ステップ(S107)と、第1処理ステップにおいて取得した第1出力結果に基づく情報を教師データとして学習させた学習モデルに、第2特許抽出ステップにおいて抽出した第2特許文書を入力することに応じて出力される第2出力結果を取得する第2処理ステップ(S108)と、を実行するプログラム。
これにより、多量の教師データを用意することなしに、少量の教師データ、または、教師データなしに複数の特許文書を含む母集団に対して好適な処理を適用することができる。
大規模言語モデルを用いた第1処理は、第2処理に比べて高価かつ時間がかかる傾向にある。母集団に含まれる全ての特許文書に対して第1処理を適用する必要がないため、処理時間および処理費用を節約することができる。
第2処理ステップ(S108)は、学習モデルに、第2特許文書を入力することに応じて出力される第2特許文書に含まれる1または複数の特許文書に対する処理の品質を示す第2品質情報を取得するステップを含み、プロセッサが、第2処理ステップにおいて取得した第2品質情報が所定の条件を満たす場合に、第2特許文書に含まれる1または複数の特許文書の少なくとも一部を第2出力結果と関連付けて記憶し、第2処理ステップにおいて取得した第2品質情報が所定の条件を満たさない場合に、第2特許文書に含まれる1または複数の特許文書の少なくとも一部を第2出力結果と関連付けて記憶しない、第2記憶ステップ(S108)と、を実行する、付記1記載のプログラム。
これにより、第1出力結果に基づく情報を教師データとして、第2特許文書に対して処理を実行することができる。学習モデルによる第2処理結果の品質が好適なもののみを、第2特許文書に関連付けて記憶することができる。
母集団受付ステップ(S101)は、第1母集団に関する第1母集団情報を受け付けるステップと、第1母集団情報から、第2記憶ステップにおいて第2出力結果と関連付けて記憶された1または複数の特許文書を除いた1または複数の特許文書を含む第2母集団に関する第2母集団情報を受け付けるステップと、を含む、付記2記載のプログラム。
これにより、学習モデルによる第2処理結果の品質が好適ではない特許文書に対して改めて第1処理及び第2処理を実行することができる。
最初に与えた母集団から、第2処理結果の品質が好適である特許文書は徐々に除かれていくため、最初に与えた母集団に含まれる複数の特許文書に対して徐々に第1処理、第2処理を適用することができる。
母集団に対して可能な限り第2処理を適用することにより、第1処理の適用を抑制することができる。
プロセッサが、第1特許抽出ステップにおいて抽出した第1特許文書の少なくとも一部または全部を第1出力結果に基づく情報と関連付けて記憶する第1記憶ステップ(S106)と、を実行し、母集団受付ステップ(S101)は、第1母集団に関する第1母集団情報を受け付けるステップと、第1母集団情報から、第1記憶ステップにおいて第1出力結果に基づく情報と関連付けて記憶された1または複数の特許文書と、第2記憶ステップにおいて第2出力結果と関連付けて記憶された1または複数の特許文書と、を除いた1または複数の特許文書を含む第2母集団に関する第2母集団情報を受け付けるステップと、を含む、付記2記載のプログラム。
これにより、第1出力結果または第1出力結果に基づき教師データが与えられた特許文書と、第2処理結果の品質が好適である特許文書と、を除く特許文書に対して改めて第1処理および第2処理を実行することができる。
最初に与えた母集団から、教師データが与えられた、または、第2処理結果の品質が好適である特許文書は徐々に除かれていくため、最初に与えた母集団に含まれる複数の特許文書に対して徐々に第1処理、第2処理を適用することができる。
母集団に対して可能な限り第2処理を適用することにより、第1処理の適用を抑制することができる。
第1特許抽出ステップ(S102)は、第1母集団情報から、第1割合に応じた数の第1特許文書を抽出するステップと、第2母集団情報から、第2割合に応じた数の第1特許文書を抽出するステップと、を含む、付記3記載のプログラム。
これにより、複数回にわたって第1処理、第2処理を実行する場合において、第1特許文書の抽出割合を制御することができる。
処理の収束性を制御することにより処理のトータル時間を短縮したり、第1処理を適用する特許文書の割合を減らすことにより処理費用を節約することができる。
第2割合は、第1割合よりも大きい、付記5記載のプログラム。
例えば、第2処理結果の品質が好適ではない特許文書が多い場合には、処理の収束性が悪いことが考えられる。第2割合を第1割合より大きくすると、母集団のうち大規模言語モデルにより処理される特許文書の割合が増えることから、第2処理に用いる教師データを増加させることができ、第2処理結果の品質が好適ではない特許文書の割合を減らすことができる。これにより、本開示における処理の処理回数を減らすことにより、トータルの処理時間を短縮させることができる場合がある。
第2割合は、第1割合よりも小さい、付記5記載のプログラム。
第2割合を第1割合より小さくすると、母集団のうち大規模言語モデルにより処理される特許文書の割合が減ることから、第1処理に伴う処理費用を節約することができる。
第2記憶ステップ(S108)は、母集団受付ステップにおいて受け付けた母集団情報が第1母集団情報である場合は、第2品質情報が第1条件を満たす場合に、第2特許文書に含まれる1または複数の特許文書の少なくとも一部を第2出力結果と関連付けて記憶し、第2品質情報が第1条件を満たさない場合に、第2特許文書に含まれる1または複数の特許文書の少なくとも一部を第2出力結果と関連付けて記憶しない、母集団受付ステップにおいて受け付けた母集団情報が第2母集団情報である場合は、第2品質情報が第2条件を満たす場合に、第2特許文書に含まれる1または複数の特許文書の少なくとも一部を第2出力結果と関連付けて記憶し、第2品質情報が第2条件を満たさない場合に、第2特許文書に含まれる1または複数の特許文書の少なくとも一部を第2出力結果と関連付けて記憶しない、ステップを含む、付記3記載のプログラム。
これにより、複数回にわたって第1処理、第2処理を実行する場合において、第2処理結果の品質が好適であるか否かの条件をを制御することができる。
例えば、条件をより緩くすることにより、処理のトータルの処理時間を短縮したり処理費用を節約することができる。一方、条件を厳しくすることにより、処理品質を向上させることができる。
第1条件は、第2条件を含む、付記8記載のプログラム。
これにより、複数回にわたって第1処理、第2処理を実行する場合において、第2処理結果の品質に関する条件が徐々に厳しくなる。最終的に得られる処理品質を向上させることができる。
第2条件は、第1条件を含む、付記8記載のプログラム。
これにより、複数回にわたって第1処理、第2処理を実行する場合において、第2処理結果の品質に関する条件が徐々に緩くなる。トータルの処理時間を短縮したり処理費用を節約することができる。
プロセッサが、母集団受付ステップにおいて受け付けた母集団情報のうち、第1記憶ステップにおいて第1出力結果に基づく情報と関連付けて記憶された1または複数の特許文書と、第2記憶ステップにおいて第2出力結果と関連付けて記憶された1または複数の特許文書と、を除く特許文書が存在しない場合に処理を終了する処理終了ステップ(S110)と、を実行する、付記4記載のプログラム。
これにより、母集団受付ステップにおいて受け付けた母集団に含まれるすべての特許文書に対して第1処理結果に基づく情報、第2処理結果とが関連付けて記憶されるまで、第1処理および第2処理等が反復的に実行される。
第1処理ステップ(S104)は、大規模言語モデルに、第1特許文書および分類ルールが規定された分類定義文章を含むプロンプトを入力することに応じて出力される第1特許文書の分類に関する第1分類情報を取得するステップであり、第2処理ステップ(S108)は、分類モデルである学習モデルに、第2特許文書を入力することに応じて出力される第2特許文書の分類に関する第2分類情報を取得するステップである、付記1記載のプログラム。
これにより、多量の教師データを用意することなしに、少量の教師データ、または、教師データなしに複数の特許文書を含む母集団に含まれる複数の特許文書を分類することができる。
大規模言語モデルを用いた第1処理は、第2処理に比べて高価かつ時間がかかる傾向にある。母集団に含まれる全ての特許文書に対して第1処理を適用する必要がないため、処理時間および処理費用を節約することができる。
プロセッサが、母集団受付ステップにおいて受け付けた母集団に含まれる複数の特許文書のうち、第3特許文書を抽出する第3特許抽出ステップ(S103)と、大規模言語モデルに、第3特許抽出ステップにおいて抽出した第3特許文書および分類観点が規定された分類観点文章を含むプロンプト入力することに応じて出力される第3特許文書の分類観点に関する分類観点情報を取得する分類観点取得ステップ(S103)と、大規模言語モデルに、分類観点取得ステップにおいて取得した分類観点情報を含むプロンプトを入力することに応じて出力される、第3特許文書に関する分類観点情報を大括り化することにより得られる分類定義文章を取得する分類定義取得ステップ(S103)と、を実行し、第1処理ステップ(S104)は、分類定義取得ステップにおいて取得した分類定義文章に基づき第1分類情報を取得するステップである、付記12記載のプログラム。
これにより、分類定義を用意することなしに、複数の特許文書を含む母集団に含まれる複数の特許文書を分類することができる。
第2処理ステップ(S108)は、学習モデルに、第2特許文書を入力することに応じて出力される第2特許文書に含まれる1または複数の特許文書に対する分類の品質を示す第2品質情報を取得するステップを含み、プロセッサが、第2処理ステップにおいて取得した第2品質情報が所定の条件を満たす場合に、第2特許文書に含まれる1または複数の特許文書の少なくとも一部を、第2分類情報と関連付けて記憶する第2分類記憶ステップ(S108)と、を実行する、付記12記載のプログラム。
これにより、第1出力結果に基づく情報を教師データとして、第2特許文書を分類することができる。分類モデルによる分類の品質が好適なもののみを、第2特許文書に関連付けて記憶することができる。
プロセッサが、第1処理ステップにおいて取得した第1出力結果をユーザに提示する第1提示ステップ(S105)と、ユーザから、第1提示ステップにおいて提示した第1出力結果に対する入力操作を受け付け、当該入力操作に応じて第1特許文書に関する教師データを作成する教師データ作成ステップ(S106)と、を実行し、第2処理ステップ(S108)は、教師データ作成ステップにおいて作成した教師データに基づき学習した学習モデルに、第2特許文書を入力することに応じて出力される第2出力結果を取得するステップである、付記1記載のプログラム。
これにより、ユーザは第1出力結果を参考に少ない作業負荷で教師データを作成することができる。第2処理は、第1出力結果をそのまま教師データとして用いた場合に比べ、ユーザにより作成および編集された教師データに基づき実行されるため、より品質が高い処理結果が期待される。
第1特許抽出ステップ(S102)は、母集団受付ステップにおいて受け付けた母集団に含まれる複数の特許文書を複数のグループに分けるステップと、複数のグループのそれぞれから、1または複数の特許文書を第1特許文書として抽出するステップと、を含む、付記1記載のプログラム。
これにより、母集団に含まれる特許文書の内容に偏りが合った場合においても、グループごとに所定数の特許文書をサンプリングすることにより、母集団に含まれる特許文書の表現空間の全域にわたってバランス良く第1処理を適用することができる。例えば、ユーザは、母集団に含まれる特許文書の表現空間の全域にわたってバランス良く教師データを準備することができる。これにより、第2処理を品質良く行うことができるとともに、処理時間や処理費用を節約することができる。
グループごとに抽出する第1特許文書の件数は所定の定まった数でも良いし、グループに含まれる特許文書の件数や、グループごとの件数割合に応じた所定数の第1特許文書を抽出する構成としても良い。
プロセッサと、メモリとを備えるコンピュータに実行される方法であって、プロセッサが、付記1から付記16のいずれかに係る発明において実行される全てのステップを実行する方法。
これにより、多量の教師データを用意することなしに、少量の教師データ、または、教師データなしに複数の特許文書を含む母集団に対して好適な処理を適用することができる。
大規模言語モデルを用いた第1処理は、第2処理に比べて高価かつ時間がかかる傾向にある。母集団に含まれる全ての特許文書に対して第1処理を適用する必要がないため、処理時間および処理費用を節約することができる。
制御部と、記憶部とを備える情報処理装置であって、制御部が、付記1から付記16のいずれかに係る発明において実行される全てのステップを実行する情報処理装置。
これにより、多量の教師データを用意することなしに、少量の教師データ、または、教師データなしに複数の特許文書を含む母集団に対して好適な処理を適用することができる。
大規模言語モデルを用いた第1処理は、第2処理に比べて高価かつ時間がかかる傾向にある。母集団に含まれる全ての特許文書に対して第1処理を適用する必要がないため、処理時間および処理費用を節約することができる。
付記1から付記16のいずれかに係る発明において実行される全てのステップを実行する手段を備えるシステム。
これにより、多量の教師データを用意することなしに、少量の教師データ、または、教師データなしに複数の特許文書を含む母集団に対して好適な処理を適用することができる。
大規模言語モデルを用いた第1処理は、第2処理に比べて高価かつ時間がかかる傾向にある。母集団に含まれる全ての特許文書に対して第1処理を適用する必要がないため、処理時間および処理費用を節約することができる。
Claims (19)
- プロセッサと、記憶部とを備えるコンピュータに実行させるためのプログラムであって、
前記プロセッサが、
複数の特許文書を含む母集団に関する母集団情報を受け付ける母集団受付ステップと、
前記母集団受付ステップにおいて受け付けた前記母集団に含まれる前記複数の特許文書のうち、第1特許文書を抽出する第1特許抽出ステップと、
大規模言語モデルに、前記第1特許抽出ステップにおいて抽出した前記第1特許文書を含むプロンプトを入力することに応じて出力される第1出力結果を取得する第1処理ステップと、
前記母集団受付ステップにおいて受け付けた前記母集団に含まれる前記複数の特許文書のうち、第2特許文書を抽出する第2特許抽出ステップと、
前記第1処理ステップにおいて取得した前記第1出力結果に基づく情報を教師データとして学習させた学習モデルに、前記第2特許抽出ステップにおいて抽出した前記第2特許文書を入力することに応じて出力される第2出力結果を取得する第2処理ステップと、
を実行するプログラム。 - 前記第2処理ステップは、前記学習モデルに、前記第2特許文書を入力することに応じて出力される前記第2特許文書に含まれる1または複数の特許文書に対する処理の品質を示す第2品質情報を取得するステップを含み、
前記プロセッサが、
前記第2処理ステップにおいて取得した前記第2品質情報が所定の条件を満たす場合に、前記第2特許文書に含まれる1または複数の特許文書の少なくとも一部を前記第2出力結果と関連付けて記憶し、
前記第2処理ステップにおいて取得した前記第2品質情報が所定の条件を満たさない場合に、前記第2特許文書に含まれる1または複数の特許文書の少なくとも一部を前記第2出力結果と関連付けて記憶しない、
第2記憶ステップと、
を実行する、
請求項1記載のプログラム。 - 前記母集団受付ステップは、
第1母集団に関する第1母集団情報を受け付けるステップと、
前記第1母集団情報から、前記第2記憶ステップにおいて前記第2出力結果と関連付けて記憶された1または複数の特許文書を除いた1または複数の特許文書を含む第2母集団に関する第2母集団情報を受け付けるステップと、
を含む、
請求項2記載のプログラム。 - 前記プロセッサが、
前記第1特許抽出ステップにおいて抽出した前記第1特許文書の少なくとも一部または全部を前記第1出力結果に基づく情報と関連付けて記憶する第1記憶ステップと、
を実行し、
前記母集団受付ステップは、
第1母集団に関する第1母集団情報を受け付けるステップと、
前記第1母集団情報から、
前記第1記憶ステップにおいて前記第1出力結果に基づく情報と関連付けて記憶された1または複数の特許文書と、
前記第2記憶ステップにおいて前記第2出力結果と関連付けて記憶された1または複数の特許文書と、
を除いた1または複数の特許文書を含む第2母集団に関する第2母集団情報を受け付けるステップと、
を含む、
請求項2記載のプログラム。 - 前記第1特許抽出ステップは、
前記第1母集団情報から、第1割合に応じた数の前記第1特許文書を抽出するステップと、
前記第2母集団情報から、第2割合に応じた数の前記第1特許文書を抽出するステップと、
を含む、
請求項3記載のプログラム。 - 前記第2割合は、前記第1割合よりも大きい、
請求項5記載のプログラム。 - 前記第2割合は、前記第1割合よりも小さい、
請求項5記載のプログラム。 - 前記第2記憶ステップは、
前記母集団受付ステップにおいて受け付けた母集団情報が前記第1母集団情報である場合は、
前記第2品質情報が第1条件を満たす場合に、前記第2特許文書に含まれる1または複数の特許文書の少なくとも一部を前記第2出力結果と関連付けて記憶し、
前記第2品質情報が前記第1条件を満たさない場合に、前記第2特許文書に含まれる1または複数の特許文書の少なくとも一部を前記第2出力結果と関連付けて記憶しない、
前記母集団受付ステップにおいて受け付けた母集団情報が前記第2母集団情報である場合は、
前記第2品質情報が第2条件を満たす場合に、前記第2特許文書に含まれる1または複数の特許文書の少なくとも一部を前記第2出力結果と関連付けて記憶し、
前記第2品質情報が前記第2条件を満たさない場合に、前記第2特許文書に含まれる1または複数の特許文書の少なくとも一部を前記第2出力結果と関連付けて記憶しない、
ステップを含む、
請求項3記載のプログラム。 - 前記第1条件は、前記第2条件を含む、
請求項8記載のプログラム。 - 前記第2条件は、前記第1条件を含む、
請求項8記載のプログラム。 - 前記プロセッサが、
前記母集団受付ステップにおいて受け付けた前記母集団情報のうち、
前記第1記憶ステップにおいて前記第1出力結果に基づく情報と関連付けて記憶された1または複数の特許文書と、
前記第2記憶ステップにおいて前記第2出力結果と関連付けて記憶された1または複数の特許文書と、
を除く特許文書が存在しない場合に処理を終了する処理終了ステップと、
を実行する、
請求項4記載のプログラム。 - 前記第1処理ステップは、前記大規模言語モデルに、前記第1特許文書および分類ルールが規定された分類定義文章を含むプロンプトを入力することに応じて出力される前記第1特許文書の分類に関する第1分類情報を取得するステップであり、
前記第2処理ステップは、分類モデルである前記学習モデルに、前記第2特許文書を入力することに応じて出力される前記第2特許文書の分類に関する第2分類情報を取得するステップである、
請求項1記載のプログラム。 - 前記プロセッサが、
前記母集団受付ステップにおいて受け付けた前記母集団に含まれる前記複数の特許文書のうち、第3特許文書を抽出する第3特許抽出ステップと、
大規模言語モデルに、前記第3特許抽出ステップにおいて抽出した前記第3特許文書および分類観点が規定された分類観点文章を含むプロンプト入力することに応じて出力される前記第3特許文書の分類観点に関する分類観点情報を取得する分類観点取得ステップと、
大規模言語モデルに、前記分類観点取得ステップにおいて取得した前記分類観点情報を含むプロンプトを入力することに応じて出力される、前記第3特許文書に関する前記分類観点情報を大括り化することにより得られる前記分類定義文章を取得する分類定義取得ステップと、
を実行し、
前記第1処理ステップは、前記分類定義取得ステップにおいて取得した前記分類定義文章に基づき前記第1分類情報を取得するステップである、
請求項12記載のプログラム。 - 前記第2処理ステップは、前記学習モデルに、前記第2特許文書を入力することに応じて出力される前記第2特許文書に含まれる1または複数の特許文書に対する分類の品質を示す第2品質情報を取得するステップを含み、
前記プロセッサが、
前記第2処理ステップにおいて取得した前記第2品質情報が所定の条件を満たす場合に、前記第2特許文書に含まれる1または複数の特許文書の少なくとも一部を、前記第2分類情報と関連付けて記憶する第2分類記憶ステップと、
を実行する、
請求項12記載のプログラム。 - 前記プロセッサが、
前記第1処理ステップにおいて取得した前記第1出力結果をユーザに提示する第1提示ステップと、
前記ユーザから、前記第1提示ステップにおいて提示した前記第1出力結果に対する入力操作を受け付け、当該入力操作に応じて前記第1特許文書に関する教師データを作成する教師データ作成ステップと、
を実行し、
前記第2処理ステップは、前記教師データ作成ステップにおいて作成した前記教師データに基づき学習した前記学習モデルに、前記第2特許文書を入力することに応じて出力される前記第2出力結果を取得するステップである、
請求項1記載のプログラム。 - 前記第1特許抽出ステップは、
前記母集団受付ステップにおいて受け付けた前記母集団に含まれる前記複数の特許文書を複数のグループに分けるステップと、
前記複数のグループのそれぞれから、1または複数の特許文書を前記第1特許文書として抽出するステップと、
を含む、
請求項1記載のプログラム。 - プロセッサと、メモリとを備えるコンピュータに実行される方法であって、前記プロセッサが、請求項1から請求項16のいずれかに係る発明において実行される全てのステップを実行する方法。
- 制御部と、記憶部とを備える情報処理装置であって、前記制御部が、請求項1から請求項16のいずれかに係る発明において実行される全てのステップを実行する情報処理装置。
- 請求項1から請求項16のいずれかに係る発明において実行される全てのステップを実行する手段を備えるシステム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2024011001A JP7493195B1 (ja) | 2024-01-29 | 2024-01-29 | プログラム、方法、情報処理装置、システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2024011001A JP7493195B1 (ja) | 2024-01-29 | 2024-01-29 | プログラム、方法、情報処理装置、システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP7493195B1 true JP7493195B1 (ja) | 2024-05-31 |
Family
ID=91227018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2024011001A Active JP7493195B1 (ja) | 2024-01-29 | 2024-01-29 | プログラム、方法、情報処理装置、システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7493195B1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020119322A (ja) | 2019-01-24 | 2020-08-06 | オリンパス株式会社 | 学習依頼装置および学習依頼方法 |
JP2023115837A (ja) | 2022-02-08 | 2023-08-21 | 株式会社AI Samurai | 特許文書作成支援装置、特許文書作成支援方法、特許文書作成支援プログラム。 |
-
2024
- 2024-01-29 JP JP2024011001A patent/JP7493195B1/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020119322A (ja) | 2019-01-24 | 2020-08-06 | オリンパス株式会社 | 学習依頼装置および学習依頼方法 |
JP2023115837A (ja) | 2022-02-08 | 2023-08-21 | 株式会社AI Samurai | 特許文書作成支援装置、特許文書作成支援方法、特許文書作成支援プログラム。 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11100124B2 (en) | Systems and methods for similarity and context measures for trademark and service mark analysis and repository searches | |
US20190243886A1 (en) | Methods and systems for improving machine learning performance | |
WO2018072071A1 (zh) | 知识图谱构建系统及方法 | |
US10108698B2 (en) | Common data repository for improving transactional efficiencies of user interactions with a computing device | |
JP2016099741A (ja) | 情報抽出支援装置、方法およびプログラム | |
EP3961426A2 (en) | Method and apparatus for recommending document, electronic device and medium | |
WO2021135290A1 (zh) | 基于知识图谱的信息可视化方法、装置、设备及存储介质 | |
CN108776677B (zh) | 平行语句库的创建方法、设备及计算机可读存储介质 | |
JP7047380B2 (ja) | 生成プログラム、生成方法及び情報処理装置 | |
US9547701B2 (en) | Method of discovering and exploring feature knowledge | |
CN117873433A (zh) | 描述文件获取方法、装置、电子设备及存储介质 | |
CN113297251A (zh) | 多源数据检索方法、装置、设备及存储介质 | |
CN112328738A (zh) | 语音检索方法、终端设备及可读存储介质 | |
JP7493195B1 (ja) | プログラム、方法、情報処理装置、システム | |
KR102532216B1 (ko) | Esg 보조 툴을 이용하여 정형화된 esg 데이터로 이루어진 esg 데이터베이스를 구축하는 방법 및 이를 수행하는 esg 서비스 제공 시스템 | |
CN111507400A (zh) | 应用分类方法、装置、电子设备以及存储介质 | |
US20220108071A1 (en) | Information processing device, information processing system, and non-transitory computer readable medium | |
CN114090777A (zh) | 文本数据处理方法及装置 | |
CN116414940A (zh) | 标准问题的确定方法、装置及相关设备 | |
JP2017068862A (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム | |
CN115114415A (zh) | 问答知识库更新方法、装置、计算机设备和存储介质 | |
KR102682244B1 (ko) | Esg 보조 툴을 이용하여 정형화된 esg 데이터로 기계학습 모델을 학습하는 방법 및 기계학습 모델로 자동완성된 esg 문서를 생성하는 서비스 서버 | |
JP2019125025A (ja) | システム、文書データの管理方法、及びプログラム | |
JP6429514B2 (ja) | クラスタリング試行システム及びクラスタリング試行方法 | |
JP6703698B1 (ja) | 情報提供システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240208 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20240208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240426 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240510 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7493195 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |