JP2023014159A - 分類システム、及び、分類方法 - Google Patents
分類システム、及び、分類方法 Download PDFInfo
- Publication number
- JP2023014159A JP2023014159A JP2022186029A JP2022186029A JP2023014159A JP 2023014159 A JP2023014159 A JP 2023014159A JP 2022186029 A JP2022186029 A JP 2022186029A JP 2022186029 A JP2022186029 A JP 2022186029A JP 2023014159 A JP2023014159 A JP 2023014159A
- Authority
- JP
- Japan
- Prior art keywords
- classification
- publication
- learning
- information
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 77
- 238000013473 artificial intelligence Methods 0.000 claims description 126
- 238000012549 training Methods 0.000 abstract description 62
- 238000011156 evaluation Methods 0.000 description 62
- 238000004891 communication Methods 0.000 description 54
- 238000012545 processing Methods 0.000 description 54
- 238000010586 diagram Methods 0.000 description 50
- 238000012790 confirmation Methods 0.000 description 47
- 230000008569 process Effects 0.000 description 44
- 239000011159 matrix material Substances 0.000 description 22
- 230000015654 memory Effects 0.000 description 15
- 238000005259 measurement Methods 0.000 description 14
- 238000004590 computer program Methods 0.000 description 7
- 238000002790 cross-validation Methods 0.000 description 7
- 239000000126 substance Substances 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000012937 correction Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 239000000470 constituent Substances 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 206010024796 Logorrhoea Diseases 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本開示は、分類システム、及び、分類方法に関する。
従来、AI(Artificial Intelligence)を用いて特許公報を分類する技術が知られている(例えば特許文献1)。
AIを用いて特許公報を分類する場合、AIの学習の作業や、AIの分類結果が適切であるか否かをユーザが確認する作業などを効率的に行うことが求められる。
本開示の目的は、AIを利用して公報を分類するシステムにおける作業効率を向上させることにある。
本開示の一態様に係る分類システムは、第1サーバ及び第2サーバを備える分類システムであって、前記第1サーバは、公報を一意に識別する情報である公報識別情報と前記公報識別情報が示す公報の正解の分類を示す情報である正解分類とを関連付けて前記第2サーバへ送信し、前記第2サーバは、前記第1サーバから受信した前記公報識別情報が示す前記公報に関する情報を、前記公報に関する情報を格納する公報データベースから取得し、取得した前記公報に関する情報と、前記公報識別情報に関連付けられている前記正解分類とに基づいて、公報にAI(Artificial Intelligence)分類を付与するために用いられる学習モデルの学習を行う。
本開示の一態様に係る分類方法は、第1サーバ及び第2サーバを備える分類システムによる分類方法であって、前記第1サーバは、公報を一意に識別する情報である公報識別情報と前記公報識別情報が示す公報の正解の分類を示す情報である正解分類とを関連付けて前記第2サーバへ送信し、前記第2サーバは、前記第1サーバから受信した前記公報識別情報が示す前記公報に関する情報を、前記公報に関する情報を格納する公報データベースから取得し、取得した前記公報に関する情報と、前記公報識別情報に関連付けられている前記正解分類とに基づいて、公報にAI分類を付与するために用いられる学習モデルの学習を行う。
なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又は記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
本開示によれば、AIを利用して公報を分類するシステムにおける作業効率を向上させることができる。
以下、図面を適宜参照して、本開示の実施の形態について、詳細に説明する。ただし、必要以上に詳細な説明は省略する場合がある。例えば、すでによく知られた事項の詳細説明及び実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の記載の主題を限定することは意図されていない。
(実施の形態1)
<分類システムの概要>
図1を参照して、実施の形態1に係る分類システム10の概要について説明する。図1は、実施の形態1に係る分類システム10の構成の一例を示す模式図である。
<分類システムの概要>
図1を参照して、実施の形態1に係る分類システム10の概要について説明する。図1は、実施の形態1に係る分類システム10の構成の一例を示す模式図である。
分類システム10は、分類装置100及び端末20を含んで構成される。分類装置100及び端末20は、通信ネットワーク30を介して互いに情報を送受信できる。通信ネットワーク30は、インターネット、移動体通信網(例えばLTE、4G、5G)、有線LAN、無線LAN、又は、それらの組み合わせであってよい。
分類装置100は、文書の一例である公報を分類する装置である。分類装置100は、サーバと読み替えられてもよい。公報の例として、特許、実用新案、意匠、商標等の出願公開公報又は特許掲載公報が挙げられる。また、公報の他の例として、定期的に発行される技術文献又は技術論文等が挙げられる。実施の形態1では、公報が特許の出願公開公報である場合について説明する。ただし、実施の形態1は、公報が特許の出願公開公報とは異なるものであっても実施可能である。
分類装置100は、学習モデル120を用いて公報に分類を付与するサービスを提供する。また、分類装置100は、公報に付与された分類をユーザ2に確認させ、当該公報の分類についてユーザ2が確認済みであるか否かを管理するサービスを提供する。なお、分類装置100が提供する更なるサービスについては後述する。
端末20は、分類装置100が提供するサービスを利用するユーザ2によって使用される。端末20の例として、パーソナルコンピュータ、タブレット、又は、スマートフォンが挙げられる。端末20は、クライアントと読み替えられてもよい。
例えば、ユーザ2は、端末20で動作するWEBブラウザ又は所定のアプリケーションを通じて分類装置100にアクセスし、分類装置100が提供するサービスを利用する。以下の説明において、ユーザ2が分類装置100に行う操作は、ユーザ2が端末20を通じて分類装置100に行う操作であってよい。以下、分類装置100が提供するサービスについて詳しく説明する。
<分類装置の構成>
図2~図4を参照して、実施の形態1に係る分類装置100の構成について説明する。図2は、実施の形態1に係る分類装置100の構成の一例を示すブロック図である。図3は、実施の形態1に係る公報DB101のデータ構造の一例を示す図である。図4は、実施の形態1に係る教師データDB103のデータ構造の一例を示す図である。図5は、実施の形態1に係る分類結果DB108のデータ構造の一例を示す図である。
図2~図4を参照して、実施の形態1に係る分類装置100の構成について説明する。図2は、実施の形態1に係る分類装置100の構成の一例を示すブロック図である。図3は、実施の形態1に係る公報DB101のデータ構造の一例を示す図である。図4は、実施の形態1に係る教師データDB103のデータ構造の一例を示す図である。図5は、実施の形態1に係る分類結果DB108のデータ構造の一例を示す図である。
分類装置100は、公報DB101、教師データ生成部102、教師データDB103、モデル学習部104、モデル格納部105、分類対象入力部106、分類実行部107、分類結果DB108、UI制御部109、及び、モデル評価部110を備える。公報DB101、教師データDB103、モデル格納部105、及び、分類結果DB108は、図12に示すメモリ1002、ストレージ1003又はそれらの組み合わせによって実現されてよい。また、公報DB101、教師データDB103、モデル格納部105、及び、分類結果DB108は、格納部と読み替えられてもよい。教師データ生成部102、モデル学習部104、分類対象入力部106、分類実行部107、UI制御部109、及び、モデル評価部110は、図12に示すプロセッサ1001がメモリ1002又はストレージ1003から読み出したコンピュータプログラムを実行することにより実現されてよい。したがって、実施の形態1において、教師データ生成部102、モデル学習部104、分類対象入力部106、分類実行部107、UI制御部109、又は、モデル評価部110が主体として説明されている処理は、プロセッサ1001を主体とする処理に読み替えられてもよい。また、プロセッサ1001は、制御部、CPU(Central Processing Unit)、コントローラといった他の用語に読み替えられてもよい。
公報DB101は、複数の公報を格納及び管理するDB(DataBase)である。文献DBは、図3に例示するように、データ項目として、公報の出願番号、公報の出願人又は権利者名、及び、公報の要約書等を有してよい。公報の要約書等には、公報の要約書、公報の明細書、及び、特許請求の範囲のうちの少なくとも1つが含まれてよい。また、公報DB101は、更なるデータ項目を有してもよい。例えば、公報DB101は、更なるデータ項目として、公報の図面、特許分類情報(IPC,FI、Fターム等)、審査経過情報等を有してもよい。以下、公報DB101におけるデータ項目を、公報項目と称する。
公報DB101は、分類装置100に備えられなくてもよく、例えば、通信ネットワーク30に接続された、分類装置100とは異なるサーバ(図示しない)に備えられてもよい。この場合、分類装置100は、通信ネットワーク30を通じて、公報DB101にアクセスしてよい。
教師データ生成部102は、公報DB101から学習モデル120の学習に用いる公報を取得し、教師データを生成する。例えば、教師データ生成部102は、取得した公報に正解の分類(つまり正解ラベル)を付与して教師データを生成する。すなわち、教師データは、公報と当該公報に付与された正解の分類とを含む。ただし、教師データは、必ずしも公報の内容のすべてを含む必要はなく、例えば、出願番号に代表される公報の識別情報と、正解の分類とを含む構成であってもよい。正解の分類の付与は、ユーザ2によって行われてよい。また、教師データ生成部102は、後述する分類結果DB108に格納される分類結果情報を用いて教師データを生成してもよい。分類結果情報を用いて教師データを生成する方法の詳細については後述する(図10参照)。教師データ生成部102は、生成した教師データを、教師データDB103に格納する。
教師データDB103は、教師データを格納及び管理するDBである。教師データDB103は、図4に例示するように、データ項目として、正解の分類(つまり正解ラベル)、及び、公報項目を有してよい。ただし、教師データDB103は、必ずしもこれらすべてのデータ項目を有する必要はなく、例えば、データ項目として、出願番号に代表される公報の識別情報と、正解の分類とを有する構成であってもよい。これにより、教師データDB103の容量を節約できる。この場合、モデル学習部104は、必要に応じて公報DB101から、出願番号をキーとして要約書等の情報を取得してよい。
モデル学習部104は、教師データDB103に格納されている教師データを用いて、例えば公知の教師有り学習方法によって、学習モデル120の学習を行う。学習モデル120は、ニューラルネットワーク又はディープニューラルネットワークとして構成され、例えば、CNN(Convolutional Neural Network)として構成されてよい。ただし、学習モデル120は、CNNに限られず、例えば、RNN(Recurrent Neural Network)又はSVM(Support Vector Machine)等として構成されてもよい。モデル学習部104は、学習済みの学習モデル120をモデル格納部105に格納する。
分類対象入力部106は、公報DB101から分類対象の公報を取得し、その分類対象の公報を分類実行部107へ出力する。例えば、分類対象入力部106は、ユーザ2がまだ分類の確認を行っていない公報を、分類対象の公報として公報DB101から取得してよい。例えば、分類対象入力部106は、公報DB101に新たに登録された公報を、分類対象の公報として公報DB101から取得してよい。分類対象の公報には、まだ分類が付与されていないので、分類対象の公報は、未分類の公報と読み替えられてもよい。
分類実行部107は、モデル格納部105に格納されている学習モデル120を用いて、分類対象入力部106から入力された分類対象の公報に分類を付与する。以下、分類実行部107が付与した分類をAI分類と称する。
分類実行部107は、公報を入力した場合に、予め定められた複数の分類の各々のスコアを出力するように構成されてよい。例えば、分類1のスコア、分類2のスコア、及び、分類3のスコアを算出するように構成されている分類実行部107に公報を入力した場合、分類実行部107は、当該公報についての分類1のスコア、分類2のスコア、及び、分類3のスコアを出力する。ここで、分類のスコアは、公報がその分類に適合する度合の高さを示す値であってよい。
例えば、分類実行部107は、分類対象の公報を学習モデル120を用いて、学習モデル120が出力した各分類のスコアを得る。例えば、分類実行部107は、分類1のスコア「0.3」、分類2のスコア「0.5」、分類3のスコア「0.9」を得る。次に、分類実行部107は、算出した各分類のスコアに基づいて、公報に付与するAI分類を決定する。分類実行部107は、スコアの最も高い分類(つまり第1位のスコアを有する分類)を、AI分類として公報に付与してよい。例えば、分類実行部107は、分類1のスコア「0.3」、分類2のスコア「0.5」、分類3のスコア「0.9」を得た場合、スコアの最も高い分類3を、公報に付与するAI分類に決定してよい。
また、分類実行部107は、分類対象の公報と、当該公報について得た各分類のスコアと、当該公報に付与したAI分類と、当該AI分類についてユーザ2が未確認であることを示す値「1」(仮評価)を設定した確認フラグと、を含む分類結果情報を生成する(図5参照)。分類実行部107は、生成した分類結果情報を、分類結果DB108に格納する。
分類結果DB108は、分類結果情報を格納するDBである。分類結果DB108は、図5に例示するように、データ項目として、公報項目と、各分類のスコアと、AI分類と、ユーザ分類と、確認フラグとを有してよい。すなわち、分類結果情報は、公報項目と、各分類のスコアと、AI分類と、ユーザ分類と、確認フラグとを含んでよい。ただし、分類結果DB108は、必ずしも図5に例示するすべてのデータ項目を有する必要はなく、例えば、後述する学習モデル120の分類精度の算出を行わない場合、分類結果DB108は、ユーザ分類を有さなくてもよい。
ユーザ分類には、ユーザ2が確認した分類が設定される。ユーザ2がAI分類を確認し、当該AI分類を修正しなかった場合、ユーザ分類には、当該AI分類がそのまま設定されてよい。ユーザ2がAI分類を確認し、当該AI分類を別の分類に修正した場合、ユーザ分類には、当該別の分類が設定されてよい。なお、ユーザ2がAI分類を未確認である場合、ユーザ分類は空欄であってよい。
確認フラグには、AI分類についてユーザ2が未確認であることを示す値「1」、又は、AI分類についてユーザ2が確認済みであることを示す値「2」が設定される。実施の形態1では、AI分類についてユーザ2が未確認であることを「仮評価」と称し、AI分類についてユーザ2が確認済みであることを「本評価」と称する。なお、上記の仮評価を示す値「1」及び本評価を示す値「2」は、互いに異なる値であれば、どのような値であってもよい。また、仮評価を示す値及び本評価を示す値は、文字又は記号等の情報であってもよい。仮評価を示す値は、第1の値又は未確認情報と読み替えられ、本評価を示す値は、第2の値又は確認済み情報と読み替えられてもよい。
UI制御部109は、ユーザ2の端末20にUI画面200を表示させるためのUI情報を生成する。ユーザ2は、端末20に表示されたUI画面200を通じて、分類装置100が提供するサービスを利用できる。例えば、UI制御部109は、次の処理を行う。
UI制御部109は、分類結果DB108から、分類対象の分類結果情報を取得する。そして、UI制御部109は、取得した分類結果情報に含まれる公報項目と、各分類のスコアと、AI分類と、確認フラグに対応するマークとを表示させるUI情報を生成する。確認フラグに対応するマークは、確認フラグが「1」(仮評価)の場合、AI分類がユーザ2によって未確認であることを示す仮評価マークであり、確認フラグが「2」(本評価)の場合、AI分類がユーザ2によって確認済みであることを示す本評価マークであってよい。なお、確認フラグは確認情報、仮評価マークは第1の情報又は仮評価情報、本評価マークは第2の情報又は本評価情報と読み替えられてもよい。また、第1の情報及び第2の情報は、文字、数字、記号、及び、画像のいずれで表現されてもよい。
UI制御部109は、生成したUI情報を端末20に送信する。端末20は、受信したUI情報に基づいてUI画面200を表示し、ユーザ2の操作を受け付ける。なお、UI画面200の例については後述する(図6及び図7参照)。
モデル評価部110は、分類結果DB108の分類結果情報に基づいて、学習モデル120の分類精度を評価する。例えば、モデル評価部110は、分類結果DB108において、確認フラグが「2」(本評価)の分類結果情報の数(確認総数)と、これらの分類結果情報のうちAI分類とユーザ分類が一致する分類結果情報の数(以下、正解数という)とに基づいて、学習モデル120の分類精度(以下、正解率)を算出する。正解率は、例えば、「正解率=正解数/確認総数」として算出されてよい。なお、モデル評価部110は、正解率、適合率、再現率、特異度及びF値のうちの少なくとも1つを算出して、学習モデル120の分類精度を評価してもよい。
モデル評価部110は、算出した学習モデル120の分類精度を、モデル格納部105における当該学習モデル120に関連付けてよい。このように関連付けられた学習モデル120の分類精度は、後述するように、図9におけるS207の判定処理に用いられてよい。
<UI画面>
図6及び図7を参照して、UI画面200の一例について説明する。図6は、各分類のスコアのうち第1位のスコアが第1の閾値以上である場合のUI画面200の表示の一例を示す図である。図7は、各分類のスコアのうち第1位のスコアが第2の閾値未満である場合のUI画面200の表示例を示す図である。
図6及び図7を参照して、UI画面200の一例について説明する。図6は、各分類のスコアのうち第1位のスコアが第1の閾値以上である場合のUI画面200の表示の一例を示す図である。図7は、各分類のスコアのうち第1位のスコアが第2の閾値未満である場合のUI画面200の表示例を示す図である。
端末20は、分類装置100から送信されるUI情報を受信及び解析し、図6又は図7に示すUI画面200を表示してよい。例えば、UI画面200は、各分類結果情報について、ステータス欄201、分類欄202、分類候補欄203、確認チェックボックス204、公報項目欄205を含む。すなわち、UI制御部109は、各分類結果情報について、ステータス欄201、分類欄202、分類候補欄203、確認チェックボックス204、公報項目欄205の内容を表示するためのUI情報を生成し、端末20に送信する。
ステータス欄201には、分類結果情報の確認フラグに対応するマークが表示される。例えば、ステータス欄201には、確認フラグが「1」の場合、仮評価マークが表示され、確認フラグが「2」の場合、本評価マークが表示される。
分類欄202には、ステータス欄201が仮評価マークである場合、分類結果情報のAI分類が表示されてよい。ユーザ2は、分類欄202の分類を修正できてよい。例えば、分類欄202は、コンボボックスとして構成されており、ユーザ2がクリックすると、分類候補のリストを表示する。ユーザ2は、その分類候補のリストから分類を1つ選択する。これにより、ユーザ2は、分類欄202の分類を修正できる。分類候補のリストには、スコアの高い順に分類が並べられてよい。あるいは、分類候補のリストには、分類候補欄203に表示される複数の分類が優先的に表示されてよい。あるいは、分類候補のリストには、予め定められた順(例えば分類名のアルファベット順)に分類が並べられてもよい。
なお、分類欄202には、ステータス欄201が本評価マークである場合、分類結果情報のユーザ分類が表示されてよい。この場合も、分類欄202は、上記同様、分類候補のリストを表示して、ユーザ2からのユーザ分類の修正を受け付けてよい。
分類候補欄203には、スコアの高い順に所定数(例えば上位3つ)の分類名及びスコアが表示される。
確認チェックボックス204は、ユーザ2が分類欄202に表示されたAI分類を確認した場合にチェック(オン)される。確認チェックボックス204は、確認欄と読み替えられてもよい。ユーザ2は、分類欄202に表示されたAI分類を修正しない場合、そのまま確認チェックボックス204をチェック(オン)してよい。ユーザ2は、分類欄202に表示されたAI分類を修正する場合、分類欄202のAI分類を別の分類に修正した後、確認チェックボックス204をチェック(オン)してよい。確認チェックボックス204がチェック(オン)された場合、UI制御部109は、分類欄202の分類を分類結果情報のユーザ分類に設定し、確認フラグを「2」(本評価)に設定する。すなわち、UI制御部109は、分類欄202の分類がAI分類である場合、AI分類をユーザ分類に設定し、分類欄202の分類が別の分類に修正されたものである場合、当該別の分類をユーザ分類に設定する。
公報項目欄205には、分類結果情報に含まれる公報項目(例えば出願番号、出願人又は権利者名、要約書等)が表示される。
分類実行部107は、分類結果DB108における分類結果情報の各分類のスコアにおいて、第1位のスコア(最も高いスコア)が第1の閾値以上である場合、分類結果情報のAI分類に、当該第1位のスコアの分類を設定してよい。この場合、図6に示すように、UI画面200の分類欄202には、第1位のスコアの分類名が表示されてよい。
一方、分類実行部107は、分類結果DB108における分類結果情報の各分類のスコアにおいて、第1位のスコアが第2の閾値未満である場合、分類結果情報のAI分類に、「分類なし」を設定してよい。第2の閾値は、第1の閾値よりも小さい値である。この場合、図7に示すように、UI画面200の分類欄202には「分類なし」が表示され、UI画面200の所定の位置に、分類欄202の内容についてユーザに確認を促すマーク(以下、要確認マーク206という)が表示されてよい。これにより、ユーザ2は、適合の度合が不十分なAI分類が付与された公報を見逃すことなく、必要に応じて、当該公報に適切なユーザ分類を付与することができる。
なお、分類実行部107は、分類結果情報の各分類のスコアにおける第1位のスコアが第2の閾値未満である場合、分類結果情報のAI分類に、当該第1位のスコアの分類を設定してもよい。この場合、UI画面200における分類欄202に第1位のスコアの分類名が表示され、UI画面200の所定の位置に要確認マーク206が表示されてよい。
<分類処理の第1例>
図8を参照して、分類装置100が実行する分類処理の第1例について説明する。図8は、実施の形態1に係る分類処理の第1例を示すフローチャートである。
図8を参照して、分類装置100が実行する分類処理の第1例について説明する。図8は、実施の形態1に係る分類処理の第1例を示すフローチャートである。
S101として、モデル学習部104は、教師データDB103から、事前評価した教師データを取得する。
S102として、モデル学習部104は、S101にて取得した教師データを用いて、学習モデル120の学習を行う。モデル学習部104は、学習済みの学習モデル120をモデル格納部105に格納する。
S103として、分類対象入力部106は、公報DB101から分類対象の公報を取得し、分類実行部107へ出力する。
S104として、分類実行部107は、モデル格納部105に格納されている学習モデル120を使用して、S103にて取得した分類対象の公報の分類を行い、算出された当該公報に対する各分類のスコアを得る。
S105として、分類実行部107は、S104にて得た各分類のスコアに基づいてAI分類を決定する。例えば、分類実行部107は、スコアが最も高い分類をAI分類に決定する。加えて、分類実行部107は、その決定したAI分類、S104にて得た各分類のスコア、及び、確認フラグに「1」(仮評価)を設定した分類結果情報を生成し、分類結果DB108に格納する。S104からS105の処理は、複数の分類対象の公報のそれぞれについて行われてよい。
S106として、UI制御部109は、分類結果DB108から分類結果情報を取得し、当該分類結果情報に基づいてUI情報を生成し、端末20へ送信する。端末20は、UI情報に基づいて、図6又は図7に例示するUI画面200を表示する。
S107として、ユーザ2は、端末20に表示されたUI画面200を見て、分類欄202のAI分類が問題ない場合、そのまま確認チェックボックス204をチェック(オン)する。ユーザ2は、分類欄202のAI分類を修正したい場合、当該分類欄202において別の分類を選択(又は入力)し、確認チェックボックス204をチェック(オン)する。
S108として、UI制御部109は、S107のユーザ操作において分類欄202が修正されたか否かを判定する。
S108において分類欄202が修正されなかったと判定された場合(S108:NO)、S109として、UI制御部109は、分類結果DB108の分類結果情報において、AI分類をそのままユーザ分類に設定し、確認フラグを「2」(本評価)に設定する。
S108において分類欄202が修正されたと判定された場合(S108:YES)、S110として、UI制御部109は、分類結果DB108の分類結果情報において、分類欄202に入力された別の分類をユーザ分類に設定し、確認フラグを「2」(本評価)に設定する。
S107からS110の処理は、複数の分類結果情報のそれぞれについて行われてよい。そして、分類装置100は、本処理を終了する。
上記の処理によれば、ユーザ2は、公報に付与されたAI分類が適切であるか否かを簡単に確認することができる。また、ユーザ2は、公報に付与されたAI分類が不適合である場合、簡単に別の分類を付与することができる。また、分類装置100は、ユーザ2によってAI分類が確認済みである公報と、ユーザ2によってAI分類が未確認である公報とを区別して管理することができる。
<分類処理の第2例>
図9を参照して、分類装置100が実行する分類処理の第2例について説明する。図9は、実施の形態1に係る分類処理の第2例を示すフローチャートである。分類装置100は、図8に示す分類処理の第1例と当該図9に示す分類処理の第2例とのいずれか一方を実行してもよい。あるいは、分類装置100は、ユーザ2からの指示に応じて、図8に示す分類処理の第1例、又は、当該図9に示す分類処理の第2例のいずれかを実行してもよい。
図9を参照して、分類装置100が実行する分類処理の第2例について説明する。図9は、実施の形態1に係る分類処理の第2例を示すフローチャートである。分類装置100は、図8に示す分類処理の第1例と当該図9に示す分類処理の第2例とのいずれか一方を実行してもよい。あるいは、分類装置100は、ユーザ2からの指示に応じて、図8に示す分類処理の第1例、又は、当該図9に示す分類処理の第2例のいずれかを実行してもよい。
S201~S205として、分類装置100は、図8のS101~S105と同様の処理を実行する。
S206として、分類実行部107は、分類結果情報の各分類のスコアにおける第1位のスコアが第1の閾値以上であるか否かを判定する。
まず、S206において第1位のスコアが第1の閾値以上であると判定された場合(S206:YES)について説明する。
この場合、S207として、分類実行部107は、分類に利用した学習モデル120の分類精度が所定の閾値以上であるか否かを判定する。なお、学習モデル120の分類精度は、モデル評価部110によって評価されたものであってよい。
S207において学習モデル120の分類精度が所定の閾値未満であると判定された場合(S207:NO)、S220の処理が実行される。
S207において学習モデル120の分類精度が所定の閾値以上であると判定された場合(S207:YES)、S208として、分類実行部107は、仮評価スキップ設定がオンであるか否かを判定する。仮評価スキップ設定のオン又はオフは、ユーザ2によって予め設定されてよい。
S208において仮評価スキップ設定がオフであると判定された場合(S208:NO)、S220の処理が実行される。
S208において仮評価スキップ設定がオンであると判定された場合(S208:YES)、S209として、分類実行部107は、分類結果情報において、AI分類の内容をユーザ分類に設定する。
S210として、分類実行部107は、分類結果情報において、確認フラグに「2」(本評価)を設定する。
すなわち、分類結果情報の第1位のスコアが十分高く(すなわちAI分類の適合の度合が十分高く)、学習モデル120の分類精度が十分高く、ユーザ2がAI分類(つまり仮評価の分類)の確認をスキップしてもよい旨の設定をしている場合、分類実行部107は、その分類結果情報について、ユーザ2にAI分類(つまり仮評価の分類)を確認させることなく、AI分類の内容をユーザ分類とし、本評価としてもよい。これにより、公報に付与される分類の適合の度合を維持しつつ、ユーザ2の確認作業を低減することができる。
次に、S206において第1位のスコアが第1の閾値未満であると判定された場合(S206:NO)について説明する。
この場合、S220として、分類実行部107は、分類結果情報の確認フラグに「1」(仮評価)を設定する。
S221として、分類実行部107は、第1位のスコアが第2の閾値未満であるか否かを判定する。第2の閾値は、第1の閾値よりも小さい値である。
S221において第1位のスコアが第2の閾値以上であると判定された場合(S221:NO)、S223の処理が実行される。
S221において第1位のスコアが第2の閾値未満であると判定された場合(S221:YES)、S222として、分類実行部107は、分類結果情報においてAI分類に「分類なし」を設定する。そして、S223の処理が実行される。
S223として、UI制御部109は、図8に示すS106と同様、分類結果DB108から分類結果情報を取得し、当該分類結果情報に基づいてUI情報を生成し、端末20へ送信する。端末20は、UI情報に基づいて、図6又は図7に例示するUI画面200を表示する。ここで、UI制御部109は、分類結果情報においてAI分類に「分類なし」が設定されている場合、図7に例示するように、要確認マーク206を表示させるUI情報を生成してよい。
S224~S227として、分類装置100は、図8に示すS107~S110と同様の処理を実行する。そして、分類装置100は、本処理を終了する。
上記の処理によれば、大量の公報に効率的に分類を付与できると共に、ユーザ2は不適合な分類を効率的に発見及び修正することができる。
<モデル再学習処理>
図10を参照して、分類装置100が実行するモデル再学習処理について説明する。図10は、実施の形態1に係るモデル再学習処理の一例を示すフローチャートである。当該モデル再学習処理は、図8又は図9に示した分類処理の実行後に、ユーザ2の指示よって開始されてよい。
図10を参照して、分類装置100が実行するモデル再学習処理について説明する。図10は、実施の形態1に係るモデル再学習処理の一例を示すフローチャートである。当該モデル再学習処理は、図8又は図9に示した分類処理の実行後に、ユーザ2の指示よって開始されてよい。
S301として、教師データ生成部102は、分類結果DB108から確認フラグが「2」(本評価)の分類結果情報を取得する。
S302として、教師データ生成部102は、S301で取得した分類結果情報のユーザ分類を正解ラベルとして教師データを生成し、教師データDB103に格納する。このユーザ分類は、ユーザ2がAI分類を修正せずに確認チェックボックス204をチェック(オン)した場合、AI分類と共通であり、ユーザ2がAI分類を修正して確認チェックボックス204をチェック(オン)した場合、修正後の分類と共通である。
S303として、モデル学習部104は、事前評価された教師データと、S302にて新たに生成された教師データとを教師データDB103から取得し、それら取得した教師データを用いて学習モデル120の再学習を実施する。そして、分類装置100は、本処理を終了する。
上記の処理によれば、ユーザ2によって確認又は修正された分類が付与された公報も教師データとして利用できるので、教師データの数及びバリエーションが増え、学習モデル120の分類精度が向上し得る。
<モデル評価処理>
図11を参照して、分類装置100が実行するモデル評価処理について説明する。図11は、実施の形態1に係るモデル評価処理の一例を示すフローチャートである。当該モデル評価処理は、ユーザの指示によって開始されてよい。
図11を参照して、分類装置100が実行するモデル評価処理について説明する。図11は、実施の形態1に係るモデル評価処理の一例を示すフローチャートである。当該モデル評価処理は、ユーザの指示によって開始されてよい。
S401として、モデル評価部110は、分類結果DB108から確認フラグが「2」(本評価)の分類結果情報を取得する。
S402として、モデル評価部110は、S401にて取得した分類結果情報のうち、AI分類とユーザ分類とが一致する分類結果情報の数(正解数)をカウントする。
S403として、モデル評価部110は、S401で取得した分類結果情報の数(確認総数)と、S402でカウントした正解数とに基づいて、学習モデル120の分類精度(正解率)を算出する。そして、分類装置100は本処理を終了する。
なお、モデル評価部110は、上記の正解率に加え又は上記の正解率に代えて、適合率、再現率、特異度及びF値のうちの少なくとも1つを算出して、学習モデル120の分類精度を評価してもよい。
<変形例>
なお、分類実行部107は、必ずしも学習モデル120を用いて公報に付与する分類を決定する必要はない。例えば、分類実行部107は、公知のルールベース又は機械学習に基づいて、公報に付与する分類(以下、システム分類という)を決定してもよい。この場合、図5に示す分類結果DB108の「AI分類」、及び、上述したUI制御部109が行う処理における「AI分類」は、「システム分類」に読み替えられてもよい。
なお、分類実行部107は、必ずしも学習モデル120を用いて公報に付与する分類を決定する必要はない。例えば、分類実行部107は、公知のルールベース又は機械学習に基づいて、公報に付与する分類(以下、システム分類という)を決定してもよい。この場合、図5に示す分類結果DB108の「AI分類」、及び、上述したUI制御部109が行う処理における「AI分類」は、「システム分類」に読み替えられてもよい。
UI制御部109は、各分類のスコアに応じて、UI画面200における分類の表示方法を切り替えてよい。例えば、UI制御部109は、第1位のスコアが第1の閾値以上である場合(つまり第1位のスコアが高スコアである場合)、分類欄202に第1位のスコアの分類名のみを表示する。例えば、UI制御部109は、第1位のスコアが第1の閾値未満かつ第2の閾値以上(ただし第2の閾値は第1の閾値よりも小さい)である場合(つまり第1位のスコアが中スコアである場合)、分類欄202に第1位から第3位のスコアの分類名を表示する。例えば、UI制御部109は、第1位のスコアが第2の閾値未満である場合(つまり第1位のスコアが低スコアである場合)、要確認マーク206を表示する。あるいは、UI制御部109は、分類欄202に「分類なし」を表示する。なお、UI制御部109は、分類欄202に「分類なし」を表示すると共に、要確認マーク206を表示してもよい。
また、UI制御部109は、分類結果DB108において、第1位のスコアが低スコアである分類結果情報が存在する場合、その第1位のスコアが低スコアである複数の分類結果情報を抽出してユーザ2に確認させてもよい。これにより、ユーザ2は、不適合の可能性の高いAI分類が付与されている公報について、まとめて確認及び修正することができる。
また、UI制御部109は、第1位のスコアが低スコアである分類を分類欄202に表示する場合、適切な分類の見直し又は追加をユーザ2に促してよい。この場合、UI制御部109は、次の(A1)及び(A2)のうちの少なくとも1つを実施してもよい。
(A1)最近よく使用される検索式、急上昇ワード、又は、他のユーザの分類パターン等を具体的に提案する。
(A2)例えば、分類1、分類2、分類3という分類があって、本当は分類4となるべきものが推論対象となった場合、「分類なし」としつつ、分類4を提案する。
(A1)最近よく使用される検索式、急上昇ワード、又は、他のユーザの分類パターン等を具体的に提案する。
(A2)例えば、分類1、分類2、分類3という分類があって、本当は分類4となるべきものが推論対象となった場合、「分類なし」としつつ、分類4を提案する。
また、分類は親子関係を有する階層構造であってよい。例えば、親階層の分類数が10個であり、親階層の複数の分類のそれぞれに子階層の分類が10個ぶら下がるような階層構造であってよい。この場合、子階層の全体の分類数は100個となる。このような場合、子階層の各分類のサンプル数に偏りがあり、子階層の分類で高性能が出ない可能性がある。そこで、分類実行部107は、まず、第1の学習モデルで親階層の分類を行い、次に、親階層で振り分けられた各分類について、第2の学習モデルで子階層の分類を行ってよい。この子階層の分類の際、分類実行部107は、親子の組み合わせを考慮してもよい。
また、分類数n(nは2以上の整数)の教師データのうち、特定の分類のサンプル数が著しく少ない場合(例えば所定の閾値未満の場合)、そのサンプル数が著しく少ない分類を適切に判定することが難しい場合がある。例えば、学習モデルの学習において、分類1、分類2、分類3をそれぞれ100個の教師データで学習し、分類4、分類5、分類6をそれぞれ5個の教師データで学習した場合、当該学習モデルを用いて公報に精度良く分類4を付与することが難しい場合がある。そこで、モデル学習部104は、例えば、次の(B1)及び(B2)のうちの少なくとも1つを実施してもよい。
(B1)モデル学習部104は、分類4、分類5、分類6を1つの他分類として、第1の学習モデルの学習を行う。そして、モデル学習部104は、他分類の教師データを用いて、分類4、分類5、分類6について第2の学習モデルの学習を行う。分類実行部107は、まず、第1の学習モデルを用いて公報を分類1、分類2、分類3、他分類のいずれかに振り分け、次に、第2の学習モデルを用いて他分類に振り分けられた公報を分類4、分類5、分類6のいずれかに振り分ける。
(B2)モデル学習部104は、分類1、分類2、分類3について学習モデルの学習を行う。分類実行部107は、当該学習モデルが出力した推論結果として第1位のスコアが所定の閾値未満の場合、分類4、分類5、分類6のいずかであると判定する。
(B1)モデル学習部104は、分類4、分類5、分類6を1つの他分類として、第1の学習モデルの学習を行う。そして、モデル学習部104は、他分類の教師データを用いて、分類4、分類5、分類6について第2の学習モデルの学習を行う。分類実行部107は、まず、第1の学習モデルを用いて公報を分類1、分類2、分類3、他分類のいずれかに振り分け、次に、第2の学習モデルを用いて他分類に振り分けられた公報を分類4、分類5、分類6のいずれかに振り分ける。
(B2)モデル学習部104は、分類1、分類2、分類3について学習モデルの学習を行う。分類実行部107は、当該学習モデルが出力した推論結果として第1位のスコアが所定の閾値未満の場合、分類4、分類5、分類6のいずかであると判定する。
<ハードウェア構成>
図12は、本開示に係る分類装置100及び端末20のハードウェアの構成の一例を示すブロック図である。
図12は、本開示に係る分類装置100及び端末20のハードウェアの構成の一例を示すブロック図である。
分類装置100及び端末20は、図12に示すコンピュータ1000として構成されてもよい。この場合、上述した分類装置100及び端末20が有する機能は、コンピュータ1000がコンピュータプログラムを実行することにより実現されてよい。
コンピュータ1000は、プロセッサ1001、メモリ1002、ストレージ1003、入力装置1004、出力装置1005、通信装置1006、GPU(Graphics Processing Unit)1007、読取装置1008、及び、バス1009を備える。プロセッサ1001、メモリ1002、ストレージ1003、入力装置1004、出力装置1005、通信装置1006、GPU1007、読取装置1008は、バス1009に接続され、当該バス1009を介して双方向にデータを送受信できる。
プロセッサ1001は、メモリ1002又はストレージ1003に記憶されたコンピュータプログラムを実行し、上述した機能ブロックを実現する装置である。プロセッサ1001の例として、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、コントローラ、LSI(large scale integration)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field-Programmable Gate Array)が挙げられる。
メモリ1002は、コンピュータ1000が取り扱うコンピュータプログラム及びデータを記憶する装置である。メモリ1002は、ROM(Read-Only Memory)及びRAM(Random Access Memory)を含んでよい。
ストレージ1003は、不揮発性記憶媒体で構成され、コンピュータ1000が取り扱うコンピュータプログラム及びデータを記憶する装置である。ストレージ1003の例として、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリが挙げられる。
入力装置1004は、プロセッサ1001に入力するデータを受け付ける装置である。入力装置1004の例として、キーボード、マウス、タッチパッド、マイクが挙げられる。
出力装置1005は、プロセッサ1001が生成したデータを出力する装置である。出力装置1005の例として、ディスプレイ、スピーカーが挙げられる。例えば、ユーザは、出力装置1005に表示されたUI画面200を、入力装置1004を通じて操作することにより、所望のデータを入力又は選択してよい。
通信装置1006は、サーバ又は端末に代表される他の装置と、通信ネットワーク30を介して、データを送受信する装置である。通信装置1006は、データを送信する送信部とデータを受信する受信部とを含んでよい。通信装置1006は、有線通信及び無線通信の何れに対応してもよい。有線通信の例として、Ethernet(登録商標)が挙げられる。無線通信の例として、IEEE802.11、Bluetooh、LTE(Long Term Evolution)、4G、5Gが挙げられる。
GPU1007は、画像描写を高速に処理する装置である。なお、GPU1007は、AIの処理に利用されてもよい。例えば、GPU1007は、AI(学習モデル)の学習処理、及び/又は、AI(学習モデル)による分類処理に利用されてよい。
読取装置1008は、DVD-ROM(Digital Versatile Disk Read Only Memory)又はUSB(Universal Serial Bus)メモリといった記録媒体からデータを読み取る装置である。
(実施の形態2)
実施の形態2では、実施の形態1にて説明済みの構成要素については同一の参照符号を付し、説明を省略する場合がある。また、実施の形態1にて図面に記載される構成要素であっても、実施の形態2において説明しない構成要素については、説明をわかりやすくするため、図面の記載を省略する場合がある。これは、実施の形態2が記載を省略された構成要素を含まないことを意味しない。
実施の形態2では、実施の形態1にて説明済みの構成要素については同一の参照符号を付し、説明を省略する場合がある。また、実施の形態1にて図面に記載される構成要素であっても、実施の形態2において説明しない構成要素については、説明をわかりやすくするため、図面の記載を省略する場合がある。これは、実施の形態2が記載を省略された構成要素を含まないことを意味しない。
実施の形態1では、分類実行部107が特許公報(以下、公報と称する)に付与したAI分類を、ユーザ2が確認してユーザ分類を付与する方法を説明した。しかし、多数の公報に付与されたAI分類を確認する作業は、ユーザ2にとって負担が大きく、できるだけ効率的に確認するための方法が求められる。
そこで、本実施の形態では、ユーザ2が、AI分類の付与に用いられる学習モデル120の詳細な分類性能を把握できるようにする。これにより、ユーザ2は、学習モデル120の詳細な分類性能を把握した上で、AI分類を効率的に確認することができる。例えば、ユーザ2は、分類性能の比較的低い学習モデル120を用いたAI分類については品質重視で確認し、分類性能の比較的高い学習モデル120を用いたAI分類についてはスピード重視で確認することにより、AI分類を効率的に確認することができる。以下、詳しく説明する。
<装置の構成>
次に、図13を参照して、実施の形態2に係る分類装置100の構成の一例について説明する。図13は、実施の形態2に係る分類装置100の構成例を示すブロック図である。
次に、図13を参照して、実施の形態2に係る分類装置100の構成の一例について説明する。図13は、実施の形態2に係る分類装置100の構成例を示すブロック図である。
分類装置100は、公報DB101、教師データ生成部102、教師データDB103、モデル学習部104、モデル格納部105、分類対象入力部106、分類実行部107、分類結果DB108、UI制御部109、及び、分類性能測定部130を備える。
公報DB101、教師データ生成部102、教師データDB103、モデル学習部104、モデル格納部105、分類対象入力部106、分類実行部107、分類結果DB108、UI制御部109については、実施の形態1にて説明済みであるので、ここでは説明を省略する。なお、これらのブロックの実施の形態2における更なる処理については、後述する。
分類性能測定部130は、学習モデル120の分類性能を測定する。分類性能測定部130の処理は、図12に示すプロセッサ1001がメモリ1002と協調動作することによって実現されてよい。なお、分類性能測定部130の更なる処理については後述する。
<処理の概要>
次に、図14を参照して、実施の形態2に係る分類装置100が行う処理の一例について説明する。図14は、実施の形態2に係る分類装置100の処理例を示すフローチャートである。
次に、図14を参照して、実施の形態2に係る分類装置100が行う処理の一例について説明する。図14は、実施の形態2に係る分類装置100の処理例を示すフローチャートである。
分類装置100は、図8にて説明したS101~S106と同様の処理を行う。
次に、S107Aとして、ユーザ2は、端末20に表示されたUI画面200を見て、分類欄202のAI分類が問題ない場合、そのまま確認チェックボックス204をチェック(オン)する。ユーザ2は、分類欄202のAI分類を修正したい場合、当該分類欄202において別の分類を選択(又は入力)し、確認チェックボックス204をチェック(オン)する。また、ユーザは、必要に応じて、管理者へのフィードバック欄210(図23参照)に指摘事項を記載する。
次に、分類装置100は、図8にて説明したS108~S110と同様の処理を行う。
次に、S121として、分類性能測定部130は、分類結果DB108から確認フラグが2(本評価)の分類結果情報を取得する。
次に、S122として、分類性能測定部130は、S121にて取得した分類結果情報を用いて混合行列を生成し、UI制御部109に表示させる。なお、混合行列の詳細については後述する。
次に、S123として、UI制御部109は、ユーザ2が混合行列から選択した公報リストを表示する。なお、混合行列からの選択の詳細については後述する。そして、本処理は終了する。
<学習モデル情報>
次に、図15及び図16を参照して、学習モデル情報について説明する。図15は、実施の形態2に係る学習モデル情報の一例を示す図である。図16は、実施の形態2に係る教師データの一例を示す図である。なお、図16に示す教師データについては、図4にて説明済みであるので、ここでは説明を省略する。
次に、図15及び図16を参照して、学習モデル情報について説明する。図15は、実施の形態2に係る学習モデル情報の一例を示す図である。図16は、実施の形態2に係る教師データの一例を示す図である。なお、図16に示す教師データについては、図4にて説明済みであるので、ここでは説明を省略する。
学習モデル情報は、学習モデル120に関する情報を有する。学習モデル情報は、例えば、モデル格納部105に格納される。
学習モデル情報は、項目として、登録テーマ、教師データセット、分類パターン、分類性能、前回の学習日、学習に使用した公報の属性を有してよい。
登録テーマの項目は、教師データセットの名称を示す。
教師データセットの項目は、教師データセットの識別情報を示す。例えば、「教師データセット1」は、図16に示す教師データセットの識別情報であってよい。すなわち、教師データセット1には、図16に示す複数の教師データが含まれてよい。教師データは、図16に示すように、出願番号に正解分類が対応付けられたデータであってよい。なお、出願番号は、公報識別情報の一例である。
分類パターンの項目は、分類パターンの識別情報を示す。例えば、「分類パターンA」は、分類A、分類B、及び、分類Cの3つに分類するパターンを示す。分類装置100は、複数の分類方法を有することができる。ユーザ2は、どの分類パターンで分類するかを分類装置100にあらかじめ設定することができる。
分類性能の項目は、教師データセットにて学習させた学習モデル120の分類性能の値を示す。分類性能の値は、分類性能が高いほど大きくなり、分類性能が低いほど小さくなる値であってよい。
前回の学習日の項目は、学習モデル120の学習を行った前回の日を示す。別言すると、前回の学習日は、学習モデル120の学習を行った最後の日を示す。
学習に使用した公報の属性の項目は、学習モデル120の学習を行う際に、公報のいずれの属性を学習に使用したかを示す情報を有する。特許公報の属性の例として、「出願番号」、「要約」、「発明が解決しようとする課題」、「課題を解決するための手段」、「発明を実施するための形態」、「IPC」、「FIコード」、「特許請求の範囲」等が挙げられる。
<分類性能を表示する方法>
次に、図17~図21を参照して、学習モデル120の分類性能を表示する方法について説明する。図17は、実施の形態2に係るAI分類トップ画面の一例を示す図である。図18は、実施の形態2に係る混合行列の第1の表示例を示す図である。図19は、図18の混合行列から選択された公報リストの表示例を示す図である。図20は、実施の形態2に係る混合行列の第2の表示例を示す図である。図21は、図20の混合行列から選択された公報リストの表示例を示す図である。
次に、図17~図21を参照して、学習モデル120の分類性能を表示する方法について説明する。図17は、実施の形態2に係るAI分類トップ画面の一例を示す図である。図18は、実施の形態2に係る混合行列の第1の表示例を示す図である。図19は、図18の混合行列から選択された公報リストの表示例を示す図である。図20は、実施の形態2に係る混合行列の第2の表示例を示す図である。図21は、図20の混合行列から選択された公報リストの表示例を示す図である。
UI制御部109は、学習モデル情報に基づいて、図17に示すように、各学習モデル120に関する情報のリストを表示する。ここで、ユーザ2が、図17に示すリストから、「学習モデル2」の行を選択したとする。
分類性能測定部130は、選択された「学習モデル2」を用いて複数の公報に付与されたAI分類と、当該複数の公報に付与されたユーザ分類とに基づいて、「学習モデル2」に関する混合行列を作成する。そして、UI制御部109は、図18(又は図20)に示すように、「学習モデル2」に関する混合行列を表示する。
ユーザ2が混合行列のセルを選択すると、UI制御部109は、その選択されたセルに属する公報の分類結果リストを表示する。選択可能なセルの数は、1つであってもよいし、2つであってもよいし、3つ以上であってもよい。
例えば、ユーザ2が、図18に示す混合行列から、ユーザ分類BかつAI分類Aのセルを選択した場合、UI制御部109は、図19に示すように、当該選択された1つのセルに属する30件の公報の分類結果リストを表示してよい。
例えば、ユーザ2が、図20に示す混合行列から、ユーザ分類BかつAI分類Aのセルと、ユーザ分類BかつAI分類Bのセルとを選択した場合、UI制御部109は、図21に示すように、当該選択された1つ目のセルに属する20件の公報の分類結果リストと、当該選択された2つ目のセルに属する30件の公報の分類結果リストとを表示してよい。
混合行列を表示することにより、ユーザ2は、各分類の再現率及び/又は適合率を容易に把握できる。例えば、図18に示す混合行列において、分類Aの再現率は、80/(80+10+10)=0.8、分類Aの適合率は、80/(80+30+20)≒0.62である。また、分類Bの再現率は、40/(30+40+30)=0.4、分類Bの適合率は、40/(10+40+20)≒0.57である。また、分類Cの再現率は、60/(20+20+60)=0.6、分類Cの適合率は、60/(10+30+60)=0.6である。なお、UI制御部109は、これらの再現率及び適合率を混合行列と共に表示してよい。
これにより、ユーザ2は、混合行列に表示された各セルにおける適合率及び/又は再現率を考慮してセルを選択することにより、品質重視で確認すべき公報の分類結果リストをまとめて取得したり、スピード重視で確認すべき公報の分類結果リストを取得したりすることができる。よって、ユーザ2は、AI分類を効率的に確認することができる。
また、ユーザ2は、分類実行部107が正しく分類できた公報と、分類実行部107が正しく分類できなかった公報とを容易に比較することができる。よって、ユーザ2は、分類実行部107が分類に用いた学習モデル120の分類傾向(例えば得意な分類又は苦手な分類)、又は、分類実行部107が正しく分類できなかった原因を把握し易くなる。
UI制御部109は、公報の分類結果リストを表示する際、各公報から任意の属性を抽出し、比較可能に表示してよい。ユーザ2は、抽出対象とする公報の属性を、任意に設定できてよい。設定可能な公報の属性の例として、「発明が解決しようとする課題」、「発明の効果」、「発明を実施するための形態」等が挙げられる。これにより、ユーザは、効率的に公報を比較することができる。
図22は、実施の形態2に係るAI分類の根拠の表示例を示す図である。
UI制御部109は、公報の分類結果リストを表示する際、図22に例示するように、公報に含まれる、分類実行部107がそのAI分類の選択の根拠としたキーワード、又は、当該キーワードを含む文章を表示してよい。あるいは、UI制御部109は、公報における当該キーワード又は当該キーワードを含む文章の部分をマーキングして表示してよい。マーキングの例として、該当キーワードの強調表示、下線付与、文字背景色変更等が挙げられる。これにより、ユーザ2は、分類実行部107が正しく分類できなかった原因等を把握し易くなる。
図23は、実施の形態2に係る管理者へのフィードバックを受け付けるUIの一例を示す図である。
図23に示すように、UI制御部109は、ユーザ2が、公報のAI分類を修正するために、当該AI分類とは異なるユーザ分類を付与する場合、当該ユーザ分類の選択の根拠としたキーワード又は文章の入力を、分類装置100の管理者へのフィードバック欄210にて受け付けてよい。UI制御部109は、当該公報の出願番号、AI分類、ユーザ分類、及び、入力されたキーワード又は文章等を、分類装置100又は管理者向けの所定のサーバ(図示しない)に送信してよい。これにより、分類装置100の管理者は、送信されたこれらの情報を、分類実行部107における分類精度の向上に利用することできる。
<分類性能に基づいて表示態様を切り替える方法>
UI制御部109は、分類性能に応じて、学習モデル情報の表示方法を切り替えてよい。
UI制御部109は、分類性能に応じて、学習モデル情報の表示方法を切り替えてよい。
例えば、UI制御部109は、分類性能毎に異なる色を定めておき、図17に示すような学習モデル情報を表示する際に、当該学習モデル120の分類性能に対応する色を表示してよい。例えば、分類性能の高いものから順に、青、緑、赤と定めておき、UI制御部109は、分類性能が最も高い学習モデル情報を、青色にて表示してよい。
また、UI制御部109は、図17に示すように、学習モデル情報を表示する際に、当該学習モデル120の分類性能を示す値を合わせて表示してよい。
これにより、ユーザ2は、AI分類に使用された学習モデル120の分類性能を容易に認識できる。よって、ユーザ2は、分類性能に応じて品質重視で確認したり、スピード重視で確認したりでき、AI分類を効率的に確認することができる。
図24は、実施の形態2に係る分類結果リストと共に分類性能に関するコメントを表示する例を示す図である。図25は、実施の形態2に係る分類結果リストと共に要注意マークを表示する例を示す図である。
UI制御部109は、学習モデル120の分類項目毎の分類性能に応じて、UIの表示態様を切り替えてよい。
例えば、UI制御部109は、分類結果リストを表示する際、当該分類結果の出力に用いられた学習モデル120の分類性能が所定の閾値以下である場合、図24に示すように、分類精度が低い学習モデル120のため十分な確認が必要である旨のコメントを合わせて表示してよい。
例えば、UI制御部109は、AI分類Bの分類性能が他のAI分類の分類性能と比較して低い場合、AI分類Bのセルをマーキング又は色分けして表示してよい。これにより、ユーザ2は、品質重視で確認すべきAI分類Bを認識し易くなる。
例えば、UI制御部109は、分類スコアと分類性能とを組み合わせて、UIの表示態様を切り替えてよい。このように、分類スコアだけでなく、分類性能も組み合わせてUIの表示態様を切り替えることにより、例えば図25に示すように、品質重視で確認すべき公報に「要注意マーク」を付与することができる。
<学習モデルの初期の分類性能を算出する方法>
上述では、分類実行部107が学習モデル120を用いて公報に付与したAI分類を、ユーザ2が確認し、必要に応じて当該公報にユーザ分類を付与することにより、当該学習モデル120の分類性能を算出し、当該分類性能に関する情報をUIとして表示する例を説明した。この場合、例えば、次のようなS11~S19の処理が行われる。
上述では、分類実行部107が学習モデル120を用いて公報に付与したAI分類を、ユーザ2が確認し、必要に応じて当該公報にユーザ分類を付与することにより、当該学習モデル120の分類性能を算出し、当該分類性能に関する情報をUIとして表示する例を説明した。この場合、例えば、次のようなS11~S19の処理が行われる。
(S11)ユーザ2は、例えば300件の公報に正解分類を手動で付与し、300件の教師データを作成する。
(S12)モデル学習部104は、これら300件の教師データを用いて、学習モデル120の学習を行う。
(S13)1回目のSDI(Selective Dissemination of Information)が例えば100件到着した場合、分類実行部107は、学習モデル120を用いて、その100件の公報にAI分類を付与する。
(S14)UI制御部109は、S3にて100件の公報に付与されたAI分類をユーザ2に確認させるためのUIを表示する。
(S15)ユーザ2は、S14のUIを通じて、誤ったAI分類が付与されている公報に正解となるユーザ分類を付与するフィードバックを行う。
(S16)分類性能測定部130は、S15におけるユーザからのフィードバックを用いて、学習モデル120の分類性能を測定する。
(S17)2回目のSDIが例えば80件到着した場合、分類実行部107は、学習モデル120を用いて、その80件の公報にAI分類を付与する。
(S18)UI制御部109は、S17にて80件の公報に付与されたAI分類をユーザ2に確認させるためのUIを表示する。このとき、UI制御部109は、S16にて測定した学習モデル120の分類性能を合わせて表示する。
(S19)ユーザ2は、S18のUIを通じて、誤ったAI分類が付与されている公報に正解となるユーザ分類を付与するフィードバックを行う。このとき、ユーザ2は、表示された学習モデル120の分類性能に基づき、80件の公報を効率的に確認できる。
なお、3回目のSDIについては、UI制御部109は、1回目の100件と2回目の80件の合計180件に対するユーザ2からのフィードバックを用いて測定された学習モデル120の分類性能を表示してよい。
(S12)モデル学習部104は、これら300件の教師データを用いて、学習モデル120の学習を行う。
(S13)1回目のSDI(Selective Dissemination of Information)が例えば100件到着した場合、分類実行部107は、学習モデル120を用いて、その100件の公報にAI分類を付与する。
(S14)UI制御部109は、S3にて100件の公報に付与されたAI分類をユーザ2に確認させるためのUIを表示する。
(S15)ユーザ2は、S14のUIを通じて、誤ったAI分類が付与されている公報に正解となるユーザ分類を付与するフィードバックを行う。
(S16)分類性能測定部130は、S15におけるユーザからのフィードバックを用いて、学習モデル120の分類性能を測定する。
(S17)2回目のSDIが例えば80件到着した場合、分類実行部107は、学習モデル120を用いて、その80件の公報にAI分類を付与する。
(S18)UI制御部109は、S17にて80件の公報に付与されたAI分類をユーザ2に確認させるためのUIを表示する。このとき、UI制御部109は、S16にて測定した学習モデル120の分類性能を合わせて表示する。
(S19)ユーザ2は、S18のUIを通じて、誤ったAI分類が付与されている公報に正解となるユーザ分類を付与するフィードバックを行う。このとき、ユーザ2は、表示された学習モデル120の分類性能に基づき、80件の公報を効率的に確認できる。
なお、3回目のSDIについては、UI制御部109は、1回目の100件と2回目の80件の合計180件に対するユーザ2からのフィードバックを用いて測定された学習モデル120の分類性能を表示してよい。
しかし、上記S14のように、作成直後の学習モデル120については、当該学習モデル120を用いて公報に付与したAI分類に対するユーザ2からのフィードバックが得られていないため、上記S18とは異なり、学習モデル120の分類性能を合わせて表示することができない。よって、ユーザ2は、上記S15において、学習モデル120の分類性能を考慮してフィードバックを行うことができない。
そこで、UI制御部109は、ユーザ2からのフィードバックが得られていない作成直後の学習モデル120についても分類性能を表示できるようにする。すなわち、上記S14の段階においても学習モデル120の分類性能を表示できるようにする。
例えば、分類性能測定部130は、交差検証という公知の手法を用いて、作成直後の学習モデル120の分類性能を測定する。交差検証では、正解分類付きの教師データの一部を、学習モデル120の分類性能を測定するために利用する。
次に、図26を参照して、交差検証による学習モデル120の分類性能の測定方法の一例を説明する。図26は、実施の形態2に係る交差検証を説明するための図である。例えば、分類装置100は、次のS21~S27の処理を行ってよい。
(S21)モデル学習部104は、学習モデル120の学習用に用意した教師データセットを、第1~第5の教師データセットに分割する。
(S22)モデル学習部104は、第2~第5の教師データセットを用いて第1の学習モデル120の学習を行う。分類性能測定部130は、第1の教師データセットをテストデータセットとして第1の学習モデル120の分類性能を測定する。
(S23)モデル学習部104は、第1及び第3~5の教師データセットを用いて第2の学習モデル120の学習を行う。分類性能測定部130は、第2の教師データセットをテストデータセットとして第2の学習モデル120の分類性能を測定する。
(S24)モデル学習部104は、第1~2及び第4~5の教師データセットを用いて第3の学習モデル120の学習を行う。分類性能測定部130は、第3の教師データをテストデータセットとして第3の学習モデル120の分類性能を測定する。
(S25)モデル学習部104は、第1~3及び第5の教師データセットを用いて第4の学習モデル120の学習を行う。分類性能測定部130は、第4教師データをテストデータセットとして第4の学習モデル120の分類性能を測定する。
(S26)モデル学習部104は、第1~4の教師データセットを用いて第5の学習モデル120の学習を行う。分類性能測定部130は、第5教師データをテストデータセットとして第5の学習モデル120の分類性能を測定する。
(S27)分類性能測定部130は、S22~S26にて測定した分類性能を平均し、学習モデル120の初期の分類性能を算出する。
(S22)モデル学習部104は、第2~第5の教師データセットを用いて第1の学習モデル120の学習を行う。分類性能測定部130は、第1の教師データセットをテストデータセットとして第1の学習モデル120の分類性能を測定する。
(S23)モデル学習部104は、第1及び第3~5の教師データセットを用いて第2の学習モデル120の学習を行う。分類性能測定部130は、第2の教師データセットをテストデータセットとして第2の学習モデル120の分類性能を測定する。
(S24)モデル学習部104は、第1~2及び第4~5の教師データセットを用いて第3の学習モデル120の学習を行う。分類性能測定部130は、第3の教師データをテストデータセットとして第3の学習モデル120の分類性能を測定する。
(S25)モデル学習部104は、第1~3及び第5の教師データセットを用いて第4の学習モデル120の学習を行う。分類性能測定部130は、第4教師データをテストデータセットとして第4の学習モデル120の分類性能を測定する。
(S26)モデル学習部104は、第1~4の教師データセットを用いて第5の学習モデル120の学習を行う。分類性能測定部130は、第5教師データをテストデータセットとして第5の学習モデル120の分類性能を測定する。
(S27)分類性能測定部130は、S22~S26にて測定した分類性能を平均し、学習モデル120の初期の分類性能を算出する。
<誤った正解分類を含む教師データの生成を抑制する方法>
上記S11において、ユーザ2が、300件の公報に手動で正解分類を付与する際に誤った正解分類を付与してしまう可能性がある。あるいは、複数のユーザ2で手分けして300件の公報に手動で正解分類を付与する際に、ユーザ間の解釈の違いによって誤った正解分類が付与されてしまう可能性がある。そこで、以下では、誤った正解分類を含む教師データの生成を抑制する方法について説明する。
上記S11において、ユーザ2が、300件の公報に手動で正解分類を付与する際に誤った正解分類を付与してしまう可能性がある。あるいは、複数のユーザ2で手分けして300件の公報に手動で正解分類を付与する際に、ユーザ間の解釈の違いによって誤った正解分類が付与されてしまう可能性がある。そこで、以下では、誤った正解分類を含む教師データの生成を抑制する方法について説明する。
図27は、実施の形態2に係る複数の学習モデル120の分類結果を用いて誤りの可能性のある正解分類を検出する方法を説明するための図である。
例えば、図26に示すように、上記S22にて学習された学習モデル120を第1の学習モデル120、上記のS23にて学習された学習モデル120を第2の学習モデル120といったように、交差検証により、k(kは2以上の整数)個の学習モデル120を生成する。そして、図27に示すように、分類実行部107は、ある教師データについて、第1~kの学習モデル120のそれぞれを用いて分類結果を得る。ここで、図27の表の1行目に示すように、当該教師データについて、第1~kの学習モデル120のすべて(又は所定数以上)においてAI分類Bと判断されたにも関わらず、ユーザ2が付与した正解分類が分類Aである場合、ユーザ2が付与した正解分類Aの方が誤っている可能性がある。この場合、UI制御部109は、ユーザ2が付与した教師データの正解分類Aが誤っている可能性があることを、当該ユーザに通知してよい。
次に、図28を参照して、誤りの可能性のある正解分類を検出する処理の一例を説明する。図28は、実施の形態2に係る誤りの可能性のある正解分類を検出する処理の一例を示すフローチャートである。
S501として、教師データ生成部102は、事前評価した教師データを取得する。
S502として、モデル学習部104は、上述した交差検証により、教師データセットの一部を用いて各学習モデル120の学習を行う。
S503として、分類性能測定部130は、上述した交差検証により、教師データセットの一部であるテストデータセットを用いて各学習モデル120の分類性能を算出する。
S504として、分類実行部107は、各教師データについて各学習モデル120による分類結果を得る。そして、UI制御部109は、各教師データについて、上述したように、各学習モデル120の分類結果と、正解分類とを比較し、正解分類が誤りの可能性がある教師データが存在するか否かを判定する。正解分類が誤りの可能性がある教師データが存在しない場合(S504:NO)、分類装置100は、S507の処理に進む。誤りの可能性のある正解分類を含む教師データが存在する場合(S504:YES)、分類装置100は、S505の処理に進む。
S505として、UI制御部109は、誤りの可能性のある正解分類を含む教師データについて、正解分類の訂正案をユーザに通知する。正解分類の訂正案は、上記したように多数の学習モデル120(例えば所定数以上の学習モデル120)が共通で示した分類結果であってよい。
S506として、ユーザ2は、当該訂正案を参考にしながら、必要に応じて教師データの正解分類を訂正する。
S507として、UI制御部109は、学習モデル120の分類性能に応じたUIを表示する。そして、本処理は終了する。
以上の処理により、ユーザ2は、誤った正解分類を容易に訂正することができる。よって、誤った正解分類を含む教師データの生成を抑制できる。
なお、UI制御部109は、上記の誤りの可能性のある正解分類を付与したユーザ2の識別情報(例えば氏名)を記録してよい。そして、UI制御部109は、あるユーザ2が誤りの可能性のある正解分類を多数(例えば所定数以上)付与している場合、そのユーザ2の識別情報を表示してよい。これにより、例えば、当該ユーザ2が付与した正解分類を他のユーザ2が容易に再チェックすることができる。そして、もし当該ユーザ2の正解分類が誤りであるならば、他のユーザ2は、付与されている正解分類を訂正することができる。加えて、モデル学習部104が、訂正した正解分類を含む教師データを用いて再学習を行うことにより、学習モデル120の分類性能が向上し得る。
次に、図29を参照して、学習に用いる公報の属性をユーザが選択する方法について説明する。図29は、実施の形態2に係る学習に用いる公報の属性を選択するUIの一例を示す図である。
モデル学習部104は、1つの教師データから、複数の学習モデル120を作成してよい。
例えば、図29に示すように、UI制御部109は、公報に含まれる複数の属性のうち、学習に使用する属性をユーザ2に選択させるためのUIを表示してよい。そして、モデル学習部104は、その選択された属性の組み合わせ(以下、学習モデルパターンと称する)ごとに学習モデル120を作成してよい。例えば、第1の学習モデルパターンとして、「出願人」、「IPC」、「要約」、及び、「特許請求の範囲(すべての請求項)」の属性が選択され、第2の学習モデルパターンとして、「発明が解決しようとする課題」、「課題を解決するための手段」の属性が選択されてよい。
分類性能測定部130は、学習モデルパターンごとに分類性能を算出してよい。UI制御部109は、これら算出された学習モデルパターンごとの分類性能を表示してよい。さらに、分類性能測定部130は、学習モデルパターンごとに加えて、分類項目ごとに分類性能を算出してよい。UI制御部109は、これら算出された分類項目ごとの分類性能を表示してよい。これにより、ユーザ2は、学習モデルパターンごと、及び/又は、分類項目ごとの分類性能を認識できる。
また、UI制御部109は、上記にて算出した分類性能を、混合行列として表示してよい。
従来、教師データに用いる公報の属性は、分類装置100の開発者があらかじめ検証して決定したものであり、固定的なパラメータである。ここで、属性は、例えば、「要約」を使用するか否か、「発明が解決しようとする課題」を使用するか否かを示す情報である。また、従来、教師データと学習モデル120とは1対1の関係であり、複数の学習モデル120を有することはなかった。また、仮に複数の学習モデル120を有したとしても、それらの学習モデル120を使い分ける用途と方法とがなかった。
本開示は、ユーザ2自身が教師データとして使用する公報の属性をカスタマイズし、学習モデル120の分類性能を確認することができる。よって、ユーザ2は、例えば、公報に分類A又は分類Bを付与する場合、分類Aの分類性能が極端に高い学習モデル120と、総合的な分類性能が高い学習モデル120とを使い分けてもよい。
<効率的に再学習を行う方法>
分類装置100は、ユーザ2からの最新のフィードバックを用いて、学習モデル120の再学習を行ってよい。これにより、学習モデル120の分類精度が維持及び向上し得る。しかし、学習モデル120の再学習処理には、分類装置100のリソースが比較的長時間確保される。よって、効率的な再学習が求められる。そこで以下では、効率的に再学習を行う方法の例について説明する。
分類装置100は、ユーザ2からの最新のフィードバックを用いて、学習モデル120の再学習を行ってよい。これにより、学習モデル120の分類精度が維持及び向上し得る。しかし、学習モデル120の再学習処理には、分類装置100のリソースが比較的長時間確保される。よって、効率的な再学習が求められる。そこで以下では、効率的に再学習を行う方法の例について説明する。
UI制御部109は、学習モデル120の分類性能が所定の閾値以上である場合、ユーザ2からのフィードバック後の再学習を延期しても問題ないことを、ユーザ2に通知してよい。あるいは、モデル学習部104は、学習モデル120の分類性能が所定の閾値以上である場合、ユーザ2からのフィードバック後の再学習を、直ちに実行せずに、いったん保留してよい。
UI制御部109は、学習モデル120の分類性能が所定の閾値未満である場合、それまで保留していたユーザ2からのフィードバックと、既存の分類結果とを用いて再学習を行った方がよいことを、ユーザ2に通知してよい。あるいは、モデル学習部104は、学習モデル120の分類性能が所定の閾値未満である場合、それまで保留していたユーザ2からのフィードバックと、既存の分類結果とを用いて、再学習を自動的に実行してよい。
例えば、SDIとして到着した100件の公報のAI分類に対してユーザ2からフィードバックされたタイミングにて直ちに学習モデル120の再学習を行うシステムの場合、複数の再学習処理が重複し、いずれの再学習処理も完了までに長時間を要してしまう可能性がある。あるいは、例えば、深夜の所定の時刻(例えば午前3時)までにユーザ2からフィードバックされたものを用いて学習モデル120の再学習を行うシステムの場合、複数の再学習処理が重複し、いずれの再学習処理も完了までに長時間を要してしまう可能性がある。
これに対して、上述の構成によれば、分類性能が閾値以上である学習モデル120(つまり分類性能が比較的高い学習モデル120)よりも、分類性能が閾値未満である学習モデル120(つまり分類性能が比較的低い学習モデル120)が優先的に再学習される。一般的に、分類性能が比較的高い学習モデル120の分類性能をさらに向上させることよりも、分類性能が比較的低い学習モデル120の分類性能を向上させることの方が、ユーザ2のメリットは大きいので、上記の構成によれば、効率的に再学習を行うことができる。
また、ユーザ2が手動で再学習を指示するシステムの場合、従来は、ユーザ2は再学習を行う目安が分からず、フィードバックを行うたびに再学習を指示したり、再学習をまったく指示しなかったりすることが考えられる。これに対して、上述の構成によれば、再学習を行う目安がユーザ2に通知される、あるいは、再学習を行った方がよいタイミングで自動的に再学習処理が行われる。よって、上述の構成によれば、効率的に再学習を行うことができる。
また、モデル学習部104は、学習モデル120の分類性能に応じて再学習の頻度を変化させてよい。例えば、モデル学習部104は、分類性能が所定の閾値未満である(つまり分類性能が比較的低い)学習モデル120についてはユーザ2からのフィードバックを受けるごとに再学習を行い、分類性能が所定の閾値以上である(つまり分類性能が比較的高い)学習モデル120についてはユーザ2からのフィードバックを所定の回数受けた後にまとめて再学習を行ってよい。
例えば、分類性能の比較的低い学習モデル120を用いて100件の公報に付与されたAI分類があるとする。この場合、モデル学習部104は、ユーザ2から当該100件の公報のAI分類に対するユーザからのフィードバックを受けたタイミングで、当該フィードバックを用いて、当該分類性能の比較的低い学習モデル120の再学習を行ってよい。あるいは、モデル学習部104は、毎晩深夜の所定の時刻に、当該時刻までに受けたユーザ2からのフィードバックを用いて、当該分類性能の低い学習モデル120の再学習を行ってよい。
例えば、分類性能の比較的高い学習モデル120を用いて公報に付与されたAI分類があるとする。ユーザ2は、3月1日に100件の当該公報のAI分類に対してフィードバックを行い、3月8日にさらに100件の当該公報のAI分類に対してフィードバックを行い、3月15日にさらに100件の当該公報のAI分類に対してフィードバックを行ったとする。この場合、モデル学習部104は、3月1日のユーザ2からのフィードバックを受けたタイミング、及び、3月8日のユーザ2からのフィードバックを受けたタイミングでは再学習を行わず(つまり再学習を延期し)、3月15日のユーザ2からのフィードバックを得たタイミングで、これら3回分のユーザ2からのフィードバックと既存分のユーザ2からのフィードバックとを用いて、当該分類性能の比較的高い学習モデル120の再学習を行ってよい。あるいは、モデル学習部104は、3月末に、それまでに得たユーザ2からのフィードバックを用いて、まとめて当該分類性能の比較的高い学習モデル120の再学習を行ってよい。
また、モデル学習部104は、分類性能が所定の閾値未満である(つまり分類性能の比較的低い)学習モデル120についてはユーザ2からのフィードバックを受けるごとに再学習を行い、分類性能が所定の閾値以上である(つまり分類性能の比較的高い)学習モデル120については、前回再学習を実施した日から所定期間以上経過しているか否かに基づいて、学習頻度を変えてよい。
例えば、モデル学習部104は、分類性能が所定の閾値以上である(つまり分類性能の比較的高い)学習モデル120については、3月1日、3月15日、3月22日、3月29日の分を3月分として、月1回、再学習を行ってよい。
また、UI制御部109は、学習モデル120の最終更新日時を表示してよい。学習モデル120の最終更新日時は、例えば、学習モデル120を作成した日、又は、最後に再学習を実施した日であってよい。
また、UI制御部109は、学習モデル情報のリストを表示する際、各学習モデル120の分類性能を表示してよい。
ユーザ2が手動で再学習を指示しない場合、分類性能が所定の閾値以上である学習モデル120については、分類性能が所定の閾値未満となるまで再学習が行われないことも考えられる。しかし、分類性能が所定の閾値以上であっても、分類性能の維持及び向上のため、定期的に再学習を行った方がよい場合がある。上述の構成によれば、分類性能の比較的低い学習モデル120の再学習を優先させつつ、分類性能の比較的高い学習モデル120についても適切に再学習が行われる。
次に、図30を参照して、再学習のタイミングを調整する処理について説明する。図30は、実施の形態2に係る再学習を行うタイミングを調整する処理の一例を示すフローチャートである。
S601~S610として、分類装置100は、図8に示すS101~S110と同様の処理を行う。
S611として、UI制御部109は、分類結果DB108から確認フラグが2(本評価)の分類結果情報を取得する。
S612として、UI制御部109は、該当する学習モデル120の分類性能を取得する。
S613として、UI制御部109は、分類性能が所定の閾値以上であるか否かを判定する。UI制御部109は、分類性能が所定の閾値未満であると判定した場合(S613:NO)、S616の処理に進む。UI制御部109は、分類性能が所定の閾値以上であると判定した場合(S613:YES)、S614の処理に進む。
S614として、UI制御部109は、前回の学習日から所定の一定期間経過しているか否かを判定する。UI制御部109は、前回の学習日から所定の一定期間経過していると判定した場合(S614:YES)、S616の処理に進む。UI制御部109は、前回の学習日から所定の一定期間経過していないと判定した場合(S614:NO)、S615の処理に進む。
S615として、UI制御部109は、学習モデル120について再学習を保留してよい旨を示す情報を表示し、本処理を終了する。
S616として、UI制御部109は、学習モデル120について再学習を推奨する旨を示す情報を表示する。そして、分類装置100は、本処理を終了する。
以上の処理によれば、分類性能が閾値以上であり、前回の学習から一定期間経過してない場合、再学習を保留してよい旨がユーザ2に通知される。加えて、分類性能が閾値未満の場合、又は、前回の学習から一定期間経過している場合、再学習が推奨される。よって、分類装置100は、再学習を効率的に行うことができる。
次に、図31を参照して、複数の学習モデル120の学習処理を行う順番を待ち行列(キュー)によって管理する例について説明する。図31は、実施の形態2に係る学習の待ち行列を説明するための図である。
モデル学習部104は、学習の待ち行列(順番待ち)が存在する場合、学習モデル120の優先度に応じて、学習を行う順番を変更してよい。例えば、モデル学習部104は、下記の(A1)から(A5)のいずれかを行ってよい。
(A1)モデル学習部104は、学習の待ち行列を、分類性能の低い学習モデル120の順に並び替える。
(A2)モデル学習部104は、学習の待ち行列を、分類性能が所定の閾値未満、かつ、学習の実行指示の時刻が早い学習モデル120の順、次いで、分類性能が所定の閾値以上、かつ、学習の実行指示の時刻が早い学習モデル120の順に並び替える。
(A3)モデル学習部104は、学習の待ち行列において、初回の学習の優先度を上げる。初回の学習は、学習モデル120が存在しない(つまり推論ができない)ためである。
(A4)モデル学習部104は、学習の待ち行列を、学習モデル120の作成日又は更新日の古い順に並び替える。
(A5)モデル学習部104は、上記(A1)から(A4)を組み合わせて並び替えを行う。
(A2)モデル学習部104は、学習の待ち行列を、分類性能が所定の閾値未満、かつ、学習の実行指示の時刻が早い学習モデル120の順、次いで、分類性能が所定の閾値以上、かつ、学習の実行指示の時刻が早い学習モデル120の順に並び替える。
(A3)モデル学習部104は、学習の待ち行列において、初回の学習の優先度を上げる。初回の学習は、学習モデル120が存在しない(つまり推論ができない)ためである。
(A4)モデル学習部104は、学習の待ち行列を、学習モデル120の作成日又は更新日の古い順に並び替える。
(A5)モデル学習部104は、上記(A1)から(A4)を組み合わせて並び替えを行う。
上記の構成によれば、学習の優先度の高い学習モデル120から順に学習を行うことができるので、効率的に学習できる。また、モデル学習部104は、当該学習の待ち行列の順番を変更する方法と、上記の学習モデル120の分類性能に応じて再学習の頻度を変化させる方法と、上記の学習モデル120の最終更新日時を表示する方法とを組み合わせることにより、さらに効率的に学習できる。
例えば、図31の上段に示す学習の待ち行列に、分類性能「0.6」の学習データセット4が新たに投入された場合、上記(A1)に従い、図31の下段に示すように、モデル学習部104は、分類性能の低い順に待ち行列を並び変えてよい。
(実施の形態3)
実施の形態3では、実施の形態1又は2にて説明済みの構成要素については同一の参照符号を付し、説明を省略する場合がある。また、実施の形態1又は2にて図面に記載される構成要素であっても、実施の形態3にて説明しない構成要素については、説明をわかりやすくするため、図面の記載を省略する場合がある。これは、実施の形態3が記載を省略された構成要素を含まないことを意味しない。
実施の形態3では、実施の形態1又は2にて説明済みの構成要素については同一の参照符号を付し、説明を省略する場合がある。また、実施の形態1又は2にて図面に記載される構成要素であっても、実施の形態3にて説明しない構成要素については、説明をわかりやすくするため、図面の記載を省略する場合がある。これは、実施の形態3が記載を省略された構成要素を含まないことを意味しない。
図32は、実施の形態3に係る分類システム10の構成例を示すブロック図である。
分類システム10は、分類サーバ40及び顧客サーバ50を備える。分類サーバ40は、公報にAI分類を付与するサーバである。顧客サーバ50は、分類サーバ40が提供する分類サービスを利用する顧客(ユーザ)が管理するサーバである。顧客(ユーザ)は、企業又は個人のいずれであってもよい。なお、顧客サーバ50は第1サーバ、分類サーバ40は第2サーバと読み替えられてもよい。
特許公報の分類情報は、企業のノウハウに該当するため、顧客サーバ50に格納したいユーザも存在し得る。一方、AI分類を付与する処理は、リソース利用負荷が高いため、分類サーバ40で行われる方が好ましい場合もある。
学習又は推論のインプットとなる公報リストは、テキスト量が膨大であるため、データ量が大きい。よって、当該公報リストをそのまま顧客サーバ50と分類サーバ40との間でやり取りすると、通信ネットワーク30に大きな負荷がかかってしまう。さらに、データ転送にも時間がかかるため、当該分類システム10を利用するユーザの作業効率が低下する。
そこで、本実施の形態では、このように顧客サーバ50と分類サーバ40とを備える分類システム10において、通信ネットワーク30の負荷を軽減すると共に、ユーザの作業効率を向上させる方法について説明する。
学習モデル120の学習を行う際、顧客サーバ50は、公報の分類情報(例えば正解分類)と、公報の識別情報(以下、公報識別情報という)とを分類サーバ40に送信し、分類サーバ40は、受信した公報識別情報をキーとして公報DB101から、公報に含まれる学習に必要な情報を取得し、その取得した情報を、受信した分類情報及び公報識別情報と統合し、教師データを作成する。ここで、公報識別情報は、特許公報を一意に識別するための情報であり、例えば、特許公報の出願番号、公開番号、登録番号等である。
これにより、顧客サーバ50と分類サーバ40との間でやり取りするデータ量が削減されるので、通信ネットワーク30にかかる負荷を軽減できる。さらに、データ転送に要する時間も短縮されるため、ユーザの作業効率が向上する。
また、AI分類を付与する場合、顧客サーバ50は、公報識別情報を分類サーバ40に送信し、分類サーバ40は、受信した公報識別情報をキーとして公報DB101から公報に含まれるAI分類の付与に必要な情報を取得し、その取得した情報を、受信した公報識別情報と統合し、当該公報識別情報にAI分類を付与する。
また、分類サーバ40へのデータの格納は一時的なものとし、分類情報等は、分類サーバ40から顧客サーバ50へ送付された後に、自動削除されてよい。これにより、企業のノウハウに相当する分類情報が分類サーバ40に残らないので、企業は安心して分類サーバ40を利用できる。
以下、上述した内容について詳細に説明する。
図32に示すように、分類サーバ40は、公報DB101、第1教師データ生成部134、教師データDB103、モデル格納部105、分類実行部107、第1教師データ通信部131、第1分類結果通信部132、及び、第1モデル情報通信部133を備える。
分類サーバ40は、図12に示すコンピュータ1000によって構成されてよい。第1教師データ生成部134の処理は、図12に示すプロセッサ1001がメモリ1002と協調動作することによって実現されてよい。また、第1教師データ通信部131、第1分類結果通信部132、第1モデル情報通信部133の処理は、図12に示すプロセッサ1001がメモリ1002及び通信装置1006と協調動作することによって実現されてよい。
第1教師データ通信部131は、顧客サーバ50の第2教師データ通信部141から送信される教師データ情報を、通信ネットワーク30を介して受信する。教師データ情報は、教師データの公報識別情報と正解分類との対応関係を示す情報を含み、公報の実体(例えば公報識別情報以外の公報の属性)を含まなくてよい。あるいは、教師データ情報は、公報の実体を含む教師データと、公報の実体を含まない教師データとを混在して含んでもよい。
第1教師データ生成部134は、第1教師データ通信部131が受信した教師データに基づいて、教師データを生成する。例えば、第1教師データ生成部134は、教師データ情報に含まれる公報識別情報に対応する公報を公報DB101から取得する。
第1分類結果通信部132は、分類実行部107によって生成された分類結果情報を、通信ネットワーク30を介して、顧客サーバ50へ送信する。分類結果情報は、分類実行部107によって公報に付与されたAI分類と、当該公報の公報識別情報との対応関係を示す情報を含む。
第1モデル情報通信部133は、顧客サーバ50の第2モデル情報通信部143から送信されるモデル評価情報を、通信ネットワーク30を介して受信する。モデル評価情報は、学習モデル120の識別情報と当該学習モデル120の評価情報との対応関係を示す情報を含む。
顧客サーバ50は、公報DB101、第2教師データ生成部144、分類結果DB108、モデル評価部110、UI制御部109、第2教師データ通信部141、第2分類結果通信部142、及び、第2モデル情報通信部143を備える。
顧客サーバ50は、図12に示すコンピュータ1000によって構成されてよい。第2教師データ生成部144の処理は、図12に示すプロセッサ1001がメモリ1002と協調動作することによって実現されてよい。また、第2教師データ通信部141、第2分類結果通信部142、第2モデル情報通信部143の処理は、図12に示すプロセッサ1001がメモリ1002及び通信装置1006と協調動作することによって実現されてよい。
第2教師データ生成部144は、公報DB101から取得した公報にユーザ2が正解分類を付与して教師データを生成する。
第2教師データ通信部141は、第2教師データ生成部144によって生成された教師データの公報識別情報と正解分類との対応関係を示す情報を含む教師データ情報を、通信ネットワーク30を介して分類サーバ40へ送信する。
第2分類結果通信部142は、通信ネットワーク30を介して、分類サーバ40から分類結果情報を受信し、分類結果情報を分類結果DB108に格納する。
第2モデル情報通信部143は、モデル評価部110によって生成されたモデル評価情報を、通信ネットワーク30を介して、分類サーバ40へ送信する。
なお、分類システム10は、分類サーバ40及び顧客サーバ50とは異なる所定のサーバが公報DB101を備える構成であってもよい。この場合、分類サーバ40及び顧客サーバ50は、自ら公報DB101を備えずに、その所定のサーバの公報DB101にアクセスしてよい。
次に、図33を参照して、分類サーバ40による学習処理の一例を説明する。図33は、実施の形態3に係る分類サーバ40による学習処理の一例を示すフローチャートである。
S701として、第1教師データ生成部134は、第1教師データ通信部131が受信した教師データ情報を取得する。
S702として、第1教師データ生成部134は、教師データ情報において学習に用いる公報の属性の実体が不足しているか否かを判定する。学習に用いる公報の属性の実体が不足していないと判定した場合(S702:NO)、分類サーバ40は、S705の処理に進む。学習に用いる公報の属性の実体が不足していると判定した場合(S702:YES)、分類サーバ40は、S703の処理に進む。
S703として、第1教師データ生成部134は、教師データ情報に含まれる公報識別情報(例えば出願番号)をキーとして、公報DB101から不足分の公報の属性の実体を取得する。
S704として、第1教師データ生成部134は、S703にて取得した公報の属性の実体に、教師データ情報に含まれる正解分類を関連付けて、教師データを生成(再構成)する。
S705として、モデル学習部104は、S704にて生成された教師データを用いて、学習モデル120の学習を行う。
以上の処理によれば、分類サーバ40は、顧客サーバ50から送信された比較的データ量の少ない教師データ情報に基づいて、教師データを生成(再構成)し、学習モデル120の学習を行うことができる。すなわち、顧客サーバ50が公報の実体を含む教師データをそのまま分類サーバ40に送信する場合と比較して、通信ネットワーク30の負荷を軽減できる。加えて、データ転送にかかる時間も短縮されるため、公報の分類に関する作業効率が向上する。
以上、添付図面を参照しながら実施の形態について説明したが、本開示はかかる例に限定されない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても本開示の技術的範囲に属すると了解される。また、発明の趣旨を逸脱しない範囲において、上述した実施の形態における各構成要素を任意に組み合わせてもよい。
本開示の技術は、文書を分類する装置又はシステムに有用である。
2 ユーザ
10 分類システム
20 端末
30 通信ネットワーク
40 分類サーバ
50 顧客サーバ
100 分類装置
101 公報DB
102 教師データ生成部
103 教師データDB
104 モデル学習部
105 モデル格納部
106 分類対象入力部
107 分類実行部
108 分類結果DB
109 UI制御部
110 モデル評価部
120 学習モデル
130 分類性能測定部
131 第1教師データ通信部
132 第1分類結果通信部
133 第1モデル情報通信部
134 第1教師データ生成部
141 第2教師データ通信部
142 第2分類結果通信部
143 第2モデル情報通信部
144 第2教師データ生成部
200 UI画面
201 ステータス欄
202 分類欄
203 分類候補欄
204 確認チェックボックス
205 公報項目欄
206 要確認マーク
210 管理者へのフィードバック欄
1000 コンピュータ
1001 プロセッサ
1002 メモリ
1003 ストレージ
1004 入力装置
1005 出力装置
1006 通信装置
1007 GPU
1008 読取装置
1009 バス
10 分類システム
20 端末
30 通信ネットワーク
40 分類サーバ
50 顧客サーバ
100 分類装置
101 公報DB
102 教師データ生成部
103 教師データDB
104 モデル学習部
105 モデル格納部
106 分類対象入力部
107 分類実行部
108 分類結果DB
109 UI制御部
110 モデル評価部
120 学習モデル
130 分類性能測定部
131 第1教師データ通信部
132 第1分類結果通信部
133 第1モデル情報通信部
134 第1教師データ生成部
141 第2教師データ通信部
142 第2分類結果通信部
143 第2モデル情報通信部
144 第2教師データ生成部
200 UI画面
201 ステータス欄
202 分類欄
203 分類候補欄
204 確認チェックボックス
205 公報項目欄
206 要確認マーク
210 管理者へのフィードバック欄
1000 コンピュータ
1001 プロセッサ
1002 メモリ
1003 ストレージ
1004 入力装置
1005 出力装置
1006 通信装置
1007 GPU
1008 読取装置
1009 バス
Claims (5)
- 第1サーバ及び第2サーバを備える分類システムであって、
前記第1サーバは、
公報を一意に識別する情報である公報識別情報と前記公報識別情報が示す公報の正解の分類を示す情報である正解分類とを関連付けて前記第2サーバへ送信し、
前記第2サーバは、
前記第1サーバから受信した前記公報識別情報が示す前記公報に関する情報を、前記公報に関する情報を格納する公報データベースから取得し、
取得した前記公報に関する情報と、前記公報識別情報に関連付けられている前記正解分類とに基づいて、公報にAI(Artificial Intelligence)分類を付与するために用いられる学習モデルの学習を行う、
分類システム。 - 前記第1サーバは、
前記公報識別情報を前記第2サーバへ送信し、
前記第2サーバは、
前記第1サーバから受信した前記公報識別情報が示す公報に関する情報を前記公報データベースから取得し、
前記学習モデルを用いて前記公報識別情報が示す公報にAI分類を付与し、
前記公報識別情報と前記公報識別情報が示す公報に付与した前記AI分類とを関連付けて前記第1サーバへ送信する、
請求項1に記載の分類システム。 - 前記第2サーバは、
前記第1サーバへ送信済みの、前記公報識別情報と前記公報識別情報が示す公報に付与した前記AI分類とを削除する、
請求項2に記載の分類システム。 - 前記公報は、特許公報であり、
前記公報識別情報は、前記特許公報に付与される出願番号、公開番号、又は、登録番号である、
請求項1から3のいずれか1項に記載の分類システム。 - 第1サーバ及び第2サーバを備える分類システムによる分類方法であって、
前記第1サーバは、
公報を一意に識別する情報である公報識別情報と前記公報識別情報が示す公報の正解の分類を示す情報である正解分類とを関連付けて前記第2サーバへ送信し、
前記第2サーバは、
前記第1サーバから受信した前記公報識別情報が示す前記公報に関する情報を、前記公報に関する情報を格納する公報データベースから取得し、
取得した前記公報に関する情報と、前記公報識別情報に関連付けられている前記正解分類とに基づいて、公報にAI分類を付与するために用いられる学習モデルの学習を行う、
分類方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022186029A JP2023014159A (ja) | 2021-02-19 | 2022-11-21 | 分類システム、及び、分類方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021025470A JP2022127363A (ja) | 2021-02-19 | 2021-02-19 | 分類システム、及び、分類方法 |
JP2022186029A JP2023014159A (ja) | 2021-02-19 | 2022-11-21 | 分類システム、及び、分類方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021025470A Division JP2022127363A (ja) | 2021-02-19 | 2021-02-19 | 分類システム、及び、分類方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023014159A true JP2023014159A (ja) | 2023-01-26 |
Family
ID=83060360
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021025470A Pending JP2022127363A (ja) | 2021-02-19 | 2021-02-19 | 分類システム、及び、分類方法 |
JP2022186029A Pending JP2023014159A (ja) | 2021-02-19 | 2022-11-21 | 分類システム、及び、分類方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021025470A Pending JP2022127363A (ja) | 2021-02-19 | 2021-02-19 | 分類システム、及び、分類方法 |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP2022127363A (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006318083A (ja) * | 2005-05-11 | 2006-11-24 | Ricoh Co Ltd | データ処理装置、データ処理システム |
JP2019087258A (ja) * | 2017-11-07 | 2019-06-06 | 株式会社日立製作所 | 情報処理装置、文書分類方法 |
-
2021
- 2021-02-19 JP JP2021025470A patent/JP2022127363A/ja active Pending
-
2022
- 2022-11-21 JP JP2022186029A patent/JP2023014159A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2022127363A (ja) | 2022-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110196908A (zh) | 数据分类方法、装置、计算机装置及存储介质 | |
US20160140106A1 (en) | Phrase-based data classification system | |
US20210064866A1 (en) | Automatic document classification using machine learning | |
JP2015001888A (ja) | 情報処理プログラム及び情報処理装置 | |
KR20110083544A (ko) | 성장형 개인 단어 데이터베이스 시스템을 이용한 언어 학습 장치 및 방법 | |
JP2018026119A (ja) | 分類システム、分類システムの制御方法、およびプログラム | |
CN109635259A (zh) | 一种电子试卷生成方法、装置、设备和存储介质 | |
JP2019125145A (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム | |
JP7364709B2 (ja) | 機械学習および自然言語処理を利用したワクチン接種データの抽出および確認 | |
JP7409061B2 (ja) | 文書管理装置及び文書管理プログラム | |
JP6714268B1 (ja) | 質問文出力方法、コンピュータプログラム及び情報処理装置 | |
US11334706B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
CN110321882A (zh) | 一种学习资源获取方法、装置、学习终端和存储介质 | |
JP6890764B2 (ja) | 教師データ生成システム、教師データ生成方法、及びプログラム | |
JP2023014159A (ja) | 分類システム、及び、分類方法 | |
CN113296769A (zh) | 数据处理方法、视觉稿的处理方法、系统及电子设备 | |
JP7199028B2 (ja) | 分類装置、分類方法、及び、コンピュータプログラム | |
Oleksiv et al. | Recommendation System for Monitoring the Energy Value of Consumer Food Products Based on Machine Learning. | |
US20200327319A1 (en) | Agency Notice Processing System | |
JP6857225B1 (ja) | 分析装置、分析方法、及びコンピュータプログラム | |
JP7383090B2 (ja) | 情報処理装置、方法、およびプログラム | |
JP6857226B1 (ja) | 表示方法、情報端末装置、及びコンピュータプログラム | |
JP6565145B2 (ja) | 処理方法、処理装置及びプログラム | |
JP2024100020A (ja) | 分類装置、分類器の学習方法、及び、コンピュータプログラム | |
CN117236347B (zh) | 交互文本翻译的方法、交互文本的显示方法和相关装置 |