JP7199028B2

JP7199028B2 - 分類装置、分類方法、及び、コンピュータプログラム

Info

Publication number: JP7199028B2
Application number: JP2020219310A
Authority: JP
Inventors: 慶宇春; 拓児橋本
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2023-01-05
Anticipated expiration: 2040-12-28
Also published as: JP2022104232A; JP2023029991A

Description

本開示は、分類装置、分類方法、及び、コンピュータプログラムに関する。

特許文献１には、分類システムは、学習モデルを用いて公報に付与する分類を特定し、特定した分類に対応するユーザの端末に当該分類を付与された公報を表示し、ユーザは、表示された当該公報が当該ユーザの開発部門に関係ない場合、もしくは特定した分類が誤っている場合、自部門に関係ない旨を指定したり、適切な分類を指定したりすることが開示されている。当該学習モデルは、ニューラルネットワークにて構築され、公報を入力した場合に当該公報が何れの分類に属するかを示す近似度を各分類について出力するように予め学習されている。

特開２０１８－２６１１９号公報

分類システムが付与する分類は必ずしも適切であるとは限らないため、ユーザは、分類システムが付与した分類が適切であるか否かを確認する作業を行う場合がある。しかし、特許文献１に開示の構成では、学習モデルが公報に付与した分類がユーザによって確認済みであるか否を適切に管理することができない。

本開示の目的は、学習モデルを用いて公報に付与された分類がユーザによって確認済みであるか否を適切に管理することができる技術を提供することにある。

本開示の一態様に係る分類装置は、文書と、学習モデルを用いて当該文書に付与された分類を示すＡＩ（Artificial Intelligence）分類と、ユーザが前記ＡＩ分類を確認済みであるか否かを示す確認情報とが関連付けられている情報が格納される格納部と、前記文書及び前記ＡＩ分類を表示させると共に、当該文書に関連付けられている前記確認情報が、前記ユーザが前記ＡＩ分類を未確認であることを示す場合、前記ＡＩ分類は前記ユーザによって未確認であることを示す第１の情報を表示させ、当該文書に関連付けられている前記確認情報が、前記ユーザが前記ＡＩ分類を確認済みであることを示す場合、前記ＡＩ分類は前記ユーザによって確認済みであることを示す第２の情報を表示させる制御部と、を備える。

本開示の一態様に係る分類方法は、装置によって文書を分類する分類方法であって、文書と、学習モデルを用いて当該文書に付与された分類を示すＡＩ分類と、ユーザが前記ＡＩ分類を確認済みであるか否かを示す確認情報とが関連付けられている情報を格納部に格納し、前記文書及び前記ＡＩ分類を表示させると共に、当該文書に関連付けられている前記確認情報が、前記ユーザが前記ＡＩ分類を未確認であることを示す場合、前記ＡＩ分類は前記ユーザによって未確認であることを示す第１の情報を表示させ、当該文書に関連付けられている前記確認情報が、前記ユーザが前記ＡＩ分類を確認済みであることを示す場合、前記ＡＩ分類は前記ユーザによって確認済みであることを示す第２の情報を表示させる。

本開示の一態様に係るコンピュータプログラムは、文書を分類するコンピュータプログラムであって、文書と、学習モデルを用いて当該文書に付与された分類を示すＡＩ分類と、ユーザが前記ＡＩ分類を確認済みであるか否かを示す確認情報とが関連付けられている情報を格納部に格納し、前記文書及び前記ＡＩ分類を表示させると共に、当該文書に関連付けられている前記確認情報が、前記ユーザが前記ＡＩ分類を未確認であることを示す場合、前記ＡＩ分類は前記ユーザによって未確認であることを示す第１の情報を表示させ、当該文書に関連付けられている前記確認情報が、前記ユーザが前記ＡＩ分類を確認済みであることを示す場合、前記ＡＩ分類は前記ユーザによって確認済みであることを示す第２の情報を表示させる、ことをコンピュータに実行させる。

なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又は記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

本開示によれば、学習モデルを用いて公報に付与された分類がユーザによって確認済みであるか否を適切に管理することができる。

実施の形態１に係る分類システムの構成の一例を示す模式図実施の形態１に係る分類装置の構成の一例を示すブロック図実施の形態１に係る公報ＤＢ（DataBase）のデータ構造の一例を示す図実施の形態１に係る教師データＤＢのデータ構造の一例を示す図実施の形態１に係る分類結果ＤＢのデータ構造の一例を示す図実施の形態１に係る各分類のスコアのうち第１位のスコアが第１の閾値以上である場合のＵＩ（User Interface）画面の表示の一例を示す図実施の形態１に係る各分類のスコアのうち第１位のスコアが第２の閾値未満である場合のＵＩ画面の表示例を示す図実施の形態１に係る分類処理の第１例を示すフローチャート実施の形態１に係る分類処理の第２例を示すフローチャート実施の形態１に係るモデル再学習処理の一例を示すフローチャート実施の形態１に係るモデル評価処理の一例を示すフローチャート本開示に係る分類装置及び端末のハードウェアの構成の一例を示すブロック図

以下、図面を適宜参照して、本開示の実施の形態について、詳細に説明する。ただし、必要以上に詳細な説明は省略する場合がある。例えば、すでによく知られた事項の詳細説明及び実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の記載の主題を限定することは意図されていない。

（実施の形態１）
＜分類システムの概要＞
図１を参照して、実施の形態１に係る分類システム１０の概要について説明する。図１は、実施の形態１に係る分類システム１０の構成の一例を示す模式図である。

分類システム１０は、分類装置１００及び端末２０を含んで構成される。分類装置１００及び端末２０は、通信ネットワーク３０を介して互いに情報を送受信できる。通信ネットワーク３０は、インターネット、移動体通信網（例えばＬＴＥ、４Ｇ、５Ｇ）、有線ＬＡＮ、無線ＬＡＮ、又は、それらの組み合わせであってよい。

分類装置１００は、文書の一例である公報を分類する装置である。分類装置１００は、サーバと読み替えられてもよい。公報の例として、特許、実用新案、意匠、商標等の出願公開公報又は特許掲載公報が挙げられる。また、公報の他の例として、定期的に発行される技術文献又は技術論文等が挙げられる。実施の形態１では、公報が特許の出願公開公報である場合について説明する。ただし、実施の形態１は、公報が特許の出願公開公報とは異なるものであっても実施可能である。

分類装置１００は、学習モデル１２０を用いて公報に分類を付与するサービスを提供する。また、分類装置１００は、公報に付与された分類をユーザ２に確認させ、当該公報の分類についてユーザ２が確認済みであるか否かを管理するサービスを提供する。なお、分類装置１００が提供する更なるサービスについては後述する。

端末２０は、分類装置１００が提供するサービスを利用するユーザ２によって使用される。端末２０の例として、パーソナルコンピュータ、タブレット、又は、スマートフォンが挙げられる。端末２０は、クライアントと読み替えられてもよい。

例えば、ユーザ２は、端末２０で動作するＷＥＢブラウザ又は所定のアプリケーションを通じて分類装置１００にアクセスし、分類装置１００が提供するサービスを利用する。以下の説明において、ユーザ２が分類装置１００に行う操作は、ユーザ２が端末２０を通じて分類装置１００に行う操作であってよい。以下、分類装置１００が提供するサービスについて詳しく説明する。

＜分類装置の構成＞
図２～図４を参照して、実施の形態１に係る分類装置１００の構成について説明する。図２は、実施の形態１に係る分類装置１００の構成の一例を示すブロック図である。図３は、実施の形態１に係る公報ＤＢ１０１のデータ構造の一例を示す図である。図４は、実施の形態１に係る教師データＤＢ１０３のデータ構造の一例を示す図である。図５は、実施の形態１に係る分類結果ＤＢ１０８のデータ構造の一例を示す図である。

分類装置１００は、公報ＤＢ１０１、教師データ生成部１０２、教師データＤＢ１０３、モデル学習部１０４、モデル格納部１０５、分類対象入力部１０６、分類実行部１０７、分類結果ＤＢ１０８、ＵＩ制御部１０９、及び、モデル評価部１１０を備える。公報ＤＢ１０１、教師データＤＢ１０３、モデル格納部１０５、及び、分類結果ＤＢ１０８は、図１２に示すメモリ１００２、ストレージ１００３又はそれらの組み合わせによって実現されてよい。また、公報ＤＢ１０１、教師データＤＢ１０３、モデル格納部１０５、及び、分類結果ＤＢ１０８は、格納部と読み替えられてもよい。教師データ生成部１０２、モデル学習部１０４、分類対象入力部１０６、分類実行部１０７、ＵＩ制御部１０９、及び、モデル評価部１１０は、図１２に示すプロセッサ１００１がメモリ１００２又はストレージ１００３から読み出したコンピュータプログラムを実行することにより実現されてよい。したがって、実施の形態１において、教師データ生成部１０２、モデル学習部１０４、分類対象入力部１０６、分類実行部１０７、ＵＩ制御部１０９、又は、モデル評価部１１０が主体として説明されている処理は、プロセッサ１００１を主体とする処理に読み替えられてもよい。また、プロセッサ１００１は、制御部、ＣＰＵ（Central Processing Unit）、コントローラといった他の用語に読み替えられてもよい。

公報ＤＢ１０１は、複数の公報を格納及び管理するＤＢ（DataBase）である。文献ＤＢは、図３に例示するように、データ項目として、公報の出願番号、公報の出願人又は権利者名、及び、公報の要約書等を有してよい。公報の要約書等には、公報の要約書、公報の明細書、及び、特許請求の範囲のうちの少なくとも１つが含まれてよい。また、公報ＤＢ１０１は、更なるデータ項目を有してもよい。例えば、公報ＤＢ１０１は、更なるデータ項目として、公報の図面、特許分類情報（ＩＰＣ，ＦＩ、Ｆターム等）、審査経過情報等を有してもよい。以下、公報ＤＢ１０１におけるデータ項目を、公報項目と称する。

公報ＤＢ１０１は、分類装置１００に備えられなくてもよく、例えば、通信ネットワーク３０に接続された、分類装置１００とは異なるサーバ（図示しない）に備えられてもよい。この場合、分類装置１００は、通信ネットワーク３０を通じて、公報ＤＢ１０１にアクセスしてよい。

教師データ生成部１０２は、公報ＤＢ１０１から学習モデル１２０の学習に用いる公報を取得し、教師データを生成する。例えば、教師データ生成部１０２は、取得した公報に正解の分類（つまり正解ラベル）を付与して教師データを生成する。すなわち、教師データは、公報と当該公報に付与された正解の分類とを含む。ただし、教師データは、必ずしも公報の内容のすべてを含む必要はなく、例えば、出願番号に代表される公報の識別情報と、正解の分類とを含む構成であってもよい。正解の分類の付与は、ユーザ２によって行われてよい。また、教師データ生成部１０２は、後述する分類結果ＤＢ１０８に格納される分類結果情報を用いて教師データを生成してもよい。分類結果情報を用いて教師データを生成する方法の詳細については後述する（図１０参照）。教師データ生成部１０２は、生成した教師データを、教師データＤＢ１０３に格納する。

教師データＤＢ１０３は、教師データを格納及び管理するＤＢである。教師データＤＢ１０３は、図４に例示するように、データ項目として、正解の分類（つまり正解ラベル）、及び、公報項目を有してよい。ただし、教師データＤＢ１０３は、必ずしもこれらすべてのデータ項目を有する必要はなく、例えば、データ項目として、出願番号に代表される公報の識別情報と、正解の分類とを有する構成であってもよい。これにより、教師データＤＢ１０３の容量を節約できる。この場合、モデル学習部１０４は、必要に応じて公報ＤＢ１０１から、出願番号をキーとして要約書等の情報を取得してよい。

モデル学習部１０４は、教師データＤＢ１０３に格納されている教師データを用いて、例えば公知の教師有り学習方法によって、学習モデル１２０の学習を行う。学習モデル１２０は、ニューラルネットワーク又はディープニューラルネットワークとして構成され、例えば、ＣＮＮ（Convolutional Neural Network）として構成されてよい。ただし、学習モデル１２０は、ＣＮＮに限られず、例えば、ＲＮＮ（Recurrent Neural Network）又はＳＶＭ（Support Vector Machine）等として構成されてもよい。モデル学習部１０４は、学習済みの学習モデル１２０をモデル格納部１０５に格納する。

分類対象入力部１０６は、公報ＤＢ１０１から分類対象の公報を取得し、その分類対象の公報を分類実行部１０７へ出力する。例えば、分類対象入力部１０６は、ユーザ２がまだ分類の確認を行っていない公報を、分類対象の公報として公報ＤＢ１０１から取得してよい。例えば、分類対象入力部１０６は、公報ＤＢ１０１に新たに登録された公報を、分類対象の公報として公報ＤＢ１０１から取得してよい。分類対象の公報には、まだ分類が付与されていないので、分類対象の公報は、未分類の公報と読み替えられてもよい。

分類実行部１０７は、モデル格納部１０５に格納されている学習モデル１２０を用いて、分類対象入力部１０６から入力された分類対象の公報に分類を付与する。以下、分類実行部１０７が付与した分類をＡＩ分類と称する。

分類実行部１０７は、公報を入力した場合に、予め定められた複数の分類の各々のスコアを出力するように構成されてよい。例えば、分類１のスコア、分類２のスコア、及び、分類３のスコアを算出するように構成されている分類実行部１０７に公報を入力した場合、分類実行部１０７は、当該公報についての分類１のスコア、分類２のスコア、及び、分類３のスコアを出力する。ここで、分類のスコアは、公報がその分類に適合する度合の高さを示す値であってよい。

例えば、分類実行部１０７は、分類対象の公報を学習モデル１２０を用いて、学習モデル１２０が出力した各分類のスコアを得る。例えば、分類実行部１０７は、分類１のスコア「０．３」、分類２のスコア「０．５」、分類３のスコア「０．９」を得る。次に、分類実行部１０７は、算出した各分類のスコアに基づいて、公報に付与するＡＩ分類を決定する。分類実行部１０７は、スコアの最も高い分類（つまり第１位のスコアを有する分類）を、ＡＩ分類として公報に付与してよい。例えば、分類実行部１０７は、分類１のスコア「０．３」、分類２のスコア「０．５」、分類３のスコア「０．９」を得た場合、スコアの最も高い分類３を、公報に付与するＡＩ分類に決定してよい。

また、分類実行部１０７は、分類対象の公報と、当該公報について得た各分類のスコアと、当該公報に付与したＡＩ分類と、当該ＡＩ分類についてユーザ２が未確認であることを示す値「１」（仮評価）を設定した確認フラグと、を含む分類結果情報を生成する（図５参照）。分類実行部１０７は、生成した分類結果情報を、分類結果ＤＢ１０８に格納する。

分類結果ＤＢ１０８は、分類結果情報を格納するＤＢである。分類結果ＤＢ１０８は、図５に例示するように、データ項目として、公報項目と、各分類のスコアと、ＡＩ分類と、ユーザ分類と、確認フラグとを有してよい。すなわち、分類結果情報は、公報項目と、各分類のスコアと、ＡＩ分類と、ユーザ分類と、確認フラグとを含んでよい。ただし、分類結果ＤＢ１０８は、必ずしも図５に例示するすべてのデータ項目を有する必要はなく、例えば、後述する学習モデル１２０の分類精度の算出を行わない場合、分類結果ＤＢ１０８は、ユーザ分類を有さなくてもよい。

ユーザ分類には、ユーザ２が確認した分類が設定される。ユーザ２がＡＩ分類を確認し、当該ＡＩ分類を修正しなかった場合、ユーザ分類には、当該ＡＩ分類がそのまま設定されてよい。ユーザ２がＡＩ分類を確認し、当該ＡＩ分類を別の分類に修正した場合、ユーザ分類には、当該別の分類が設定されてよい。なお、ユーザ２がＡＩ分類を未確認である場合、ユーザ分類は空欄であってよい。

確認フラグには、ＡＩ分類についてユーザ２が未確認であることを示す値「１」、又は、ＡＩ分類についてユーザ２が確認済みであることを示す値「２」が設定される。実施の形態１では、ＡＩ分類についてユーザ２が未確認であることを「仮評価」と称し、ＡＩ分類についてユーザ２が確認済みであることを「本評価」と称する。なお、上記の仮評価を示す値「１」及び本評価を示す値「２」は、互いに異なる値であれば、どのような値であってもよい。また、仮評価を示す値及び本評価を示す値は、文字又は記号等の情報であってもよい。仮評価を示す値は、第１の値又は未確認情報と読み替えられ、本評価を示す値は、第２の値又は確認済み情報と読み替えられてもよい。

ＵＩ制御部１０９は、ユーザ２の端末２０にＵＩ画面２００を表示させるためのＵＩ情報を生成する。ユーザ２は、端末２０に表示されたＵＩ画面２００を通じて、分類装置１００が提供するサービスを利用できる。例えば、ＵＩ制御部１０９は、次の処理を行う。

ＵＩ制御部１０９は、分類結果ＤＢ１０８から、分類対象の分類結果情報を取得する。そして、ＵＩ制御部１０９は、取得した分類結果情報に含まれる公報項目と、各分類のスコアと、ＡＩ分類と、確認フラグに対応するマークとを表示させるＵＩ情報を生成する。確認フラグに対応するマークは、確認フラグが「１」（仮評価）の場合、ＡＩ分類がユーザ２によって未確認であることを示す仮評価マークであり、確認フラグが「２」（本評価）の場合、ＡＩ分類がユーザ２によって確認済みであることを示す本評価マークであってよい。なお、確認フラグは確認情報、仮評価マークは第１の情報又は仮評価情報、本評価マークは第２の情報又は本評価情報と読み替えられてもよい。また、第１の情報及び第２の情報は、文字、数字、記号、及び、画像のいずれで表現されてもよい。

ＵＩ制御部１０９は、生成したＵＩ情報を端末２０に送信する。端末２０は、受信したＵＩ情報に基づいてＵＩ画面２００を表示し、ユーザ２の操作を受け付ける。なお、ＵＩ画面２００の例については後述する（図６及び図７参照）。

モデル評価部１１０は、分類結果ＤＢ１０８の分類結果情報に基づいて、学習モデル１２０の分類精度を評価する。例えば、モデル評価部１１０は、分類結果ＤＢ１０８において、確認フラグが「２」（本評価）の分類結果情報の数（確認総数）と、これらの分類結果情報のうちＡＩ分類とユーザ分類が一致する分類結果情報の数（以下、正解数という）とに基づいて、学習モデル１２０の分類精度（以下、正解率）を算出する。正解率は、例えば、「正解率＝正解数／確認総数」として算出されてよい。なお、モデル評価部１１０は、正解率、適合率、再現率、特異度及びＦ値のうちの少なくとも１つを算出して、学習モデル１２０の分類精度を評価してもよい。

モデル評価部１１０は、算出した学習モデル１２０の分類精度を、モデル格納部１０５における当該学習モデル１２０に関連付けてよい。このように関連付けられた学習モデル１２０の分類精度は、後述するように、図９におけるＳ２０７の判定処理に用いられてよい。

＜ＵＩ画面＞
図６及び図７を参照して、ＵＩ画面２００の一例について説明する。図６は、各分類のスコアのうち第１位のスコアが第１の閾値以上である場合のＵＩ画面２００の表示の一例を示す図である。図７は、各分類のスコアのうち第１位のスコアが第２の閾値未満である場合のＵＩ画面２００の表示例を示す図である。

端末２０は、分類装置１００から送信されるＵＩ情報を受信及び解析し、図６又は図７に示すＵＩ画面２００を表示してよい。例えば、ＵＩ画面２００は、各分類結果情報について、ステータス欄２０１、分類欄２０２、分類候補欄２０３、確認チェックボックス２０４、公報項目欄２０５を含む。すなわち、ＵＩ制御部１０９は、各分類結果情報について、ステータス欄２０１、分類欄２０２、分類候補欄２０３、確認チェックボックス２０４、公報項目欄２０５の内容を表示するためのＵＩ情報を生成し、端末２０に送信する。

ステータス欄２０１には、分類結果情報の確認フラグに対応するマークが表示される。例えば、ステータス欄２０１には、確認フラグが「１」の場合、仮評価マークが表示され、確認フラグが「２」の場合、本評価マークが表示される。

分類欄２０２には、ステータス欄２０１が仮評価マークである場合、分類結果情報のＡＩ分類が表示されてよい。ユーザ２は、分類欄２０２の分類を修正できてよい。例えば、分類欄２０２は、コンボボックスとして構成されており、ユーザ２がクリックすると、分類候補のリストを表示する。ユーザ２は、その分類候補のリストから分類を１つ選択する。これにより、ユーザ２は、分類欄２０２の分類を修正できる。分類候補のリストには、スコアの高い順に分類が並べられてよい。あるいは、分類候補のリストには、分類候補欄２０３に表示される複数の分類が優先的に表示されてよい。あるいは、分類候補のリストには、予め定められた順（例えば分類名のアルファベット順）に分類が並べられてもよい。

なお、分類欄２０２には、ステータス欄２０１が本評価マークである場合、分類結果情報のユーザ分類が表示されてよい。この場合も、分類欄２０２は、上記同様、分類候補のリストを表示して、ユーザ２からのユーザ分類の修正を受け付けてよい。

分類候補欄２０３には、スコアの高い順に所定数（例えば上位３つ）の分類名及びスコアが表示される。

確認チェックボックス２０４は、ユーザ２が分類欄２０２に表示されたＡＩ分類を確認した場合にチェック（オン）される。確認チェックボックス２０４は、確認欄と読み替えられてもよい。ユーザ２は、分類欄２０２に表示されたＡＩ分類を修正しない場合、そのまま確認チェックボックス２０４をチェック（オン）してよい。ユーザ２は、分類欄２０２に表示されたＡＩ分類を修正する場合、分類欄２０２のＡＩ分類を別の分類に修正した後、確認チェックボックス２０４をチェック（オン）してよい。確認チェックボックス２０４がチェック（オン）された場合、ＵＩ制御部１０９は、分類欄２０２の分類を分類結果情報のユーザ分類に設定し、確認フラグを「２」（本評価）に設定する。すなわち、ＵＩ制御部１０９は、分類欄２０２の分類がＡＩ分類である場合、ＡＩ分類をユーザ分類に設定し、分類欄２０２の分類が別の分類に修正されたものである場合、当該別の分類をユーザ分類に設定する。

公報項目欄２０５には、分類結果情報に含まれる公報項目（例えば出願番号、出願人又は権利者名、要約書等）が表示される。

分類実行部１０７は、分類結果ＤＢ１０８における分類結果情報の各分類のスコアにおいて、第１位のスコア（最も高いスコア）が第１の閾値以上である場合、分類結果情報のＡＩ分類に、当該第１位のスコアの分類を設定してよい。この場合、図６に示すように、ＵＩ画面２００の分類欄２０２には、第１位のスコアの分類名が表示されてよい。

一方、分類実行部１０７は、分類結果ＤＢ１０８における分類結果情報の各分類のスコアにおいて、第１位のスコアが第２の閾値未満である場合、分類結果情報のＡＩ分類に、「分類なし」を設定してよい。第２の閾値は、第１の閾値よりも小さい値である。この場合、図７に示すように、ＵＩ画面２００の分類欄２０２には「分類なし」が表示され、ＵＩ画面２００の所定の位置に、分類欄２０２の内容についてユーザに確認を促すマーク（以下、要確認マーク２０６という）が表示されてよい。これにより、ユーザ２は、適合の度合が不十分なＡＩ分類が付与された公報を見逃すことなく、必要に応じて、当該公報に適切なユーザ分類を付与することができる。

なお、分類実行部１０７は、分類結果情報の各分類のスコアにおける第１位のスコアが第２の閾値未満である場合、分類結果情報のＡＩ分類に、当該第１位のスコアの分類を設定してもよい。この場合、ＵＩ画面２００における分類欄２０２に第１位のスコアの分類名が表示され、ＵＩ画面２００の所定の位置に要確認マーク２０６が表示されてよい。

＜分類処理の第１例＞
図８を参照して、分類装置１００が実行する分類処理の第１例について説明する。図８は、実施の形態１に係る分類処理の第１例を示すフローチャートである。

Ｓ１０１として、モデル学習部１０４は、教師データＤＢ１０３から、事前評価した教師データを取得する。

Ｓ１０２として、モデル学習部１０４は、Ｓ１０１にて取得した教師データを用いて、学習モデル１２０の学習を行う。モデル学習部１０４は、学習済みの学習モデル１２０をモデル格納部１０５に格納する。

Ｓ１０３として、分類対象入力部１０６は、公報ＤＢ１０１から分類対象の公報を取得し、分類実行部１０７へ出力する。

Ｓ１０４として、分類実行部１０７は、モデル格納部１０５に格納されている学習モデル１２０を使用して、Ｓ１０３にて取得した分類対象の公報の分類を行い、算出された当該公報に対する各分類のスコアを得る。

Ｓ１０５として、分類実行部１０７は、Ｓ１０４にて得た各分類のスコアに基づいてＡＩ分類を決定する。例えば、分類実行部１０７は、スコアが最も高い分類をＡＩ分類に決定する。加えて、分類実行部１０７は、その決定したＡＩ分類、Ｓ１０４にて得た各分類のスコア、及び、確認フラグに「１」（仮評価）を設定した分類結果情報を生成し、分類結果ＤＢ１０８に格納する。Ｓ１０４からＳ１０５の処理は、複数の分類対象の公報のそれぞれについて行われてよい。

Ｓ１０６として、ＵＩ制御部１０９は、分類結果ＤＢ１０８から分類結果情報を取得し、当該分類結果情報に基づいてＵＩ情報を生成し、端末２０へ送信する。端末２０は、ＵＩ情報に基づいて、図６又は図７に例示するＵＩ画面２００を表示する。

Ｓ１０７として、ユーザ２は、端末２０に表示されたＵＩ画面２００を見て、分類欄２０２のＡＩ分類が問題ない場合、そのまま確認チェックボックス２０４をチェック（オン）する。ユーザ２は、分類欄２０２のＡＩ分類を修正したい場合、当該分類欄２０２において別の分類を選択（又は入力）し、確認チェックボックス２０４をチェック（オン）する。

Ｓ１０８として、ＵＩ制御部１０９は、Ｓ１０７のユーザ操作において分類欄２０２が修正されたか否かを判定する。

Ｓ１０８において分類欄２０２が修正されなかったと判定された場合（Ｓ１０８：ＮＯ）、Ｓ１０９として、ＵＩ制御部１０９は、分類結果ＤＢ１０８の分類結果情報において、ＡＩ分類をそのままユーザ分類に設定し、確認フラグを「２」（本評価）に設定する。

Ｓ１０８において分類欄２０２が修正されたと判定された場合（Ｓ１０８：ＹＥＳ）、Ｓ１１０として、ＵＩ制御部１０９は、分類結果ＤＢ１０８の分類結果情報において、分類欄２０２に入力された別の分類をユーザ分類に設定し、確認フラグを「２」（本評価）に設定する。

Ｓ１０７からＳ１１０の処理は、複数の分類結果情報のそれぞれについて行われてよい。そして、分類装置１００は、本処理を終了する。

上記の処理によれば、ユーザ２は、公報に付与されたＡＩ分類が適切であるか否かを簡単に確認することができる。また、ユーザ２は、公報に付与されたＡＩ分類が不適合である場合、簡単に別の分類を付与することができる。また、分類装置１００は、ユーザ２によってＡＩ分類が確認済みである公報と、ユーザ２によってＡＩ分類が未確認である公報とを区別して管理することができる。

＜分類処理の第２例＞
図９を参照して、分類装置１００が実行する分類処理の第２例について説明する。図９は、実施の形態１に係る分類処理の第２例を示すフローチャートである。分類装置１００は、図８に示す分類処理の第１例と当該図９に示す分類処理の第２例とのいずれか一方を実行してもよい。あるいは、分類装置１００は、ユーザ２からの指示に応じて、図８に示す分類処理の第１例、又は、当該図９に示す分類処理の第２例のいずれかを実行してもよい。

Ｓ２０１～Ｓ２０５として、分類装置１００は、図８のＳ１０１～Ｓ１０５と同様の処理を実行する。

Ｓ２０６として、分類実行部１０７は、分類結果情報の各分類のスコアにおける第１位のスコアが第１の閾値以上であるか否かを判定する。

まず、Ｓ２０６において第１位のスコアが第１の閾値以上であると判定された場合（Ｓ２０６：ＹＥＳ）について説明する。

この場合、Ｓ２０７として、分類実行部１０７は、分類に利用した学習モデル１２０の分類精度が所定の閾値以上であるか否かを判定する。なお、学習モデル１２０の分類精度は、モデル評価部１１０によって評価されたものであってよい。

Ｓ２０７において学習モデル１２０の分類精度が所定の閾値未満であると判定された場合（Ｓ２０７：ＮＯ）、Ｓ２２０の処理が実行される。

Ｓ２０７において学習モデル１２０の分類精度が所定の閾値以上であると判定された場合（Ｓ２０７：ＹＥＳ）、Ｓ２０８として、分類実行部１０７は、仮評価スキップ設定がオンであるか否かを判定する。仮評価スキップ設定のオン又はオフは、ユーザ２によって予め設定されてよい。

Ｓ２０８において仮評価スキップ設定がオフであると判定された場合（Ｓ２０８：ＮＯ）、Ｓ２２０の処理が実行される。

Ｓ２０８において仮評価スキップ設定がオンであると判定された場合（Ｓ２０８：ＹＥＳ）、Ｓ２０９として、分類実行部１０７は、分類結果情報において、ＡＩ分類の内容をユーザ分類に設定する。

Ｓ２１０として、分類実行部１０７は、分類結果情報において、確認フラグに「２」（本評価）を設定する。

すなわち、分類結果情報の第１位のスコアが十分高く（すなわちＡＩ分類の適合の度合が十分高く）、学習モデル１２０の分類精度が十分高く、ユーザ２がＡＩ分類（つまり仮評価の分類）の確認をスキップしてもよい旨の設定をしている場合、分類実行部１０７は、その分類結果情報について、ユーザ２にＡＩ分類（つまり仮評価の分類）を確認させることなく、ＡＩ分類の内容をユーザ分類とし、本評価としてもよい。これにより、公報に付与される分類の適合の度合を維持しつつ、ユーザ２の確認作業を低減することができる。

次に、Ｓ２０６において第１位のスコアが第１の閾値未満であると判定された場合（Ｓ２０６：ＮＯ）について説明する。

この場合、Ｓ２２０として、分類実行部１０７は、分類結果情報の確認フラグに「１」（仮評価）を設定する。

Ｓ２２１として、分類実行部１０７は、第１位のスコアが第２の閾値未満であるか否かを判定する。第２の閾値は、第１の閾値よりも小さい値である。

Ｓ２２１において第１位のスコアが第２の閾値以上であると判定された場合（Ｓ２２１：ＮＯ）、Ｓ２２３の処理が実行される。

Ｓ２２１において第１位のスコアが第２の閾値未満であると判定された場合（Ｓ２２１：ＹＥＳ）、Ｓ２２２として、分類実行部１０７は、分類結果情報においてＡＩ分類に「分類なし」を設定する。そして、Ｓ２２３の処理が実行される。

Ｓ２２３として、ＵＩ制御部１０９は、図８に示すＳ１０６と同様、分類結果ＤＢ１０８から分類結果情報を取得し、当該分類結果情報に基づいてＵＩ情報を生成し、端末２０へ送信する。端末２０は、ＵＩ情報に基づいて、図６又は図７に例示するＵＩ画面２００を表示する。ここで、ＵＩ制御部１０９は、分類結果情報においてＡＩ分類に「分類なし」が設定されている場合、図７に例示するように、要確認マーク２０６を表示させるＵＩ情報を生成してよい。

Ｓ２２４～Ｓ２２７として、分類装置１００は、図８に示すＳ１０７～Ｓ１１０と同様の処理を実行する。そして、分類装置１００は、本処理を終了する。

上記の処理によれば、大量の公報に効率的に分類を付与できると共に、ユーザ２は不適合な分類を効率的に発見及び修正することができる。

＜モデル再学習処理＞
図１０を参照して、分類装置１００が実行するモデル再学習処理について説明する。図１０は、実施の形態１に係るモデル再学習処理の一例を示すフローチャートである。当該モデル再学習処理は、図８又は図９に示した分類処理の実行後に、ユーザ２の指示よって開始されてよい。

Ｓ３０１として、教師データ生成部１０２は、分類結果ＤＢ１０８から確認フラグが「２」（本評価）の分類結果情報を取得する。

Ｓ３０２として、教師データ生成部１０２は、Ｓ３０１で取得した分類結果情報のユーザ分類を正解ラベルとして教師データを生成し、教師データＤＢ１０３に格納する。このユーザ分類は、ユーザ２がＡＩ分類を修正せずに確認チェックボックス２０４をチェック（オン）した場合、ＡＩ分類と共通であり、ユーザ２がＡＩ分類を修正して確認チェックボックス２０４をチェック（オン）した場合、修正後の分類と共通である。

Ｓ３０３として、モデル学習部１０４は、事前評価された教師データと、Ｓ３０２にて新たに生成された教師データとを教師データＤＢ１０３から取得し、それら取得した教師データを用いて学習モデル１２０の再学習を実施する。そして、分類装置１００は、本処理を終了する。

上記の処理によれば、ユーザ２によって確認又は修正された分類が付与された公報も教師データとして利用できるので、教師データの数及びバリエーションが増え、学習モデル１２０の分類精度が向上し得る。

＜モデル評価処理＞
図１１を参照して、分類装置１００が実行するモデル評価処理について説明する。図１１は、実施の形態１に係るモデル評価処理の一例を示すフローチャートである。当該モデル評価処理は、ユーザの指示によって開始されてよい。

Ｓ４０１として、モデル評価部１１０は、分類結果ＤＢ１０８から確認フラグが「２」（本評価）の分類結果情報を取得する。

Ｓ４０２として、モデル評価部１１０は、Ｓ４０１にて取得した分類結果情報のうち、ＡＩ分類とユーザ分類とが一致する分類結果情報の数（正解数）をカウントする。

Ｓ４０３として、モデル評価部１１０は、Ｓ４０１で取得した分類結果情報の数（確認総数）と、Ｓ４０２でカウントした正解数とに基づいて、学習モデル１２０の分類精度（正解率）を算出する。そして、分類装置１００は本処理を終了する。

なお、モデル評価部１１０は、上記の正解率に加え又は上記の正解率に代えて、適合率、再現率、特異度及びＦ値のうちの少なくとも１つを算出して、学習モデル１２０の分類精度を評価してもよい。

＜変形例＞
なお、分類実行部１０７は、必ずしも学習モデル１２０を用いて公報に付与する分類を決定する必要はない。例えば、分類実行部１０７は、公知のルールベース又は機械学習に基づいて、公報に付与する分類（以下、システム分類という）を決定してもよい。この場合、図５に示す分類結果ＤＢ１０８の「ＡＩ分類」、及び、上述したＵＩ制御部１０９が行う処理における「ＡＩ分類」は、「システム分類」に読み替えられてもよい。

ＵＩ制御部１０９は、各分類のスコアに応じて、ＵＩ画面２００における分類の表示方法を切り替えてよい。例えば、ＵＩ制御部１０９は、第１位のスコアが第１の閾値以上である場合（つまり第１位のスコアが高スコアである場合）、分類欄２０２に第１位のスコアの分類名のみを表示する。例えば、ＵＩ制御部１０９は、第１位のスコアが第１の閾値未満かつ第２の閾値以上（ただし第２の閾値は第１の閾値よりも小さい）である場合（つまり第１位のスコアが中スコアである場合）、分類欄２０２に第１位から第３位のスコアの分類名を表示する。例えば、ＵＩ制御部１０９は、第１位のスコアが第２の閾値未満である場合（つまり第１位のスコアが低スコアである場合）、要確認マーク２０６を表示する。あるいは、ＵＩ制御部１０９は、分類欄２０２に「分類なし」を表示する。なお、ＵＩ制御部１０９は、分類欄２０２に「分類なし」を表示すると共に、要確認マーク２０６を表示してもよい。

また、ＵＩ制御部１０９は、分類結果ＤＢ１０８において、第１位のスコアが低スコアである分類結果情報が存在する場合、その第１位のスコアが低スコアである複数の分類結果情報を抽出してユーザ２に確認させてもよい。これにより、ユーザ２は、不適合の可能性の高いＡＩ分類が付与されている公報について、まとめて確認及び修正することができる。

また、ＵＩ制御部１０９は、第１位のスコアが低スコアである分類を分類欄２０２に表示する場合、適切な分類の見直し又は追加をユーザ２に促してよい。この場合、ＵＩ制御部１０９は、次の（Ａ１）及び（Ａ２）のうちの少なくとも１つを実施してもよい。
（Ａ１）最近よく使用される検索式、急上昇ワード、又は、他のユーザの分類パターン等を具体的に提案する。
（Ａ２）例えば、分類１、分類２、分類３という分類があって、本当は分類４となるべきものが推論対象となった場合、「分類なし」としつつ、分類４を提案する。

また、分類は親子関係を有する階層構造であってよい。例えば、親階層の分類数が１０個であり、親階層の複数の分類のそれぞれに子階層の分類が１０個ぶら下がるような階層構造であってよい。この場合、子階層の全体の分類数は１００個となる。このような場合、子階層の各分類のサンプル数に偏りがあり、子階層の分類で高性能が出ない可能性がある。そこで、分類実行部１０７は、まず、第１の学習モデルで親階層の分類を行い、次に、親階層で振り分けられた各分類について、第２の学習モデルで子階層の分類を行ってよい。この子階層の分類の際、分類実行部１０７は、親子の組み合わせを考慮してもよい。

また、分類数ｎ（ｎは２以上の整数）の教師データのうち、特定の分類のサンプル数が著しく少ない場合（例えば所定の閾値未満の場合）、そのサンプル数が著しく少ない分類を適切に判定することが難しい場合がある。例えば、学習モデルの学習において、分類１、分類２、分類３をそれぞれ１００個の教師データで学習し、分類４、分類５、分類６をそれぞれ５個の教師データで学習した場合、当該学習モデルを用いて公報に精度良く分類４を付与することが難しい場合がある。そこで、モデル学習部１０４は、例えば、次の（Ｂ１）及び（Ｂ２）のうちの少なくとも１つを実施してもよい。
（Ｂ１）モデル学習部１０４は、分類４、分類５、分類６を１つの他分類として、第１の学習モデルの学習を行う。そして、モデル学習部１０４は、他分類の教師データを用いて、分類４、分類５、分類６について第２の学習モデルの学習を行う。分類実行部１０７は、まず、第１の学習モデルを用いて公報を分類１、分類２、分類３、他分類のいずれかに振り分け、次に、第２の学習モデルを用いて他分類に振り分けられた公報を分類４、分類５、分類６のいずれかに振り分ける。
（Ｂ２）モデル学習部１０４は、分類１、分類２、分類３について学習モデルの学習を行う。分類実行部１０７は、当該学習モデルが出力した推論結果として第１位のスコアが所定の閾値未満の場合、分類４、分類５、分類６のいずかであると判定する。

＜ハードウェア構成＞
図１２は、本開示に係る分類装置１００及び端末２０のハードウェアの構成の一例を示すブロック図である。

分類装置１００及び端末２０は、図１２に示すコンピュータ１０００として構成されてもよい。この場合、上述した分類装置１００及び端末２０が有する機能は、コンピュータ１０００がコンピュータプログラムを実行することにより実現されてよい。

コンピュータ１０００は、プロセッサ１００１、メモリ１００２、ストレージ１００３、入力装置１００４、出力装置１００５、通信装置１００６、ＧＰＵ（Graphics Processing Unit）１００７、読取装置１００８、及び、バス１００９を備える。プロセッサ１００１、メモリ１００２、ストレージ１００３、入力装置１００４、出力装置１００５、通信装置１００６、ＧＰＵ１００７、読取装置１００８は、バス１００９に接続され、当該バス１００９を介して双方向にデータを送受信できる。

プロセッサ１００１は、メモリ１００２又はストレージ１００３に記憶されたコンピュータプログラムを実行し、上述した機能ブロックを実現する装置である。プロセッサ１００１の例として、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、コントローラ、ＬＳＩ（large scale integration）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）、ＦＰＧＡ（Field-Programmable Gate Array）が挙げられる。

メモリ１００２は、コンピュータ１０００が取り扱うコンピュータプログラム及びデータを記憶する装置である。メモリ１００２は、ＲＯＭ（Read-Only Memory）及びＲＡＭ（Random Access Memory）を含んでよい。

ストレージ１００３は、不揮発性記憶媒体で構成され、コンピュータ１０００が取り扱うコンピュータプログラム及びデータを記憶する装置である。ストレージ１００３の例として、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリが挙げられる。

入力装置１００４は、プロセッサ１００１に入力するデータを受け付ける装置である。入力装置１００４の例として、キーボード、マウス、タッチパッド、マイクが挙げられる。

出力装置１００５は、プロセッサ１００１が生成したデータを出力する装置である。出力装置１００５の例として、ディスプレイ、スピーカーが挙げられる。例えば、ユーザは、出力装置１００５に表示されたＵＩ画面２００を、入力装置１００４を通じて操作することにより、所望のデータを入力又は選択してよい。

通信装置１００６は、サーバ又は端末に代表される他の装置と、通信ネットワーク３０を介して、データを送受信する装置である。通信装置１００６は、データを送信する送信部とデータを受信する受信部とを含んでよい。通信装置１００６は、有線通信及び無線通信の何れに対応してもよい。有線通信の例として、Ｅｔｈｅｒｎｅｔ（登録商標）が挙げられる。無線通信の例として、ＩＥＥＥ８０２．１１、Ｂｌｕｅｔｏｏｈ、ＬＴＥ（Long Term Evolution）、４Ｇ、５Ｇが挙げられる。

ＧＰＵ１００７は、画像描写を高速に処理する装置である。なお、ＧＰＵ１００７は、ＡＩの処理に利用されてもよい。例えば、ＧＰＵ１００７は、ＡＩ（学習モデル）の学習処理、及び／又は、ＡＩ（学習モデル）による分類処理に利用されてよい。

読取装置１００８は、ＤＶＤ－ＲＯＭ（Digital Versatile Disk Read Only Memory）又はＵＳＢ（Universal Serial Bus）メモリといった記録媒体からデータを読み取る装置である。

以上、添付図面を参照しながら実施の形態について説明したが、本開示はかかる例に限定されない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても本開示の技術的範囲に属すると了解される。また、発明の趣旨を逸脱しない範囲において、上述した実施の形態における各構成要素を任意に組み合わせてもよい。

本開示の技術は、文書を分類する装置又はシステムに有用である。

２ユーザ
１０分類システム
２０端末
３０通信ネットワーク
１００分類装置
１０１公報ＤＢ
１０２教師データ生成部
１０３教師データＤＢ
１０４モデル学習部
１０５モデル格納部
１０６分類対象入力部
１０７分類実行部
１０８分類結果ＤＢ
１０９ＵＩ制御部
１１０モデル評価部
１２０学習モデル
２００ＵＩ画面
２０１ステータス欄
２０２分類欄
２０３分類候補欄
２０４確認チェックボックス
２０５公報項目欄
２０６要確認マーク

Claims

文書と、前記文書に付与された番号と、学習モデルを用いて当該文書に付与された分類と、当該文書と前記分類の適合する度合を示すスコアとが関連付けられている情報が格納される格納部と、
前記番号と、前記分類と、前記スコアが最も高い分類を当該文書の前記分類として表示させる制御部と、を備え、
前記制御部は、前記スコアが最も高い分類の当該スコアが所定の閾値未満である場合、分類なしを示す情報を前記分類として表示させる、
分類装置。
文書と、前記文書に付与された番号と、学習モデルを用いて当該文書に付与された分類と、当該文書と前記分類の適合する度合を示すスコアとが関連付けられている情報が格納される格納部と、
前記番号と、前記分類と、前記スコアが高いものから順に所定数を当該文書の前記分類の候補として表示させる制御部と、を備え、
前記制御部は、前記スコアが最も高い分類の当該スコアが所定の閾値未満である場合、分類なしを示す情報を前記分類として表示させる、
分類装置。
文書と、前記文書に付与された番号と、学習モデルを用いて当該文書に付与された分類と、当該文書と前記分類の適合する度合を示すスコアとが関連付けられている情報が格納される格納部と、
前記番号と、前記分類と、前記スコアが最も高い分類を当該文書の前記分類として表示させる制御部と、を備え、
前記制御部は、前記スコアが最も高い分類の当該スコアが所定の閾値未満である場合、ユーザに前記分類の確認を促す情報を表示させる、
分類装置。
文書と、前記文書に付与された番号と、学習モデルを用いて当該文書に付与された分類と、当該文書と前記分類の適合する度合を示すスコアとが関連付けられている情報が格納される格納部と、
前記番号と、前記分類と、前記スコアが高いものから順に所定数を当該文書の前記分類の候補として表示させる制御部と、を備え、
前記スコアが最も高い分類の当該スコアが所定の閾値未満である場合、ユーザに前記分類の確認を促す情報を表示させる、
分類装置。
文書と、前記文書に付与された番号と、学習モデルを用いて当該文書に付与された分類とが関連付けられている情報を格納する格納部と、
前記文書の番号と、システム分類と、当該システム分類のスコアとを表示させる制御部と、を備え、
前記制御部は、当該文書に付与する分類として、ユーザから前記システム分類とは異なる分類が指示された場合、その指示された当該分類をユーザ分類として前記文書に関連付け、当該文書に付与する分類として、前記ユーザから前記システム分類が指示された場合、前記システム分類を前記ユーザ分類として前記文書に関連付け、前記文書の前記システム分類と前記ユーザ分類との比較に基づいて、前記学習モデルの分類精度を評価する、
分類装置。
前記制御部は、ユーザが前記分類を確認済みであるか否かを示す確認情報が未確認であることを示す場合、前記分類は前記ユーザによって未確認であることを示す第１の情報を表示させる、
請求項１から５のいずれか１項に記載の分類装置。
前記制御部は、前記確認情報が、確認済みであることを示す場合、前記分類は前記ユーザによって確認済みであることを示す第２の情報を表示させる、
請求項６に記載の分類装置。
前記制御部は、前記文書の前記分類を確認した旨の指示がされた場合、前記文書に関連付けられる前記確認情報を、前記ユーザが前記分類を確認済みであることを示す確認済み情報に変更する、
請求項６又は７に記載の分類装置。
前記制御部は、前記分類の前記スコアが所定の閾値以上である場合、前記文書に関連付けられている前記確認情報を前記確認済み情報に変更する、
請求項６又は７に記載の分類装置。
装置によって文書を分類する分類方法であって、
文書と、前記文書に付与された番号と、学習モデルを用いて当該文書に付与された分類と、当該文書と前記分類の適合する度合を示すスコアとが関連付けられている情報を格納部に格納し、
前記文書の番号と、前記分類と、当該分類の前記スコアとを表示させ、
前記スコアが最も高い分類の当該スコアが所定の閾値未満である場合、分類なしを示す情報を前記分類として表示させる、
分類方法。
文書を分類するコンピュータプログラムであって、
文書と、前記文書に付与された番号と、学習モデルを用いて当該文書に付与された分類と、当該文書と前記分類の適合する度合を示すスコアとが関連付けられている情報を格納部に格納し、
前記文書の番号と、前記分類と、当該分類の前記スコアとを表示させ、
前記スコアが最も高い分類の当該スコアが所定の閾値未満である場合、分類なしを示す情報を前記分類として表示させることをコンピュータに実行させる、
コンピュータプログラム。