JP7189068B2

JP7189068B2 - モデル作成支援方法、及びモデル作成支援システム

Info

Publication number: JP7189068B2
Application number: JP2019072538A
Authority: JP
Inventors: 和秀愛甲; 絵理照屋
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2019-04-05
Filing date: 2019-04-05
Publication date: 2022-12-13
Anticipated expiration: 2039-04-05
Also published as: JP2020170427A; US20200320409A1

Description

本発明は、モデル作成支援方法、及びモデル作成支援システムに関する。

機械学習の手法を使った分析モデル（推論モデル）の精度向上には、分析モデルにおける教師データの選定と分析パラメータのチューニングが重要となる。しかしながら、所望の分析精度が得られていない場合に、教師データに問題があるのか、それとも分析パラメータの設定に問題があるのか、という問題が発生する。

この点、分析モデルの精度向上を支援する技術として、学習済みモデルに基づき高い信頼度で「正解」と推論できた非教師データを教師データに自動追加する手法（特許文献１）や、判定結果に影響を与えたルールを提示する手法（特許文献２）が知られている。

特開２００５－９２２５３号公報特開２０１７－５８８１６号公報

しかし、特許文献１に記載の技術では、既に存在する学習済みモデルによって高い信頼度で推論されるようなデータを教師データに追加しても、大きな精度向上は期待できない。他方、特許文献２に記載の技術では、文章からの情報抽出ルール（特徴量）を手動でシステムに入力する必要があるが、文章の情報は膨大であるため、入力すべき抽出ルールを人が判断するには事実上限界があるという問題がある。

本発明はこのような現状に鑑みてなされたものであり、その目的は、機械学習により生成されるモデルの精度を確実に向上させることが可能なモデル作成支援方法、及びモデル作成支援システムを提供することにある。

以上の課題を解決するための本発明の一つは、プロセッサ及びメモリを備えるモデル作成支援システムが、複数の学習対象のデータに対してそれぞれの特徴量を特定する機械学習を行うことにより、入力データに設定すべきラベルを当該入力データの特徴量に基づき推定する推論モデルを生成する学習処理と、所定のデータを前記生成した推論モデルに入力することにより特定された当該所定のデータの特徴量と、前記機械学習により特定された、前記学習対象のデータの特徴量との類似性を判定することにより、前記推論モデルによるラベルの推定の妥当性を判定し、その判定内容を示す情報を出力する評価処理と、を実行する。

本発明によれば、機械学習により生成されるモデルの精度を確実に向上させることができる。

図１は、本実施形態に係る文書解析システム１００（モデル作成支援システム）の構成の一例を示す図である。図２は、分析ノード２が備える構成の一例を示す図である。図３は、文書データ２１２１のデータ形式の一例を示す図である。図４は、教師辞書データ２１２２の一例を示す図である。図５は、推論モデルパラメータ２１２３の一例を示す図である。図６は、推論結果データ２１２４の一例を示す図である。図７は、確認ラベル抽出ルール２１２６の一例を示す図である。図８は、特徴量差分データ２１２５の一例を示す図である。図９は、確認ラベルデータ２１２７の一例を示す図である。図１０は、文書解析処理の一例を説明するフロー図である。図１１は、学習処理の一例を説明するフロー図である。図１２は、評価処理の詳細を説明するフロー図である。図１３は、特徴量差分抽出処理の詳細を説明するフロー図である。図１４は、評価処理の詳細を説明するフロー図である。図１５は、ラベル確認画面の一例を示す図である。図１６は、推論処理の詳細を説明するフロー図である。

以下、本実施形態のモデル作成支援システムについて図面を参照しつつ説明する。なお、以後の説明では、「×××テーブル」等の表現にて情報を説明することがあるが、これら情報はテーブル等のデータ構造以外で表現されていてもよい。そのため、データ構造に依存しないことを示すために「×××テーブル」等について「×××情報」と呼ぶことがある。各情報の内容を説明する際に、「番号」、「名称」という表現の識別情報が採用されるが、他種の識別情報が使用されて良い。以後の説明における「×××処理」は、「×××プログラム」であってもよい。以後の説明における「処理」を主語とした説明は、プロセッサを主語とした説明としてもよい。処理の一部または全ては、専用ハードウェアによって実現されてもよい。各種プログラムは、プログラム配布サーバや、計算機が読み取り可能な記憶媒体によって各計算機にインストールされてもよい。

図１は、本実施形態に係る文書解析システム１００（モデル作成支援システム）の構成の一例を示す図である。文書解析システム１００は、学習対象の文書データにおける各単語の意味内容を推論する機械学習を行うことにより、単語の意味内容を推論する推論モデルを作成することで、ユーザから指定された、解析対象の文書の意味内容を解析する。文書解析システム１００は、例えば、所定のデータセンタに設置される。文書解析システム１００は、解析対象の文書データを保持している端末３と、推論モデルを生成すると共に、端末３から送られてきた解析対象の文書を、その推論モデルに従って推論する分析ノード２とを備えて構成されている。なお、分析ノード２及び端末３の間は、ネットワークスイッチ４を介して接続されている。例えば、分析ノード２及び端末３の間は、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）、インターネット、専用線等の有線
又は無線の通信ネットワークを介したネットワークスイッチ４によって通信可能に接続される。

分析ノード２及び端末３は、パーソナルコンピュータ又はワークステーションなどから構成される。
図２は、分析ノード２が備える構成の一例を示す図である。分析ノード２は、ＣＰＵ（Central Processing Unit）などの処理部２１と、ＲＡＭ（Random Access Memory）又は
ＲＯＭ（Read Only Memory）等のメモリ２２と、ＦＣ（Fibre Channel）ディスク、ＳＣ
ＳＩ（Small Computer System Interface）ディスク、ＳＡＴＡディスク、ＡＴＡ（AT Attachment）ディスク又はＳＡＳ（Serial Attached SCSI）ディスク等のディスクデバイス２７と、キーボード、マウス、タッチパネルなどからなる入力装置２４と、モニタ（ディ
スプレイ）等からなる出力装置２５と、他の装置と通信を行う通信装置２６とを備える。なお、処理部２１は、分析ノード２全体の動作制御を司り、メモリ２２に格納された後述の制御プログラム群２１１及び管理テーブル群２１２に基づいて必要な処理を実行する。メモリ２２は、後述する制御プログラム群２１１及び管理テーブル群２１２を記憶するために用いられる他、処理部２１のワークメモリとしても用いられる。通信装置２６は、ネットワークスイッチ４に対応した通信インタフェースであり、分析ノード２が通信する際のプロトコル制御を行う。

分析ノード２は、制御プログラム群２１１として、学習部２１１１、評価部２１１２、フィードバック部２１１３、及び推論部２１１４の各機能を有する。また、分析ノード２は、文書データ２１２１、教師辞書データ２１２２、推論モデル２００、推論結果データ２１２４、確認ラベル抽出ルール２１２６、特徴量差分データ２１２５、及び確認ラベルデータ２１２７を記憶している。

学習部２１１１は、端末３から所定の学習処理要求を受け付ける。

学習部２１１１は、複数の学習対象のデータに対してそれぞれの特徴量を特定する機械学習を行うことにより、入力データに設定すべきラベルを当該入力データの特徴量に基づき推定する推論モデル２００を生成する。

具体的には、学習部２１１１は、特徴量の重み値を特定する機械学習を行うことにより、入力データに設定すべきラベルを当該入力データの特徴量の重み値に基づき推定する推論モデル２００を生成する。なお、本実施形態では、このラベルは、人名と判定された単語に対して設定される人名ラベルであるものとする。

推論モデル２００は、次述する確度を算出する確度算出式２０１及び、推論モデル２００に用いられるパラメータ群である推論モデルパラメータ２１２３を含んでいる。

推論モデル２００は、入力データに設定すべきラベルの種類を判定するためのパラメータである確度に基づき、入力データの特徴量からラベルを推定する。なお、推定されたラベルの情報は、後述する確認ラベルデータ２１２７に記憶される。

なお、学習部２１１１は、学習対象の文書データ及び、分析対象の文書データを、文書データ２１２１に記憶している。また、学習部２１１１は、文書データ２１２１に記録されている文書データから機械学習により抽出した単語及びその単語に設定したラベルを、辞書データとして、教師辞書データ２１２２に記憶している。
ここで、文書データ２１２１及び教師辞書データ２１２２の例を説明する。

＜文書データ＞

図３は、文書データ２１２１のデータ形式の一例を示す図である。文書データ２１２１は、学習対象のデータが記録されている学習用文書データ３１２１と、分析対象のデータが記録されている本番用文書データ３１２２とを含む。学習用文書データ３１２１、及び本番用文書データ３１２２のそれぞれは、１又は２以上の文書データを含んで構成されている。同図の例では、学習用文書データ３１２１に「sasakiさんは毎朝走る」という文章が記録されている。学習用文書データ３１２１は、例えばニュース記事のデータであり、記事中には人の名前を表す単語が含まれている。

＜教師辞書データ＞
図４は、教師辞書データ２１２２の一例を示す図である。教師辞書データ２１２２は、
正例テーブル２１２２１及び負例テーブル２１２２２を含んで構成されている。

正例テーブル２１２２１は、人名と判定された単語（以下、正例という）が格納される人名辞書欄２１２２１１の項目を有する。また、負例テーブル２１２２２は、人名でないと判定された単語（以下、負例という）が格納される人名辞書欄２１２２２１の項目を有する。同図の例では、正例と判定された単語として、「sasaki」と「tanaka」が登録され、負例と判定された単語の例として、「hitachi」と「amazon」が登録されている。

次に、推論モデルパラメータ２１２３の詳細を説明する。
＜推論モデルパラメータ＞
図５は、推論モデルパラメータ２１２３の一例を示す図である。推論モデルパラメータ２１２３は、重み値を示す変数名が格納される重み欄２１２３１、及び、重み欄２１２３１に係る変数の値（重み値）が格納される値欄２１２３２を有する。
＜確度算出式＞
次に、確度算出式２０１について説明する。確度算出式２０１は、特徴量及びその重み値によって表現される式であり、本実施形態では、

P=w1*X1+w2*X2+w3*X3

であるものとする。Pは確度、wは重み値、Xは特徴量である。ここでは、特徴量X1の重
みw1は0.5、特徴量X2の重みw2は0.8、特徴量X3の重みw3は-0.1となる。

本実施形態では、分析対象のある単語の確度Ｐが第１閾値（本実施形態では０．８５とする）以上である場合は、その単語のラベルに「Ｔ」が設定される（例えば、その単語が正の特徴量を多く有している等、その単語が人名である可能性が高い）。また、ある単語の確度Ｐが第１閾値未満第２閾値（本実施形態では０．２５とする）以上である場合は、その単語のラベルに「Ｎｕｌｌ」が設定される（例えば、その単語が正及び負の特徴量を有している等、その単語が人名であるか否かが不確定である）。また、ある単語の確度Ｐが第２閾値未満である場合は、その単語のラベルに「Ｆ」が設定される（例えば、その単語が負の特徴量を多く有している等、その単語が人名である可能性が低い）。

ここで、以下では、「Ｔ」が設定されるような確度Ｐの範囲を第１領域、「Ｎｕｌｌ」が設定されるような確度Ｐの範囲を第２領域、「Ｆ」が設定されるような確度Ｐの範囲を第３領域という。

なお、学習部２１１１は、推論モデル２００の生成の結果のデータ及び、推論モデル２００の生成に際して得られたデータを、推論結果データ２１２４に記録する。

ここで、推論結果データ２１２４の例について説明する。
＜推論結果データ＞
図６は、推論結果データ２１２４の一例を示す図である。推論結果データ２１２４は、学習された又は分析された単語が格納される候補欄２１２４１と（推論結果データ２１２４には、学習対象の単語だけでなく、解析対象の文章の単語に推論モデル２００を入力した結果も格納される）、候補欄２１２４１に係る単語が正例であるか（「正」）又は負例であるか（「負」）を示す情報が格納される学習フラグ欄２１２４２と、候補欄２１２４１に係る単語が登録される文章（学習用文書データ３１２１）が格納される文章欄２１２４３と、候補欄２１２４１に係る単語の特徴量の情報（例えば、「t」が正の特徴量、「f」が負の特徴量）が格納される特徴量欄２１２４４と、候補欄２１２４１に係る単語に設定されたラベルの情報が格納されるラベル欄２１２４５と、候補欄２１２４１に係る単語の確度Ｐが格納される確度欄２１２４６とを有する。

特徴量欄２１２４４には、候補欄２１２４１に係る単語が有する特徴量のうち、文章欄２１２４３に係る文章に存在する単語に係る特徴量が格納される。具体的には、例えば、特徴量欄２１２４４における特徴量の項目リストには、文章欄２１２４３に係る文章に存在する単語が登録される（「ｔ」）。

また、本実施形態では、ラベル欄２１２４５には、「Ｔ」、「Ｆ」、「Ｎｕｌｌ」のいずれかが設定される。同図の例では、単語「sasaki」は、正例（「正」）の学習対象のデータである。この単語は、「sasakiさんは毎朝走る」という文章中（学習用文書データ３１２１）に記録されており、この文章は、要素「走る」という正の特徴量を含んでいる。その結果、この「sasaki」なる単語の確度Ｐとなっており、かつ「0.96」であり第１閾値以上であるので、人名らしさが高いことを示すラベル「T」が設定されている。

次に、図２に示すように、評価部２１１２は、端末３からの所定の処理要求を受け付ける。
そして、評価部２１１２は、所定のデータ（学習対象の単語でも新たな追加的な単語でもよい）を、学習部２１１１で生成した推論モデル２００に入力することにより特定された当該所定のデータの特徴量と、学習部２１１１における機械学習により既に特定された、学習対象のデータの特徴量との類似性を判定することにより、推論モデル２００によるラベルの推定の妥当性を判定し、その判定内容を示す情報を出力する。なお、評価部２１１２は、特徴量の類似性についての情報を、特徴量差分データ２１２５に記憶する。また、評価部２１１２は、ラベルの設定の妥当性の判定結果を、確認ラベルデータ２１２７に記憶する。

具体的には、評価部２１１２は、確度に応じた、特徴量間の類似性を判定する複数の判定ルールを設定し、設定した判定ルールに基づき、推論モデル２００によるラベルの推定の妥当性を判定する。なお、評価部２１１２は、この判定ルールを、後述する確認ラベル抽出ルール２１２６に記憶している。

加えて、評価部２１１２は、所定のデータの特徴量と、前記学習対象のデータの特徴量との類似性を、両データが共通して有する特徴量（以下、重複特徴量という）と一方のデータのみが有する特徴量（以下、差分特徴量という）とを特定することにより、ラベルの推定の妥当性を判定する。

さらに、評価部２１１２は、所定のデータの特徴量の重み値と、学習対象のデータの特徴量の重み値との類似性を判定することにより、推論モデル２００における重み値の妥当性を判定する。なお、重複特徴量及び差分特徴量は、後述する特徴量差分データ２１２５に記憶される。

ここで、確認ラベル抽出ルール２１２６及び、差分特徴量データ２１２５のそれぞれの具体例について説明する。
＜確認ラベル抽出ルール＞
図７は、確認ラベル抽出ルール２１２６の一例を示す図である。確認ラベル抽出ルール２１２６は、判定ルールを記憶した情報であり、ラベルを変更する目的を示す情報が格納される確認目的欄２１２６１と、ラベルの変更（ラベル操作）の内容を特定する情報が格納されるラベル操作欄２１２６２と、ラベルの変更対象とする単語が属する領域を特定する情報が格納される領域欄２１２６３と、判定ルールが格納されるルール欄２１２６４とをそれぞれ項目として有する。

確認ラベル抽出ルール２１２６には、確度Ｐが第１領域に属する単語に対して適用され
る、ラベルの精度向上のための判定ルールが記憶されている（第１判定ルール）。また、確認ラベル抽出ルール２１２６には、確度Ｐが第２領域に属する単語に対して適用される、再現率（Recall）向上のための判定ルールが記憶されている（第２判定ルール）。また、確認ラベル抽出ルール２１２６には、確度Ｐが第３領域に属する単語に対して適用される、再現率（Recall）向上のための判定ルールが記憶されている（第３判定ルール）。また、確認ラベル抽出ルール２１２６には、全て単語に対して適用される、適合率（Precision）及び再現率（Recall）向上のための判定ルールが記憶されている（第４判定ルール
）。

例えば、第１判定ルールは、その目的が「Precision向上」すなわち、人名ではないの
に間違ってラベルを付与してしまっている単語を発見することを目的としている。この場合、第１判定ルールは「T⇒F」であり、具体的には、ある単語に誤ってラベルを付与(T)
してしまっている場合に、その単語に対してラベルを付与しない（F）ようにラベルを変
更する。第１判定ルールは、領域「１」の単語を対象としている。

ここで、特徴量差分データについて説明する。
＜特徴量差分データ＞
図８は、特徴量差分データ２１２５の一例を示す図である。特徴量差分データ２１２５は、学習対象又は分析対象の単語が格納される候補欄２１２５１、候補欄２１２５１に係る単語が登録されている文章（学習用文書データ３１２１）が格納される文章欄２１２５２、候補欄２１２５１に係る単語に付与されたラベルを特定する情報（「Ｔ」、「Ｆ」、「Ｎｕｌｌ」）が格納されるラベル欄２１２５３、正例との関係欄２１２５４、及び負例との関係欄２１２５５の各項目を有する。

正例との関係欄２１２５４は、候補欄２１２５１に係る単語が有する特徴量のうち、教師辞書データ２１２２に登録されている正例の単語と共通して有している特徴量（以下、正例重複特徴量という）が格納される重複欄２１２５４ａと、候補欄２１２５１に係る単語が有する特徴量のうち、教師辞書データ２１２２に登録されている正例の単語が有しない特徴量（以下、正例差分特徴量という）が格納される差分欄２１２５４ｂとを含む。また、負例との関係欄２１２５５は、候補欄２１２５１に係る単語が有する特徴量のうち、教師辞書データ２１２２に登録されている負例の単語と共通して有している特徴量（以下、負例重複特徴量という）が格納される重複欄２１２５５ａと、候補欄２１２５１に係る単語が有する特徴量のうち、教師辞書データ２１２２に登録されている負例の単語が有しない特徴量（以下、負例差分特徴量という）が格納される差分欄２１２５５ｂとを含む。

同図の例では、単語の「sasaki」は、付与されたラベルが「T」であり、正例重複特徴
量として「走る」を有し、また、負例差分特徴量として「購入」を有している。

次に、確認ラベルデータについて説明する。
＜確認ラベルデータ＞
図９は、確認ラベルデータ２１２７の一例を示す図である。確認ラベルデータ２１２７は、候補欄２１２７１、文章欄２１２７２、ラベル欄２１２７３、正例との重複差分欄２１２７４、負例との重複差分欄２１２７５、及び確認ラベル欄２１２７６を有する。

このうち、候補欄２１２７１、文章欄２１２７２、ラベル欄２１２７３、正例との重複差分欄２１２７４、負例との重複差分欄２１２７５は、特徴量差分データ２１２５と同様である。確認ラベル欄２１２７６には、候補欄２１２７１に係る単語に対するラベルの設定の妥当性の判定結果を示す情報（確認ラベル）が格納される。例えば、単語のラベルの設定の妥当性に疑問がある場合には、対応する確認ラベル欄２１２７６に「○」が格納される。

次に、図２に示すように、フィードバック部２１１３は、評価部２１１２による、判定内容を示す情報（確認ラベル）に基づき、学習部２１１１が生成した推論モデル２００の修正をユーザから受け付ける。

具体的には、フィードバック部２１１３は、学習部２１１１により特定された重み値の修正をユーザから受け付ける。

推論部２１１４は、端末３から本番用文書データ３１２２を含む推論要求を受け付け、推論モデル２００を用いて、本番用文書データ３１２２が示す文章における単語にラベルを設定する（人名に係る単語の推論を行う）ことにより、本番用文書データ３１２２に係る文章の意味内容を解析する。なお、推論部２１１４は、この結果を推論結果データ２１２４に登録する。

以上に説明した分析ノード２の機能は、分析ノード２のハードウェアによって、もしくは、分析ノード２の処理部２１が、メモリ２２又はディスクデバイス２７に記憶されている各プログラムを読み出して実行することにより実現される。また、これらのプログラムは、例えば、二次記憶デバイスや不揮発性半導体メモリ、ハードディスクドライブ、ＳＳＤなどの記憶デバイス、又は、ＩＣカード、ＳＤカード、ＤＶＤなどの、情報処理装置で読み取り可能な非一時的データ記憶媒体に格納される。

＜＜処理＞＞
次に、文書解析システム１００が行う、分析対象の文書を解析する文書解析処理について説明する。
＜文書解析処理＞
図１０は、文書解析処理の一例を説明するフロー図である。まず、分析ノード２は、学習対象の文章における各単語に対して所定の機械学習を行うことにより、入力された単語に対応するラベルを推定する推論モデル２００を生成する学習処理を実行する（ＳＰ１）。そして、分析ノード２は、生成した推論モデル２００によるラベルの設定の妥当性を評価すると共に、確認ラベルを設定する評価処理を実行する（ＳＰ２）。なお、分析ノード２は、評価処理により設定された確認ラベルに基づき、ユーザから、推論モデル２００の修正（フィードバック）を受け付ける。分析ノード２は、修正された推論モデル２００及びラベルに基づき、解析対象の文書における各単語に対応するラベルを推定する推論処理を実行する（ＳＰ３）。
以下、各処理の詳細を説明する。

＜学習処理＞
図１１は、学習処理の一例を説明するフロー図である。まず、分析ノード２の学習部２１１１は、ユーザから、学習処理の要求を受け付ける（ＳＰ９０１）。具体的には、例えば、分析ノード２は、端末３から、学習用文書データ３１２１及び教師辞書データ２１２２の受信を受け付ける。

学習部２１１１は、受信した学習用文書データ３１２１を文書データ２１２１に登録する（ＳＰ９０２）。また、学習部２１１１は、教師辞書データ２１２２を登録する（ＳＰ９０２）。

学習部２１１１は、教師辞書データ２１２２、及び文書データ２１２１に基づき、機械学習により、推論モデル２００を生成する（ＳＰ９０３）。学習部２１１１は、その結果を推論結果データ２１２４に登録する（ＳＰ９０４）。

具体的には、例えば、学習部２１１１は、学習用文書データ３１２１に登録されている各文章から、教師辞書データ２１２２に登録されている単語（以下、候補単語という）を全て抽出する。そして、学習部２１１１は、抽出した各候補単語の所定範囲に所定の頻度以上で出現する他の単語（学習用文書データ３１２１中の他の単語）を、機械学習により、正の特徴量として抽出する（具体的には、特徴量の重み値に正の値を設定する）。他方、学習部２１１１は、抽出した各候補単語の所定範囲に所定の頻度以上で出現しない他の単語（学習用文書データ３１２１中の他の単語）を、機械学習により、負の特徴量として抽出する（具体的には、特徴量の重み値に負の値を設定する）。なお、この手法は、例えば、「Ce Zhang, “DeepDive: A Data Management System for Automatic Knowledge Base Construction,” Doctoral dissertation of University of Wisconsin-madison, Mar.
2015.」に開示されている。

具体的には、例えば、学習部２１１１は、教師辞書データ２１２２の正例テーブル２１２２１に登録されている「sasaki」、「tanaka」という候補単語（正例）を学習用文書データ３１２１中の「sasakiさんは毎朝走る」「今日が誕生日のtanakaさんをお祝いする」という文章中から発見する。そして、学習部２１１１は、「sasaki」、「tanaka」の周囲にある「走る」及び「誕生」という単語を、それぞれ「sasaki」及び「tanaka」に対する正の特徴量として抽出する。また、例えば、学習部２１１１は、教師辞書データ２１２２の負例テーブル２１２２２中に登録されている「hitachi」、「amazon」という候補単語
（負例）を学習用文書データ３１２１中の「hitachiの創業者はodairaさんです」「この
服はamazonで購入した」という文書中から発見する。そして、学習部２１１１は、「hitachi」の周囲にない「創業」という候補単語を、「hitachi」に対する、人名周辺には現れない負の特徴量として抽出する。

以上のように、学習部２１１１は、特徴量の特定を、教師辞書データ２１２２中の全ての単語と学習用文書データ３１２１の文章との全ての組合せに対して行うことによって、確度算出式２０１を含む推論モデル２００を自動生成する。なお、推論モデル２００の内容は、推論モデルパラメータ２１２３に登録される。
確度算出式２０１は、例えば、以下のようになる。

確度P=w1*「走る」+w2*「誕生」+w3*「創業」＋…
第１閾値＝0.85
第２閾値＝0.25

ここで、w1、w2、w3は特徴量に対する重み値である。このような推論モデル２００を機械学習により生成することにより、各特徴量に対する重み値が決定される。例えば、人名の単語の周辺に統計的に頻出する特徴量（例えば、「誕生」）に対する重み値w2には正の値が設定される。また、人名の単語の周辺に統計的に頻出しない特徴量（例えば、「創業」）に対する重み値w3には負の値が設定される。

次に、分析ノード２は、この推論モデル２００に対して、教師辞書データ２１２２中に登録されていない所定のデータ（追加学習対象単語）を入力することにより、追加学習単語の特徴量を特定すると共に、追加学習単語の確度Ｐを算出し、対応するラベルを設定する（ＳＰ９０５）。これにより分析ノード２は、推論モデル２００を完成させる。なお、追加学習対象単語ではなく学習処理で既に学習済みの単語を再利用してもよい。

例えば、分析ノード２は、「suzuki」を推論モデル２００に入力することで、その確度Ｐを算出し、推論結果データ２１２４の確度欄２１２４６にその値（例えば、「０．８８」）を登録する。その確度Ｐは第１閾値以上であるので、分析ノード２は、「suzuki」が人名である可能性が高いことを示すラベルである「T」を推論結果データ２１２４のラベ
ル欄２１２４５に登録する。また、例えば、分析ノード２は、算出された確度Ｐが第２閾値未満であった単語に対しては、人名である可能性が低いことを示すラベルである「F」
をラベル欄２１２４５に登録する。また、分析ノード２は、算出された確度Ｐが第１閾値未満第２閾値以上であった単語に対しては、人名であるか否かが不確定であることを示すラベルである「Null」をラベル欄２１２４５に登録する。以上で学習処理は終了する。

次に、生成した推論モデル２００を評価する評価処理の詳細を説明する。
＜評価処理＞

図１２は、評価処理の詳細を説明するフロー図である。まず、分析ノード２の評価部２１１２は、ユーザからの評価処理要求を受け付ける（ＳＰ１００１)。具体的には、例え
ば、端末３から所定の入力を受け付ける。

分析ノード２は、評価処理要求を受け付けると、学習処理の過程において特定された単語の特徴量と、学習処理の結果生成された推論モデル２００に所定のデータを入力して得られた特徴量とを比較する特徴量差分抽出処理を実行する（ＳＰ１００２）。そして、分析ノード２は、特徴量差分抽出処理の結果に基づき、所定の条件を満たす単語に対して確認ラベルを設定する確認ラベル抽出処理を実行する（ＳＰ１００３）。これらの処理の詳細は後述する。

分析ノード２は、確認ラベル抽出処理により設定された確認ラベルを表示した確認ラベル提示画面を表示し、ユーザから所定の指示を受け付ける確認ラベル提示処理を実行する（ＳＰ１００４）。確認ラベル提示処理の詳細は後述する。

分析ノード２は、受け付けた指示を推論モデル２００又は推論結果データ２１２４に入力するフィードバック処理を実行する（ＳＰ１００５）。以上で評価処理は終了する。

ここで、特徴量差分抽出処理の詳細を説明する。
＜特徴量差分抽出処理＞

図１３は、特徴量差分抽出処理の詳細を説明するフロー図である。まず、分析ノード２の評価部２１１２は、特徴量差分データ２１２５に新たなレコードを生成し、生成したレコードの候補欄２１２５１、文章欄２１２５２、及びラベル欄２１２５３に、学習処理で生成した推論結果データ２１２４の候補欄２１２４１、文章欄２１２４３、及びラベル欄２１２４５の値をそれぞれコピーする（ＳＰ１１０１）。

次に、評価部２１１２は、学習処理の過程で正例と判定された単語の特徴量と、所定の単語を推論モデル２００に入力された結果特定された当該単語の特徴量との間の差分又は重複に関する情報を、特徴量差分データ２１２５に登録する（ＳＰ１１０２）。

すなわち、まず、評価部２１１２は、正例の単語が有する特徴量に関する情報を、特徴量差分データ２１２５に登録する。具体的には、評価部２１１２は、推論結果データ２１２４のうち学習フラグ欄２１２４２が「正」である単語のレコードの特徴量欄２１２４４に「ｔ」が登録されている特徴量を全て特定し、特定した各特徴量を、特徴量差分データ２１２５の各レコードの、正例との関係欄２１２５４の重複欄２１２５４ａに登録する。

また、評価部２１１２は、正例の単語が有しない特徴量に関する情報を、特徴量差分データ２１２５に登録する。具体的には、評価部２１１２は、推論結果データ２１２４のうち学習フラグ欄２１２４２が「正」である単語のレコードにおける特徴量欄２１２４４が未登録の特徴量を全て特定し、特定した各特徴量を、特徴量差分データ２１２５の各レコ
ードの、正例との関係欄２１２５４の差分欄２１２５４ｂに登録する。

次に、評価部２１１２は、特徴量差分データ２１２５に、負例の単語の特徴量に関する情報を、特徴量差分データ２１２５に登録する（ＳＰ１１０３）。

すなわち、まず、評価部２１１２は、負例の単語が有する特徴量に関する情報を、特徴量差分データ２１２５に登録する。具体的には、評価部２１１２は、推論結果データ２１２４のうち学習フラグ欄２１２４２が「負」である単語のレコードの特徴量欄２１２４４に「ｔ」が登録されている特徴量を全て特定し、特定した各特徴量を、特徴量差分データ２１２５の各レコードの、負例との関係欄２１２５５の重複欄２１２５５ａに登録する。

また、評価部２１１２は、負例の単語が有しない特徴量に関する情報を、特徴量差分データ２１２５に登録する。具体的には、評価部２１１２は、推論結果データ２１２４のうち学習フラグ欄２１２４２が「負」である単語のレコードにおける特徴量欄２１２４４が未登録の特徴量を全て特定し、特定した各特徴量を、特徴量差分データ２１２５の各レコードの、負例との関係欄２１２５５の差分欄２１２５５ｂに登録する。

このように、分析ノード２は、重複特徴量（正例重複特徴量、及び負例重複特徴量）と、差分特徴量（正例差分特徴量、及び負例差分特徴量）を特定する。以上で特徴量差分抽出処理は終了する。

次に、確認ラベル抽出処理の詳細を説明する。
＜確認ラベル抽出処理＞
図１４は、確認ラベル抽出処理の詳細を説明するフロー図である。分析ノード２の評価部２１１２は、各単語に対して確認ラベルを設定するか否かの判定を行う。

まず、評価部２１１２は、第１判定ルールを適用することにより、各単語に対するラベルの設定の妥当性を判定し、そのラベルを修正する（ＳＰ１２０１）。すなわち、評価部２１１２は、第１領域に属する単語について、第１判定ルールを満たした場合に、その単語のラベルを、「T」から「F」に変更する。第１判定ルールを適用することにより、その単語が人名ではないのに誤ってその単語にラベルが付与されている場合に、そのラベルを除去することができる。

すなわち、まず、評価部２１１２は、確度Ｐが第１領域の単語と、第１判定ルールの内容とを取得する。具体的には、例えば、評価部２１１２は、特徴量差分データ２１２５の各単語のうち、推論結果データ２１２４の確度欄２１２４６の値が第１閾値以上の単語を全て特定し、また、確認ラベル抽出ルール２１２６の領域欄２１２６３に「１」が格納されているレコードのラベル操作欄２１２６２及びルール欄２１２６４の内容を取得する。

そして、評価部２１１２は、特定した各単語の特徴量に関し、正例重複特徴量の重みに比べて正例差分特徴量の重みが必要以上に小さいため、その単語の確度Ｐが第１閾値以上となっているかを判定し（「正例との差分」に着目する）、そのような単語に対して確認ラベルを設定する。

具体的には、例えば、評価部２１１２は、確認ラベルデータ２１２７のうち、その確度Ｐが第１閾値以上の単語が候補欄２１２７１に登録されているレコードを全て特定し、その各レコードの、正例との重複差分欄２１２７４の差分欄２１２７４ｂに登録されている全ての特徴量を特定する。そして、評価部２１１２は、推論モデルパラメータ２１２３を参照することにより、特定した各特徴量のうち重み値が最小の特徴量を特定し、特定した特徴量を有する単語が候補欄２１２７１に登録されている確認ラベルデータ２１２７のレ
コードの確認ラベル欄２１２７６欄を設定する（「○」を登録する）。

次に、評価部２１１２は、第２判定ルールを適用することにより、各単語に対するラベルの設定の妥当性を判定し、そのラベルを修正する（ＳＰ１２０２）。すなわち、評価部２１１２は、確度Ｐが第２領域に属する単語に対して、第２判定ルールを満たした場合に、その単語のラベルを、「Null」から「T」に変更する。第２判定ルールを適用すること
により、その単語が人名であるのに誤ってその単語にラベルが付与されていない場合に、その単語にラベルを付与することができる。

すなわち、まず、評価部２１１２は、確度Ｐが第２領域の単語と、第２判定ルールの内容とを取得する。具体的には、例えば、評価部２１１２は、推論結果データ２１２４の各単語のうち、確度欄２１２４６に第１閾値未満かつ第２閾値以上の確度Ｐが格納されているレコードの候補欄２１２４１の内容である単語を全て特定する。また、評価部２１１２は、確認ラベル抽出ルール２１２６の領域欄２１２６３に「２」が格納されているレコードのラベル操作欄２１２６２及びルール欄２１２６４の内容を取得する。

そして、評価部２１１２は、特定した各単語の特徴量に関し、正例重複特徴量を有しているにもかかわらず、その重みが小さいため、第１閾値未満の確度Ｐとなっているか否かを判定し（「負例との差分」に着目する）、そのような単語に対して確認ラベルを設定する。

具体的には、評価部２１１２は、確認ラベルデータ２１２７のうち、その確度Ｐが第１閾値未満かつ第２閾値以上の単語が候補欄２１２７１に格納されているレコードの、負例との重複差分欄２１２７５の差分欄２１２７５ｂに登録されている全ての特徴量を特定する。そして、評価部２１１２は、推論モデルパラメータ２１２３を参照することにより、特定した各特徴量のうち重み値が最大の特徴量を特定し、特定した特徴量を有する単語が候補欄２１２７１に登録されている確認ラベルデータ２１２７のレコードの確認ラベル欄２１２７６を設定する（「○」を登録する）。

次に、評価部２１１２は、第３判定ルールを適用することにより、各単語に対するラベルの設定の妥当性を判定し、そのラベルを修正する（ＳＰ１２０３）。すなわち、評価部２１１２は、確度Ｐが第３領域に属する単語に対して、第３判定ルールを満たした場合に、その単語のラベルを、「F」から「T」に変更する。第３判定ルールを適用することにより、その単語が人名であるのに誤ってその単語にラベルが付与されていない場合に、その単語にラベルを付与することができる。

すなわち、まず、評価部２１１２は、確度Ｐが第３領域の単語と、第３判定ルールの内容とを取得する。具体的には、例えば、評価部２１１２は、特徴量差分データ２１２５の各単語のうち、推論結果データ２１２４の確度欄２１２４６の値が第２閾値未満の単語を全て特定し、また、確認ラベル抽出ルール２１２６の領域欄２１２６３に「３」が格納されているレコードのラベル操作欄２１２６２及びルール欄２１２６４の内容を取得する。

そして、評価部２１１２は、特定した各単語の特徴量に関し、負例重複特徴量の重みに比べて負例差分特徴量の重みが小さいため、その単語の確度Ｐが第２閾値未満となっているか否かを判定し（「負例との差分」に着目する）、そのような単語に対して確認ラベルを設定する。

具体的には、評価部２１１２は、確認ラベルデータ２１２７のうち、その確度Ｐが第２閾値未満の単語が候補欄２１２７１に登録されているレコードを全て特定し、その各レコードの、負例との重複差分欄２１２７５の差分欄２１２７５ｂに登録されている全ての特
徴量を特定する。そして、評価部２１１２は、推論モデルパラメータ２１２３を参照することにより、特定した各特徴量のうち重み値が最大の特徴量を特定し、特定した特徴量を有する単語が候補欄２１２７１に登録されている確認ラベルデータ２１２７のレコードの確認ラベル欄２１２７６を設定する（「○」を登録する）。

最後に、評価部２１１２は、第４判定ルールを適用することにより、各単語に対するラベルの設定の妥当性を判定し、そのラベルを修正する（ＳＰ１２０４）。すなわち、評価部２１１２は、全ての単語（全ての領域の単語）について、第４判定ルールを満たした場合に、現在のラベルが「T」である単語については「F」に変更し、現在のラベルが「F」
である単語については「T」に変更する。
第４判定ルールを適用することにより、その単語が人名であるのに誤ってその単語にラベルが付与されていない場合、又はその逆の場合に、その単語に正しいラベルを付与することができる。

すなわち、まず、評価部２１１２は、全ての領域の単語と、第４判定ルールの内容とを取得する。特徴量差分データ２１２５の各単語を全て特定し、また、確認ラベル抽出ルール２１２６の領域欄２１２６３に「４」が格納されているレコードのラベル操作欄２１２６２及びルール欄２１２６４の内容を取得する。

そして、評価部２１１２は、特定した各単語に関し、同じ特徴量を有するにも関わらず異なるラベルが設定されている他の単語（既に学習された正例の単語又は負例の単語）があるか否かを判定し（ラベルの内容に着目する）、その各単語に対して確認ラベルを設定する。

具体的には、例えば、評価部２１１２は、確認ラベルデータ２１２７の各レコードを参照することにより、正例との重複差分欄２１２７４の重複欄２１２７４ａに登録されている特徴量のリストが共通する一方で、ラベル欄２１２７３に登録されているラベルが異なっている（一方が「Ｔ」で他方が「Ｆ」）、２つの単語を特定する。そして、評価部２１１２は、特定した単語が候補欄２１２７１に登録されている各レコードの確認ラベル欄２１２７６欄を設定する（「○」を登録する）。以上で確認ラベル抽出処理は終了する。

このように、本実施形態では、領域ごとに判定ルールが存在するものとしたが、各領域に対して複数の判定ルールが存在してもよい。また、本実施形態では、各単語の特徴量は、「正例」の単語の特徴量と「負例」の単語の特徴量とのいずれか一方と比較されているが、例えば、正例の単語の特徴量との差分が最小かつ、負例の単語の特徴量との差分が最大の特徴量を有する単語を選択するといったように、「正例」の単語の特徴量及び「負例」の単語の特徴量の距離を組み合わせた判定ルールとしてもよい。

また、本実施形態では、判定ルールに使用される特徴量として、重複特徴量及び差分特徴量を用いたが、例えば、正例の単語の特徴量との差分が最小の特徴量のうち、その重みの値が最大の特徴量を選択するといったように、特徴量の重みの値に基づく判定ルールとしてもよい。

さらに、本実施形態では、判定ルールとして特徴量の数を用いたが、例えば、「同一の単語がそれぞれ異なる単語として抽出されている（例えば、「suzuki」）がそれぞれの確度Ｐの値が大きく異なる場合は、人名と会社名が混在している可能性が高いため、そのような単語に対して確認ラベルを設定する」といったような、同一単語の確度Ｐのばらつきを使った判定ルールを設けてもよい。

＜確認ラベル提示処理＞
次に、確認ラベル提示処理の詳細を説明する。確認ラベル提示処理は、確認ラベルの設定状況を示すラベル確認画面を表示する。
図１５は、ラベル確認画面の一例を示す図である。確認ラベル提示画面１０００は、確認ラベルが設定されている単語（以下、確認単語という）に関する情報（すなわち、確認ラベルデータ２１２７の確認ラベル欄２１２７６に「○」が登録されているレコードの情報）を表示する画面である。

確認ラベル提示画面１０００は、確認単語（候補欄２１２７１）を表示する単語表示欄１０１２と、確認単語を含む文章（文章欄２１２７２）を表示される文章表示欄１０１４とを有するラベル確認画面１０１０を備える。また、このラベル確認画面１０１０は、確認単語が人名である場合にユーザが選択するＯＫボタン１０１６と、確認単語が人名でない場合にユーザが選択するＮＧボタン１０１８とを備える。ＯＫボタン１０１６が選択されると、確認単語に係るラベルに「Ｔ」が設定され、ＮＧボタン１０１８が選択されると、確認単語に係るラベルに「Ｆ」が設定される。これにより、ユーザは、推論モデル２００によるラベルを修正することができる。

また、確認ラベル提示画面１０００は、特徴量確認画面１０２０を備える。特徴量確認画面１０２０は、ラベル確認画面１０１０でＮＧボタン１０１８が選択された場合に表示される。特徴量確認画面１０２０は、確認単語が有する特徴量を表示する特徴量一覧表示欄１０２２（すなわち、推論結果データ２１２４の確認単語に係るレコードの特徴量欄２１２４４に「t」が登録されている単語）を備える。

各特徴量一覧表示欄１０２２は、そこに表示されている特徴量が人名を判断するための単語として妥当である場合にユーザに選択されるＯＫボタン１０２４と、そこに表示されている特徴量が人名を判断するための単語として妥当でない場合にユーザに選択されるＮＧボタン１０２６とを備える。ＮＧボタン１０２６が選択されると、ユーザは、所定の編集画面（不図示）により、対応する特徴量又はこれに関するパラメータを修正することができる。例えば、推論モデルパラメータ２１２３における対応する特徴量に係るレコードを削除し、又は値欄２１２３２の値を変更する（例えば、値を減少させる）ことができる。また、推論結果データ２１２４の確認単語に係るレコードの特徴量欄２１２４４に、「t」以外の値を設定することができる。これにより、推論モデル２００の内容を適切に修
正することができる。

また、確認ラベル提示画面１０００は、影響確認画面１０３０を備える。影響確認画面１０３０は、特徴量一覧表示欄１０２２でＮＧボタン１０２６が選択された特徴量又はこれに関するパラメータが修正された場合に、それによって特徴量が変化する他の単語を表示する他単語表示欄１０３２と、他単語表示欄１０３２に係る単語を含む文章を表示する文章表示欄１０３４とを備える。すなわち、他単語表示欄１０３２には、推論結果データ２１２４から検索された、ＮＧボタン１０２６が選択された特徴量を有する単語（候補欄２１２４１）と、その単語を含む文章（文章欄２１２４３）の内容が表示される。

以上の特徴量確認画面１０２０及び影響確認画面１０３０により、ユーザは、ラベル確認画面１０１０と同様の操作で推論結果を修正することができ、また、この結果に基づき、推論モデルパラメータ２１２３の重みを調整する特徴量を決定することができる。

また、確認ラベル提示画面１０００は、変更度調整画面１０４０を備える。変更度調整画面１０４０は、精度変化表示画面１０５０と、ラベル付与領域表示画面１０６０と、特徴量の重みを調整するためのスライドバー１０７０と、保存ボタン１０８０を備える。

精度変化表示画面１０５０には、特徴量の重みを調整する前後での精度パラメータ（pr
ecision、recall）の変化が表示される。

ラベル付与領域表示画面１０６０には、単語が有する特徴量とその単語に対して付与されるラベルの関係を表す二次元グラフが表示される。具体的には、グラフの縦軸１０６２及び横軸１０６４はそれぞれ、特徴量確認画面１０２０に表示されている各特徴量を表す。グラフ上の点１０６６は、単語を表す。グラフ上に表示される円１０６８の内部に点１０６６が存在する場合は、その点１０６６に係る単語には、ラベルが付与される。グラフ上に表示される円１０６８の外部に点１０６６が存在する場合は、その点１０６６に係る単語には、ラベルが付与されない。また、点１０６６に対しては、その点１０６６に対応する単語欄１０６９が設けられる。

なお、ラベル付与領域表示画面１０６０の二次元グラフの各軸は、単語が特徴量を２以上有している場合は、それらの特徴量を圧縮して２次元グラフに変換できるような写像変換の処理を加えた後の軸としてもよい。

スライドバー１０７０は、各特徴量の重み値（推論モデルパラメータ２１２３の値欄２１２３２）の変更をユーザから受け付ける。スライドバー１０７０により重みの値を変更すると、その重み値の調整量に応じて、単語にラベルが付与され（例えば、ラベルが「F
」）、または、単語に新たにラベルが付与される（例えば、ラベルが「T」）。ユーザは
、その変更の内容をラベル付与領域表示画面１０６０により確認することができる。

保存ボタン１０８０は、スライドバー１０７０により設定されている現在の重み値の、推論モデルパラメータ２１２３の値欄２１２３２への設定を受け付ける。文書解析システム１００は、この修正された重み値に基づき再度機械学習を行い、新たな推論モデルを生成することができる。

次に、推論処理の詳細を説明する。
＜推論処理＞
図１６は、推論処理の詳細を説明するフロー図である。まず、分析ノード２の推論部２１１４は、ユーザから、推論要求を受け付ける（ＳＰ１３０１）。具体的には、例えば、推論部２１１４は、端末３から本番用文書データ３１２２の受信を受け付ける。

推論部２１１４は、受信した本番用文書データ３１２２を文書データ２１２１に登録する（ＳＰ１３０２）。そして、推論部２１１４は、評価処理で確認ラベル等によるラベルの修正を行った推論モデル２００（推論モデルパラメータ２１２３）に基づき、本番用文書データ３１２２に記録されている文章における各単語に対して、単語及び文章の解析を行う（ＳＰ１３０３）。そして、推論部２１１４は、単語の解析により得られたデータを、推論結果データ２１２４に登録する（ＳＰ１３０４)。以上で推論処理は終了する。

以上のように、本実施形態の文書解析システム１００は、複数の学習対象のデータ（単語）に対してそれぞれの特徴量を特定する機械学習を行うことにより、入力データに設定すべきラベル（「Ｔ」、「Ｆ」、「Ｎｕｌｌ」等）を当該入力データの特徴量に基づき推定する推論モデル２００を生成し、所定のデータ（追加学習単語）を生成済みの推論モデル２００に入力することにより特定された追加学習単語の特徴量と、機械学習により特定された、学習対象のデータの特徴量との類似性を判定することにより、推論モデル２００によるラベルの推定の妥当性を判定し、その判定内容を示す情報（確認ラベル）を出力する。これにより、ユーザは、推論モデル２００を修正べきか否かを判断することができる。これにより、機械学習により生成される推論モデル２００の精度を確実に向上させることができる

すなわち、本実施形態の文書解析システム１００は、教師データの特徴量と推論モデルによる特徴量との類似性を互いに比較することで推論モデル２００を検証するので、教師データの適否及び推論モデル２００の推論の適否の判断について知識の乏しいユーザであっても、容易に推論モデル２００を修正してその精度を向上させることができる。すなわち、分析知識のないユーザでも少ない工数で推論モデル２００のチューニングが可能となる。

以上、本発明の実施形態について説明したが、本発明の実施形態は例示したものに限るものではなく、発明の主旨を逸脱しない範囲で種々の変更が可能である。

例えば、ここではラベルを設定するデータの属性として人名を挙げたが、他の属性を対象としてもよい。

また、本実施形態で説明した各機能は、１のプログラムで構成されていても２以上のプログラムの部分に分割されていてもよい。また、これらのプログラムは、分析ノード２又は端末３のいずれに配置されていてもよく、また他の情報処理装置に設けてもよい。

以上の本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、前記推論モデルは、前記入力データに設定すべきラベルの種類を判定するためのパラメータである確度に基づき、前記入力データの特徴量からラベルを推定し、前記モデル作成支援システムは、前記評価処理において、前記確度に応じた、前記特徴量間の類似性を判定する複数の判定ルールを設定し、設定した判定ルールに基づき、前記推論モデルによるラベルの推定の妥当性を判定する、としてもよい。

このように、ラベルの種類を判定するためのパラメータである確度に応じた、特徴量間の類似性を判定する複数の判定ルールに基づき、ラベルの推定の妥当性を判定することで、ラベルの種類に応じた的確な判定が可能となる。

また、前記モデル作成支援システムは、前記評価処理において、前記所定のデータの特徴量と、前記学習対象のデータの特徴量との類似性を、両データが共通して有する特徴量と一方のデータのみが有する特徴量とを特定することにより、前記ラベルの推定の妥当性を判定する、としてもよい。

このように、ラベルの推定の妥当性を判定するに際して、ラベルの設定の根拠となる特徴量の共通点（重複）及び相違点（差分）を特定することで、ラベルの推定の妥当性を的確に判定することができる。すなわち、教師データ及び、出力データ（推論モデル２００が吐き出したデータ）の特徴量間の距離情報を用いることで、推論モデル２００の的確性を判定することができる。

また、前記モデル作成支援システムは、前記判定内容を示す情報に基づき、前記生成した推論モデルの修正をユーザから受け付けるフィードバック処理を実行する、としてもよい。

このように、生成した推論モデル２００の修正をユーザから受け付けるフィードバックを行うことで、例えば、推論モデル２００を改善し、その信頼度を高めることができる。

また、前記モデル作成支援システムは、前記学習処理において、前記特徴量の重み値を特定する機械学習を行うことにより、入力データに設定すべきラベルを当該入力データの特徴量の重み値に基づき推定する推論モデルを生成し、前記評価処理において、前記所定のデータの特徴量の重み値と、前記学習対象のデータの特徴量の重み値との類似性を判定
することにより、前記推論モデルにおける重み値の妥当性を判定し、前記フィードバック処理において、前記特定された重み値の修正をユーザから受け付ける、としてもよい。

このように、入力データに設定すべきラベルを当該入力データの特徴量の重み値に基づき推定する推論モデル２００において、所定のデータ（追加学習単語）の特徴量の重み値と、学習対象のデータの特徴量の重み値との類似性を判定し、その重み値の修正をユーザから受け付けることで、推論モデル２００の詳細なチューニングが可能となり、推論モデル２００の信頼度をより高めることができる。

１００文書解析システム、２分析ノード、３端末、２００推論モデル

Claims

プロセッサ及びメモリを備えるモデル作成支援システムが、
複数の学習対象のデータに対してそれぞれの特徴量を特定する機械学習を行うことにより、入力データに設定すべきラベルを当該入力データの特徴量に基づき推定する推論モデルを生成する学習処理と、
所定のデータを前記生成した推論モデルに入力することにより特定された当該所定のデータの特徴量と、前記機械学習により特定された、前記学習対象のデータの特徴量との類似性を判定することにより、前記推論モデルによるラベルの推定の妥当性を判定し、その判定内容を示す情報を出力する評価処理と、
を実行する、モデル作成支援方法。
前記推論モデルは、前記入力データに設定すべきラベルの種類を判定するためのパラメータである確度に基づき、前記入力データの特徴量からラベルを推定し、
前記モデル作成支援システムは、前記評価処理において、前記確度に応じた、前記特徴量間の類似性を判定する複数の判定ルールを設定し、設定した判定ルールに基づき、前記推論モデルによるラベルの推定の妥当性を判定する、
請求項１に記載のモデル作成支援方法。
前記モデル作成支援システムは、前記評価処理において、前記所定のデータの特徴量と、前記学習対象のデータの特徴量との類似性を、両データが共通して有する特徴量と一方のデータのみが有する特徴量とを特定することにより、前記ラベルの推定の妥当性を判定する、
請求項１に記載のモデル作成支援方法。
前記モデル作成支援システムは、前記判定内容を示す情報に基づき、前記生成した推論モデルの修正をユーザから受け付けるフィードバック処理を実行する、請求項１に記載のモデル作成支援方法。
前記モデル作成支援システムは、
前記学習処理において、前記特徴量の重み値を特定する機械学習を行うことにより、入力データに設定すべきラベルを当該入力データの特徴量の重み値に基づき推定する推論モデルを生成し、
前記評価処理において、前記所定のデータの特徴量の重み値と、前記学習対象のデータの特徴量の重み値との類似性を判定することにより、前記推論モデルにおける重み値の妥当性を判定し、
前記フィードバック処理において、前記特定された重み値の修正をユーザから受け付ける、
請求項４に記載のモデル作成支援方法。
プロセッサ及びメモリを有し、
複数の学習対象のデータに対してそれぞれの特徴量を特定する機械学習を行うことにより、入力データに設定すべきラベルを当該入力データの特徴量に基づき推定する推論モデルを生成する学習部と、
所定のデータを前記生成した推論モデルに入力することにより特定された当該所定のデータの特徴量と、前記機械学習により特定された、前記学習対象のデータの特徴量との類似性を判定することにより、前記推論モデルによるラベルの推定の妥当性を判定し、その判定内容を示す情報を出力する評価部と、
を備える、モデル作成支援システム。
前記推論モデルは、前記入力データに設定すべきラベルの種類を判定するためのパラメータである確度に基づき、前記入力データの特徴量からラベルを推定し、
前記評価部は、前記確度に応じた、前記特徴量間の類似性を判定する複数の判定ルールを設定し、設定した判定ルールに基づき、前記推論モデルによるラベルの推定の妥当性を判定する、
請求項６に記載のモデル作成支援システム。
前記評価部は、前記所定のデータの特徴量と、前記学習対象のデータの特徴量との類似性を、両データが共通して有する特徴量と一方のデータのみが有する特徴量とを特定することにより、前記ラベルの推定の妥当性を判定する、
請求項６に記載のモデル作成支援システム。
前記判定内容を示す情報に基づき、前記生成した推論モデルの修正をユーザから受け付けるフィードバック部を備える、請求項６に記載のモデル作成支援システム。
前記学習部は、前記特徴量の重み値を特定する機械学習を行うことにより、入力データに設定すべきラベルを当該入力データの特徴量の重み値に基づき推定する推論モデルを生成し、
前記評価部は、前記所定のデータの特徴量の重み値と、前記学習対象のデータの特徴量の重み値との類似性を判定することにより、前記推論モデルにおける重み値の妥当性を判定し、
前記フィードバック処理部は、前記生成した重み値の修正をユーザから受け付ける、
請求項９に記載のモデル作成支援システム。