JP7189068B2 - モデル作成支援方法、及びモデル作成支援システム - Google Patents
モデル作成支援方法、及びモデル作成支援システム Download PDFInfo
- Publication number
- JP7189068B2 JP7189068B2 JP2019072538A JP2019072538A JP7189068B2 JP 7189068 B2 JP7189068 B2 JP 7189068B2 JP 2019072538 A JP2019072538 A JP 2019072538A JP 2019072538 A JP2019072538 A JP 2019072538A JP 7189068 B2 JP7189068 B2 JP 7189068B2
- Authority
- JP
- Japan
- Prior art keywords
- feature amount
- label
- data
- learning
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Description
又は無線の通信ネットワークを介したネットワークスイッチ4によって通信可能に接続される。
図2は、分析ノード2が備える構成の一例を示す図である。分析ノード2は、CPU(Central Processing Unit)などの処理部21と、RAM(Random Access Memory)又は
ROM(Read Only Memory)等のメモリ22と、FC(Fibre Channel)ディスク、SC
SI(Small Computer System Interface)ディスク、SATAディスク、ATA(AT Attachment)ディスク又はSAS(Serial Attached SCSI)ディスク等のディスクデバイス27と、キーボード、マウス、タッチパネルなどからなる入力装置24と、モニタ(ディ
スプレイ)等からなる出力装置25と、他の装置と通信を行う通信装置26とを備える。なお、処理部21は、分析ノード2全体の動作制御を司り、メモリ22に格納された後述の制御プログラム群211及び管理テーブル群212に基づいて必要な処理を実行する。メモリ22は、後述する制御プログラム群211及び管理テーブル群212を記憶するために用いられる他、処理部21のワークメモリとしても用いられる。通信装置26は、ネットワークスイッチ4に対応した通信インタフェースであり、分析ノード2が通信する際のプロトコル制御を行う。
ここで、文書データ2121及び教師辞書データ2122の例を説明する。
図4は、教師辞書データ2122の一例を示す図である。教師辞書データ2122は、
正例テーブル21221及び負例テーブル21222を含んで構成されている。
<推論モデルパラメータ>
図5は、推論モデルパラメータ2123の一例を示す図である。推論モデルパラメータ2123は、重み値を示す変数名が格納される重み欄21231、及び、重み欄21231に係る変数の値(重み値)が格納される値欄21232を有する。
<確度算出式>
次に、確度算出式201について説明する。確度算出式201は、特徴量及びその重み値によって表現される式であり、本実施形態では、
みw1は0.5、特徴量X2の重みw2は0.8、特徴量X3の重みw3は-0.1となる。
<推論結果データ>
図6は、推論結果データ2124の一例を示す図である。推論結果データ2124は、学習された又は分析された単語が格納される候補欄21241と(推論結果データ2124には、学習対象の単語だけでなく、解析対象の文章の単語に推論モデル200を入力した結果も格納される)、候補欄21241に係る単語が正例であるか(「正」)又は負例であるか(「負」)を示す情報が格納される学習フラグ欄21242と、候補欄21241に係る単語が登録される文章(学習用文書データ3121)が格納される文章欄21243と、候補欄21241に係る単語の特徴量の情報(例えば、「t」が正の特徴量、「f」が負の特徴量)が格納される特徴量欄21244と、候補欄21241に係る単語に設定されたラベルの情報が格納されるラベル欄21245と、候補欄21241に係る単語の確度Pが格納される確度欄21246とを有する。
そして、評価部2112は、所定のデータ(学習対象の単語でも新たな追加的な単語でもよい)を、学習部2111で生成した推論モデル200に入力することにより特定された当該所定のデータの特徴量と、学習部2111における機械学習により既に特定された、学習対象のデータの特徴量との類似性を判定することにより、推論モデル200によるラベルの推定の妥当性を判定し、その判定内容を示す情報を出力する。なお、評価部2112は、特徴量の類似性についての情報を、特徴量差分データ2125に記憶する。また、評価部2112は、ラベルの設定の妥当性の判定結果を、確認ラベルデータ2127に記憶する。
<確認ラベル抽出ルール>
図7は、確認ラベル抽出ルール2126の一例を示す図である。確認ラベル抽出ルール2126は、判定ルールを記憶した情報であり、ラベルを変更する目的を示す情報が格納される確認目的欄21261と、ラベルの変更(ラベル操作)の内容を特定する情報が格納されるラベル操作欄21262と、ラベルの変更対象とする単語が属する領域を特定する情報が格納される領域欄21263と、判定ルールが格納されるルール欄21264とをそれぞれ項目として有する。
る、ラベルの精度向上のための判定ルールが記憶されている(第1判定ルール)。また、確認ラベル抽出ルール2126には、確度Pが第2領域に属する単語に対して適用される、再現率(Recall)向上のための判定ルールが記憶されている(第2判定ルール)。また、確認ラベル抽出ルール2126には、確度Pが第3領域に属する単語に対して適用される、再現率(Recall)向上のための判定ルールが記憶されている(第3判定ルール)。また、確認ラベル抽出ルール2126には、全て単語に対して適用される、適合率(Precision)及び再現率(Recall)向上のための判定ルールが記憶されている(第4判定ルール
)。
に間違ってラベルを付与してしまっている単語を発見することを目的としている。この場合、第1判定ルールは「T⇒F」であり、具体的には、ある単語に誤ってラベルを付与(T)
してしまっている場合に、その単語に対してラベルを付与しない(F)ようにラベルを変
更する。第1判定ルールは、領域「1」の単語を対象としている。
<特徴量差分データ>
図8は、特徴量差分データ2125の一例を示す図である。特徴量差分データ2125は、学習対象又は分析対象の単語が格納される候補欄21251、候補欄21251に係る単語が登録されている文章(学習用文書データ3121)が格納される文章欄21252、候補欄21251に係る単語に付与されたラベルを特定する情報(「T」、「F」、「Null」)が格納されるラベル欄21253、正例との関係欄21254、及び負例との関係欄21255の各項目を有する。
量として「走る」を有し、また、負例差分特徴量として「購入」を有している。
<確認ラベルデータ>
図9は、確認ラベルデータ2127の一例を示す図である。確認ラベルデータ2127は、候補欄21271、文章欄21272、ラベル欄21273、正例との重複差分欄21274、負例との重複差分欄21275、及び確認ラベル欄21276を有する。
次に、文書解析システム100が行う、分析対象の文書を解析する文書解析処理について説明する。
<文書解析処理>
図10は、文書解析処理の一例を説明するフロー図である。まず、分析ノード2は、学習対象の文章における各単語に対して所定の機械学習を行うことにより、入力された単語に対応するラベルを推定する推論モデル200を生成する学習処理を実行する(SP1)。そして、分析ノード2は、生成した推論モデル200によるラベルの設定の妥当性を評価すると共に、確認ラベルを設定する評価処理を実行する(SP2)。なお、分析ノード2は、評価処理により設定された確認ラベルに基づき、ユーザから、推論モデル200の修正(フィードバック)を受け付ける。分析ノード2は、修正された推論モデル200及びラベルに基づき、解析対象の文書における各単語に対応するラベルを推定する推論処理を実行する(SP3)。
以下、各処理の詳細を説明する。
図11は、学習処理の一例を説明するフロー図である。まず、分析ノード2の学習部2111は、ユーザから、学習処理の要求を受け付ける(SP901)。具体的には、例えば、分析ノード2は、端末3から、学習用文書データ3121及び教師辞書データ2122の受信を受け付ける。
2015.」に開示されている。
(負例)を学習用文書データ3121中の「hitachiの創業者はodairaさんです」「この
服はamazonで購入した」という文書中から発見する。そして、学習部2111は、「hitachi」の周囲にない「創業」という候補単語を、「hitachi」に対する、人名周辺には現れない負の特徴量として抽出する。
確度算出式201は、例えば、以下のようになる。
第1閾値=0.85
第2閾値=0.25
ル欄21245に登録する。また、例えば、分析ノード2は、算出された確度Pが第2閾値未満であった単語に対しては、人名である可能性が低いことを示すラベルである「F」
をラベル欄21245に登録する。また、分析ノード2は、算出された確度Pが第1閾値未満第2閾値以上であった単語に対しては、人名であるか否かが不確定であることを示すラベルである「Null」をラベル欄21245に登録する。以上で学習処理は終了する。
<評価処理>
ば、端末3から所定の入力を受け付ける。
<特徴量差分抽出処理>
ードの、正例との関係欄21254の差分欄21254bに登録する。
<確認ラベル抽出処理>
図14は、確認ラベル抽出処理の詳細を説明するフロー図である。分析ノード2の評価部2112は、各単語に対して確認ラベルを設定するか否かの判定を行う。
コードの確認ラベル欄21276欄を設定する(「○」を登録する)。
により、その単語が人名であるのに誤ってその単語にラベルが付与されていない場合に、その単語にラベルを付与することができる。
徴量を特定する。そして、評価部2112は、推論モデルパラメータ2123を参照することにより、特定した各特徴量のうち重み値が最大の特徴量を特定し、特定した特徴量を有する単語が候補欄21271に登録されている確認ラベルデータ2127のレコードの確認ラベル欄21276を設定する(「○」を登録する)。
である単語については「T」に変更する。
第4判定ルールを適用することにより、その単語が人名であるのに誤ってその単語にラベルが付与されていない場合、又はその逆の場合に、その単語に正しいラベルを付与することができる。
次に、確認ラベル提示処理の詳細を説明する。確認ラベル提示処理は、確認ラベルの設定状況を示すラベル確認画面を表示する。
図15は、ラベル確認画面の一例を示す図である。確認ラベル提示画面1000は、確認ラベルが設定されている単語(以下、確認単語という)に関する情報(すなわち、確認ラベルデータ2127の確認ラベル欄21276に「○」が登録されているレコードの情報)を表示する画面である。
正することができる。
ecision、recall)の変化が表示される。
」)、または、単語に新たにラベルが付与される(例えば、ラベルが「T」)。ユーザは
、その変更の内容をラベル付与領域表示画面1060により確認することができる。
<推論処理>
図16は、推論処理の詳細を説明するフロー図である。まず、分析ノード2の推論部2114は、ユーザから、推論要求を受け付ける(SP1301)。具体的には、例えば、推論部2114は、端末3から本番用文書データ3122の受信を受け付ける。
することにより、前記推論モデルにおける重み値の妥当性を判定し、前記フィードバック処理において、前記特定された重み値の修正をユーザから受け付ける、としてもよい。
Claims (10)
- プロセッサ及びメモリを備えるモデル作成支援システムが、
複数の学習対象のデータに対してそれぞれの特徴量を特定する機械学習を行うことにより、入力データに設定すべきラベルを当該入力データの特徴量に基づき推定する推論モデルを生成する学習処理と、
所定のデータを前記生成した推論モデルに入力することにより特定された当該所定のデータの特徴量と、前記機械学習により特定された、前記学習対象のデータの特徴量との類似性を判定することにより、前記推論モデルによるラベルの推定の妥当性を判定し、その判定内容を示す情報を出力する評価処理と、
を実行する、モデル作成支援方法。 - 前記推論モデルは、前記入力データに設定すべきラベルの種類を判定するためのパラメータである確度に基づき、前記入力データの特徴量からラベルを推定し、
前記モデル作成支援システムは、前記評価処理において、前記確度に応じた、前記特徴量間の類似性を判定する複数の判定ルールを設定し、設定した判定ルールに基づき、前記推論モデルによるラベルの推定の妥当性を判定する、
請求項1に記載のモデル作成支援方法。 - 前記モデル作成支援システムは、前記評価処理において、前記所定のデータの特徴量と、前記学習対象のデータの特徴量との類似性を、両データが共通して有する特徴量と一方のデータのみが有する特徴量とを特定することにより、前記ラベルの推定の妥当性を判定する、
請求項1に記載のモデル作成支援方法。 - 前記モデル作成支援システムは、前記判定内容を示す情報に基づき、前記生成した推論モデルの修正をユーザから受け付けるフィードバック処理を実行する、請求項1に記載のモデル作成支援方法。
- 前記モデル作成支援システムは、
前記学習処理において、前記特徴量の重み値を特定する機械学習を行うことにより、入力データに設定すべきラベルを当該入力データの特徴量の重み値に基づき推定する推論モデルを生成し、
前記評価処理において、前記所定のデータの特徴量の重み値と、前記学習対象のデータの特徴量の重み値との類似性を判定することにより、前記推論モデルにおける重み値の妥当性を判定し、
前記フィードバック処理において、前記特定された重み値の修正をユーザから受け付ける、
請求項4に記載のモデル作成支援方法。 - プロセッサ及びメモリを有し、
複数の学習対象のデータに対してそれぞれの特徴量を特定する機械学習を行うことにより、入力データに設定すべきラベルを当該入力データの特徴量に基づき推定する推論モデルを生成する学習部と、
所定のデータを前記生成した推論モデルに入力することにより特定された当該所定のデータの特徴量と、前記機械学習により特定された、前記学習対象のデータの特徴量との類似性を判定することにより、前記推論モデルによるラベルの推定の妥当性を判定し、その判定内容を示す情報を出力する評価部と、
を備える、モデル作成支援システム。 - 前記推論モデルは、前記入力データに設定すべきラベルの種類を判定するためのパラメータである確度に基づき、前記入力データの特徴量からラベルを推定し、
前記評価部は、前記確度に応じた、前記特徴量間の類似性を判定する複数の判定ルールを設定し、設定した判定ルールに基づき、前記推論モデルによるラベルの推定の妥当性を判定する、
請求項6に記載のモデル作成支援システム。 - 前記評価部は、前記所定のデータの特徴量と、前記学習対象のデータの特徴量との類似性を、両データが共通して有する特徴量と一方のデータのみが有する特徴量とを特定することにより、前記ラベルの推定の妥当性を判定する、
請求項6に記載のモデル作成支援システム。 - 前記判定内容を示す情報に基づき、前記生成した推論モデルの修正をユーザから受け付けるフィードバック部を備える、請求項6に記載のモデル作成支援システム。
- 前記学習部は、前記特徴量の重み値を特定する機械学習を行うことにより、入力データに設定すべきラベルを当該入力データの特徴量の重み値に基づき推定する推論モデルを生成し、
前記評価部は、前記所定のデータの特徴量の重み値と、前記学習対象のデータの特徴量の重み値との類似性を判定することにより、前記推論モデルにおける重み値の妥当性を判定し、
前記フィードバック処理部は、前記生成した重み値の修正をユーザから受け付ける、
請求項9に記載のモデル作成支援システム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019072538A JP7189068B2 (ja) | 2019-04-05 | 2019-04-05 | モデル作成支援方法、及びモデル作成支援システム |
US16/823,562 US20200320409A1 (en) | 2019-04-05 | 2020-03-19 | Model creation supporting method and model creation supporting system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019072538A JP7189068B2 (ja) | 2019-04-05 | 2019-04-05 | モデル作成支援方法、及びモデル作成支援システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020170427A JP2020170427A (ja) | 2020-10-15 |
JP7189068B2 true JP7189068B2 (ja) | 2022-12-13 |
Family
ID=72661862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019072538A Active JP7189068B2 (ja) | 2019-04-05 | 2019-04-05 | モデル作成支援方法、及びモデル作成支援システム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20200320409A1 (ja) |
JP (1) | JP7189068B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7364512B2 (ja) * | 2020-03-25 | 2023-10-18 | 株式会社日立製作所 | ラベル付与モデル生成装置、及びラベル付与モデル生成方法 |
US20240135248A1 (en) * | 2021-03-01 | 2024-04-25 | Nippon Telegraph And Telephone Corporation | Support device, support method, and program |
JP2022148430A (ja) * | 2021-03-24 | 2022-10-06 | 株式会社日立製作所 | 文書情報抽出システム、および文書情報抽出方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012146003A (ja) | 2011-01-07 | 2012-08-02 | Nippon Telegr & Teleph Corp <Ntt> | データ抽出装置、データ抽出方法、及びプログラム |
JP2017058866A (ja) | 2015-09-15 | 2017-03-23 | 株式会社東芝 | 情報抽出装置、情報抽出方法および情報抽出プログラム |
-
2019
- 2019-04-05 JP JP2019072538A patent/JP7189068B2/ja active Active
-
2020
- 2020-03-19 US US16/823,562 patent/US20200320409A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012146003A (ja) | 2011-01-07 | 2012-08-02 | Nippon Telegr & Teleph Corp <Ntt> | データ抽出装置、データ抽出方法、及びプログラム |
JP2017058866A (ja) | 2015-09-15 | 2017-03-23 | 株式会社東芝 | 情報抽出装置、情報抽出方法および情報抽出プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20200320409A1 (en) | 2020-10-08 |
JP2020170427A (ja) | 2020-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210049503A1 (en) | Meaningfully explaining black-box machine learning models | |
US11501210B1 (en) | Adjusting confidence thresholds based on review and ML outputs | |
US20190354810A1 (en) | Active learning to reduce noise in labels | |
JP6954003B2 (ja) | データベースのための畳み込みニューラルネットワークモデルの決定装置及び決定方法 | |
WO2017216980A1 (ja) | 機械学習装置 | |
JP7189068B2 (ja) | モデル作成支援方法、及びモデル作成支援システム | |
US20140314311A1 (en) | System and method for classification with effective use of manual data input | |
US20150242761A1 (en) | Interactive visualization of machine-learning performance | |
US10983786B2 (en) | Automatically evaluating software project requirements | |
JP2020135891A (ja) | 検索提案を提供する方法、装置、機器及び媒体 | |
US11856129B2 (en) | Systems and methods to manage models for call data | |
US20180329873A1 (en) | Automated data extraction system based on historical or related data | |
US20190205299A1 (en) | Library search apparatus, library search system, and library search method | |
US11544600B2 (en) | Prediction rationale analysis apparatus and prediction rationale analysis method | |
JP2023145767A (ja) | 語彙抽出支援システムおよび語彙抽出支援方法 | |
JP7098502B2 (ja) | 報告書作成装置、方法、およびプログラム | |
US20190265954A1 (en) | Apparatus and method for assisting discovery of design pattern in model development environment using flow diagram | |
JP5790820B2 (ja) | 不整合検出装置、プログラム及び方法、修正支援装置、プログラム及び方法 | |
JP6695847B2 (ja) | ソフトウェア部品管理システム、計算機 | |
JP6641456B2 (ja) | 計算機システム及びデータの分類方法 | |
US11928558B1 (en) | Providing content reviews based on AI/ML output | |
JP5950369B2 (ja) | 入力支援システム、入力支援方法および入力支援プログラム | |
US11861512B1 (en) | Determining content to present for human review | |
US11893401B1 (en) | Real-time event status via an enhanced graphical user interface | |
WO2023084704A1 (ja) | 画像処理装置、方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211222 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221028 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221115 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221201 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7189068 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |