JP2009110064A - 分類モデル学習装置および分類モデル学習方法 - Google Patents

分類モデル学習装置および分類モデル学習方法 Download PDF

Info

Publication number
JP2009110064A
JP2009110064A JP2007278893A JP2007278893A JP2009110064A JP 2009110064 A JP2009110064 A JP 2009110064A JP 2007278893 A JP2007278893 A JP 2007278893A JP 2007278893 A JP2007278893 A JP 2007278893A JP 2009110064 A JP2009110064 A JP 2009110064A
Authority
JP
Japan
Prior art keywords
data
reliability
expert data
expert
classification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007278893A
Other languages
English (en)
Inventor
Kota Nakata
康太 中田
Shigeaki Sakurai
茂明 櫻井
Ryohei Orihara
良平 折原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007278893A priority Critical patent/JP2009110064A/ja
Publication of JP2009110064A publication Critical patent/JP2009110064A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】質の高い教師データが少量の状況であっても精度の良い分類モデルを構築する。
【解決手段】ラベル付けの精度が所定の基準を満たす教師データをエキスパートデータとして格納するエキスパートデータ格納部11と、精度が不明の教師データを非エキスパートデータとして格納する非エキスパートデータ格納部12と、非エキスパートデータの信頼度をラベル付けが共通するエキスパートデータとの比較によって決定すると共に、非エキスパートデータに対して信頼度を付加する信頼度決定部13と、信頼度が付加された非エキスパートデータを格納する信頼度付き非エキスパートデータ格納部14と、エキスパートデータおよび信頼度付きの非エキスパートデータに基づいて所望のデータにラベル付けを行う分類モデルを学習する分類モデル学習部15と、を有することを特徴とする分類モデル学習装置。
【選択図】図1

Description

本発明は、分類モデル学習装置および分類モデル学習方法に関する。
データマイニングにおいて重要な分野の一つに機械学習が挙げられる。機械学習は分類問題に使われることが多く、分類問題において計算機は人間のつけた評価を学習することで分類モデルを構築する。この分類モデルは画像認識、文字認識、テキスト分類など広い分野で多くの成果を上げている。
機械学習には計算機に正しい判断を教える「教師データ」、つまり人間の手によって「ラベル」が付けられたデータが必要である。教師データをもとに計算機はどのような分類をすれば良いかを学習し、新しいデータに対して自動的に判断を下せるようになる。現代ではIT環境の発展により、大量で詳細な情報・データが機械学習に利用可能であり、これらを教師データとして用いればより正確な分類モデルの構築に繋がると期待されている。
しかし、ここで「大量のデータ」から「大量の教師データ」を得る際のラベル付けが問題になっている。すなわち、得られたデータを教師データとして利用するためには、データに対して人間が判断したラベルを付与することが必要であるが、正確なラベル付けには、データが取られたドメインに対しての知識や経験などに基づく正確な判断が不可欠である。
理想的にはこれらの条件を満たす対象分野のエキスパートがラベル付けを行うことが望ましいが、全てのデータのラベル付けをエキスパートに依頼することは金銭的・時間的にコストが高くなってしまう。すなわち、現実的にはコストに制限がある場合がほとんどであり、その場合には非エキスパートがラベル付けを行い、低コストで教師データを得る。しかし、非エキスパートによる教師データには判断の不正確さから比較的多くの誤ったラベルが含まれてしまうことが考えられる。
一般に、機械学習においては、教師データの取得に関する情報は用いられず、エキスパートによるラベル付けのような「良質の教師データ」と非エキスパートによるラベル付けのような「ノイズを含む教師データ」が混在する状況においても、全てのデータを同列に扱い、等しく学習に使用する。
また、前述のコストの関係から、高コストであるエキスパートによる教師データは少量になりがちなのに対し、低コストである非エキスパートによる教師データは比較的大量に獲得できると考えられる。
そのため、エキスパートによる少量の教師データと非エキスパートによる大量の教師データを従来どおり同列とみなして学習に使用した場合、非エキスパートデータに含まれるノイズが学習に大きく影響し、精度の良い分類モデルが構築できないケースが考えられる。
一方、分類モデルを学習する際に、一部の教師データを選択的に使用して学習を行うことや、一部の教師データに重みを置いて学習を行うことは一般的に広く行われている。
アンサンブル学習の代表的手法の1つであるAdaBoostもその一つである。AdaBoostは、学習データに対して重みを与えて学習器を生成し、その際に誤った分類をしたデータに対して重みを増して再度学習器を生成することを繰り返して複数の弱学習器を得て、それらの弱学習器の重みつき投票により分類を行う手法である(例えば特許文献1参照)。
特開2002−133389号公報
しかしながら、従来技術は、あくまで所定のアルゴリズムに即した形で教師データに対してデータ重みをつけるものであり、教師データの精度の差異という学習過程を開始する前の知識・情報を含んだものではない。
したがって、例えばエキスパートによる少量の教師データと非エキスパートによる大量の教師データのような、質の異なる教師データを従来どおり同列として学習に使用した場合、質の劣る教師データに含まれるノイズが学習に大きく影響し、精度の良い分類モデルが構築できないという問題があった。
そこで、本発明は、従来技術の問題に鑑み、質の良い教師データが少量しか得られていない状況であっても精度の良い分類モデルの構築が可能になり、教師データ獲得に要するコストを削減可能な分類モデル学習装置および分類モデル学習方法を提供することを目的とする。
本発明に係る分類モデル学習装置は、ラベル付けの精度が所定の基準を満たす教師データをエキスパートデータとして格納するエキスパートデータ格納部と、前記ラベル付けの精度が不明の教師データを非エキスパートデータとして格納する非エキスパートデータ格納部と、前記エキスパートデータ格納部および前記非エキスパートデータ格納部に接続され、前記非エキスパートデータの信頼度を前記ラベル付けが共通する前記エキスパートデータとの比較によって決定すると共に、前記非エキスパートデータに対して前記信頼度を付加する信頼度決定部と、この信頼度決定部に接続され、前記信頼度が付加された非エキスパートデータを格納する信頼度付き非エキスパートデータ格納部と、前記エキスパートデータ格納部および前記信頼度付き非エキスパートデータ格納部に接続され、前記エキスパートデータおよび前記信頼度が付加された非エキスパートデータに基づいて所望のデータに前記ラベル付けを行う分類モデルを学習する分類モデル学習部と、を有することを特徴とする。
本発明に係る分類モデル学習方法は、ラベル付けの精度が所定の基準を満たしている教師データをエキスパートデータ、前記ラベル付けの精度が不明の教師データを非エキスパートデータとして格納するコンピュータが行う分類モデル学習方法であって、前記非エキスパートデータの信頼度を前記ラベル付けが共通する前記エキスパートデータとの比較によって決定すると共に、前記非エキスパートデータに対して前記信頼度を付加する信頼度決定ステップと、この信頼度決定ステップにおいて前記信頼度が付加された非エキスパートデータと前記エキスパートデータに基づいて所望のデータに前記ラベル付けを行う分類モデルを学習する分類モデル学習ステップと、を有することを特徴とする。
本発明によれば、質の良い教師データが少量しか得られていない状況であっても精度の良い分類モデルの構築が可能であり、教師データ獲得に要するコストを削減可能な分類モデル学習装置および分類モデル学習方法が提供される。
以下、本発明の実施形態について図面を用いて説明する。図1は、本発明の一実施形態に係る分類モデル学習装置1の全体構成例を示すブロック図である。同図に示されるように、本実施形態に係る分類モデル学習装置1は、エキスパートデータ格納部11、非エキスパートデータ格納部12、信頼度決定部13、信頼度付き非エキスパートデータ格納部14、分類モデル学習部15、分類対象データ格納部16、予測部17、および表示部18から構成されている。
エキスパートデータ格納部11は、エキスパートデータを格納する記憶装置である。「エキスパートデータ」とは、知識、経験が豊かな専門家によってラベル付けが行われており、ラベル付けの精度(信頼性)が高い教師データを示すものとする。
非エキスパートデータ格納部12は、非エキスパートデータを格納する記憶装置である。「非エキスパートデータ」とは、ラベル付けは行われているが、その精度(信頼性)が不明確な教師データを示すものとする。
信頼度決定部13は、エキスパートデータを参照することにより全ての非エキスパートデータの信頼度を決定し、信頼度付き非エキスパートデータ格納部14へ登録するプログラムである。
信頼度付き非エキスパートデータ格納部14は、信頼度決定部13における処理よって信頼度が付与された非エキスパートデータ(以下、「信頼度付き非エキスパートデータ」という。)を格納する記憶装置である。
分類モデル学習部15は、エキスパートデータと信頼度付き非エキスパートデータを用いて分類モデルを学習するプログラムである。
分類対象データ格納部16は、新たに分類の対象となる、ラベルが付与されていないデータ(以下、「分類対象データ」という。)を格納する記憶装置である。
予測部17は、分類モデル学習部15で得られた分類モデルを用いて分類対象データ格納部16に格納されているデータにラベル付けを行うプログラムである。尚、AdaBoostを用いた場合、予測部17での分類手法は、一般的なAdaBoostにおける手法と同様である。
表示部18は、予測部17における予測結果を表示する表示装置である。
以下、図2乃至図4に基づいて信頼度決定処理を詳細に説明する。信頼度決定部13は、非エキスパートデータを順次選択し、その非エキスパートデータの近傍のエキスパートデータを参照して信頼度を付与する。ここでは、2次元のデータを具体例として説明を行う。図2は、エキスパートデータおよび非エキスパートデータを2次元で具体的に表した図である。同図において、丸印はエキスパートデータ、四角印は非エキスパートデータを表し、各印の色はラベルを表している。これらの座標はデータを所定の規則に基づいて変換されたものである。例えば、電子メールの分類においては、多数の迷惑メールを解析することによって特徴語リストを予め作成しておき、この特徴語リストと受信メール本文内の単語を比較することで座標化を行う。具体的には、特徴語リストに含まれるN個の単語との比較結果を受信メール内に含まれる場合を1、含まれない場合を0として(1,0,1,…,1)のように表すことにより受信メールのデータをN次元に座標化することができる。ここでは、説明のためにメールを座標化したN次元のデータを擬似的に2次元で表しているものとする。すなわち、受信メール本文の内容が近似する場合には、座標も近似するので迷惑メールか否かのラベル付け等に用いることができる。
図3は、信頼度決定部13における信頼度決定処理の具体例を示すフローチャートである。
S301においては、信頼度が未設定の非エキスパートデータが存在するか否かを判定する。ここで、全ての非エキスパートデータに信頼度が付与されており、信頼度が未設定の非エキスパートデータが無いと判定された場合は処理を終了する。これに対し、信頼度が未設定の非エキスパートデータが有ると判定された場合は、S302に進む。
S302においては、非エキスパートデータ格納部12から信頼度が未設定の非エキスパートデータを1つ選択する。ここでは非エキスパートデータ具体例として、
Figure 2009110064
式(1)で示される非エキスパート2次元データの中でj番目のデータが選択されたものとする。
S303においては、選択された非エキスパートデータの近傍のN個のエキスパートデータをエキスパートデータ格納部11から探索する。「近傍」とはデータの同士の近さを意味するため、素性の重みを考えた距離など問題に特化した距離の尺度を用いることも可能であるが、ここでは選択した非エキスパートデータとのユークリッド距離が所定の値の範囲内にあることを示すものとする。図4は、エキスパートデータと非エキスパートデータとのユークリッド距離を具体的に説明する図である。ここでは、点Nに位置する非エキスパートデータが選択され、点Nからのユークリッド距離が所定の値の範囲内であるエキスパートデータが探索されていることが示されている。
S304においては、探索されたN個のエキスパートデータから、選択された非エキスパートデータの信頼度を決定する。尚、信頼度の上限値、下限値は任意に設定可能であるが、ここでは上限値を1、下限値を0とする。尚、エキスパートデータの信頼度は全て1とする。
非エキスパートデータは、近傍のN個のエキスパートデータの中から自らと同じラベルを持つもののみから信頼度を受け取ることができ、受け取る信頼度はエキスパートデータへのユークリッド距離に応じた値となるように設定する。
ここで、非エキスパートデータ(x,y)が選択されており、N個のエキスパートデータ(X,Y)(i=1,2,…,N)が探索されていたとすると、この信頼度は
Figure 2009110064
式(2)で設定することができる。ここでliは、非エキスパートデータ(x,y)とi番目のエキスパートデータXiとのユークリッド距離である。
したがって、式(2)は、参照したエキスパートデータとのラベルが等しく、かつ、ユークリッド距離が近い非エキスパートデータの信頼度が高くなることを示す。すなわち、対象の非エキスパートデータと参照したエキスパートデータとの距離が全て0であり、かつ、全てが同じラベルであった場合、信頼度は1となり、エキスパートデータと同じ信頼度となる。
逆に、参照したエキスパートデータが全て異なるラベルであった場合、どのエキスパートデータからも信頼度を獲得できないため、対象の非エキスパートデータの信頼度は0になり、データが削除されたのと同様の状況となる。多くの非エキスパートデータは、0から1の間の値をとると考えられ、その値の大きさによって学習への影響度が異なってくる。
エキスパートデータの具体例として、N=3のときエキスパートデータ格納部11の中から
Figure 2009110064
式(3)〜(5)で表されるエキスパートデータがS303において探索されているものとすると、S304においては非エキスパートデータ(x,y)の信頼度を式(1)および式(3)〜(5)を式(2)に代入し、
Figure 2009110064
式(6)により計算する。
ここで、式(6)右辺の括弧内の第1項は式(3)で表されるエキスパートデータによって与えられる信頼度、第2項は式(5)で表されるエキスパートデータによって与えられる信頼度である。エキスパートデータ式(4)についてはラベルYI2が非エキスパートデータ式(1)のラベルyと異なるため、信頼度は与えられない。
S305において、S304で得られた信頼度cを対象の非エキスパートデータに付加し、
Figure 2009110064
式(7)の形で信頼度付き非エキスパートデータ格納部14に格納する。例えば、前述の式(1)で表される2次元データの場合は
Figure 2009110064
式(8)の形で信頼度付き非エキスパートデータ格納部14に格納し、処理を終了する。尚、エキスパートデータの信頼度は常に1としているので、エキスパートデータは擬似的に
Figure 2009110064
式(9)の形でエキスパートデータ格納部11に格納されているとみなすことができる。
図5は、分類モデル学習部15における分類モデル学習処理の具体例を示すフローチャートである。学習器については信頼度を反映する形のものであれば、どのような学習器でも機能すると考えられるが、ここではデータ重みに対する信頼度の組み込み易さを考慮してAdaBoostの手法に即した形で処理を行うものとする。尚、Baggingなどの他の手法を用いても良い。
S501においては、読み込まれた信頼度付き非エキスパートデータとエキスパートデータに、AdaBoostの手法に即して均等のデータ重みwを付ける。本発明では、AdaBoostにおける従来のデータ重みwに加え、信頼度決定部13で得られた信頼度cが教師データに付加されているため、ここでは読み込まれたエキスパートデータ、非エキスパートデータは
Figure 2009110064
式(10)の形で処理されるものとする。
S502においては、非エキスパートデータに付与された信頼度cをデータ重みに反映させる。ここでは、AdaBoostにおけるデータ重みwに対して信頼度cを反映させたデータ重みw’
Figure 2009110064
式(11)により設定する。このように設定することにより、データ重みwが大きく学習に大きな影響を及ぼすと考えられる非エキスパートデータに関しても、その非エキスパートデータの信頼度cが低ければデータ重みw’の値は小さくなり、非エキスパートデータに含まれる信頼度cの低い教師データの影響を自然な形で小さくすることができる。
S503においては、S502で得られたデータ重みw’を用いて弱学習器を生成する。AdaBoostに用いられる弱学習器には決定木など様々なものが考えられる。
S504においては、AdaBoostのアルゴリズムに従いデータ重みと弱学習器の性能に依るコスト関数の更新を行う。
S505においては、終了条件を満たしているか否かを判定する。ここで、終了条件を満たすと判定された場合にはS506へ進む。これに対し、終了条件を満たさないと判定された場合はS501に戻る。尚、一般的なAdaBoostの手法における終了条件は、弱学習器の数が所定数を満たすことである。例えばユーザが弱学習器を100個作るという設定にすれば、S501からS505を100回繰り返すことが終了条件である。
S506においては、生成された弱学習器を組合せることにより精度の高い分類モデルである強学習器を生成し、処理を終了する。
このように、教師データの精度の差異という学習過程を開始する前の知識を利用して非エキスパートデータに信頼度を付与し、分類モデルの学習に組み込むことで、エキスパートデータが少ない場合であっても精度の良い分類モデルを得ることができる。
図6は、予測部17における分類処理の具体例を示すフローチャートである。
S601においては、分類対象データ格納部16における分類対象データの有無を判定する。ここで、分類対象データが有ると判定された場合には、S602へ進む。これに対し、分類対象データが無いと判定された場合には、処理を終了する。
S602においては、分類対象データ格納部16から分類対象データを1つ選択する。
S603においては、選択した分類対象データを分類モデルに当てはめることにより、ラベル付けを行う。
このように、分類モデル学習部15で得られた分類モデルを用いて分類対象データにラベル付けを行うことができる。
尚、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。
本発明の一実施形態に係る分類モデル学習装置1の全体構成例を示すブロック図。 本発明の一実施形態に係るエキスパートデータおよび非エキスパートデータを2次元で具体的に表した図。 本発明の一実施形態に係る信頼度決定部13における信頼度決定処理の具体例を示すフローチャート。 本発明の一実施形態に係るエキスパートデータと非エキスパートデータとのユークリッド距離を具体的に説明する図。 本発明の一実施形態に係る分類モデル学習部15における分類モデル学習処理の具体例を示すフローチャート。 本発明の一実施形態に係る予測部17における分類処理の具体例を示すフローチャート。
符号の説明
1…分類モデル学習装置、
11…エキスパートデータ格納部、
12…非エキスパートデータ格納部、
13…信頼度決定部、
14…信頼度付き非エキスパートデータ格納部、
15…分類モデル学習部、
16…分類対象データ格納部、
17…予測部。

Claims (6)

  1. ラベル付けの精度が所定の基準を満たす教師データをエキスパートデータとして格納するエキスパートデータ格納部と、
    前記ラベル付けの精度が不明の教師データを非エキスパートデータとして格納する非エキスパートデータ格納部と、
    前記エキスパートデータ格納部および前記非エキスパートデータ格納部に接続され、前記非エキスパートデータの信頼度を前記ラベル付けが共通する前記エキスパートデータとの比較によって決定すると共に、前記非エキスパートデータに対して前記信頼度を付加する信頼度決定部と、
    この信頼度決定部に接続され、前記信頼度が付加された非エキスパートデータを格納する信頼度付き非エキスパートデータ格納部と、
    前記エキスパートデータ格納部および前記信頼度付き非エキスパートデータ格納部に接続され、前記エキスパートデータおよび前記信頼度が付加された非エキスパートデータに基づいて所望のデータに前記ラベル付けを行う分類モデルを学習する分類モデル学習部と、
    を有することを特徴とする分類モデル学習装置。
  2. 前記信頼度決定部が、前記エキスパートデータおよび前記非エキスパートデータの各々を所定の規則に基づいて対応付けた座標の間の距離を求め、前記信頼度を前記距離に応じて付加することを特徴とする請求項1記載の分類モデル学習装置。
  3. 前記分類モデル学習部が、アンサンブル学習におけるデータ重みに対して前記信頼度決定部で付加された信頼度を反映させることにより前記分類モデルを学習することを特徴とする請求項1または請求項2記載の分類モデル学習装置。
  4. ラベル付けの精度が所定の基準を満たしている教師データをエキスパートデータ、前記ラベル付けの精度が不明の教師データを非エキスパートデータとして格納するコンピュータが行う分類モデル学習方法であって、
    前記非エキスパートデータの信頼度を前記ラベル付けが共通する前記エキスパートデータとの比較によって決定すると共に、前記非エキスパートデータに対して前記信頼度を付加する信頼度決定ステップと、
    この信頼度決定ステップにおいて前記信頼度が付加された非エキスパートデータと前記エキスパートデータに基づいて所望のデータに前記ラベル付けを行う分類モデルを学習する分類モデル学習ステップと、
    を有することを特徴とする分類モデル学習方法。
  5. 前記信頼度決定ステップにおいて、前記エキスパートデータおよび前記非エキスパートデータの各々を所定の規則に基づいて対応付けた座標の間の距離を求め、前記信頼度を前記距離に応じて付加することを特徴とする請求項4記載の分類モデル学習方法。
  6. 前記分類モデル学習ステップにおいて、アンサンブル学習におけるデータ重みに対して前記信頼度決定ステップにおいて付加された信頼度を反映させることにより前記分類モデルを学習することを特徴とする請求項4または請求項5記載の分類モデル学習方法。
JP2007278893A 2007-10-26 2007-10-26 分類モデル学習装置および分類モデル学習方法 Pending JP2009110064A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007278893A JP2009110064A (ja) 2007-10-26 2007-10-26 分類モデル学習装置および分類モデル学習方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007278893A JP2009110064A (ja) 2007-10-26 2007-10-26 分類モデル学習装置および分類モデル学習方法

Publications (1)

Publication Number Publication Date
JP2009110064A true JP2009110064A (ja) 2009-05-21

Family

ID=40778528

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007278893A Pending JP2009110064A (ja) 2007-10-26 2007-10-26 分類モデル学習装置および分類モデル学習方法

Country Status (1)

Country Link
JP (1) JP2009110064A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011036704A1 (ja) * 2009-09-24 2011-03-31 株式会社 東芝 コンテンツ推薦装置
JP2014063494A (ja) * 2012-09-20 2014-04-10 Fujitsu Ltd 分類装置、分類方法及び電子設備
JP2015060432A (ja) * 2013-09-19 2015-03-30 富士通株式会社 プログラム、コンピュータおよび訓練データ作成支援方法
JP2016505974A (ja) * 2012-12-21 2016-02-25 インサイドセールスドットコム インコーポレイテッドInsidesales.Com,Inc. インスタンス重み付け学習機械学習モデル
JP2019144767A (ja) * 2018-02-19 2019-08-29 富士通株式会社 学習プログラム、学習方法および学習装置
WO2019187421A1 (ja) * 2018-03-29 2019-10-03 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2019174870A (ja) * 2018-03-26 2019-10-10 Kddi株式会社 情報処理装置、情報処理方法、及びプログラム
JP2020077158A (ja) * 2018-11-07 2020-05-21 オムロン株式会社 画像処理装置及び画像処理方法
WO2021181520A1 (ja) * 2020-03-10 2021-09-16 オリンパス株式会社 画像処理システム、画像処理装置、内視鏡システム、インターフェース及び画像処理方法
JP2022548952A (ja) * 2019-09-20 2022-11-22 グーグル エルエルシー ラベルノイズが存在する状態でのロバストな訓練
JP7364083B2 (ja) 2020-07-14 2023-10-18 富士通株式会社 機械学習プログラム、機械学習方法および情報処理装置
JP7399998B2 (ja) 2022-03-29 2023-12-18 本田技研工業株式会社 教師データ収集装置

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011036704A1 (ja) * 2009-09-24 2011-03-31 株式会社 東芝 コンテンツ推薦装置
JP2014063494A (ja) * 2012-09-20 2014-04-10 Fujitsu Ltd 分類装置、分類方法及び電子設備
JP2016505974A (ja) * 2012-12-21 2016-02-25 インサイドセールスドットコム インコーポレイテッドInsidesales.Com,Inc. インスタンス重み付け学習機械学習モデル
JP2015060432A (ja) * 2013-09-19 2015-03-30 富士通株式会社 プログラム、コンピュータおよび訓練データ作成支援方法
JP2019144767A (ja) * 2018-02-19 2019-08-29 富士通株式会社 学習プログラム、学習方法および学習装置
JP7040104B2 (ja) 2018-02-19 2022-03-23 富士通株式会社 学習プログラム、学習方法および学習装置
JP2019174870A (ja) * 2018-03-26 2019-10-10 Kddi株式会社 情報処理装置、情報処理方法、及びプログラム
CN111902829A (zh) * 2018-03-29 2020-11-06 索尼公司 信息处理设备、信息处理方法和程序
WO2019187421A1 (ja) * 2018-03-29 2019-10-03 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2020077158A (ja) * 2018-11-07 2020-05-21 オムロン株式会社 画像処理装置及び画像処理方法
JP7123306B2 (ja) 2018-11-07 2022-08-23 オムロン株式会社 画像処理装置及び画像処理方法
JP2022548952A (ja) * 2019-09-20 2022-11-22 グーグル エルエルシー ラベルノイズが存在する状態でのロバストな訓練
JP7303377B2 (ja) 2019-09-20 2023-07-04 グーグル エルエルシー ラベルノイズが存在する状態でのロバストな訓練
WO2021181520A1 (ja) * 2020-03-10 2021-09-16 オリンパス株式会社 画像処理システム、画像処理装置、内視鏡システム、インターフェース及び画像処理方法
JP7467595B2 (ja) 2020-03-10 2024-04-15 オリンパス株式会社 画像処理システム、画像処理装置、内視鏡システム、画像処理方法及びプログラム
JP7364083B2 (ja) 2020-07-14 2023-10-18 富士通株式会社 機械学習プログラム、機械学習方法および情報処理装置
JP7399998B2 (ja) 2022-03-29 2023-12-18 本田技研工業株式会社 教師データ収集装置

Similar Documents

Publication Publication Date Title
JP2009110064A (ja) 分類モデル学習装置および分類モデル学習方法
JP2009282686A (ja) 分類モデル学習装置および分類モデル学習方法
US20170278510A1 (en) Electronic device, method and training method for natural language processing
US7668371B2 (en) System and method for adaptively separating foreground from arbitrary background in presentations
US9886669B2 (en) Interactive visualization of machine-learning performance
JP2019091434A (ja) 複数のディープ・ラーニング・ニューラル・ネットワークを動的に重み付けすることによるフォント認識の改善
CN114375435A (zh) 增强物理活动表面上的有形内容
US10740221B2 (en) Scalable AI framework for test automation
US10248865B2 (en) Identifying presentation styles of educational videos
US20120288186A1 (en) Synthesizing training samples for object recognition
JP2018529133A (ja) デジタルグラフィックノベルの自動翻訳
US10528649B2 (en) Recognizing unseen fonts based on visual similarity
US20210117802A1 (en) Training a Neural Network Using Small Training Datasets
KR101930400B1 (ko) 딥러닝 분석을 위한 모듈화시스템을 이용한 컨텐츠 제공 방법
KR20190137008A (ko) 설명이 부가된 문서 분류 방법
US11263258B2 (en) Information processing method, information processing apparatus, and non-transitory computer-readable storage medium for storing information processing program of scoring with respect to combination of imaging method and trained model
JPWO2018116921A1 (ja) 辞書学習装置、辞書学習方法、データ認識方法およびコンピュータプログラム
CN113505786A (zh) 试题拍照评判方法、装置及电子设备
US11645456B2 (en) Siamese neural networks for flagging training data in text-based machine learning
CN112883218A (zh) 一种图文联合表征的搜索方法、系统、服务器和存储介质
US10095802B2 (en) Methods and systems for using field characteristics to index, search for, and retrieve forms
CN114461835A (zh) 图片处理方法及装置、计算机可读存储介质和电子设备
CN114996510A (zh) 教学视频分段及信息点提取方法、装置、电子设备和介质
JP2016189089A (ja) 抽出装置、抽出方法とそのプログラム、及び、支援装置、表示制御装置
US20240153295A1 (en) Methods and Systems for Testing an Optical Character Recognition Model