JP2003132332A - 学習データ作成支援装置 - Google Patents

学習データ作成支援装置

Info

Publication number
JP2003132332A
JP2003132332A JP2001328491A JP2001328491A JP2003132332A JP 2003132332 A JP2003132332 A JP 2003132332A JP 2001328491 A JP2001328491 A JP 2001328491A JP 2001328491 A JP2001328491 A JP 2001328491A JP 2003132332 A JP2003132332 A JP 2003132332A
Authority
JP
Japan
Prior art keywords
information
learning data
classification
category
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001328491A
Other languages
English (en)
Inventor
Tadashi Hoshiai
忠 星合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2001328491A priority Critical patent/JP2003132332A/ja
Publication of JP2003132332A publication Critical patent/JP2003132332A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】電子化された情報類を自動分類するために必要
な学習データを効率よく作成する学習データ作成支援装
置を提供すること。 【解決手段】このため、本発明の学習データ作成支援装
置では、情報源の情報類を格納する情報源格納手段1
と、分類カテゴリ階層を格納するカテゴリ階層手段2
と、分類カテゴリごとに所属する情報類の情報ID群を
格納する分類用学習データ格納手段3と、前記情報源格
納手段の情報類から学習データの第1次近似となる情報
類−カテゴリ対を抽出して前記分類用学習データ格納手
段に格納する近似分類手段4と、複数のカテゴリにまた
がる情報類をそれぞれの所属するカテゴリから削除し
て、分類カテゴリ間の内容の排他性を確保するカテゴリ
排他手段5と、支援装置の状態をユーザに表示する出力
手段7と、ユーザの選択や要求等を入力する入力手段8
と、前記各手段を制御する制御手段6を具備する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書、インターネ
ットホームページ、電子メール、ニュース記事などの電
子化された情報類に対する、分類、話題分野抽出などの
情報利用技術および人工知能等の機械学習における学習
データ作成支援装置に関する。
【0002】
【従来の技術】文書やインターネットホームページ、電
子メール、ニュース記事等の情報類を、既知の分類体系
の中に自動分類する場合には、前提として分類カテゴリ
の特徴を代表するような学習用のデータすなわち教師情
報(正解セット)を必要とする。例えば分類カテゴリと
して「政治」に対しては、「国会は衆議院と参議院で構
成される。」とか、「内閣総理大臣は××××であ
る。」の如き、学習対象の典型例を学習用のデータとし
て多数必要とする。そして未分類の文書等は、この学習
用のデータと比較され、その分類カテゴリが判断される
ことになる。
【0003】この学習データは、分類カテゴリが例えば
A、B、C、Dの4カテゴリある場合に、カテゴリA〜
Dに対してそれぞれ所属する情報類をA001、A00
2、・・・、A100;B001、B002、・・・、
B100;C001、C002、・・・、C100;D
001、D002、・・・、D100のように用意する
ことである。
【0004】
【発明が解決しようとする課題】ところでこれらの学習
データ作成作業は、人が情報類を読んでそれが所属する
分類カテゴリを判断するという100%人手作業であっ
た。そのためカテゴリ当たり100件の学習データを用
意する場合、例えばカテゴリ総数が1000カテゴリー
の分類を用いて分類付けする場合、10万件の学習用デ
ータを作成することが必要となる。
【0005】このように、大規模な自動分類システムを
構築しようとする場合には、この学習データ作成のため
の人手作業の工数がボトルネックとなるので、この学習
データ作成作業を支援する技術の開発が、人手工数の大
幅に削減のため期待されていた。したがって本発明の目
的は、このような学習データ作成作業を支援する装置を
提供することである。
【0006】
【課題を解決するための手段】本発明の原理図を図1に
示す。図1において1は情報源格納部、2はカテゴリ階
層部、3は分類用学習データ格納部、4は近似分類生成
手段、5はカテゴリ排他手段、6は制御部、7は出力
部、8は入力部である。
【0007】本発明の前記目的は下記(1)〜(5)に
より達成することができる。
【0008】(1)情報源の情報類を格納する情報源格
納手段1と、分類カテゴリ階層を格納するカテゴリ階層
手段2と、分類カテゴリごとに所属する情報類の情報I
D群を格納する分類用学習データ格納手段3と、前記情
報源格納手段1の情報類から学習データの第1次近似と
なる情報類−カテゴリ対を抽出して前記分類用学習デー
タ格納手段に格納する近似分類手段4と、複数のカテゴ
リにまたがる情報類をそれぞれの所属するカテゴリから
削除して、分類カテゴリ間の内容の排他性を確保するカ
テゴリ排他手段5と、支援装置の状態をユーザに表示す
る出力手段7と、ユーザの選択や要求等を入力する入力
手段8と、前記各手段を制御する制御手段6を具備した
ことを特徴とする学習データ作成支援装置。
【0009】(2)前記分類用学習データ格納手段3か
ら情報類を標本抽出し、統計的検定を行い、ユーザが正
解と判定した正解データ、および、標本抽出されなかっ
た情報類を前記分類用学習データ格納手段3に格納する
標本抽出検定手段9を具備したことを特徴とする前記
(1)記載の学習データ作成支援装置。
【0010】(3)前記標本抽出検定手段9は、前記分
類用学習データ格納手段から情報類を標本抽出し、統計
的検定を行い、ユーザが判定した正解データ、および、
標本抽出されなかった情報類はそのまま前記分類用学習
データ格納手段3に格納し、不正解データはユーザの入
力した正しい分類カテゴリの正解データとして前記分類
用学習データ格納手段3に格納することを特徴とする前
記(2)記載の学習データ作成支援装置。
【0011】(4)前記標本抽出検定手段9は、前記分
類用学習データ格納手段3から情報類をロット単位で標
本抽出し、ユーザが判定した正解データ群に対して統計
的検定を行い、所定の正解率を有意に保証されるロット
のみを前記分類用学習データ格納手段3に格納したこと
を特徴とする前記(2)記載の学習データ作成支援装
置。
【0012】(5)前記標本抽出検定手段9は、前記分
類用学習データ格納手段3から情報類をロット単位で標
本抽出し、ユーザが判定した正解データ群に対して統計
的検定を行い、所定の正解率を有意に保証されるロット
を合格ロットとし、合格ロット中の正解データ及び入手
判定されないデータ、及び、不合格ロット中の正解デー
タは前記分類用学習データ格納手段3に格納し、合格ロ
ット中の不正解データ、及び、不合格ロット中の不正解
データは、ユーザの入力した正しい分類カテゴリの正解
データとして前記分類用学習データ格納手段3に格納す
ることを特徴とする前記(2)記載の学習データ作成支
援装置。
【0013】これにより下記の作用効果を奏することが
できる。
【0014】(1)自動分類用の学習データの作成作業
を支援して、人手のみにより作成する場合に比べて作業
効率を向上することができ、同一量の学習データを作成
する場合の作業を軽減することができ、従来と比較して
大規模な分類システムを構築する場合の学習データを容
易に用意することができる。また分類カテゴリ間の排他
性を保つように学習データを作成するので、実際の自動
分類における学習段階での学習精度を向上することがで
きる。
【0015】(2)分類用学習データ格納手段から情報
類をランダムにサンプリング抽出してユーザが正解デー
タか否かをチェックできるので、効率よく情報源のデー
タ分布を反映した学習データを作成することができる。
【0016】(3)分類用学習データ格納手段から情報
類をサンプリング抽出し、ユーザが正解データか否かを
チェックしたとき正解データをそのまま分類用学習デー
タ格納手段に格納するのみならず、不正解データも分類
カテゴリを補正して、正しい分類カテゴリに対する正解
データとして分類用学習データ格納手段に格納するの
で、不正解データを捨てずに他のカテゴリの正解データ
として使用することができ、正解データのチェックを能
率よく行うことができる。
【0017】(4)分類用学習データ格納手段から情報
類をロット単位でサンプル抽出し、ユーザが判断した正
解データ群に対して統計的検定を行い、所定の正解率を
有意に保証されるロットのみを学習データとして使用す
るので大量の学習データの正解か否かを能率的に判断す
ることができ、大規模な分類システムに対処することが
できる。
【0018】(5)分類用学習データ格納手段から情報
類をロット単位でサンプル抽出し、ユーザが判断した正
解データ群に対して統計的検定を行い、所定の正解率を
有意に保証されるロットのみを学習データとして使用す
るのみならず、合格ロット中の不正解データ、不合格ロ
ット中の不正解データを捨てずに分類カテゴリを補正し
て、本来の正しい分類カテゴリの正解データとして使用
することができるので、大量の学習データの正解か否か
をさらに能率的に判断することができ、大規模な分類シ
ステムに対処することができる。
【0019】
【発明の実施の形態】本発明の一実施の形態を図1にも
とづき説明する。図1は本発明の学習データ作成支援装
置の一実施の形態を示し、1は情報源格納部、2はカテ
ゴリ階層部、3は分類用学習データ格納部、4は近似分
類生成手段、5はカテゴリ排他手段、6は制御部、7は
出力部、8は入力部である。なおこれら各部、各手段
は、コンピュータにより構成されるものであることは明
らかである。
【0020】情報源格納部1は、文書、インターネット
・ホームページ、電子メール、ニュース記事等の電子化
された情報類を、これら情報類をID記号により区別す
るために、それぞれ異なるID記号である一意識別可能
な情報IDとともに格納する。
【0021】カテゴリ階層部2は、木構造の分類階層に
応じて、分類カテゴリの上位−下位関係がわかるように
カテゴリを格納しておく。なお分類体系が一階層の場合
は、カテゴリ階層部2は実質的に不要となる。
【0022】分類用学習データ格納部3には、分類カテ
ゴリごとに所属する情報類の情報ID群を格納する。こ
のとき、一段階レベルの分類カテゴリ毎に学習データを
作成することが望ましい。
【0023】近似分類生成手段4は、情報源格納部1の
情報類から、後述するように、学習データの第1次近似
となる情報類−カテゴリ対を抽出して分類用学習データ
格納部3に格納するものである。
【0024】ここで第1次近似となる情報類の集め方と
しては、以下の〜のような条件に合う情報類を、例
えば検索エンジン等により集める。
【0025】条件: .カテゴリ名をキーワードとする情報類を集める。
【0026】カテゴリが「政治」の場合、「政治」とい
う単語を含む情報類を集める。
【0027】.カテゴリ名及びサブカテゴリ名をキー
ワードとする情報類を集める。
【0028】カテゴリが「政治」の場合、「選挙」とか
「外交」、「政党」等がサブカテゴリ名となるので、こ
れらをキーワードとする情報類を集める。
【0029】.カテゴリ名及び当該カテゴリに関する
特徴語(サブカテゴリ名を含む)をキーワードとする情
報類を集める。
【0030】カテゴリが「政治」の場合、特徴語として
「総理大臣」とか「首相官邸」等をキーワードとする情
報類を集める。
【0031】.カテゴリ名及び当該カテゴリに関する
特徴語をキーワードとし、かつ当該カテゴリに関するス
トップワードを含まない情報類を集める。
【0032】ここでストップワードとはキーワードにし
てはいけない語を示し、「私」とか、「行く」とか、多
くのカテゴリにおいて頻出するありふれた語をいう。
【0033】.当該カテゴリに属するインターネット
ホームページ群として典型的であるURL(Unifo
rm Resource Locator)のパターン
を満たす情報類を集める。
【0034】.当該カテゴリに属するインターネット
ホームページ群として典型的であるURLのパターンを
満たし、特定のURLパターンを満たさない情報類を集
める。
【0035】例えばホームページのアドレスとして「h
ttp://・・・go.jp/」と記載されていると
き「go.jp」の部分は「日本・政府」を示し、この
部分が「gov」の場合は「米政府」を示すので、「政
治」にはこのようなパターンの付加されている文書は使
用可能であるが、「スポーツ」には関係ないものと判断
する。
【0036】.以上の〜の条件を組み合わせた情
報類を集める。
【0037】カテゴリ排他手段5は、前記分類用学習デ
ータ格納部3に格納された情報類において複数のカテゴ
リにまたがる情報類をそれぞれの所属するカテゴリから
削除すること、つまり複数の全カテゴリから削除して、
分類カテゴリ間の内容の排他性を確保する。
【0038】制御部6は、図1に示す学習データ作成支
援装置の各構成手段の全体のデータの流れを制御するも
のである。
【0039】出力部7はこの学習データ作成支援装置の
状態をユーザに表示出力するものであり、学習データを
表示してその内容とカテゴリが一致しているか否か等を
チェック可能とするものである。
【0040】入力部8は、この学習データ作成支援装置
に対し、ユーザの選択や要求等を入力するものであっ
て、例えば前記構成手順により得た学習データ候補の内
容の適切度は、前記〜の第1次近似の具体的条件に
より様々であり、人手による確認を経てから学習データ
とすることが望ましいが、この際、出力部7に学習デー
タの候補を分類用学習データ格納部3より1つずつ取り
出し、その表示された学習データが表示されたカテゴリ
と一致しているか否かを判断し、確認結果を入力する等
の処理を行うものである。
【0041】初期状態では分類用学習データ格納部3は
空の状態であり、以下の手順により学習データ候補を得
ることができる。
【0042】すなわち近似分類生成手段4が情報源格納
部1の情報類から、学習データの第1次近似となる情報
類−カテゴリ対を抽出して分類用学習データ格納部3に
格納する。
【0043】このとき、第1次近似となる情報類は、前
記〜の条件に合う情報類を、近似分類生成手段4の
検索エンジン等により集める。
【0044】このように分類用学習データ格納部3にお
いて格納された情報類に対して、カテゴリ排他手段5が
複数のカテゴリにまたがる情報類を検出して、それぞれ
の所属するカテゴリから削除し、分類カテゴリ間の内容
の排他性を確保する。
【0045】このような手順により、学習データ候補が
分類用学習データ格納部3に得られることになるが、そ
の内容の適切度は、前記〜の1次近似の条件により
様々であり、これを出力部7で表示し、その適否修正を
入力部8で行い、人手による確認を経てから学習データ
とすることが望ましい。
【0046】このように、図1に示す本発明の学習デー
タ作成支援装置には次のような利点がある。
【0047】人手で必要なだけ情報源中の情報類を読ん
で分類カテゴリに所属する情報類を所定数だけ集める作
業と比べて、近似分類生成手段により、最初から当該カ
テゴリに近いと期待できる情報類をチェックすればよい
ので、作業効率の向上が期待できる。
【0048】分類カテゴリ間の排他性を保つように学習
データを作成するので、実際の自動分類における学習段
階での学習精度を向上することが期待できる。
【0049】データ管理をコンピュータにより行うこと
により、人手に比較して作業効率の向上が期待できる。
【0050】本発明の第2の実施の形態を図2により説
明する。図中、他図と同記号は同一部分を示し、9は標
本抽出検定手段である。
【0051】標本抽出検定手段9は、分類用学習データ
格納部3に格納された情報類に対して統計的な標本抽出
及び検定を行って、合格と判定されたデータを学習デー
タとして分類用学習データ格納部に格納するものであ
る。
【0052】図2の動作について説明する。
【0053】カテゴリ排他手段5を適用するまでの手順
は、前記図1で説明した第1の実施の形態と同様であ
る。それから標本抽出検定手段9は、分類用学習データ
格納部3中の情報類に対し、サンプリング抽出すべき情
報類の番号をランダムで定め、情報類を所定数抽出す
る。
【0054】標本抽出検定手段9は、このように標本抽
出した情報類を、制御部6の制御により出力部7に送出
してユーザに順次表示する。ユーザは、この出力部7に
表示された情報類と分類カテゴリ名を見比べて、正しい
か否かを判断し、ユーザはその判断結果を入力部8より
入力する。
【0055】このユーザの検定により正しいものと入力
部8から入力判断された場合は、当該情報類を当該分類
カテゴリの正解データとみなし、分類用学習データ格納
部3の対応する分類カテゴリの学習データとして格納す
る。必要であれば所定数の正解データが得られるまで以
上を繰り返す。
【0056】統計的検定として所定数の正解データが得
られたとき、人手判定されなかった情報類をエラーは少
数存在可能性があるものの、合格と判断し、分類用学習
データ格納部3の対応する分類カテゴリの学習データと
して格納する。
【0057】本発明の第3の実施の形態を図2により説
明する。第3の実施の形態では前記第2の実施の形態に
おいて不正解データに対して分類カテゴリを修正し、正
解データとして使用するものである。
【0058】カテゴリ排他手段5を適用するまでの手順
は、前記第1の実施の形態と同様である。それから標本
抽出検定手段9は、分類用学習データ格納部3中の情報
類に対して、サンプリング抽出すべき情報類の番号をラ
ンダムで定め、情報類を所定数抽出する。
【0059】標本抽出検定手段9は、このように標本抽
出した情報類を、制御部6の制御により出力部7に送出
してユーザに表示する。ユーザはこの出力部7に表示さ
れた情報類と分類カテゴリ名を見比べて正しいか否かを
判断し、ユーザはその判断結果を入力部8より入力す
る。
【0060】このユーザの検定により正しいものと入力
部8から入力判断された場合は、当該情報類を当該分類
カテゴリの正解データとして、分類用学習データ格納部
3の対応する分類カテゴリの学習データとして格納す
る。
【0061】ユーザがみて、不正解データの場合、ユー
ザに対して当該情報類が本来分類されるべき正しい分類
カテゴリを入力部8より入力させ、入力された本来の分
類カテゴリの正解データとして当該情報類を分類用学習
データ格納部3に格納する。
【0062】必要であれば所定数の正解データが得られ
るまで以上を繰り返す。
【0063】統計的検定として所定数の正解データが得
られたとき、人手判定されなかった情報類を、エラーは
少数存在可能性があるものの合格と判断し、分類用学習
データ格納部3の対応する分類カテゴリの学習データと
して格納する。
【0064】本発明の第4の実施の形態を図2により説
明する。第4の実施の形態では、前記第2の実施の形態
において、情報類をロット単位でランダムにサンプリン
グ抽出したあと、抽出されたロットから所定数の情報類
を更にランダムに標本抽出し、正しいか否かを判断する
ものである。
【0065】カテゴリ排他手段5を適用するまでの手順
は、前記第1の実施の形態と同様である。それから標本
抽出検定手段9は、分類用学習データ格納部3中の情報
類に対して、サンプリング抽出すべきロットの番号をラ
ンダムに定め、情報類をロットを単位で所定数標本抽出
する。そして更に抽出されたロットから、所定数の情報
類をランダムに所定数標本抽出する。
【0066】標本抽出検定手段9は、このようにして抽
出した情報類を、制御部6の制御により出力部7に送出
してユーザに表示する。ユーザはこの出力部7に表示さ
れた情報類と分類カテゴリ名を見比べて正しいか否かを
判断し、ユーザはその判断結果を入力部8より入力す
る。
【0067】このユーザの検定により正しいものと入力
部8から入力判断された場合は、当該情報類を当該分類
カテゴリのロット正解データとし、正解でない場合は当
該情報類を当該分類カテゴリのロット不正解データとす
る。
【0068】それからユーザの判断に基づいたロットの
データ群に対して統計的検定を行い、正解データが所定
数以上存在する有意水準に対して当該ロットが合格ロッ
トとみなせるか否かを統計的に検定する。そして合格ロ
ット(所定の正解率を有意に保証されるロット)中の正
解データおよび人手判定されないデータ、および、不合
格ロット中の正解データを分類用学習データ格納部3の
対応する分類カテゴリの学習データとして格納する。
【0069】必要であれば所定数の正解データが得られ
るまで以上を繰り返す。
【0070】本発明の第5の実施の形態を図2により説
明する。第5の実施の形態は第4の実施の形態におい
て、不正解データを、ユーザにより訂正入力された本来
の分類カテゴリの正解データとして使用するものであ
る。
【0071】カテゴリ排他手段5を適用するまでの手順
は、前記第1の実施の形態と同様である。それから標本
抽出検定手段9は、分類用学習データ格納部3中の情報
類に対して、サンプリング抽出すべきロットの番号をラ
ンダムに定め、情報類をロット単位で所定数標本抽出す
る。そして更に抽出されたロットから所定数の情報類を
ランダムに所定数標本抽出する。
【0072】標本抽出検定手段9は、このようにして抽
出した情報類を、制御部6の制御により出力部7に送出
してユーザに表示する。ユーザはこの出力部7に表示さ
れた情報類と分類カテゴリ名を見比べて正しいか否かを
判断し、ユーザはその判断結果を入力部8より入力す
る。
【0073】このユーザの検定により正しいものと入力
部8から入力判断された場合は、当該情報類を当該分類
カテゴリのロット正解データとし、正解でない場合は当
該情報類を当該分類カテゴリのロット不正解データとす
る。そしてこの不正解データについて、ユーザに対して
当該情報類が本来分類されるべき正しい分類カテゴリを
入力部8より入力させる。
【0074】このようにしてユーザの判断に基づいたロ
ットのデータ群に対して統計的検定を行い、正解データ
が所定数以上存在する有意水準に対して当該ロットが合
格ロットとみなせるか否かを統計的に検定する。
【0075】なお、合格ロット中の正解データおよび人
手判定されないデータ、および、不合格ロット中の正解
データは分類用学習データ格納部3に格納する。
【0076】また合格ロット中の不正解データ、およ
び、不合格ロット中の不正解データは、ユーザの入力し
た本来の分類カテゴリの正解データとして分類用学習デ
ータ格納部3に格納する。
【0077】必要であれば所定数の正解ロット、あるい
は正解データが得られるまで以上を繰り返す。
【0078】以上により合格ロットの場合、人手判定し
ない情報類はすべて正解データとみなされて、分類用学
習データ格納部3に格納されるので、ロットから標本抽
出して人手判定する情報類の数に対してロット中の情報
類の数が多ければ多いほど、人手判定よりも多くの情報
類を正解セットとして作成することが可能になる。
【0079】
【発明の効果】本発明により下記の効果を奏することが
できる。
【0080】(1)自動分類用の学習データの作成作業
を支援して、人手のみにより作成する場合に比べて作業
効率を向上することができ、同一量の学習データを作成
する場合の作業を軽減することができ、従来と比較して
大規模な分類システムを構築する場合の学習データを容
易に用意することができる。また分類カテゴリ間の排他
性を保つように学習データを作成するので、実際の自動
分類における学習段階での学習精度を向上することがで
きる。
【0081】(2)分類用学習データ格納手段から情報
類をランダムにサンプリング抽出してユーザが正解デー
タか否かをチェックできるので、効率よく情報源のデー
タ分布を反映した学習データを作成することができる。
【0082】(3)分類用学習データ格納手段から情報
類をサンプリング抽出し、ユーザが正解データか否かを
チェックしたとき正解データをそのまま分類用学習デー
タ格納手段に格納するのみならず、不正解データも分類
カテゴリを補正して、正しい分類カテゴリに対する正解
データとして分類用学習データ格納手段に格納するの
で、不正解データを捨てずに他のカテゴリの正解データ
として使用することができ、正解データのチェックを能
率よく行うことができる。
【0083】(4)分類用学習データ格納手段から情報
類をロット単位でサンプル抽出し、ユーザが判断した正
解データ群に対して統計的検定を行い、所定の正解率を
有意に保証されるロットのみを学習データとして使用す
るので大量の学習データの正解か否かを能率的に判断す
ることができ、大規模な分類システムに対処することが
できる。
【0084】(5)分類用学習データ格納手段から情報
類をロット単位でサンプル抽出し、ユーザが判断した正
解データ群に対して統計的検定を行い、所定の正解率を
有意に保証されるロットのみを学習データとして使用す
るのみならず、合格ロット中の不正解データ、不合格ロ
ット中の不正解データを捨てずに分類カテゴリを補正し
て、本来の正しい分類カテゴリの正解データとして使用
することができるので、大量の学習データの正解か否か
をさらに能率的に判断することができ、大規模な分類シ
ステムに対処することができる。
【図面の簡単な説明】
【図1】本発明の一実施の形態を示す。
【図2】本発明の他の実施の形態を示す。
【符号の説明】
1 情報源格納部 2 カテゴリ階層部 3 分類用学習データ格納部 4 近似分類生成手段 5 カテゴリ排他手段 6 制御部 7 出力部 8 入力部 9 標本抽出検定手段

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】情報源の情報類を格納する情報源格納手段
    と、 分類カテゴリ階層を格納するカテゴリ階層手段と、 分類カテゴリごとに所属する情報類の情報ID群を格納
    する分類用学習データ格納手段と、 前記情報源格納手段の情報類から学習データの第1次近
    似となる情報類−カテゴリ対を抽出して前記分類用学習
    データ格納手段に格納する近似分類手段と、 複数のカテゴリにまたがる情報類をそれぞれの所属する
    カテゴリから削除して、分類カテゴリ間の内容の排他性
    を確保するカテゴリ排他手段と、 支援装置の状態をユーザに表示する出力手段と、 ユーザの選択や要求等を入力する入力手段と、 前記各手段を制御する制御手段を具備したことを特徴と
    する学習データ作成支援装置。
  2. 【請求項2】前記分類用学習データ格納手段から情報類
    を標本抽出し、統計的検定を行い、ユーザが正解と判定
    した正解データ、および標本抽出されなかった情報類を
    前記分類用学習データ格納手段に格納する標本抽出検定
    手段を具備したことを特徴とする請求項1記載の学習デ
    ータ作成支援装置。
  3. 【請求項3】前記標本抽出検定手段は、前記分類用学習
    データ格納手段から情報類を標本抽出し、統計的検定を
    行い、ユーザが判定した正解データ、および、標本抽出
    されなかった情報類はそのまま前記分類用学習データ格
    納手段に格納し、不正解データはユーザの入力した正し
    い分類カテゴリの正解データとして前記分類用学習デー
    タ格納手段に格納することを特徴とする請求項2記載の
    学習データ作成支援装置。
  4. 【請求項4】前記標本抽出検定手段は、前記分類用学習
    データ格納手段から情報類をロット単位で標本抽出し、
    ユーザが判定した正解データ群に対して統計的検定を行
    い、所定の正解率を有意に保証されるロットのみを前記
    分類用学習データ格納手段に格納したことを特徴とする
    請求項2記載の学習データ作成支援装置。
  5. 【請求項5】前記標本抽出検定手段は、前記分類用学習
    データ格納手段から情報類をロット単位で標本抽出し、
    ユーザが判定した正解データ群に対して統計的検定を行
    い、所定の正解率を有意に保証されるロットを合格ロッ
    トとし、 合格ロット中の正解データ及び入手判定されないデー
    タ、及び、不合格ロット中の正解データは前記分類用学
    習データ格納手段に格納し、 合格ロット中の不正解データ、及び、不合格ロット中の
    不正解データは、ユーザの入力した正しい分類カテゴリ
    の正解データとして前記分類用学習データ格納手段に格
    納することを特徴とする請求項2記載の学習データ作成
    支援装置。
JP2001328491A 2001-10-26 2001-10-26 学習データ作成支援装置 Withdrawn JP2003132332A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001328491A JP2003132332A (ja) 2001-10-26 2001-10-26 学習データ作成支援装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001328491A JP2003132332A (ja) 2001-10-26 2001-10-26 学習データ作成支援装置

Publications (1)

Publication Number Publication Date
JP2003132332A true JP2003132332A (ja) 2003-05-09

Family

ID=19144546

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001328491A Withdrawn JP2003132332A (ja) 2001-10-26 2001-10-26 学習データ作成支援装置

Country Status (1)

Country Link
JP (1) JP2003132332A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009259250A (ja) * 2008-04-18 2009-11-05 Nec (China) Co Ltd 文書の分類器を生成する方法とそのシステム
JP2010009307A (ja) * 2008-06-26 2010-01-14 Kyoto Univ 特徴語自動学習システム、コンテンツ連動型広告配信コンピュータシステム、検索連動型広告配信コンピュータシステム、およびテキスト分類コンピュータシステム、並びにこれらのコンピュータプログラムおよび方法
JP2019159831A (ja) * 2018-03-13 2019-09-19 オムロン株式会社 渋滞予測装置
CN111858783A (zh) * 2020-07-10 2020-10-30 脑谷人工智能研究院(南京)有限公司 一种基于大数据智能分析的数据归纳整理平台
US11651268B2 (en) 2018-09-13 2023-05-16 Kabushiki Kaisha Toshiba Model update support system
US12032467B2 (en) 2019-01-15 2024-07-09 Kabushiki Kaisha Toshiba Monitoring system, monitoring method, and computer program product

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009259250A (ja) * 2008-04-18 2009-11-05 Nec (China) Co Ltd 文書の分類器を生成する方法とそのシステム
JP2010009307A (ja) * 2008-06-26 2010-01-14 Kyoto Univ 特徴語自動学習システム、コンテンツ連動型広告配信コンピュータシステム、検索連動型広告配信コンピュータシステム、およびテキスト分類コンピュータシステム、並びにこれらのコンピュータプログラムおよび方法
JP2019159831A (ja) * 2018-03-13 2019-09-19 オムロン株式会社 渋滞予測装置
JP7251048B2 (ja) 2018-03-13 2023-04-04 オムロン株式会社 渋滞予測装置
US11651268B2 (en) 2018-09-13 2023-05-16 Kabushiki Kaisha Toshiba Model update support system
US12032467B2 (en) 2019-01-15 2024-07-09 Kabushiki Kaisha Toshiba Monitoring system, monitoring method, and computer program product
CN111858783A (zh) * 2020-07-10 2020-10-30 脑谷人工智能研究院(南京)有限公司 一种基于大数据智能分析的数据归纳整理平台

Similar Documents

Publication Publication Date Title
US10332007B2 (en) Computer-implemented system and method for generating document training sets
US7200606B2 (en) Method and system for selecting documents by measuring document quality
US7818314B2 (en) Search fusion
US20040249808A1 (en) Query expansion using query logs
US20070136280A1 (en) Factoid-based searching
JP2005092271A (ja) 質問応答方法及び質問応答装置
CN109299245B (zh) 知识点召回的方法和装置
CN107577755B (zh) 一种搜索方法
US6622139B1 (en) Information retrieval apparatus and computer-readable recording medium having information retrieval program recorded therein
EP2168058A2 (en) Method and system for disambiguating informational objects
CN110688349B (zh) 一种文档整理方法、装置、终端及计算机可读存储介质
CN112948429B (zh) 一种数据报送方法、装置和设备
CN109960727A (zh) 针对非结构化文本的个人隐私信息自动检测方法及系统
AU2002331728A1 (en) A method for automatically indexing documents
CN114663067A (zh) 一种职位匹配方法、系统、设备及介质
US20090164418A1 (en) Retrieval system and method of searching information in the Internet
CN114064893A (zh) 一种异常数据审核方法、装置、设备及存储介质
JP2003132332A (ja) 学習データ作成支援装置
KR20140019987A (ko) 토픽 맵 기반 온라인 중고 상품 거래 시스템, 상품 목록 추가 방법, 상품 검색 방법 및 키워드 확장 방법
Zhang et al. Informing the curious negotiator: Automatic news extraction from the internet
CN113822021B (zh) 一种实现测试用例文件格式转换的方法及系统
CN112445895B (zh) 一种识别用户搜索场景的方法及系统
Jain et al. Building query optimizers for information extraction: the sqout project
CN111930911B (zh) 一种快速领域问答方法及其装置
Yin et al. Research of integrated algorithm establishment of a spam detection system

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050104