JP6201779B2 - 情報処理装置及び情報処理プログラム - Google Patents
情報処理装置及び情報処理プログラム Download PDFInfo
- Publication number
- JP6201779B2 JP6201779B2 JP2014007371A JP2014007371A JP6201779B2 JP 6201779 B2 JP6201779 B2 JP 6201779B2 JP 2014007371 A JP2014007371 A JP 2014007371A JP 2014007371 A JP2014007371 A JP 2014007371A JP 6201779 B2 JP6201779 B2 JP 6201779B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- classification
- tag
- module
- classification information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000010365 information processing Effects 0.000 title claims description 20
- 230000001174 ascending effect Effects 0.000 claims description 4
- 238000003860 storage Methods 0.000 description 107
- 239000013598 vector Substances 0.000 description 46
- 238000000034 method Methods 0.000 description 29
- 238000000605 extraction Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 10
- 230000037303 wrinkles Effects 0.000 description 9
- 206010027146 Melanoderma Diseases 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 4
- 241000124008 Mammalia Species 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 241000282320 Panthera leo Species 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
請求項1の発明は、誤分類された文書に付与された誤分類である第1の分類情報と該文書に本来付与されるべき第2の分類情報との上下関係に基づいて、文書を分類するための基準を生成する基準生成手段と、前記基準に基づいて、対象とする文書に分類情報を付与することによって分類する分類手段を具備し、前記基準生成手段は、前記第1の分類情報が上位の場合と下位の場合とで前記基準を変更することを特徴とする情報処理装置である。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、全ての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という意味を有する記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
素性情報記憶モジュール115は、素性抽出モジュール110、素性ベクトル生成モジュール120と接続されている。素性情報記憶モジュール115は、素性抽出モジュール110によって抽出された文書の素性を記憶する。
初期パラメータ記憶モジュール125は、分類処理モジュール135と接続されている。初期パラメータ記憶モジュール125は、分類のための初期パラメータを記憶している。初期パラメータとして、例えば、後述するSVMでは、既存の手法におけるペナルティ値である。
素性ベクトル記憶モジュール130は、素性ベクトル生成モジュール120、分類処理モジュール135と接続されている。素性ベクトル記憶モジュール130は、素性ベクトル生成モジュール120によって生成された素性ベクトルを記憶する。
分類処理モジュール135は、初期パラメータ記憶モジュール125、素性ベクトル記憶モジュール130、誤分類文書記憶モジュール140と接続されている。分類処理モジュール135は、初期パラメータ記憶モジュール125内に記憶されている初期パラメータと素性ベクトル記憶モジュール130内に記憶されている素性ベクトルを用いて、文書の分類処理を行う。
上下関係判定モジュール145は、誤分類文書記憶モジュール140、属性の上下関係情報記憶モジュール150、上位概念文書記憶モジュール155、下位概念文書記憶モジュール160と接続されている。上下関係判定モジュール145は、属性の上下関係情報記憶モジュール150内に記憶されている予め定められた概念体系(以下、オントロジーともいう)又は文書内で用いられる単語の共起関係に基づいて、誤分類文書記憶モジュール140内に記憶されている誤分類された文書に付与された第1のタグとその文書に本来付与されるべき第2のタグとの上下関係を判定する。ここで、概念体系は、あるドメイン内の概念とそれらの概念間の関係のセットとしての知識の形式的な表現である。
また、上下関係判定モジュール145は、既に分類情報が付与された文書を用いて、第1のタグと第2のタグとの組み合わせの割合が、予め定められた値より多い若しくは以上である組み合わせ、又はその割合を昇順に並べた場合に予め定められた順位よりも高い若しくは以内である組み合わせを抽出し、その抽出した第1のタグと第2のタグとの組み合わせにおける上下関係を判定するようにしてもよい。
属性の上下関係情報記憶モジュール150は、上下関係判定モジュール145と接続されている。属性の上下関係情報記憶モジュール150は、タグ間の上下関係を示すオントロジー(概念体系)等を記憶している。
下位概念文書記憶モジュール160は、上下関係判定モジュール145、パラメータ処理モジュール170のパラメータ生成モジュール175と接続されている。下位概念文書記憶モジュール160は、上下関係判定モジュール145によって上下関係における下と判定されたタグが付されている文書を記憶する。
パラメータ処理モジュール170は、パラメータ生成モジュール175、上下関係反映パラメータ記憶モジュール180を有している。パラメータ処理モジュール170は、文書を分類するための閾値(以下、パラメータともいう)を生成する。なお、本実施の形態においては、文書を分類するための基準として、閾値を用いるがこれに限らない。文書を分類する基準であればよい。
パラメータ生成モジュール175は、上位概念文書記憶モジュール155、下位概念文書記憶モジュール160、上下関係反映パラメータ記憶モジュール180と接続されている。パラメータ生成モジュール175は、誤分類文書記憶モジュール140内に記憶されている誤分類された文書に付与された第1のタグとその文書に本来付与されるべき第2のタグとの上下関係に基づいて、文書を分類するための閾値を生成する。パラメータ生成モジュール175は、上下関係判定モジュール145によって判定された上下関係を用いるようにしてもよい。
上下関係反映パラメータ記憶モジュール180は、パラメータ生成モジュール175、分類処理モジュール190と接続されている。上下関係反映パラメータ記憶モジュール180は、パラメータ生成モジュール175によって生成された閾値を記憶する。
分類処理モジュール190は、パラメータ処理モジュール170の上下関係反映パラメータ記憶モジュール180、分類対象文書記憶モジュール185、分類結果記憶モジュール195と接続されている。分類処理モジュール190は、上下関係反映パラメータ記憶モジュール180内に記憶されている閾値(パラメータ生成モジュール175によって生成された閾値)に基づいて、対象とする文書に分類情報を付与することによって分類する。
分類結果記憶モジュール195は、分類処理モジュール190と接続されている。分類結果記憶モジュール195は、分類処理モジュール190によって分類された結果を記憶している。
タグが付与されていない文書200として、複数の文書(文書202〜214)がある。そして、既にタグ付与された文書220として、例えば、タグ「技術」が付与された文書222、タグ「顧客」が付与された文書224、タグ「生産」が付与された文書226、タグ「商品」が付与された文書228がある。タグ付与された文書220は、いわゆる学習データである。
そして、タグ付与された文書220内の各タグが付与された文書に対してtf−idf技術を用いて、タグが付与されていない文書200内の文書202〜214内に含まれる単語の有無から付与すべきタグを推測し、そのタグを各文書に付与することによって分類する。例えば、タグ付与処理結果240として、タグ「技術」が付与された文書242、タグ「顧客」が付与された文書244、タグ「生産」が付与された文書246、タグ「商品」が付与された文書248がある。タグ「技術」が付与された文書242として、文書202、文書208があり、タグ「顧客」が付与された文書244として、文書210、文書214があり、タグ「生産」が付与された文書246として、文書206があり、タグ「商品」が付与された文書248として、文書204、文書212がある。
なお、この処理だけで正しい結果を得るためには、タグ付与された文書220は、その文書の内容が示している意味に基づいて、正しく分類されている必要がある。
しかしこの場合、ある特定のタグ間において文書の分類(タグ付与された文書220)に間違いが多くあった場合、そのタグ間においては、分類対象文書をその内容が含む意味に基づいて正しく分類することができない。
例えば、画像印刷における画質劣化の原因を示すタグである「色点」、「黒点」、「白点」のように意味的な階層(包含)関係がある場合である。この場合、「色点」に「黒点」と「白点」が含まれることになり、「色点」が上、「黒点」と「白点」が下という上下関係である。
このような場合、人手で分類を行ったとしても、属性間の境界があいまいになり、特に上位概念のタグにノイズが混じりやすくなる。したがって、これらの属性間での誤分類が多くなってしまう。特に、複数人で分類作業が行われた場合に顕著である。
図3(a)はタグの階層関係がない場合、図3(b)は階層関係がある場合を示している。タグ「技術」が付与された文書310には、タグ付文書312、タグ付文書314、タグ付文書316が含まれている。タグ「顧客」が付与された文書320には、タグ付文書322、タグ付文書324、タグ付文書326が含まれている。このように、タグ「技術」、タグ「顧客」という概念には、上下関係がないので、各文書には本来のタグが付与されている。
一方、前述したように、「色点」、「黒点」、「白点」というタグが付されて分類が行われた場合、タグ「黒点」が付与された文書340には、タグ付文書342、タグ付文書344、タグ付文書346が含まれて、上下関係の下のタグ「黒点」については、各文書には本来のタグが付与されている。しかし、タグ「色点」が付与された文書330には、タグ付文書332、タグ付文書334、タグ付文書336が含まれて、上下関係の上のタグ「色点」については、本来「黒点」(タグ付文書336)、「白点」(タグ付文書332)というタグが付与されるべき文書であるが、「色点」というタグが付与されてしまっている。このような場合が、誤分類された一例である。つまり、上下関係があるタグにおいて、本来下位(又は上位)のタグが付与されるべきであるにもかかわらず、上位(又は下位)のタグが付与されている場合があり、これは起こりやすい。
本実施の形態の上下関係判定モジュール145は、これらの誤分類された文書を対象として誤分類されたタグと本来のタグとの上下関係を判定し、その誤分類を起こさないようにパラメータ生成モジュール175がパラメータを変更し、変更されたパラメータを用いて分類処理モジュール190が分類処理を行う。
ステップS402では、素性抽出モジュール110が、分類済み文書記憶モジュール105から文書の素性を抽出し、素性情報記憶モジュール115に格納する。
ステップS404では、素性ベクトル生成モジュール120が、素性情報記憶モジュール115から素性ベクトルを生成し、素性ベクトル記憶モジュール130に格納する。
ステップS406では、分類処理モジュール135が、初期パラメータ記憶モジュール125内の初期パラメータと素性ベクトル記憶モジュール130内の素性ベクトルを用いて、分類処理を行う。そして、誤分類の文書を誤分類文書記憶モジュール140に格納する。誤分類されたか否かの判断は、操作者の判断によって行われる。また、分類処理モジュール135が分類処理を行った文書が分類済み文書記憶モジュール105に記憶されている文書であった場合は、誤分類されたか否かの判断は、分類処理モジュール135が付与したタグと分類済み文書記憶モジュール105に記憶されているタグとの比較によって自動的に行われてもよい。
例えば、前述したように「色点」、「黒点」、「白点」には上下関係があるので、図5(a)の例に示すように、分類処理モジュール135による分類処理の結果であるタグ「色点」が付与された文書510として、本来「黒点」、「白点」のタグが付与されるべき文書が含まれており、タグ「黒点」が付与された文書520として、本来「色点」のタグが付与されるべき文書が含まれており、タグ「白点」が付与された文書530として、本来「色点」のタグが付与されるべき文書が含まれている。なお、タグ「しわ」が付与された文書540には、タグ「しわ」は他のタグと上下関係がないので、本来「しわ」のタグが付与されるべき文書だけが含まれている。
ここで、操作者によって(または自動的に)各文書のタグが正しく付与されているか否かの判断が行われ、図5(b)の例に示すような分類対応テーブル550の結果となる。分類対応テーブル550は、縦軸に操作者によって行われた分類、横軸に分類処理モジュール135による分類結果を示している。本来のタグ「色点」が付与される文書において、タグ「色点」が付与された文書数が74、タグ「黒点」が付与された文書数が11、タグ「白点」が付与された文書数が13、タグ「しわ」が付与された文書数が2である。同様に、本来のタグ「黒点」が付与される文書において、タグ「色点」が付与された文書数が13、タグ「黒点」が付与された文書数が81、タグ「白点」が付与された文書数が5、タグ「しわ」が付与された文書数が1である。本来のタグ「白点」が付与される文書において、タグ「色点」が付与された文書数が17、タグ「黒点」が付与された文書数が4、タグ「白点」が付与された文書数が77、タグ「しわ」が付与された文書数が2である。本来のタグ「しわ」が付与される文書において、タグ「色点」が付与された文書数が0、タグ「黒点」が付与された文書数が0、タグ「白点」が付与された文書数が1、タグ「しわ」が付与された文書数が99である。
図5の例を用いて説明する。ステップS406による操作者によって判断された結果から、上下関係判定モジュール145は、誤分類が起こる割合の高いタグのペアを抽出する。ここで、「割合」とは、全文書数に対して、操作者による判断と分類処理モジュール135による処理結果が異なった場合(誤分類の場合)の文書数の比である。また、「割合の高い」とは、予め定められた値より多い又は以上の割合となることであってもよいし、割合を昇順に並べて予め定められた順位より高い又は以内としてもよい。図5(b)の例においては、図5(c)の例に示すように、誤分類タグペア(色点、黒点)560(本来のタグ「色点」をタグ「黒点」又は本来のタグ「黒点」をタグ「色点」としたものの両方)、誤分類タグペア(色点、白点)570(本来のタグ「色点」をタグ「白点」又は本来のタグ「白点」をタグ「色点」としたものの両方)を抽出する。
また、上下関係判定モジュール145は、オントロジーの他に、共起ベクトルを用いて上下関係を判定してもよい。既存技術を用いて、共起ベクトルによるタグ間の上下関係を判定すればよい。例えば、事典的なコーパス(例えば、百科事典)における見出し語と説明文を用いればよい。ここで見出し語と説明文は、方向性をもつ。例えば、「ライオン」の説明文には、「ネコ科の哺乳類」というように、「ネコ」や「哺乳類」という上位語を含んでいる。しかし、「哺乳類」の説明文には、「犬や猫のような動物」というように、必ずしも「ライオン」という下位語を利用して説明するとはかぎらない。一般に、見出し語に関する説明文を複数集めてきた場合、その上位語は、どの説明文にも共通して含まれる場合が多いが、必ずしも、その下位語が、どの説明文にも共通して含まれているとはかぎらない。なぜなら、説明文における下位語の使用は、見出し語を説明する観点に依存するためである。このような性質を用いて、単語(タグ)間の上下関係を判定すればよい。
ステップS412では、分類処理モジュール190が、上下関係反映パラメータ記憶モジュール180内のパラメータを用いて、分類対象文書記憶モジュール185内の文書を分類(タグ付与処理)し、分類結果記憶モジュール195に格納する。分類対象文書記憶モジュール185内の文書は、主に分類処理が行われていない文書であるが、前述した誤分類された文書を含めてもよい。
ステップS702では、上下関係判定モジュール145が、誤分類文書iの属性ラベル(タグ)をtとする。
ステップS704では、上下関係判定モジュール145が、属性ラベルtの上下関係情報を属性の上下関係情報記憶モジュール150から受け付ける。
ステップS706では、上下関係判定モジュール145が、属性ラベルtが本来の属性ラベルに対して上位概念であるか下位概念であるかを判定し、上位概念である場合はステップS708へ進み、下位概念である場合はステップS710へ進む。
ステップS708では、パラメータ生成モジュール175が、Ci=aCとする。Cは分類処理におけるパラメータ(閾値)である。
ステップS710では、パラメータ生成モジュール175が、Ci=C/bとする。
ステップS712では、パラメータ生成モジュール175が、全ての文書に対して判定を終えたか否かを判断し、終えた場合はステップS716へ進み、それ以外の場合はステップS714へ進む。
ステップS714では、パラメータ生成モジュール175が、i=i+1(変数iをインクリメント)し、ステップS702に戻る。
ステップS716では、パラメータ生成モジュール175が、C=(C1,C2,…,Ci,…,Cn)を生成する。つまり、全文書におけるパラメータCを求める。
参考文献「A Practical Guide to Support Vector Classification, Chih−Wei Hsu, Chih−Chung Chang, and Chih−Jen Lin,Initial version: 2003 Last updated: April 15, 2010」に示すようなSVMを用いる場合、既存の手法では一定のC値(ペナルティ値)を用い、下記の(式1)にしたがって分類モデルwを生成する。
ナイーブベイズを用いる場合、下記の(式4)にしたがって分類すべき属性Crを決定する。
なお、図8に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図8に示す構成にかぎらず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えばASIC等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図8に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、情報家電、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
105…分類済み文書記憶モジュール
110…素性抽出モジュール
115…素性情報記憶モジュール
120…素性ベクトル生成モジュール
125…初期パラメータ記憶モジュール
130…素性ベクトル記憶モジュール
135…分類処理モジュール
140…誤分類文書記憶モジュール
145…上下関係判定モジュール
150…属性の上下関係情報記憶モジュール
155…上位概念文書記憶モジュール
160…下位概念文書記憶モジュール
170…パラメータ処理モジュール
175…パラメータ生成モジュール
180…上下関係反映パラメータ記憶モジュール
185…分類対象文書記憶モジュール
190…分類処理モジュール
195…分類結果記憶モジュール
Claims (4)
- 誤分類された文書に付与された誤分類である第1の分類情報と該文書に本来付与されるべき第2の分類情報との上下関係に基づいて、文書を分類するための基準を生成する基準生成手段と、
前記基準に基づいて、対象とする文書に分類情報を付与することによって分類する分類手段
を具備し、
前記基準生成手段は、前記第1の分類情報が上位の場合と下位の場合とで前記基準を変更する
ことを特徴とする情報処理装置。 - 予め定められた概念体系又は文書内で用いられる単語の共起関係に基づいて、前記第1の分類情報と前記第2の分類情報との上下関係を判定する判定手段
をさらに具備し、
前記基準生成手段は、前記判定手段によって判定された上下関係を用いる
ことを特徴とする請求項1に記載の情報処理装置。 - 前記判定手段は、既に分類情報が付与された文書を用いて、前記第1の分類情報と前記第2の分類情報との組み合わせの割合が、予め定められた値より多い若しくは以上である組み合わせ、又は該割合を昇順に並べた場合に予め定められた順位より高い若しくは以内である組み合わせを抽出し、該抽出した第1の分類情報と第2の分類情報との組み合わせにおける上下関係を判定する
ことを特徴とする請求項2に記載の情報処理装置。 - コンピュータを、
誤分類された文書に付与された誤分類である第1の分類情報と該文書に本来付与されるべき第2の分類情報との上下関係に基づいて、文書を分類するための基準を生成する基準生成手段と、
前記基準に基づいて、対象とする文書に分類情報を付与することによって分類する分類手段
として機能させ、
前記基準生成手段は、前記第1の分類情報が上位の場合と下位の場合とで前記基準を変更する
ことを特徴とする情報処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014007371A JP6201779B2 (ja) | 2014-01-20 | 2014-01-20 | 情報処理装置及び情報処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014007371A JP6201779B2 (ja) | 2014-01-20 | 2014-01-20 | 情報処理装置及び情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015135640A JP2015135640A (ja) | 2015-07-27 |
JP6201779B2 true JP6201779B2 (ja) | 2017-09-27 |
Family
ID=53767408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014007371A Expired - Fee Related JP6201779B2 (ja) | 2014-01-20 | 2014-01-20 | 情報処理装置及び情報処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6201779B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084410B (zh) * | 2020-09-10 | 2023-07-25 | 北京百度网讯科技有限公司 | 文档类型的推荐方法、装置、电子设备及可读存储介质 |
JP7102563B2 (ja) * | 2021-02-03 | 2022-07-19 | プライマル フュージョン インコーポレイテッド | 機械学習分類器とともに知識表現を使用するためのシステム及び方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5075111B2 (ja) * | 2008-12-29 | 2012-11-14 | 株式会社日立ハイテクノロジーズ | 画像分類基準更新方法、プログラムおよび画像分類装置 |
JP5621773B2 (ja) * | 2009-07-06 | 2014-11-12 | 日本電気株式会社 | 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム |
-
2014
- 2014-01-20 JP JP2014007371A patent/JP6201779B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2015135640A (ja) | 2015-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11954139B2 (en) | Deep document processing with self-supervised learning | |
US10977486B2 (en) | Blockwise extraction of document metadata | |
US8719700B2 (en) | Matching a page layout for each page of a document to a page template candidate from a list of page layout candidates | |
US20140270526A1 (en) | Method for segmenting text words in document images | |
JP5663866B2 (ja) | 情報処理装置及び情報処理プログラム | |
CN109284374B (zh) | 用于确定实体类别的方法、装置、设备以及计算机可读存储介质 | |
US8892562B2 (en) | Categorization of multi-page documents by anisotropic diffusion | |
JP6201792B2 (ja) | 情報処理装置及び情報処理プログラム | |
WO2014061309A1 (ja) | 画像処理装置及び画像処理プログラム | |
JP2020173779A (ja) | 文書における見出しのシーケンスの識別 | |
US8751214B2 (en) | Information processor for translating in accordance with features of an original sentence and features of a translated sentence, information processing method, and computer readable medium | |
JP6201779B2 (ja) | 情報処理装置及び情報処理プログラム | |
US20210295033A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
US20160259774A1 (en) | Information processing apparatus, information processing method, and non-transitory computer readable medium | |
JP2016110256A (ja) | 情報処理装置及び情報処理プログラム | |
JP6596848B2 (ja) | アクセス権推定装置及びアクセス権推定プログラム | |
US20180307669A1 (en) | Information processing apparatus | |
WO2015040860A1 (ja) | 分類辞書生成装置、分類辞書生成方法及び記録媒体 | |
US12046021B2 (en) | Machine learning training dataset optimization | |
JP5510221B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP5391887B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP5888222B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP2016091354A (ja) | 情報処理装置及び情報処理プログラム | |
US12118311B1 (en) | Research replicability assessment | |
JP2013191122A (ja) | 情報処理装置及び情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160722 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170518 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170606 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170714 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170801 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170814 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6201779 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |