JP6201779B2 - 情報処理装置及び情報処理プログラム - Google Patents

情報処理装置及び情報処理プログラム Download PDF

Info

Publication number
JP6201779B2
JP6201779B2 JP2014007371A JP2014007371A JP6201779B2 JP 6201779 B2 JP6201779 B2 JP 6201779B2 JP 2014007371 A JP2014007371 A JP 2014007371A JP 2014007371 A JP2014007371 A JP 2014007371A JP 6201779 B2 JP6201779 B2 JP 6201779B2
Authority
JP
Japan
Prior art keywords
document
classification
tag
module
classification information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014007371A
Other languages
English (en)
Other versions
JP2015135640A (ja
Inventor
誓哉 稲木
誓哉 稲木
宏 梅基
宏 梅基
雅夫 渡部
雅夫 渡部
鈴木 星児
星児 鈴木
大樹 杉渕
大樹 杉渕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2014007371A priority Critical patent/JP6201779B2/ja
Publication of JP2015135640A publication Critical patent/JP2015135640A/ja
Application granted granted Critical
Publication of JP6201779B2 publication Critical patent/JP6201779B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置及び情報処理プログラムに関する。
特許文献1には、細かい分類に対しても精度のよい分類を行うことができる文書自動分類方法を提供することを課題とし、学習時には、単語分割/頻度抽出部は各分類済み文書から出現単語の情報を収集し、この情報に基づき関連度演算部が各単語と各分類との関連度を求め、関連度テーブルを作成し、複数分野語処理部は、この関連度テーブルから複数の分野に対して関連の強い複数分野語を検出し、各複数分野語を関連の強い各分野毎に分割して別々の単語とみなして、詳細化関連度テーブルなどの分類用情報を作成し、文書を分類する際には、まず単語分割/頻度抽出処理部が、当該文書の出現単語の頻度等の情報を収集し、分類先決定部は、この情報に基づき当該分類対象文書の出現単語の傾向を表す文書ベクトルを作成し、このベクトルと詳細化関連度テーブルとに基づき当該文書の分類先を決定することが開示されている。
特許文献2には、人手による文書データの分類作業負担を軽減するために、複数の分類の文書データとを利用し、分類別のキーワードを抽出し分類用辞書を作成し、分類用辞書を利用して文書データを自動的に分類する方法及びシステムを提供することを目的とし、文書データ単語分割部は、分類済文書データを参照し、分類済文書データを単語分割し、分類済単語分割テーブルに登録し、また、文書データ単語分割部は分類対象文書データを参照し、分類対象文書データを単語分割し、分類対象文書単語分割テーブルに登録し、分類用辞書作成部は、分類済単語分割テーブルを参照し、分類別のキーワードを検出し、分類用辞書に登録し、文書分類部は、分類対象文書単語分割テーブルと分類用辞書を参照し、分類対象文書を分類し、文書分類結果に登録し、従来は人手により分類されていた文書データを自動的に分類することが可能となり、人手による文書データの分類作業に費やす膨大な作業を省くことができるようになるという効果があることが開示されている。
特許文献3には、文書から自動的に単語の特徴ベクトルを抽出し、その特徴ベクトルをもとに文書を分類することで、意味的な異なりを用いた自動分類を可能にすることを目的とし、文書分類装置において、文書データを記憶する記憶部と、文書データを解析する文書解析部と、文書中の単語間の共起関係を用いて各単語の特徴を表現する特徴ベクトルを自動的に生成する単語ベクトル生成部と、その特徴ベクトルを記憶する単語ベクトル記憶部と、文書内に含まれている単語の特徴ベクトルから文書の特徴ベクトルを生成する文書ベクトル生成部と、その特徴ベクトルを記憶する文書ベクトル記憶部と、文書の特徴ベクトル間の類似度を利用して文書を分類する分類部と、その分類した結果を記憶する結果記憶部と、特徴ベクトル生成時に使用する単語が登録されている特徴ベクトル生成用辞書を備えることが開示されている。
特開平10−254883号公報 特開平06−348755号公報 特開平07−114572号公報
本発明は、文書を分類する処理において、誤分類された文書に付与された分類情報を付与した基準のままで、文書を分類してしまうことを抑制するようにした情報処理装置及び情報処理プログラムを提供することを目的としている。
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、誤分類された文書に付与された誤分類である第1の分類情報と該文書に本来付与されるべき第2の分類情報との上下関係に基づいて、文書を分類するための基準を生成する基準生成手段と、前記基準に基づいて、対象とする文書に分類情報を付与することによって分類する分類手段を具備し、前記基準生成手段は、前記第1の分類情報が上位の場合と下位の場合とで前記基準を変更することを特徴とする情報処理装置である。
請求項2の発明は、予め定められた概念体系又は文書内で用いられる単語の共起関係に基づいて、前記第1の分類情報と前記第2の分類情報との上下関係を判定する判定手段をさらに具備し、前記基準生成手段は、前記判定手段によって判定された上下関係を用いることを特徴とする請求項1に記載の情報処理装置である。
請求項3の発明は、前記判定手段は、既に分類情報が付与された文書を用いて、前記第1の分類情報と前記第2の分類情報との組み合わせの割合が、予め定められた値より多い若しくは以上である組み合わせ、又は該割合を昇順に並べた場合に予め定められた順位より高い若しくは以内である組み合わせを抽出し、該抽出した第1の分類情報と第2の分類情報との組み合わせにおける上下関係を判定することを特徴とする請求項2に記載の情報処理装置である。
請求項4の発明は、コンピュータを、誤分類された文書に付与された誤分類である第1の分類情報と該文書に本来付与されるべき第2の分類情報との上下関係に基づいて、文書を分類するための基準を生成する基準生成手段と、前記基準に基づいて、対象とする文書に分類情報を付与することによって分類する分類手段として機能させ、前記基準生成手段は、前記第1の分類情報が上位の場合と下位の場合とで前記基準を変更することを特徴とする情報処理プログラムである。
請求項1の情報処理装置によれば、文書を分類する処理において、誤分類された文書に付与された分類情報を付与した基準のままで、文書を分類してしまうことを抑制することができる。
請求項2の情報処理装置によれば、概念体系又は共起関係に基づいて、第1の分類情報と第2の分類情報との上下関係を判定することができる。
請求項3の情報処理装置によれば、既に分類情報が付与された文書を用いて、第1の分類情報と第2の分類情報との組み合わせにおける上下関係を判定することができる。
請求項4の情報処理プログラムによれば、文書を分類する処理において、誤分類された文書に付与された分類情報を付与した基準のままで、文書を分類してしまうことを抑制することができる。
本実施の形態の構成例についての概念的なモジュール構成図である。 本実施の形態による処理例を示す説明図である。 分類処理の例を示す説明図である。 本実施の形態による処理例を示すフローチャートである。 本実施の形態による処理例を示す説明図である。 本実施の形態によるオントロジーの例を示す説明図である。 本実施の形態による処理例を示すフローチャートである。 本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、全ての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という意味を有する記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
本実施の形態である情報処理装置100は、文書を分類するものであって、図1の例に示すように、分類済み文書記憶モジュール105、素性抽出モジュール110、素性情報記憶モジュール115、素性ベクトル生成モジュール120、初期パラメータ記憶モジュール125、素性ベクトル記憶モジュール130、分類処理モジュール135、誤分類文書記憶モジュール140、上下関係判定モジュール145、属性の上下関係情報記憶モジュール150、上位概念文書記憶モジュール155、下位概念文書記憶モジュール160、パラメータ処理モジュール170、分類対象文書記憶モジュール185、分類処理モジュール190、分類結果記憶モジュール195を有している。なお、文書を分類するとは、その文書に分類情報(以下、タグ、属性ともいう)を付与することである。
分類済み文書記憶モジュール105は、素性抽出モジュール110と接続されている。分類済み文書記憶モジュール105は、分類済みの文書を記憶している。ここでの分類は、主に人手で行われたもの(つまり、操作者の判断によってタグが付与されたもの)であるが、分類装置によって自動的に分類が行われたものであってもよい。また、複数人がそれぞれ分類を行ったものであってもよい。また、分類は、文書毎にタグを付与することであるが、1つの文書に複数のタグを付与してもよい。タグは、予め定められた複数の単語のなかから選択されたものであってもよいし、その文書から抽出した語であってもよい。
素性抽出モジュール110は、分類済み文書記憶モジュール105、素性情報記憶モジュール115と接続されている。素性抽出モジュール110は、分類済み文書記憶モジュール105内に記憶されている分類済み文書の素性を抽出する。なお、素性の抽出処理は、既存の技術を用いればよい。ここで素性とは、その文書の特徴を示すものであって、一般的には、語(単語等の形態素)を指す。この他に、文、品詞の情報等を含めてもよい。文書クラスタリングのための素性(語)ベクトルを構成するには、一般的にベクトル空間モデルが用いられる。文書の特徴として、文書集合中に現れた語を各次元とし、データをn次元のベクトルで表現する。ベクトルを構成するために語を選択することを素性選択という。文書に含まれる全ての情報が有用というわけでないため、有効な素性を選択する。素性選択は文書分類の分野で広く提案され、利用されている。全ての語が同じ重みで扱われてしまっては有効な素性選択を行うことはできない。単語のなかには、特定の分野にだけ出現するものと、どのような分野にも出現するものがある。例えば、前者の語の重みを重く、後者の語の重みを軽くすれば、ベクトル間の位置関係が実際のデータの位置関係により近づくことができる。語の重み付けには一般的にtf−idfが用いられる。tf(term frequency)は文書内での語の出現回数である。idf(inverse document frequency)は語が全文書中にどれくらい出現するかの逆数を表す。tfはそれぞれの文書毎に算出されるが、idfは各語のみについて計算される。これら2つの値を掛け合わせたtf−idfを用いるようにしてもよい。
素性情報記憶モジュール115は、素性抽出モジュール110、素性ベクトル生成モジュール120と接続されている。素性情報記憶モジュール115は、素性抽出モジュール110によって抽出された文書の素性を記憶する。
素性ベクトル生成モジュール120は、素性情報記憶モジュール115、素性ベクトル記憶モジュール130と接続されている。素性ベクトル生成モジュール120は、素性情報記憶モジュール115内に記憶されている文書の素性を用いて、前述の素性ベクトルを生成する。
初期パラメータ記憶モジュール125は、分類処理モジュール135と接続されている。初期パラメータ記憶モジュール125は、分類のための初期パラメータを記憶している。初期パラメータとして、例えば、後述するSVMでは、既存の手法におけるペナルティ値である。
素性ベクトル記憶モジュール130は、素性ベクトル生成モジュール120、分類処理モジュール135と接続されている。素性ベクトル記憶モジュール130は、素性ベクトル生成モジュール120によって生成された素性ベクトルを記憶する。
分類処理モジュール135は、初期パラメータ記憶モジュール125、素性ベクトル記憶モジュール130、誤分類文書記憶モジュール140と接続されている。分類処理モジュール135は、初期パラメータ記憶モジュール125内に記憶されている初期パラメータと素性ベクトル記憶モジュール130内に記憶されている素性ベクトルを用いて、文書の分類処理を行う。
誤分類文書記憶モジュール140は、分類処理モジュール135、上下関係判定モジュール145と接続されている。誤分類文書記憶モジュール140は、分類処理モジュール135によって分類された文書のうち、分類が誤って行われた文書を記憶する。そして、その文書が本来付与されるべきタグを記憶する。したがって、文書に対して、誤って付与された第1のタグと本来付与されるべき第2のタグの組(ペア)が記憶されている。なお、操作者によって、分類が誤っているか否かの判断が行われ、本来のタグの判定が行われる。また、分類処理モジュール135で分類を行った文書が分類済み文書記憶モジュール105に記憶されている文書であった場合、分類が誤っているか否かの判断は分類処理モジュール135が付与したタグと分類済み文書記憶モジュール105に記憶されているタグとの比較によって自動的に行われてもよい。
上下関係判定モジュール145は、誤分類文書記憶モジュール140、属性の上下関係情報記憶モジュール150、上位概念文書記憶モジュール155、下位概念文書記憶モジュール160と接続されている。上下関係判定モジュール145は、属性の上下関係情報記憶モジュール150内に記憶されている予め定められた概念体系(以下、オントロジーともいう)又は文書内で用いられる単語の共起関係に基づいて、誤分類文書記憶モジュール140内に記憶されている誤分類された文書に付与された第1のタグとその文書に本来付与されるべき第2のタグとの上下関係を判定する。ここで、概念体系は、あるドメイン内の概念とそれらの概念間の関係のセットとしての知識の形式的な表現である。
また、上下関係判定モジュール145は、既に分類情報が付与された文書を用いて、第1のタグと第2のタグとの組み合わせの割合が、予め定められた値より多い若しくは以上である組み合わせ、又はその割合を昇順に並べた場合に予め定められた順位よりも高い若しくは以内である組み合わせを抽出し、その抽出した第1のタグと第2のタグとの組み合わせにおける上下関係を判定するようにしてもよい。
属性の上下関係情報記憶モジュール150は、上下関係判定モジュール145と接続されている。属性の上下関係情報記憶モジュール150は、タグ間の上下関係を示すオントロジー(概念体系)等を記憶している。
上位概念文書記憶モジュール155は、上下関係判定モジュール145、パラメータ処理モジュール170のパラメータ生成モジュール175と接続されている。上位概念文書記憶モジュール155は、上下関係判定モジュール145によって上下関係における上と判定されたタグが付されている文書を記憶する。
下位概念文書記憶モジュール160は、上下関係判定モジュール145、パラメータ処理モジュール170のパラメータ生成モジュール175と接続されている。下位概念文書記憶モジュール160は、上下関係判定モジュール145によって上下関係における下と判定されたタグが付されている文書を記憶する。
パラメータ処理モジュール170は、パラメータ生成モジュール175、上下関係反映パラメータ記憶モジュール180を有している。パラメータ処理モジュール170は、文書を分類するための閾値(以下、パラメータともいう)を生成する。なお、本実施の形態においては、文書を分類するための基準として、閾値を用いるがこれに限らない。文書を分類する基準であればよい。
パラメータ生成モジュール175は、上位概念文書記憶モジュール155、下位概念文書記憶モジュール160、上下関係反映パラメータ記憶モジュール180と接続されている。パラメータ生成モジュール175は、誤分類文書記憶モジュール140内に記憶されている誤分類された文書に付与された第1のタグとその文書に本来付与されるべき第2のタグとの上下関係に基づいて、文書を分類するための閾値を生成する。パラメータ生成モジュール175は、上下関係判定モジュール145によって判定された上下関係を用いるようにしてもよい。
上下関係反映パラメータ記憶モジュール180は、パラメータ生成モジュール175、分類処理モジュール190と接続されている。上下関係反映パラメータ記憶モジュール180は、パラメータ生成モジュール175によって生成された閾値を記憶する。
分類対象文書記憶モジュール185は、分類処理モジュール190と接続されている。分類対象文書記憶モジュール185は、パラメータ生成モジュール175によって生成された新たな閾値を用いて分類が行われる対象である文書を記憶している。
分類処理モジュール190は、パラメータ処理モジュール170の上下関係反映パラメータ記憶モジュール180、分類対象文書記憶モジュール185、分類結果記憶モジュール195と接続されている。分類処理モジュール190は、上下関係反映パラメータ記憶モジュール180内に記憶されている閾値(パラメータ生成モジュール175によって生成された閾値)に基づいて、対象とする文書に分類情報を付与することによって分類する。
分類結果記憶モジュール195は、分類処理モジュール190と接続されている。分類結果記憶モジュール195は、分類処理モジュール190によって分類された結果を記憶している。
図2は、本実施の形態による処理例を示す説明図である。操作者の操作によってタグを付与された文書が多数ある場合、それらの文書データを解析し、未だタグ付与されていない文書200に対して、内容に応じた適切なタグを付けることができる。
タグが付与されていない文書200として、複数の文書(文書202〜214)がある。そして、既にタグ付与された文書220として、例えば、タグ「技術」が付与された文書222、タグ「顧客」が付与された文書224、タグ「生産」が付与された文書226、タグ「商品」が付与された文書228がある。タグ付与された文書220は、いわゆる学習データである。
そして、タグ付与された文書220内の各タグが付与された文書に対してtf−idf技術を用いて、タグが付与されていない文書200内の文書202〜214内に含まれる単語の有無から付与すべきタグを推測し、そのタグを各文書に付与することによって分類する。例えば、タグ付与処理結果240として、タグ「技術」が付与された文書242、タグ「顧客」が付与された文書244、タグ「生産」が付与された文書246、タグ「商品」が付与された文書248がある。タグ「技術」が付与された文書242として、文書202、文書208があり、タグ「顧客」が付与された文書244として、文書210、文書214があり、タグ「生産」が付与された文書246として、文書206があり、タグ「商品」が付与された文書248として、文書204、文書212がある。
なお、この処理だけで正しい結果を得るためには、タグ付与された文書220は、その文書の内容が示している意味に基づいて、正しく分類されている必要がある。
しかしこの場合、ある特定のタグ間において文書の分類(タグ付与された文書220)に間違いが多くあった場合、そのタグ間においては、分類対象文書をその内容が含む意味に基づいて正しく分類することができない。
図3は、分類処理モジュール135による分類処理の例を示す説明図である。前述のように、文書に付与されたタグ間に上下関係がある場合、分類精度が低下する。ここで、上下関係として、木構造等の階層関係、集合における包含関係を含む。
例えば、画像印刷における画質劣化の原因を示すタグである「色点」、「黒点」、「白点」のように意味的な階層(包含)関係がある場合である。この場合、「色点」に「黒点」と「白点」が含まれることになり、「色点」が上、「黒点」と「白点」が下という上下関係である。
このような場合、人手で分類を行ったとしても、属性間の境界があいまいになり、特に上位概念のタグにノイズが混じりやすくなる。したがって、これらの属性間での誤分類が多くなってしまう。特に、複数人で分類作業が行われた場合に顕著である。
図3(a)はタグの階層関係がない場合、図3(b)は階層関係がある場合を示している。タグ「技術」が付与された文書310には、タグ付文書312、タグ付文書314、タグ付文書316が含まれている。タグ「顧客」が付与された文書320には、タグ付文書322、タグ付文書324、タグ付文書326が含まれている。このように、タグ「技術」、タグ「顧客」という概念には、上下関係がないので、各文書には本来のタグが付与されている。
一方、前述したように、「色点」、「黒点」、「白点」というタグが付されて分類が行われた場合、タグ「黒点」が付与された文書340には、タグ付文書342、タグ付文書344、タグ付文書346が含まれて、上下関係の下のタグ「黒点」については、各文書には本来のタグが付与されている。しかし、タグ「色点」が付与された文書330には、タグ付文書332、タグ付文書334、タグ付文書336が含まれて、上下関係の上のタグ「色点」については、本来「黒点」(タグ付文書336)、「白点」(タグ付文書332)というタグが付与されるべき文書であるが、「色点」というタグが付与されてしまっている。このような場合が、誤分類された一例である。つまり、上下関係があるタグにおいて、本来下位(又は上位)のタグが付与されるべきであるにもかかわらず、上位(又は下位)のタグが付与されている場合があり、これは起こりやすい。
本実施の形態の上下関係判定モジュール145は、これらの誤分類された文書を対象として誤分類されたタグと本来のタグとの上下関係を判定し、その誤分類を起こさないようにパラメータ生成モジュール175がパラメータを変更し、変更されたパラメータを用いて分類処理モジュール190が分類処理を行う。
図4は、本実施の形態による処理例を示すフローチャートである。
ステップS402では、素性抽出モジュール110が、分類済み文書記憶モジュール105から文書の素性を抽出し、素性情報記憶モジュール115に格納する。
ステップS404では、素性ベクトル生成モジュール120が、素性情報記憶モジュール115から素性ベクトルを生成し、素性ベクトル記憶モジュール130に格納する。
ステップS406では、分類処理モジュール135が、初期パラメータ記憶モジュール125内の初期パラメータと素性ベクトル記憶モジュール130内の素性ベクトルを用いて、分類処理を行う。そして、誤分類の文書を誤分類文書記憶モジュール140に格納する。誤分類されたか否かの判断は、操作者の判断によって行われる。また、分類処理モジュール135が分類処理を行った文書が分類済み文書記憶モジュール105に記憶されている文書であった場合は、誤分類されたか否かの判断は、分類処理モジュール135が付与したタグと分類済み文書記憶モジュール105に記憶されているタグとの比較によって自動的に行われてもよい。
例えば、前述したように「色点」、「黒点」、「白点」には上下関係があるので、図5(a)の例に示すように、分類処理モジュール135による分類処理の結果であるタグ「色点」が付与された文書510として、本来「黒点」、「白点」のタグが付与されるべき文書が含まれており、タグ「黒点」が付与された文書520として、本来「色点」のタグが付与されるべき文書が含まれており、タグ「白点」が付与された文書530として、本来「色点」のタグが付与されるべき文書が含まれている。なお、タグ「しわ」が付与された文書540には、タグ「しわ」は他のタグと上下関係がないので、本来「しわ」のタグが付与されるべき文書だけが含まれている。
ここで、操作者によって(または自動的に)各文書のタグが正しく付与されているか否かの判断が行われ、図5(b)の例に示すような分類対応テーブル550の結果となる。分類対応テーブル550は、縦軸に操作者によって行われた分類、横軸に分類処理モジュール135による分類結果を示している。本来のタグ「色点」が付与される文書において、タグ「色点」が付与された文書数が74、タグ「黒点」が付与された文書数が11、タグ「白点」が付与された文書数が13、タグ「しわ」が付与された文書数が2である。同様に、本来のタグ「黒点」が付与される文書において、タグ「色点」が付与された文書数が13、タグ「黒点」が付与された文書数が81、タグ「白点」が付与された文書数が5、タグ「しわ」が付与された文書数が1である。本来のタグ「白点」が付与される文書において、タグ「色点」が付与された文書数が17、タグ「黒点」が付与された文書数が4、タグ「白点」が付与された文書数が77、タグ「しわ」が付与された文書数が2である。本来のタグ「しわ」が付与される文書において、タグ「色点」が付与された文書数が0、タグ「黒点」が付与された文書数が0、タグ「白点」が付与された文書数が1、タグ「しわ」が付与された文書数が99である。
ステップS408では、上下関係判定モジュール145が、誤分類文書記憶モジュール140内の文書に付与されているタグについて、属性の上下関係情報記憶モジュール150を用いて、上下関係を判定する。
図5の例を用いて説明する。ステップS406による操作者によって判断された結果から、上下関係判定モジュール145は、誤分類が起こる割合の高いタグのペアを抽出する。ここで、「割合」とは、全文書数に対して、操作者による判断と分類処理モジュール135による処理結果が異なった場合(誤分類の場合)の文書数の比である。また、「割合の高い」とは、予め定められた値より多い又は以上の割合となることであってもよいし、割合を昇順に並べて予め定められた順位より高い又は以内としてもよい。図5(b)の例においては、図5(c)の例に示すように、誤分類タグペア(色点、黒点)560(本来のタグ「色点」をタグ「黒点」又は本来のタグ「黒点」をタグ「色点」としたものの両方)、誤分類タグペア(色点、白点)570(本来のタグ「色点」をタグ「白点」又は本来のタグ「白点」をタグ「色点」としたものの両方)を抽出する。
そして、上下関係判定モジュール145は、誤分類タグペア(色点、黒点)560におけるタグ「色点」とタグ「黒点」、誤分類タグペア(色点、白点)570におけるタグ「色点」とタグ「白点」の上下関係をそれぞれ判定する。その判定のために、属性の上下関係情報記憶モジュール150に記憶されている情報を用いる。属性の上下関係情報記憶モジュール150には、図6の例に示す既存オントロジー600が記憶されている。図6は、本実施の形態によるオントロジーの例を示す説明図である。品質トラブル610の下位に、色点612、色筋618、しわ624があり、色点612の下位に黒点614、白点616、色筋618の下位に、黒筋620、白筋622がある。このオントロジーから、前述の抽出した誤分類のタグペア(「色点」と「黒点」、「色点」と「白点」)が、どの位置にあるかを検索する。図6の例の場合、色点612の下に黒点614、白点616がある。つまり、「色点」が上、「黒点」が下という上下関係があり、「色点」が上、「白点」が下という上下関係があることが判明する。
また、上下関係判定モジュール145は、オントロジーの他に、共起ベクトルを用いて上下関係を判定してもよい。既存技術を用いて、共起ベクトルによるタグ間の上下関係を判定すればよい。例えば、事典的なコーパス(例えば、百科事典)における見出し語と説明文を用いればよい。ここで見出し語と説明文は、方向性をもつ。例えば、「ライオン」の説明文には、「ネコ科の哺乳類」というように、「ネコ」や「哺乳類」という上位語を含んでいる。しかし、「哺乳類」の説明文には、「犬や猫のような動物」というように、必ずしも「ライオン」という下位語を利用して説明するとはかぎらない。一般に、見出し語に関する説明文を複数集めてきた場合、その上位語は、どの説明文にも共通して含まれる場合が多いが、必ずしも、その下位語が、どの説明文にも共通して含まれているとはかぎらない。なぜなら、説明文における下位語の使用は、見出し語を説明する観点に依存するためである。このような性質を用いて、単語(タグ)間の上下関係を判定すればよい。
ステップS410では、パラメータ生成モジュール175が、上位概念文書記憶モジュール155と下位概念文書記憶モジュール160に記憶されている文書のタグを用いて、分類のためのパラメータを生成し、上下関係反映パラメータ記憶モジュール180に格納する。この処理については、図7を用いて後述する。
ステップS412では、分類処理モジュール190が、上下関係反映パラメータ記憶モジュール180内のパラメータを用いて、分類対象文書記憶モジュール185内の文書を分類(タグ付与処理)し、分類結果記憶モジュール195に格納する。分類対象文書記憶モジュール185内の文書は、主に分類処理が行われていない文書であるが、前述した誤分類された文書を含めてもよい。
図7は、本実施の形態による処理(ステップS408、S410)の具体例を示すフローチャートである。この処理例は、SVM(サポートベクタマシン)の識別器を用いる場合の例である。
ステップS702では、上下関係判定モジュール145が、誤分類文書iの属性ラベル(タグ)をtとする。
ステップS704では、上下関係判定モジュール145が、属性ラベルtの上下関係情報を属性の上下関係情報記憶モジュール150から受け付ける。
ステップS706では、上下関係判定モジュール145が、属性ラベルtが本来の属性ラベルに対して上位概念であるか下位概念であるかを判定し、上位概念である場合はステップS708へ進み、下位概念である場合はステップS710へ進む。
ステップS708では、パラメータ生成モジュール175が、C=aCとする。Cは分類処理におけるパラメータ(閾値)である。
ステップS710では、パラメータ生成モジュール175が、C=C/bとする。
ステップS712では、パラメータ生成モジュール175が、全ての文書に対して判定を終えたか否かを判断し、終えた場合はステップS716へ進み、それ以外の場合はステップS714へ進む。
ステップS714では、パラメータ生成モジュール175が、i=i+1(変数iをインクリメント)し、ステップS702に戻る。
ステップS716では、パラメータ生成モジュール175が、C=(C,C,…,C,…,C)を生成する。つまり、全文書におけるパラメータCを求める。
図7の例に示す分類処理について説明する。
参考文献「A Practical Guide to Support Vector Classification, Chih−Wei Hsu, Chih−Chung Chang, and Chih−Jen Lin,Initial version: 2003 Last updated: April 15, 2010」に示すようなSVMを用いる場合、既存の手法では一定のC値(ペナルティ値)を用い、下記の(式1)にしたがって分類モデルwを生成する。
Figure 0006201779
本実施の形態では、このC値(ペナルティ値)を変数とし、下記の(式2)のように誤分類となった文書には異なる値を与える。
Figure 0006201779
この(式2)を用いることで、誤分類となった文書のうち上位概念のタグが付与されたものはC値(ペナルティ値)が小さく、下位概念のタグの場合は大きく設定される。
なお、γ(i)は、(式2)に限定されることなく、下記の(式3)のようなものであってもよい。
Figure 0006201779
例えば、図6に示す既存オントロジー600では、上位属性「色点612」に対するtは2(黒点614、白点616の2個)である。
また、得られた上下関係にしたがって分類器のパラメータを決定し、再分類を行うものとして、SVMの他に、ナイーブベイズを用いてもよい。
ナイーブベイズを用いる場合、下記の(式4)にしたがって分類すべき属性Cを決定する。
Figure 0006201779
この(式4)において、属性(タグ)の上下関係情報を用いて下記の(式5)のようにパラメータPω,Cを更新する。
Figure 0006201779
なお、本実施の形態としてのプログラムが実行されるコンピュータのハードウェア構成は、図8に例示するように、一般的なコンピュータであり、具体的にはパーソナルコンピュータ、サーバーとなり得るコンピュータ等である。つまり、具体例として、処理部(演算部)としてCPU801を用い、記憶装置としてRAM802、ROM803、HD804を用いている。HD804として、例えばハードディスクを用いてもよい。素性抽出モジュール110、素性ベクトル生成モジュール120、分類処理モジュール135、上下関係判定モジュール145、パラメータ処理モジュール170、パラメータ生成モジュール175、分類処理モジュール190等のプログラムを実行するCPU801と、そのプログラムやデータを記憶するRAM802と、本コンピュータを起動するためのプログラム等が格納されているROM803と、補助記憶装置(フラッシュメモリ等であってもよい)であるHD804と、キーボード、マウス、タッチパネル等に対する利用者の操作に基づいてデータを受け付ける受付装置806と、CRT、液晶ディスプレイ等の出力装置805と、ネットワークインタフェースカード等の通信ネットワークと接続するための通信回線インタフェース807、そして、それらをつないでデータのやりとりをするためのバス808により構成されている。これらのコンピュータが複数台互いにネットワークによって接続されていてもよい。
前述の実施の形態のうち、コンピュータ・プログラムによるものについては、本ハードウェア構成のシステムにソフトウェアであるコンピュータ・プログラムを読み込ませ、ソフトウェアとハードウェア資源とが協働して、前述の実施の形態が実現される。
なお、図8に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図8に示す構成にかぎらず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えばASIC等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図8に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、情報家電、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
100…情報処理装置
105…分類済み文書記憶モジュール
110…素性抽出モジュール
115…素性情報記憶モジュール
120…素性ベクトル生成モジュール
125…初期パラメータ記憶モジュール
130…素性ベクトル記憶モジュール
135…分類処理モジュール
140…誤分類文書記憶モジュール
145…上下関係判定モジュール
150…属性の上下関係情報記憶モジュール
155…上位概念文書記憶モジュール
160…下位概念文書記憶モジュール
170…パラメータ処理モジュール
175…パラメータ生成モジュール
180…上下関係反映パラメータ記憶モジュール
185…分類対象文書記憶モジュール
190…分類処理モジュール
195…分類結果記憶モジュール

Claims (4)

  1. 誤分類された文書に付与された誤分類である第1の分類情報と該文書に本来付与されるべき第2の分類情報との上下関係に基づいて、文書を分類するための基準を生成する基準生成手段と、
    前記基準に基づいて、対象とする文書に分類情報を付与することによって分類する分類手段
    を具備し、
    前記基準生成手段は、前記第1の分類情報が上位の場合と下位の場合とで前記基準を変更する
    ことを特徴とする情報処理装置。
  2. 予め定められた概念体系又は文書内で用いられる単語の共起関係に基づいて、前記第1の分類情報と前記第2の分類情報との上下関係を判定する判定手段
    をさらに具備し、
    前記基準生成手段は、前記判定手段によって判定された上下関係を用いる
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記判定手段は、既に分類情報が付与された文書を用いて、前記第1の分類情報と前記第2の分類情報との組み合わせの割合が、予め定められた値より多い若しくは以上である組み合わせ、又は該割合を昇順に並べた場合に予め定められた順位より高い若しくは以内である組み合わせを抽出し、該抽出した第1の分類情報と第2の分類情報との組み合わせにおける上下関係を判定する
    ことを特徴とする請求項2に記載の情報処理装置。
  4. コンピュータを、
    誤分類された文書に付与された誤分類である第1の分類情報と該文書に本来付与されるべき第2の分類情報との上下関係に基づいて、文書を分類するための基準を生成する基準生成手段と、
    前記基準に基づいて、対象とする文書に分類情報を付与することによって分類する分類手段
    として機能させ
    前記基準生成手段は、前記第1の分類情報が上位の場合と下位の場合とで前記基準を変更する
    ことを特徴とする情報処理プログラム。
JP2014007371A 2014-01-20 2014-01-20 情報処理装置及び情報処理プログラム Expired - Fee Related JP6201779B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014007371A JP6201779B2 (ja) 2014-01-20 2014-01-20 情報処理装置及び情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014007371A JP6201779B2 (ja) 2014-01-20 2014-01-20 情報処理装置及び情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2015135640A JP2015135640A (ja) 2015-07-27
JP6201779B2 true JP6201779B2 (ja) 2017-09-27

Family

ID=53767408

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014007371A Expired - Fee Related JP6201779B2 (ja) 2014-01-20 2014-01-20 情報処理装置及び情報処理プログラム

Country Status (1)

Country Link
JP (1) JP6201779B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084410B (zh) * 2020-09-10 2023-07-25 北京百度网讯科技有限公司 文档类型的推荐方法、装置、电子设备及可读存储介质
JP7102563B2 (ja) * 2021-02-03 2022-07-19 プライマル フュージョン インコーポレイテッド 機械学習分類器とともに知識表現を使用するためのシステム及び方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5075111B2 (ja) * 2008-12-29 2012-11-14 株式会社日立ハイテクノロジーズ 画像分類基準更新方法、プログラムおよび画像分類装置
JP5621773B2 (ja) * 2009-07-06 2014-11-12 日本電気株式会社 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム

Also Published As

Publication number Publication date
JP2015135640A (ja) 2015-07-27

Similar Documents

Publication Publication Date Title
US11954139B2 (en) Deep document processing with self-supervised learning
US10977486B2 (en) Blockwise extraction of document metadata
US8719700B2 (en) Matching a page layout for each page of a document to a page template candidate from a list of page layout candidates
US20140270526A1 (en) Method for segmenting text words in document images
JP5663866B2 (ja) 情報処理装置及び情報処理プログラム
CN109284374B (zh) 用于确定实体类别的方法、装置、设备以及计算机可读存储介质
US8892562B2 (en) Categorization of multi-page documents by anisotropic diffusion
JP6201792B2 (ja) 情報処理装置及び情報処理プログラム
WO2014061309A1 (ja) 画像処理装置及び画像処理プログラム
JP2020173779A (ja) 文書における見出しのシーケンスの識別
US8751214B2 (en) Information processor for translating in accordance with features of an original sentence and features of a translated sentence, information processing method, and computer readable medium
JP6201779B2 (ja) 情報処理装置及び情報処理プログラム
US20210295033A1 (en) Information processing apparatus and non-transitory computer readable medium
US20160259774A1 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium
JP2016110256A (ja) 情報処理装置及び情報処理プログラム
JP6596848B2 (ja) アクセス権推定装置及びアクセス権推定プログラム
US20180307669A1 (en) Information processing apparatus
WO2015040860A1 (ja) 分類辞書生成装置、分類辞書生成方法及び記録媒体
US12046021B2 (en) Machine learning training dataset optimization
JP5510221B2 (ja) 情報処理装置及び情報処理プログラム
JP5391887B2 (ja) 情報処理装置及び情報処理プログラム
JP5888222B2 (ja) 情報処理装置及び情報処理プログラム
JP2016091354A (ja) 情報処理装置及び情報処理プログラム
US12118311B1 (en) Research replicability assessment
JP2013191122A (ja) 情報処理装置及び情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160722

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170714

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170814

R150 Certificate of patent or registration of utility model

Ref document number: 6201779

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees