JP4604097B2 - 文書分類付与方法、システムまたはコンピュータプログラム - Google Patents

文書分類付与方法、システムまたはコンピュータプログラム Download PDF

Info

Publication number
JP4604097B2
JP4604097B2 JP2008060406A JP2008060406A JP4604097B2 JP 4604097 B2 JP4604097 B2 JP 4604097B2 JP 2008060406 A JP2008060406 A JP 2008060406A JP 2008060406 A JP2008060406 A JP 2008060406A JP 4604097 B2 JP4604097 B2 JP 4604097B2
Authority
JP
Japan
Prior art keywords
classification
documents
document
assigned
assignment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008060406A
Other languages
English (en)
Other versions
JP2009217528A5 (ja
JP2009217528A (ja
Inventor
久雄 間瀬
博郎 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2008060406A priority Critical patent/JP4604097B2/ja
Publication of JP2009217528A publication Critical patent/JP2009217528A/ja
Publication of JP2009217528A5 publication Critical patent/JP2009217528A5/ja
Application granted granted Critical
Publication of JP4604097B2 publication Critical patent/JP4604097B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、テキストを含む文書に対して、分類を付与する文書分類付与方法、システムおよびコンピュータプログラムに関する。特に、分類体系の改正に伴って、過去に付与されている改正前の分類を、改正後の分類に付与し直す文書分類付与方法、システムおよびコンピュータプログラムに関する。
Webページや特許、科学技術論文など、テキストを含む大量の文書集合から利用者の要求する文書を探し出す検索エンジンが普及してきた。しかし、その検索精度は利用者にとって十分に満足できるものにはなっていない。
検索精度を改善させる手法の一つとして、検索対象文書の各々に分類を予め付与しておき、検索条件として分類を指定することにより、検索母集団を絞り込む手法があり、特許やWebページなどの検索で採用されている。しかし、この手法では、文書を文書データベースに登録する際に、分類を付与する作業が不可欠である。また、時代の変化によって分類体系も陳腐化していくため、分類体系を最新の状態に改正するとともに、過去に付与された分類を最新の分類体系に合致するように付与し直す必要がある。しかし、過去に蓄積された膨大な文書に対して分類を付与し直す作業は、人手で行っている場合がほとんどであり、多大な期間と費用がかかっているのが現状である。
新規文書に分類を付与したり、過去に分類が付与された文書に新しい分類を付与し直したりすることを自動化するための文書分類自動付与技術が研究開発されており、製品も市販されている。この分類自動付与技術は、分類付与対象となる文書集合の一部分を予め「教師文書」として選定し、これらに予め人手によって分類を付与しておき、まだ分類が付与されていない残りの文書に対しては、この教師文書に出現するターム情報を用いて、付与すべき分類を推定する方式が主流である。
特開平6-348755号公報 特開2001-34622号公報 情報処理学会第49回全国大会講演論文集(3)3−93
検索条件として分類を指定した文書検索では、分類の付与精度が検索精度に直接影響を与える。したがって、特許庁における特許審査のように検索漏れが許されない状況においては、分類付与精度は100%に限りなく近づける必要がある。しかしながら、現状の分類自動付与の精度は、自然言語の持つ曖昧性や、執筆者の嗜好による言葉の表記揺れなどが原因で、100%にはほど遠い。
そこで、分類をすべての文書に一律に自動付与するのではなく、一部の文書(または分類)についてのみ自動で付与し、残りの文書(または分類)については人手で付与するという、計算機と人間との間の役割分担を明確化することにより、全体の分類付与作業のコストを下げるという考え方が有力となる。しかし、分類自動付与精度は、分類体系の粒度や分類対象文書の内容および記述詳細度などにより変動するため、どの文書(または分類)が分類自動付与に適しているのかを「事前に」かつ「定量的に」かつ「正確に」把握することは困難である。
分類自動付与精度を「事前に」かつ「定量的に」把握するためには、分類が既に人手で付与されている教師文書を使う以外に方法はない。教師文書を用いて分類自動付与精度を事前に把握する考え方は、情報処理学会第49回全国大会講演論文集(3)3−93に報告されているように既に存在する。しかしこの文献では、「教師文書を入力とした時の分類自動付与結果を検討することにより、分類付与で参照する知識ベースを洗練化する」と言及するにとどまっており、教師文書を用いて自動付与可能な文書(または分類)を特定する具体的方法については言及していない。
本発明では、分類が改正された際に、文書に既に付与されている改正前の分類を、改正後の分類に付与し直す(以下、分類再付与と呼ぶことがある)場合の分類自動付与を主として想定している。
本発明では、計算機による分類自動付与精度を分類毎に算出して、自動付与が可能な分類を特定する。この際、(1)文書の作成時期または記載内容の観点から見てランダムになるように教師文書を選定することにより、分類自動付与精度の値の正確性(安定性)を確保するとともに、(2)算出対象となる分類の自動付与精度だけでなく、その分類への誤分類が他の分類の自動付与精度に与える影響も考慮して、自動付与が可能な分類とそうでない分類とを識別している。特に、上記(2)については、自動付与結果として何らかの分類が自動付与された文書集合のみを対象として、(a)算出対象である分類Aを人間が付与した(分類Aが正解である)文書件数に占める、分類自動付与によって分類Aが付与された文書件数の割合と、(b)分類自動付与によって誤って分類Aが付与された文書が、分類A以外の分類の各々に与える分類付与漏れの割合という2種類の評価尺度を用いて、利用者によって予め設定された条件を満たす分類のみを自動付与可能な分類として認定している。
本発明によれば、全体としての分類自動付与精度を定量的に把握するだけでなく、分類毎に見てどの分類が自動付与可能であるかを「事前に」かつ「定量的に」かつ「正確に」把握することができる。その結果、計算機が高速に処理できる文書(または分類)と、人間が手間をかけて処理しなければならない文書(または分類)に明確に分けることができ、全体として分類付与の作業効率(期間、費用)を改善することができる。
本発明の実施の形態を、図面を用いて詳細に説明する。なお、これにより本発明が限定されるものではない。
本実施例では、分類体系を改正した後に、改正前の分類が付与された文書に対して、改正後の分類を付与し直す(再付与する)という作業を想定する。本作業は、特許や科学技術文献に付与されている分類体系のメンテナンスの一環として、実際に人手で行われている作業である。
ここでは、「分類Aが付与された文書件数が多くなってきたので、分類Aを5個の分類(A1,A2,A3,A4,A5)に細分化し、分類Aが付与されている文書集合を対象として、細分化された5個の分類のいずれかを付与する」という作業を行うことを支援する分類付与システムを想定する。
図1は本システムのブロック図の一例を示す図である。
まず、分類再付与作業者は、入出力部1を介して提示される分類体系の中から、分類再付与対象となる分類体系部分を選択指定する。分類体系データは、分類体系定義テーブル5に格納されている。ここでは、分類Aを5個の分類(A1,A2,・・・,A5)に細分化する作業を想定しているため、分類体系の中から、改正前の分類である分類Aと、改正後の分類である分類A1,A2,A3,A4,A5を選択指定する。
次に、分類再付与作業者は、付与対象として指定した改正前の分類である分類Aが付与された文書集合を付与対象文書2に格納する。該当する文書集合を、入出力1を介して登録しても良いし、文書データベースの中から分類Aが付与された文書を検索して、付与対象文書2に文書データを複写しても良いし、文書データベースにおける文書データへのポインタ情報のみを保持させても良い。
次に、分類再付与作業者は、分類付与で用いる教師文書の件数割合を、入出力部1を介して入力指定する。本実施形態ではこの割合を10%とする。すると、システムは教師文書選択部3において、付与対象文書2に格納された文書のうち、上記指定された割合(10%)に相当する件数の文書を教師文書として選択し、教師文書4に文書データを格納する。この際、教師文書選択部3では、選択する教師文書が、文書作成時期または記載内容の観点から見て偏らないように教師文書を選択する。文書によっては文書作成者の観点からも偏らないように教師文書を選択しても良い。この結果、付与対象文書2に格納された文書件数の10%に相当する文書が教師文書4に格納される。
次に、分類再付与作業者は、教師文書4に格納された10%の付与対象文書の各々に対して、改正後の分類A1,A2,A3,A4,A5のいずれかを人手で付与する。付与した結果は、入出力部1を介して、人手付与分類テーブル6に格納される。
次に、分類再付与作業者は、入出力部1を介して、自動付与が可能な分類の特定を指示する。この時、自動付与可能な分類の付与精度に関する閾値を、入出力部1を介して入力指定する。この閾値データは、閾値テーブル7に格納される。システムは、分類付与部10および付与精度判定部23を実行することにより、閾値テーブル7に格納された付与精度の閾値を満たす分類を特定する。
まず、分類付与部10では、教師文書4中の各文書を入力とし、この入力文書に類似する文書集合を、同じ教師文書4に格納された教師文書集合の中から所定の件数だけ検索し、検索された文書に付与された改正後の分類を当該入力文書に付与すべき改正後の分類と認定する。
分類付与部10は、入力文書に出現するタームを抽出し、その重要度に相当する重みを付与するターム抽出・重み付け部11と、付与すべき分類を特定する付与分類特定部18からなる。ターム抽出・重み付け部11はさらに、単語辞書15および文法辞書16を参照して入力文書に含まれるテキストを単語に分割して品詞を割り当てる形態素解析部12と、分割された単語の中から特定の品詞を持つタームを取り出すターム抽出部13と、タームの出現頻度および教師文書4における出現文書数からタームの重要度を表す重みを算出するターム重み付け部14とからなる。重み付けされたターム集合は、タームテーブル17に一旦格納される。
付与分類特定部18は、タームテーブル17中の重み付きターム集合との類似度の高い教師文書4中の文書を検索する類似文書検索部19と、検索された類似文書の上位N件のうちの多くに付与されている改正後の分類を特定して、入力文書に付与すべき分類として認定する分類特定部21とからなる。類似文書検索部19の検索結果は類似文書テーブル20に格納され、分類特定部21によって認定された分類は自動付与分類テーブル22に格納される。
類似文書検索部19では、教師文書4中の文書が検索対象となる。その一方で、教師文書4中の各々の文書は分類付与部10の入力にもなっている。したがって、ある教師文書Xを入力とした時の類似文書検索部19の検索結果の第一位は教師文書Xそのものとなる可能性が非常に高い。このことは、教師文書Xに分類を自動付与する際に教師文書Xそのものに付与された分類を使うことになるため、方式として適切ではない。そこで、入力文書として使われた教師文書Xを、検索結果文書集合から除去する。
次に、付与精度判定部23では、前記分類付与部10で認定された分類の精度を分類毎に算出し、閾値テーブル7に格納された付与精度の閾値を満たすか否かを判定する。閾値を満たす分類については、自動付与可能な分類として自動付与可能分類テーブル26に格納し、入出力1を介してこれを分類再付与作業者に報知する。
付与精度判定部23は、改正後の分類別に自動付与精度を算出する分類別付与精度算出部24と、分類別の付与精度を閾値テーブル7に格納された自動付与精度の閾値と比較し、分類別の付与精度の方が良い分類を自動付与可能な分類として認定する閾値照合部25とからなる。
本実施例において、付与分類特定部18では、入力文書に類似する文書を検索し、検索結果の上位文書に多く付与されている分類を特定し、入力文書に付与すべき分類として認定するという方式を採用している。本アルゴリズムはKNN法(K-Nearest Neighbors method)として広く知られている公知の技術である。このKNN法の代わりに、特定のタームの出現傾向を記述した分類ルールを定義し、当該分類ルールを満たす場合、特定の分類を自動付与するという処理によって分類を自動付与する方法を用いても良い。ここでいう分類ルールとは、例えば、「タイトル中にターム『日本』とターム『首相』が共に現れる新聞記事は、分類『日本政治』を自動付与する」といったように、タームの出現条件と対応する分類とを対にして規定したルールである。
分類再付与作業者は、システムから出力された自動付与精度判定結果をチェックし、自動付与可能な分類を確定する。この確定がなされた後は、確定された分類が自動付与された文書については、作業者による自動付与結果チェックなしに分類が確定する。
このように、本実施例によれば、高精度で自動付与できる分類と、そうでない分類を明確に区別し、分類付与対象文書を、システムが自動で分類を付与可能な文書と、作業者が手作業で分類を付与すべき文書に仕分けすることにより、全体としての分類付与作業にかかるコスト(時間と負荷)を軽減することができる。
図2は、本実施例のハードウェア構成の一例を示す図である。本装置は大きく、計算処理を実行する処理装置50、分類再付与作業者が各種データを入力するためのキーボード51およびマウス52、計算処理結果などのデータを分類再付与作業者に出力するための出力モニタ53、処理装置50における処理に関するプログラムおよびデータを格納する記憶装置60から構成される。入出力データを別の計算機との間でやりとりする場合には、入出力データはネットワーク54を介して送受信する。
記憶装置60はさらに、処理装置50における処理データを一時的に格納するワーキングエリア61と、処理装置50で行うプログラムを格納する、教師文書選択部格納エリア63、検索インデクス生成部格納エリア68、分類付与部格納エリア70、ターム抽出・重み付け部格納エリア71、形態素解析部格納エリア72、ターム抽出部格納エリア73、ターム重み付け部格納エリア74、付与分類特定部78、類似文書検索部格納エリア79、分類特定部格納エリア81、付与精度判定部格納エリア83、分類別付与精度算出部格納エリア84、閾値照合部格納エリア85、付与分類確定部格納エリア87と、処理装置50で行う処理に必要なデータを格納する、付与対象文書格納エリア62、教師文書格納エリア64、分類体系定義テーブル格納エリア65、人手付与分類テーブル格納エリア66、閾値テーブル格納エリア67、検索インデクス格納エリア69、単語辞書格納エリア75、文法辞書格納エリア76、タームテーブル格納エリア77、類似文書テーブル格納エリア80、自動付与分類テーブル格納エリア82、自動付与可能分類テーブル格納エリア86からなる。処理装置50では、記憶装置60から必要なプログラムおよびデータをロードし、実行した結果を記憶装置60に格納することを繰り返すことにより処理が行われる。
図3は、本発明の実施形態における分類自動付与設定入力画面の一例を示す図である。図3の画面100の左側では、再付与対象となる分類がどこになるかを分類再付与作業者が指定する。「再付与対象となる分類範囲の指定101」に、再付与対象となる分類ID(分類A)を指定して展開ボタン103を押下すると、当該分類およびその子分類がサブ画面104に木構造で表示される。この画面表示は、分類体系定義テーブル5を参照することにより、容易に実現可能である。
また、画面100の右側では、分類自動付与に関する各種パラメータを設定する。まず、教師文書4の件数の割合をどのくらいにするかをパーセンテージで設定する(106)。また、教師文書の選定方法を選択する(107)。図3では、3種類の選定方法が表示されている。選択肢「文書番号の末尾利用」は、文書IDが番号で記述されており、かつ、文書IDと文書内容との間に何も相関関係がない場合に有効となる。このほかにも、文書番号の順に文書を並べて何個かおきに抽出するジャンプ抽出や、文書作成日の範囲を指定するなどの方法によって、教師文書を選定する。図3では、10件おきに文書を抽出するジャンプ抽出を選定方法として選択している。
また、分類自動付与時には、教師文書4を検索対象とした類似文書検索結果に対してKNN法を適用するが、その時に参照する検索結果上位の文書件数を指定する(108)。図3では、上位10件を参照するように指定している。
さらに、自動付与可能な分類であるかを判定するための分類自動付与精度の閾値を設定する。後述するように、本実施例では「適用再現率」と「再現率ロス」という2種類の尺度を用いるため、これらの閾値を指定する(109)。図3では、適用再現率の閾値を90%、分類毎の再現率ロスの上限値を5%と指定している。
各種パラメータを設定した後に「設定する」ボタンを押下すると、設定内容が保存される。また、「取り消す」ボタンを押下すると、入力された設定内容はクリアされる。
図4は、本発明の実施形態における分類自動付与精度出力画面の一例を示す図である。本画面は、再付与対象となる分類のうちのどの分類が自動付与可能な分類であるかを出力し、分類再付与作業者にチェックさせるものである。
画面の左側には、再付与対象となっている分類体系が木構造で表示される(204)。再付与対象の分類にはアンダーラインが引かれたアンカーとなっており(205)、任意の分類をマウスでクリックすると、その分類に関する自動付与精度の判定結果が、画面右側に表示される。また、画面左側の分類横の四角のラジオボックスがハイライトされている分類は、自動付与精度の閾値を満たす、自動付与が可能な分類であることを示している。
A1のアンカー205をクリックすると、画面の右側に分類A1に関する自動付与精度に関する判定結果データが表示される。分類A1では、教師文書4の中に、「何らかの分類が自動付与された全文書の中で、A1が人手付与された文書件数」が70件あり、70件のうち、「A1が自動付与された文書件数」が65件あり、適用再現率(定義は後述)が92.9%であり、図3で指定した閾値90%を超えていることが分かる。
また、「分類A1に関する再現率ロス」の値207が表示される。A1に関する再現率ロス(定義は後述)の最大値は2.3%であり、図3で指定した上限値5%を下回っていることが分かる。したがって、分類A1は、この適用再現率と再現率ロスの両方において閾値を満足しているため、分類A1を自動付与可能な分類と認定している。
図5は、本発明の実施形態における分類体系定義テーブル5の構成の一例を示す図である。分類体系定義テーブル5は、分類を識別する分類ID301、分類の内容を理解しやすくするために付ける分類名称302、分類ID301の子分類(詳細分類)に相当する子分類ID303、子分類IDに対応する子分類名称304から構成される。分類ID、子分類IDはユニークでなければならない。
図6は、本発明の実施形態における人手付与分類テーブル6および自動付与分類テーブル22の構成の一例を示す図である。人手付与分類テーブル6は、人手で付与した分類を文書IDと対応付けて格納するテーブルである。自動付与分類テーブル22は、システムが自動付与した分類を文書IDと対応付けて格納するテーブルである。両テーブルに格納される分類の付与方法は異なるが、テーブルの構成は同一である。すなわち、文書ID311、文書IDに付与される分類ID312および分類名称313から構成される。本実施例では、一文書につき分類を一つだけ付与することを想定しているが、一文書に複数の分類を付与しても構わない。
図7は、本発明の実施形態におけるタームテーブル17の構成の一例を示す図である。タームテーブル17には、入力文書を解析して得られ、付与分類特定部18の入力となる重み付きターム集合が格納されている。タームテーブル17は、ターム見出し321、当該タームの入力文書中の出現頻度322、当該タームが教師文書4中の文書の何件に出現するかを表す出現文書数323、当該タームの重要度を表す重み324から構成される。重み324を算出する方式としてはTFIDF法が広く知られている。TFIDF法は、「出現頻度322が高いタームほど重要である」という考え方と、「出現文書数323が低いタームほど重要である」という考え方を掛け合わせた重み付け方式である。本実施例では他の重み付け方式であっても構わない。
図8は、本発明の実施形態における類似文書テーブル20の構成の一例を示す図である。類似文書テーブル20は、類似文書検索部19によって検索された類似文書データを格納したものである。すなわち、類似文書検索による検索順位331、検索された文書ID332、入力文書との類似度333から構成される。本実施例では図3で指定されたように、検索順位が10位までの文書を使って入力文書に付与すべき分類を特定している。
図9は、本発明の実施形態における閾値テーブル9の構成の一例を示す図である。閾値テーブル9は、ある分類が高精度で自動付与可能であるかを判定するための基準となる閾値データを格納している。この閾値データは図3に示す画面から作業者が入力することにより得ることができる。閾値データは、「適用再現率の閾値341」と「再現率ロスの上限値342」の2種類からなり、これらの閾値を同時に満たす分類を、自動付与可能な分類として認定する。
図10は、本発明の実施形態における自動付与可能分類テーブル26の構成の一例を示す図である。自動付与可能分類テーブル26は、図9の閾値を両方満たす分類データを格納したテーブルであり、分類ID351、分類名称352、当該分類における適用再現率353、当該分類における再現率ロスの最大値354から構成される。
図11は、本発明の実施形態における教師文書選択部3の処理フローの一例を示す図である。教師文書選択部3では、付与対象文書2の中から指定された割合の文書を自動抽出し、教師文書4として使用する。教師文書4として認定された文書には、人手によって分類が付与される。そして、人手によって付与された分類を用いて、分類毎の付与精度を評価するのに用いられる。
図11では、教師文書4の選定において、付与対象文書2を文書IDでソートし、一定個数(本実施例では教師文書件数の割合を10%としているので10件)おきに文書を抽出して教師文書とする方法を採用している。
一般の分類自動付与では、教師文書は付与対象文書の中でも作成時期が比較的古いもので構成されることがほとんどである。これは、「教師文書を用いて分類付与に必要なデータを解析し、その解析結果を用いて、教師文書よりも後に作成された新規文書に分類を自動付与する」という至極当たり前なところから来ている。しかし、一般に、文書の内容は時間と共に変遷するため、自動付与精度も時間と共に変動する。その結果、教師文書そのものを入力文書として自動付与精度を評価した場合の値と、新規文書を用いて自動付与精度を評価した場合の値は、後者の方がかなり低い値となり、両者の傾向が合致しないことがしばしばある。したがって、教師文書そのものを入力として分類付与精度を推定し、自動付与可能な分類か否かを判定するのは難しい。
しかし、本発明で対象としている分類再付与では、再付与すべき文書が全て揃っている。したがって、同じ割合(例えば10%)の文書を抽出して教師文書とする場合、必ずしも作成時期の古い文書を教師文書として抽出する必要はない。むしろ、文書作成時期の観点からランダムに教師文書を選定する方が、分類自動付与精度の振る舞いを正確に推定することができる。
図11では、上記を踏まえ、付与対象文書2を文書IDの順で並べ替え、何件かおきに抽出することにより、教師文書4を抽出している。まず、分類付与対象文書2の文書IDでソートした文書IDリストを作成し、リスト番号を1から順に付与する(ステップ411)。次に、分類付与対象文書2の総件数Nをカウントする(ステップ412)。次に、分類再付与作業者が図3で指定した教師文書件数の割合(%値)で件数Nを割った商の整数値Xを求める(ステップ413)。次に、ステップ411で作成したリストを順にスキャンし、リスト番号が整数値Xで割り切れる文書IDを抽出する(ステップ414)。最後に、抽出した文書IDを持つ文書データを教師文書として認定し、教師文書4に格納する(ステップ415)。
図12は、本発明の実施形態における分類特定部21の処理フローの一例を示す図である。分類特定部21は、類似文書テーブル20に格納された類似文書検索結果を用いて、入力文書に付与すべき分類を特定する。ここでは、KNN法を用いる。すなわち、類似文書検索テーブル20の上位N件(ここではN=10)の文書に付与されている分類を特定し、多くの文書に付与されている分類を特定する。まず、類似文書検索結果上位10件の文書に対して、人手付与分類テーブル6を参照して人手付与分類を対応付ける(ステップ421)。次に、分類毎に、その分類が付与された文書の持つ類似度の総和を求める(ステップ422)。次に、この「類似度の総和」によって、分類を降順にソートする(ステップ423)。最後に、類似度の総和が最も大きい分類における総和に、予め指定された割合を乗じた値以上を総和として持つ分類を、入力文書に対して付与すべき分類と推定し、自動付与分類テーブル22に格納する(ステップ424)。
図13は、本発明の実施形態における分類特定部21の処理フローの他例を示す図である。図13では、ある分類が、類似文書検索結果上位10件の文書の中の何件に付与されているかをカウントし、その数が多い分類を入力文書に付与すべき分類とする方法である。まず、類似文書検索結果上位10件の文書に対して、人手付与分類テーブル6を参照して人手付与分類を対応付ける(ステップ431)。これは、図12のステップ421と同じ処理である。次に、10件の文書のうち、分類毎にその分類が付与された文書の件数を求める(ステップ432)。次に、ステップ432で求めた文書の件数が、予め設定された件数の閾値よりも多い分類を、入力文書に付与すべき分類と推定し、自動付与分類テーブル22に格納する(ステップ433)。例えば、ある分類が類似文書検索結果の上位10件の文書すべてに付与されていれば、該当件数は10件となり、この分類は入力文書にも付与すべき分類となる。上位10件の文書のうち、8件に付与されている場合、予め設定された件数の閾値が8件以下であればこの分類は入力文書に自動付与されるが、閾値が9件以上である場合はこの分類は自動付与されない。
このように、本実施例では、入力文書に対して必ずしも分類が自動付与されなくても良い。上記閾値を厳しくするほど、分類が自動付与される文書件数は少なくなる。しかし一方で、自動付与精度は高くなるので、この閾値を調節することで、自動付与精度をチューニングすることが可能である。
図14は、本発明の実施形態における分類別付与精度算出部24の処理フローの一例を示す図である。分類別付与精度算出部24は、「適用再現率」および「再現率ロス」の二つの尺度を用いて、自動付与精度を定量化する。
ここでまず、「適用再現率」について説明する。「再現率」とは、人手によって付与された分類を、システムがどのくらい忠実に自動付与できるかを表す尺度であり、分類付与の漏れの度合いを定量化したものである。すなわち、「分類A1が人手によって付与された文書件数」に占める、「分類A1が人手によってもシステムによっても付与された文書件数」の割合である。
しかし上述したように、本システムでは、必ずしもすべての文書に分類を自動付与できるわけではない。本発明では、システムによって自動付与できなかった文書については、作業者が人手で付与することを想定しているので、システムが自動付与できなかったことによる分類付与漏れがあっても構わない。しかし、システムが自動付与できた文書に対しては、作業者による付与結果チェックが行われない可能性があるため、分類付与漏れは精度の観点から問題となる。
そこで、本発明では、「適用再現率」という尺度を導入する。適用再現率は、システムによって何らかの分類が自動付与された文書のみを対象として再現率を算出するものである。すなわち分類A1の適用再現率は、「何らかの分類が自動付与できた文書集合」において、「分類A1が人手によって付与された文書件数」に占める、「分類A1が人手によってもシステムによっても付与された文書件数」の割合である。
次に、「再現率ロス」について説明する。上述した適用再現率が良くても、自動付与結果にノイズが多く含まれていると、精度に問題が生じる。例えば、人手により分類A1が100件の文書に付与されたとする。一方、システムによって200件の文書にA1が自動付与され、この200件の中に上記100件の文書がすべて含まれる場合、適用再現率は100/100=100%となる。しかし、適用再現率が100%だからといって、分類A1を自動付与可能な分類とみなしてしまうと、A1が自動付与された文書は作業者のチェックが入らずに自動的に付与結果が確定するため、残りの100件の文書にとって分類A1はノイズ分類となってしまい、最終的に正しい分類を付与できなくなる。この100件の文書について本来付与されるべき分類を分析した時に、例えば、他の4種類の分類(A2,A3,A4,A5)が25件ずつ付与されるべきであったことが判明した場合、この100件の文書への分類誤付与が他の分類の再現率に与える悪影響は比較的少ないが、100件すべてが特定の分類(例えばA3)に本来付与されるべきであった場合、分類A3における再現率ロスは著しく大きくなる。仮に、本来分類A3を付与すべき文書が全部で200件あったとすると、このうちの100件について誤った分類A1が付与されてしまっていることになるため、残りの100件の文書に対して人手によっていかに正確に付与したとしても、再現率は50%にまでしか到達しない。
このように、分類が誤って付与されたことが、他の分類の再現率に与える影響を考慮して、自動付与可能な分類を推定することが不可欠となる。「再現率ロス」は、ある分類への誤付与が他の分類の再現率を低下させる割合である。また、「再現率ロスの最大値」は、ある分類が他の分類に及ぼす「再現率ロス」の値のうち、最も高い値を指す。
本発明は、予め人手で分類が付与された教師文書を用いて、上述した「適用再現率」および「再現率ロス」の両方の尺度が閾値を満たす分類を、自動付与可能な分類として特定することが特徴である。なお、適用再現率および再現率ロスによる精度評価の例については、図17を用いて後に詳述する。
図14に示す分類別付与精度算出部24の処理フローでは、まず、教師文書4の文書すべてを対象として、人手付与分類テーブル6を参照して、各分類が人手付与されている文書の件数をそれぞれ算出する(ステップ441)。次に、分類別付与精度を算出していない分類が残っているか否かを判別し(ステップ442)、残っていない場合は処理を終了する。残っている場合は、何らかの分類が自動付与された教師文書4の文書のみを対象として、人手付与分類テーブル6を参照して、当該分類が人手付与されている文書の件数Nを算出する(ステップ443)。次に、上記N件の文書のうち、当該分類を自動付与できた文書件数Mを算出し、当該分類に係る適用再現率R=M÷Nを算出し、Rを当該分類と共にワーキングエリア61に一時格納する(ステップ444)。次に、人手付与分類テーブル6および自動付与分類テーブル22を参照し、当該分類を自動付与できた文書集合から、当該分類が人手付与された文書を除いた文書リストを作成する(ステップ445)。次に、除去後に残った文書に対し、人手付与分類テーブル6を参照して、分類毎に人手付与されている文書の件数を算出する(ステップ446)。そして最後に、「ステップ441で算出した文書件数」に占める、「ステップ446で算出した文書件数」の割合である再現率ロスを分類毎に求め、その最大値を当該分類における「再現率ロスの最大値」とし、当該分類と共にこの値をワーキングエリア61に格納する。
図15は、本発明の実施形態における閾値照合部25の処理フローの一例を示す図である。ここでは、図14の分類別付与精度算出部24で算出された「適用再現率」および「再現率ロスの最大値」を、図3の画面で予め作業者によって入力指定された「適用再現率の閾値」および「再現率ロスの上限値」と比較し、適用再現率が閾値を超え、かつ、再現率ロスの最大値が閾値より低い分類を、自動付与可能な分類として認定する。
図15の処理フローではまず、閾値テーブル7の閾値との比較をしていない分類が残っているか否かを判別し(ステップ451)、残っていない場合は処理を終了する。残っている場合は、閾値テーブル7に記述された適用再現率の閾値と、分類別付与精度算出部24において算出された適用再現率を比較する(ステップ452)。閾値テーブル7の適用再現率の閾値の方が、値が低いかを判別し(ステップ453)、高い場合、ステップ451に戻り、次の分類の処理に移る。低い場合は、閾値テーブル7に記述された「再現率ロスの上限値」と、分類別付与精度算出部24において算出された再現率ロスの最大値を比較する(ステップ454)。閾値テーブル7の再現率ロスの上限値の方が高いか否かを判別し(ステップ455)、低いならばステップ451に戻り、次の分類の処理に移る。閾値テーブル7の再現率ロスの上限値の方が高い場合、当該分類を自動付与可能な分類と推定し、自動付与可能分類テーブル26に当該分類を格納する(ステップ456)。
図16は、付与対象文書2のうち、教師文書4以外の文書について、分類を自動付与する際のブロック図の一例を示す図である。図1と異なるのは、付与対象文書2が分類付与部10の入力文書となっている点と、分類付与部10の出力として自動付与分類テーブル22に格納された分類を、自動付与可能分類テーブル26に格納された分類と照合することによって、入力文書に自動付与する分類を確定する付与分類確定部27を設けている点である。付与分類確定部27では、自動付与可能分類テーブル26に格納された分類が自動付与された文書に対して、人手チェックなしにその分類を確定する。自動付与可能分類テーブル26に格納された分類以外の分類が自動付与された場合、作業者に自動付与結果を提示して、正しい分類が付与されているかをチェックさせる。
図17は、適用再現率および再現率ロスを用いて、自動付与可能な分類を特定する処理の具体例を示す図である。上述したように、ここでは一つの文書に対して、A1,A2,A3,A4,A5のうちのどれか一つを付与する。
図17(1)は、付与対象文書2に格納されている、分類を付与する対象となる文書件数を分類毎に示している。ここでは、合計4000件の文書を付与対象とする。
図17(2)は、上記4000件のうち、教師文書4として選定された文書件数を分類毎に示している。ここでは、図3の画面で指定されているように、付与対象文書の10%を教師文書とすることを想定する。図11に示した処理により、4000件の10%に相当する400件が教師文書として抽出される。そして、この400件に対して、人手で分類を付与する。もちろん、人手で分類が付与されるまでは、どの文書にどの分類が付与されているか分からないので、分類毎の教師文書件数は必ずしも10%にはならず、分類A1や分類A4のように、件数の割合が多少ぶれる。
図17(3)は、教師文書400件に対して、本実施例で説明した方法によって分類が自動付与された文書件数を、分類毎に示している。ここで留意すべきことであるが、教師文書400件すべてに分類が付与できるとは限らない。図17では、教師文書400件中、310件しか分類を自動付与していない。残りの90件については、計算機による自動付与ができない、あるいは、出力に対する確信度が低いためにあえて自動付与していない文書である。
図12のステップ424や、図13のステップ433で使用する閾値を厳しくすると、自動付与できる文書件数は減少するが分類付与精度は向上する。逆に閾値を緩くすると、自動付与できる文書件数は増加するが分類付与精度は低下する。このように、閾値をチューニングすることによって、自動付与可能な文書件数を制御することが可能である。
図17(4)は、何らかの分類が自動付与された310件のみを対象とした場合に、各分類を本来正解として付与すべきである文書件数を、分類毎に示している。上述したように、ここでは一文書に対して分類は一つだけ付与することを想定しているので、(4)の合計値(310件)は(3)の合計値(310件)と等しくなる。
ここで、誤解してはいけないのは、例えば分類A1において、自動付与された文書件数(3)が100件で、正解として付与すべき文書件数(4)も100件であるが、精度は100%であるとは限らないということである。自動付与された100件の中には、本来他の分類が付与されるべきなのに分類A1が誤って付与されてしまった、いわゆるノイズ文書が混在している反面、本来分類A1が付与されるべきなのに他の分類が誤って付与されてしまった文書が含まれていない。この両者の件数が偶然同じであったため、どちらも100件となったに過ぎない。
図17(5)は、上記(4)のうち、計算機によって自動付与できた文書件数を示している。したがって、(5)の件数は、(4)の件数を超えることはない。
図17(6)は、各分類における適用再現率を示している。情報検索などで広く使われている再現率が、(5)を(2)で割った値であるのに対して、適用再現率は、(5)の件数を(4)の件数で割った値であるところが違っている。すなわち、何らかの分類が自動付与できた文書のみを対象として再現率を算出している。本発明では、計算機によって自動付与できない文書については、人手による付与に委ねることができるということを前提としている。この前提に立つと、自動付与精度を評価する際には、何らかの分類が自動付与された文書のみを母集団として評価すべきであるというのが、適用再現率の考え方である。
図3の画面で指定されたように、適用再現率の閾値が90%であるとした場合、これを満たすのは分類A1のみとなる。したがって、この時点で分類A1以外の分類は、自動付与には不適であると判定される。
図17(7)は、各分類において、ノイズとして付与されてしまった文書件数を示している。この件数は、(3)の件数から(5)の件数を差し引いて求めることができる。分類A1については、100−90=10件のノイズ文書が存在していることが分かる。
図17(8)は、上記10件のノイズ文書に対して本来付与すべき分類の分布の一例を示している。ここでは、本来付与すべき分類は、分類A1以外の4分類にばらついて分布している。
図17(9)は、上記(8)の場合の再現率ロスを分類毎に示している。再現率ロスは、(8)の件数を(2)の件数で割ったものであり、「仮に、分類A1が自動付与されたものは人手によるチェックなしに確定する、としたことにより、どのくらい再現率を低下させるか」を示している。上記(8)の場合、再現率ロスが最も高い分類A4でも4.0%にとどまっており、図3の画面で指定したように再現率ロスの上限値を5%とすると、これを満たすことになる。この結果、分類A1は、適用再現率および再現率ロスともに閾値を満たすので、自動付与可能な分類として認定される。
図17(10)は、A1における10件のノイズ文書に対して本来付与すべき分類の分布の他の一例を示している。ここでは、本来付与すべき分類が分類A2に集中している。
図17(11)は、上記(10)の場合の再現率ロスを分類毎に示している。上記(10)の場合、再現率ロスが分類A2で16.7%にものぼっており、仮に図3の画面で指定したように再現率ロスの上限値を5%とすると、これを満たさないことになる。この結果、分類A1は、適用再現率は閾値を満たすが、再現率ロスは閾値を満たさないので、自動付与可能な分類として認定されない。
このように、適用再現率および再現率ロスの両方を考慮することにより、自動付与可能な分類を正確に特定することができる。どちらか一方または両方を満たさない分類については、これらの閾値の値を緩めるか、あるいは、自動付与時に参照される閾値を厳しくすることによって、適用再現率および再現率ロスの値を改善するというチューニング作業が必要となる。この場合、精度は向上するが、自動付与可能な文書の件数が減るので、その分、人手による分類付与のコストが増大する。したがって最終的には、分類自動付与精度と人手付与作業コストのバランスを踏まえて、自動付与可能な分類・文書がどの範囲かを作業者が決定することになる。
本発明の実施形態におけるブロック図の一例を示す図 本発明の実施形態におけるハードウェア構成の一例を示す図 本発明の実施形態における分類自動付与設定入力画面の一例を示す図 本発明の実施形態における分類自動付与精度出力画面の一例を示す図 本発明の実施形態における分類体系定義テーブル5の構成の一例を示す図 本発明の実施形態における人手付与分類テーブル6および自動付与分類テーブル22の構成の一例を示す図 本発明の実施形態におけるタームテーブル17の構成の一例を示す図 本発明の実施形態における類似文書テーブル20の構成の一例を示す図 本発明の実施形態における閾値テーブル9の構成の一例を示す図 本発明の実施形態における自動付与可能分類テーブル26の構成の一例を示す図 本発明の実施形態における教師文書選択部3の処理フローの一例を示す図 本発明の実施形態における分類特定部21の処理フローの一例を示す図 本発明の実施形態における分類特定部21の処理フローの他例を示す図 本発明の実施形態における分類別付与精度算出部24の処理フローの一例を示す図 本発明の実施形態における閾値照合部25の処理フローの一例を示す図 本発明の実施形態におけるブロック図の他例を示す図 本発明の実施形態における処理例を示す図
符号の説明
1…入出力部、2…付与対象文書、3…教師文書選択部、4…教師文書、5…分類体系定義テーブル、6…人手付与分類テーブル、7…閾値テーブル、8…検索インデクス生成部、9…検索インデクス、10…分類付与部、11…ターム抽出・重み付け部、12…形態素解析、13…ターム抽出、14…ターム重み付け、15…単語辞書、16…文法辞書、17…タームテーブル、18…付与分類特定部、19…類似文書検索、20…類似文書テーブル、21…分類特定、22…自動付与分類テーブル、23…付与精度判定部、24…分類別付与精度算出、25…閾値照合、26…自動付与可能分類テーブル、27…付与分類確定部

Claims (5)

  1. 文書分類体系に関するデータを格納する分類体系定義テーブルと、分類自動付与のために予め選定された複数の第1の文書の各々に対して予め人手付与された分類を格納する人手付与分類テーブルと、該人手付与分類テーブルを参照して前記分類体系定義テーブルに格納された分類のうちの少なくとも一つを分類付与対象文書に付与する処理部と、出力部とを備えた分類付与システムにおける分類付与方法であって、
    前記処理部により、
    前記第1の文書の各々を前記分類付与対象文書とし、該分類付与対象文書の各々に対して、前記分類体系定義テーブルに格納された前記分類のうちの少なくとも一つを付与し、
    前記分類体系定義テーブルに格納された分類毎に、前記分類付与結果と前記人手付与分類テーブルを参照して、第1の分類が人手により付与された文書の件数に占める、前記第1の分類が自動付与された文書の件数の割合を、前記第1の分類に対する第1の分類自動付与精度として算出し、また、前記第1の分類以外の分類の各々について、該分類が人手により付与された文書の件数に占める、前記第1の分類が誤って付与された文書の件数の割合を算出し、その中の最大値を前記第1の分類に対する第2の分類自動付与精度として算出し、
    前記第1の分類付与精度が第1の閾値より高く、かつ、前記第2の分類付与精度が第2の閾値より低い場合に、当該分類を自動付与可能な分類として認定して前記分類付与対象文書情報と対応付けて自動分類付与テーブルに格納し、
    前記認定結果を前記出力部に出力することを特徴とする分類付与方法。
  2. 文書分類体系に関するデータを格納する分類体系定義テーブルと、分類自動付与のために予め選定された複数の第1の文書の各々に対して予め人手付与された分類を格納する人手付与分類テーブルと、該人手付与分類テーブルを参照して前記分類体系定義テーブルに格納された分類のうちの少なくとも一つを分類付与対象文書に付与する処理部と、出力部とを備えた類付与システムにおける分類付与方法であって、
    前記処理部により、
    前記第1の文書の各々を分類付与対象文書とし、該分類付与対象文書の各々に対して、前記分類体系定義テーブルに格納された前記分類のうちの一つを付与し、
    前記分類体系定義テーブルに格納された分類毎に、前記分類付与結果と前記人手付与分類テーブルを参照して、第1の分類が人手により付与された文書の件数に占める、前記第1の分類が自動付与された文書の件数の割合を、前記第1の分類に対する第1の分類自動付与精度として算出し、また、前記第1の分類以外の分類の各々について、該分類が人手により付与された文書の件数に占める、前記第1の分類が誤って付与された文書の件数の割合を算出し、その中の最大値を前記第1の分類に対する第2の分類自動付与精度として算出し、
    前記第1の分類付与精度が第1の閾値より高く、かつ、前記第2の分類付与精度が第2の閾値より低い場合に、当該分類を自動付与可能な分類として認定して前記分類付与対象文書情報と対応付けて自動分類付与テーブルに格納し、
    前記人手によって分類が付与されていない前記分類付与対象文書に対して自動付与された分類のうち、前記認定された自動付与可能な分類を分類自動付与結果として確定することを特徴とする分類付与方法。
  3. 文書分類体系に関するデータを格納する分類体系定義テーブルと、分類自動付与のために予め選定された複数の第1の文書の各々に対して予め人手付与された分類を格納する人手付与分類テーブルと、該人手付与分類テーブルを参照して前記分類体系定義テーブルに格納された分類のうちの少なくとも一つを分類付与対象文書に付与する処理部と、出力部とを備えた分類付与システムにおいて、
    前記処理部は、
    前記第1の文書の各々を分類付与対象文書とし、該分類付与対象文書の各々に対して、前記分類体系定義テーブルに格納された前記分類のうちの一つを付与し、
    前記分類体系定義テーブルに格納された分類毎に、前記分類付与結果と前記人手付与分類テーブルを参照して、第1の分類が人手により付与された文書の件数に占める、前記第1の分類が自動付与された文書の件数の割合を、前記第1の分類に対する第1の分類自動付与精度として算出し、また、前記第1の分類以外の分類の各々について、該分類が人手により付与された文書の件数に占める、前記第1の分類が誤って付与された文書の件数の割合を算出し、その中の最大値を前記第1の分類に対する第2の分類自動付与精度として算出し、
    前記第1の分類付与精度が第1の閾値より高く、かつ、前記第2の分類付与精度が第2の閾値より低い場合に、当該分類を自動付与可能な分類として認定して前記分類付与対象文書情報と対応付けて自動分類付与テーブルに格納し、
    前記認定結果を前記出力部に出力することを特徴とする分類付与システム。
  4. 文書分類体系に関するデータを格納する分類体系定義テーブルと、分類自動付与のために予め選定された複数の第1の文書の各々に対して予め人手付与された分類を格納する人手付与分類テーブルと、該人手付与分類テーブルを参照して前記分類体系定義テーブルに格納された分類のうちの少なくとも一つを分類付与対象文書に付与する処理部と、出力部とを備えたを備えた分類付与システムにおいて、
    前記処理部は、
    前記第1の文書の各々を分類付与対象文書とし、該分類付与対象文書の各々に対して、前記分類体系定義テーブルに格納された前記分類のうちの一つを付与し、
    前記分類体系定義テーブルに格納された分類毎に、前記分類付与結果と前記人手付与分類テーブルを参照して、第1の分類が人手により付与された文書の件数に占める、前記第1の分類が自動付与された文書の件数の割合を、前記第1の分類に対する第1の分類自動付与精度として算出し、また、前記第1の分類以外の分類の各々について、該分類が人手により付与された文書の件数に占める、前記第1の分類が誤って付与された文書の件数の割合を算出し、その中の最大値を前記第1の分類に対する第2の分類自動付与精度として算出し、
    前記第1の分類付与精度が第1の閾値より高く、かつ、前記第2の分類付与精度が第2の閾値より低い場合に、当該分類を自動付与可能な分類として認定して前記分類付与対象文書情報と対応付けて自動分類付与テーブルに格納し、
    前記人手によって分類が付与されていない前記分類付与対象文書に対して自動付与された分類のうち、前記認定された自動付与可能な分類を分類自動付与結果として確定することを特徴とする分類付与システム。
  5. コンピュータを制御して、請求項1又は請求項2に記載の分類付与方法を実行するプログラム。
JP2008060406A 2008-03-11 2008-03-11 文書分類付与方法、システムまたはコンピュータプログラム Expired - Fee Related JP4604097B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008060406A JP4604097B2 (ja) 2008-03-11 2008-03-11 文書分類付与方法、システムまたはコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008060406A JP4604097B2 (ja) 2008-03-11 2008-03-11 文書分類付与方法、システムまたはコンピュータプログラム

Publications (3)

Publication Number Publication Date
JP2009217528A JP2009217528A (ja) 2009-09-24
JP2009217528A5 JP2009217528A5 (ja) 2010-07-29
JP4604097B2 true JP4604097B2 (ja) 2010-12-22

Family

ID=41189307

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008060406A Expired - Fee Related JP4604097B2 (ja) 2008-03-11 2008-03-11 文書分類付与方法、システムまたはコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP4604097B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5572255B1 (ja) * 2013-10-11 2014-08-13 株式会社Ubic デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
JP2017027495A (ja) * 2015-07-27 2017-02-02 Kddi株式会社 検証装置、分類システム、検証方法、分類方法、及びコンピュータプログラム
JP6974751B2 (ja) * 2017-03-28 2021-12-01 日本電信電話株式会社 可視化装置、可視化方法、及びプログラム
JP6814091B2 (ja) * 2017-05-12 2021-01-13 株式会社日立製作所 文書分類システムおよび文書分類方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007323454A (ja) * 2006-06-02 2007-12-13 National Institute Of Information & Communication Technology 文書分類装置及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007323454A (ja) * 2006-06-02 2007-12-13 National Institute Of Information & Communication Technology 文書分類装置及びプログラム

Also Published As

Publication number Publication date
JP2009217528A (ja) 2009-09-24

Similar Documents

Publication Publication Date Title
US7451139B2 (en) Document similarity calculation apparatus, clustering apparatus, and document extraction apparatus
CN106446071B (zh) 信息处理装置及方法
US20060004528A1 (en) Apparatus and method for extracting similar source code
KR101505546B1 (ko) 텍스트 마이닝을 이용한 키워드 도출 방법
CN109271517B (zh) Ig tf-idf文本特征向量生成及文本分类方法
CN109857938B (zh) 基于企业信息的搜索方法、搜索装置及计算机存储介质
CN110362601B (zh) 元数据标准的映射方法、装置、设备及存储介质
JP4604097B2 (ja) 文書分類付与方法、システムまたはコンピュータプログラム
Dockum et al. Swadesh lists are not long enough: Drawing phonological generalizations from limited data
WO2008062822A1 (fr) Dispositif d'exploration de texte, procédé d'exploration de texte et programme d'exploration de texte
CN109344400A (zh) 一种文献入库的判断方法和装置
CN107908649B (zh) 一种文本分类的控制方法
CN113204642A (zh) 文本聚类方法、装置、存储介质和电子设备
JP5439235B2 (ja) 文書分類方法、文書分類装置、およびプログラム
JP2012526319A (ja) 電子ドキュメントコレクション内の複数選択ドキュメントを標的調査する方法、システムおよび装置
JP4479745B2 (ja) 文書の類似度補正方法、プログラムおよびコンピュータ
CN109325099A (zh) 一种自动检索的方法和装置
Ryman et al. Application of source code plagiarism detection and grouping techniques for short programs
CN109189955A (zh) 一种自动检索关键词的确定方法和装置
CN109189893A (zh) 一种自动检索的方法和装置
CN109284360A (zh) 一种专利检索自动去噪方法和装置
US20050071333A1 (en) Method for determining synthetic term senses using reference text
JP2008234618A (ja) 知識抽出装置、知識抽出方法およびコンピュータプログラム
CN110619212B (zh) 一种基于字符串的恶意软件识别方法、系统及相关装置
KR20020064821A (ko) 문서 장르 학습 시스템 및 그 방법과 그를 이용한 문서장르 분류시스템 및 그 방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100614

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100614

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20100614

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20100625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100901

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100928

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101004

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131008

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4604097

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131008

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees