JP2013061757A - 文書分類方法 - Google Patents
文書分類方法 Download PDFInfo
- Publication number
- JP2013061757A JP2013061757A JP2011199075A JP2011199075A JP2013061757A JP 2013061757 A JP2013061757 A JP 2013061757A JP 2011199075 A JP2011199075 A JP 2011199075A JP 2011199075 A JP2011199075 A JP 2011199075A JP 2013061757 A JP2013061757 A JP 2013061757A
- Authority
- JP
- Japan
- Prior art keywords
- document
- feature
- word
- counterexample
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 41
- 239000013598 vector Substances 0.000 claims abstract description 110
- 239000000463 material Substances 0.000 claims description 4
- 239000003086 colorant Substances 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract description 8
- 230000007613 environmental effect Effects 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】利用者は、分類されるカテゴリに属する例題文書を収集し(S101)、例題文書を文書分類システムに入力する(S102)。文書分類システムは、入力された例題文書に含まれるレイアウト上特徴を有する語の中から特徴語を抽出し、反例文書の候補となる反例候補文書を既存文書の中から検索して、画面に表示する(S103)。利用者は、画面に表示された反例候補文書の中から、反例文書を選択する(S104)。文書分類システムは、特徴語に基づいて例題文書と反例文書の特徴ベクトルを生成し、生成された例題文書と反例文書の特徴ベクトルに基づいて分類パラメータを生成する(S105)。そして、文書分類システムは、生成された分類パラメータを用いて分類対象文書をカテゴリに分類する。
【選択図】図1
Description
(SVM)と呼ばれる機械学習の技術を使ってカテゴリに分類している。
分類されるカテゴリに属する正例の例題文書から、文書のレイアウト上特徴のある語に基づいて特徴語を抽出する特徴語抽出ステップと、
前記特徴語に基づいて、分類されるカテゴリに属する文書中に含まれていなければならない特徴語の度合いを定める含有パラメータを求める含有パラメータ生成ステップと、
記憶部に蓄積されている既存文書の中から、前記含有パラメータを満たす特徴語を含む文書を検索し、検索された文書から前記例題文書を除いた文書を反例候補文書として利用者に提示する反例候補文書提示ステップと、
前記特徴語に基づいて、前記例題文書の特徴ベクトルと、利用者によって前記反例候補文書の中から選択された反例文書の特徴ベクトルとを生成する特徴ベクトル生成ステップと、
生成された前記例題文書の特徴ベクトルと前記反例文書の特徴ベクトルとに基づいて分類パラメータを求める分類パラメータ生成ステップと、
前記特徴語と前記分類パラメータとに基づいて分類対象の文書が前記分類されるカテゴリに属するか否かを判定する文書分類判定ステップと、
を備えることを特徴とする。
前記レイアウト上特徴のある語は、
文書の最初のページの中央または上部中央に表われ、文字サイズが大きい語、および/または目立つ色が使用されている語、
項目番号が割り振らており、所定の文字数以下の語、
前記例題文書が所定の帳票のフォーマットを有する場合、当該帳票に現れる帳票名称や項目名、
他の文字に比べて文字サイズが大きいという特徴、イタリック体であるという特徴、下線が引いてあるという特徴、強調文字が使用されているという特徴、他の文字に使われている色と異なる目立つ色であるという特徴、および他の文字に使われているフォントと異なるフォントであるという特徴のうちの少なくとも1つの特徴を有する語、
文書の右上または左上に記載され、資料の送付先または閲覧者を示す語、
箇条書きを示す所定の文字が行頭についており、所定の文字数以下の語、および
所定の括弧で括られた所定の文字数以下の語、
のいずれかである、
ことを特徴とする。
前記特徴ベクトル生成ステップにおいて、前記例題文書全体に含まれる前記特徴語に基づいて前記例題文書の特徴ベクトルを求め、前記反例候補文書全体に含まれる前記特徴語に基づいて前記反例候補文書の特徴ベクトルを求めることを特徴とする。
前記特徴ベクトル生成ステップにおいて、前記例題文書におけるレイアウト上特徴のある語に含まれる前記特徴語に基づいて前記例題文書の特徴ベクトルを求め、前記反例候補文書におけるレイアウト上特徴のある語に含まれる前記特徴語に基づいて前記反例候補文書の特徴ベクトルを求めることを特徴とする。
前記反例候補文書提示ステップにおいて、特徴ベクトルの類似度が高い反例候補文書から順番に利用者に提示されることを特徴とする。
まず、利用者は分類されるカテゴリの文書(以下、例題文書という。)を収集する(S101)。例題文書は。例えばオフィス文書である。カテゴリとしては、契約文書、企画提案文書、見積書、システム提案資料、研究報告書、議事録などがある。本発明では、一つのカテゴリに属する文書の構成は、ほぼ同一であることを前提としている。ここで構成とは、文書に含まれる章/セクション/項目のことである。たとえば、議事録なら、タイトル、出席者、日時、場所、議事録配布先、決定事項、議事内容などの項目がある。例題文書は文書分類システムが学習する際の正例のデータとなる。
次に、利用者は例題文書を文書分類システムに入力する(S102)。
文書分類システムは、入力された例題文書に含まれるレイアウト上特徴を有する語の中から特徴語を抽出する。更に、文書分類システムは、分類されるカテゴリに属さず学習の反例となる文書の候補(以下、反例候補文書という。)を所定の記憶装置に蓄積されている既存文書の中から検索して、画面に表示し、利用者に選択を促す(S103)。
利用者は、画面に表示された反例候補文書の中から、分類されるカテゴリに属さない反例となる文書(以下、反例文書という。)を選択する(S104)。
文書分類システムは、特徴語に基づいて例題文書と反例文書の特徴ベクトルを生成する。そして、文書分類システムは、生成された例題文書と反例文書の特徴ベクトルに基づいて分類対象の文書(以下、分類対象文書という。)が分類されるカテゴリに属するか否かを判定するための分類パラメータを生成する(S105)。
上述した学習の後、文書分類システムは、生成された分類パラメータを用いて分類対象文書をカテゴリに分類する。
コンピュータ100は、CPU(Central Processing Unit)110と、メモリ120と、記憶部130と、入力部140と、表示部150とを有している。
メモリ120は、RAM(Random Access Memory)やROM(Read Only Memory)等で構成される。メモリ120は、文書分類プログラム200を記憶している。CPU110が、文書分類プログラム200を実行することにより、後述する第1の実施形態または第2の実施形態に係る文書分類システムの機能が実現される。
記憶部130は、ハードディスク装置等の磁気ディスク装置やDVD(Digital Versatile Disc)等の光ディスク装置等で構成される。記憶部130は、例題文書310と、既存文書320と、分類対象文書330とを記憶する。
入力部140は、キーボードやマウス等で構成される。入力部140は、利用者による操作を受けつける。
表示部150は、ディスプレイやプリンタ等で構成される。表示部150は、例えば、分類対象文書330が分類されたカテゴリ等を表示する。
文書分類システム101Aは、学習器210Aと、分類器220Aとを有する。
学習器210Aは、例題文書310から特徴語を抽出する。そして、学習器210Aは、抽出された特徴語に基づいて正例となる複数の例題文書310の特徴ベクトルと、既存文書320の中から選択された反例となる複数の反例文書の特徴ベクトルを生成する。
学習器コア211は、学習器210Aの一部であり、学習器210Aが生成した特徴ベクトルを入力とし、分類パラメータを生成する。
分類器220Aは、学習器210Aから渡された特徴語等を参照して、分類対象文書330の特徴ベクトルを生成する。
分類器コア221は、分類器220Aの一部であり、学習器210Aから渡された分類パラメータと分類器220Aが生成した特徴ベクトルとを入力とし、分類されるカテゴリに属するか否かを判定する。
学習器210Aは、まず、分類されるカテゴリに属する正例の例題文書310から、そのカテゴリの特徴語を抽出する(S201)。ここで、特徴語は、例題文書310の構成を示す文字列であり、以下の特徴語の例(1)〜(7)に示すような文書のレイアウト上特徴のある語である。
(1)文書タイトルのように、文書の最初のページの中央または上部中央に表われ、文字サイズが大きかったり、目立つ色が使用されていたりする語
(2)見出し語のように、項目番号が割り振らており、所定の文字数以下の語
(3)文書が所定の帳票のフォーマットを有する場合、その帳票に現れる帳票名称や項目名
(4)他の文字に比べて文字サイズが大きかったり、イタリック体であったり、下線が引いてあったり、強調文字(太字)が使用されていたり、他の文字に使われている色と異なる目立つ色であったり、他の文字に使われているフォントと異なるフォントであったりというレイアウト上の特徴の少なくとも1つを有する語
(5)文書の右上または左上に記載され、XXXX会議資料、XXXX提出、XXXX御中、XXXX様などのように、資料の送付先または閲覧者を示す語
(6)番号、「・」、「●」等の箇条書きを示す文字が行頭についており、所定の文字数以下の語
(7)[発明の開示]のように、[]『』などの括弧で括られた所定の文字数以下の語
なお、「文字サイズ、下線付き、項目番号の有無等」をパラグラフや文字列のスタイルといい、「右上、左上、真ん中上部のような文字列のページ上の位置」をレイアウトという場合もあるが、本明細書と特許請求の範囲では、レイアウトという用語はスタイルを含むものとして用いる。
文字や文字列のフォント情報や位置情報を参照することで、このようなレイアウト上の特徴を持つ語を正例の例題文書310から抽出することができるのは明らかであり、そのアルゴリズムの説明は省略する。
文書のタイトルも特徴語となりえるが、タイトルには、第X回、YYYY/MM/DDなど、回数や日付を含む場合が多く、これらを除いたものを特徴語とする。
また、上述した特徴語の例(5)に示した、XXXX提出、XXXX御中、XXXX様などの例では、提出/御中/様などの部分を除いたものを特徴語とする。
学習器210Aは、正例である各例題文書310の特徴ベクトルと利用者によって選択された各反例文書の特徴ベクトルとを生成する(S204)。次に、学習器210Aは、各例題文書310の特徴ベクトルと各反例文書の特徴ベクトルとを学習器コア211に与え、各例題文書310の特徴ベクトルと各反例文書の特徴ベクトルに基づいて分類パラメータを求める(S205)。
学習器コア211自体は本発明の対象外であり、詳細は省略する。代表的学習器コアとしてSVMがある。
学習器コア211に入力される特徴ベクトルは、例えば、図6に示すように文書全体に各特徴語が含まれるか否かを示す0/1のベクトルデータや、図7に示すように文書全体に含まれる語に対する各特徴語が占める割合のベクトルデータである。図6のベクトルデータは、環境対策会議議事録、日時、場所、出席者、決定事項、議事内容という6つの特徴語の有無を示す0/1が並んでいる。また、図7のベクトルデータは、文書全体に含まれる語に占めるこれら6つの特徴語の割合が並んでいる。図6と図7のベクトルデータは、両方とも第5の要素が0となっているが、これは文書中に5番目の特徴語(決定事項)が含まれないことを示している。
最後に、学習器210Aは、特徴語と含有パラメータと分類パラメータを分類器220に渡す(S206)。
分類器220Aは、学習器210Aから渡された各特徴語と同一の特徴語を分類対象文書330から抽出し、特徴ベクトルを生成する(S301)。分類器220Aによる特徴ベクトルの生成方法は、上述した学習器210Aでの生成方法と同じである。
次に、分類器220Aは、抽出した特徴ベクトルが含有パラメータを満たすか検査し、満たさない場合(S302:No)、分類されるカテゴリに属さないと判定する(S303)。
一方、特徴ベクトルが含有パラメータを満たす場合(S302:Yes)には、分類器220Aは、ステップS301で生成した特徴ベクトルと、学習器210Aから渡された分類パラメータとを分類器コア221に与えて、分類対象文書330が分類されるカテゴリに属するか否か分類器コア221に判定させる(S304)。
分類器コア221は、ステップS301で生成した分類対象文書330の特徴ベクトルと、学習器210Aから渡された分類パラメータとに基づいて分類対象文書330が分類されるカテゴリに属するか否か判定する。なお、学習器コア210と同様に分類器コア220も本発明の対象外であり、代表的分類器コアもSVMである。ただし、入力データに当たる特徴ベクトルは本発明に含まれる。
なお、ステップS302とステップS303を省略することもできる。すなわち、ステップS301で生成した特徴ベクトルが含有パラメータを満たさない場合にも、特徴ベクトルを分類器コア221に与えて、分類対象文書330が分類されるカテゴリに属さないことを分類器コア221に判定させることもできる。
学習器210Aは、各例題文書301と各反例候補文書の特徴ベクトルを生成する(S401)。
学習器210Aは、各特徴ベクトルを長さ1に正規化する(S402)。具体的には、各特徴ベクトルの長さを求め、求めた長さで、各特徴ベクトルの要素を割る。
学習器210Aは、反例候補文書の正規化された特徴ベクトル毎に、各例題文書301の正規化された特徴ベクトルとの平均距離を求める(S403)。
学習器210Aは、各例題文書301の正規化された特徴ベクトルとの平均距離が短いほど特徴ベクトルの類似度が高いとみなし、平均距離の短いものから順番に反例候補文書を表示する(S404)。
なお、特徴ベクトルの長さは、特徴ベクトルの各要素の自乗の和の平方根を求めるのが一般的であるが、これに限る必要はない。反例候補文書の正規化された特徴ベクトルと例題文書の正規化された特徴ベクトルとの距離についても同様である。
また、上記説明では、各例題文書301の正規化された特徴ベクトルとの平均距離が短いものから順番に反例候補文書を表示したが、平均距離に替えて最短距離の短いものから表示してもよい。
更に、ステップS402で各特徴ベクトルを長さ1に正規化することなく、平均距離ないしは最短距離の短いものから表示することとしてもよい。
また、特徴ベクトル間の距離ではなく、特徴ベクトルのなす角度が小さいものほど特徴ベクトルの類似度が高いとみなし、特徴ベクトルのなす角度が小さいものから表示することとしてもよい。
更に、特徴ベクトルの類似度に基づいて反例候補文書の表示順序を決めるのではなく、特徴語を多く含む文書を上位に表示することとしてもよい。
ウィンドウ右側のスクロールバー401を下に下ろすことで、平均距離が遠い文書名を表示することができる。マウスポインタ402で文書名を指定してマウスをクリックすることで、指定された文書を反例文書として選択することができる。また、マウスの別のクリック操作をすることで、文書のサムネール403を表示し、文書名だけではなく文書イメージを参考にして反例文書を選択することができる。
図10では、各例題文書301の正規化された特徴ベクトルとの平均距離が短いものから順番に表示していたが、図11では、平均距離が一定値以下ないしは短いものから上位100番目までの文書などと、何らかの条件で絞って、反例候補文書を表示する。
絞った後の表示方法は、Windows(登録商標)のExplorerなどOSに付属するファイル管理ツールと同様である。左側ウィンドウ501には反例候補文書のファイルがあるフォルダを階層的に表示する。スクロールバー503を用いて左側ウィンドウ501をスクロールすることができる。
フォルダやファイルの表示順序は、フォルダ名やファイル名の順番に表示する方法もあるが、平均距離の短い反例候補文書から表示することも可能である。すなわち、一つのフォルダ内で平均距離の短い反例候補文書からファイルを表示したり、下位のフォルダも含めてフォルダに含まれるファイルで一番短い平均距離をそのフォルダの平均距離とみなして、短い平均距離のフォルダから表示したりする方法もある。
通常のベクトルの内積は、二つのベクトルの対応する要素の積の和である。3次元のベクトルx = (x1, x2, x3)とy = (y1, y2, y3)の内積x・yはx・y = x1 * y1 + x2 * y2 + x3 * y3で計算できる。一方でSVMの2次の多項式カーネルK(x, y)での内積はK(x, y) = (x・y)^2 = (x1 * y1 + x2 * y2 + x3
* y3)^2であり、ガウスカーネルK(x, y)での内積はK(x,
y) = exp(-(|x-y|^2)/2(s^2)) = exp(-((x1-y1)^2 + (x2-y2)^2 + (x3-y3)^2)/2(s^2))である。他のカーネルも知られているが、ここでは一般化してxとyのカーネルにおける内積をK(x,
y)と表す。すると、xとyのカーネルに応じたなす角のコサインの値はK(x, y)/(K(x, x)*K(y, y))^(1/2)であり、この値が大きいほどカーネルに応じたxとyとがなす角が小さい。
図12は、本発明の第2の実施形態に係る文書分類システム101Bの構成の一例を示す。
文書分類システム101Bは、学習器210Bと、分類器220Bとを有する。なお、学習器コア211と分類器コア221は、文書分類システム101Aと文書分類システム101Bとで同一である。
文書分類システム101Bは、カテゴリが複数ある場合に分類対象文書330が属するカテゴリを効率的に決定する。
学習器210Bは、複数のカテゴリ全てについて、それぞれ例題文書310から特徴語を抽出し、特徴語の含有パラメータを定める。そして、学習器210Bは、複数のカテゴリ全てについて、正例となる各例題文書310の特徴ベクトルと、既存文書320の中から選択された反例となる各反例文書の特徴ベクトルを生成する。
学習器コア211は、複数のカテゴリ全てについて、学習器210Aが生成した特徴ベクトルを入力とし、分類パラメータを生成する。
分類器220Bは、学習器210Bから渡された特徴語と含有パラメータを参照して、分類対象文書330が属する可能性のある各カテゴリについて、分類対象文書330の特徴ベクトルを生成する。
分類器コア221は、学習器210Bから渡された分類パラメータと分類器220Bが生成した特徴ベクトルとを入力とし、分類対象文書330が属する可能性のある各カテゴリに属するか否かを判定する。
学習器210Bは、複数のカテゴリ全てについて、特徴語と含有パラメータと分類パラメータとを求め、これらを分類器220に渡す(S501)。
分類器220Bは、複数のカテゴリ全てについて、学習器210から渡された各特徴語と同一の特徴語を分類対象文書330から抽出する(S502)。
次に、分類器220Bは、複数のカテゴリ全てについて、分類対象文書330から抽出した特徴語が学習器210Bから渡された含有パラメータを満たしているか否か検査し、満たしているカテゴリ、すなわち、分類対象文書330が属する可能性のあるカテゴリを求める(S503)。
そして、分類器220Bは、ステップS503で求められた分類対象文書330が属する可能性のあるカテゴリ毎に特徴ベクトルと分類パラメータを分類器コア221に与え、カテゴリに属するか否か判定する(S504)。
また、学習に必要なカテゴリに属さない反例候補文書を記憶装置に蓄積されている既存文書から検索して表示することで、カテゴリに属さない文書の収集の手間を削減することができる。また、表示の順序として、特徴ベクトルの類似度が高い反例候補文書や特徴語を多く含む反例候補文書を上位に表示することで、特徴語の出現の仕方が正例の例題文書に類似しているのにもかかわらず、分類されるカテゴリに属さない文書を利用者に選択させることができ、より高精度の学習が可能となる。
Claims (5)
- 分類されるカテゴリに属する正例の例題文書から、文書のレイアウト上特徴のある語に基づいて特徴語を抽出する特徴語抽出ステップと、
前記特徴語に基づいて、分類されるカテゴリに属する文書中に含まれていなければならない特徴語の度合いを定める含有パラメータを求める含有パラメータ生成ステップと、
記憶部に蓄積されている既存文書の中から、前記含有パラメータを満たす特徴語を含む文書を検索し、検索された文書から前記例題文書を除いた文書を反例候補文書として利用者に提示する反例候補文書提示ステップと、
前記特徴語に基づいて、前記例題文書の特徴ベクトルと、利用者によって前記反例候補文書の中から選択された反例文書の特徴ベクトルとを生成する特徴ベクトル生成ステップと、
生成された前記例題文書の特徴ベクトルと前記反例文書の特徴ベクトルとに基づいて分類パラメータを求める分類パラメータ生成ステップと、
前記特徴語と前記分類パラメータとに基づいて分類対象の文書が前記分類されるカテゴリに属するか否かを判定する文書分類判定ステップと、
を備えることを特徴とする文書分類方法。 - 前記レイアウト上特徴のある語は、
文書の最初のページの中央または上部中央に表われ、文字サイズが大きい語、および/または目立つ色が使用されている語、
項目番号が割り振らており、所定の文字数以下の語、
前記例題文書が所定の帳票のフォーマットを有する場合、当該帳票に現れる帳票名称や項目名、
他の文字に比べて文字サイズが大きいという特徴、イタリック体であるという特徴、下線が引いてあるという特徴、強調文字が使用されているという特徴、他の文字に使われている色と異なる目立つ色であるという特徴、および他の文字に使われているフォントと異なるフォントであるという特徴のうちの少なくとも1つの特徴を有する語、
文書の右上または左上に記載され、資料の送付先または閲覧者を示す語、
箇条書きを示す所定の文字が行頭についており、所定の文字数以下の語、および
所定の括弧で括られた所定の文字数以下の語、
のいずれかである、
ことを特徴とする請求項1に記載の文書分類方法。 - 前記特徴ベクトル生成ステップにおいて、前記例題文書全体に含まれる前記特徴語に基づいて前記例題文書の特徴ベクトルを求め、前記反例候補文書全体に含まれる前記特徴語に基づいて前記反例候補文書の特徴ベクトルを求めることを特徴とする請求項1または2に記載の文書分類方法。
- 前記特徴ベクトル生成ステップにおいて、前記例題文書におけるレイアウト上特徴のある語に含まれる前記特徴語に基づいて前記例題文書の特徴ベクトルを求め、前記反例候補文書におけるレイアウト上特徴のある語に含まれる前記特徴語に基づいて前記反例候補文書の特徴ベクトルを求めることを特徴とする請求項1または2に記載の文書分類方法。
- 前記反例候補文書提示ステップにおいて、特徴ベクトルの類似度が高い反例候補文書から順番に利用者に提示されることを特徴とする請求項1ないし4のいずれか1項に記載の文書分類方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011199075A JP5616865B2 (ja) | 2011-09-13 | 2011-09-13 | 文書分類方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011199075A JP5616865B2 (ja) | 2011-09-13 | 2011-09-13 | 文書分類方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013061757A true JP2013061757A (ja) | 2013-04-04 |
JP5616865B2 JP5616865B2 (ja) | 2014-10-29 |
Family
ID=48186391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011199075A Expired - Fee Related JP5616865B2 (ja) | 2011-09-13 | 2011-09-13 | 文書分類方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5616865B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018028065A1 (zh) * | 2016-08-11 | 2018-02-15 | 中兴通讯股份有限公司 | 一种短信息分类方法、装置及计算机存储介质 |
JP2019530063A (ja) * | 2016-08-09 | 2019-10-17 | リップコード インコーポレイテッド | 電子記録のタグ付けのためのシステム及び方法 |
KR102432891B1 (ko) * | 2021-08-31 | 2022-08-18 | 주식회사 비아엘 | 인공지능 기반 스마트 컨트랙트 레포지토리 구축 방법 및 시스템 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003076975A (ja) * | 2001-09-05 | 2003-03-14 | National Institute Of Advanced Industrial & Technology | データ分類方法、データ分類装置及びデータ分類プログラムを格納した記憶媒体 |
JP2006023968A (ja) * | 2004-07-08 | 2006-01-26 | Hitachi Ltd | 固有表現抽出方法および装置並びにそれらに用いるプログラム |
WO2010103916A1 (ja) * | 2009-03-13 | 2010-09-16 | コニカミノルタホールディングス株式会社 | 文書の特徴語提示装置及び特徴語の優先度付与プログラム |
-
2011
- 2011-09-13 JP JP2011199075A patent/JP5616865B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003076975A (ja) * | 2001-09-05 | 2003-03-14 | National Institute Of Advanced Industrial & Technology | データ分類方法、データ分類装置及びデータ分類プログラムを格納した記憶媒体 |
JP2006023968A (ja) * | 2004-07-08 | 2006-01-26 | Hitachi Ltd | 固有表現抽出方法および装置並びにそれらに用いるプログラム |
WO2010103916A1 (ja) * | 2009-03-13 | 2010-09-16 | コニカミノルタホールディングス株式会社 | 文書の特徴語提示装置及び特徴語の優先度付与プログラム |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019530063A (ja) * | 2016-08-09 | 2019-10-17 | リップコード インコーポレイテッド | 電子記録のタグ付けのためのシステム及び方法 |
JP7189125B2 (ja) | 2016-08-09 | 2022-12-13 | リップコード インコーポレイテッド | 電子記録のタグ付けのためのシステム及び方法 |
US11580141B2 (en) | 2016-08-09 | 2023-02-14 | Ripcord Inc. | Systems and methods for records tagging based on a specific area or region of a record |
WO2018028065A1 (zh) * | 2016-08-11 | 2018-02-15 | 中兴通讯股份有限公司 | 一种短信息分类方法、装置及计算机存储介质 |
KR102432891B1 (ko) * | 2021-08-31 | 2022-08-18 | 주식회사 비아엘 | 인공지능 기반 스마트 컨트랙트 레포지토리 구축 방법 및 시스템 |
KR20230032903A (ko) * | 2021-08-31 | 2023-03-07 | 주식회사 비아엘 | Bi-LSTM 기반의 인공신경망을 이용한 스마트 컨트랙트 레포지토리 구축 방법 및 시스템 |
KR20230032904A (ko) * | 2021-08-31 | 2023-03-07 | 주식회사 비아엘 | 군집 좌표 매핑 기반 정의서 분류를 이용한 스마트 컨트랙트 레포지토리 구축 방법 및 시스템 |
KR102573647B1 (ko) * | 2021-08-31 | 2023-09-06 | 주식회사 비아엘 | Bi-LSTM 기반의 인공신경망을 이용한 스마트 컨트랙트 레포지토리 구축 방법 및 시스템 |
KR102573652B1 (ko) * | 2021-08-31 | 2023-09-06 | 주식회사 비아엘 | 군집 좌표 매핑 기반 정의서 분류를 이용한 스마트 컨트랙트 레포지토리 구축 방법 및 시스템 |
Also Published As
Publication number | Publication date |
---|---|
JP5616865B2 (ja) | 2014-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10354419B2 (en) | Methods and systems for dynamic graph generating | |
US7788086B2 (en) | Method and apparatus for processing sentiment-bearing text | |
US7788087B2 (en) | System for processing sentiment-bearing text | |
JP6782858B2 (ja) | 文献分類装置 | |
KR101321309B1 (ko) | 문서 내의 목록들의 재구성 | |
JP4682284B2 (ja) | 文書差分検出装置 | |
Murdock et al. | Visualization techniques for topic model checking | |
JP6370434B1 (ja) | 企業情報提供システムおよびプログラム | |
JP2014067154A (ja) | 文書分類支援装置、方法及びプログラム | |
JP5215046B2 (ja) | 文書分類装置 | |
JP5616865B2 (ja) | 文書分類方法 | |
Meuschke et al. | A benchmark of pdf information extraction tools using a multi-task and multi-domain evaluation framework for academic documents | |
JP5141152B2 (ja) | テキスト解析プログラム、テキスト解析方法、およびテキスト解析装置 | |
JP6583899B1 (ja) | コンピュータ、データ要素提示方法、及びプログラム。 | |
Sara-Meshkizadeh et al. | Webpage classification based on compound of using HTML features & URL features and features of sibling pages | |
WO2022038821A1 (ja) | 表構造認識装置及び方法 | |
JPH1115835A (ja) | 分類情報提示装置及び分類情報提示プログラムを記録した媒体 | |
JP2016027493A (ja) | 文書分類支援装置、方法及びプログラム | |
Koci et al. | Xlindy: Interactive recognition and information extraction in spreadsheets | |
JP2009252185A (ja) | 情報検索装置、情報検索方法、制御プログラム及び記録媒体 | |
JP6226258B1 (ja) | 特許文献集合の分析方法 | |
KR101078978B1 (ko) | 문서 분류 시스템 | |
Kowalchuk | Implementing a drilling reporting data mining tool using natural language processing sentiment analysis techniques | |
Zaman et al. | Knowledge Mapping for Research Papers | |
JP2011070529A (ja) | 文書処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131227 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140530 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140715 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140818 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140909 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140912 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5616865 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20150401 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |