JP2014067154A - 文書分類支援装置、方法及びプログラム - Google Patents

文書分類支援装置、方法及びプログラム Download PDF

Info

Publication number
JP2014067154A
JP2014067154A JP2012210988A JP2012210988A JP2014067154A JP 2014067154 A JP2014067154 A JP 2014067154A JP 2012210988 A JP2012210988 A JP 2012210988A JP 2012210988 A JP2012210988 A JP 2012210988A JP 2014067154 A JP2014067154 A JP 2014067154A
Authority
JP
Japan
Prior art keywords
document
information
documents
feature
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2012210988A
Other languages
English (en)
Inventor
Mitsuo Nunome
光生 布目
Masaru Suzuki
優 鈴木
Kenta Cho
健太 長
Masayuki Okamoto
昌之 岡本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2012210988A priority Critical patent/JP2014067154A/ja
Priority to PCT/JP2013/075607 priority patent/WO2014050774A1/en
Priority to CN201380045242.6A priority patent/CN104620258A/zh
Publication of JP2014067154A publication Critical patent/JP2014067154A/ja
Priority to US14/668,638 priority patent/US20150199567A1/en
Abandoned legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】手書き文書の自動的な分類を支援する。
【解決手段】実施の形態によれば、文書入力部と、抽出部と、特徴量抽出変換部と、類似性検出部と、算定部と、格納部と、を備えている。文書入力部は、ストローク情報を入力文書として複数の文書を取得する。抽出部は、前記ストローク情報から、図形情報、アノテーション情報、及びテキスト情報のうちの1以上を抽出する。特徴量抽出変換部は、抽出された前記情報から、文書間の類似性を比較可能にする特徴量を算出する。類似性検出部は、クラスタの特徴を示す、前記特徴量を含む代表ベクトルをそれぞれ含む複数のクラスタを設定し、前記複数の文書のそれぞれがどのクラスタに属するかを算出する。算定部は、前記代表ベクトルのそれぞれに含まれる該代表ベクトルを特徴づける1以上の特徴量を分類ルールとして算定する。格納部は、前記分類ルールを格納する。
【選択図】図1

Description

本発明の実施形態は、手書きの文書に対する文書分類支援装置、方法及びプログラムに関する。
近年、タブレット型端末が普及し始めており、これに伴って入力デバイスとしてのペン入力装置が注目されている。こうした環境が用意されれば、ユーザは慣れ親しんだ紙とペンを電子的に模倣した直感的な入力装置によって、いつでも手軽に文書を作成できる。しかし、従来のテキストデータとは異なり、作成した文書を簡単に検索したりコピーペーストなどで再利用することが難しくなっている。
特に情報が、筆跡データ(ストロークデータ)として保存されるため、テキスト文書で活用されていた全文検索などが適用できないことや、仮にストローク認識技術を適用しても、テキスト認識には誤りが存在するためユーザの意図している文書を正しく探すことが困難である。
こうした状況に対応して文書分類を実現するために、タブレットに入力された手書き文書に対して、ストロークの方向及び長さ、又は曲線の有無などのストロークデータを検出し、対応する事前登録済みキーワード(“図形主体の文書”、“書き手は子供”など)をファジイ推論で割り当てることが提案されている。その結果、ストロークからの文字認識結果を必要とせずに、文書特徴を活用しながらの文書分類が可能になる。
特開平9−319764号公報
しかしこのような、事前定義されたストローク長や方向、曲線の有無などをパターン化して判断する方法では、設計時に想定しなかったようなユーザの自由な書式で書かれたバリエーションを吸収できない。さらに、ユーザのニーズに沿った、きめ細かな分類カテゴリの新設や追加が困難である。
一方、ストロークからの手書文字認識結果の利用を試みた場合にも、単純なクラスタリング手法などでは、元のデータに認識誤りテキストが含まれているため、各クラスタの代表語が、ユーザにとってわかりにくい場合がある。さらに、一般的なクラスタリング手法を用いてしまうと、使い始めなどの初期段階では、大量の文書が存在しないため、分類精度が出にくいという問題もある。
そこで、発明が解決しようとする課題は、上記の事情に鑑みてなされてものであり、手書き文書の自動的な分類を支援するための文書分類支援装置、方法及びプログラムを提供することにある。
実施の形態によれば、文書入力部と、抽出部と、特徴量抽出変換部と、類似性検出部と、算定部と、格納部と、を備えている。文書入力部は、ストローク情報を入力文書として複数の文書を取得する。抽出部は、前記ストローク情報から、図形情報、アノテーション情報、及びテキスト情報のうちの1以上を抽出する。特徴量抽出変換部は、抽出された前記情報から、文書間の類似性を比較可能にする特徴量を算出する。類似性検出部は、クラスタの特徴を示す、前記特徴量を含む代表ベクトルをそれぞれ含む複数のクラスタを設定し、前記複数の文書のそれぞれがどのクラスタに属するかを算出する。算定部は、前記代表ベクトルのそれぞれに含まれる該代表ベクトルを特徴づける1以上の特徴量を分類ルールとして算定する。格納部は、前記分類ルールを格納する。
実施の形態に係る文書分類支援装置のブロック図。 図1の候補算定部を候補提示・選択部に変更した場合での実施の形態に係る文書分類支援装置のブロック図。 ルール構築をする場合での図2の文書分類支援装置の動作の一例を示すフローチャート。 文書の分類を行う場合での実施の形態に係る文書分類支援装置の動作の一例を示すフローチャート。 図1及び図2の図形特徴抽出部の動作の一例を示すフローチャート。 図1及び図2の文書特徴量抽出・変換部の動作の一例を示すフローチャート。 図1及び図2の類似性検出部の動作の一例を示すフローチャート。 文書間の類似度の定義の一例について示した図。 図形特徴の類似性の定義を説明するための文書の一例を示す図。 類似度重み付けの調整ユーザインタフェースの一例を示した図。 図1の候補算定部の動作の一例を示すフローチャート。 図2の候補提示・選択部の動作の一例を示すフローチャート。 図2の候補提示・選択部での分類候補の提示画面の一例を示す図。 図1の分類推定部の動作の一例を示すフローチャート。
以下、図面を参照しながら実施形態に係る文書分類支援装置、方法及びプログラムについて詳細に説明する。なお、以下の実施形態では、同一の番号を付した部分については同様の動作を行うものとして、重ねての説明を省略する。
実施の形態に係る文書分類支援装置について図1を参照して説明する。
本実施の形態の文書分類支援装置は、文書入力部101、図形特徴抽出部102、文書特徴量抽出・変換部103、類似性検出部104、候補算定部105、分類ルール格納部106、及び分類推定部107を備えている。文書分類支援装置は、(1)ルール構築を行う場合と、(2)新規文書を入力して文書の分類を行う場合とで使用される。(1)の場合には、文書入力部101、図形特徴抽出部102、文書特徴量抽出・変換部103、類似性検出部104、候補算定部105、分類ルール格納部106が使用され、(2)の場合には、文書入力部101、図形特徴抽出部102、文書特徴量抽出・変換部103、分類ルール格納部106、分類推定部107が使用される。(1)に代わって、(3)ユーザに候補提示をしてルール構築をする場合もあるが、この場合については図2を参照して後に説明する。
文書入力部101は、手書き文書を取得する。上記(1)または(3)の場合には文書入力部101は、学習用の蓄積された大量の手書き文書からなる手書き文書集合(例えばユーザの作成した文書集合)を取得する。上記(2)の場合には文書入力部101は、分類されるべき新たな文書を取得する。ここで、新たな文書とは、テキスト文書ではなく、文字認識される前の、筆跡データ(ストロークデータ)の集合、すなわち、ストローク情報である。
図形特徴抽出部102は、(1)、(2)及び(3)のいずれの場合でも使用され、文書入力部101で取得した文書から、この文書に含まれる図形の特徴量や文字認識結果を抽出する。文字認識結果は、アノテーション情報、テキスト文字列を含む。アノテーション情報には例えば、二重線・囲みなどのアノテーション記号に関する情報である。図形特徴抽出部102は、抽出した、図形特徴量と文字認識結果を文書(または文書中のページ)に対応づける。図形特徴抽出部102は、各文書での図形や表の有無、二重線・囲みなどのアノテーション記号のバリエーション、出現する文字列や単語などを抽出する。
文書特徴量抽出・変換部103は、(1)、(2)及び(3)のいずれの場合でも使用され、図形特徴抽出部102で抽出された情報から、文書間の類似度を比較可能にするための特徴量を算出する。文書特徴量抽出・変換部103はここまでの抽出結果を比較可能な特徴量として変換する。文書特徴量抽出・変換部103は例えば、テキスト領域の論理要素(例えば文書のレイアウトに関する要素)を抽出するとともに、図形特徴抽出部102で抽出された文字認識結果からの文書特徴量と、図形特徴抽出部102で抽出した図形の特徴量とを比較しやすい特徴量に変換する。文書特徴量抽出・変換部103は、例えば文書ベクトルに変換する。
類似性検出部104は、上記(1)または(3)の場合にのみ機能し、文書特徴量抽出・変換部103で変換された大量の文書に対応する複数の特徴量に基づいて、文書間の類似性を算出する。類似性検出部104は、これまで抽出された全ての特徴量を使用して類似性を算出する。
候補算定部105は、上記(1)の場合にのみ機能し、類似性検出部104で類似性に基づいてグルーピングされた結果から、その軸を分類候補とし最も高いランクの候補を算定する。候補算定部105は、この最も高いランクの候補を分類ルールとして決定し、分類ルール格納部106に格納する。分類ルールとは、選択した(複数の)候補とそれらの関係を示し、例えば特徴量と比較可能な数値が対応づけてある関係である。
分類ルール格納部106は、上記(1)または(3)の場合には、分類条件を組み合わせて分類ルールとして格納する。分類ルール格納部106は、上記(2)の場合には分類推定部107に参照される。
分類推定部107は、上記(2)の場合のみ機能し、変換された特徴量と、分類ルール格納部106に蓄積されている分類ルールとを照合する。そして分類推定部107は、照合の結果、新規文書を予め定められているカテゴリへ分類する。
ここで、図1の文書分類支援装置の候補算定部105を候補提示・選択部201に変更した場合の一例について図2を参照して説明する。図2は、(1)に代わって、(3)ユーザに候補提示をしてルール構築をする場合のブロック図である。
候補提示・選択部201は、類似性検出部104で類似性に基づいてグルーピングされた結果から、その軸を分類候補として提示する。ユーザがこの提示された分類候補を参照して分類ルールを決定し、候補提示・選択部201が決定された分類ルールを分類ルール格納部106に格納する。
次に、(3)候補提示をしてルール構築をする場合の文書分類支援装置の動作の一例について図3を参照して説明する。
まず、文書入力部101が手書き文書集合を入力する。図形特徴抽出部102が、図形の特徴量、アノテーション情報、テキスト文字列を抽出する(ステップS301)。
文書特徴量抽出・変換部103が、テキスト領域の論理要素を抽出するとともに、各抽出結果を特徴量に変換する(ステップS302)。
類似性検出部104が、全ての文書間の類似性(より具体的には類似度)を算定する(ステップS303)。
候補提示・選択部201が、算定した類似度に基づき文書をグルーピングし、グルーピングの手がかりとなっている特徴量を提示する(ステップS304)。
続いて、候補提示・選択部201が、提示した複数の候補から少なくとも1つの候補をユーザに選択させる(ステップS305)。そして、選択した(通常は複数の)候補とそれらの関係を分類ルール格納部106に分類ルールとして蓄積してゆく(ステップS306)。
次に、(2)文書の分類を行う場合での動作の一例について図4を参照して説明する。
まず、文書入力部101が新たに分類対象とする新規文書を読み込む(ステップS401)。
図形特徴抽出部102が、新規文書から図形特徴、アノテーション情報、テキスト文字列を抽出する(ステップS402)。
文書特徴量抽出・変換部103が、テキスト領域の論理要素を抽出するとともに、この論理要素を含みここまでに得られた各抽出結果を類似度演算可能な特徴量に変換する(ステップS403)。
分類推定部107が、分類ルール格納部106に蓄積されている分類ルールを読み込み(ステップS404)、分類推定部107が、分類対象となる新規文書の特徴量と分類ルールとを照らしあわせて、最も適切なカテゴリへ分類する(ステップS405)。
次に、図形特徴抽出部102の動作の一例について図5を参照して説明する。
まず、文書入力部101から入力した文書から、書かれている内容をストローク情報として取り出し(ステップS501)、大局的領域判定を行う(ステップS502)。大局的領域判定では、ページ全体に対してストロークが存在する領域を検出し、各セグメント領域に文字列が含まれているか否かを簡易検出しながら対象領域を拡大して、ページ全体に対し、文字列が含まれているセグメント群、及び文字列が含まれていないセグメント群(図形領域と仮定する)を区別する検出をする(ステップS503)。図形領域が存在するかどうかを判定し、図形領域が存在すると判定した場合にはステップS505へ進み、図形領域が存在しないと判定した場合にはステップS506へ進む(ステップS504)。
図形領域が存在する場合には、図形領域に対し、線の交差や閉路の有無などの図形特徴情報と、事前に定義されているモデルとを参照して、該当する図形があればそれらを抽出し特定する(ステップS505)。図形領域が存在しないと判定した場合またはステップS505の後にはテキスト領域が存在するかどうかを判定し、テキスト領域が存在すると判定した場合にはステップS507へ進み、テキスト領域が存在しないと判定した場合にはステップS508へ進む(ステップS506)。
テキスト領域が存在すると判定した場合には、テキスト領域に文字認識処理を適用する(ステップS507)。手書き文字認識処理も図形抽出と同様に、ストロークの特徴量と文字認識用のモデルを照らしあわせて最も尤度の高い文字列を認識結果として出力する。テキスト領域が存在しない場合は、この処理はスキップする。
最後に、抽出された基本図形と、テキスト情報とを入力文書(ページ情報)に対応づけて保存し、処理を終える(ステップS508)。テキスト情報は文字列のみからなる情報を示す。
次に、文書特徴量抽出・変換部103の動作の一例について図6を参照して説明する。
まず、図形特徴抽出部102までの処理の結果として得られた文書(ページ)内の特徴抽出結果を読み込む(ステップS601)。
テキスト情報に基づいて、論理要素、及びストロークの位置情報を検出する(ステップS602)。ここでの論理要素とは、主に行を粒度とする属性情報であり、隣接行との関係から、見出しや小見出し(タイトルやサブタイトル)の特徴、箇条書き(リスト)の要素であること、それらの組み合わせから章・節・小節などを想定した複数階層からなる階層構造、などの属性を意味している。
論理要素を検出するための方法はいくつか考えられるが、ここではその一例として、手書き文字認識結果を利用して、文字列により隣接行の類似性や独立性を判定することで、見出しやパラグラフの論理要素を検出する方法を述べる。
まず、見出し表記を特定する。ページ内に含まれる各行の平均的な文字列数と分散を求めておき、見出し行と見なせる適当なしきい値をヒューリスティックに設定しておく。また、前行や前々行に出現する空行の有無も条件として、判定の場合の重み付け係数として用いてもよい。次に、見出しとして判定された各行の関係性をみる。具体的には、見出し行冒頭の文字列が記号や数字の場合に、それらが類似しているか否かを見る。
以下、集合の各要素は見出し行と判定された各行の冒頭記号を枚挙したものとする。(例:{・,・}=黒中点で完全一致(類似性「高」),{(1),(2),(3)}=各行の冒頭記号で、3つの文字で2つ(小括弧)が一致(類似性「中」),{(1)、[A]}=0/3の記号が一致(類似性なし))
これらの類似性の判断には、単純な文字列距離を用いて一致率に応じて類似度の大中小をヒューリスティックに定めるなどの方法がある。さらに、比較対象文字列中に数字が出現している場合は、ページ冒頭からの順序を考慮し、その数字の変化が、カウンタとして増えているような場合は類似性が高いという補正を掛けてもよい。(例:{(1),(2),(3)}=数字がカウンタとして増えているため、類似度は「中」ではなく、「高」とする。)
以上のような見出しを検出し、それぞれの見出しの間隔(見出し間が、何行離れているか)によって、例えば2行以内であれば、それぞれの見出しとその間のテキスト要素を箇条書きリストとしておく、あるいは3行以上離れていれば、それぞれを章立て構造の見出しとして、見出し間の各行はパラグラフを示す領域としてまとめておく。以上の処理によって、各行の論理要素の、見出しやパラグラフ、箇条書きなどの検出と割り当て、が可能になる。
ここから図6に戻る。次に、文書内ではなく、複数文書間における情報を用いて明らかになる特徴量を抽出する(ステップS603)。具体的には、全文書(ページ)に対して、ページごとの文字数をカウントしたり、文字列n−gram、単語n−gram、それぞれのtf/idf値などを算出する。特徴量は例えば、タイトルがいくつあるか、箇条書きがいくつあるかを示す。
全体の統計量に基づいて、個別の文書に対する特徴量を算出する(ステップS604)。文書特徴量抽出・変換部103は、複数の文書から得られる統計量に応じて、図形情報、アノテーション情報、及びテキスト情報の1以上を新たに抽出してこれらの情報から特徴量を算出する。具体的には例えば、ページあたりに平均文字数を参考に、各ページの文字出現密度の偏りなどの統計量がこれに該当する。
最後に、ここまでに獲得した特徴量を文書ベクトルとして表現して処理を終える(ステップS605)。
次に、類似性検出部104の動作の一例について図7を参照して説明する。
まず、類似性検出のための初期パラメータを読み込む(ステップS701)。具体的には、初期クラスタ数の設定や、更新繰り返し処理の上限数などを設定する。
初期パラメータに基づいてランダムにn個の文書をピックアップする(ステップS702)。ここでは初期クラスタ数としてn個を定義していたものとする。
n個のそれぞれの文書を初期クラスタとして設定するとともにクラスタ重心として設定する(ステップS703)。
続いて、各クラスタの代表値と、すべての文書との類似度を計算し、各文書を最も類似度の高かったクラスタに割り当てる(ステップS704)。ここでクラスタの代表値は、代表的なベクトル(以下、代表ベクトルとも称す)を示す。後の図8に説明する例では、この代表ベクトルは3種類あり、図形特徴ベクトル、単語特徴ベクトル、論理要素特徴ベクトルである。この場合ステップS704では、これら3種類の代表ベクトルそれぞれによって類似度を算出して、これらの類似度を後述する式のようにα、β、γで重み付した値を最終的な類似度として、この類似度が最も大きいクラスタに文書を割り当てる。
次に、すべての文書のクラスタ割り当てが終了したら、各クラスタの重心を再計算する(ステップS705)。
そして、再計算されたクラスタ重心に基づいて、各クラスタの代表ベクトルと各文書の文書ベクトルとの類似度を計算し、各文書のクラスタ割り当てを再計算する(ステップS706)。ここで文書ベクトルとは、図8の例では図形特徴ベクトル、単語特徴ベクトル、論理要素特徴ベクトルの組を示す。各クラスタの代表ベクトルと各文書の文書ベクトルとの類似度を計算するとは、これら3種類の代表ベクトルそれぞれによって類似度を算出して、これらの類似度を後述する式のようにα、β、γで重み付した値を最終的な類似度として、この類似度を計算することである。
その結果、クラスタ割り当ての更新前後を通じて、各クラスタに含まれる文書集合に変更がない、または事前に指定された特定回数の更新処理が行われたかどうかを判定する(ステップS707)。文書集合に変更がないまたは特定回数の更新処理が行われたと判定した場合には、処理を完了する。文書集合に変更がないまたは特定回数の更新処理が行われたと判定されなかった場合には、ステップS705に戻りクラスタ重心の計算と各文書のクラスタ割り当て更新作業を繰り返す。
この各文書間での類似度の定義について図8を参照して説明する。
今、類似度を比較したい文書をA,Bとした場合に、この文書間の類似度は、DocSim(A,B)と表すものとして、図8に示すようにこの右辺はそれぞれ出現する図形特徴に基づく類似度、出現する文字列特徴に基づく類似度、出現する論理要素特徴に基づく類似度、で構成されるものとする。
図形特徴に基づく類似度を定める前に、まずある文書で抽出された基本図形の種別と大きさを次のように対応付けておくものとする。
基底の表現例:0000→上位二桁は個数、最下位は図形種別ID、十の位は大きさID
基本図形種別ID:{○,□,△}→{1,2,3}
大きさ定義ID:{行内,3行以内,5行以内,半ページ,全ページ}→{1,2,3,4,5}
さらに、図形特徴をベクトル表記するために、下記の9次元ベクトルを定義する。
中心位置:{左上,中央上,右上,左中央,中央,右中央,左下,中央下,右下}
この9次元ベクトルに対して、上記の基底情報を記述することで文書の図形特徴ベクトルを表現できる。ここで図9に示した図形特徴の類似性の定義のための文書例を元に説明する。例えば文書Aは、ページの左上に○、右中央付近に△が出現していると仮定すると、
文書Aの図形特徴ベクトル={0121,0,0,0,0,0123,0,0,0}
と表現される。
また、文書Bは、ページ左上に△、右中央に△、ページ左下に□が記載されていると仮定すると、
文書Bの図形特徴ベクトル={0123,0,0,0,0,0123,0122,0,0}
と表現できることになる。
FigSim(A,B)は、文書A,Bおいて、出現する図形特徴ベクトルの間で定義される類似度である。ここではFigSim(A,B)は例えばこれらの特徴ベクトルのコサイン類似度を算定することとすると、
FigSim(A,B)=(0121×0123+0+0+0+0+0123×0123+0×0122+0+0)/(0121+01231/2×(0123+0123+01221/2
=30012/(172.54×212.47)
=0.82
となりFigSimによる類似度が0.82であると算出できる。
同様にしてTermSim(A,B)は、文書A,Bおいて、出現する文字列特徴の単語特徴ベクトルの間に定義される類似度である。TermSim(A,B)は、文書内に含まれる単語や複合語、もしくは文字列n−gramなどの出現を特徴ベクトルとして、文書間の類似性を定義するものである。具体的に、文書AとBとの間の類似度TermSim(A,B)について考える。今、文書Aのテキストに形態素解析を適用し、名詞(複合語)として取り出されたものに、“議事録”、“特許調査”、“プロジェクト”、“アイディア”、があるとする(文書Aから名詞として取り出されたもの=“議事録”,“特許調査”,“プロジェクト”,“アイディア”)。同様に、文書Bからは、“報告書”、“プロジェクト”、“納期”、“プロセス管理”、という単語が取り出されたものとする(文書Bから名詞として取り出されたもの=“報告書”,“プロジェクト”,“納期”,“プロセス管理”)。
これらの出現単語を、単語出現リストとして適当な順序に並べると以下のようになる。
単語出現リスト={納期、報告書、議事録、特許調査、アイディア、プロジェクト、プロセス管理}
このリスト中に沿って、各文書でこれらの単語が出現するか否かを、なし(0)かあり(1)で示したベクトルで表現すると、単語特徴ベクトルは以下のように表現できる。
文書Aの単語特徴ベクトル={0,0,1,1,1,1,0}
文書Bの単語特徴ベクトル={1,1,0,0,0,1,1}
この単語特徴ベクトルを用いて、文書間の類似度は、例えばコサイン類似度cos(A,B)=A・B/|A||B|を用いて求めることができる。(“・”はベクトルの内積、||は絶対値を示すものとする)。
実際のこの例での値を計算すると、
TermSim(A,B)=(0+0+0+0+0+1+0)/(√4)(√4)=1/(2×2)=1/4=0.25
となる。この場合、類似度は0から1までの値で表現され、1が最も類似している(同一)ものとされるため、これらの文書はあまり似ていないことがわかる。
また、LayoutSim(A,B)は、文書A,Bにおいて、出現する論理要素特徴ベクトルの間で定義される類似度である。この類似度は、文書内に含まれる論理要素の出現をDOM表現(木構造)として表現することにより、木構造間の類似度を編集距離などの観点で計算する。
この構造間類似度は、単語特徴ベクトルなどのように一般的な定義が確立されている訳ではないが、一例として下記のように定義を考える。単語特徴ベクトルと同様に、文書の属性を定義する。
ここでは以下のような属性種類があるものとする。
構造情報の定義リスト={タイトル、小見出し、本文、パラグラフ、箇条書き、キャプション、アノテーション、セル}
ここで、文書Aには、“タイトル”、“小見出し”の出現が、フォントサイズや文字列の位置、一行に含まれるテキスト長などに属する事前定義されたルールマッチングなどで、検出できたものとする。また、文書Bには、小見出しの他、上下に隣接する行のインデント位置や行冒頭の出現単語/文字列などの一致性から、“箇条書き”、表記述である“セル”の出現が検出できたものとする。この場合には、文書A、Bがそれぞれ以下のように表現できる。
文書Aの論理要素特徴ベクトル={1,1,0,0,0,0,0,0}
文書Bの論理要素特徴ベクトル={0,1,0,0,1,0,0,1}
これらについて、前段のコサイン類似度で定義される類似度が計算できる。具体的には、これら文書A,B間の類似度を、
LayoutSim(A,B)=A・B/|A||B|=(0+1+0+0+0+0+0+0)/√2×√3=1/√6=0.4082...=約0.4
と求めることができる。
なお、各構造情報については、それぞれの論理要素(タイトルや小見出し、パラグラフ)を等しい重みで扱う必要はなく、例えばタイトルや小見出しは重みを大きくするなどのバイアスを掛けてもよい。また、これらの論理要素の出現有無だけの一致を見るのではなく、論理要素の内部に含まれるテキスト文字列の一致度合いを考慮してもよい。
以上から、ページ全体の類似度を上記の各類似度にそれぞれ適当な係数を適用して組み合わせるものとする。ここでは、これまでに述べた類似度を和で表現するものとする。各係数は、異なる特徴量に関する類似度重みのための係数であり、実験的に初期の固定値を定めてもよいし、ユーザの蓄積する文書データの特徴の偏りに応じてバイアスをかけてもよい。各係数をデフォルトでα=1/3,β=1/3,γ=1/3とした場合、ここまでに計算した値を代入すると、
DocSim(A,B)=α・FigSim(A,B)+β・TermSim(A,B)+γ・LayoutSim(A,B)
として、
DocSim(A,B)=α・0.82+β・0.25+γ・0.4=(1/3)×0.82+(1/3)×0.25+(1/3)×0.4
=0.49
となることがわかる。同様に、蓄積されている任意の2つの文書に対して類似度が計算できる。重み付けに関しては、ユーザが個別に調節可能な調整手段を用意してもよい。
以上のように、図形特徴ベクトルと、単語特徴ベクトルと、論理要素特徴ベクトルとの組合せが文書ベクトルに対応する。図形特徴ベクトル、単語特徴ベクトル、及び論理要素特徴ベクトルそれぞれでの類似度を重み付けした和を取ることによって、2つの文書間の類似度を計算する。
次に、この調整手段の具体的な例について図10を参照して説明する。ここで図10の類似度重み付けの調整ユーザインタフェース例について説明する。図10は候補提示・選択部201の表示例である。
ある時点での分類結果が、後段の処理結果を踏まえて左上のような二軸で表現される2次元平面上にマッピングされているものとする。これに対して、ユーザは、例えばX軸、及びY軸方向のスライダを調整することが可能であるとする。このX軸及びY軸は、後段の処理で述べるように複数の要素の線形結合で構成されているものとして、ユーザがスライダを調節することによって、その結合重みが変化し、その結果、文書間の類似度を示している平面上での文書(サムネイル)間の距離または文書グループ間の距離が変化する。例えば、X軸はβ/αの大きさを示し、Y軸はγ/αの大きさを示す。
ユーザは、この変化として、例えばある2つの文書が同一グループとして扱われていることを確認したり、あるいは特定の文書同士が異なるグループに分別されていることが確認できていることを手がかりとして、類似性の重み付けの妥当性を決定することができる。
この結果、ユーザがスライダによって更新した重み付けは、システムが文書間の類似度を計算する場合の各素性の重み付け値に反映することができる。
次に、候補算定部105の動作の一例について図11を参照して説明する。
まず、各クラスタ情報を読み込む(ステップS1101)。すなわち、各クラスタの代表ベクトルを読み込む。
各クラスタ重心(各クラスタの代表ベクトルに対応)に対してPCA(Principle Component Analysis)を適用し、第1主成分と第2主成分(x軸、y軸に対応)を設定する(ステップS1102)。
各x,y軸を構成する属性の重み付け値を元に、候補の順序をランクづけし、最も高いランクの候補を算定する(ステップS1103)。
その算定結果を分類ルールとして分類ルール格納部106に格納しておく(ステップS1104)。
次に、ユーザに候補を提示する場合の動作の一例、すなわち、候補提示・選択部201の動作の一例について図12を参照して説明する。
まず、各クラスタ情報を読み込む(ステップS1101)。
各クラスタ重心(各クラスタの代表ベクトルに対応)に対してPCAを適用し、第1主成分と第2主成分で2次元表示する(ステップS1202)。
二次元表示された各x,y軸を構成する属性の重み付け値を元に、提示候補の順序をランクづけする(ステップS1203)。
続いて、そのランク付け結果を元にユーザの候補提示・選択部201の選択メニュー順序を並び替えてユーザに提示する(ステップS1204)。
その提示結果を元に、ユーザによる各ルールの選択・確定作業が終了すれば、選択結果を分類ルールとして格納しておく(ステップS1205)。作業が未完了であれば、メニューの提示と選択作業を繰り返す。
また、候補提示・選択部201での分類候補の提示画面の一例について図13を参照して説明する。
ここでは、ユーザがIF−THEN形式のルールをカスタマイズすることによって、ユーザ所望の分類ルールをきめ細かく構築することが目的である。
ユーザは、複数の条件から候補を選択したり定義することができ、それぞれの条件を「全ての条件に一致(AND)」や「いずれかの条件に一致(OR)」などの指定で組み合わせることができる。
各条件は、「エリア指定」「インスタンス指定」「詳細例」(詳細属性)とユーザが自由に入力可能な文字列で定義される。「エリア指定」での範囲は、その制約条件として、その指定領域に含む、その指定領域以外に含まれる、一致する、などが指定できるものとする。「エリア指定」では、図形特徴抽出部102や文書特徴量抽出・変換部103での出力属性として、見出し小見出しや、図形の内部、表の内部などの指定の他、ページ本文の内/外、テキスト内、ページの上部/中部/下部など文書の属性を定義することができる。「インスタンス指定」では、蓄積されている文書群から自動抽出された図や表、基本パーツ、などのほか、テキスト文字列を指定する。これらは、蓄積されている文書に書かれている内容によって異なる候補が提示される。そのため、分類ルールを構築する上で、対象文書に応じた意味のある適切な属性が表示されることになる。
「インスタンス指定」での各インスタンスはさらに詳細な属性を定義できるものがある。例えば、図形であれば丸、矩形、三角形など、表であればその規模(大まかに大小を指定したり、詳細に行や列数などの値や範囲の指定)、テキスト情報であればユーザが指定した文字列そのものや、分量、テキストに対する形態素解析結果などを踏まえて、日時や数値列、人名や組織名などの固有表現などに制約を書けることができるものとする。
さらに、基本パーツであれば、下線や二重線、矩形囲みや丸囲み記号、矢印、などのほか、蓄積されている文書で頻度が高く用いられる記号や文字列(星印やマークなどユーザ独自の表記)などがあれば、それらを提示する。
以上のような候補を用いて条件を組み合わせることにより、ユーザはきめ細かな分類ルールを構築することが可能となる。
次に、分類推定部107の動作の一例について図14を参照して説明する。
まず新規入力文書に対する文書特徴量抽出・変換部103の解析結果を読み込む(ステップS1401)。
カテゴリごとに分類ルールを読み込んでいく(ステップS1402)。
現在の入力文書に対し、読み込んだカテゴリに対するルール適合度を算定する(ステップS1403)。ここでのルール適合度はさまざまな算定方法が考えられるが、簡単にはルールごとに対応するスコアを事前に定義しておき、マッチングしたルールのスコアを加算しておく方法がある。例えば、「議事録」カテゴリに分類するルール定義群の中には以下のようなルールがあるとする。
1)「見出し」に「議事録」の文字列が含まれる→スコア0.8
2)「文書要素」に「箇条書き」が含まれる→スコア0.4
3)「本文」に「TODO」が含まれる→スコア0.6
これに対し、現在の入力文書とのマッチングを取った場合に、1)と3)が適合したとすると、この入力文書が「議事録」カテゴリであるスコアは1)と3)とを足して0.8+0.6=1.4であると算定される。
ここから図14のフローチャートに戻る。算定したルール適合度を保存する(ステップS1404)。
全てのカテゴリについて適合度を算定したかどうかを判定する(ステップS1405)。未処理のカテゴリがある場合には、ステップS1402に戻り、その未処理の分類ルールの読み込みを繰り返す。
このようにして、全てのカテゴリについて適合度の算定を終えたら、適合度の高い順にカテゴリをソートする(ステップS1406)。
ソートされたカテゴリ順に、紐づけられているアクションの実行可否を検証し、実行可能であればそのアクションを実行する(ステップS1407)。なお、ここでの“アクション”とは、図13に記載の「次の動作を実行する」の「動作」に対応し、条件を満たす場合に分類ルールが最終的に行う動作定義のことで、例えば、入力文書を特定フォルダに格納したり、文書のプロパティとして特定の分類ラベルを付与しておく、などといった動作を表す。
以上に説明した実施の形態の文書分類支援装置、方法及びプログラムによれば、タブレットから入力された手書き文書に対して、システム固定の分類カテゴリだけではなく、ユーザの文書バリエーションに応じて自動的に文書を分類することができ、さらにカテゴリ更新や追加ができる。また、フィルタリングルールとして、ユーザは、システムが提示した条件候補を自由に選択して組み合わせることができるため、分類の基準と各カテゴリ内容がユーザにとってわかりやすく、さらにIF−THEN形式のルールベースとクラスタリングベースの組み合わせのため、使い始めなどの初期状態からユーザの意図に沿った分類が可能となる。
また、実施の形態の文書分類支援装置、方法及びプログラムによれば、ユーザの作成した文書集合から、図形や表の有無、二重線・囲みなどのアノテーション記号のバリエーション、出現する文字列や単語、レイアウト(論理要素)の統計量を抽出してクラスタリングし、分類の手がかりとなる複数の項目を自動提示することで、ユーザが組み合わせて自由に分類ルールを作成可能とすることができる。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した実施形態の文書分類支援装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RWなど)、半導体メモリ、またはこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の電力管理装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合または読み込む場合はネットワークを通じて取得または読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本願発明における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本発明における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本願発明におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本願発明の実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
101・・・文書入力部、102・・・図形特徴抽出部、103・・・文書特徴量抽出・変換部、104・・・類似性検出部、105・・・候補算定部、106・・・分類ルール格納部、107・・・分類推定部、201・・・候補提示・選択部。

Claims (9)

  1. ストローク情報を入力文書として複数の文書を取得する文書入力部と、
    前記ストローク情報から、図形情報、アノテーション情報、及びテキスト情報のうちの1以上を抽出する抽出部と、
    抽出された前記情報から、文書間の類似性を比較可能にする特徴量を算出する特徴量抽出変換部と、
    クラスタの特徴を示す、前記特徴量を含む代表ベクトルをそれぞれ含む複数のクラスタを設定し、前記複数の文書のそれぞれがどのクラスタに属するかを算出する類似性検出部と、
    前記代表ベクトルのそれぞれに含まれる該代表ベクトルを特徴づける1以上の特徴量を分類ルールとして算定する算定部と、
    前記分類ルールを格納する格納部と、を具備する文書分類支援装置。
  2. 前記算定部は、
    前記1以上の特徴量をユーザに提示する提示部と、
    ユーザが選択した特徴量を分類ルールとして設定する選択部と、を具備する請求項1に記載の文書分類支援装置。
  3. 前記提示部は、文書間、及び1以上の文書を含む文書グループ間のうちの1以上の類似性の度合いを、それぞれ文書間の距離及び文書グループ間の距離で示し、ユーザによって前記距離の大きさを調整することが可能な請求項2に記載の文書分類支援装置。
  4. 前記文書入力部が1文書を入力し、前記特徴量抽出変換部が該1文書から第1特徴量を算出し、
    前記第1特徴量と前記分類ルールとを比較し、第1特徴量に適合する度合いの大きいカテゴリを1以上推定する推定部をさらに具備する請求項1から請求項3のいずれか1項に記載の文書分類支援装置。
  5. 前記推定部は、算出したカテゴリにアクションが紐づけられている場合、該アクションの実行可否を検証し、実行可能であれば該アクションを実行する請求項4に記載の文書分類支援装置。
  6. 前記特徴量は、ベクトルで表現される請求項1から請求項5のいずれか1項に記載の文書分類支援装置。
  7. 前記特徴量抽出変換部は、前記複数の文書から得られる統計量に応じて、図形情報、アノテーション情報、及びテキスト情報の1以上を新たに抽出して該情報から特徴量を算出する請求項1から請求項6のいずれか1項に記載の文書分類支援装置。
  8. ストローク情報を入力文書として複数の文書を取得し、
    前記ストローク情報から、図形情報、アノテーション情報、及びテキスト情報のうちの1以上を抽出し、
    抽出された前記情報から、文書間の類似性を比較可能にする特徴量を算出し、
    クラスタの特徴を示す、前記特徴量を含む代表ベクトルをそれぞれ含む複数のクラスタを設定し、前記複数の文書のそれぞれがどのクラスタに属するかを算出し、
    前記代表ベクトルのそれぞれに含まれる該代表ベクトルを特徴づける1以上の特徴量を分類ルールとして算定し、
    前記分類ルールを格納部に格納する文書分類支援方法。
  9. コンピュータを、
    ストローク情報を入力文書として複数の文書を取得する文書入力手段と、
    前記ストローク情報から、図形情報、アノテーション情報、及びテキスト情報のうちの1以上を抽出する抽出手段と、
    抽出された前記情報から、文書間の類似性を比較可能にする特徴量を算出する特徴量抽出変換手段と、
    クラスタの特徴を示す、前記特徴量を含む代表ベクトルをそれぞれ含む複数のクラスタを設定し、前記複数の文書のそれぞれがどのクラスタに属するかを算出する類似性検出手段と、
    前記代表ベクトルのそれぞれに含まれる該代表ベクトルを特徴づける1以上の特徴量を分類ルールとして算定する算定手段と、
    前記分類ルールを格納する格納手段として機能させるための文書分類支援プログラム。
JP2012210988A 2012-09-25 2012-09-25 文書分類支援装置、方法及びプログラム Abandoned JP2014067154A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2012210988A JP2014067154A (ja) 2012-09-25 2012-09-25 文書分類支援装置、方法及びプログラム
PCT/JP2013/075607 WO2014050774A1 (en) 2012-09-25 2013-09-17 Document classification assisting apparatus, method and program
CN201380045242.6A CN104620258A (zh) 2012-09-25 2013-09-17 文件分类辅助设备、方法及程序
US14/668,638 US20150199567A1 (en) 2012-09-25 2015-03-25 Document classification assisting apparatus, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012210988A JP2014067154A (ja) 2012-09-25 2012-09-25 文書分類支援装置、方法及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2015191833A Division JP2016027493A (ja) 2015-09-29 2015-09-29 文書分類支援装置、方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2014067154A true JP2014067154A (ja) 2014-04-17

Family

ID=49517566

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012210988A Abandoned JP2014067154A (ja) 2012-09-25 2012-09-25 文書分類支援装置、方法及びプログラム

Country Status (4)

Country Link
US (1) US20150199567A1 (ja)
JP (1) JP2014067154A (ja)
CN (1) CN104620258A (ja)
WO (1) WO2014050774A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245265A (zh) * 2019-06-24 2019-09-17 北京奇艺世纪科技有限公司 一种对象分类方法、装置、存储介质及计算机设备
US11429786B2 (en) 2019-05-07 2022-08-30 Kabushiki Kaisha Toshiba Document analysis device, learning device, document analysis method, and learning method

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190207946A1 (en) * 2016-12-20 2019-07-04 Google Inc. Conditional provision of access by interactive assistant modules
EP3613016A4 (en) * 2017-04-20 2020-11-25 Hewlett-Packard Development Company, L.P. DOCUMENT SECURITY
US11436417B2 (en) 2017-05-15 2022-09-06 Google Llc Providing access to user-controlled resources by automated assistants
US10127227B1 (en) 2017-05-15 2018-11-13 Google Llc Providing access to user-controlled resources by automated assistants
JP6746550B2 (ja) * 2017-09-20 2020-08-26 株式会社東芝 情報検索装置、情報検索方法およびプログラム
JP6938408B2 (ja) * 2018-03-14 2021-09-22 株式会社日立製作所 計算機及びテンプレート管理方法
CN112262381B (zh) 2018-08-07 2024-04-09 谷歌有限责任公司 汇编和评估对隐私问题的自动助理响应
CN111160218A (zh) * 2019-12-26 2020-05-15 浙江大华技术股份有限公司 一种特征向量比对方法、装置电子设备及存储介质
JP2021152696A (ja) * 2020-03-24 2021-09-30 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
US11341354B1 (en) * 2020-09-30 2022-05-24 States Title, Inc. Using serial machine learning models to extract data from electronic documents

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11224346A (ja) * 1997-11-14 1999-08-17 Xerox Corp ドキュメント画像のソート方法
JP2011018316A (ja) * 2009-05-07 2011-01-27 Fuji Xerox Co Ltd 文書区分識別用の区分モデルを生成するための方法及びプログラム、文書の区分を識別するための方法及びプログラム、及び画像処理システム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09319764A (ja) 1996-05-31 1997-12-12 Matsushita Electric Ind Co Ltd キーワード生成装置及び文書検索装置
US6941321B2 (en) * 1999-01-26 2005-09-06 Xerox Corporation System and method for identifying similarities among objects in a collection
US6922699B2 (en) * 1999-01-26 2005-07-26 Xerox Corporation System and method for quantitatively representing data objects in vector space
US6397213B1 (en) * 1999-05-12 2002-05-28 Ricoh Company Ltd. Search and retrieval using document decomposition
US8370761B2 (en) * 2002-02-21 2013-02-05 Xerox Corporation Methods and systems for interactive classification of objects
JP4170296B2 (ja) * 2003-03-19 2008-10-22 富士通株式会社 事例分類装置および方法
JP2004348591A (ja) * 2003-05-23 2004-12-09 Canon Inc 文書検索方法及び装置
US8566705B2 (en) * 2004-12-21 2013-10-22 Ricoh Co., Ltd. Dynamic document icons
US7664325B2 (en) * 2005-12-21 2010-02-16 Microsoft Corporation Framework for detecting a structured handwritten object
US7657094B2 (en) * 2005-12-29 2010-02-02 Microsoft Corporation Handwriting recognition training and synthesis
CN101354703B (zh) * 2007-07-23 2010-11-17 夏普株式会社 文档图像处理装置和文档图像处理方法
CN101493896B (zh) * 2008-01-24 2013-02-06 夏普株式会社 文档图像处理装置及文档图像处理方法
JP4385169B1 (ja) * 2008-11-25 2009-12-16 健治 吉田 手書き入出力システム、手書き入力シート、情報入力システム、情報入力補助シート
US8520941B2 (en) * 2008-12-09 2013-08-27 Xerox Corporation Method and system for document image classification
CN101853253A (zh) * 2009-03-30 2010-10-06 三星电子株式会社 在移动终端中管理多媒体内容的设备和方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11224346A (ja) * 1997-11-14 1999-08-17 Xerox Corp ドキュメント画像のソート方法
JP2011018316A (ja) * 2009-05-07 2011-01-27 Fuji Xerox Co Ltd 文書区分識別用の区分モデルを生成するための方法及びプログラム、文書の区分を識別するための方法及びプログラム、及び画像処理システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11429786B2 (en) 2019-05-07 2022-08-30 Kabushiki Kaisha Toshiba Document analysis device, learning device, document analysis method, and learning method
CN110245265A (zh) * 2019-06-24 2019-09-17 北京奇艺世纪科技有限公司 一种对象分类方法、装置、存储介质及计算机设备

Also Published As

Publication number Publication date
WO2014050774A1 (en) 2014-04-03
US20150199567A1 (en) 2015-07-16
CN104620258A (zh) 2015-05-13

Similar Documents

Publication Publication Date Title
JP2014067154A (ja) 文書分類支援装置、方法及びプログラム
US10614266B2 (en) Recognition and population of form fields in an electronic document
US11151143B2 (en) Recommendation engine using inferred deep similarities for works of literature
US10417576B2 (en) Information processing apparatus and method, and program thereof
JP2016027493A (ja) 文書分類支援装置、方法及びプログラム
JP6856557B2 (ja) 最適化装置及びハイパーパラメータの最適化方法
US20220138402A1 (en) Text style and emphasis suggestions
JP2013246732A (ja) 手書き文書検索装置、方法及びプログラム
JP2006309347A (ja) 対象文書からキーワードを抽出する方法、システムおよびプログラム
CN104063367A (zh) 注释检索装置、方法及程序
JP5269399B2 (ja) 構造化文書検索装置、方法およびプログラム
US20230297963A1 (en) Apparatus and method of opportunity classification
US11514060B2 (en) Support system, storage medium, and method for presenting relationships of items
Gao et al. Newspaper article reconstruction using ant colony optimization and bipartite graph
JP6871642B2 (ja) 辞書構築装置、マップ作成装置、検索装置、辞書構築方法、マップ作成方法、検索方法、およびプログラム
JP7453731B2 (ja) 半構造化ドキュメントから情報を取り出す方法及びシステム
JP6565565B2 (ja) 情報処理装置、名称決定方法、および名称決定プログラム
Hagerman et al. Visual analytic system for subject matter expert document tagging using information retrieval and semi-supervised machine learning
US11947896B2 (en) Font recommendation
US20240127577A1 (en) Generating templates using structure-based matching
US20240054290A1 (en) Deep technology innovation management by cross-pollinating innovations dataset
US11983228B1 (en) Apparatus and a method for the generation of electronic media
Miloševic A multi-layered approach to information extraction from tables in biomedical documents
JP2024092727A (ja) 画像生成検索装置、画像生成検索システム及び画像生成検索方法
JP5971571B2 (ja) 構造文書管理システム、構造文書管理方法及びプログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20140109

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150331

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150601

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150901

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20150930