JP2014067154A - 文書分類支援装置、方法及びプログラム - Google Patents
文書分類支援装置、方法及びプログラム Download PDFInfo
- Publication number
- JP2014067154A JP2014067154A JP2012210988A JP2012210988A JP2014067154A JP 2014067154 A JP2014067154 A JP 2014067154A JP 2012210988 A JP2012210988 A JP 2012210988A JP 2012210988 A JP2012210988 A JP 2012210988A JP 2014067154 A JP2014067154 A JP 2014067154A
- Authority
- JP
- Japan
- Prior art keywords
- document
- information
- documents
- feature
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
- G06V30/224—Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】実施の形態によれば、文書入力部と、抽出部と、特徴量抽出変換部と、類似性検出部と、算定部と、格納部と、を備えている。文書入力部は、ストローク情報を入力文書として複数の文書を取得する。抽出部は、前記ストローク情報から、図形情報、アノテーション情報、及びテキスト情報のうちの1以上を抽出する。特徴量抽出変換部は、抽出された前記情報から、文書間の類似性を比較可能にする特徴量を算出する。類似性検出部は、クラスタの特徴を示す、前記特徴量を含む代表ベクトルをそれぞれ含む複数のクラスタを設定し、前記複数の文書のそれぞれがどのクラスタに属するかを算出する。算定部は、前記代表ベクトルのそれぞれに含まれる該代表ベクトルを特徴づける1以上の特徴量を分類ルールとして算定する。格納部は、前記分類ルールを格納する。
【選択図】図1
Description
本実施の形態の文書分類支援装置は、文書入力部101、図形特徴抽出部102、文書特徴量抽出・変換部103、類似性検出部104、候補算定部105、分類ルール格納部106、及び分類推定部107を備えている。文書分類支援装置は、(1)ルール構築を行う場合と、(2)新規文書を入力して文書の分類を行う場合とで使用される。(1)の場合には、文書入力部101、図形特徴抽出部102、文書特徴量抽出・変換部103、類似性検出部104、候補算定部105、分類ルール格納部106が使用され、(2)の場合には、文書入力部101、図形特徴抽出部102、文書特徴量抽出・変換部103、分類ルール格納部106、分類推定部107が使用される。(1)に代わって、(3)ユーザに候補提示をしてルール構築をする場合もあるが、この場合については図2を参照して後に説明する。
候補提示・選択部201は、類似性検出部104で類似性に基づいてグルーピングされた結果から、その軸を分類候補として提示する。ユーザがこの提示された分類候補を参照して分類ルールを決定し、候補提示・選択部201が決定された分類ルールを分類ルール格納部106に格納する。
まず、文書入力部101が手書き文書集合を入力する。図形特徴抽出部102が、図形の特徴量、アノテーション情報、テキスト文字列を抽出する(ステップS301)。
まず、文書入力部101が新たに分類対象とする新規文書を読み込む(ステップS401)。
まず、文書入力部101から入力した文書から、書かれている内容をストローク情報として取り出し(ステップS501)、大局的領域判定を行う(ステップS502)。大局的領域判定では、ページ全体に対してストロークが存在する領域を検出し、各セグメント領域に文字列が含まれているか否かを簡易検出しながら対象領域を拡大して、ページ全体に対し、文字列が含まれているセグメント群、及び文字列が含まれていないセグメント群(図形領域と仮定する)を区別する検出をする(ステップS503)。図形領域が存在するかどうかを判定し、図形領域が存在すると判定した場合にはステップS505へ進み、図形領域が存在しないと判定した場合にはステップS506へ進む(ステップS504)。
まず、図形特徴抽出部102までの処理の結果として得られた文書(ページ)内の特徴抽出結果を読み込む(ステップS601)。
まず、見出し表記を特定する。ページ内に含まれる各行の平均的な文字列数と分散を求めておき、見出し行と見なせる適当なしきい値をヒューリスティックに設定しておく。また、前行や前々行に出現する空行の有無も条件として、判定の場合の重み付け係数として用いてもよい。次に、見出しとして判定された各行の関係性をみる。具体的には、見出し行冒頭の文字列が記号や数字の場合に、それらが類似しているか否かを見る。
これらの類似性の判断には、単純な文字列距離を用いて一致率に応じて類似度の大中小をヒューリスティックに定めるなどの方法がある。さらに、比較対象文字列中に数字が出現している場合は、ページ冒頭からの順序を考慮し、その数字の変化が、カウンタとして増えているような場合は類似性が高いという補正を掛けてもよい。(例:{(1),(2),(3)}=数字がカウンタとして増えているため、類似度は「中」ではなく、「高」とする。)
以上のような見出しを検出し、それぞれの見出しの間隔(見出し間が、何行離れているか)によって、例えば2行以内であれば、それぞれの見出しとその間のテキスト要素を箇条書きリストとしておく、あるいは3行以上離れていれば、それぞれを章立て構造の見出しとして、見出し間の各行はパラグラフを示す領域としてまとめておく。以上の処理によって、各行の論理要素の、見出しやパラグラフ、箇条書きなどの検出と割り当て、が可能になる。
まず、類似性検出のための初期パラメータを読み込む(ステップS701)。具体的には、初期クラスタ数の設定や、更新繰り返し処理の上限数などを設定する。
今、類似度を比較したい文書をA,Bとした場合に、この文書間の類似度は、DocSim(A,B)と表すものとして、図8に示すようにこの右辺はそれぞれ出現する図形特徴に基づく類似度、出現する文字列特徴に基づく類似度、出現する論理要素特徴に基づく類似度、で構成されるものとする。
基本図形種別ID:{○,□,△}→{1,2,3}
大きさ定義ID:{行内,3行以内,5行以内,半ページ,全ページ}→{1,2,3,4,5}
さらに、図形特徴をベクトル表記するために、下記の9次元ベクトルを定義する。
この9次元ベクトルに対して、上記の基底情報を記述することで文書の図形特徴ベクトルを表現できる。ここで図9に示した図形特徴の類似性の定義のための文書例を元に説明する。例えば文書Aは、ページの左上に○、右中央付近に△が出現していると仮定すると、
文書Aの図形特徴ベクトル={0121,0,0,0,0,0123,0,0,0}
と表現される。
文書Bの図形特徴ベクトル={0123,0,0,0,0,0123,0122,0,0}
と表現できることになる。
FigSim(A,B)=(0121×0123+0+0+0+0+0123×0123+0×0122+0+0)/(01212+01232)1/2×(01232+01232+01222)1/2
=30012/(172.54×212.47)
=0.82
となりFigSimによる類似度が0.82であると算出できる。
単語出現リスト={納期、報告書、議事録、特許調査、アイディア、プロジェクト、プロセス管理}
このリスト中に沿って、各文書でこれらの単語が出現するか否かを、なし(0)かあり(1)で示したベクトルで表現すると、単語特徴ベクトルは以下のように表現できる。
文書Bの単語特徴ベクトル={1,1,0,0,0,1,1}
この単語特徴ベクトルを用いて、文書間の類似度は、例えばコサイン類似度cos(A,B)=A・B/|A||B|を用いて求めることができる。(“・”はベクトルの内積、||は絶対値を示すものとする)。
TermSim(A,B)=(0+0+0+0+0+1+0)/(√4)(√4)=1/(2×2)=1/4=0.25
となる。この場合、類似度は0から1までの値で表現され、1が最も類似している(同一)ものとされるため、これらの文書はあまり似ていないことがわかる。
ここで、文書Aには、“タイトル”、“小見出し”の出現が、フォントサイズや文字列の位置、一行に含まれるテキスト長などに属する事前定義されたルールマッチングなどで、検出できたものとする。また、文書Bには、小見出しの他、上下に隣接する行のインデント位置や行冒頭の出現単語/文字列などの一致性から、“箇条書き”、表記述である“セル”の出現が検出できたものとする。この場合には、文書A、Bがそれぞれ以下のように表現できる。
文書Bの論理要素特徴ベクトル={0,1,0,0,1,0,0,1}
これらについて、前段のコサイン類似度で定義される類似度が計算できる。具体的には、これら文書A,B間の類似度を、
LayoutSim(A,B)=A・B/|A||B|=(0+1+0+0+0+0+0+0)/√2×√3=1/√6=0.4082...=約0.4
と求めることができる。
DocSim(A,B)=α・FigSim(A,B)+β・TermSim(A,B)+γ・LayoutSim(A,B)
として、
DocSim(A,B)=α・0.82+β・0.25+γ・0.4=(1/3)×0.82+(1/3)×0.25+(1/3)×0.4
=0.49
となることがわかる。同様に、蓄積されている任意の2つの文書に対して類似度が計算できる。重み付けに関しては、ユーザが個別に調節可能な調整手段を用意してもよい。
以上のように、図形特徴ベクトルと、単語特徴ベクトルと、論理要素特徴ベクトルとの組合せが文書ベクトルに対応する。図形特徴ベクトル、単語特徴ベクトル、及び論理要素特徴ベクトルそれぞれでの類似度を重み付けした和を取ることによって、2つの文書間の類似度を計算する。
ある時点での分類結果が、後段の処理結果を踏まえて左上のような二軸で表現される2次元平面上にマッピングされているものとする。これに対して、ユーザは、例えばX軸、及びY軸方向のスライダを調整することが可能であるとする。このX軸及びY軸は、後段の処理で述べるように複数の要素の線形結合で構成されているものとして、ユーザがスライダを調節することによって、その結合重みが変化し、その結果、文書間の類似度を示している平面上での文書(サムネイル)間の距離または文書グループ間の距離が変化する。例えば、X軸はβ/αの大きさを示し、Y軸はγ/αの大きさを示す。
この結果、ユーザがスライダによって更新した重み付けは、システムが文書間の類似度を計算する場合の各素性の重み付け値に反映することができる。
まず、各クラスタ情報を読み込む(ステップS1101)。すなわち、各クラスタの代表ベクトルを読み込む。
まず、各クラスタ情報を読み込む(ステップS1101)。
ここでは、ユーザがIF−THEN形式のルールをカスタマイズすることによって、ユーザ所望の分類ルールをきめ細かく構築することが目的である。
まず新規入力文書に対する文書特徴量抽出・変換部103の解析結果を読み込む(ステップS1401)。
1)「見出し」に「議事録」の文字列が含まれる→スコア0.8
2)「文書要素」に「箇条書き」が含まれる→スコア0.4
3)「本文」に「TODO」が含まれる→スコア0.6
これに対し、現在の入力文書とのマッチングを取った場合に、1)と3)が適合したとすると、この入力文書が「議事録」カテゴリであるスコアは1)と3)とを足して0.8+0.6=1.4であると算定される。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本願発明における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本発明における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
また、本願発明の実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の実施形態における機能を実現することが可能な機器、装置を総称している。
Claims (9)
- ストローク情報を入力文書として複数の文書を取得する文書入力部と、
前記ストローク情報から、図形情報、アノテーション情報、及びテキスト情報のうちの1以上を抽出する抽出部と、
抽出された前記情報から、文書間の類似性を比較可能にする特徴量を算出する特徴量抽出変換部と、
クラスタの特徴を示す、前記特徴量を含む代表ベクトルをそれぞれ含む複数のクラスタを設定し、前記複数の文書のそれぞれがどのクラスタに属するかを算出する類似性検出部と、
前記代表ベクトルのそれぞれに含まれる該代表ベクトルを特徴づける1以上の特徴量を分類ルールとして算定する算定部と、
前記分類ルールを格納する格納部と、を具備する文書分類支援装置。 - 前記算定部は、
前記1以上の特徴量をユーザに提示する提示部と、
ユーザが選択した特徴量を分類ルールとして設定する選択部と、を具備する請求項1に記載の文書分類支援装置。 - 前記提示部は、文書間、及び1以上の文書を含む文書グループ間のうちの1以上の類似性の度合いを、それぞれ文書間の距離及び文書グループ間の距離で示し、ユーザによって前記距離の大きさを調整することが可能な請求項2に記載の文書分類支援装置。
- 前記文書入力部が1文書を入力し、前記特徴量抽出変換部が該1文書から第1特徴量を算出し、
前記第1特徴量と前記分類ルールとを比較し、第1特徴量に適合する度合いの大きいカテゴリを1以上推定する推定部をさらに具備する請求項1から請求項3のいずれか1項に記載の文書分類支援装置。 - 前記推定部は、算出したカテゴリにアクションが紐づけられている場合、該アクションの実行可否を検証し、実行可能であれば該アクションを実行する請求項4に記載の文書分類支援装置。
- 前記特徴量は、ベクトルで表現される請求項1から請求項5のいずれか1項に記載の文書分類支援装置。
- 前記特徴量抽出変換部は、前記複数の文書から得られる統計量に応じて、図形情報、アノテーション情報、及びテキスト情報の1以上を新たに抽出して該情報から特徴量を算出する請求項1から請求項6のいずれか1項に記載の文書分類支援装置。
- ストローク情報を入力文書として複数の文書を取得し、
前記ストローク情報から、図形情報、アノテーション情報、及びテキスト情報のうちの1以上を抽出し、
抽出された前記情報から、文書間の類似性を比較可能にする特徴量を算出し、
クラスタの特徴を示す、前記特徴量を含む代表ベクトルをそれぞれ含む複数のクラスタを設定し、前記複数の文書のそれぞれがどのクラスタに属するかを算出し、
前記代表ベクトルのそれぞれに含まれる該代表ベクトルを特徴づける1以上の特徴量を分類ルールとして算定し、
前記分類ルールを格納部に格納する文書分類支援方法。 - コンピュータを、
ストローク情報を入力文書として複数の文書を取得する文書入力手段と、
前記ストローク情報から、図形情報、アノテーション情報、及びテキスト情報のうちの1以上を抽出する抽出手段と、
抽出された前記情報から、文書間の類似性を比較可能にする特徴量を算出する特徴量抽出変換手段と、
クラスタの特徴を示す、前記特徴量を含む代表ベクトルをそれぞれ含む複数のクラスタを設定し、前記複数の文書のそれぞれがどのクラスタに属するかを算出する類似性検出手段と、
前記代表ベクトルのそれぞれに含まれる該代表ベクトルを特徴づける1以上の特徴量を分類ルールとして算定する算定手段と、
前記分類ルールを格納する格納手段として機能させるための文書分類支援プログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012210988A JP2014067154A (ja) | 2012-09-25 | 2012-09-25 | 文書分類支援装置、方法及びプログラム |
PCT/JP2013/075607 WO2014050774A1 (en) | 2012-09-25 | 2013-09-17 | Document classification assisting apparatus, method and program |
CN201380045242.6A CN104620258A (zh) | 2012-09-25 | 2013-09-17 | 文件分类辅助设备、方法及程序 |
US14/668,638 US20150199567A1 (en) | 2012-09-25 | 2015-03-25 | Document classification assisting apparatus, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012210988A JP2014067154A (ja) | 2012-09-25 | 2012-09-25 | 文書分類支援装置、方法及びプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015191833A Division JP2016027493A (ja) | 2015-09-29 | 2015-09-29 | 文書分類支援装置、方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014067154A true JP2014067154A (ja) | 2014-04-17 |
Family
ID=49517566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012210988A Abandoned JP2014067154A (ja) | 2012-09-25 | 2012-09-25 | 文書分類支援装置、方法及びプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20150199567A1 (ja) |
JP (1) | JP2014067154A (ja) |
CN (1) | CN104620258A (ja) |
WO (1) | WO2014050774A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245265A (zh) * | 2019-06-24 | 2019-09-17 | 北京奇艺世纪科技有限公司 | 一种对象分类方法、装置、存储介质及计算机设备 |
US11429786B2 (en) | 2019-05-07 | 2022-08-30 | Kabushiki Kaisha Toshiba | Document analysis device, learning device, document analysis method, and learning method |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190207946A1 (en) * | 2016-12-20 | 2019-07-04 | Google Inc. | Conditional provision of access by interactive assistant modules |
EP3613016A4 (en) * | 2017-04-20 | 2020-11-25 | Hewlett-Packard Development Company, L.P. | DOCUMENT SECURITY |
US11436417B2 (en) | 2017-05-15 | 2022-09-06 | Google Llc | Providing access to user-controlled resources by automated assistants |
US10127227B1 (en) | 2017-05-15 | 2018-11-13 | Google Llc | Providing access to user-controlled resources by automated assistants |
JP6746550B2 (ja) * | 2017-09-20 | 2020-08-26 | 株式会社東芝 | 情報検索装置、情報検索方法およびプログラム |
JP6938408B2 (ja) * | 2018-03-14 | 2021-09-22 | 株式会社日立製作所 | 計算機及びテンプレート管理方法 |
CN112262381B (zh) | 2018-08-07 | 2024-04-09 | 谷歌有限责任公司 | 汇编和评估对隐私问题的自动助理响应 |
CN111160218A (zh) * | 2019-12-26 | 2020-05-15 | 浙江大华技术股份有限公司 | 一种特征向量比对方法、装置电子设备及存储介质 |
JP2021152696A (ja) * | 2020-03-24 | 2021-09-30 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
US11341354B1 (en) * | 2020-09-30 | 2022-05-24 | States Title, Inc. | Using serial machine learning models to extract data from electronic documents |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11224346A (ja) * | 1997-11-14 | 1999-08-17 | Xerox Corp | ドキュメント画像のソート方法 |
JP2011018316A (ja) * | 2009-05-07 | 2011-01-27 | Fuji Xerox Co Ltd | 文書区分識別用の区分モデルを生成するための方法及びプログラム、文書の区分を識別するための方法及びプログラム、及び画像処理システム |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09319764A (ja) | 1996-05-31 | 1997-12-12 | Matsushita Electric Ind Co Ltd | キーワード生成装置及び文書検索装置 |
US6941321B2 (en) * | 1999-01-26 | 2005-09-06 | Xerox Corporation | System and method for identifying similarities among objects in a collection |
US6922699B2 (en) * | 1999-01-26 | 2005-07-26 | Xerox Corporation | System and method for quantitatively representing data objects in vector space |
US6397213B1 (en) * | 1999-05-12 | 2002-05-28 | Ricoh Company Ltd. | Search and retrieval using document decomposition |
US8370761B2 (en) * | 2002-02-21 | 2013-02-05 | Xerox Corporation | Methods and systems for interactive classification of objects |
JP4170296B2 (ja) * | 2003-03-19 | 2008-10-22 | 富士通株式会社 | 事例分類装置および方法 |
JP2004348591A (ja) * | 2003-05-23 | 2004-12-09 | Canon Inc | 文書検索方法及び装置 |
US8566705B2 (en) * | 2004-12-21 | 2013-10-22 | Ricoh Co., Ltd. | Dynamic document icons |
US7664325B2 (en) * | 2005-12-21 | 2010-02-16 | Microsoft Corporation | Framework for detecting a structured handwritten object |
US7657094B2 (en) * | 2005-12-29 | 2010-02-02 | Microsoft Corporation | Handwriting recognition training and synthesis |
CN101354703B (zh) * | 2007-07-23 | 2010-11-17 | 夏普株式会社 | 文档图像处理装置和文档图像处理方法 |
CN101493896B (zh) * | 2008-01-24 | 2013-02-06 | 夏普株式会社 | 文档图像处理装置及文档图像处理方法 |
JP4385169B1 (ja) * | 2008-11-25 | 2009-12-16 | 健治 吉田 | 手書き入出力システム、手書き入力シート、情報入力システム、情報入力補助シート |
US8520941B2 (en) * | 2008-12-09 | 2013-08-27 | Xerox Corporation | Method and system for document image classification |
CN101853253A (zh) * | 2009-03-30 | 2010-10-06 | 三星电子株式会社 | 在移动终端中管理多媒体内容的设备和方法 |
-
2012
- 2012-09-25 JP JP2012210988A patent/JP2014067154A/ja not_active Abandoned
-
2013
- 2013-09-17 CN CN201380045242.6A patent/CN104620258A/zh active Pending
- 2013-09-17 WO PCT/JP2013/075607 patent/WO2014050774A1/en active Application Filing
-
2015
- 2015-03-25 US US14/668,638 patent/US20150199567A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11224346A (ja) * | 1997-11-14 | 1999-08-17 | Xerox Corp | ドキュメント画像のソート方法 |
JP2011018316A (ja) * | 2009-05-07 | 2011-01-27 | Fuji Xerox Co Ltd | 文書区分識別用の区分モデルを生成するための方法及びプログラム、文書の区分を識別するための方法及びプログラム、及び画像処理システム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11429786B2 (en) | 2019-05-07 | 2022-08-30 | Kabushiki Kaisha Toshiba | Document analysis device, learning device, document analysis method, and learning method |
CN110245265A (zh) * | 2019-06-24 | 2019-09-17 | 北京奇艺世纪科技有限公司 | 一种对象分类方法、装置、存储介质及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2014050774A1 (en) | 2014-04-03 |
US20150199567A1 (en) | 2015-07-16 |
CN104620258A (zh) | 2015-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2014067154A (ja) | 文書分類支援装置、方法及びプログラム | |
US10614266B2 (en) | Recognition and population of form fields in an electronic document | |
US11151143B2 (en) | Recommendation engine using inferred deep similarities for works of literature | |
US10417576B2 (en) | Information processing apparatus and method, and program thereof | |
JP2016027493A (ja) | 文書分類支援装置、方法及びプログラム | |
JP6856557B2 (ja) | 最適化装置及びハイパーパラメータの最適化方法 | |
US20220138402A1 (en) | Text style and emphasis suggestions | |
JP2013246732A (ja) | 手書き文書検索装置、方法及びプログラム | |
JP2006309347A (ja) | 対象文書からキーワードを抽出する方法、システムおよびプログラム | |
CN104063367A (zh) | 注释检索装置、方法及程序 | |
JP5269399B2 (ja) | 構造化文書検索装置、方法およびプログラム | |
US20230297963A1 (en) | Apparatus and method of opportunity classification | |
US11514060B2 (en) | Support system, storage medium, and method for presenting relationships of items | |
Gao et al. | Newspaper article reconstruction using ant colony optimization and bipartite graph | |
JP6871642B2 (ja) | 辞書構築装置、マップ作成装置、検索装置、辞書構築方法、マップ作成方法、検索方法、およびプログラム | |
JP7453731B2 (ja) | 半構造化ドキュメントから情報を取り出す方法及びシステム | |
JP6565565B2 (ja) | 情報処理装置、名称決定方法、および名称決定プログラム | |
Hagerman et al. | Visual analytic system for subject matter expert document tagging using information retrieval and semi-supervised machine learning | |
US11947896B2 (en) | Font recommendation | |
US20240127577A1 (en) | Generating templates using structure-based matching | |
US20240054290A1 (en) | Deep technology innovation management by cross-pollinating innovations dataset | |
US11983228B1 (en) | Apparatus and a method for the generation of electronic media | |
Miloševic | A multi-layered approach to information extraction from tables in biomedical documents | |
JP2024092727A (ja) | 画像生成検索装置、画像生成検索システム及び画像生成検索方法 | |
JP5971571B2 (ja) | 構造文書管理システム、構造文書管理方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20140109 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140325 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150331 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150601 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150901 |
|
A762 | Written abandonment of application |
Free format text: JAPANESE INTERMEDIATE CODE: A762 Effective date: 20150930 |