JP2006092226A - 文書属性取得方法および装置並びにプログラムを記録した記録媒体 - Google Patents
文書属性取得方法および装置並びにプログラムを記録した記録媒体 Download PDFInfo
- Publication number
- JP2006092226A JP2006092226A JP2004276374A JP2004276374A JP2006092226A JP 2006092226 A JP2006092226 A JP 2006092226A JP 2004276374 A JP2004276374 A JP 2004276374A JP 2004276374 A JP2004276374 A JP 2004276374A JP 2006092226 A JP2006092226 A JP 2006092226A
- Authority
- JP
- Japan
- Prior art keywords
- attribute
- entity
- document
- type part
- contents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 本文書属性取得方法は、属性の種類を格納した属性種類部と属性実体の種類を格納した属性実体種類部とを有する複数の属性辞書1〜4を用意する。文書情報より得られた複数のテキスト領域または入力画像から文字認識により得られた複数のテキスト領域6を入力し、各テキスト領域6の内容と複数の属性辞書の属性種類部の内容および属性実体種類部の内容とをそれぞれ照合する。属性種類部の照合結果と前記属性実体種類部の照合結果が合致する属性辞書を選出し、この選出した属性辞書の属性種類部と属性実体種類部から当該テキスト領域の属性および属性実体を取得する。
【選択図】 図1
Description
図1(b)の例では、属性種類部の照合結果と前記属性実体種類部の照合結果が合致する属性辞書として、属性辞書2(作成者)が選出される。この場合、テキスト領域6の「作成者」と「伊藤篤」が作成者属性ペア8であり、当該テキスト領域の属性および属性実体として取得される。
5 文書
6 テキスト領域
7、8 属性ペア
Claims (11)
- 属性の種類を格納した属性種類部と属性実体の種類を格納した属性実体種類部とを有する複数の属性辞書を用意し、
文書情報より得られた複数のテキスト領域または入力画像から文字認識により得られた複数のテキスト領域を入力し、
前記各テキスト領域の内容と前記複数の属性辞書の属性種類部の内容とを照合し、
前記各テキスト領域の内容と前記複数の属性辞書の属性実体種類部の内容とを照合し、
前記属性種類部の照合結果と前記属性実体種類部の照合結果が合致する属性辞書を選出し、
前記選出した属性辞書の属性種類部と属性実体種類部から前記テキスト領域の属性および属性実体を取得することを特徴とする文書属性取得方法。 - 前記属性辞書の属性実体種類部が複数設けられていることを特徴とする請求項1記載の文書属性取得方法。
- 前記属性辞書が前記属性実体種類部と照合される属性実体の群名を格納した属性実体内容部をさらに有することを特徴とする請求項1または2記載の文書属性取得方法。
- 前記属性実体内容部が前記複数の属性辞書間で共有されることを特徴とする請求項3記載の文書属性取得方法。
- 前記各テキスト領域の配置が直線上に並んでいるテキスト領域を選定し、前記選定したテキスト領域を参照して前記テキスト領域の属性および属性実体を取得することを特徴とする請求項1〜4のいずれかに記載の文書属性取得方法。
- 前記各テキスト領域間における距離を算出し、前記算出された距離を参照して前記テキスト領域の属性および属性実体を取得することを特徴とする請求項1〜5のいずれかに記載の文書属性取得方法。
- 前記属性種類部および前記属性実体種類部の少なくとも一方の内容が照合のための順位を有することを特徴とする請求項1〜6のいずれかに記載の文書属性取得方法。
- 属性の種類を格納した属性種類部と属性実体の種類を格納した属性実体種類部とを有する複数の属性辞書を記憶する属性辞書記憶部と、文書情報より得られた複数のテキスト領域または入力画像から文字認識により得られた複数のテキスト領域を入力し、前記各テキスト領域の内容と前記複数の属性辞書の内容とを照合する属性照合部と、前記照合結果に基づいて前記テキスト領域の属性および属性実体を取得し出力する属性情報出力部とを備えたことを特徴とする文書属性取得装置。
- 前記入力画像が光学式文字読取り装置により文字認識されることを特徴とする請求項8記載の文書属性取得方法。
- 属性の種類を格納した属性種類部と属性実体の種類を格納した属性実体種類部とを有する複数の属性辞書を提供する機能、文書情報より得られた複数のテキスト領域または入力画像から文字認識により得られた複数のテキスト領域を入力する機能、前記各テキスト領域の内容と前記複数の属性辞書の属性種類部の内容とを照合する機能、前記各テキスト領域の内容と前記複数の属性辞書の属性実体種類部の内容とを照合する機能、前記属性種類部の照合結果と前記属性実体種類部の照合結果が合致する属性辞書を選出する機能、および、前記選出した属性辞書の属性種類部と属性実体種類部から前記テキスト領域の属性および属性実体を取得する機能を実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
- 属性の種類を格納した属性種類部と属性実体の種類を格納した属性実体種類部とを有する複数の属性辞書を提供する機能、文書情報より得られた複数のテキスト領域または入力画像から文字認識により得られた複数のテキスト領域を入力する機能、前記各テキスト領域の内容と前記複数の属性辞書の属性種類部の内容とを照合する機能、前記各テキスト領域の内容と前記複数の属性辞書の属性実体種類部の内容とを照合する機能、前記属性種類部の照合結果と前記属性実体種類部の照合結果が合致する属性辞書を選出する機能、および、前記選出した属性辞書の属性種類部と属性実体種類部から前記テキスト領域の属性および属性実体を取得する機能を実現させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004276374A JP4677750B2 (ja) | 2004-09-24 | 2004-09-24 | 文書属性取得方法および装置並びにプログラムを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004276374A JP4677750B2 (ja) | 2004-09-24 | 2004-09-24 | 文書属性取得方法および装置並びにプログラムを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006092226A true JP2006092226A (ja) | 2006-04-06 |
JP4677750B2 JP4677750B2 (ja) | 2011-04-27 |
Family
ID=36233128
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004276374A Expired - Fee Related JP4677750B2 (ja) | 2004-09-24 | 2004-09-24 | 文書属性取得方法および装置並びにプログラムを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4677750B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007306405A (ja) * | 2006-05-12 | 2007-11-22 | Ricoh Co Ltd | 画像形成システム、グループウェアサーバ、画像形成方法、データベース管理プログラム及び記憶媒体 |
JP2008084186A (ja) * | 2006-09-28 | 2008-04-10 | Fuji Xerox Co Ltd | 画像処理システム及び画像処理プログラム |
CN110135264A (zh) * | 2019-04-16 | 2019-08-16 | 深圳壹账通智能科技有限公司 | 数据录入方法、装置、计算机设备以及存储介质 |
JP2021504787A (ja) * | 2017-12-01 | 2021-02-15 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | コグニティブな文書イメージのデジタル化のための方法、コンピュータ・プログラム及びシステム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000090117A (ja) * | 1998-07-16 | 2000-03-31 | Ricoh Co Ltd | 文書画像の論理要素抽出方法、装置および記録媒体 |
JP2001243423A (ja) * | 2000-02-28 | 2001-09-07 | Toshiba Corp | 帳票における文字記録領域の検出装置、帳票における文字記録領域の検出方法、記憶媒体及び帳票フォーマット作成装置 |
JP2003030455A (ja) * | 2001-07-10 | 2003-01-31 | Toshiba Corp | 総合振込依頼書エントリシステムにおける入力帳票識別方法、総合振込依頼書エントリシステムおよびプログラム |
-
2004
- 2004-09-24 JP JP2004276374A patent/JP4677750B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000090117A (ja) * | 1998-07-16 | 2000-03-31 | Ricoh Co Ltd | 文書画像の論理要素抽出方法、装置および記録媒体 |
JP2001243423A (ja) * | 2000-02-28 | 2001-09-07 | Toshiba Corp | 帳票における文字記録領域の検出装置、帳票における文字記録領域の検出方法、記憶媒体及び帳票フォーマット作成装置 |
JP2003030455A (ja) * | 2001-07-10 | 2003-01-31 | Toshiba Corp | 総合振込依頼書エントリシステムにおける入力帳票識別方法、総合振込依頼書エントリシステムおよびプログラム |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007306405A (ja) * | 2006-05-12 | 2007-11-22 | Ricoh Co Ltd | 画像形成システム、グループウェアサーバ、画像形成方法、データベース管理プログラム及び記憶媒体 |
JP2008084186A (ja) * | 2006-09-28 | 2008-04-10 | Fuji Xerox Co Ltd | 画像処理システム及び画像処理プログラム |
JP2021504787A (ja) * | 2017-12-01 | 2021-02-15 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | コグニティブな文書イメージのデジタル化のための方法、コンピュータ・プログラム及びシステム |
JP7201299B2 (ja) | 2017-12-01 | 2023-01-10 | インターナショナル・ビジネス・マシーンズ・コーポレーション | コグニティブな文書イメージのデジタル化のための方法、コンピュータ・プログラム及びシステム |
CN110135264A (zh) * | 2019-04-16 | 2019-08-16 | 深圳壹账通智能科技有限公司 | 数据录入方法、装置、计算机设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP4677750B2 (ja) | 2011-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102053991B (zh) | 用于多语言文档检索的方法及系统 | |
US7801392B2 (en) | Image search system, image search method, and storage medium | |
JP3689455B2 (ja) | 情報処理方法及び装置 | |
US6178417B1 (en) | Method and means of matching documents based on text genre | |
US20070168382A1 (en) | Document analysis system for integration of paper records into a searchable electronic database | |
US7647303B2 (en) | Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program | |
EP1843276A1 (en) | Method for automated processing of hard copy text documents | |
US9558234B1 (en) | Automatic metadata identification | |
CN109902223B (zh) | 一种基于多模态信息特征的不良内容过滤方法 | |
JP2004334334A (ja) | 文書検索装置、文書検索方法及び記憶媒体 | |
US20060045340A1 (en) | Character recognition apparatus and character recognition method | |
JP2007172077A (ja) | 画像検索システム及び方法及びプログラム | |
US7359896B2 (en) | Information retrieving system, information retrieving method, and information retrieving program | |
EP2806336A1 (en) | Text prediction in a text input associated with an image | |
JP6435934B2 (ja) | 文書画像処理用のプログラムおよびこのプログラムを用いた画像処理装置ならびに文字認識装置 | |
JP2005151127A5 (ja) | ||
Alves et al. | A strategy for automatically extracting references from PDF documents | |
JP3598711B2 (ja) | 文書ファイリング装置 | |
JP4677750B2 (ja) | 文書属性取得方法および装置並びにプログラムを記録した記録媒体 | |
KR101800975B1 (ko) | 필기체가 인식되어 생성된 전자문서의 공유 방법 및 그 장치 | |
JP2002342343A (ja) | 文書管理システム | |
JP7172343B2 (ja) | 文書検索用プログラム | |
Budig et al. | Glyph miner: a system for efficiently extracting glyphs from early prints in the context of OCR | |
JP2586372B2 (ja) | 情報検索装置及び情報検索方法 | |
JP2001094711A (ja) | ドキュメント画像処理装置及びドキュメント画像処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070816 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100317 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100324 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100524 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100713 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100901 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110104 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110117 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140210 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |