JP2010244412A - 文書処理装置、文書処理方法および文書処理プログラム - Google Patents
文書処理装置、文書処理方法および文書処理プログラム Download PDFInfo
- Publication number
- JP2010244412A JP2010244412A JP2009094167A JP2009094167A JP2010244412A JP 2010244412 A JP2010244412 A JP 2010244412A JP 2009094167 A JP2009094167 A JP 2009094167A JP 2009094167 A JP2009094167 A JP 2009094167A JP 2010244412 A JP2010244412 A JP 2010244412A
- Authority
- JP
- Japan
- Prior art keywords
- heading
- text
- initial
- group
- designated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】文書処理装置は、文書画像に含まれる複数のテキスト要素を、予め定められた複数の特徴種別に基づいてグループ化する(S10)。また、各テキスト要素の特徴に基づいて、複数のテキスト要素から初期見出し要素を抽出し(S12,S14)、抽出された初期見出し要素と、複数のテキスト要素のうち初期見出し要素以外の要素を表わす初期非見出し要素とのうち少なくともいずれかについて、グループ化の結果に従いグループごとに区別して表示する(S16)。さらに、文書処理装置は、ユーザからの指示に基づいて、表示されている要素の見出し定義を、グループ単位で修正する(S18,S20)。
【選択図】図6
Description
(全体システム構成)
図1は、本発明の実施の形態に従う文書処理装置を含むシステムの概略構成図である。本実施の形態においては、代表的に、本発明に係る文書処理装置を搭載するMFP(Multi Function Peripheral)について説明する。なお、本発明に係る文書処理装置は、MFPに限らず、PC(Personal Computer)、複写機、ファクシミリ装置、スキャナ装置などにも適用可能である。
図2は、本発明の実施の形態に従うMFP1における概略のハードウェア構成を示すブロック図である。
図4は、本発明の実施の形態に従う端末PCの概略のハードウェア構成を示す模式図である。
図5は、本発明の実施の形態に従うMFP1の機能構成を示す機能ブロック図である。
修正部28は、UI部40から入力した修正指示に応じて、要素管理情報内のデータの修正・変更を行なう。修正が完了すると、要素管理情報のうち所定の情報をメタデータ生成部30に出力する。
図6は、本発明の実施の形態に従う電子化文書生成処理を示すフローチャートである。図6のフローチャートに示される電子化文書生成処理は、制御部100がプログラムをメモリ部102などに読出して実行し、図5に示される各機能を制御することで実現される。
図7を参照して、要素管理情報は、テキスト要素(k)ごとに、要素ID、頁番号、領域左上座標、領域右下座標、要素種別、要素グループID、統合見出し度(Hk)、重み係数(ここでは「wki」)、個別見出し度(ここでは「hki」)、見出しフラグ、文字列データを含む。
図8を参照して、画面SC10には、テキストデータを表示するためのテキスト表示領域500と、文書画像データを表示するための画像表示領域520とを含む。
抽出された全てのテキスト要素に対応する要素項目がUI部40において、選択状態として表示される。具体的には、たとえば、対象の要素項目の領域が、所定の色で表示される。
図10(A),(B)は、指定された全てのテキスト要素の見出し定義を反転する場合の画面遷移例を示す図である。
たとえば、図11(A)の画面SC40に示されるように、要素項目503が指定されていたとする。その場合に、再検出ボタンBT6が押下されると、修正部28は、要素項目503に対応のテキスト要素が含まれるグループについて、見出し判定ルール(見出し抽出ルール)を変更して見出しを再検出する。見出し判定ルールの変更は、同じグループ内において、指定されたテキスト要素(要素項目503に対応)と、それ以外のテキスト要素とで統合見出し度の差が大きくなるように、各特徴種別への重みを変更することにより行なわれる。これにより、指定されたテキスト要素だけが、見出し定義反転の対象となる可能性が高くなる。
<電子化文書の構造例について>
図12は、本発明の実施の形態においてMFP1が生成する電子化文書400のデータ構造の一例を示す図である。
図13を参照して、見出しメタデータには、図7に示した要素管理情報のうち、見出しと特定されたテキスト要素すなわち、見出し要素についての情報が格納される。
上記実施の形態では、一度、テキスト要素がグループ化されると、修正部28による修正処理の間も、グループIDは維持されるものであった。しかし、修正部28は、ユーザからの指示に基づいて、グループ中の一部のテキスト要素を別グループとして切り出す機能をさらに有していてもよい。
上述の実施の形態および変形例1では、たとえば図8や図14に示したように、テキスト表示領域500には、文書画像中のテキスト要素の配置順序(読み順)に従って、テキスト要素に対応する要素項目を配置した。そして、グループごとに、テキスト要素および要素項目の囲み枠の線種を代えて表示した。
Claims (14)
- 文書画像に含まれる複数のテキスト要素を、予め定められた複数の特徴種別に基づいてグループ化するためのグループ化手段と、
各前記テキスト要素の特徴に基づいて、前記複数のテキスト要素から初期見出し要素を抽出するための抽出手段と、
抽出された前記初期見出し要素と、前記複数のテキスト要素のうち前記初期見出し要素以外の要素を表わす初期非見出し要素とのうち少なくともいずれかについて、前記グループ化の結果に従いグループごとに区別して表示するための表示手段と、
ユーザからの指示の入力を受付けるための入力手段と、
前記指示に基づいて、前記表示手段に表示されている要素の見出し定義を、グループ単位で修正するための修正手段とを備える、文書処理装置。 - 前記入力手段は、前記指示として、ユーザより少なくとも一つのグループの指定を受付け、
前記修正手段は、ユーザに指定されたグループ内のテキスト要素が前記初期見出し要素である場合に、前記指定されたグループ内のテキスト要素を、非見出し要素に修正するための手段を含む、請求項1に記載の文書処理装置。 - 前記修正手段は、ユーザに指定されたグループ内のテキスト要素が前記初期非見出し要素である場合に、前記指定されたグループ内のテキスト要素を、見出し要素に修正するための手段を含む、請求項1または2に記載の文書処理装置。
- 前記入力手段は、前記指示として、ユーザより少なくとも一つのテキスト要素の指定を受付け、
前記修正手段は、
ユーザに指定されたテキスト要素が前記初期見出し要素である場合に、前記指定されたテキスト要素が、非見出し要素として抽出されるよう、見出し抽出の適用ルールを変更するための手段と、
前記指定されたテキスト要素と同じグループに属するテキスト要素について、変更後の適用ルールに基づいて、見出しの再抽出を行なうための手段とを含む、請求項1〜3のいずれか記載の文書処理装置。 - 前記修正手段は、ユーザに指定されたテキスト要素が前記初期非見出し要素である場合に、前記指定されたテキスト要素が、見出し要素として抽出されるよう、見出し抽出の適用ルールを変更するための手段を含む、請求項1〜4のいずれか記載の文書処理装置。
- 前記抽出手段は、前記各テキスト要素について、各前記特徴種別に対する見出し度の重み付け加算値による統合見出し度を算出し、前記統合見出し度が所定のしきい値以上のテキスト要素を前記初期見出しとして抽出し、
前記変更するための手段は、前記指定されたテキスト要素と、前記同じグループに属する他のテキスト要素とで前記統合見出し度の差が大きくなるよう前記各特徴種別への重みを変更する、請求項4または5に記載の文書処理装置。 - 前記入力手段は、前記指示として、前記統合見出し度の境界となるテキスト要素の指定を受付けるための手段を含み、
前記修正手段は、ユーザに指定されたテキスト要素が前記非初期見出し要素である場合に、前記指定されたテキスト要素に加え、前記指定されたテキスト要素の統合見出し度以上のテキスト要素を修正対象と判断する、請求項6に記載の文書処理装置。 - 前記修正手段は、ユーザに指定されたテキスト要素が前記初期見出し要素である場合に、前記指定されたテキスト要素に加え、前記指定されたテキスト要素の統合見出し度以下のテキスト要素を修正対象と判断する、請求項6または7に記載の文書処理装置。
- 前記修正手段は、ユーザに指定されたテキスト要素を、新たなグループとして切り出すための手段をさらに備える、請求項2〜8のいずれかに記載の文書処理装置。
- 前記表示手段は、前記テキスト要素、あるいは、前記テキスト要素に対応する要素項目を囲む枠の属性をグループごとに変えて表示する、請求項1〜9のいずれかに記載の文書処理装置。
- 前記表示手段は、グループごとに、前記テキスト要素に対応する要素項目を連続した位置に表示する、請求項1〜9のいずれかに記載の文書処理装置。
- 前記入力手段は、さらに、見出しのみの表示、非見出しのみの表示、および全表示のうちいずれかの選択指示を受付け、
前記表示手段は、前記選択指示に応じた表示を行なう、請求項1〜11のいずれかに記載の文書処理装置。 - 文書画像を記憶する記憶部と表示部とを備えた文書処理装置において実行される方法であって、
前記記憶部に記憶された前記文書画像に含まれる複数のテキスト要素を、予め定められた複数の特徴種別に基づいてグループ化するステップと、
各前記テキスト要素の特徴に基づいて、前記複数のテキスト要素から初期見出し要素を抽出するステップと、
抽出された前記初期見出し要素と、前記複数のテキスト要素のうち前記初期見出し要素以外の要素を表わす初期非見出し要素とのうち少なくともいずれかについて、前記グループ化の結果に従いグループごとに区別して前記表示部に表示するステップと、
ユーザからの指示に基づいて、前記表示部に表示されている要素の見出し定義を、グループ単位で修正するステップとを備える、文書処理方法。 - 文書画像に含まれる複数のテキスト要素を、予め定められた複数の特徴種別に基づいてグループ化するステップと、
各前記テキスト要素の特徴に基づいて、前記複数のテキスト要素から初期見出し要素を抽出するステップと、
抽出された前記初期見出し要素と、前記複数のテキスト要素のうち前記初期見出し要素以外の要素を表わす初期非見出し要素とのうち少なくともいずれかについて、前記グループ化の結果に従いグループごとに区別して表示するステップと、
ユーザからの指示に基づいて、表示されている要素の見出し定義を、グループ単位で修正するステップとをコンピュータに実行させる、文書処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009094167A JP5310206B2 (ja) | 2009-04-08 | 2009-04-08 | 文書処理装置、文書処理方法および文書処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009094167A JP5310206B2 (ja) | 2009-04-08 | 2009-04-08 | 文書処理装置、文書処理方法および文書処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010244412A true JP2010244412A (ja) | 2010-10-28 |
JP5310206B2 JP5310206B2 (ja) | 2013-10-09 |
Family
ID=43097348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009094167A Expired - Fee Related JP5310206B2 (ja) | 2009-04-08 | 2009-04-08 | 文書処理装置、文書処理方法および文書処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5310206B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016042349A (ja) * | 2014-08-18 | 2016-03-31 | 金舷國際文創事業有限公司 | 章・セクションの自動分割方法 |
JPWO2015145991A1 (ja) * | 2014-03-28 | 2017-04-13 | 日本電気株式会社 | 整合チェック箇所推定装置、整合チェックシステム、整合チェック箇所推定方法、および、整合チェック箇所推定プログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06110883A (ja) * | 1992-09-30 | 1994-04-22 | Fuji Xerox Co Ltd | 文書処理装置 |
JPH11175520A (ja) * | 1997-12-09 | 1999-07-02 | Fuji Xerox Co Ltd | 文書解析方法および文書解析装置 |
JP2002297638A (ja) * | 2001-03-29 | 2002-10-11 | Ricoh Co Ltd | 文書画像からのタイトル抽出方法 |
JP2005250816A (ja) * | 2004-03-04 | 2005-09-15 | Fujitsu Ltd | 文書画像レイアウト解析プログラム |
JP2009026122A (ja) * | 2007-07-20 | 2009-02-05 | Konica Minolta Business Technologies Inc | 文書処理装置、文書処理方法、および文書処理プログラム |
-
2009
- 2009-04-08 JP JP2009094167A patent/JP5310206B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06110883A (ja) * | 1992-09-30 | 1994-04-22 | Fuji Xerox Co Ltd | 文書処理装置 |
JPH11175520A (ja) * | 1997-12-09 | 1999-07-02 | Fuji Xerox Co Ltd | 文書解析方法および文書解析装置 |
JP2002297638A (ja) * | 2001-03-29 | 2002-10-11 | Ricoh Co Ltd | 文書画像からのタイトル抽出方法 |
JP2005250816A (ja) * | 2004-03-04 | 2005-09-15 | Fujitsu Ltd | 文書画像レイアウト解析プログラム |
JP2009026122A (ja) * | 2007-07-20 | 2009-02-05 | Konica Minolta Business Technologies Inc | 文書処理装置、文書処理方法、および文書処理プログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2015145991A1 (ja) * | 2014-03-28 | 2017-04-13 | 日本電気株式会社 | 整合チェック箇所推定装置、整合チェックシステム、整合チェック箇所推定方法、および、整合チェック箇所推定プログラム |
JP2016042349A (ja) * | 2014-08-18 | 2016-03-31 | 金舷國際文創事業有限公司 | 章・セクションの自動分割方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5310206B2 (ja) | 2013-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4926004B2 (ja) | 文書処理装置、文書処理方法及び文書処理プログラム | |
US8429154B2 (en) | Document search device, imaging forming apparatus, and document search system | |
JP2009295153A (ja) | ウェブベースのテキスト検出方法及びシステム | |
JP2010073114A6 (ja) | 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム | |
JP2010073114A (ja) | 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム | |
US20060075334A1 (en) | Information processing apparatus, history file generation method and program | |
US20180234562A1 (en) | Information processing apparatus, control method of information processing apparatus, and recording medium | |
JP2010086151A (ja) | データ生成装置、スキャナ、及びコンピュータプログラム | |
US9310971B2 (en) | Document viewing device for display document data | |
US20110075932A1 (en) | Image processing method and image processing apparatus for extracting heading region from image of document | |
US20220068276A1 (en) | Information processor, print system, and control method | |
JP2009169675A (ja) | 文書処理装置、文書処理方法および文書処理プログラム | |
JP5412916B2 (ja) | 文書画像処理装置、文書画像処理方法および文書画像処理プログラム | |
JP5310206B2 (ja) | 文書処理装置、文書処理方法および文書処理プログラム | |
JP2012015896A (ja) | 画像処理装置 | |
US20110075941A1 (en) | Data managing apparatus, data managing method and information storing medium storing a data managing program | |
JP4747828B2 (ja) | 履歴管理装置 | |
JP2006085234A (ja) | 電子文書作成装置、電子文書作成方法及び電子文書作成プログラム | |
JP7302175B2 (ja) | 情報処理装置、及び情報処理プログラム | |
JP7383882B2 (ja) | 情報処理装置、及び情報処理プログラム | |
JP2007018158A (ja) | 文字処理装置、文字処理方法及び記録媒体 | |
JP5298484B2 (ja) | 文書処理装置 | |
JP2019160213A (ja) | 情報処理システム、情報処理方法及びプログラム | |
JPH10162024A (ja) | 電子ファイリング方法及び電子ファイリング装置 | |
JP2011039839A (ja) | 文書処理装置、文書処理方法および文書処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111019 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130314 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130326 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20130415 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130508 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130604 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130617 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |