JP5310206B2 - 文書処理装置、文書処理方法および文書処理プログラム - Google Patents
文書処理装置、文書処理方法および文書処理プログラム Download PDFInfo
- Publication number
- JP5310206B2 JP5310206B2 JP2009094167A JP2009094167A JP5310206B2 JP 5310206 B2 JP5310206 B2 JP 5310206B2 JP 2009094167 A JP2009094167 A JP 2009094167A JP 2009094167 A JP2009094167 A JP 2009094167A JP 5310206 B2 JP5310206 B2 JP 5310206B2
- Authority
- JP
- Japan
- Prior art keywords
- heading
- text
- elements
- group
- document processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
(全体システム構成)
図1は、本発明の実施の形態に従う文書処理装置を含むシステムの概略構成図である。本実施の形態においては、代表的に、本発明に係る文書処理装置を搭載するMFP(Multi Function Peripheral)について説明する。なお、本発明に係る文書処理装置は、MFPに限らず、PC(Personal Computer)、複写機、ファクシミリ装置、スキャナ装置などにも適用可能である。
図2は、本発明の実施の形態に従うMFP1における概略のハードウェア構成を示すブロック図である。
図4は、本発明の実施の形態に従う端末PCの概略のハードウェア構成を示す模式図である。
図5は、本発明の実施の形態に従うMFP1の機能構成を示す機能ブロック図である。
修正部28は、UI部40から入力した修正指示に応じて、要素管理情報内のデータの修正・変更を行なう。修正が完了すると、要素管理情報のうち所定の情報をメタデータ生成部30に出力する。
図6は、本発明の実施の形態に従う電子化文書生成処理を示すフローチャートである。図6のフローチャートに示される電子化文書生成処理は、制御部100がプログラムをメモリ部102などに読出して実行し、図5に示される各機能を制御することで実現される。
図7を参照して、要素管理情報は、テキスト要素(k)ごとに、要素ID、頁番号、領域左上座標、領域右下座標、要素種別、要素グループID、統合見出し度(Hk)、重み係数(ここでは「wki」)、個別見出し度(ここでは「hki」)、見出しフラグ、文字列データを含む。
図8を参照して、画面SC10には、テキストデータを表示するためのテキスト表示領域500と、文書画像データを表示するための画像表示領域520とを含む。
抽出された全てのテキスト要素に対応する要素項目がUI部40において、選択状態として表示される。具体的には、たとえば、対象の要素項目の領域が、所定の色で表示される。
図10(A),(B)は、指定された全てのテキスト要素の見出し定義を反転する場合の画面遷移例を示す図である。
たとえば、図11(A)の画面SC40に示されるように、要素項目503が指定されていたとする。その場合に、再検出ボタンBT6が押下されると、修正部28は、要素項目503に対応のテキスト要素が含まれるグループについて、見出し判定ルール(見出し抽出ルール)を変更して見出しを再検出する。見出し判定ルールの変更は、同じグループ内において、指定されたテキスト要素(要素項目503に対応)と、それ以外のテキスト要素とで統合見出し度の差が大きくなるように、各特徴種別への重みを変更することにより行なわれる。これにより、指定されたテキスト要素だけが、見出し定義反転の対象となる可能性が高くなる。
<電子化文書の構造例について>
図12は、本発明の実施の形態においてMFP1が生成する電子化文書400のデータ構造の一例を示す図である。
図13を参照して、見出しメタデータには、図7に示した要素管理情報のうち、見出しと特定されたテキスト要素すなわち、見出し要素についての情報が格納される。
上記実施の形態では、一度、テキスト要素がグループ化されると、修正部28による修正処理の間も、グループIDは維持されるものであった。しかし、修正部28は、ユーザからの指示に基づいて、グループ中の一部のテキスト要素を別グループとして切り出す機能をさらに有していてもよい。
上述の実施の形態および変形例1では、たとえば図8や図14に示したように、テキスト表示領域500には、文書画像中のテキスト要素の配置順序(読み順)に従って、テキスト要素に対応する要素項目を配置した。そして、グループごとに、テキスト要素および要素項目の囲み枠の線種を代えて表示した。
Claims (14)
- 文書画像に含まれる複数のテキスト要素を、予め定められた複数の種類の行の特徴を示す特徴種別の特徴量に基づいてクラスタリングし、グループ化するグループ化手段と、
各前記テキスト要素の特徴種別に従う特徴量に基づいて、前記複数のテキスト要素から初期見出しに対応する要素項目を抽出する抽出手段と、
抽出された前記初期見出しに対応する要素項目と、前記複数のテキスト要素のうち前記初期見出しに対応する要素項目以外の要素項目を表わす初期非見出しに対応する要素項目とのうち少なくともいずれかについて、前記グループ化の結果に従いグループごとに区別して表示する表示手段と、
ユーザからの指示の入力を受付ける入力手段と、
前記指示に基づいて、前記表示手段に表示されている要素項目に関して見出しに対応する要素項目か否かを表す見出し定義を、グループ単位で修正する修正手段とを備える、文書処理装置。 - 前記入力手段は、前記指示として、ユーザより少なくとも一つのグループの指定を受付け、
前記修正手段は、ユーザに指定されたグループ内のテキスト要素が前記初期見出しに対応する要素項目である場合に、前記指定されたグループ内の前記初期見出しに対応する要素項目を、非見出しに対応する要素項目に修正する手段を含む、請求項1に記載の文書処理装置。 - 前記修正手段は、ユーザに指定されたグループ内のテキスト要素が前記初期非見出しに対応する要素項目である場合に、前記指定されたグループ内の前記初期非見出しに対応する要素項目を、見出しに対応する要素項目に修正する手段を含む、請求項1または2に記載の文書処理装置。
- 前記入力手段は、前記指示として、ユーザより少なくとも一つの要素項目の指定を受付け、
前記修正手段は、
ユーザに指定された要素項目が、テキスト要素の特徴量に基づいて前記初期見出しに対応する要素項目として抽出されていた場合に、当該テキスト要素が非見出しに対応する要素項目として抽出されるよう、特徴量に基づいて見出しを抽出するための見出し抽出ルールを変更する手段と、
前記指定された要素項目に対応するテキスト要素と同じグループに属するテキスト要素について、変更後の見出し抽出ルールに基づいて、見出しに対応する要素項目の再抽出を行なう手段とを含む、請求項1〜3のいずれか記載の文書処理装置。 - 前記修正手段は、ユーザに指定された要素項目が、テキスト要素の特徴量に基づいて前記初期非見出しに対応する要素項目として抽出されていた場合に、当該テキスト要素が見出しに対応する要素項目として抽出されるよう、特徴量に基づいて見出しを抽出するための見出し抽出ルールを変更する手段を含む、請求項1〜4のいずれか記載の文書処理装置。
- 前記抽出手段は、各前記テキスト要素について、各前記特徴種別に対応する見出し度と、当該見出し度に対応して割り当てられている重み係数とを種類毎にそれぞれ乗算して加算した加算値である統合見出し度を算出し、前記統合見出し度が所定のしきい値以上のテキスト要素を前記初期見出しに対応する要素項目として抽出し、
前記変更する手段は、前記指定された要素項目に対応するテキスト要素と同じグループに属する他のテキスト要素とについて、前記統合見出し度の差が大きくなるように前記見出し度に対応して割り当てられている重み係数を変更する、請求項4または5に記載の文書処理装置。 - 前記入力手段は、前記指示として、前記統合見出し度の境界となる要素項目の指定を受付ける手段を含み、
前記修正手段は、ユーザに指定された要素項目が前記非初期見出しに対応する要素項目である場合に、前記指定された要素項目に加え、前記指定された要素項目の統合見出し度以上の要素項目を修正対象と判断する、請求項6に記載の文書処理装置。 - 前記修正手段は、ユーザに指定された要素項目が前記初期見出しに対応する要素項目である場合に、前記指定された要素項目に加え、前記指定された要素項目の統合見出し度以下の要素項目を修正対象と判断する、請求項6または7に記載の文書処理装置。
- 前記修正手段は、ユーザに指定された要素項目を、新たなグループとして切り出す手段をさらに備える、請求項2〜8のいずれかに記載の文書処理装置。
- 前記表示手段は、前記テキスト要素、あるいは、前記テキスト要素に対応する抽出された要素項目を囲む枠の属性をグループごとに変えて表示する、請求項1〜9のいずれかに記載の文書処理装置。
- 前記表示手段は、グループごとに、前記テキスト要素に対応する抽出された要素項目を連続した位置に表示する、請求項1〜9のいずれかに記載の文書処理装置。
- 前記入力手段は、さらに、見出しに対応する要素項目のみの表示、非見出しに対応する要素項目のみの表示、および全ての要素項目の表示のうちいずれかの選択指示を受付け、
前記表示手段は、前記選択指示に応じた表示を行なう、請求項1〜11のいずれかに記載の文書処理装置。 - 文書画像を記憶する記憶部と表示部とを備えた文書処理装置において実行される方法であって、
前記記憶部に記憶された前記文書画像に含まれる複数のテキスト要素を、予め定められた複数の種類の業の特徴を示す特徴種別に基づいてクラスタリングし、グループ化するステップと、
各前記テキスト要素の特徴種別に従う特徴量に基づいて、前記複数のテキスト要素から初期見出しに対応する要素項目を抽出するステップと、
抽出された前記初期見出しに対応する要素項目と、前記複数のテキスト要素のうち前記初期見出しに対応する要素項目以外の要素項目を表わす初期非見出しに対応する要素項目とのうち少なくともいずれかについて、前記グループ化の結果に従いグループごとに区別して前記表示部に表示するステップと、
ユーザからの指示に基づいて、前記表示部に表示されている要素項目に関して見出しに対応する要素項目か否かを表す見出し定義を、グループ単位で修正するステップとを備える、文書処理方法。 - 文書画像を記憶する記憶部と表示部とを備えた文書処理装置のコンピュータにおいて実行される文書処理プログラムであって、
前記文書処理プログラムは、前記コンピュータに対して、
前記記憶部に記憶された前記文書画像に含まれる複数のテキスト要素を、予め定められた複数の種類の業の特徴を示す特徴種別に基づいてクラスタリングし、グループ化するステップと、
各前記テキスト要素の特徴種別に従う特徴量に基づいて、前記複数のテキスト要素から初期見出しに対応する要素項目を抽出するステップと、
抽出された前記初期見出しに対応する要素項目と、前記複数のテキスト要素のうち前記初期見出しに対応する要素項目以外の要素項目を表わす初期非見出しに対応する要素項目とのうち少なくともいずれかについて、前記グループ化の結果に従いグループごとに区別して前記表示部に表示するステップと、
ユーザからの指示に基づいて、前記表示部に表示されている要素項目に関して見出しに対応する要素項目か否かを表す見出し定義を、グループ単位で修正するステップとを備える、処理を実行させる、文書処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009094167A JP5310206B2 (ja) | 2009-04-08 | 2009-04-08 | 文書処理装置、文書処理方法および文書処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009094167A JP5310206B2 (ja) | 2009-04-08 | 2009-04-08 | 文書処理装置、文書処理方法および文書処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010244412A JP2010244412A (ja) | 2010-10-28 |
JP5310206B2 true JP5310206B2 (ja) | 2013-10-09 |
Family
ID=43097348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009094167A Expired - Fee Related JP5310206B2 (ja) | 2009-04-08 | 2009-04-08 | 文書処理装置、文書処理方法および文書処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5310206B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015145991A1 (ja) * | 2014-03-28 | 2015-10-01 | 日本電気株式会社 | 整合チェック箇所推定装置、整合チェックシステム、整合チェック箇所推定方法、整合性判定方法、および、記憶媒体 |
TWI549003B (zh) * | 2014-08-18 | 2016-09-11 | 葆光資訊有限公司 | 自動切割章節方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3525443B2 (ja) * | 1992-09-30 | 2004-05-10 | 富士ゼロックス株式会社 | 文書処理装置 |
JPH11175520A (ja) * | 1997-12-09 | 1999-07-02 | Fuji Xerox Co Ltd | 文書解析方法および文書解析装置 |
JP2002297638A (ja) * | 2001-03-29 | 2002-10-11 | Ricoh Co Ltd | 文書画像からのタイトル抽出方法 |
JP4480421B2 (ja) * | 2004-03-04 | 2010-06-16 | 富士通株式会社 | 文書画像レイアウト解析プログラム |
JP5176416B2 (ja) * | 2007-07-20 | 2013-04-03 | コニカミノルタビジネステクノロジーズ株式会社 | 文書処理装置、文書処理方法、および文書処理プログラム |
-
2009
- 2009-04-08 JP JP2009094167A patent/JP5310206B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010244412A (ja) | 2010-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4926004B2 (ja) | 文書処理装置、文書処理方法及び文書処理プログラム | |
US8429154B2 (en) | Document search device, imaging forming apparatus, and document search system | |
JP2010073114A6 (ja) | 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム | |
JP2010073114A (ja) | 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム | |
JP2008234658A (ja) | テキスト検索エンジンにより検索されたページ番号付き文書全体を通してのコースツーファイン・ナビゲーション | |
JP2010086151A (ja) | データ生成装置、スキャナ、及びコンピュータプログラム | |
US20210306494A1 (en) | Information processing apparatus, and non-transitory computer readable medium | |
JP4682284B2 (ja) | 文書差分検出装置 | |
US9310971B2 (en) | Document viewing device for display document data | |
US20110075932A1 (en) | Image processing method and image processing apparatus for extracting heading region from image of document | |
JP2009169675A (ja) | 文書処理装置、文書処理方法および文書処理プログラム | |
JP5412916B2 (ja) | 文書画像処理装置、文書画像処理方法および文書画像処理プログラム | |
JP5310206B2 (ja) | 文書処理装置、文書処理方法および文書処理プログラム | |
US20220068276A1 (en) | Information processor, print system, and control method | |
JP2012015896A (ja) | 画像処理装置 | |
US20110075941A1 (en) | Data managing apparatus, data managing method and information storing medium storing a data managing program | |
JP2006085234A (ja) | 電子文書作成装置、電子文書作成方法及び電子文書作成プログラム | |
JP7302175B2 (ja) | 情報処理装置、及び情報処理プログラム | |
JP7383882B2 (ja) | 情報処理装置、及び情報処理プログラム | |
JP5298484B2 (ja) | 文書処理装置 | |
US20190235797A1 (en) | Image processing apparatus and storage medium | |
JP2011039839A (ja) | 文書処理装置、文書処理方法および文書処理プログラム | |
JP2019160213A (ja) | 情報処理システム、情報処理方法及びプログラム | |
JP2004206521A (ja) | 文書検索装置および文書検索プログラム | |
JP2010061623A (ja) | 文書処理装置、文書処理方法および文書処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111019 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130314 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130326 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20130415 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130508 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130604 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130617 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |