JP7095541B2 - 階層構造認識プログラム、階層構造認識方法及び階層構造認識装置 - Google Patents
階層構造認識プログラム、階層構造認識方法及び階層構造認識装置 Download PDFInfo
- Publication number
- JP7095541B2 JP7095541B2 JP2018190967A JP2018190967A JP7095541B2 JP 7095541 B2 JP7095541 B2 JP 7095541B2 JP 2018190967 A JP2018190967 A JP 2018190967A JP 2018190967 A JP2018190967 A JP 2018190967A JP 7095541 B2 JP7095541 B2 JP 7095541B2
- Authority
- JP
- Japan
- Prior art keywords
- display target
- hierarchical structure
- area
- character
- tabular data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Description
(1)最上位の見出し(図3の「1.」、「2.」…から始まる文字列)は必ず縦(列方向)に並ぶように配置され、横(行方向)に並ぶことはない。
(2)見出しレベルが同じ文字列(表形式データの階層構造において同一階層に位置する文字列)は、同一列に位置するセル又は同一行に位置するセルが選択された状態で入力される。
例えば、13行目の「(1)」、「(2)」から始まる文字列は、同一行のセル(13,2)、(13,23)が選択された状態で入力されたものである。また、3列目の丸数字から始まる文字列は、同一列のセル(14,3)、(18,3)が選択された状態で入力されたものである。
(3)段組がある場合は、段につき必ず1行の見出しを含む。また、見出しの先頭には、予め定められている見出し文字や見出し文字群(同形式の連番「1.」、「2.」、…や「(1)」、「(2)」、…、同一マーク「■」、「■」、…など)が存在するものとする。なお、以下においては、説明の便宜上「1.」や「(1)」など複数の文字を含む見出し文字群についても「見出し文字」と表記するものとする。
ステップS10の階層構造の抽出処理は、表形式データがコンテクスト情報提供装置10に入力された場合において実行される処理であり、図6のフローチャートに沿って実行される。なお、コンテクスト情報提供装置10に表形式データが入力されると、表形式データの情報として、図7に示すようなシートテーブル30が入力されることになる。シートテーブル30には、表形式データに含まれる各文字列(content)の情報と、各文字列が入力されたセルの座標(R1,C1)と、各文字列のフォントサイズ(fontsize)の情報が格納されている。なお、シートテーブル30に格納されている情報は、各文字列の属性であると言える。
C2=C1+CEILING((文字列のバイト数×2×(フォントサイズ+字送り)+2×セルパディング)/(セルピクセル数+罫線太さ)) …(1)
図9の処理において、階層構造抽出部20は、まずステップS30の注目領域の初期化処理を実行する。ここでは、図10(a)に示すように注目領域を表形式データの全体領域((1,1)、(65535,65535))とする。
図12の処理において、階層構造抽出部20は、まずステップS50の注目領域の初期化処理を実行する。ここでは、一例として、図13(a)に示すように、上記ステップS24で新たに分割された領域00((1,1)、(4,46))が注目領域として設定されたものとする。
次に、図4のステップS12において実行されるコンテクスト情報の抽出処理について説明する。コンテクスト情報抽出部22は、ステップS12の処理として、図19のフローチャートに沿った処理を実行する。
(付記1) 表形式データの表示対象要素それぞれをレイアウトしたときに、前記表示対象要素が行方向に沿って伸び、かつ前記表示対象要素が列方向に並んで配列される場合に、前記表示対象要素それぞれの属性に基づき、前記表形式データをレイアウトしたときの前記表示対象要素それぞれの占有領域を特定し、
所定行数の注目領域において、前記占有領域が存在しない空白部分が前記列方向に沿って延びており、かつ、前記空白部分の前記行方向の一側に存在する第1の表示対象要素群の前記行方向の先頭に位置する文字又は文字群と、前記空白部分の前記行方向の他側に存在する第2の表示対象要素群の前記行方向の先頭に位置する文字又は文字群とが予め定めたものであった場合に、前記第1、第2の表示対象要素群を同一階層として前記表形式データの階層構造を認識する、
処理をコンピュータに実行させるための階層構造認識プログラム。
(付記2) 前記表形式データの所定領域において、前記行方向の先頭に位置する文字又は文字群が予め定めたものである前記表示対象要素を特定して、特定した前記表示対象要素に基づいて前記表形式データを複数領域に分割し、該複数領域それぞれを前記注目領域とする処理を前記コンピュータに更に実行させる、付記1に記載の階層構造認識プログラム。
(付記3) 前記複数領域それぞれを前記階層構造における同一階層とする処理を前記コンピュータに更に実行させる、付記2に記載の階層構造認識プログラム。
(付記4) 前記認識する処理の後、前記注目領域又は前記第1、第2の表示対象要素群を前記所定領域として、前記注目領域とする処理と前記認識する処理とを実行する、ことを特徴とする付記2又は3に記載の階層構造認識プログラム。
(付記5) 前記表示対象要素のいずれかの選択を受け付け、
前記表形式データの階層構造に基づいて、選択された前記表示対象要素の前記階層構造に関する情報を出力する、ことを特徴とする付記1~4のいずれかに記載の階層構造認識プログラム。
(付記6) 表形式データの表示対象要素それぞれをレイアウトしたときに、前記表示対象要素が行方向に沿って伸び、かつ前記表示対象要素が列方向に並んで配列される場合に、前記表示対象要素それぞれの属性に基づき、前記表形式データをレイアウトしたときの前記表示対象要素それぞれの占有領域を特定し、
所定行数の注目領域において、前記占有領域が存在しない空白部分が前記列方向に沿って延びており、かつ、前記空白部分の前記行方向の一側に存在する第1の表示対象要素群の前記行方向の先頭に位置する文字又は文字群と、前記空白部分の前記行方向の他側に存在する第2の表示対象要素群の前記行方向の先頭に位置する文字又は文字群とが予め定めたものであった場合に、前記第1、第2の表示対象要素群を同一階層として前記表形式データの階層構造を認識する、
処理をコンピュータが実行することを特徴とする階層構造認識方法。
(付記7) 表形式データの表示対象要素それぞれをレイアウトしたときに、前記表示対象要素が行方向に沿って伸び、かつ前記表示対象要素が列方向に並んで配列される場合に、前記表示対象要素それぞれの属性に基づき、前記表形式データをレイアウトしたときの前記表示対象要素それぞれの占有領域を特定する特定部と、
所定行数の注目領域において、前記占有領域が存在しない空白部分が前記列方向に沿って延びており、かつ、前記空白部分の前記行方向の一側に存在する第1の表示対象要素群の前記行方向の先頭に位置する文字又は文字群と、前記空白部分の前記行方向の他側に存在する第2の表示対象要素群の前記行方向の先頭に位置する文字又は文字群とが予め定めたものであった場合に、前記第1、第2の表示対象要素群を同一階層として前記表形式データの階層構造を認識する認識部と、
を備える階層構造認識装置。
(付記8) 前記表形式データの所定領域において、前記行方向の先頭に位置する文字又は文字群が予め定めたものである前記表示対象要素を特定して、特定した前記表示対象要素に基づいて前記表形式データを複数領域に分割し、該複数領域それぞれを前記注目領域とする処理部を更に備える付記7に記載の階層構造認識装置。
(付記9) 前記処理部は、前記複数領域それぞれを前記階層構造における同一階層とすることを特徴とする付記8に記載の階層構造認識装置。
(付記10) 前記認識部の処理の後、前記注目領域又は前記第1、第2の表示対象要素群を前記所定領域として、前記処理部及び前記認識部が処理を実行する、ことを特徴とする付記8又は9に記載の階層構造認識装置。
(付記11) 前記表示対象要素のいずれかの選択を受け付け、前記表形式データの階層構造に基づいて、選択された前記表示対象要素の前記階層構造に関する情報を出力する出力部を更に備える付記7~10のいずれかに記載の階層構造認識装置。
20 階層構造抽出部(特定部、認識部、処理部)
22 コンテクスト情報抽出部(出力部)
Claims (7)
- 表形式データの表示対象要素それぞれをレイアウトしたときに、前記表示対象要素が行方向に沿って伸び、かつ前記表示対象要素が列方向に並んで配列される場合に、前記表示対象要素それぞれの属性に基づき、前記表形式データをレイアウトしたときの前記表示対象要素それぞれの占有領域を特定し、
所定行数の注目領域において、前記占有領域が存在しない空白部分が前記列方向に沿って延びており、かつ、前記空白部分の前記行方向の一側に存在する第1の表示対象要素群の前記行方向の先頭に位置する文字又は文字群と、前記空白部分の前記行方向の他側に存在する第2の表示対象要素群の前記行方向の先頭に位置する文字又は文字群とが予め定めたものであった場合に、前記第1、第2の表示対象要素群を同一階層として前記表形式データの階層構造を認識する、
処理をコンピュータに実行させるための階層構造認識プログラム。 - 前記表形式データの所定領域において、前記行方向の先頭に位置する文字又は文字群が予め定めたものである前記表示対象要素を特定して、特定した前記表示対象要素に基づいて前記表形式データを複数領域に分割し、該複数領域それぞれを前記注目領域とする処理を前記コンピュータに更に実行させる、請求項1に記載の階層構造認識プログラム。
- 前記複数領域それぞれを前記階層構造における同一階層とする処理を前記コンピュータに更に実行させる、請求項2に記載の階層構造認識プログラム。
- 前記認識する処理の後、前記注目領域又は前記第1、第2の表示対象要素群を前記所定領域として、前記注目領域とする処理と前記認識する処理とを実行する、ことを特徴とする請求項2又は3に記載の階層構造認識プログラム。
- 前記表示対象要素のいずれかの選択を受け付け、
前記表形式データの階層構造に基づいて、選択された前記表示対象要素の前記階層構造に関する情報を出力する、ことを特徴とする請求項1~4のいずれか一項に記載の階層構造認識プログラム。 - 表形式データの表示対象要素それぞれをレイアウトしたときに、前記表示対象要素が行方向に沿って伸び、かつ前記表示対象要素が列方向に並んで配列される場合に、前記表示対象要素それぞれの属性に基づき、前記表形式データをレイアウトしたときの前記表示対象要素それぞれの占有領域を特定し、
所定行数の注目領域において、前記占有領域が存在しない空白部分が前記列方向に沿って延びており、かつ、前記空白部分の前記行方向の一側に存在する第1の表示対象要素群の前記行方向の先頭に位置する文字又は文字群と、前記空白部分の前記行方向の他側に存在する第2の表示対象要素群の前記行方向の先頭に位置する文字又は文字群とが予め定めたものであった場合に、前記第1、第2の表示対象要素群を同一階層として前記表形式データの階層構造を認識する、
処理をコンピュータが実行することを特徴とする階層構造認識方法。 - 表形式データの表示対象要素それぞれをレイアウトしたときに、前記表示対象要素が行方向に沿って伸び、かつ前記表示対象要素が列方向に並んで配列される場合に、前記表示対象要素それぞれの属性に基づき、前記表形式データをレイアウトしたときの前記表示対象要素それぞれの占有領域を特定する特定部と、
所定行数の注目領域において、前記占有領域が存在しない空白部分が前記列方向に沿って延びており、かつ、前記空白部分の前記行方向の一側に存在する第1の表示対象要素群の前記行方向の先頭に位置する文字又は文字群と、前記空白部分の前記行方向の他側に存在する第2の表示対象要素群の前記行方向の先頭に位置する文字又は文字群とが予め定めたものであった場合に、前記第1、第2の表示対象要素群を同一階層として前記表形式データの階層構造を認識する認識部と、
を備える階層構造認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018190967A JP7095541B2 (ja) | 2018-10-09 | 2018-10-09 | 階層構造認識プログラム、階層構造認識方法及び階層構造認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018190967A JP7095541B2 (ja) | 2018-10-09 | 2018-10-09 | 階層構造認識プログラム、階層構造認識方法及び階層構造認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020060905A JP2020060905A (ja) | 2020-04-16 |
JP7095541B2 true JP7095541B2 (ja) | 2022-07-05 |
Family
ID=70220820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018190967A Active JP7095541B2 (ja) | 2018-10-09 | 2018-10-09 | 階層構造認識プログラム、階層構造認識方法及び階層構造認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7095541B2 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007323291A (ja) | 2006-05-31 | 2007-12-13 | Nec Corp | 文書処理システム、文書処理方法及び文書処理プログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0821057B2 (ja) * | 1987-07-10 | 1996-03-04 | 日本電気株式会社 | 文書画像解析方式 |
US5131053A (en) * | 1988-08-10 | 1992-07-14 | Caere Corporation | Optical character recognition method and apparatus |
JP3254896B2 (ja) * | 1994-04-18 | 2002-02-12 | 富士ゼロックス株式会社 | 文書画像処理装置 |
-
2018
- 2018-10-09 JP JP2018190967A patent/JP7095541B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007323291A (ja) | 2006-05-31 | 2007-12-13 | Nec Corp | 文書処理システム、文書処理方法及び文書処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2020060905A (ja) | 2020-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7853869B2 (en) | Creation of semantic objects for providing logical structure to markup language representations of documents | |
JP3425408B2 (ja) | 文書読取装置 | |
JP6282116B2 (ja) | キャプチャーされた画像データのスプレッドシートとの関連付け | |
US8107727B2 (en) | Document processing apparatus, document processing method, and computer program product | |
US9269323B2 (en) | Image layout for a display | |
US9542363B2 (en) | Processing of page-image based document to generate a re-targeted document for different display devices which support different types of user input methods | |
JP2014522048A (ja) | 漢字構成方法および装置、文字構成方法および装置、ならびにフォントライブラリ構築方法 | |
CN111428457B (zh) | 数据表的自动格式化 | |
CN110705503B (zh) | 生成目录结构化信息的方法和装置 | |
KR102248823B1 (ko) | 데이터 시각화 서비스 시스템, 방법 및 어플리케이션 | |
US20170132484A1 (en) | Two Step Mathematical Expression Search | |
US8326812B2 (en) | Data search device, data search method, and recording medium | |
JP5551986B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP2013254321A (ja) | 画像処理装置、画像処理方法及びプログラム | |
JP7095541B2 (ja) | 階層構造認識プログラム、階層構造認識方法及び階層構造認識装置 | |
JP2008108114A (ja) | 文書処理装置および文書処理方法 | |
JP6441142B2 (ja) | 検索装置、方法及びプログラム | |
JPH08320914A (ja) | 表認識方法および装置 | |
CN103488619A (zh) | 一种用于进行文档文件处理的方法及装置 | |
JP3898645B2 (ja) | 帳票書式編集装置および帳票書式編集プログラム | |
JP2016103150A (ja) | 文書処理装置および文書処理プログラム | |
CN112633279A (zh) | 文本识别方法、装置和系统 | |
JP5219543B2 (ja) | 情報処理装置及び情報処理方法及びプログラム | |
KR102313056B1 (ko) | 사용자 맞춤형 폰트의 생성에 이용되는 시트, 사용자 맞춤형 폰트를 생성하는 디바이스 및 방법 | |
JP2019192959A (ja) | 情報処理装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210610 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220518 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220524 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220606 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7095541 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |