JP2018037017A - 分析装置、分析方法、および分析プログラム - Google Patents
分析装置、分析方法、および分析プログラム Download PDFInfo
- Publication number
- JP2018037017A JP2018037017A JP2016171935A JP2016171935A JP2018037017A JP 2018037017 A JP2018037017 A JP 2018037017A JP 2016171935 A JP2016171935 A JP 2016171935A JP 2016171935 A JP2016171935 A JP 2016171935A JP 2018037017 A JP2018037017 A JP 2018037017A
- Authority
- JP
- Japan
- Prior art keywords
- cell
- common
- document
- group
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】分析装置は、プログラムを実行するプロセッサと、前記プログラムおよびスプレッドシート形式の文書群を記憶する記憶デバイスと、を有する。プロセッサは、記憶デバイスから文書群を取得する取得処理と、取得処理によって取得された文書群内の文書間における各文書内のセルに含まれる文字列と、文字列を含むセルの位置と、の共通性に基づいて、文書群内の文書を、様式が共通する1以上の共通様式グループに分類する分類処理と、分類処理による分類結果を出力する出力処理と、を実行することを特徴とする。
【選択図】図1
Description
本例で対象となる文書は、上述したように、たとえば、システムの入力設定ファイルやバッチ出力される帳票ファイル、アプリケーションのログファイルのような、レイアウト属性情報を持つスプレッドシート形式文書のほか、CSV形式をはじめとする書式や罫線のレイアウト属性情報を持たないスプレッドシート形式文書を含む。
図2は、分析装置のハードウェア構成例を示すブロック図である。分析装置200は、プロセッサ201と、記憶デバイス202と、入力デバイス203と、出力デバイス204と、通信インターフェース(通信IF205)と、を有する。プロセッサ201、記憶デバイス202、入力デバイス203、出力デバイス204、および通信IF205は、バスにより接続される。プロセッサ201は、分析装置200を制御する。記憶デバイス202は、プロセッサ201の作業エリアとなる。また、記憶デバイス202は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス202としては、たとえば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリがある。入力デバイス203は、データを入力する。入力デバイス203としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナがある。出力デバイス204は、データを出力する。出力デバイス204としては、たとえば、ディスプレイ、プリンタがある。通信IF205は、ネットワークと接続し、データを送受信する。
図3は、文書dの一例を示す説明図である。文書dは、たとえば、スプレッドシート形式で作成されたシステム開発文書である。文書dは、セル群を有する。セルは、行列番号の位置情報と当該位置情報に関連付けられる文字列とから成る構成要素である。文書dは、たとえば、表計算用のソフトウェアで作成されたファイルや、カンマや空白等の区切り文字で要素を区切ったCSVファイルやテキストファイルを含む。
図4は、様式定義情報の一例を示す説明図である。様式定義情報400は、分析装置200の出力情報である。様式定義情報400は、文書dの様式一つに対して一つ生成する。様式定義情報400は、様式名称410と、様式判定条件420と、項目定義情報430と、を有する。
図5は、分析装置200の機能的構成例を示すブロック図である。分析装置200は、分類部501と、セル特定部502と、関連付け処理部503と、条件特定部504と、出力部505と、修正部506と、を有する。各構成は、図2に示した記憶デバイスに記憶されたプログラムをプロセッサに実行させることにより実現される。また、分析装置200は、分析装置200内または分析装置200外の文書DB500にアクセス可能である。DB500は、文書群dsや様式定義情報400を記憶する。文書群dsに含まれる文書の一例が図3に示した文書である。DB500は、具体的には、たとえば、図2に示した記憶デバイスにより実現される。
図13は、分析装置200による分析処理手順例を示すフローチャートである。まず、分析装置200は、DB500から文書群dsを読み込む(ステップS1301)。つぎに、分析装置200は、分類部501により、読み込んだ文書群dsを分類する文書分類処理を実行する(ステップS1302)。文書分類処理(ステップS1302)により、図1および図7に示したように、文書群dsが、1以上の共通様式グループに分類される。文書分類処理(ステップS1302)の詳細については、図14で後述する。
図14は、図13に示した文書分類処理(ステップS1302)の詳細な処理手順例を示すフローチャートである。分析装置200は、図1および図6に示したように、文書毎にセル配置特徴量を分析する(ステップS1401)。つぎに、分析装置200は、図1に示したように、文書間のセル配置特徴量の類似性に基づき文書をクラスタリングし、類似配置グループを一つ以上生成する(ステップS1402)。
図15は、図13に示したセル特定処理(ステップS1304)の詳細な処理手順例を示すフローチャートである。分析装置200は、共通様式グループ群のうち分析対象となる共通様式グループに属するすべての文書をDB500から取得する(ステップS1501)。つぎに、分析装置200は、セルの共通性および可変性を分析し、共通様式グループ内共通セルと共通様式グループ内可変セルを特定する(ステップS1502)。
図16は、図13に示した条件特定処理(ステップS1306)の詳細な処理手順例を示すフローチャートである。分析装置200は、共通様式グループ群のうち分析対象となる共通様式グループに属するすべての文書をDB500から取得する(ステップS1601)。つぎに、分析装置200は、文書間の完全共通セルを分析し、様式判定条件要素候補を特定する(ステップS1602)。
400 様式定義情報
501 分類部
502 セル特定部
503 関連付け処理部
504 条件特定部
505 出力部
506 修正部
Claims (12)
- プログラムを実行するプロセッサと、前記プログラムおよびスプレッドシート形式の文書群を記憶する記憶デバイスと、を有する分析装置であって、
前記プロセッサは、
前記記憶デバイスから前記文書群を取得する取得処理と、
前記取得処理によって取得された文書群内の文書間における各文書内のセルに含まれる文字列と、前記文字列を含むセルの位置と、の共通性に基づいて、前記文書群内の文書を、様式が共通する1以上の共通様式グループに分類する分類処理と、
前記分類処理による分類結果を出力する出力処理と、
を実行することを特徴とする分析装置。 - 請求項1に記載の分析装置であって、
前記分類処理では、前記プロセッサは、前記文書群内の文書を、前記各文書内のセル群のうち前記文字列を含むセルである有値セルおよび前記文字列を含まない無値セルの配置が同一または類似する1以上の類似配置グループに分類し、前記類似配置グループに属する文書群間における各文書内の前記有値セルに含まれる文字列と、前記有値セルの位置と、の共通性に基づいて、前記類似配置グループに属する文書群を、前記1以上の共通様式グループに分類することを特徴とする分析装置。 - 請求項1に記載の分析装置であって、
前記プロセッサは、前記共通様式グループに属する文書群内の2以上の文書間で、前記文字列を含むセルの位置および前記文字列が共通であるという共通性に基づいて、前記文字列が項目の名称を表す項目名セルを特定する特定処理を実行し、
前記出力処理では、前記プロセッサは、前記共通様式グループに属する文書群において前記特定処理によって特定された項目名セルを示す情報を出力することを特徴とすることを特徴とする分析装置。 - 請求項3に記載の分析装置であって、
前記特定処理では、前記プロセッサは、前記共通様式グループに属する文書群内の2以上の文書間で、前記文字列を含むセルの位置は共通であるが前記文字列が異なるという前記文字列の可変性に基づいて、前記文字列が前記項目の値を表す項目値セルを特定し、
前記出力処理では、前記プロセッサは、前記共通様式グループに属する文書群において前記特定処理によって特定された項目値セルを示す情報を出力することを特徴とすることを特徴とする分析装置。 - 請求項4に記載の分析装置であって、
前記特定処理では、前記プロセッサは、特定の項目名セルと当該特定の項目名セルから行方向または列方向に並ぶ一連の項目値セルとの組み合わせであるテーブル領域を用いて、前記2以上の文書間で、前記文字列を含むセルの位置および前記文字列が共通するセルを共通セルとし、前記文字列を含むセルの位置は共通であるが前記文字列が異なるセルを可変セルとし、前記特定の項目名セルと同一行または列に存在する第1共通セルから前記テーブル領域と同一方向に並ぶ一連のセルに第2共通セルが含まれている場合、前記第2共通セルを前記項目値セルとして特定することを特徴とする分析装置。 - 請求項4に記載の分析装置であって、
前記プロセッサは、前記共通様式グループに属する文書内での前記項目名セルと前記項目値セルとの位置関係に基づいて、前記項目名セルと前記項目値セルとを関連付ける関連付け処理を実行し、
前記出力処理では、前記プロセッサは、前記関連付け処理による関連付け結果を出力することを特徴とすることを特徴とする分析装置。 - 請求項4に記載の分析装置であって、
前記プロセッサは、前記共通様式グループに属する文書内での前記項目名セルと前記項目値セルとの位置関係に基づいて、前記項目名セルと当該項目名セルから行方向または列方向に並ぶ一連の項目値セルとを関連付けてテーブルとする関連付け処理を実行し、
前記出力処理では、前記プロセッサは、前記関連付け処理による関連付け結果を出力することを特徴とすることを特徴とする分析装置。 - 請求項4に記載の分析装置であって、
前記プロセッサは、前記共通様式グループに属する全文書で位置および項目名が共通する項目名セルを、前記文書の様式を判定する判定条件として特定する条件特定処理を実行し、
前記出力処理では、前記プロセッサは、前記条件特定処理による特定結果を出力することを特徴とする分析装置。 - 請求項8に記載の分析装置であって、
前記条件特定処理では、前記プロセッサは、他の共通様式グループに属する文書で位置および項目名が共通する項目名セルを前記判定条件から除外することを特徴とする分析装置。 - 請求項3に記載の分析装置であって、
前記出力処理では、前記プロセッサは、表示画面を制御して、前記文書と前記項目名セルを示す情報とを重畳表示することを特徴とする分析装置。 - プログラムを実行するプロセッサと、前記プログラムおよびスプレッドシート形式の文書群を記憶する記憶デバイスと、を有する分析装置による分析方法であって、
前記プロセッサは、
前記記憶デバイスから前記文書群を取得する取得処理と、
前記取得処理によって取得された文書群内の文書間における各文書内のセルに含まれる文字列と、前記文字列を含むセルの位置と、の共通性に基づいて、前記文書群内の文書を、様式が共通する1以上の共通様式グループに分類する分類処理と、
前記分類処理による分類結果を出力する出力処理と、
を実行することを特徴とする分析方法。 - スプレッドシート形式の文書群を記憶する記憶デバイスにアクセス可能なプロセッサに、
前記記憶デバイスから前記文書群を取得する取得処理と、
前記取得処理によって取得された文書群内の文書間における各文書内のセルに含まれる文字列と、前記文字列を含むセルの位置と、の共通性に基づいて、前記文書群内の文書を、様式が共通する1以上の共通様式グループに分類する分類処理と、
前記分類処理による分類結果を出力する出力処理と、
を実行させることを特徴とする分析プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016171935A JP6727992B2 (ja) | 2016-09-02 | 2016-09-02 | 分析装置、分析方法、および分析プログラム |
US15/598,484 US20180067916A1 (en) | 2016-09-02 | 2017-05-18 | Analysis apparatus, analysis method, and recording medium |
CN201710358435.7A CN107797979B (zh) | 2016-09-02 | 2017-05-19 | 分析装置和分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016171935A JP6727992B2 (ja) | 2016-09-02 | 2016-09-02 | 分析装置、分析方法、および分析プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018037017A true JP2018037017A (ja) | 2018-03-08 |
JP6727992B2 JP6727992B2 (ja) | 2020-07-22 |
Family
ID=61280784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016171935A Active JP6727992B2 (ja) | 2016-09-02 | 2016-09-02 | 分析装置、分析方法、および分析プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20180067916A1 (ja) |
JP (1) | JP6727992B2 (ja) |
CN (1) | CN107797979B (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7275617B2 (ja) * | 2019-02-06 | 2023-05-18 | 日本電信電話株式会社 | 情報処理装置、判別方法および判別プログラム |
US11194841B2 (en) * | 2019-11-28 | 2021-12-07 | International Business Machines Corporation | Value classification by contextual classification of similar values in additional documents |
CN113221519B (zh) * | 2021-05-18 | 2024-03-29 | 北京百度网讯科技有限公司 | 用于处理表格数据的方法、装置、设备、介质和产品 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09305686A (ja) * | 1996-05-17 | 1997-11-28 | Oki Electric Ind Co Ltd | 帳票フォーマットの登録方法と帳票の仕分け方法 |
JP2014115857A (ja) * | 2012-12-11 | 2014-06-26 | Hitachi Omron Terminal Solutions Corp | 帳票定義データ作成システムおよび帳票定義データ作成方法 |
JP2015005100A (ja) * | 2013-06-20 | 2015-01-08 | 株式会社日立システムズ | 情報処理装置、テンプレート生成方法、およびプログラム |
JP2016051339A (ja) * | 2014-08-29 | 2016-04-11 | 日立オムロンターミナルソリューションズ株式会社 | 帳票認識装置及び方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998032081A1 (fr) * | 1997-01-21 | 1998-07-23 | Pfu Limited | Procede et dispositif de preparation d'un texte original et support de stockage de programme correspondant |
EP1290574B1 (en) * | 2000-05-17 | 2013-02-13 | Microsoft Corporation | System and method for matching a textual input to a lexical knowledge base and for utilizing results of that match |
CN1399196A (zh) * | 2001-07-25 | 2003-02-26 | 曾志荣 | 电子表格文件节省存储空间并提高数据处理速度的方法 |
CN100366212C (zh) * | 2004-04-30 | 2008-02-06 | 株式会社东芝 | 用于管理和显示医学图像的系统和方法 |
US7849395B2 (en) * | 2004-12-15 | 2010-12-07 | Microsoft Corporation | Filter and sort by color |
CN1808424A (zh) * | 2005-01-21 | 2006-07-26 | 北京软件产品质量检测检验中心 | 一种从文档中提取关键信息的方法 |
JP2006236222A (ja) * | 2005-02-28 | 2006-09-07 | Konica Minolta Medical & Graphic Inc | プログラム及び表示制御装置 |
CN101127034B (zh) * | 2006-08-18 | 2012-05-23 | 国际商业机器公司 | 数据组织、查询、呈现、存档、恢复、删除、提炼方法及装置和系统 |
CN101458713A (zh) * | 2008-12-29 | 2009-06-17 | 北京搜狗科技发展有限公司 | 网站分类的方法及系统 |
US8433714B2 (en) * | 2010-05-27 | 2013-04-30 | Business Objects Software Ltd. | Data cell cluster identification and table transformation |
CN102163188A (zh) * | 2011-04-07 | 2011-08-24 | 北京数码大方科技有限公司 | 应用系统中excel报表的生成方法及装置 |
US20160055376A1 (en) * | 2014-06-21 | 2016-02-25 | iQG DBA iQGATEWAY LLC | Method and system for identification and extraction of data from structured documents |
CN104391833A (zh) * | 2014-12-05 | 2015-03-04 | 张明兴 | 制表软件的横排、表头、并行的自动化 |
JP6772478B2 (ja) * | 2016-02-19 | 2020-10-21 | 富士ゼロックス株式会社 | 情報検索プログラム及び情報検索装置 |
US10102258B2 (en) * | 2016-06-19 | 2018-10-16 | Data.World, Inc. | Collaborative dataset consolidation via distributed computer networks |
-
2016
- 2016-09-02 JP JP2016171935A patent/JP6727992B2/ja active Active
-
2017
- 2017-05-18 US US15/598,484 patent/US20180067916A1/en not_active Abandoned
- 2017-05-19 CN CN201710358435.7A patent/CN107797979B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09305686A (ja) * | 1996-05-17 | 1997-11-28 | Oki Electric Ind Co Ltd | 帳票フォーマットの登録方法と帳票の仕分け方法 |
JP2014115857A (ja) * | 2012-12-11 | 2014-06-26 | Hitachi Omron Terminal Solutions Corp | 帳票定義データ作成システムおよび帳票定義データ作成方法 |
JP2015005100A (ja) * | 2013-06-20 | 2015-01-08 | 株式会社日立システムズ | 情報処理装置、テンプレート生成方法、およびプログラム |
JP2016051339A (ja) * | 2014-08-29 | 2016-04-11 | 日立オムロンターミナルソリューションズ株式会社 | 帳票認識装置及び方法 |
Also Published As
Publication number | Publication date |
---|---|
US20180067916A1 (en) | 2018-03-08 |
JP6727992B2 (ja) | 2020-07-22 |
CN107797979B (zh) | 2021-05-04 |
CN107797979A (zh) | 2018-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10977486B2 (en) | Blockwise extraction of document metadata | |
US10726198B2 (en) | Method, device, and system, for identifying data elements in data structures | |
US10592738B2 (en) | Cognitive document image digitalization | |
Paiva et al. | Improved similarity trees and their application to visual data classification | |
US10409820B2 (en) | Semantic mapping of form fields | |
US20110246913A1 (en) | Automated User Interface Generator | |
US20190114313A1 (en) | User interface for contextual document recognition | |
JP6727992B2 (ja) | 分析装置、分析方法、および分析プログラム | |
Mao et al. | A dynamic feature generation system for automated metadata extraction in preservation of digital materials | |
JPH11184894A (ja) | 論理要素抽出方法および記録媒体 | |
JP2023115837A (ja) | 特許文書作成支援装置、特許文書作成支援方法、特許文書作成支援プログラム。 | |
EP3432161A1 (en) | Information processing system and information processing method | |
JP5690472B2 (ja) | データ抽出システム | |
CN110688842A (zh) | 一种文档标题层级的分析方法、装置及服务器 | |
JP6948492B2 (ja) | 情報管理装置並びにファイル管理方法 | |
WO2014170965A1 (ja) | 文書処理方法、文書処理装置および文書処理プログラム | |
JP5550959B2 (ja) | 文書処理システム、及びプログラム | |
CN114817498A (zh) | 用户意图识别方法、装置、设备及存储介质 | |
WO2016190444A1 (ja) | 情報管理装置並びにファイル管理方法 | |
US20150199419A1 (en) | Information processing apparatus, information processing method and non-transitory computer readable medium | |
JP2016162040A (ja) | 文書データ処理方法およびシステム | |
JP2021149426A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6807201B2 (ja) | 情報処理装置 | |
JP2013045194A (ja) | 文書処理装置、及び文書処理方法、並びに文書処理プログラム | |
US11755818B2 (en) | Computer-readable recording medium storing design document management program, design document management method, and information processing apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181018 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191217 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200128 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200616 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200701 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6727992 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |