JP6556658B2 - 表モチーフ抽出装置、分類器学習装置、表種類分類装置、方法、及びプログラム - Google Patents
表モチーフ抽出装置、分類器学習装置、表種類分類装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6556658B2 JP6556658B2 JP2016093271A JP2016093271A JP6556658B2 JP 6556658 B2 JP6556658 B2 JP 6556658B2 JP 2016093271 A JP2016093271 A JP 2016093271A JP 2016093271 A JP2016093271 A JP 2016093271A JP 6556658 B2 JP6556658 B2 JP 6556658B2
- Authority
- JP
- Japan
- Prior art keywords
- cell
- motif
- feature
- tabular data
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
次に、本発明の第1の実施の形態に係る表モチーフ抽出装置の構成について説明する。図1に示すように、本実施の形態に係る表モチーフ抽出装置100は、CPUと、RAMと、後述する表モチーフ抽出処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この表モチーフ抽出装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部90とを含んで構成されている。
次に、本発明の第1の実施形態に係る表モチーフ抽出装置100の作用について説明する。表モチーフ抽出装置100は、入力部10によって、表モチーフ抽出対象の表形式データを受け付けると、表モチーフ抽出装置100によって、図4に示す表モチーフ抽出処理ルーチンが実行される。
次に、第2の実施の形態について説明する。第2の実施の形態では、表形式データの表種類を分類するための表種類分類装置及び分類器学習装置に本発明を適用した場合について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して、説明を省略する
次に、本発明の第2の実施の形態に係る表種類分類装置の構成について説明する。図8に示すように、本実施の形態に係る表種類分類装置250は、CPUと、RAMと、後述する表種類分類処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この表種類分類装置250は、機能的には図8に示すように入力部260と、演算部270と、出力部280とを含んで構成されている。
次に、本発明の第2の実施形態に係る分類器学習装置200の作用について説明する。分類器学習装置200は、入力部210によって、訓練データ集合を受け付けると、分類器学習装置200によって、図9に示す分類器学習処理ルーチンが実行される。
次に、本発明の第2の実施形態に係る表種類分類装置250の作用について説明する。表種類分類装置250は、入力部260によって、表形式データを受け付けると、表種類分類装置250によって、図10に示す表種類分類処理ルーチンが実行される。
20、220、270 演算部
22 n次隣接セル抽出部
24 セル識別子付与部
26 表モチーフ出力部
90、240、280 出力部
100 表モチーフ抽出装置
200 分類器学習装置
222、272 素性抽出部
224 分類器学習部
230 通常素性抽出部
232 表モチーフ抽出部
250 表種類分類装置
274 表種類分類部
Claims (7)
- 表形式データから、表に含まれるn次隣接したセル(nは自然数である)の情報をモチーフ素性として抽出する表モチーフ抽出装置であって、
入力された前記表形式データに含まれるそれぞれのセルについて、該セルにn次隣接するセルと、該セルとからなるセル集合を抽出するn次隣接セル抽出部と、
前記n次隣接セル抽出部によって、前記表形式データに含まれるそれぞれのセルについて抽出した前記セル集合に含まれるそれぞれのセルに対して、該セルの構造と内容に基づいて、該セルのセル識別子を付与するセル識別子付与部と、
前記n次隣接セル抽出部によって、前記表形式データに含まれるそれぞれのセルについて抽出した前記セル集合の各々について、該セル集合の各セルに付与されたセル識別子に基づき、該セル集合の情報を表すモチーフ素性を出力する表モチーフ出力部と、
を有することを特徴とする表モチーフ抽出装置。 - 表形式データと表種類を表す正解ラベルの組の集合である訓練データ集合に含まれる前記表形式データの各々について、請求項1記載の表モチーフ抽出装置によって出力される前記モチーフ素性を含む、分類に利用する素性集合を抽出する素性抽出部と、
前記素性抽出部により前記訓練データ集合に含まれる前記表形式データの各々について抽出された素性集合と、前記訓練データ集合に含まれる前記正解ラベルとに基づいて、表形式データの表種類を分類するための分類器を学習する分類器学習部と、
を有することを特徴とする分類器学習装置。 - 入力された表形式データについて、請求項1に記載の表モチーフ抽出装置によって出力される前記モチーフ素性を含む、分類に利用する素性集合を抽出する素性抽出部と、
前記素性抽出部により抽出された素性集合と、予め学習された表形式データの表種類を分類するための分類器とに基づいて、前記入力された表形式データの表種類を分類する表種類分類部と、
を有することを特徴とする表種類分類装置。 - 表形式データから、表に含まれるn次隣接したセル(nは自然数である)の情報をモチーフ素性として抽出する表モチーフ抽出装置における表モチーフ抽出方法であって、
n次隣接セル抽出部が、入力された前記表形式データに含まれるそれぞれのセルについて、該セルにn次隣接するセルと、該セルとからなるセル集合を抽出し、
セル識別子付与部が、前記n次隣接セル抽出部によって、前記表形式データに含まれるそれぞれのセルについて抽出した前記セル集合に含まれるそれぞれのセルに対して、該セルの構造と内容に基づいて、該セルのセル識別子を付与し、
表モチーフ出力部が、前記n次隣接セル抽出部によって、前記表形式データに含まれるそれぞれのセルについて抽出した前記セル集合の各々について、該セル集合の各セルに付与されたセル識別子に基づき、該セル集合の情報を表すモチーフ素性を出力する
ことを特徴とする表モチーフ抽出方法。 - 素性抽出部が、表形式データと表種類を表す正解ラベルの組の集合である訓練データ集合に含まれる前記表形式データの各々について、請求項4に記載の表モチーフ抽出方法によって出力される前記モチーフ素性を含む、分類に利用する素性集合を抽出し、
分類器学習部が、前記素性抽出部により前記訓練データ集合に含まれる前記表形式データの各々について抽出された素性集合と、前記訓練データ集合に含まれる前記正解ラベルとに基づいて、表形式データの表種類を分類するための分類器を学習する
ことを特徴とする分類器学習方法。 - 素性抽出部が、入力された表形式データについて、請求項4に記載の表モチーフ抽出方法によって出力される前記モチーフ素性を含む、分類に利用する素性集合を抽出し、
表種類分類部が、前記素性抽出部により抽出された素性集合と、予め学習された表形式データの表種類を分類するための分類器とに基づいて、前記入力された表形式データの表種類を分類する
ことを特徴とする表種類分類方法。 - コンピュータを、請求項1に記載の表モチーフ抽出装置、請求項2に記載の分類器学習装置、又は請求項3記載の表種類分類装置の各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016093271A JP6556658B2 (ja) | 2016-05-06 | 2016-05-06 | 表モチーフ抽出装置、分類器学習装置、表種類分類装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016093271A JP6556658B2 (ja) | 2016-05-06 | 2016-05-06 | 表モチーフ抽出装置、分類器学習装置、表種類分類装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017201483A JP2017201483A (ja) | 2017-11-09 |
JP6556658B2 true JP6556658B2 (ja) | 2019-08-07 |
Family
ID=60265034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016093271A Active JP6556658B2 (ja) | 2016-05-06 | 2016-05-06 | 表モチーフ抽出装置、分類器学習装置、表種類分類装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6556658B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113010503A (zh) * | 2021-03-01 | 2021-06-22 | 广州智筑信息技术有限公司 | 一种基于深度学习的工程造价数据智能解析方法及系统 |
CN114662482A (zh) * | 2022-03-25 | 2022-06-24 | 北京感易智能科技有限公司 | 文本表格中答案文本的抽取方法及装置 |
-
2016
- 2016-05-06 JP JP2016093271A patent/JP6556658B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017201483A (ja) | 2017-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109885692B (zh) | 知识数据存储方法、装置、计算机设备和存储介质 | |
CN112241481B (zh) | 基于图神经网络的跨模态新闻事件分类方法及系统 | |
CN106776538A (zh) | 企业非标准格式文档的信息提取方法 | |
JP2022541199A (ja) | データテーブルの画像表現に基づいて構造化されたデータベースにデータ挿入するためのシステムおよび方法。 | |
WO2017216980A1 (ja) | 機械学習装置 | |
CN111274239B (zh) | 试卷结构化处理方法、装置和设备 | |
CN112070138B (zh) | 多标签混合分类模型的构建方法、新闻分类方法及系统 | |
CN107004141A (zh) | 对大样本组的高效标注 | |
CN108363701B (zh) | 命名实体识别方法及系统 | |
CN110347791B (zh) | 一种基于多标签分类卷积神经网络的题目推荐方法 | |
CN107590262A (zh) | 大数据分析的半监督学习方法 | |
CN106601235A (zh) | 一种半监督多任务特征选择的语音识别方法 | |
CN103049581A (zh) | 一种基于一致性聚类的Web文本分类方法 | |
CN112860905A (zh) | 文本信息抽取方法、装置、设备及可读存储介质 | |
JP6556658B2 (ja) | 表モチーフ抽出装置、分類器学習装置、表種類分類装置、方法、及びプログラム | |
CN115374189A (zh) | 基于区块链的食品安全溯源方法、装置及设备 | |
CN106445914B (zh) | 微博情感分类器的构建方法及构建装置 | |
CN104573683A (zh) | 字符串识别方法和装置 | |
CN103218420B (zh) | 一种网页标题提取方法及装置 | |
CN107145591A (zh) | 一种基于标题的网页有效元数据内容提取方法 | |
CN110688842B (zh) | 一种文档标题层级的分析方法、装置及服务器 | |
CN109165295B (zh) | 一种智能简历评估方法 | |
CN111737982A (zh) | 一种基于深度学习的汉语文本错别字检测方法 | |
CN108875060B (zh) | 一种网站识别方法及识别系统 | |
JP2015043163A (ja) | 係り受け関係解析パラメータ学習装置、係り受け関係解析装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180628 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190621 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190702 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190710 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6556658 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |