CN114817186A

CN114817186A - 一种结构化数据的转换系统和方法

Info

Publication number: CN114817186A
Application number: CN202210452248.6A
Authority: CN
Inventors: 彭浩瀚; 朱美玲; 周笛
Original assignee: Chengdu Days Austrian Group Co ltd
Current assignee: Chengdu Days Austrian Group Co ltd
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2022-07-29

Abstract

本发明公开了一种结构化数据的转换系统，包括：文本特征定义模块：用于提供已定义的文本规则；非结构化数据预处理模块：用于读取指定非结构化表格文件，提取表格文件的文本特征，根据文本特征匹配对应文本数据模板和文本数据地图，创建转换数据对象副本；结构化数据转换模块：用于从转换数据对象副本中采集信息项、提取结构化数据单元；结构化数据生成模块：用于规范化结构化数据单元，生成结构化数据对象。根据上述技术方案，可以对社会治安立体防控体系的数据模板、数据地图等文本特征定义模块进行利用，批量地处理符合规范的非结构化表格文件，按文本特征进行数据抽取、转换，形成结构化、内容标准化的数据后存储到数据库，供后续情报分析业务所用。

Description

一种结构化数据的转换系统和方法

技术领域

本发明涉及数据处理领域，具体而言，涉及一种结构化数据的转换系统和方法。

背景技术

将情报思维引入社会治安立体防控体系建设，坚持情报主导警务理念，进行社会治安情报信息分析和研判是当前社会治安体系建设的一大重点。多源数据是情报分析的基础，历史案卷等文书材料中蕴涵丰富知识，是进行多维情报分析的重要数据来源之一。由于某些地区公安信息化建设进程相对较慢，执法办案等信息系统建成之前，较多如案卷等文书材料由基层民警编写，存在大量的文本数据，还没能接入体系建设的结构化数据库中；历史案卷等文书材料也需要转换为结构化的数据，才能够实现数据关联；为实现多维数据关联、碰撞分析，支撑上层治安业务，需将大量文书材料进行结构化抽取，并进行标准化后存储到数据库，供后续情报分析业务所用。

公安信息化建设涉及的卷宗文件多数具有一定格式规则的表格文件，由于表格中单元格的合并和分解、单元格对应关系的再定义，使这些表格文件不能简单地进行结构化处理；虽然采用机器学习可以进行文本的分类，但是需要海量的数据来支持数据处理模型。另一方面，即使是规范格式的表格经过人工的填写后，其内容规范很难达到标准统一。因此，需要一种针对社会治安立体防控体系卷宗中的非结构化表格文件转换为结构化数据，而且对数据内容进行统一规范的方案。

发明内容

第一方面，为实现上述目的，本申请提供了一种结构化数据的转换系统，包括：

文本特征定义模块：用于提供已定义的文本规则，其中文本规则包括文本特征关系、文本数据模板和文本数据地图；其中文本特征关系与文本数据地图为一对一对应关系；文本数据模板由文本数据地图生成；

非结构化数据预处理模块：用于读取指定非结构化表格文件，提取表格文件的文本特征，根据文本特征匹配对应文本数据模板和文本数据地图，创建转换数据对象副本；

结构化数据转换模块：用于从转换数据对象副本中采集信息项、提取信息项对应的数据值组成结构化数据单元；其中，结构化数据转换模块包括采集单元，用于提取信息项对应的数据值；

结构化数据生成模块：用于规范化结构化数据单元，生成结构化数据对象。

进一步的，非结构化数据预处理模块包括：

文本读取器：用于提取非结构化表格文件，输出文件内容对象；

文本特征提取单元：用于获取非结构化表格文件的特征文本，判断文档内容对象对应的文本特征；其中，特征文本包括文本字符内容、字体、字体大小；

数据对象副本创建单元：根据文本特征获取对应的文本数据模板和文本数据地图，生成非结构化表格文件的数据对象副本。

进一步的，采集单元包括强校验模式数据项采集单元；强校验模式数据项采集单元的数据来源为非结构化表格文件对应的文本数据地图；采集方式为逐个遍历文本数据地图中的信息项节点，提取信息项标题特征信息和信息项内容信息；其中还包括有效性校验器。

进一步的，采集单元还包括自适应模式数据项采集单元；自适应模式数据项采集单元支持的数据来源为非结构化表格文件对应的单元格；自适应模式数据项采集单元支持的采集方式为遍历所有表格的单元格，提取单元格内容，匹配为信息项标题特征信息和信息项内容信息；同时，还支持状态标记功能。

进一步的，结构化数据生成模块包括数据规范化处理模块，用于在数据对象副本中特定类型的数据值进行格式化处理。

其中，文本规则还包括标准标题词语词典、值映射表、信息项仓库。

另一方面，本申请提供了一种结构化数据的转换方法，包括以下步骤：

确定文本规则，包括确定文本特征关系、文本数据模板和文本数据地图；文本特征关系与文本数据地图一对一对应；文本数据模板由文本数据地图生成；

读取指定非结构化表格文件，提取其文本特征，根据文本特征匹配对应文本数据模板和文本数据地图，创建转换数据对象副本；

从转换数据对象副本中采集信息项、提取信息项对应的数据值组成结构化数据；

进一步规范化结构化数据，生成结构化数据对象。

其中，提取表格文件的文本特征指，获取非结构化表格文件的特征文本，判断文档内容对象对应的文本特征；其中，特征文本包括文本字符内容、字体、字体大小。

进一步的，从转换数据对象副本中采集信息项、提取信息项对应的数据值组成结构化数据包括：强校验模式数据项采集类型和自适应模式数据项采集类型：

其中，强校验模式数据项采集类型的数据来源为非结构化表格文件对应的文本数据地图；强校验模式数据项采集类型提供的采集方式为逐个遍历文本数据地图中的信息项节点，提取信息项标题特征信息和信息项内容信息；

自适应模式数据项采集类型支持的数据来源为非结构化表格文件对应的单元格；自适应模式数据项采集类型支持的采集方式为遍历所有表格的单元格，提取单元格内容，匹配为信息项标题特征信息和信息项内容信息。

根据本发明，可以将一些特定的环境下，例如社会治安立体防控体系建设需要的历史卷宗、基层人员填写的卷宗内容，将格式统一的非结构化表格文件、内容含义接近但是未能统一规范的非结构化文件，转换为在数据内容上符合统一规范的结构化数据，采用数据库形式、结构化文件形式进行存储，便于接入信息化建设体系中，在后续情报分析中充分利用。

附图说明

图1是根据本发明实施例提供的结构化数据的转换系统结构图；

图2是根据本发明实施例提供的强校验模式数据项采集单元的工作流程图；

图3是根据本发明实施例提供的结构化数据的转换方法流程图。

具体实施方式

下面结合说明书附图对本发明的具体实现方式做详细描述。

本发明针对社会治安立体防控体系的表格结构特征、表格内容、内容文本特征进行归纳，形成数据模板、数据地图等文本特征定义模块，对待处理的非结构化表格文件，按文本特征进行数据抽取、转换，形成结构化数据。

图1提供了一种结构化数据的转换系统结构图，如图所示，包括以下部分：

P100：文本特征定义模块：用于提供已定义的文本规则，其中的文本规则为转换后的结构化数据的特征约束，包括标准标题词语词典、值映射表、信息项仓库、文本特征关系、文本数据模板和文本数据地图；文本特征关系与文本数据地图为一对一对应关系；其中文本数据模板由文本数据地图生成。

1、标准标题词语词典title-dictionary中包括从所有卷宗的表格文件中识别出的基本数据单元，即信息项对应的标题内容，其中包括标准标题，是表示相同含义的多个标题挑选出其中一个的特征标题，其中还包括扩展每个标题词语的近义词、缩写词。

2、信息项仓库item-library中包括所有卷宗的表格文件中出现的信息项数据结构，包含标准标题名称title、值数据类型type、值范围和值有效性校验规则等属性。其中包括构建数据类型和值集合的映射关系的值映射表value-map，是具有固定值范围的数据类型，和所有标准值和等效值进行汇总所得的值集合。

例如：社会治安领域的信息项标准标题“案件来源”为例，信息项值类型为字符串，其固定值范围包括：110指令、工作中发现、报案、投案、移送、扭送、其他。

3、文本特征关系是参考卷宗文书材料文本规范，通过内容段落位置、文本字符内容、字体格式等特征提取出每个文本类型独有的文本内容特征，用于建立每个社会治安文本类型与文本内容特征的映射关系表feature-map，通过文本内容特征可以反向推定文本类型docType。

以使用文本内容标题特征为例，在特征对比时，采用纯字符串匹配或正则表达式匹配的方式，其特征获取过程包括以下步骤：

A、移除标题单元格顶部标题文字中的空白字符串，得到标题t1；

B、移除步骤A处理后的标题文字t1中的标点符号，得到纯字符串标题t2；

C、提取顶部标题文字的字体名称和字号数字，作为特征之一。

D、将t2、字体名称和字号数字拼接为一个字符串，进行MD5计算，得到文本内容特征值feature1。

4、文本数据地图是采用结构化数据形式(如JSON和XML)构建的数据关系，数据地图使用树形结构，最小单元为信息项，对文本中各个信息项的层级关系、标准标题、标题所在位置、值所在位置、数据类型、数据长度，以及信息项之间的先后顺序进行定义。每个数据地图与文本类型一对一关联。

例如有如下的数据表格，那么共包含3个信息项：报案人(聚合组合)、姓名和联系方式。

对应的数据地图格式如下：

5、文本数据模板是基于文本内容的数据地图，通过裁剪其中的标题所在位置、值所在位置和数据长度等描述性字段，添加值数据字段，建立文本内容的结构化数据形式(如JSON或XML)，将每个数据模板与文本类型一对一关联。

在上例中，该数据地图转换生成的文本数据模板如下：

P110：非结构化数据预处理模块：用于读取指定非结构化表格文件，提取表格文件的文本特征，根据文本特征匹配对应文本数据模板和文本数据地图，创建转换数据对象副本；其中包括：

文本读取器：用于提取非结构化表格文件，输出文件内容对象，即获得一个文档内容对象文件；以Java语言为例，可使用Apache POI组件读取电子文档；

文本特征提取单元：用于获取非结构化表格文件的特征文本，判断文档内容对象对应的文本特征；其中，特征文本包括文本字符内容、字体、字体大小；文本特征结合映射关系表，可以反向确定表格文件所属的文本类型；

例如获取表格的标题单元格，去除空白字符得到t1，去除标点符号得到纯字符串标题t2，结合字体名称和字号数字，计算得到特征值feature1。

数据对象副本创建单元：根据文本特征提取单元中获取的文本特征，通过文本特征关系获取对应的文本数据模板和文本数据地图，生成非结构化表格文件的数据对象副本。数据对象副本是通过使用数据解析组件(适用于JSON或XML)转换数据模板文件得到模型对象副本，用于对社会治安文本数据的读取结果进行存储和更新。

P120：结构化数据转换模块：用于从数据对象副本采集信息项、提取信息项对应的数据值组成结构化数据单元；其中，结构化数据转换模块包括采集单元，用于提取指定信息项对应的数据值；

采集单元包括强校验模式数据项采集单元：

强校验模式数据项采集单元的数据来源为非结构化表格文件对应的文本数据地图；提供的采集方式为逐个遍历文本数据地图中的信息项节点，提取信息项标题特征信息和信息项内容信息，具体描述如下：

在采集信息时，首先获取文档内容对象文件中的表格集合对象，其次，从根据数据地图对象中获取属性值，针对选择单元格进行数据抽取，抽取过程采用逐个遍历数据地图中的信息项节点的方式，从地图结构中找出当前需读取的信息项属性(标题、标题位置、值位置、类型、子节点)，强校验模式数据项采集单元还包括有效性校验器，用于判断各信息项属性值是否有效。

其工作流程如图2所示：

步骤S210：从数据地图中获取一个节点对象；

步骤S211：读取该节点对象的标题属性的值title'；

步骤S212：与文本特征定义模块的标准标题词语词典title-dictionary中找出所有与title'关联的词语，形成标题字符集合title-array；

步骤S213：读取节点对象下的标题所在位置属性，获取将要读取单元格的表格编号、行位置和列位置，从目标文本表格集合对象tables中读取对应位置单元格的内容title_value；

步骤S220：有效性校验器将title_value与步骤S212中生成的标题字符集合title-array逐项进行比对，若标题字符集合title-array包含单元格内容title_value，则表示节点标题验证通过，继续进行下一步；

步骤S221：读取dNode下的值所在位置属性，获取将要读取单元格的表格编号、行位置和列位置，从目标文本表格集合对象tables中读取对应位置单元格的内容value2、值数据类型属性的值type'；

步骤S222：在文本特征定义模块中值映射表中查找与type'匹配的值集合，由有效性校验器将value2与值集合逐项对比，检验其有效性；对值的有效性验证通过，继续进行下一步；

步骤S223：在文本特征定义模块中信息项仓库item-library中获取标题为title'的信息项数据，有效性校验器将value2与信息项的值范围和值校验规则进行计算，检验其有效性。若对值的有效性验证通过，继续进行下一步；

步骤S224：将有效结果值value2保存至数据对象dTemplate中相同位置偏移的节点对象的值属性中；

如果一个信息项有多个值，则重新执行步骤S221；

如果节点对象的数据类型type'类型为父级节点，则循环读取其子项列表中的各节点对象，则重新执行步骤S221。

现以下表为例：

遍历数据地图，读取各信息项的值后填充到数据对象，结果如下：

本申请提供的采集单元还包括自适应模式数据项采集单元：自适应模式数据项采集单元支持的数据来源为非结构化表格文件本身的单元格；支持的采集方式为遍历所有表格的单元格，提取单元格内容，匹配为信息项标题特征信息和信息项内容信息。具体包括以下内容：

A、读取单元格的内容得到value3，将读取的内容value3与标准标题词语词典title-dictionary(含近义词与缩写词)逐项进行比对，若比对成功，则确认此单元格为信息项标题，并获得标准标题词语title'；从信息项仓库中获取标题为title'的信息项数据，根据信息项类型判断是否需要抽取数据值，对于仅作为表示父级关系的信息项，则跳至下一个单元格，重复步骤A；

B、记住当前单元格位置，尝试在当前表格内部向右侧偏移一个单元格，重复步骤A，判断其是否为信息项标题。在排除右侧单元格为信息项标题后，将单元格内容value4作为数据值，并标记右侧单元格的状态为已处理；

C、若在步骤B中右移无法找到数据值，则向当前单元格下方偏移一个单元格，重复步骤A，判断其是否为信息项标题。在排除下侧单元格为信息项标题后，将单元格内容value5作为数据值，并标记下侧单元格的状态为已处理；

D、重复步骤A、B、C，直至目标文档中表格读取结束，使用键值对的方式对所有抽取的数据进行存储，形成信息项数据地图结构对象vMap。

E、逐项遍历数据对象副本dTemplate的各个节点，通过使用节点标题进行全匹配的方式，从步骤D中的vMap对象中查找数据值，保存至节点的值属性中，并将已使用过的数据从vMap对象中移除；

F、对vMap对象中剩余的数据，转换为与数据对象副本兼容的格式补充到dTemplate对象尾部。

从以上的描述中可见，自适应模式数据项采集单元支持状态标记功能。

P130：结构化数据生成模块：用于规范化结构化数据单元，生成结构化数据对象。其中包括数据规范化处理模块，用于在数据对象副本中特定类型的数据值进行格式化处理。

例如在文档对象document内容提取完成后，对数据对象副本dTemplate中特定类型的数据值进行格式化、规范化处理，如根据手机号自动添加国际区号、地址自动添加“省、市、县、区”等。

规范化处理是利用值映射表，将数据对象副本中的数据值与值映射中的等效值进行对比，如果匹配成功，则将其替换为标准值。例如，标准值为“男性”，等效值为“男”，则将数据对象副本中性别数据值出现“男”的位置规范化为标准值“男性”。

至此，将非结构化表格文件转换为结构化数据完成，即：将符合一定规范，但不能直接结构化的表格文件中的数据进行提取，生成在数据结构上符合结构化要求的格式(例如数据库表格式、XML格式、JSON)，在数值上符合行业规范要求(例如：电话号码为11为数字)的数据，存入数据库或保存为文件，以供后续业务使用。

图3提供了结构化数据的转换方法流程图，如图所示，将非结构化的表格文件转换为结构分数据包括以下步骤：

步骤S300：确定文本规则，文本规则为转换后的结构化数据的特征约束，包括标准标题词语词典、值映射表、信息项仓库、文本特征关系、文本数据模板和文本数据地图；文本特征关系与文本数据地图为一对一对应关系；其中文本数据模板由文本数据地图生成；

标准标题词语词典title-dictionary中包括从所有卷宗的表格文件中识别出基本数据单元，即信息项对应的标题内容，其中包括标准标题，是表示相同含义的多个标题挑选出其中一个的特征标题，其中还包括扩展每个标题词语的近义词、缩写词。

信息项仓库item-library中包括所有卷宗的表格文件中出现的信息项数据结构，包含标准标题名称title、值数据类型type、值范围和值有效性校验规则等属性。其中包括构建数据类型和值集合的映射关系的值映射表value-map，是具有固定值范围的数据类型，和所有标准值和等效值进行汇总所得的值集合。

文本特征关系是参考卷宗文书材料文本规范，通过内容段落位置、文本字符内容、字体格式等特征提取出每个文本类型独有的文本内容特征，用于建立每个社会治安文本类型与文本内容特征的映射关系表feature-map，通过文本内容特征可以反向推定文本类型docType。

文本数据地图是采用结构化数据形式(如JSON和XML)构建的数据关系，数据地图使用树形结构，最小单元是信息项，对文本中各个信息项的层级关系、标准标题、标题所在位置、值所在位置、数据类型、数据长度，以及信息项之间的先后顺序进行定义。每个数据地图与文本类型一对一关联。

文本数据模板是基于文本内容的数据地图，通过裁剪其中的标题所在位置、值所在位置和数据长度等描述性字段，添加值数据字段，建立文本内容的结构化数据形式(如JSON或XML)，将每个数据模板与文本类型一对一关联。

步骤S310：读取指定非结构化表格文件，提取表格文件的文本特征，根据文本特征匹配对应文本数据模板和文本数据地图，创建转换数据对象副本；

在本步骤中，提取非结构化表格文件，输出文件内容对象，获得一个文档内容对象文件；获取对应的特征文本，判断文档内容对象对应的文本特征；再通过文本特征关系获取对应的文本数据模板和文本数据地图，生成非结构化表格文件的数据对象副本。数据对象副本是通过使用数据解析组件(适用于JSON或XML)转换数据模板文件得到模型对象副本，用于对社会治安文本数据的读取结果进行存储和更新。

其中，特征文本包括文本字符内容、字体、字体大小；文本特征结合映射关系表，可以反向确定表格文件所属的文本类型；

步骤S320：从转换数据对象副本中采集信息项、提取信息项对应的数据值组成结构化数据；

从转换数据对象副本中采集信息项、提取信息项对应的数据值组成结构化数据，采集过程包括两种类型：强校验模式数据项采集类型和自适应模式数据项采集类型：

自适应模式数据项采集类型支持的数据来源为非结构化表格文件本身的单元格；其支持的采集方式为遍历所有表格的单元格，提取单元格内容，匹配为信息项标题特征信息和信息项内容信息。

步骤S330：规范化结构化数据，生成结构化数据对象。

在本步骤中，对数据对象副本中特定类型的数据值进行格式化处理，其中包括对数据对象副本dTemplate中特定类型的数据值进行格式化、规范化处理，利用值映射表，将数据对象副本中的数据值与值映射中的等效值进行对比，如果匹配成功，则将其替换为标准值。

通过以上步骤，完成一个非结构化表格文件向结构化数据的转换。

在本发明中，对社会治安立体防控体系的数据模板、数据地图等文本特征定义模块进行利用，批量地处理符合规范的非结构化表格文件，按文本特征进行数据抽取、转换，形成结构化、内容标准化的数据后存储到数据库，供后续情报分析业务所用。

以上公开的仅为本发明的几个具体实施例，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种结构化数据的转换系统，其特征在于，包括：

文本特征定义模块：用于提供已定义的文本规则，所述文本规则包括文本特征关系与文本数据模板和文本数据地图；所述文本特征关系与所述文本数据地图一对一对应；所述文本数据模板由文本数据地图生成；

非结构化数据预处理模块：用于读取指定非结构化表格文件，提取所述表格文件的文本特征，根据所述文本特征匹配对应文本数据模板和文本数据地图，创建转换数据对象副本；

结构化数据转换模块：用于从所述转换数据对象副本中采集信息项、提取所述信息项对应的数据值组成结构化数据单元；其中，所述结构化数据转换模块包括采集单元，用于提取所述信息项对应的数据值；

结构化数据生成模块：用于规范化所述结构化数据单元，生成结构化数据对象。

2.根据权利要求1所述的结构化数据的转换系统，其特征在于，所述非结构化数据预处理模块包括：

文本特征提取单元：用于获取所述非结构化表格文件的特征文本，判断所述文档内容对象对应的文本特征；其中，所述特征文本包括文本字符内容、字体、字体大小；

数据对象副本创建单元：根据所述文本特征获取对应的文本数据模板和文本数据地图，生成所述非结构化表格文件的数据对象副本。

3.根据权利要求2所述的结构化数据的转换系统，其特征在于，所述采集单元包括强校验模式数据项采集单元；

其中，所述强校验模式数据项采集单元的数据来源为所述非结构化表格文件对应的文本数据地图；

所述强校验模式数据项采集单元提供的采集方式为逐个遍历文本数据地图中的信息项节点，提取所述信息项节点的标题特征信息和内容信息；

所述强校验模式数据项采集单元还包括有效性校验器。

4.根据权利要求2所述的结构化数据的转换系统，其特征在于，所述采集单元还包括自适应模式数据项采集单元；

其中，所述自适应模式数据项采集单元支持的数据来源为所述非结构化表格文件对应的单元格；

所述自适应模式数据项采集单元支持的采集方式为遍历所有表格的单元格，提取单元格内容，匹配为信息项标题特征信息和信息项内容信息。

5.根据权利要求4所述的结构化数据的转换系统，其特征在于，自适应模式数据项采集单元支持状态标记功能。

6.根据权利要求1所述的结构化数据的转换系统，其特征在于，所述结构化数据生成模块包括数据规范化处理模块，用于在数据对象副本中特定类型的数据值进行格式化处理。

7.根据权利要求1所述的结构化数据的转换系统，其特征在于，所述文本规则还包括标准标题词语词典、值映射表、信息项仓库。

8.一种结构化数据的转换方法，其特征在于，包括：

确定文本规则，包括确定文本特征关系、文本数据模板和文本数据地图；所述文本特征关系与所述文本数据地图一对一对应；所述文本数据模板由文本数据地图生成；

读取指定非结构化表格文件，提取所述表格文件的文本特征，根据所述文本特征匹配对应文本数据模板和文本数据地图，创建转换数据对象副本；

从所述转换数据对象副本中采集信息项、提取所述信息项对应的数据值组成结构化数据；

规范化所述结构化数据，生成结构化数据对象。

9.根据权利要求8所述的结构化数据的转换方法，其特征在于，所述提取所述表格文件的文本特征指，获取所述非结构化表格文件的特征文本，判断所述文档内容对象对应的文本特征；其中，所述特征文本包括文本字符内容、字体、字体大小。

10.根据权利要求8所述的结构化数据的转换方法，其特征在于，所述从所述转换数据对象副本中采集信息项、提取所述信息项对应的数据值组成结构化数据包括：强校验模式数据项采集类型和自适应模式数据项采集类型：

其中，所述强校验模式数据项采集类型的数据来源为所述非结构化表格文件对应的文本数据地图；所述强校验模式数据项采集类型提供的采集方式为逐个遍历文本数据地图中的信息项节点，提取信息项标题特征信息和信息项内容信息；

所述自适应模式数据项采集类型支持的数据来源为所述非结构化表格文件对应的单元格；所述自适应模式数据项采集类型支持的采集方式为遍历所有表格的单元格，提取单元格内容，匹配为信息项标题特征信息和信息项内容信息。