CN104376108B

CN104376108B - 一种基于6w语义标识的非结构化自然语言信息抽取方法

Info

Publication number: CN104376108B
Application number: CN201410697010.5A
Authority: CN
Inventors: 贾磊
Original assignee: KARAMAY HONGYOU SOFTWARE CO Ltd
Current assignee: Red software Limited by Share Ltd
Priority date: 2014-11-26
Filing date: 2014-11-26
Publication date: 2017-06-06
Anticipated expiration: 2034-11-26
Also published as: CN104376108A

Abstract

本发明是一种基于6W语义标识的非结构化自然语言信息抽取方法，它涉及信息技术领域。该抽取方法，包括以下步骤：S1，将数据库中完整数据元数据模型中存储的元数据复制到缓存中，得到元数据复制文本；S2，将非结构化自然语言进行文本解析，得到具有非结构化语言的数据元的文件File 8；S3，将所述数据元进行人工处理，然后建立索引文件，最后经过元数据登记，记录并保存文件的路径，完成基于6W语义标识的所述非结构化自然语言信息抽取；所述6W是六个维度的场景数据。本发明解决了现有信息抽取方法对编制规则的工程师要求高、费时费力，同时，还达不到需要信息集合最大化的问题。

Description

一种基于6W语义标识的非结构化自然语言信息抽取方法

技术领域

本发明涉及信息技术领域，尤其涉及一种基于6W语义标识的非结构化自然语言信息抽取方法。

背景技术

信息抽取技术是把文本里包含的信息进行结构化处理，变成表格一样的组织形式。它起源于自然语言处理，是最开始处理自由文本的工具。但是，随着互联网的兴起，结构化文本和半结构化文本的数量不断激增，致使科学家将信息抽取技术广泛应用于这两种文本，因此现有的信息抽取技术肩负如何描述文本和如何学习特征的责任：其中，如何描述文本即用特征描述文本；如何学习特征的基础是知识工程方法和自动训练方法，可是在现有技术中，知识工程方法人工编织规则，同时，对编制规则的工程师的业务要求高，费时费力，还达不到需要信息集合最大化的要求。

发明内容

本发明的目的在于提供一种基于6W语义标识的非结构化自然语言信息抽取方法，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明是一种基于6W语义标识的非结构化自然语言信息抽取方法，采用的技术方案包括以下步骤：

S1，将数据库中完整数据元数据模型中存储的元数据复制到缓存中，得到元数据复制文本；

S2，将非结构化自然语言进行文本解析，得到具有非结构化语言的数据元的文件File 8；

S3，将所述数据元进行人工处理，然后建立索引文件，最后经过元数据登记，记录并保存文件的路径，完成基于6W语义标识的所述非结构化自然语言信息抽取；

所述6W指六个维度的场景数据，所述六个维度包括：时间维度、活动维度、对象维度、地点维度、参与者维度和结果维度。

优选地，步骤S2中所述将非结构化语言进行文本解析，得到具有非结构化语言的数据元的文件File 8，具体包括以下步骤：

S11，文本复制去噪：将所述非结构化语言中的图片、设置的动画、视频、音频无法解析的内容去除，形成纯文本文件；

S12，数据元标识：对所述纯文本文件进行数据元标识处理，形成包含数据元识别和数据识别的文件File 1；

S13，标识分组排序：将所述文件File 1中存储的数据元进行排序分组处理，去掉数据元间关联性小的数据元组后，构成一个不完整的数据元数据模型1，得到记录所述模型的文件File2；

S14，数据元确认：将步骤S13中得到的文件File 2依次进行M项缺失处理、数据元分布处理、数据元上下文关联处理、数据元关联关系处理、数据元完整性验证和数据元裁剪处理，得到具有非结构化语言的数据元的文件File 8。

更优选地，所述数据元标识是将经过数据元识别的所述纯文本文件，再进行数据识别；具体按照下述方法实现：依据所述元数据复制文本中的数据元，标识所述纯文本文件中与其对应的数据元；然后再根据数据库中元数据仓库中存储的场景数据和特征数据，进行场景数据识别和特征数据识别，标识出所述纯文本文件与所述场景数据和所述特征数据具有映射关系的数据元，即得到包含数据元识别和数据识别的文件File 1。

更优选地，步骤S13，具体按下述步骤实现：依据所述文件File 1中的数据元识别的标识进行排序处理，得到多组数据元组，判断任意一个所述数据元组中各个数据元间的关联性是否符合关联阈值；

若是符合所述关联阈值，则保留该组数据元；

若是不符合所述关联阈值，则删除该组数据元；

所述保留的数据元组构成不完整数据元数据模型，将其记录到所述文件File 1中，得到文件File 2。

更优选地，步骤S14中所述M项缺失处理，具体按照下述实现：

依据所述文件File 2中的不完整数据元数据模型，去除缺失M项实体中的所有数据元，保留含有M项实体中的所有数据元，得到文件File 3。

更优选地，步骤S14中所述数据元分布处理，具体按照下述方法实现：

S1421，依据所述元数据复制文本中各个实体中数据元的分布设定分布阈值，将所述文件File 3中不完整数据元数据模型中的各个实体中的数据元的分布值与相应的分布阈值对比分析，保留所述不完整数据元数据模型中符合分布阈值的实体中的数据元，去除所述不完整数据元数据模型中不符合分布阈值的实体中的数据元；

S1422，依据数据库中元数据仓库中存储的6W场景中的数据元，保留所述文件File3中不完整数据元数据模型中满足6W场景数据元，去除所述文件File 3中不完整数据元数据模型中满足6W场景数据元，得到文件File 4。

更优选地，步骤S14中所述数据元上下文关联处理，具体按照下述方法实现：

将所述文件File 4中的不完整数据元数据模型4与所述纯文本文件的上下文结构匹配分析，如果一个实体中的数据元集中在所述非结构化语言的某一段落或者某一句话中，则保留这个实体中的数据元，如果实体中的数据元零散分布在多个段落，甚至多个章节中，则删掉该实体中的所有数据元，得到文件File 5；

步骤S14中所述数据元关联关系处理，具体按照下述方法实现：

在所述文件File 5中的不完整数据元数据模型5中查找同属于所述不完整数据元数据模型5的数据元j的父数据元L，

S1441，若在所述不完整数据元数据模型5中存在所述数据元j的父数据元L，判断所述父数据元L在所述元数据复制文本中是否具有约束、值域的限制；

若是不具有约束、值域的限制，则保留所述父数据元L，删除所述父数据元L的所有子数据元；

若是具有约束、值域的限制，则删除所述父数据元L及其所有子数据元；

S1442，若在所述不完整数据元数据模型5中不存在所述数据元j的父数据元L，则直接保留所述数据元j，得到文件File 6。

更优选地，步骤S14中所述数据元完整性验证，具体按照下述方法实现：将所述文件File 6中的不完整数据元数据模型6中的数据元排序，设定数据库中规范值的阈值和量纲的阈值，保留所述不完整数据元数据模型6中符合所述规范值的阈值和所述量纲的阈值的实体及其中的数据元，删除所述不完整数据元数据模型6中不符合所述规范值的阈值和所述量纲的阈值的实体及其中的数据元，得到文件File 7；

步骤S14中所述数据元裁剪，具体按照下述方法实现：将所述文件File 7中的数据元与所述纯文本文件进行匹配分析，删除与所述纯文本文件关联性低的数据元，保留与所述纯文本文件关联性高的数据元，得到文件File 8；

其中，在所述文件File 8中至少存在一个数据元。

优选地，步骤S3中，所述依据所述数据元建立索引文件后，进行元数据登记，记录并保存文件的路径，具体包括以下步骤：

S31，依据所述非结构化自然语言的语义信息，人工对步骤S2得到的所述文件File8中存储数据元进行判断处理，删除不符合所述非结构化自然语言语义信息的数据元，保留符合所述非结构化自然语言语义信息的数据元，即得到具有精细化数据元的文件File；

S32，将所述具有精细化数据元的文件File作为目标索引文件，与所述非结构化自然语言一同存储在数据库中；

S33，依据所述完整数据元数据模型，将所述目标索引文件中的数据元，作为元数据登记到数据仓库中，并记录和保存所述目标索引文件中的数据元的存储路径。

更优选地，在步骤S33中，将所述目标索引文件中的数据元，作为元数据登记到数据仓库的过程，具体按照下述规则进行登记：若所述数据元所在的实体中缺失M项，则所述实体中的所有数据元不予登记，直接不予登记的所述数据元删除；若所述数据元所在的实体中不缺失M项，则所述实体中的所有数据元予以登记。

本发明的有益效果是：

1、在本发明的数据元标识过程中，分别通过完整数据元数据模型识别数据元，通过元数据仓库识别6W场景数据，通过量纲和规范值识别特征数据，解决了现有数据识别过程中的采用单一特征识别的方式；

2、在本发明的数据元确认过程中，多次根据纯文本文件的原始结构，确认数据元的结构和关系，确保得到的数据元符合纯文本文件的语义结构；

3、本发明最终得到的数据元，将在元数据仓库中进行登记不断完善丰富元数据仓库中的数据，为以后的非结构化自然语言解析提供的宝贵的信息资源。

附图说明

图1是实施例中所述基于6W语义标识的非结构化自然语言信息抽取方法的流程示意图；

图2是实施例中所述基于6W语义标识的非结构化自然语言信息抽取系统的结构示意图；

图3是实施例中将非结构化自然语言进行文本解析流程示意图；

图4是实施例文本解析过程中的数据元标识的系统结构示意图；

图5是实施例数据元标识中数据元识别的流程示意图；

图6是实施例文本解析过程中的数据元确认的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

实施例1

参照图1，一种基于6W语义标识的非结构化自然语言信息抽取方法，该抽取方法，包括以下步骤：

S1，将数据库中完整数据元数据模型中存储的元数据复制到缓存模块中，得到元数据复制文本；

S3，将所述数据元进行人工处理，然后建立索引文件，最后进经过元数据登记，记录并保存文件的路径，完成基于6W语义标识的所述非结构化自然语言信息抽取；

所述6W是指六个场景，具体包括：时间场景、活动场景、对象场景、地点场景、参与者场景和结果场景，在所述六个场景中存储与各个场景相关的数据元。

参照图2，本实施例中基于6W语义标识的非结构化自然语言信息抽取方法是基于下述系统实现的，该系统包括：数据库、文本解析子系统和数据元后期处理子系统；

其中，所述数据库包括完整数据元数据模型和元数据仓库，所述文本解析子系统包括：文本复制去噪模块、数据元标识模块、标识分组排序模块和数据元确认模块；所述数据元后期处理子系统包括人工处理数据元模块和元数据登记模块。

其中，所述数据库的功能是：储存完整数据元数据模型、6W场景数据以及文本解析之后得到的数据和文本信息；

所述文本解析子系统的功能是：依据数据库中完整数据元数据模型中的数据元和元数据仓库中的元数据解析文本，得到文本当中的数据元，并对文本中的数据元进行反复处理和验证，抽取其中可用性较高的数据元；

所述数据元后期处理子系统的功能是：通过人工验证所述获得的数据元的可用性，并且将得到可用的数据元登记保存。

参照图3，所述步骤S2中将非结构化自然语言进行文本解析，得到具有非结构化语言的数据元的文件File 8，是依据步骤S1中所述元数据复制文本和所述数据库中存储的元数据仓库中存储的场景数据和特征数据，对非结构化自然语言进行文本解析，具体包括以下步骤：

在本实施例步骤S12中，所述数据元标识是将经过数据元识别的所述纯文本文件，再进行数据识别，即先进行数据元识别，再进行数据识别；具体按照下述方法实现：依据所述元数据复制文本中的数据元，标识所述纯文本文件中与其对应的数据元；然后再根据数据库中元数据仓库中存储的场景数据和特征数据，进行场景数据识别和特征数据识别，标识出所述纯文本文件与所述场景数据和所述特征数据具有映射关系的数据元，即得到包含数据元识别和数据识别的文件File 1。

参照图4，表示本实施例中实现所述数据元标识功能的系统，该系统包括：数据元识别模块和数据识别模块；所述数据元识别模块包括直接标示单元和同义词标示单元；所述数据识别模块包括场景数据识别模块和特征数据识别模块；所述特征数据识别模块包括：阿拉伯数字数据单元、文本数据单元和特征数据单元。

其中，所述直接标示单元：依据所述步骤S1中所述元数据复制文本对所述纯文本文件直接标识，并将标识的数据元记录在一个文件File中；所述同义词标示单元：依据所述完整数据元数据模型中的数据元的同义词对所述纯文本文件标识，并将数据元记录在同一个文件File中。

在本实施例中，所述纯文本文件中的数据，存在一个数据对一个数据元或一个数据对多个数据元的情况，因此在所述数据元标示过程中，需要将与数据对应的数据元一一记录下来；若数据元A被标识，则在文本中所述数据元A所辖的数据即为数据元A对应的数据，即被标识为数据元A数据，这些数据不再进行其他识别操作，将数据元数据记录在文件File中。

参照图5，图5表示实施例1中所述数据元识别流程图，所述数据元识别，按照下述步骤实现：

F1，从缓存中读取所述元数据复制文本；

F2，从缓存中读取所述纯文本文件；

F3，判断步骤F2所述纯文本文件中的数据元是否在步骤F1中所述元数据复制文本遍历完毕，若是遍历完毕，则存储遍历完后的标签文本；若是未遍历完毕，则进入F4；

F4，进入文本数据元的匹配识别，将与所述文本数据元匹配的所述纯文本文件中的数据元标记并进入F5；与所述文本数据元不匹配的所述纯文本文件中的数据元进入F6；

F5，将所述匹配的数据元增加匹配标签，然后判断现有被标记的文本文件是否遍历完毕，若是遍历完毕，进入F9；若是遍历未完毕，返回F4；

F6，进行同义词数据元的匹配，将与所述同义词数据元匹配的所述纯文本文件中的数据元标记并进入F7；与所述同义词数据元不匹配的所述纯文本文件中的数据元进入F8；

F7，将所述匹配的数据元增加匹配标签，然后判断现有被标记的文本文件是否遍历完毕，若是遍历完毕，进入F9；若是遍历未完毕，返回F4；

F8，不进行处理，判断现有别标记的文本文件是否遍历完毕，若是遍历完毕，进入F9；若是遍历未完毕，返回F4；

F9，存储遍历完成后标记标签的文本。

其中，所述场景数据识别模块：通过数据库中元数据仓库存储的元数据标识出所述纯文本文件中的场景数据，再根据场景数据的名称与所述纯文本文件中数据元的映射关系，获取所述纯文本文件中对应的数据元，将场景元数据及对应数据元记录在文件File 1中。

其中，所述特征数据识别模块：特征数据识别包括阿拉伯数字数据单元、文本数据单元和特征数据单元。所述阿拉伯数字数据单元，在所述纯文本文件中，识别出与所述阿拉伯数字数据单元中的阿拉伯数字数据对应的数据，并记录数据标签，保存在文件File1中。所述文本数据单元，在所述场景类数据的基础上，依据所述完整数据元数据模型中的值域里的规范值进行对比分析，获取所述纯文本文件中规范值对应的所有数据元，标识出对应的数据元，将场景类文本数据及数据元记录在文件File1中。所述特征数据单元，依据量纲进行对比分析，获取所述量纲对应的所有数据元，标识出对应的数据元，将特征数据及对应数据元记录在文件File1中，经过以上的顺序标识纯文本文件数据元和数据的处理操作，最终得到的文件File1是标识了数据元和数据的文本文件。

在本实施例中，所述数据元标识是一个给文本中的内容注上标签的过程，标签结构如表(1)所示，分别为标识数据元、场景数据和特征值：

表1表示标示数据标签类型和标签结构

本实施例中列举一个实例解释对纯文本文件中数据进行数据标识处理前后的对照表，如表(2)所示。

表2表示对纯文本文件中的数据进行数据元标识处理前后的对照表

在本实施例中，步骤S12中所述数据元标识是对文本中的内容注明标签内容，同一个数据可能会对应多个数据元标识，这只是得到的初步数据元，还要经过后续处理才能得到满足要求的数据元。

在本实施例中，步骤S13，具体按下述步骤实现：依据所述文件File 1中的数据元识别的标识进行排序处理，得到多组数据元组，判断任意一个所述数据元组中各个数据元间的关联性是否符合关联阈值；

若是符合所述关联阈值，则保留该组数据元；

若是不符合所述关联阈值，则删除该组数据元；

所述保留的数据元组构成不完整数据元数据模型1，将其记录到所述文件File 1中，得到文件File 2。

参照图6，图6表示数据元确认的流程示意图，所述数据元确认，具体按照下述步骤实现：

T1，所述M项缺失处理，具体按照下述方法实现：

依据所述文件File 2中的不完整数据元数据模型1，去除缺失M项实体中的所有数据元，保留含有M项实体中的所有数据元，得到文件File 3；

其中，所述M项是一种数据项的分类，用于确定数据唯一性的标识，所述数据项包括M项、C项和O项，所述M项为必填项，所述C项和所述O项均为非必填项。

所述元数据复制文本中的实体，具体的解释为：所述元数据复制文本根据业务域分成不同的系列，每个系列内的业务报表按照业务分类以及对象不同分成不同的集合，所述集合再分成子集，即业务报表；所述子集再分成实体，实体即所述业务报表内的具体的表格，每一个所述集合至少含有一个M类实体，即基础的所述业务报表。

T2，所述数据元分布处理，具体按照下述方法实现：

S1421，依据元数据复制文本中各个实体中数据元的分布设定分布阈值，将所述文件File 3中不完整数据元数据模型3中的各个实体中的数据元的分布值与相应的分布阈值对比分析，保留所述不完整数据元数据模型3中符合分布阈值的实体中的数据元，去除所述不完整数据元数据模型3中不符合分布阈值的实体中的数据元；

S1422，依据数据库元数据仓库存储的6W场景的实体或集合中的数据元，保留所述文件File 3中不完整数据元数据模型3中满足6W场景的实体或集合中的数据元，保留所述文件File 3中不完整数据元数据模型3中满足6W场景的实体或集合中的数据元，得到文件File 4。

T3，所述数据元上下文关联处理，具体按照下述方法实现：

T4，所述数据元关联关系处理，具体按照下述方法实现：

S1441，若在所述不完整数据元数据模型5中存在所述数据元j的父数据元L，判断所述父数据元L在所述元数据复制文本中是否具有约束、值域的限制，

T5，所述数据元完整性验证，具体按照下述方法实现：将所述文件File 6中的不完整数据元数据模型6中的数据元排序，设定所述元数据复制文本实体中规范值的阈值和量纲的阈值，保留所述不完整数据元数据模型6中符合所述规范值的阈值和所述量纲的阈值的实体及其中的数据元，删除所述不完整数据元数据模型6中不符合所述规范值的阈值和所述量纲的阈值的实体及其中的数据元，得到文件File 7。

T6，所述数据元裁剪，具体按照下述方法实现：将所述文件File 7中的数据元与所述纯文本文件进行匹配分析，删除与所述纯文本文件关联性低的数据元，保留与所述纯文本文件关联性高的数据元，得到文件File 8；在所述文件File 8中至少存在一个数据元。

本实施例中，步骤S3，所述依据所述数据元建立索引文件后，进行元数据登记，记录并保存文件的路径，具体包括以下步骤：

S31，依据所述非结构化自然语言的语义信息，人工对步骤S2得到的所述文件File8中存储数据元进行判断处理，删除不符合所述非结构化自然语言语义信息的数据元，保留符合所述非结构化自然语言的语义信息数据元，即得到具有精细化数据元的文件File；

S33，依据所述完整数据元数据模型，将所述目标索引文件中的数据元，作为元数据登记到元数据仓库中，并记录和保存所述目标索引文件中的数据元的存储路径；

其中，在步骤S33中，将所述目标索引文件中的数据元，作为元数据登记到元数据仓库的过程，具体按照下述规则进行登记：若所述数据元所在的实体中缺失M项，则所述实体中的所有数据元不予登记，直接不予登记的所述数据元删除；若所述数据元所在的实体中不缺失M项，则所述实体中的所有数据元予以登记。

通过采用本发明公开的上述技术方案，得到了如下有益的效果：

3、本发明最终得到的数据元，将在元数据仓库中进行登记并不断完善丰富元数据仓库中的数据，为以后的非结构化自然语言解析提供的宝贵的信息资源。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种基于6W语义标识的非结构化自然语言信息抽取方法，其特征在于，该抽取方法，包括以下步骤：

S2，将非结构化自然语言进行文本解析，得到具有非结构化语言的数据元的文件File8；

所述6W指六个维度的场景数据，所述六个维度包括：时间维度、活动维度、对象维度、地点维度、参与者维度和结果维度；

步骤S2中所述将非结构化语言进行文本解析，得到具有非结构化语言的数据元的文件File 8，具体包括以下步骤：

2.根据权利要求1所述基于6W语义标识的非结构化自然语言信息抽取方法，其特征在于，所述数据元标识是将经过数据元识别的所述纯文本文件，再进行数据识别；具体按照下述方法实现：依据所述元数据复制文本中的数据元，标识所述纯文本文件中与其对应的数据元；然后再根据数据库中元数据仓库中存储的场景数据和特征数据，进行场景数据识别和特征数据识别，标识出所述纯文本文件与所述场景数据和所述特征数据具有映射关系的数据元，即得到包含数据元识别和数据识别的文件File 1。

3.根据权利要求1所述基于6W语义标识的非结构化自然语言信息抽取方法，其特征在于，步骤S13，具体按下述步骤实现：依据所述文件File 1中的数据元识别的标识进行排序处理，得到多组数据元组，判断任意一个所述数据元组中各个数据元间的关联性是否符合关联阈值；

若是符合所述关联阈值，则保留该组数据元；

若是不符合所述关联阈值，则删除该组数据元；

所述保留的数据元组构成不完整数据元数据模型，将其记录到所述文件File1中，得到文件File 2。

4.根据权利要求1所述基于6W语义标识的非结构化自然语言信息抽取方法，其特征在于，步骤S14中所述M项缺失处理，具体按照下述实现：

5.根据权利要求4所述基于6W语义标识的非结构化自然语言信息抽取方法，其特征在于，步骤S14中所述数据元分布处理，具体按照下述方法实现：

S1422，依据数据库中元数据仓库中存储的6W场景中的数据元，保留所述文件File 3中不完整数据元数据模型中满足6W场景数据元，去除所述文件File 3中不完整数据元数据模型中满足6W场景数据元，得到文件File 4。

6.根据权利要求5所述基于6W语义标识的非结构化自然语言信息抽取方法，其特征在于，步骤S14中所述数据元上下文关联处理，具体按照下述方法实现：

7.根据权利要求6所述基于6W语义标识的非结构化自然语言信息抽取方法，其特征在于：

步骤S14中所述数据元完整性验证，具体按照下述方法实现：将所述文件File6中的不完整数据元数据模型6中的数据元排序，设定数据库中规范值的阈值和量纲的阈值，保留所述不完整数据元数据模型6中符合所述规范值的阈值和所述量纲的阈值的实体及其中的数据元，删除所述不完整数据元数据模型6中不符合所述规范值的阈值和所述量纲的阈值的实体及其中的数据元，得到文件File 7；

其中，在所述文件File 8中至少存在一个数据元。

8.根据权利要求1所述基于6W语义标识的非结构化自然语言信息抽取方法，其特征在于，步骤S3中，所述依据所述数据元建立索引文件后，进行元数据登记，记录并保存文件的路径，具体包括以下步骤：

S31，依据所述非结构化自然语言的语义信息，人工对步骤S2得到的所述文件File 8中存储数据元进行判断处理，删除不符合所述非结构化自然语言语义信息的数据元，保留符合所述非结构化自然语言语义信息的数据元，即得到具有精细化数据元的文件File；

9.根据权利要求8所述基于6W语义标识的非结构化自然语言信息抽取方法，其特征在于，在步骤S33中，将所述目标索引文件中的数据元，作为元数据登记到数据仓库的过程，具体按照下述规则进行登记：若所述数据元所在的实体中缺失M项，则所述实体中的所有数据元不予登记，直接不予登记的所述数据元删除；若所述数据元所在的实体中不缺失M项，则所述实体中的所有数据元予以登记。