CN111597775A

CN111597775A - 基于html的信息智能提取技术的方法

Info

Publication number: CN111597775A
Application number: CN202010043388.9A
Authority: CN
Inventors: 佘俊; 周宇鹏; 余少锋; 麻建超; 廖崇阳; 柳本林; 罗勇
Original assignee: Information Communication Branch of Peak Regulation and Frequency Modulation Power Generation of China Southern Power Grid Co Ltd
Current assignee: Information Communication Branch of Peak Regulation and Frequency Modulation Power Generation of China Southern Power Grid Co Ltd
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2020-08-28

Abstract

本发明属信息处理技术领域，特别涉及一种基于HTML的信息智能提取技术的方法，本方法根据实体种子集中的多个实体种子，从目标语料中提取多个实体候选和多个属性候选，建立实体与属性的关联关系，分别从所述多个实体中确定出至少一个目标实体；最后，将提取的目标实体存储在目标实体集中，将提取的目标属性存储在与目标实体关联的目标属性集中，将相邻的语义关联的行合并为段落，与相邻行不存在语义关联的行独立成为段落，得到结构化文本；建立包含关键词的关键信息表单；通过特征获取关键信息，并该关键信息写入所述关键信息表单中，完成关键信息提取。通过本方法得到结构化文本，使得信息可分析和统计，极大的为研究工作提供了全数据的分析环境。

Description

基于HTML的信息智能提取技术的方法

技术领域

本发明属于信息处理技术领域，特别涉及一种基于HTML的信息智能提取技术的方法。

背景技术

随着电子技术的快速发展和大数据时代的到来，越来越多的数据以超文本标记语言的形式存储在信息系统中，通过自然语言处理技术对超文本标记语言(英文：HyperTextMarkup Language；简称：HTML)进行处理为结构化文本，而从HTML文本中提取实体与属性是将非结构化文本转化为结构化文本的重要步骤。

对于大量的非结构化文本，采取人工阅读，人工理解的方式，存在工作量大，理解带有主观性等问题。因此，如何将非结构化数据转换成计算机可理解的结构化数据并快速准确地从中自动提取关键信息成为亟待解决的技术问题。在非结构化文本转化为结构化文本的过程中，通常将实体提取与属性提取分成独立的两个阶段进行。具体实施时，首先，根据给定目标类别的实体种子集中的实体种子在给定非结构化文本中提取实体候选，根据实体候选在给定语料中的上下文计算实体候选与实体种子的相似度，将实体候选中与实体种子的相似度大于预设相似度的实体候选作为目标实体，然后，根据给定的属性种子集中的属性种子，在该给定语料中提取属性候选，根据属性候选在该给定语料中的上下文计算属性候选与属性种子的相似度，将属性候选中与属性种子的相似度大于预设相似度的属性候选作为目标属性，由于相似度设定需人为设定，在信息提取过程中往往存在“语义漂移“的问题。

另外，现有技术在HTML的信息抽取环节，根据给出的页面预处理以及抽取规则设置，输出结构化的信息组以便查询分析。但这种方法未对关键信息作出提取，推送给用户的信息仍然是完整文件，无法快速准确提取关键信息。

发明内容

为了解决信息提取过程存在“语义漂移”及无法提取关键信息的问题，本发明提供一种基于HTML的信息智能提取技术的方法。

本发明所采用的的技术方案如下：

根据实体种子集中的多个实体种子，从目标语料中提取多个实体候选和多个属性候选，所述实体种子集由属于目标类别的多个实体种子构成；

根据多个实体和所述多个属性候选，建立实体与属性的关联关系，所述多个实体包括所述多个实体种子和所述多个实体候选；

根据所述实体与属性的关联关系，分别从所述多个实体中确定出至少一个目标实体，从所述多个属性候选中确定出至少一个目标属性。

根据所述实体与属性的关联关系中，各个实体与各个属性的关联系数，对所述多个实体中的每个实体和所述多个属性候选中的每个属性候选进行打分；

根据所述多个实体的打分结果，从所述多个实体中确定出所述至少一个目标实体；

根据所述多个属性候选的打分结果，从所述多个属性候选中确定出所述至少一个目标属性；

最后，将提取的目标实体存储在目标实体集中，将提取的目标属性存储在与目标实体关联的目标属性集中，将相邻的语义关联的行合并为段落，与相邻行不存在语义关联的行独立成为段落，得到结构化文本；建立包含关键词的关键信息表单；通过特征获取关键信息，并该关键信息写入所述关键信息表单中，完成关键信息提取。

所述实体种子集由属于目标类别的多个实体种子构成；

根据所述多个属性候选的打分结果，从所述多个属性候选中确定出所述至少一个目标属性。

本发明提供的基于HTML的信息智能提取技术的方法，通过根据实体种子集中的多个实体种子，从目标语料中提取多个实体候选和多个属性候选，根据多个实体和多个属性候选，建立实体与属性的关联关系，根据实体与属性的关联关系，分别从多个实体中确定出至少一个目标实体，从多个属性候选中确定出至少一个目标属性，由于目标实体和目标属性都是根据实体与属性的关联关系确定的，因此，解决了信息提取过程存在“语义漂移”的问题，达到了避免信息提取过程存在“语义漂移”的效果；同时，本方法通过特征能快速准确获取关键信息，极大减少人工抽取数据的时间，提高投研效率和准确性，为分析过程创造价值。通过本方法得到结构化文本，使得信息可分析和统计，极大的为研究工作提供了全数据的分析环境。

具体实施方式

实施例1：根据实体种子集中的多个实体种子，从目标语料中提取多个实体候选和多个属性候选，所述实体种子集由属于目标类别的多个实体种子构成；根据多个实体和所述多个属性候选，建立实体与属性的关联关系，所述多个实体包括所述多个实体种子和所述多个实体候选；根据所述实体与属性的关联关系，分别从所述多个实体中确定出至少一个目标实体，从所述多个属性候选中确定出至少一个目标属性，对所述多个实体中的每个实体和所述多个属性候选中的每个属性候选进行打分；根据所述多个实体的打分结果，从所述多个实体中确定出所述至少一个目标实体；根据所述多个属性候选的打分结果，从所述多个属性候选中确定出所述至少一个目标属性；最后，将提取的目标实体存储在目标实体集中，将提取的目标属性存储在与目标实体关联的目标属性集中，将相邻的语义关联的行合并为段落，与相邻行不存在语义关联的行独立成为段落，得到结构化文本；建立包含关键词的关键信息表单；通过特征获取关键信息，并该关键信息写入所述关键信息表单中，完成关键信息提取。

Claims

1.基于HTML的信息智能提取技术的方法，其特征在于：根据实体种子集中的多个实体种子，从目标语料中提取多个实体候选和多个属性候选，所述实体种子集由属于目标类别的多个实体种子构成；根据多个实体和所述多个属性候选，建立实体与属性的关联关系，所述多个实体包括所述多个实体种子和所述多个实体候选；所述根据所述实体与属性的关联关系，分别从所述多个实体中确定出至少一个目标实体，从所述多个属性候选中确定出至少一个目标属性，包括：

根据所述实体与属性的关联关系中，各个实体与各个属性的关联系数，对所述多个实体中的每个实体和所述多个属性候选中的每个属性候选进行打分；根据所述多个实体的打分结果，从所述多个实体中确定出所述至少一个目标实体；根据所述多个属性候选的打分结果，从所述多个属性候选中确定出所述至少一个目标属性；最后，将提取的目标实体存储在目标实体集中，将提取的目标属性存储在与目标实体关联的目标属性集中，将相邻的语义关联的行合并为段落，与相邻行不存在语义关联的行独立成为段落，得到结构化文本；建立包含关键词的关键信息表单；通过特征获取关键信息，并该关键信息写入所述关键信息表单中，完成关键信息提取。

2.如权利要求1所述的基于HTML的信息智能提取技术的方法，其特征在于根据所述实体与属性的关联关系，分别从所述多个实体中确定出至少一个目标实体，从所述多个属性候选中确定出至少一个目标属性，包括：根据所述实体与属性的关联关系中，各个实体与各个属性的关联系数，对所述多个实体中的每个实体和所述多个属性候选中的每个属性候选进行打分；根据所述多个实体的打分结果，从所述多个实体中确定出所述至少一个目标实体；根据所述多个属性候选的打分结果，从所述多个属性候选中确定出所述至少一个目标属性。