CN111597775A - 基于html的信息智能提取技术的方法 - Google Patents

基于html的信息智能提取技术的方法 Download PDF

Info

Publication number
CN111597775A
CN111597775A CN202010043388.9A CN202010043388A CN111597775A CN 111597775 A CN111597775 A CN 111597775A CN 202010043388 A CN202010043388 A CN 202010043388A CN 111597775 A CN111597775 A CN 111597775A
Authority
CN
China
Prior art keywords
entity
attribute
target
entities
candidates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010043388.9A
Other languages
English (en)
Inventor
佘俊
周宇鹏
余少锋
麻建超
廖崇阳
柳本林
罗勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Communication Branch of Peak Regulation and Frequency Modulation Power Generation of China Southern Power Grid Co Ltd
Original Assignee
Information Communication Branch of Peak Regulation and Frequency Modulation Power Generation of China Southern Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Communication Branch of Peak Regulation and Frequency Modulation Power Generation of China Southern Power Grid Co Ltd filed Critical Information Communication Branch of Peak Regulation and Frequency Modulation Power Generation of China Southern Power Grid Co Ltd
Priority to CN202010043388.9A priority Critical patent/CN111597775A/zh
Publication of CN111597775A publication Critical patent/CN111597775A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明属信息处理技术领域,特别涉及一种基于HTML的信息智能提取技术的方法,本方法根据实体种子集中的多个实体种子,从目标语料中提取多个实体候选和多个属性候选,建立实体与属性的关联关系,分别从所述多个实体中确定出至少一个目标实体;最后,将提取的目标实体存储在目标实体集中,将提取的目标属性存储在与目标实体关联的目标属性集中,将相邻的语义关联的行合并为段落,与相邻行不存在语义关联的行独立成为段落,得到结构化文本;建立包含关键词的关键信息表单;通过特征获取关键信息,并该关键信息写入所述关键信息表单中,完成关键信息提取。通过本方法得到结构化文本,使得信息可分析和统计,极大的为研究工作提供了全数据的分析环境。

Description

基于HTML的信息智能提取技术的方法
技术领域
本发明属于信息处理技术领域,特别涉及一种基于HTML的信息智能提取技术的方法。
背景技术
随着电子技术的快速发展和大数据时代的到来,越来越多的数据以超文本标记语言的形式存储在信息系统中,通过自然语言处理技术对超文本标记语言(英文:HyperTextMarkup Language;简称:HTML)进行处理为结构化文本,而从HTML文本中提取实体与属性是将非结构化文本转化为结构化文本的重要步骤。
对于大量的非结构化文本,采取人工阅读,人工理解的方式,存在工作量大,理解带有主观性等问题。因此,如何将非结构化数据转换成计算机可理解的结构化数据并快速准确地从中自动提取关键信息成为亟待解决的技术问题。在非结构化文本转化为结构化文本的过程中,通常将实体提取与属性提取分成独立的两个阶段进行。具体实施时,首先,根据给定目标类别的实体种子集中的实体种子在给定非结构化文本中提取实体候选,根据实体候选在给定语料中的上下文计算实体候选与实体种子的相似度,将实体候选中与实体种子的相似度大于预设相似度的实体候选作为目标实体,然后,根据给定的属性种子集中的属性种子,在该给定语料中提取属性候选,根据属性候选在该给定语料中的上下文计算属性候选与属性种子的相似度,将属性候选中与属性种子的相似度大于预设相似度的属性候选作为目标属性,由于相似度设定需人为设定,在信息提取过程中往往存在“语义漂移“的问题。
另外,现有技术在HTML的信息抽取环节,根据给出的页面预处理以及抽取规则设置,输出结构化的信息组以便查询分析。但这种方法未对关键信息作出提取,推送给用户的信息仍然是完整文件,无法快速准确提取关键信息。
发明内容
为了解决信息提取过程存在“语义漂移”及无法提取关键信息的问题,本发明提供一种基于HTML的信息智能提取技术的方法。
本发明所采用的的技术方案如下:
根据实体种子集中的多个实体种子,从目标语料中提取多个实体候选和多个属性候选,所述实体种子集由属于目标类别的多个实体种子构成;
根据多个实体和所述多个属性候选,建立实体与属性的关联关系,所述多个实体包括所述多个实体种子和所述多个实体候选;
根据所述实体与属性的关联关系,分别从所述多个实体中确定出至少一个目标实体,从所述多个属性候选中确定出至少一个目标属性。
根据所述实体与属性的关联关系中,各个实体与各个属性的关联系数,对所述多个实体中的每个实体和所述多个属性候选中的每个属性候选进行打分;
根据所述多个实体的打分结果,从所述多个实体中确定出所述至少一个目标实体;
根据所述多个属性候选的打分结果,从所述多个属性候选中确定出所述至少一个目标属性;
最后,将提取的目标实体存储在目标实体集中,将提取的目标属性存储在与目标实体关联的目标属性集中,将相邻的语义关联的行合并为段落,与相邻行不存在语义关联的行独立成为段落,得到结构化文本;建立包含关键词的关键信息表单;通过特征获取关键信息,并该关键信息写入所述关键信息表单中,完成关键信息提取。
所述实体种子集由属于目标类别的多个实体种子构成;
根据多个实体和所述多个属性候选,建立实体与属性的关联关系,所述多个实体包括所述多个实体种子和所述多个实体候选;
根据所述实体与属性的关联关系中,各个实体与各个属性的关联系数,对所述多个实体中的每个实体和所述多个属性候选中的每个属性候选进行打分;
根据所述多个实体的打分结果,从所述多个实体中确定出所述至少一个目标实体;
根据所述多个属性候选的打分结果,从所述多个属性候选中确定出所述至少一个目标属性。
本发明提供的基于HTML的信息智能提取技术的方法,通过根据实体种子集中的多个实体种子,从目标语料中提取多个实体候选和多个属性候选,根据多个实体和多个属性候选,建立实体与属性的关联关系,根据实体与属性的关联关系,分别从多个实体中确定出至少一个目标实体,从多个属性候选中确定出至少一个目标属性,由于目标实体和目标属性都是根据实体与属性的关联关系确定的,因此,解决了信息提取过程存在“语义漂移”的问题,达到了避免信息提取过程存在“语义漂移”的效果;同时,本方法通过特征能快速准确获取关键信息,极大减少人工抽取数据的时间,提高投研效率和准确性,为分析过程创造价值。通过本方法得到结构化文本,使得信息可分析和统计,极大的为研究工作提供了全数据的分析环境。
具体实施方式
实施例1:根据实体种子集中的多个实体种子,从目标语料中提取多个实体候选和多个属性候选,所述实体种子集由属于目标类别的多个实体种子构成;根据多个实体和所述多个属性候选,建立实体与属性的关联关系,所述多个实体包括所述多个实体种子和所述多个实体候选;根据所述实体与属性的关联关系,分别从所述多个实体中确定出至少一个目标实体,从所述多个属性候选中确定出至少一个目标属性,对所述多个实体中的每个实体和所述多个属性候选中的每个属性候选进行打分;根据所述多个实体的打分结果,从所述多个实体中确定出所述至少一个目标实体;根据所述多个属性候选的打分结果,从所述多个属性候选中确定出所述至少一个目标属性;最后,将提取的目标实体存储在目标实体集中,将提取的目标属性存储在与目标实体关联的目标属性集中,将相邻的语义关联的行合并为段落,与相邻行不存在语义关联的行独立成为段落,得到结构化文本;建立包含关键词的关键信息表单;通过特征获取关键信息,并该关键信息写入所述关键信息表单中,完成关键信息提取。

Claims (2)

1.基于HTML的信息智能提取技术的方法,其特征在于:根据实体种子集中的多个实体种子,从目标语料中提取多个实体候选和多个属性候选,所述实体种子集由属于目标类别的多个实体种子构成;根据多个实体和所述多个属性候选,建立实体与属性的关联关系,所述多个实体包括所述多个实体种子和所述多个实体候选;所述根据所述实体与属性的关联关系,分别从所述多个实体中确定出至少一个目标实体,从所述多个属性候选中确定出至少一个目标属性,包括:
根据所述实体与属性的关联关系中,各个实体与各个属性的关联系数,对所述多个实体中的每个实体和所述多个属性候选中的每个属性候选进行打分;根据所述多个实体的打分结果,从所述多个实体中确定出所述至少一个目标实体;根据所述多个属性候选的打分结果,从所述多个属性候选中确定出所述至少一个目标属性;最后,将提取的目标实体存储在目标实体集中,将提取的目标属性存储在与目标实体关联的目标属性集中,将相邻的语义关联的行合并为段落,与相邻行不存在语义关联的行独立成为段落,得到结构化文本;建立包含关键词的关键信息表单;通过特征获取关键信息,并该关键信息写入所述关键信息表单中,完成关键信息提取。
2.如权利要求1所述的基于HTML的信息智能提取技术的方法,其特征在于根据所述实体与属性的关联关系,分别从所述多个实体中确定出至少一个目标实体,从所述多个属性候选中确定出至少一个目标属性,包括:根据所述实体与属性的关联关系中,各个实体与各个属性的关联系数,对所述多个实体中的每个实体和所述多个属性候选中的每个属性候选进行打分;根据所述多个实体的打分结果,从所述多个实体中确定出所述至少一个目标实体;根据所述多个属性候选的打分结果,从所述多个属性候选中确定出所述至少一个目标属性。
CN202010043388.9A 2020-01-15 2020-01-15 基于html的信息智能提取技术的方法 Pending CN111597775A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010043388.9A CN111597775A (zh) 2020-01-15 2020-01-15 基于html的信息智能提取技术的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010043388.9A CN111597775A (zh) 2020-01-15 2020-01-15 基于html的信息智能提取技术的方法

Publications (1)

Publication Number Publication Date
CN111597775A true CN111597775A (zh) 2020-08-28

Family

ID=72181400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010043388.9A Pending CN111597775A (zh) 2020-01-15 2020-01-15 基于html的信息智能提取技术的方法

Country Status (1)

Country Link
CN (1) CN111597775A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112288548A (zh) * 2020-11-13 2021-01-29 北京沃东天骏信息技术有限公司 目标对象的关键信息的提取方法、装置、介质及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112288548A (zh) * 2020-11-13 2021-01-29 北京沃东天骏信息技术有限公司 目标对象的关键信息的提取方法、装置、介质及电子设备

Similar Documents

Publication Publication Date Title
CN111723215B (zh) 基于文本挖掘的生物技术信息知识图谱构建装置与方法
CN101079025B (zh) 一种文档相关度计算系统和方法
CN105975478A (zh) 一种基于词向量分析的网络文章所属事件的检测方法和装置
CN104408078A (zh) 一种基于关键词的中英双语平行语料库构建方法
CN109145260A (zh) 一种文本信息自动提取方法
CN111274814B (zh) 一种新型的半监督文本实体信息抽取方法
CN102789464A (zh) 基于语意识别的自然语言处理方法、装置和系统
CN110795932B (zh) 基于地质本体的地质报告文本信息提取方法
CN108287911A (zh) 一种基于约束化远程监督的关系抽取方法
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN109190099B (zh) 句模提取方法及装置
CN109213998A (zh) 中文错字检测方法及系统
CN114266256A (zh) 一种领域新词的提取方法及系统
CN105389303A (zh) 一种异源语料自动融合方法
CN109344233B (zh) 一种中文人名识别方法
CN107943937B (zh) 一种基于司法公开信息分析的债务人资产监控方法及系统
CN103207921A (zh) 一种从中文电子文档中自动提取词语的方法
CN111597775A (zh) 基于html的信息智能提取技术的方法
CN110929509B (zh) 一种基于louvain社区发现算法的领域事件触发词聚类方法
CN112257442A (zh) 一种基于扩充语料库神经网络的政策文件信息提取方法
CN110765107A (zh) 基于数字化编码的题型识别方法及其系统
CN109299456B (zh) 一种地名识别方法
CN109325159A (zh) 一种微博热点事件挖掘方法
CN112488593B (zh) 一种用于招标的辅助评标系统及方法
CN111723297B (zh) 一种面向网格社情研判的双重语义相似度判别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination