CN110532370A - 一种基于属性标注的专业数据实体属性抽取方法 - Google Patents

一种基于属性标注的专业数据实体属性抽取方法 Download PDF

Info

Publication number
CN110532370A
CN110532370A CN201910500410.5A CN201910500410A CN110532370A CN 110532370 A CN110532370 A CN 110532370A CN 201910500410 A CN201910500410 A CN 201910500410A CN 110532370 A CN110532370 A CN 110532370A
Authority
CN
China
Prior art keywords
attribute
data
extraction
pick
abstracting method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910500410.5A
Other languages
English (en)
Inventor
肖清林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Useear Information Technology Co ltd
Original Assignee
Fujian Singularity Space-Time Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Singularity Space-Time Digital Technology Co Ltd filed Critical Fujian Singularity Space-Time Digital Technology Co Ltd
Priority to CN201910500410.5A priority Critical patent/CN110532370A/zh
Publication of CN110532370A publication Critical patent/CN110532370A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于属性标注的专业数据实体属性抽取方法,包括以下步骤:获取数据并生成数据库;标注数据库中数据的实体属性并分类;编辑数据抽取指令;获取数据抽取指令;解析数据抽取指令,得到数据抽取条件;根据获得的抽取条件确定目标属性标识;执行抽取任务,根据目标属性标识得到目标文档;判断目标文档中的数据是否符合数据抽取条件;生成数据抽取结果。本发明基于属性标注来对数据进行抽取,简化了抽取方法,在抽取过程中减小了数据库服务器的访问压力,提高抽取效率,节省了时间,并对抽取结果进行多维度统计和展现、全方位人物刻画和分析,可以直观清楚的了解抽取结果,便于使用者进行综合数据分析。

Description

一种基于属性标注的专业数据实体属性抽取方法
技术领域
本发明涉及数据抽取技术领域,尤其涉及一种基于属性标注的专业数据实体属性抽取方法。
背景技术
对大数据进行智能化管理和有效分析成为一个迫切需求,对大数据进行定量建模以及关联分析,并研究有效的分析挖掘方法,是有效分析大数据的关键,也是提高科学化水平的基础;数据的规模较大,现有的数据实体抽取方法不能基于属性标注来对数据进行抽取,难以快速的从其中抽取所需数据,抽取过程耗费的时间长,抽取效率低。
发明内容
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出一种基于属性标注的专业数据实体属性抽取方法,基于属性标注来对数据进行抽取,简化了抽取方法,提高了抽取效率,节省了时间,并对抽取结果进行多维度统计和展现、全方位人物刻画和分析,可以直观清楚的了解抽取结果,便于使用者进行综合数据分析,而且优化了当前的数据抽取方案,能在大数据抽取过程中减少数据库服务器的访问压力,并且可灵活配置或扩展规则以适应不同业务系统、不同关系性数据的数据提取。
(二)技术方案
为解决上述问题,本发明提出了一种基于属性标注的专业数据实体属性抽取方法,包括以下步骤:
S1、获取数据并对数据进行存储,生成数据库;
S2、对数据进行处理,标注数据库中数据的实体属性并分类;
S3、编辑数据抽取指令;
S4、获取数据抽取指令;
S5、解析数据抽取指令,得到数据抽取条件;
S6、根据获得的抽取条件确定目标属性标识;
S7、执行抽取任务,根据目标属性标识得到目标文档;
S8、判断目标文档中的数据是否符合数据抽取条件,剔除不符合抽取条件的数据,将符合抽取条件的数据并入数据存储库中;
S9、生成数据抽取结果;
S10、抽取完成,结束本次抽取任务。
优选的,在S2中,实体属性包括工作单位属性、居住地址属性、户籍属性、名族属性、年龄属性、性别属性、学历属性、毕业院校属性、党龄属性、入党日期属性。
优选的,数据获取方式为网上下载或数据导入。
优选的,在S6中,当未获取到对应的目标文档时,则结束任务或更改抽取指令继续进行相关操作。
优选的,在S8中,当未获取到符合抽取条件的数据时,则任务结束或更改抽取指令继续进行相关操作。
优选的,抽取方法为增量抽取方式。
优选的,在S9中,数据抽取结果通过表格展现,表格展现方式为二维表。
优选的,在S9中,数据抽取结果还通过图表展现,图表展现方式为柱状图、饼状图或折线图中的一种或多种。
优选的,在S9中,数据抽取结果还通过人物视图分析对单个人物进行属性全方位展现。
本发明的上述技术方案具有如下有益的技术效果:
首先获取数据并对数据进行存储,生成数据库;然后对数据进行处理,标注数据库中数据的实体属性并分类;然后使用者编辑数据抽取指令;紧接着处理器获取数据抽取指令,并解析数据抽取指令,得到数据抽取条件;然后根据获得的抽取条件确定目标属性标识;之后执行抽取任务,根据目标属性标识得到目标文档;当未获取到对应的目标文档时,则结束任务或更改抽取指令继续进行相关操作;然后判断目标文档中的数据是否符合数据抽取条件,剔除不符合抽取条件的数据,将符合抽取条件的数据并入数据存储库中;当未获取到符合抽取条件的数据时,则任务结束或更改抽取指令继续进行相关操作;最后生成数据抽取结果,并对抽取结果进行多种方式的展现,让使用者能够更加直观清楚的了解本次抽取结果;抽取完成后结束本次抽取任务;
本发明基于属性标注来对数据进行抽取,简化了抽取方法,提高了抽取效率,节省了时间,并对抽取结果进行多维度统计和展现、全方位人物刻画和分析,人们可直观清楚的了解抽取结果,便于使用者进行综合数据分析;优化了当前的数据抽取方案,能在大数据抽取过程中减少数据库服务器的访问压力;并且可灵活配置或扩展规则以适应不同业务系统、不同关系性数据的数据提取。
附图说明
图1为本发明提出的一种基于属性标注的专业数据实体属性抽取方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,本发明提出的一种基于属性标注的专业数据实体属性抽取方法,包括以下步骤:
S1、获取数据并对数据进行存储,生成数据库;
S2、对数据进行处理,标注数据库中数据的实体属性并分类;
S3、编辑数据抽取指令;
S4、获取数据抽取指令;
S5、解析数据抽取指令,得到数据抽取条件;
S6、根据获得的抽取条件确定目标属性标识;
S7、执行抽取任务,根据目标属性标识得到目标文档;
S8、判断目标文档中的数据是否符合数据抽取条件,剔除不符合抽取条件的数据,将符合抽取条件的数据并入数据存储库中;
S9、生成数据抽取结果;
S10、抽取完成,结束本次抽取任务。
在一个可选的实施例中,在S2中,实体属性包括工作单位属性、居住地址属性、户籍属性、名族属性、年龄属性、性别属性、学历属性、毕业院校属性、党龄属性、入党日期属性。
在一个可选的实施例中,数据获取方式为网上下载或数据导入。
在一个可选的实施例中,在S6中,当未获取到对应的目标文档时,则结束任务或更改抽取指令继续进行相关操作。
在一个可选的实施例中,在S8中,当未获取到符合抽取条件的数据时,则任务结束或更改抽取指令继续进行相关操作。
在一个可选的实施例中,抽取方法为增量抽取方式。
在一个可选的实施例中,在S9中,数据抽取结果通过表格展现,表格展现方式为二维表,能够将本次抽取的数据结果表示清楚,有利于人们了解本次抽取结果。
在一个可选的实施例中,在S9中,数据抽取结果还通过图表展现,图表展现方式为柱状图、饼状图或折线图中的一种或多种,能够更直观的对本次抽取结果进行分析并得到相关结论,也有利于人们直观的了解本次抽取状况。
在一个可选的实施例中,在S9中,数据抽取结果还通过人物视图分析对单个人物进行属性全方位展现,通过对单个人物属性进行全方位展现,有利于人们清楚且直观的每个人物的所有属性。
本发明中,首先获取数据并对数据进行存储,生成数据库;然后对数据进行处理,标注数据库中数据的实体属性并分类;然后使用者编辑数据抽取指令;紧接着处理器获取数据抽取指令,并解析数据抽取指令,得到数据抽取条件;然后根据获得的抽取条件确定目标属性标识;之后执行抽取任务,根据目标属性标识得到目标文档;当未获取到对应的目标文档时,则结束任务或更改抽取指令继续进行相关操作;然后判断目标文档中的数据是否符合数据抽取条件,剔除不符合抽取条件的数据,将符合抽取条件的数据并入数据存储库中;当未获取到符合抽取条件的数据时,则任务结束或更改抽取指令继续进行相关操作;最后生成数据抽取结果,并对抽取结果进行多种方式的展现,让使用者能够更加直观清楚的了解本次抽取结果;抽取完成后结束本次抽取任务;
本发明基于属性标注来对数据进行抽取,简化了抽取方法,提高了抽取效率,节省了时间,并对抽取结果进行多维度统计和展现、全方位人物刻画和分析,人们可直观清楚的了解抽取结果,便于使用者进行综合数据分析;优化了当前的数据抽取方案,能在大数据抽取过程中减少数据库服务器的访问压力;并且可灵活配置或扩展规则以适应不同业务系统、不同关系性数据的数据提取。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (9)

1.一种基于属性标注的专业数据实体属性抽取方法,其特征在于,包括以下步骤:
S1、获取数据并对数据进行存储,生成数据库;
S2、对数据进行处理,标注数据库中数据的实体属性并分类;
S3、编辑数据抽取指令;
S4、获取数据抽取指令;
S5、解析数据抽取指令,得到数据抽取条件;
S6、根据获得的抽取条件确定目标属性标识;
S7、执行抽取任务,根据目标属性标识得到目标文档;
S8、判断目标文档中的数据是否符合数据抽取条件,剔除不符合抽取条件的数据,将符合抽取条件的数据并入数据存储库中;
S9、生成数据抽取结果;
S10、抽取完成,结束本次抽取任务。
2.根据权利要求1所述的一种基于属性标注的专业数据实体属性抽取方法,其特征在于,在S2中,实体属性包括工作单位属性、居住地址属性、户籍属性、名族属性、年龄属性、性别属性、学历属性、毕业院校属性、党龄属性、入党日期属性。
3.根据权利要求1所述的一种基于属性标注的专业数据实体属性抽取方法,其特征在于,数据获取方式为网上下载或数据导入。
4.根据权利要求1所述的一种基于属性标注的专业数据实体属性抽取方法,其特征在于,在S6中,当未获取到对应的目标文档时,则结束任务或更改抽取指令继续进行相关操作。
5.根据权利要求1所述的一种基于属性标注的专业数据实体属性抽取方法,其特征在于,在S8中,当未获取到符合抽取条件的数据时,则任务结束或更改抽取指令继续进行相关操作。
6.根据权利要求1所述的一种基于属性标注的专业数据实体属性抽取方法,其特征在于,抽取方法为增量抽取方式。
7.根据权利要求1所述的一种基于属性标注的专业数据实体属性抽取方法,其特征在于,在S9中,数据抽取结果通过表格展现,表格展现方式为二维表。
8.根据权利要求1所述的一种基于属性标注的专业数据实体属性抽取方法,其特征在于,在S9中,数据抽取结果还通过图表展现,图表展现方式为柱状图、饼状图或折线图中的一种或多种。
9.根据权利要求1所述的一种基于属性标注的专业数据实体属性抽取方法,其特征在于,在S9中,数据抽取结果还通过人物视图分析对单个人物进行属性全方位展现。
CN201910500410.5A 2019-06-11 2019-06-11 一种基于属性标注的专业数据实体属性抽取方法 Pending CN110532370A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910500410.5A CN110532370A (zh) 2019-06-11 2019-06-11 一种基于属性标注的专业数据实体属性抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910500410.5A CN110532370A (zh) 2019-06-11 2019-06-11 一种基于属性标注的专业数据实体属性抽取方法

Publications (1)

Publication Number Publication Date
CN110532370A true CN110532370A (zh) 2019-12-03

Family

ID=68659344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910500410.5A Pending CN110532370A (zh) 2019-06-11 2019-06-11 一种基于属性标注的专业数据实体属性抽取方法

Country Status (1)

Country Link
CN (1) CN110532370A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874378A (zh) * 2017-01-05 2017-06-20 北京工商大学 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
CN108694179A (zh) * 2017-04-06 2018-10-23 北京宸瑞科技股份有限公司 基于属性抽取的人物视图分析系统及方法
CN109190098A (zh) * 2018-08-15 2019-01-11 上海唯识律简信息科技有限公司 一种基于自然语言处理的文档自动生成方法和系统
CN109800285A (zh) * 2019-01-17 2019-05-24 无锡慧方科技有限公司 一种灵活的病历数据抽取方法、系统及数据库服务器

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874378A (zh) * 2017-01-05 2017-06-20 北京工商大学 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
CN108694179A (zh) * 2017-04-06 2018-10-23 北京宸瑞科技股份有限公司 基于属性抽取的人物视图分析系统及方法
CN109190098A (zh) * 2018-08-15 2019-01-11 上海唯识律简信息科技有限公司 一种基于自然语言处理的文档自动生成方法和系统
CN109800285A (zh) * 2019-01-17 2019-05-24 无锡慧方科技有限公司 一种灵活的病历数据抽取方法、系统及数据库服务器

Similar Documents

Publication Publication Date Title
CN107622255B (zh) 基于位置模板与语义模板的票据图像字段定位方法及系统
CN102982076B (zh) 基于语义标签库的多维度内容标注方法
CN106407236B (zh) 一种面向点评数据的情感倾向性检测方法
CN108763483A (zh) 一种面向裁判文书的文本信息抽取方法
CN108038091A (zh) 一种基于图的裁判文书案件相似计算与检索方法及系统
CN109726393B (zh) 一种基于自然语言处理技术的政策分析系统及方法
CN107818815A (zh) 电子病历的检索方法及系统
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN103366231A (zh) 一种合同风险信息自动处理方法及装置
CN104572849A (zh) 基于文本语义挖掘的标准化自动建档方法
CN109918452A (zh) 一种数据处理的方法、装置、计算机存储介质及终端
CN106022708A (zh) 一种预测员工离职的方法
CN110209828A (zh) 案件查询方法及案件查询装置、计算机设备和存储介质
CN103440232A (zh) 一种科技论文标准化自动检测编辑方法
CN109634994A (zh) 一种简历与职位的匹配推送方法及计算机设备和存储介质
CN109145110A (zh) 基于标签的信息分类处理、标签查询方法和装置
CN107861944A (zh) 一种基于Word2Vec的文本标签提取方法及装置
CN108845992B (zh) 计算机可读存储介质及问答交互方法
CN108388672A (zh) 视频的查找方法、装置及计算机可读存储介质
CN113157978B (zh) 数据的标签建立方法和装置
CN112363996B (zh) 用于建立电网知识图谱的物理模型的方法及系统和介质
CN109740147A (zh) 一种大数量人才简历去重匹配分析方法
CN110532370A (zh) 一种基于属性标注的专业数据实体属性抽取方法
CN103853771A (zh) 一种搜索结果的推送方法及系统
CN108536674A (zh) 一种基于语义的典型意见聚合方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220908

Address after: 361000 units 1702 and 1703, No. 59, Chengyi North Street, phase III, software park, Xiamen, Fujian

Applicant after: XIAMEN USEEAR INFORMATION TECHNOLOGY Co.,Ltd.

Address before: Unit 1701, unit 1704, No. 59, Chengyi North Street, phase III, software park, Xiamen City, Fujian Province, 361000

Applicant before: FUJIAN QIDIAN SPACE-TIME DIGITAL TECHNOLOGY Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191203