CN111241827B - 一种基于句子检索模式的属性抽取方法 - Google Patents

一种基于句子检索模式的属性抽取方法 Download PDF

Info

Publication number
CN111241827B
CN111241827B CN202010025572.0A CN202010025572A CN111241827B CN 111241827 B CN111241827 B CN 111241827B CN 202010025572 A CN202010025572 A CN 202010025572A CN 111241827 B CN111241827 B CN 111241827B
Authority
CN
China
Prior art keywords
corpus
attribute
sentence
relation
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010025572.0A
Other languages
English (en)
Other versions
CN111241827A (zh
Inventor
乔驰
段飞虎
印东敏
陈锋涛
蔡郧
冯自强
李云鹏
戴铁成
张宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Tongfang Knowledge Network Beijing Technology Co ltd
Original Assignee
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Tongfang Knowledge Network Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongfang Knowledge Network Digital Publishing Technology Co ltd, Tongfang Knowledge Network Beijing Technology Co ltd filed Critical Tongfang Knowledge Network Digital Publishing Technology Co ltd
Priority to CN202010025572.0A priority Critical patent/CN111241827B/zh
Publication of CN111241827A publication Critical patent/CN111241827A/zh
Application granted granted Critical
Publication of CN111241827B publication Critical patent/CN111241827B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于句子检索模式的属性抽取方法,该包括:将语料进行预处理,把需要的语料数据导入到语料库;从语料库中或词典或概念模型中的语料数据中抽取语句,并将所需语句组成样本集;采用HanLP句法依存分析器对抽取的语句样本集进行分词和词性标注;采用过滤规则对词性标注的结果集进行过滤,并产生三元属性即:实体属性、关系属性以及实体与实体之间的属性,并得到每一句话的三元组属性集合;对三元组属性集合进行聚合,并将聚合得到的属性集合保存到数据库。本发明提高了关系抽取的效率,减少了人力物力等资源的浪费,解决了现有关系抽取技术的不足之处。

Description

一种基于句子检索模式的属性抽取方法
技术领域
本发明涉及自然语言数据处理技术领域,尤其涉及一种基于句子检索模式的属性抽取方法。
背景技术
关系抽取是信息抽取的重要子任务,其主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据,关系抽取主要负责从文本中识别出实体,抽取实体间的语义关系。现有主流关系抽取技术分为有监督关系抽取,无监督关系抽取,和半监督关系抽取三种方法。主要介绍有监督学习方法。
有监督的学习方法将关系抽取任务当做分类问题,根据训练数据设计有效的特征,从而学习各种分类模型,然后使用训练好的分类器预测关系。有监督的学习方法是目前关系抽取较为主流也是表现最好的方法,但其最大的缺点就是需要大量的人工标注语料。如何获得大量的有标注语料就成为了我们工作的重点,远程监督方法就由此孕育而生。远程监督方法,将已有的知识库对应到丰富的非结构化数据中,从而生成大量的训练数据,进而达到关系的抽取。但是其也存在着非常明显的缺点:大量的数据必然存在着准确率问题,有些数据并不是我们期望的,如何解决从大量数据中准确的抽取出我们期望的数据,进而准确的抽取出属性是我们工作的一个重点。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于句子检索模式的属性抽取方法。该方法基于句子检索模式的属性抽取检索方法实现了从大量无结构化中文文本中抽取出一批句子样本集合,然后从这批样本句子中挑选我们觉得贴近我们所需要抽取的属性集合的句子,之后通过依存句法分析得到相应的词性,采用过滤规则生成属性三元组,存入数据库。
本发明的目的通过以下的技术方案来实现:
一种基于句子检索模式的属性抽取方法,包括:
A将语料进行预处理,把需要的语料数据导入到语料库;
B从语料库中或词典或概念模型中的语料数据中抽取语句,并将所需语句组成样本集;
C采用HanLP句法依存分析器对抽取的语句样本集进行分词和词性标注;
D采用过滤规则对词性标注的结果集进行过滤,产生三元组属性,并得到每一句话的三元组属性集合;
E对三元组属性集合进行聚合,并将聚合得到的属性集合保存到数据库。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
提高了关系抽取的效率,减少了人力物力等资源的浪费,解决了现有关系抽取技术的不足之处。
附图说明
图1是基于句子检索模式的属性抽取方法流程图;
图2是语料按关系抽取后的句子图例;
图3是依据句法分析语料图例;
图4是依据句法分析语料树形图;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1所示,为基于句子检索模式的属性抽取方法流程,包括以下步骤:
步骤10将语料进行预处理,把需要的语料数据导入到语料库;
步骤20从语料库中或词典或概念模型中的语料数据中抽取语句,并将所需语句组成样本集;
语料来源分为三方面:分别为语料库,词典和概念模型;语料库支持多数据源
此处分为两种情况抽取:第一种情况:手动输入两个关系词,根据这两个关系词到语料库中抽取相关的句子;第二种情况:选择一种关系和一部词典,或者是选择一种关系和一个概念模型,根据关系,词典和概念模型抽取出对应的关系词,然后在根据抽取到的关系词选择合适的关系词到语料库中抽取句子。如图2所示为抽取后的句子的内容。此处的内容是xml格式的文档,在句法分子之前我们通过正则的方式取出xml文档中的每一条句子。
对以上按照关系抽取的句子,选择我们需要的样本句子,组成样本集;
所述语句中抽取句子,采用的是知网研发的数据库kabase中的位置描述符的方法,例如’STR1#STR2’:表示包含词STR1和词STR2,且STR1、STR2在同一句中,那么就可以检索出这个句子;位置描述符主要用于TEXT、TEXTCHAR、LTEXT、LTEXTCHAR、TITLE、QTEXT等等文本索引类型,用来完成复杂的KSQL查询语句,需要注意的是位置描述符前后都必须至少包含一个空格用以分隔表达式中不同的部分,并且其中字母严格要求大写。
步骤30采用HanLP句法依存分析器对抽取的语句样本集进行分词和词性标注;
上述HanLP句法依存分析器语句样本集进行分词和词性标注基于神经网络分类模型和arc-standard转移动作的判决式汉语依存句法分析器以及基于词语的BiGram概率图最短路分词器(如图3和图4所示)。
步骤40采用过滤规则对词性标注的结果集进行过滤,产生三元组属性,三元组为实体、关系与属性;并得到每一句话的三元组属性集合;
步骤50对三元组属性集合进行聚合,并将聚合得到的属性集合保存到数据库如表1所示:
表1
Figure BDA0002362323480000041
上述表格中:如水稻、产地和中国为三元组。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (2)

1.一种基于句子检索模式的属性抽取方法,其特征在于,所述方法包括:
A 将语料进行预处理,把需要的语料数据导入到语料库;
B 从语料库中或词典或概念模型中的语料数据中抽取语句,并将所需语句组成样本集;
C 采用HanLP句法依存分析器对抽取的语句样本集进行分词和词性标注;
D 采用过滤规则对词性标注的结果集进行过滤,产生三元组属性,并得到每一句话的三元组属性集合;
E 对三元组属性集合进行聚合,并将聚合得到的属性集合保存到数据库;
所述B中所述语句的抽取包括:
手动输入两个关系词,根据这两个关系词到语料库中抽取相关的句子;及
选择一种关系和一部词典,或者是选择一种关系和一个概念模型,根据关系,词典和概念模型抽取出对应的关系词,然后再根据抽取到的关系词选择合适的关系词到语料库中抽取句子。
2.如权利要求1所述的基于句子检索模式的属性抽取方法,其特征在于,所述C中采用HanLP句法依存分析器对语句样本集进行分词和词性标注是基于神经网络分类模型和arc-standard转移动作的判决式汉语依存句法分析器,以及基于词语的BiGram概率图最短路分词器。
CN202010025572.0A 2020-01-10 2020-01-10 一种基于句子检索模式的属性抽取方法 Active CN111241827B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010025572.0A CN111241827B (zh) 2020-01-10 2020-01-10 一种基于句子检索模式的属性抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010025572.0A CN111241827B (zh) 2020-01-10 2020-01-10 一种基于句子检索模式的属性抽取方法

Publications (2)

Publication Number Publication Date
CN111241827A CN111241827A (zh) 2020-06-05
CN111241827B true CN111241827B (zh) 2022-05-20

Family

ID=70872568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010025572.0A Active CN111241827B (zh) 2020-01-10 2020-01-10 一种基于句子检索模式的属性抽取方法

Country Status (1)

Country Link
CN (1) CN111241827B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138507A (zh) * 2015-08-06 2015-12-09 电子科技大学 一种基于模式自学习的中文开放式关系抽取方法
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140297264A1 (en) * 2012-11-19 2014-10-02 University of Washington through it Center for Commercialization Open language learning for information extraction

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138507A (zh) * 2015-08-06 2015-12-09 电子科技大学 一种基于模式自学习的中文开放式关系抽取方法
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
中文开放式多元实体关系抽取;李颖等;《计算机科学》;20170615;全文 *
基于弱监督学习的中文网络百科关系抽取;贾真等;《智能系统学报》;20150215(第01期);全文 *

Also Published As

Publication number Publication date
CN111241827A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
CN110399457B (zh) 一种智能问答方法和系统
CN111209412A (zh) 一种循环更新迭代的期刊文献知识图谱构建方法
CN113806563B (zh) 面向多源异构建筑人文史料的建筑师知识图谱构建方法
CN109947921B (zh) 一种基于自然语言处理的智能问答系统
CN111897968A (zh) 一种工业信息安全知识图谱构建方法和系统
CN110609983B (zh) 一种政策文件结构化分解方法
CN111061882A (zh) 一种知识图谱构建方法
CN108319583B (zh) 从中文语料库提取知识的方法与系统
CN111324742A (zh) 一种数字人文知识图谱的构建方法
CN112541337B (zh) 一种基于递归神经网络语言模型的文档模板自动生成方法及系统
CN115809345A (zh) 一种基于知识图谱的多源数据差异溯源检索方法
CN104750820A (zh) 一种语料库的过滤方法及装置
CN113312922A (zh) 一种改进的篇章级三元组信息抽取方法
CN111553160A (zh) 一种获取法律领域问句答案的方法和系统
CN117609419A (zh) 基于元学习与知识增强的领域检索方法
Ginev et al. Scientific statement classification over arXiv. org
CN109977370B (zh) 一种基于文档结构树的问答对自动构建方法
CN116720504A (zh) 一种基于自然语言处理的文本数据统计分析系统及方法
Scharkow Content analysis, automatic
CN111814476A (zh) 一种实体关系的抽取方法和装置
CN113392183A (zh) 一种儿童范畴图谱知识的表征与计算方法
Loglisci et al. Toward geographic information harvesting: Extraction of spatial relational facts from Web documents
CN117473054A (zh) 基于知识图谱的通用智能问答方法及装置
CN115017271B (zh) 用于智能生成rpa流程组件块的方法及系统
CN111241827B (zh) 一种基于句子检索模式的属性抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant