CN111783463A - 知识抽取方法和装置 - Google Patents

知识抽取方法和装置 Download PDF

Info

Publication number
CN111783463A
CN111783463A CN202010614729.3A CN202010614729A CN111783463A CN 111783463 A CN111783463 A CN 111783463A CN 202010614729 A CN202010614729 A CN 202010614729A CN 111783463 A CN111783463 A CN 111783463A
Authority
CN
China
Prior art keywords
entity
template
entities
text data
attribute information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010614729.3A
Other languages
English (en)
Inventor
周丽芳
尹存祥
骆金昌
徐思琪
钟辉强
吴晓晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010614729.3A priority Critical patent/CN111783463A/zh
Publication of CN111783463A publication Critical patent/CN111783463A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了知识抽取方法和装置,涉及深度学习技术领域、自然语言处理技术领域、大数据技术领域。该方法的一具体实施方式包括:获取预设场景的文本数据;识别并抽取文本数据中的至少两个实体以及各个实体的属性信息;基于任意两个实体以及各个实体的属性信息之间的关系,确定至少一个实体对关系模板;基于文本数据,采用远程监督模型增强实体对关系模板,得到强化后的实体对关系模板。该实施方式可以提高了知识抽取的效率。

Description

知识抽取方法和装置
技术领域
本申请的实施例涉及计算机技术领域,具体涉及深度学习技术领域、自然语言处理技术领域、大数据技术领域,尤其涉及知识抽取方法和装置。
背景技术
知识抽取是指把蕴含于信息源中的知识经过识别、理解、筛选、归纳等过程抽取出来,存储形成知识元库。目前研究较多的是自然语言文本,知识抽取也已经成为自然语言处理领域一个重要的研究分支。
发明内容
提供了一种知识抽取方法、装置、电子设备以及计算机可读介质。
根据第一方面,提供了一种知识抽取方法,上述方法包括:获取预设场景的文本数据;识别并抽取文本数据中的至少两个实体以及各个实体的属性信息;基于任意两个实体以及各个实体的属性信息之间的关系,确定至少一个实体对关系模板;基于文本数据,采用远程监督模型增强实体对关系模板,得到强化后的实体对关系模板。
根据第二方面,提供了一种知识抽取装置,该装置包括:文本获取单元,被配置成获取预设场景的文本数据;实体识别单元,被配置成识别并抽取文本数据中的至少两个实体以及各个实体的属性信息;关系确定单元,被配置成基于任意两个实体以及各个实体的属性信息之间的关系,确定至少一个实体对关系模板;模板强化单元,被配置成基于文本数据,采用远程监督模型增强实体对关系模板,得到强化后的实体对关系模板。
根据第三方面,提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面任一实现方式描述的方法。
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面任一实现方式描述的方法。
本申请的实施例提供的知识抽取方法和装置,首先获取预设场景的文本数据;然后,识别并抽取文本数据中的至少两个实体以及各个实体的属性信息;其次,基于任意两个实体以及各个实体的属性信息之间的关系,确定至少一个实体对关系模板;最后,基于文本数据,采用远程监督模型增强实体对关系模板,得到强化后的实体对关系模板。由此,在得到预设场景文本数据之后,在线识别实体以及实体的属性信息,并通过实体与实体的属性信息之间的关系,得到实体对关系模板,利用远程监督的方式,强化了实体对关系模板,提高了知识抽取的效率以及实体对关系模板的准确度。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请知识抽取方法的一个实施例的流程图;
图2是根据本申请知识抽取方法的另一个实施例的流程图;
图3是根据本申请知识抽取方法的第三个实施例的流程图;
图4是根据本申请知识抽取装置的实施例的结构示意图;
图5是用来实现本申请实施例的知识抽取方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1示出了根据本申请知识抽取方法的一个实施例的流程100。上述知识抽取方法包括以下步骤:
步骤101,获取预设场景的文本数据。
本实施例中,知识抽取方法运行于其上的执行主体可以通过实时获取或内存读取等方式获取预设场景的文本数据。预设场景的文本数据可以是从公开的中文语料标注库中爬取的、并进行了预处理的纯文本数据,其中,预处理包括:段落划分、分句、分词等处理。
该纯文本数据为预设场景的数据,其中,预设场景可以是以文字为载体的场景,例如,预设场景为文学场景、专利场景、招标场景、反恐刑侦场景等场景。
进一步地,针对预设场景,可以通过爬取微软亚洲研究院数据集(简称MSRA)中对应的预设场景的文本数据,得到预设场景的文本数据。以反恐刑侦场景为例,可以通过爬取微软亚洲研究院数据集(简称MSRA)中对应的中文反恐刑侦文本数据,得到反恐刑侦场景的文本数据。
步骤102,识别并抽取文本数据中至少两个实体以及各个实体的属性信息。
本实施例中,识别以及抽取的数据对象主要是文本数据中非结构化的数据,非结构化的数据主要是指无法用固定结构来逻辑表达实现的数据,例如,非结构化的数据可以是用户发表的关于产品的各种评价或吐槽等数据。非结构化的数据和结构化的数据主要区别包括:非结构化的数据的容量比结构化的数据要大;非结构化的数据产生的速度比结构化的数据要快;非结构化的数据相对结构化的数据,其数据来源具有多样性。目前国内的企业级客户在进行大数据分析时,仍以分析结构化数据为主。
实体是指不仅可触知并且是有形的实际存在的物体。本实施例中,涉及以文字为载体的场景,因此识别并抽取到的实体是指实体名称,针对不同的预设场景,识别并抽取到的实体可以不同。例如,专利场景的实体可以包括:物品、位置、时间。反恐刑侦场景的实体可以包括:人名、地名、时间、物品。
进一步地,可以利用深度学习和/或机器学习等实体识别模型,对文本数据进行实体识别,可选地,可以使用基于双向长短时记忆递归神经网络(Bidirectional Long ShortTerm Memory,以下简称BiLSTM)模型对文本数据中的实体名称进行抽取,BiLSTM模型能够发挥双向的优势在切词上有相当不错的效果;或者使用条件随机场(Conditional RandomFields,以下简称CRF)算法模型对文本数据中的实体名进行抽取,CRF算法模型能在给定一组输入序列时得到另一种序列的输出概率。
在本实施例的一些可选实现方式中,可以采用BiLSTM+CRF模型识别并抽取文本数据中的实体名,具体地,将文本数据导入BiLSTM模型后再导入CRF模型,得到至少两个实体。本可选实现方式中,采用BiLSTM+CRF两者结合的模型在NLP(Neuro-LinguisticProgramming,神经语言程序学)相关的命名实体识别方面实现了相当不错的效果,采用BiLSTM+CRF两者结合的模型提高了实体识别效率以及实体识别准确率。
实体的属性信息是指与实体相关的特征或部分的信息。本实施例中,在上述实体识别模型识别到实体之后,可以利用语义分析模型,通过关键词触发定位文本数据中与至少两个实体相对应的属性信息,例如,专利场景中物品的属性信息包括:数量、大小;位置的属性信息包括:上、下、依次、顺序;时间的属性信息包括:年、月、日。反恐刑侦场景中人名的属性信息包括:出生地、出生日期、户籍、性别、住址、职业、学历、数字;地名的属性信息包括:省、市、县、村;时间的属性信息包括:年、月、日;物品的属性信息包括:数量、大小。
本实施例中,语义分析模型包括:jieba模型、N-Gram模型等。其中,上述“户籍、性别、职业”等实体的属性信息,可以是通过jieba模型对文本数据进行切词提取得出的。,本实施例中,采用语义分析模型得到的实体的属性信息可达98%的准确率。
进一步地,针对上述“数字”类信息抽取,涉及“电话,银行卡号,身份证号,护照”等信息,通过调研各类号码的形式,总结规律进行抽取,如“港澳通行证”号码多呈现如下规律:1)开头为H或M,后10位为数字;2)开头为C或W,后8位为数字;3)开头为C,第二位不为O或I,后7位为数字。根据不同数字类别的规律,依次抽取出犯罪嫌疑人相关的“电话,银行卡号,身份证号,护照”等信息。
步骤103,基于任意两个实体以及各个实体的属性信息之间的关系,确定至少一个实体对关系模板。
本实施例中,将抽取到的至少两个实体以及各个实体的属性信息进行属性归属,属性归属通过规则引擎的方式实现,将属于同一个实体的属性信息进行聚合,从而确定各个实体对应的属性信息。
规则引擎由推理引擎发展而来,实现了将业务决策从应用程序代码中分离出来,并使用预定义的语义模块编写业务决策。规则引擎具体执行可以分为接受数据输入,解释业务规则,根据业务规则做出业务决策几个过程。使用规则引擎可以把复杂、冗余的业务规则同整个支撑系统分离开,做到架构的可复用移植。
规则引擎包括至少两个实体之间的对应关系,例如,反恐刑侦场景中,规则引擎包括:$person(.*)(将)$drug(添加);$person(.*)(持)$item。
实体对关系模板是至少两个实体之间因互相影响而呈现的关系模式,进一步地,在得到各个实体以及各个实体对应的属性信息之后,确定所有包括至少两个实体以及各个实体的属性信息的句子,针对文本数据中同一个包括至少两个实体以及各个实体的属性信息的句子中出现的至少两个实体,总结至少两个实体之间常见的关系模板,并抽取出该常见的关系模板作为实体对关系模板。例如,文学场景中,识别到两个实体分别为:小明、小红,抽取出两者的实体对关系模板为:xx喜欢yy。再如,在反恐刑侦场景中,识别到两个实体分别为:犯罪人、凶器,抽取出两者的实体对关系模板为:XX持YY。
步骤104,基于文本数据,采用远程监督模型增强实体对关系模板,得到强化后的实体对关系模板。
具体地,远程监督(Distant Supervision)模型实现的监督方法,既不是单纯的传统意义上的监督语料,当然也不是无监督。它是一种用三元组(由一对实体和一个关系构成)知识库去对齐朴素文本的标注方法。其中,三元组知识库中包括已经有关系名和实体对的三元组,假设外部语料库中任何包含这对实体的句子,在一定程度上都反映了这种关系。进一步,对包含这对实体的句子进行句子预处理,增强远程监督的监督效果,其中句子预处理包括:删掉两个实体在句子里的距离超过距离阈值的句子或者实体是其他实体的子字符串的句子。
本实施例中,基于文本数据,首先可以通过远程监督模型确定文本数据中当前包括至少两个实体以及各个实体的属性信息的句子;然后,通过远程监督模型可以在文本数据的基础上,继续积累包括至少两个实体以及各个实体的属性信息的句子,得到远程监督模型大量的训练文本;最后将这些训练文本输入远程监督模型,得到强化后的实体对关系模板。
下面以文学场景(实体对:小明、小红,实体对关系模板为:xx喜欢yy)为例进行详细介绍通过远程监督模型增强实体对关系模板的过程:
在已标注的中文文学语料中,通过远程监督模型找到了中文文学语料中同时出现“小明、小红”的句子,并认为下面的句子都是“喜欢”关系:
a)小明和小红分手了。b)小明送小红礼物。c)小明求婚小红。进一步,通过远程监督模型得到强化后的实体对关系模板包括:“xx喜欢yy”和“xx求婚yy”。
作为一个具体示例,在反恐刑侦场景中,得到强化后的实体对关系模板,可以包括以下至少一项:人名与物品之间的犯罪关系模板,人名与地名之间的犯罪关系模板,人名与时间之间的作案关系模板。
进一步地,知识抽取方法运行于其上的执行主体还可以管理强化后的实体对关系模板,可对不同实体对关系模型进行分类,比如,设置与人物相关的实体对关系模型,该人物相关的实体对关系模型包括:人名与物品实体对关系模型、人名与地点实体对关系模型、人名与时间实体对关系模型。
本申请的实施例提供的知识抽取方法,首先获取预设场景的文本数据;然后,识别并抽取文本数据中的至少两个实体以及各个实体的属性信息;其次,基于任意两个实体以及各个实体的属性信息之间的关系,确定至少一个实体对关系模板;最后,基于文本数据,采用远程监督模型增强实体对关系模板,得到强化后的实体对关系模板。由此,在得到预设场景文本数据之后,在线识别实体以及实体的属性信息,并通过实体与实体的属性信息之间的关系,得到实体对关系模板,利用远程监督的方式,强化了实体对关系模板,提高了知识抽取的效率以及实体对关系模板的准确度。
为了更好地使用户了解强化后的实体对关系模板中各个实体对的关系,在得到强化后的实体对关系模板之后,可以允许用户查询、修改、编辑强化后的实体对关系模板以及预设场景的文本数据。
在本实施例的一些可选实现方式中,在得到强化后的实体对关系模板之后,知识抽取方法还包括:获取针对预设场景的查询信息,基于强化后的实体对关系模板,生成查询信息的查询结果。
本可选实现方式中,知识抽取方法运行于其上的执行主体为用户提供有访问的端口,以便用户查询、修改、编辑不同类型的强化后的实体对关系模板与预设场景的文本数据。
本可选实现方式中,查询信息可以包括:查询强化后的实体对关系模板、查询预设场景的文本数据中与强化后的实体对关系模型相关的句子、查询强化后的实体对关系模板中实体所在句子等等。
本可选实现方式中,若查询强化后的实体对关系模板,则将强化后的实体对关系模板的信息封装入查询结果,反馈给查询方;若查询预设场景的文本数据中与强化后的实体对关系模型相关的句子,则将所有与强化后的实体对关系模型相关的句子封装入查询结果,反馈给查询方;若查询强化后的实体对关系模板中实体所在句子,则将所有强化后的实体对关系模板中实体所在句子封装入查询结果,反馈给查询方。
本可选实现方式中,获取查询信息之后,基于强化后的实体对关系模板,生成查询信息的查询结果,为信息交互提供了可靠的访问端口,使用户快速、便捷地了解强化后的实体对关系模板中各个实体对的关系,提高了用户体验。
继续参考图2,图2示出了根据本申请知识抽取方法的另一个实施例的流程200,该知识抽取方法包括以下步骤:
步骤201,获取预设场景的文本数据。
步骤202,识别并抽取文本数据中至少两个实体以及各个实体的属性信息。
在本实施例的一些可选实现方式中,可以采用BiLSTM+CRF模型识别并抽取文本数据中的实体名,具体地,将文本数据导入BiLSTM+CRF模型,得到至少两个实体。本可选实现方式中,采用BiLSTM+CRF两者结合的模型在NLP(Neuro-Linguistic Programming,神经语言程序学)相关的命名实体识别方面实现了相当不错的效果,采用BiLSTM+CRF两者结合的模型提高了实体识别效率以及实体识别准确率。
步骤203,基于任意两个实体以及各个实体的属性信息之间的关系,确定至少一个实体对关系模板。
步骤204,基于文本数据,采用远程监督模型增强实体对关系模板,得到强化后的实体对关系模板。
应当理解,上述步骤201-步骤204中的操作和特征,分别与步骤101-104中的操作和特征相对应,因此,上述在步骤101-104中对于操作和特征的描述,同样适用于步骤201-步骤204,在此不再赘述。
步骤205,获取预设句子。
本实施例中,预设句子是与预设场景相关的实际应用的句子,比如,反恐刑侦场景中,一个预设句子为:被告人丁文祥,仍用罂粟果煮水将罂粟水添加在客人购买熟食的卤汤中予以销售。
步骤206,采用强化后的实体对关系模板对预设句子进行关系模式识别,得到预设句子中实体对识别结果。
本实施例中,强化后的实体对关系模板是基于预设场景的文本数据得到的关系模板,为了实现对实际应用的句子的知识抽取,结合强化后的实体对关系模板则可以将预设句子中的知识抽取出来,因此在无人力标注情况下可以快速抽取出预设句子的知识抽取,实现了预设句子中实体识别以及关系识别的冷启动。
本实施例中,采用强化后的实体对关系模板得到的预设句子中实体对识别结果包括:预设句子中的实体以及至少两个实体之间的实体对关系。
例如,强化后的实体对关系模板为:XX将YY添加入ZZ。针对上述预设句子,得到的预设句子中实体对识别结果为:丁文祥将罂粟果添加入卤汤,其中,实体对识别结果中实体包括:丁文祥、罂粟果、卤汤,实体对识别结果中丁文祥、罂粟果、卤汤三者之间实体关系为:$person(.*)(将)$drug(添加)$thing(.*)。
进一步地,在需要抽取预设句子并建立预设句子中对象的知识图谱时,采用强化后的实体对关系模板也可以得到预设句子对象的知识图谱。
作为一个示例,在反恐刑侦场景中,根据上述实体识别结果,可以定位预设句子中出现的实体对以及实体对关系,例如针对“枪支、嫌疑地点、贩卖”等实体对以及实体对关系,由此无需训练数据即可得到实体识别结果。采用强化后的实体对关系模板对反恐刑侦文本进行知识抽取,创新的提供了刑侦素材“全面”的风险监控,并有力的支持对犯罪人物进行时空交叉维度的监控和侦查工作。
本实施例提供的知识抽取,在得到强化后的实体对关系模板之后,通过强化后的实体对关系模板对预设句子进行关系模式识别,提高了预设句子实体对关系抽取的速度,为预设句子中对象的知识图谱关系的建立奠定了基础。
继续参考图3,图3示出了根据本申请知识抽取方法的第三个实施例的流程300,该知识抽取方法包括以下步骤:
步骤301,获取预设场景的文本数据。
步骤302,识别并抽取文本数据中至少两个实体以及各个实体的属性信息。
在本实施例的一些可选实现方式中,可以采用BiLSTM+CRF模型识别并抽取文本数据中的实体名,具体地,将文本数据导入BiLSTM+CRF模型,得到至少两个实体。本可选实现方式中,采用BiLSTM+CRF两者结合的模型在NLP(Neuro-Linguistic Programming,神经语言程序学)相关的命名实体识别方面实现了相当不错的效果,采用BiLSTM+CRF两者结合的模型提高了实体识别效率以及实体识别准确率。
步骤303,基于任意两个实体以及各个实体的属性信息之间的关系,确定至少一个实体对关系模板。
步骤304,基于文本数据,采用远程监督模型增强实体对关系模板,得到强化后的实体对关系模板。
步骤305,获取预设句子。
步骤306,采用强化后的实体对关系模板对预设句子进行关系模式识别,得到预设句子中实体对识别结果。
步骤307,基于实体对识别结果,采用远程监督模型增强强化后的实体对关系模板,得到再强化后的实体对关系模板。
本实施例中,基于实体对识别结果识别预设句子中所有实体对,找到预设句子中与所有与实体对相关的句子,基于所有与实体对相关的句子,采用远程监督模型增强强化后的实体对关系模板。
本实施例中,根据需要叠加模型调优,使强化后的实体对关系模板通过远程监督的方式可进一步实现模板泛化和规则增强,迭代提升实体抽取效果,进一步地,再强化后的实体对关系模板后续亦可服务于关系分类模型的训练,因此本实施例提供的知识抽取方法是一个实现正向循环并兼顾领域适配能力的知识抽取方法。
本实施例提供的知识抽取方法,在得到预设句子中实体对识别结果之后,采用远程监督模型增强强化后的实体对关系模型,优化了强化后的实体对关系模板,保证了强化后的实体对关系模板的在先线的优化,提高了用户体验。
作为上述实施例中的一个具体示例,上述预设场景为反恐刑侦场景。
上述识别并抽取文本数据中的至少两个实体以及各个实体的属性信息包括:
采用实体识别模型,识别并抽取文本数据中的至少两个实体,至少两个实体包括:人名、地名、时间、物品;采用语义分析模型,定位文本数据中与至少两个实体相对应的属性信息,人名的属性信息包括:出生地、出生日期、户籍、性别、住址、职业、银行卡号;地名的属性信息包括:省、市、县、村;时间的属性信息包括:年、月、日;物品的属性信息包括:数量、大小。
本具体示例中,上述强化后的实体对关系模板,包括以下1)-3)中至少一项:
1)人名与物品之间的犯罪关系模板。
2)人名与地名之间的犯罪关系模板。
3)人名与时间之间的作案关系模板。
本具体示例的思路如下:
1)首先可以利用深度学习算法和传统的机器学习方法相结合,进行实体识别,得出人名,地名,机构名,时间,物品等实体。
2)利用语义分析模型,定位相关段落,抽取犯罪人的实体属性信息,即对“出生地、出生日期、户籍、性别、住址、职业、住所、银行卡号”等信息进行抽取。
3)针对上述抽取信息进行实体信息归属,实现实体以及实体属性信息的对应。
4)同一个句子出现的成对实体,总结常见的关系类别模板,抽取出常见关系数据,通过远程监督的方式命中更多实体对关系模板,进行实体对关系模板增强,通过此方法有效解决“匮乏标注数据、关系识别模板覆盖率不高”的问题。
本示例提供的知识抽取方法通过将得到的强化后的实体对关系模板应用于反恐刑侦领域,能够快速实现反恐情报文本的实体识别,以及实体对的关系抽取,可以致力于刑事案件信息侦查,风险监控工作,为客户提供犯罪嫌疑人犯罪活动全方面的基础信息。在犯罪活动风险监控、分析侦查等场景中,常涉及人物的刑事犯罪事件、地点、犯罪物品、时间等信息,建立反恐素材知识抽取系统,抽取整合犯罪信息,方便提供直观、全面的犯罪信息数据展示。
进一步参考图4,作为对上述各图所示方法的实现,本申请提供了知识抽取装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可应用于各种电子设备中。
如图4所示,本实施例提供的知识抽取装置400包括:文本获取单元401,实体识别单元402,关系确定单元403,模板强化单元404。其中,上述文本获取单元401,可以被配置成获取预设场景的文本数据。上述实体识别单元402,可以被配置成识别并抽取文本数据中的至少两个实体以及各个实体的属性信息。上述关系确定单元403,可以被配置成基于任意两个实体以及各个实体的属性信息之间的关系,确定至少一个实体对关系模板。上述模板强化单元404,可以被配置成基于文本数据,采用远程监督模型增强实体对关系模板,得到强化后的实体对关系模板。
在本实施例中,知识抽取装置400中:文本获取单元401,实体识别单元402,关系确定单元403,模板强化单元404的具体处理及其所带来的技术效果可分别参考图1对应实施例中的步骤101、步骤102、步骤103、步骤104的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,上述知识抽取装置400还包括:句子获取单元(图中未示出)、句子识别单元(图中未示出)。其中,上述句子获取单元,可以被获取预设句子。上述句子识别单元,可以被配置成采用强化后的实体对关系模板对预设句子进行关系模式识别,得到预设句子中实体对识别结果。
在本实施例的一些可选的实现方式中,上述知识抽取装置400还可以包括:句子强化单元(图中未示出)。上述句子强化单元,可以被配置成基于实体对识别结果,采用远程监督模型增强强化后的实体对关系模板,得到再强化后的实体对关系模板。
在本实施例的一些可选的实现方式中,上述知识抽取装置400还可以包括:结果查询单元(图中未示出)。上述结果查询单元,可以被配置成获取针对预设场景的查询信息,基于强化后的实体对关系模板,生成查询信息的查询结果。
在本实施例的一些可选的实现方式中,上述实体识别单元402还可以被配置成将文本数据导入基于双向长短时记忆递归神经网络模型后再导入条件随机场模型,得到至少两个实体。
在本实施例的一些可选的实现方式中,上述预设场景为反恐刑侦场景;实体识别单元402包括:实体识别模块(图中未示出)、属性识别模块(图中未示出)。其中,上述实体识别模块,可以被配置成采用实体识别模型,识别并抽取文本数据中的至少两个实体,至少两个实体包括:人名、地名、时间、物品;上述属性识别模块,可以被配置成采用语义分析模型,定位文本数据与至少两个实体相对的属性信息,人名的属性信息包括:出生地、出生日期、户籍、性别、住址、职业、银行卡号;地名的属性信息包括:省、市、县、村;时间的属性信息包括:年、月、日;物品的属性信息包括:数量、大小。上述强化后的实体对关系模板,包括以下至少一项:人名与物品之间的犯罪关系模板,人名与地名之间的犯罪关系模板,人名与时间之间的作案关系模板。
本申请的实施例提供的知识抽取装置,首先,文本获取单元401获取预设场景的文本数据;然后,实体识别单元402识别并抽取文本数据中的至少两个实体以及各个实体的属性信息;其次,关系确定单元403基于任意两个实体以及各个实体的属性信息之间的关系,确定至少一个实体对关系模板;最后,模板强化单元404基于文本数据,采用远程监督模型增强实体对关系模板,得到强化后的实体对关系模板。由此,在得到预设场景文本数据之后,在线识别实体以及实体的属性信息,并通过实体与实体的属性信息之间的关系,得到实体对关系模板,利用远程监督的方式,强化了实体对关系模板,提高了知识抽取的效率以及实体对关系模板的准确度。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图5所示,是根据本申请实施例的知识抽取方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,该电子设备包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线505互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。
存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的知识抽取方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的知识抽取方法。
存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的知识抽取方法对应的程序指令/模块(例如,图4所示的文本获取单元401、实体识别单元402、关系确定单元403、模板强化单元404)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的知识抽取方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据知识抽取方法的电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至知识抽取方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
知识抽取方法的电子设备还可以包括:输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图5中以通过总线505连接为例。
输入装置503可接收输入的数字或字符信息,以及产生与知识抽取方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算、云服务、云数据库、云存储等基础云计算服务的云服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (14)

1.一种知识抽取方法,所述方法包括:
获取预设场景的文本数据;
识别并抽取所述文本数据中至少两个实体以及各个实体的属性信息;
基于任意两个实体以及各个实体的属性信息之间的关系,确定至少一个实体对关系模板;
基于所述文本数据,采用远程监督模型增强所述实体对关系模板,得到强化后的实体对关系模板。
2.根据权利要求1所述的方法,所述方法还包括:
获取预设句子;
采用所述强化后的实体对关系模板对所述预设句子进行关系模式识别,得到所述预设句子中实体对识别结果。
3.根据权利要求2所述的方法,所述方法还包括:
基于所述实体对识别结果,采用远程监督模型增强所述强化后的实体对关系模板,得到再强化后的实体对关系模板。
4.根据权利要求1所述的方法,所述方法还包括:
获取针对所述预设场景的查询信息,基于强化后的实体对关系模板,生成所述查询信息的查询结果。
5.根据权利要求1-4之一所述的方法,其中,所述识别并抽取所述文本数据中的至少两个实体,包括:
将所述文本数据导入基于双向长短时记忆递归神经网络模型后再导入条件随机场模型,得到至少两个实体。
6.根据权利要求1-4之一所述的方法,其中,所述预设场景为反恐刑侦场景;
所述识别并抽取所述文本数据中的至少两个实体以及各个实体的属性信息包括:
采用实体识别模型,识别并抽取所述文本数据中的至少两个实体,所述至少两个实体包括:人名、地名、时间、物品;
采用语义分析模型,定位所述文本数据中与所述至少两个实体相对应的属性信息,所述人名的属性信息包括:出生地、出生日期、户籍、性别、住址、职业、银行卡号;所述地名的属性信息包括:省、市、县、村;所述时间的属性信息包括:年、月、日;所述物品的属性信息包括:数量、大小;
所述得到强化后的实体对关系模板,包括以下至少一项:
人名与物品之间的犯罪关系模板,
人名与地名之间的犯罪关系模板,
人名与时间之间的作案关系模板。
7.一种知识抽取装置,所述装置包括:
文本获取单元,被配置成获取预设场景的文本数据;
实体识别单元,被配置成识别并抽取所述文本数据中的至少两个实体以及各个实体的属性信息;
关系确定单元,被配置成基于任意两个实体以及各个实体的属性信息之间的关系,确定至少一个实体对关系模板;
模板强化单元,被配置成基于所述文本数据,采用远程监督模型增强所述实体对关系模板,得到强化后的实体对关系模板。
8.根据权利要求7所述的装置,还包括:
句子获取单元,被配置成获取预设句子;
句子识别单元,被配置成采用所述强化后的实体对关系模板对所述预设句子进行关系模式识别,得到所述预设句子中实体对识别结果。
9.根据权利要求8所述的装置,还包括:
句子强化单元,被配置成基于所述实体对识别结果,采用远程监督模型增强所述强化后的实体对关系模板,得到再强化后的实体对关系模板。
10.根据权利要求7所述的装置,还包括:
结果查询单元,被配置成获取针对所述预设场景的查询信息,基于强化后的实体对关系模板,生成所述查询信息的查询结果。
11.根据权利要求7-10之一所述的方法,其中,所述实体识别单元还被配置成将所述文本数据导入基于双向长短时记忆递归神经网络模型后再导入条件随机场模型,得到至少两个实体。
12.根据权利要求7-10之一所述的方法,其中,所述预设场景为反恐刑侦场景;
所述实体识别单元包括:
实体识别模块,被配置成采用实体识别模型,识别并抽取所述文本数据中的至少两个实体,所述至少两个实体包括:人名、地名、时间、物品;
属性识别模块,被配置成采用语义分析模型,定位所述文本数据与所述至少两个实体相对的属性信息,所述人名的属性信息包括:出生地、出生日期、户籍、性别、住址、职业、银行卡号;所述地名的属性信息包括:省、市、县、村;所述时间的属性信息包括:年、月、日;所述物品的属性信息包括:数量、大小;
所述强化后的实体对关系模板,包括以下至少一项:
人名与物品之间的犯罪关系模板,
人名与地名之间的犯罪关系模板,
人名与时间之间的作案关系模板。
13.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。
CN202010614729.3A 2020-06-30 2020-06-30 知识抽取方法和装置 Pending CN111783463A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010614729.3A CN111783463A (zh) 2020-06-30 2020-06-30 知识抽取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010614729.3A CN111783463A (zh) 2020-06-30 2020-06-30 知识抽取方法和装置

Publications (1)

Publication Number Publication Date
CN111783463A true CN111783463A (zh) 2020-10-16

Family

ID=72760868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010614729.3A Pending CN111783463A (zh) 2020-06-30 2020-06-30 知识抽取方法和装置

Country Status (1)

Country Link
CN (1) CN111783463A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115168599A (zh) * 2022-06-20 2022-10-11 北京百度网讯科技有限公司 多三元组抽取方法、装置、设备、介质及产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108287911A (zh) * 2018-02-01 2018-07-17 浙江大学 一种基于约束化远程监督的关系抽取方法
CN108763353A (zh) * 2018-05-14 2018-11-06 中山大学 基于规则和远程监督的百度百科关系三元组抽取方法
US20190155898A1 (en) * 2017-11-23 2019-05-23 Beijing Baidu Netcom Science And Technology Co. Ltd. Method and device for extracting entity relation based on deep learning, and server
CN109871452A (zh) * 2019-01-31 2019-06-11 深度好奇(北京)科技有限公司 确定犯罪特征的方法、装置以及存储介质
CN110019839A (zh) * 2018-01-03 2019-07-16 中国科学院计算技术研究所 基于神经网络和远程监督的医学知识图谱构建方法和系统
CN111339774A (zh) * 2020-02-07 2020-06-26 腾讯科技(深圳)有限公司 文本的实体关系抽取方法和模型训练方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190155898A1 (en) * 2017-11-23 2019-05-23 Beijing Baidu Netcom Science And Technology Co. Ltd. Method and device for extracting entity relation based on deep learning, and server
CN110019839A (zh) * 2018-01-03 2019-07-16 中国科学院计算技术研究所 基于神经网络和远程监督的医学知识图谱构建方法和系统
CN108287911A (zh) * 2018-02-01 2018-07-17 浙江大学 一种基于约束化远程监督的关系抽取方法
CN108763353A (zh) * 2018-05-14 2018-11-06 中山大学 基于规则和远程监督的百度百科关系三元组抽取方法
CN109871452A (zh) * 2019-01-31 2019-06-11 深度好奇(北京)科技有限公司 确定犯罪特征的方法、装置以及存储介质
CN111339774A (zh) * 2020-02-07 2020-06-26 腾讯科技(深圳)有限公司 文本的实体关系抽取方法和模型训练方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
公安部第三研究所: "《多摄像机协同关注目标检测跟踪技术》", 30 June 2017, 南京:东南大学出版社, pages: 185 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115168599A (zh) * 2022-06-20 2022-10-11 北京百度网讯科技有限公司 多三元组抽取方法、装置、设备、介质及产品

Similar Documents

Publication Publication Date Title
US10366114B2 (en) Providing data presentation functionality associated with collaboration database
US20210271694A1 (en) Similarity sharding
US11354367B2 (en) Search engine
US11314791B2 (en) Smart match autocomplete system
US20200110842A1 (en) Techniques to process search queries and perform contextual searches
CN112507068A (zh) 文档查询方法、装置、电子设备和存储介质
CN102262641B (zh) 网络查询中的在线手写识别系统和方法
US9251395B1 (en) Providing resources to users in a social network system
WO2014056337A1 (zh) 搜索词获取方法、服务器、搜索词推荐系统
US20190318255A1 (en) Combining Entity Analysis and Predictive Analytics
US20220076231A1 (en) System and method for enrichment of transaction data
US20210350122A1 (en) Stroke based control of handwriting input
WO2020258481A1 (zh) 个性化文本智能推荐方法、装置及计算机可读存储介质
CN105022733A (zh) Dinfo-oec文本分析挖掘方法与设备
CN110569370B (zh) 一种知识图谱的构建方法、装置、电子设备及存储介质
CN111782611B (zh) 预测模型建模方法、装置、设备及存储介质
US20210011909A1 (en) Entity resolution based on character string frequency analysis
Burbano et al. Identifying human trafficking patterns online
US20220292131A1 (en) Method, apparatus and system for retrieving image
CN112818230A (zh) 内容推荐方法、装置、电子设备和存储介质
US9516089B1 (en) Identifying and processing a number of features identified in a document to determine a type of the document
CN113516491A (zh) 推广信息展示方法、装置、电子设备及存储介质
US20220382795A1 (en) Method and system for detection of misinformation
CN111783463A (zh) 知识抽取方法和装置
US11164209B2 (en) Processing image using narrowed search space based on textual context to detect items in the image

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination