CN110795543A - 基于深度学习的非结构化数据抽取方法、装置及存储介质 - Google Patents

基于深度学习的非结构化数据抽取方法、装置及存储介质 Download PDF

Info

Publication number
CN110795543A
CN110795543A CN201910828781.6A CN201910828781A CN110795543A CN 110795543 A CN110795543 A CN 110795543A CN 201910828781 A CN201910828781 A CN 201910828781A CN 110795543 A CN110795543 A CN 110795543A
Authority
CN
China
Prior art keywords
entity
knowledge
head
word vector
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910828781.6A
Other languages
English (en)
Other versions
CN110795543B (zh
Inventor
周辉阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910828781.6A priority Critical patent/CN110795543B/zh
Publication of CN110795543A publication Critical patent/CN110795543A/zh
Application granted granted Critical
Publication of CN110795543B publication Critical patent/CN110795543B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种基于深度学习的非结构化数据抽取方法,所述方法应用于人工智能的自然语言处理领域,所述方法包括:获取输入的知识文本;调用头实体识别模型从所述知识文本中识别出头实体,调用关系识别模型从所述知识文本中识别出关系实体;根据所述头实体和所述关系实体构建问题;调用阅读理解模型根据所述问题从所述知识文本中提取答案,将所述答案确定为尾实体;根据所述头实体、所述关系实体和所述尾实体所构成的三元组构建知识图谱。该方法实现了自动构建问题以调用阅读理解模型进行自动化的非结构化数据提取,从而实现自动化的非结构化数据提取的效果。

Description

基于深度学习的非结构化数据抽取方法、装置及存储介质
技术领域
本申请涉及人工智能的自然语言处理领域,特别涉及一种基于深度学习的 非结构化数据抽取方法、装置及存储介质。
背景技术
人工智能技术是一门综合学科,自然语言处理(Natural Language Processing,NLP)是人工智能研究的一大方向,非结构化数据抽取是自然语言处理中的一个 课题。该课题的主要目的是从一段长文本(比如句子、段落或短篇章级别)中 抽取出客观的三元组信息。比如:“小明(Charles Aránguiz),1989年4月17 日出生于智利圣地亚哥”这句话中可以抽取的三元组信息如下:[小明-出生地-圣 地亚哥,小明-出生日期-1989年4月17日,小明-国籍-智利]。
相关技术中,采用深度学习的方法来进行非结构化数据抽取。比如,采用 BERT模型去做阅读理解。BERT模型的工作原理包括:向BERT模型输入一个 问题和一个答案文本,由BERT模型根据该问题在答案文本中尝试寻找答案。 若BERT模型成功寻找到答案,则输出答案在答案文本中的起始字符位置和结 束字符位置。
但是针对纯开放式的非结构化数据抽取,只会给定一个或者几个段落,并 没有问题给出,因此无法通过BERT模型完成知识抽取任务。
发明内容
本申请实施例提供了一种基于深度学习的非结构化数据抽取方法、装置及 存储介质,可以解决纯开放式的非结构化数据抽取,只会给定一个或者几个段 落,并没有问题给出,因此无法通过BERT模型完成知识抽取任务的问题。所 述技术方案如下:
根据本申请的一个方面,提供了一种基于深度学习的非结构化数据抽取方 法,所述方法包括:
获取输入的知识文本;
调用头实体识别模型从所述知识文本中识别出头实体,调用关系识别模型 从所述知识文本中识别出关系实体;
根据所述头实体和所述关系实体构建问题;
调用阅读理解模型根据所述问题从所述知识文本中提取答案,将所述答案 确定为尾实体;
根据所述头实体、所述关系实体和所述尾实体所构成的三元组构建知识图 谱。
根据本申请的另一方面,提供了一种基于深度学习的非结构化数据抽取装 置,所述装置包括:
获取模块,用于获取输入的知识文本;
调用模块,用于调用头实体识别模型、关系识别模型和阅读理解模型;
识别模块,用于在调用头实体识别模型后从所述知识文本中识别出头实体, 在调用关系识别模型后从所述知识文本中识别出关系实体;
构建模块,用于根据所述头实体和所述关系实体构建问题;根据所述头实 体、所述关系实体和所述尾实体所构成的三元组构建知识图谱;
提取模块,用于在调用阅读理解模型后根据所述问题从所述知识文本中提 取答案;
确定模块,用于将所述答案确定为尾实体;根据所述头实体、所述关系实 体和所述尾实体所构成的三元组构建知识图谱。
根据本申请的另一方面,提供了一种计算机设备,所述计算机设备包括: 处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集 或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所 述处理器加载并执行以实现如上方面所述基于深度学习的非结构化数据抽取方 法。
根据本申请的另一方面,提供了一种计算机可读存储介质,所述存储介质 中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、 所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上 方面所述的基于深度学习的非结构化数据抽取方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过调用头实体模型从知识文本中识别出头实体,调用关系识别模型从知 识文本中识别出关系实体,根据头实体和关系实体构建问题,利用构建的问题 来调用阅读理解模型根据问题从知识文本中提取答案。解决了相关技术中的阅 读理解模型无法直接应用于开放式的非结构化数据提取的问题,实现了自动构 建问题以调用阅读理解模型进行自动化的非结构化数据提取,从而实现自动化 的非结构化数据提取的效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的服务器的实施环境框图;
图2是本申请一个示例性实施例提供的基于深度学习的非结构化数据抽取 方法的流程图;
图3是本申请另一个示例性实施例提供的基于深度学习的非结构化数据抽 取方法的流程图;
图4是本申请另一个示例性实施例提供的基于深度学习的非结构化数据抽 取方法的流程图;
图5是本申请另一个示例性实施例提供的基于深度学习的非结构化数据抽 取方法的流程图;
图6是本申请另一个示例性实施例提供的基于深度学习的非结构化数据抽 取方法的流程图;
图7是本申请另一个示例性实施例提供的基于深度学习的非结构化数据抽 取方法的流程图;
图8是本申请另一个示例性实施例提供的基于深度学习的非结构化数据抽 取方法的流程图;
图9是本申请另一个示例性实施例提供的基于深度学习的非结构化数据抽 取方法的界面示意图;
图10是本申请另一个示例性实施例提供的基于深度学习的非结构化数据抽 取方法的界面示意图;
图11是本申请另一个示例性实施例提供的基于深度学习的非结构化数据抽 取方法的界面示意图;
图12是本申请另一个示例性实施例提供的基于深度学习的非结构化数据抽 取方法的界面示意图;
图13是本申请另一个示例性实施例提供的基于深度学习的非结构化数据抽 取方法的界面示意图;
图14是本申请另一个示例性实施例提供的基于深度学习的非结构化数据抽 取装置的框图;
图15是本申请另一个示例性实施例提供的服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请 实施方式作进一步地详细描述。
首先对本申请实施例涉及的若干个名词进行简介:
实体:指表示一个概念的基本单位。
模板:具有扩展样例的通用句式。
双向转换编码器(Bidirectional Encoder Representation from Transformer,BERT):采用大规模无标注语料训练,获得具有一定阅读能力的神经网络模型。
知识图谱(Knowledge Gragh):在图书情报界称为知识域可视化或知识领域 映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视 化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之 间的相互联系。
问题(Query):用户的搜索语句,包含用户的语音、文字、图片输入。
TransE:TransE的直观含义,就是TransE基于实体和关系的分布式向量表 示,将每个三元组实例(head,relation,tail)中的关系(relation)看做从头实 体(head)到尾实体(tail)的翻译,通过不断调整h、r和t(head、relation和 tail的向量),使(h+r)尽可能与t相等,即h+r=t。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制 的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳 结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一 个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的 方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实 现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有 软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、 云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。 人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技 术以及机器学习/深度学习等几大方向。
自然语言处理(NaturalLanguageProcessing,NLP)是人工智能的一个子领 域。在NLP的研究领域中存在一个较为困难的课题:非结构化数据抽取。非结 构化数据的主要目的是从一段长文本(比如句子、段落或短篇章级别)中抽取 出客观的三元组信息。比如:“小明,1989年4月17日出生于智利圣地亚哥, 智利职业足球运动员,司职中场,效力于德国足球俱乐部”这句话中可以抽取的 三元组信息如下:[小明-出生地-圣地亚哥,小明-出生日期-1989年4月17日, 小明-国籍-智利,小明-职业-足球运动员,小明-俱乐部-足球俱乐部]。大量的科 研人员做了很多的努力,都没有合理的非结构化数据的抽取方式,或者只能针 对特殊应用或者特定领域能达到一个高度,但是对于纯粹的开放式的任务的效 果还是很差。
本申请实施例提供了一种基于“知识图谱”和“机器学习”的自动化非结 构化数据抽取模型(以下简称抽取模型)。该抽取模型的自动化数据抽取过程, 包括三个阶段:
1)问题提取阶段;
在输入一段长文本后,让该抽取模型同时输出多个主语和谓语的起始位置, 根据识别出来的主语和谓语分别转换成词向量(Embedding)的形式,再加上偏 移位置信息的相对向量,就得到主语和谓语的词向量表示。根据主语和谓语的 词向量表示,拆解出多个一对一的问题。
2)基于“知识图谱”的非结构化数据抽取过程;
针对每个一对一的问题,利用已知的“知识图谱”寻找答案的方式,获得 该问题对应的候选答案。然后,根据候选答案在输入的长文本中寻找目标答案。
若在输入的长文本中,找到该问题的目标答案符合客观答案条件,则结束 流程;若在输入的长文本中,找到该问题的目标答案不符合客观答案条件,则 进入下一阶段。
3)基于“机器学习”的非结构化数据抽取过程。
当基于知识图谱的非结构化数据抽取失败时,利用阅读理解模型在输入的 长文本中寻找目标答案。同时,根据阅读理解模型所找到的目标答案,在“知 识图谱”中增加三元组。
在上述非结构化数据抽取方法的抽取过程结束后,抽取到的知识图谱可以 用于实现基于机器学习的问答系统。比如,智能车载系统、智能音箱系统、智 能景点讲解系统等等。
参考图1,示出了本申请一个示例性实施例提供的计算机系统的结构示意图, 该计算机系统包括终端120和服务器140。
终端120与服务器140之间通过有线或者无线网络相互连接。
可选地,终端120可以包括笔记本电脑、台式电脑、智能手机、平板电脑、 智能音箱、智能机器人中的至少一种。
终端120包括第一存储器和第一处理器。第一存储器中存储有第一程序; 上述第一程序被第一处理器调用执行以实现基于机器学习的问题答复方法。第 一存储器可以包括但不限于以下几种:随机存取存储器(Random Access Memory, RAM)、只读存储器(ReadOnly Memory,ROM)、可编程只读存储器 (Programmable Read-Only Memory,PROM)、可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM)、以及电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)。
第一处理器可以是一个或者多个集成电路芯片组成。可选地,第一处理器 可以是通用处理器,比如,中央处理器(Central Processing Unit,CPU)或者网 络处理器(Network Processor,NP)。可选地,第一处理器用于通过调用服务器 140提供的问答模型144来实现本申请提供的基于机器学习的问题答复方法。
可选地,终端120中包括显示器;显示器用于显示问题或者答案。
可选地,终端120中包括麦克风;麦克风用于采集语音形式的问题。
可选地,终端120中包括扬声器;扬声器用于播放语音形式的答案。
服务器140包括第二存储器和第二处理器。第二存储器中存储有第二程序, 上述第二程序被第二处理器调用来实现本申请提供的自动化非结构化数据抽取 方法以及问答方法。示例性的,第二存储器中存储有问答模型144,上述问答模 型144被第二处理器调用以实现基于机器学习的问题答复方法中服务器侧执行 的步骤。可选地,第二存储器可以包括但不限于以下几种:RAM、ROM、PROM、 EPROM、EEPROM。
第二存储器中还存储有知识图谱142和自动化的非结构化数据抽取模型146。 当第二处理器执行基于机器学习的问题答复方法中服务器侧的步骤时,第二处 理器调用问答模型144从知识图谱142中寻找得到问题的正确答案对应的向量 序列。
可选地,第二处理器通过调用第二存储器中存储非结构化数据抽取模型146, 以实现上述非结构化数据抽取方法。可选地,第二处理器可以是通用处理器, 比如,CPU或者NP。
示意性的,本申请提供的基于机器学习的问题答复方法可以应用于车载语 音系统、智能音箱、智能客服、儿童陪伴机器人、智能问答软件、百科问答软 件等问答产品(终端)中。
图2示出了本申请一个示例性实施例提供的基于深度学习的非结构化数据 抽取方法的流程图。该方法可以由图1所示的服务器来执行。所述方法包括:
步骤201,获取输入的知识文本;
服务器中存储有自动化的非结构化数据抽取模型(下文简称抽取模型)。当 存在待学习的知识文本时,将待学习的知识文本输入至该抽取模型中。
知识文本是一个长文本,知识文本包括一个或多个段落。或者,知识文本 包括一篇文章。或者,知识文本包括多个句子。
步骤203,调用头实体识别模型从知识文本中识别出头实体,调用关系识别 模型从知识文本中识别出关系实体;
该抽取模型中包括:头实体(head)识别模型和关系(relation)识别模型。 该头实体识别模型从知识文本中识别出一个或多个主语作为头实体,该关系识 别模型从知识文本中识别出一个或多个谓词作为关系。
步骤205,根据头实体和关系实体构建问题;
该抽取模型根据头实体和关系实体来构建问题。当主语和谓语均为一个时, 可以构建出一个问题;当主语或谓词为至少两个时,可以构建出多个问题。
步骤207,调用阅读理解模型根据问题从知识文本中提取答案,将答案确定 为尾实体;
该阅读理解模型的输入为问题和知识文本,输出为答案在知识文本中的位 置。该阅读理解模型是基于深度学习的自然语言处理模型。
示例性的,该阅读理解模型为BERT模型。
步骤209,根据头实体、关系实体和尾实体所构成的三元组构建知识图谱。
在阅读理解模型提取到答案后,将答案作为尾实体。该抽取模型将头实体、 关系实体、尾实体所形成的三元组(head,relation,tail)添加至知识图谱中。
综上所述,本实施例提供的方法,通过调用头实体模型从知识文本中识别 出头实体,调用关系识别模型从知识文本中识别出关系实体,根据头实体和关 系实体构建问题,利用构建的问题来调用阅读理解模型根据问题从知识文本中 提取答案。解决了相关技术中的阅读理解模型无法直接应用于开放式的非结构 化数据提取的问题,实现了自动构建问题以调用阅读理解模型进行自动化的非 结构化数据提取,从而实现自动化的非结构化数据提取的效果。
图3示出了本申请一个示例性实施例提供的基于深度学习的非结构化数据 抽取方法的流程图。该方法可以由图1所示的服务器来执行。所述方法包括:
步骤301,获取输入的知识文本;
服务器中存储有自动化的非结构化数据抽取模型(下文简称抽取模型)。当 存在待学习的知识文本时,将待学习的知识文本输入至该抽取模型中。
该知识文本是非结构化数据。知识文本是一个长文本,知识文本包括一个 或多个段落。或者,知识文本包括一篇文章。或者,知识文本包括多个句子。 示例性的,该知识文本是百科知识、网页、电子书籍、景点介绍中的至少一种 文本。
示例性的,若输入的知识文本较长时,服务器按照段落为单位,对知识文 本进行拆解,将每个段落作为一个知识文本进行处理。
步骤302,调用头实体识别模型从知识文本中识别出头实体;
该抽取模型中包括:头实体识别模型41,如图4所示。该头实体识别模型 41从知识文本中识别出一个或多个主语作为头实体。
头实体识别模型的输入是知识文本(比如段落),输出为头实体在知识文本 中的位置。可选地,该头实体的位置采用起始位置来表示,或者,头实体的位 置采用起始位置和结束位置来表示。
在一个示例中,头实体的个数为一个或多个。
步骤303,调用关系识别模型从知识文本中识别出关系实体;
该抽取模型中包括:关系识别模型42,如图4所示。该关系识别模型42从 知识文本中识别出一个或多个谓词作为关系。
关系识别模型的输入是知识文本(比如段落),输出为关系在知识文本中的 位置。可选地,该关系的位置采用起始位置来表示,或者,关系的位置采用起 始位置和结束位置来表示。
在一个示例中,关系的个数为一个或多个。
上述两个步骤的执行顺序的先后关系不加以限定,步骤302可以在步骤303 之前执行,步骤303可以在步骤302之前执行,或者两个步骤同时执行。
步骤304,确定头实体的第一实体类型和关系实体的第二实体类型;
第一实体类型采用词性类别或语义类别来表示,第二实体类型也采用词性 类别或语义类别来表示。
比如,查尔斯·阿兰基斯的语义类别为人,也即第一实体类型为人(person); 国籍的语义类别为属性,也即第二实体类型为属性(attribute)。
步骤305,从多个候选问题模板中,确定与第一实体类型和第二实体类型对 应的问题模板;
该抽取模型中提供有多个候选问题模板。比如:[person]的[attribute]是什么。每个候选问题模板对应一组(第一实体类型,第二实体类型)的组合。根据抽 取出第一实体类型和第二实体类型,可选择出相应的问题模板。
步骤306,将头实体和关系实体按照问题模板进行组合,得到问题;
在一个示例中,将头实体“查尔斯·阿兰基斯”和关系实体“国籍”按照问 题模板“[person]的[attribute]是什么”进行组合,则得到问题:查尔斯·阿兰基斯 的国籍是什么。
由于头实体可能为至少两个,关系实体可能为至少两个。当头实体和关系 实体中的至少一个为至少两个时,该抽取模型根据至少两个头实体或关系实体 的排列组合,拆解得到至少两组头实体和关系实体之间的一对一组合。
比如,头实体为3个,关系实体为4个,则头实体和关系实体的组合为12 种,能够拆解得到12个问题。针对每个问题可以执行如下步骤。
步骤307,获取头实体的第一词向量和关系实体的第二词向量;
对于每个问题,获取头实体的第一词向量和关系实体的第二词向量。
该抽取模型中设置有已经训练好的TranSE模型。该抽取模型通过TranSE 模型,将头实体转化为第一词向量,将关系实体转换为第二词向量。
步骤308,根据第一词向量,在知识图谱的已有三元组中确定出候选三元组;
根据头实体的第一词向量,在知识图谱的已有三元组中能够确定出至少两 种候选三元组。
在一个示例中,遍历知识图谱的已有三元组,确定出头实体等于第一词向 量的三元组作为候选三元组;在另一个示例中,遍历知识图谱的已有三元组, 确定出头实体包括第一词向量的三元组作为候选三元组。
步骤309,根据第一词向量和第二词向量,在候选三元组中确定出目标实体;
示例性的,该抽取模型根据第一词向量和第二词向量计算预测向量;计算 预测向量和候选三元组对应的标签向量之间的距离,将距离最小的候选三元组 确定为目标实体。
该计算过程可以参考如下公式实现:
Figure BDA0002189963840000101
h为头实体,l为关系,t为尾实体,β1至β4为参数。p为关系向量,e为 实体向量,C为知识图谱,pl为关系向量,
Figure BDA0002189963840000102
为预测的关系向量,eh为实体向量,
Figure BDA0002189963840000103
为预测的实体向量,
Figure BDA0002189963840000104
为预测的尾实体向量。
Figure BDA0002189963840000105
为关系向量和预测的 关系向量之间的距离,n(h)和n(p)表示标签向量对应的字符,HEDentity为被识别 为实体的字符,HEDnon为被识别为不是实体的字符。sim为计算两个字符相似度 的函数,f()函数定义为两参数相加,minimize为选取最小值。
将具有最小值的候选三元组确定为目标实体。
步骤310,判断目标实体是否满足真实性条件;
假定一个阈值来判定一个(头实体,关系,目标实体)之间的关系是否符 合客观规律。因为每一种三元组的关系配对总会有一个最小损失值,如果这个 最小损失值大于设定阈值(比如0.3),则认定这个关系不符合客观的三元组事 实。反之则认定是一个合法的三元组事实。
该真实性条件包括:是否小于设定阈值。当满足真实性条件时,进入步骤 311;当不满足真实性条件时,进入步骤312。
步骤311,当目标实体满足真实性条件时,根据目标实体在知识文本中提取 答案;
由于目标实体是已知的知识图谱中的实体,而不是从输入的知识文本中提 取的实体。也即基于知识图谱得到的答案是知识图谱中的信息,而不是用户提 供的原文中的答案,不够智能化。因此,该抽取模型还需要在输入的知识文本 中进行答案回溯。
本步骤存在两种实现方式:
一,基于词向量的相似度计算方法;
将知识文本进行向量化,得到每个句子的词向量序列;计算目标实体的第 三词向量和每个句子的词向量序列之间的相似度;从相似度最高的句子中提取 出答案。
比如,知识文本是:“乌鲁木齐地处中国西北地区、新疆中部、亚欧大陆中 心、天山山脉中段北麓、准噶尔盆地南缘,毗邻中亚各国,有“亚心之都”的 称呼,是第二座亚欧大陆桥中国西部桥头堡和中国向西开放的重要门户[4], 并被列入吉尼斯世界纪录大全,是世界上最内陆、距离海洋和海岸线最远的大 型城市(2500公里)。”。该抽取模型经过知识图谱的问答方法已经得到了一个 三元组关系符合条件:[乌鲁木齐-地理位置-新疆中部,天山北麓]。
该抽取模型得到了知识图谱中的答案(目标实体):“新疆中部,天山北麓”, 但是这还不够,该抽取模型需要得到知识文本中对应的答案,不然就显得该抽 取模型生搬硬套,没有从用户给的数据中抽取相关的答案。该抽取模型对答案 和知识文本进行符号分割,然后用词向量去计算与之最接近的话语,找到知识 文本中的答案的起始位置,这样就实现了答案回溯。上面例子中,该抽取模型 首先把答案拆成:“新疆中部”和“天山北麓”,把知识文本也按照标点符号进行拆 分,然后分别映射成词向量的形式(分词,然后查字典,多个词向量相加,再 做归一化,这里的字典可以使用开源900万中文词向量)。该抽取模型分别计算 每个句子和目标实体之间的余弦相似度,该抽取模型发现知识文本中“新疆中部”和答案“新疆中部”的余弦相似度最接近,因此该句就是知识文本答案的开始位置, 同理,该抽取模型计算得到“天山山脉中段北麓”与“天山北麓”的余弦相似度最接 近,所以这一句就是答案的结束位置,因此,最接近的对应答案就是:“新疆中 部、亚欧大陆中心、天山山脉中段北麓”,因此针对这个结果,该抽取模型最后 抽取的结果就是:[乌鲁木齐—地理位置--新疆中部、亚欧大陆中心、天山山脉 中段北麓]。
二,基于最长公共子序列的相似度计算方法
由于第一种方式中映射得到词向量的计算量较大,比如需要下载开源900 万中文词向量以及计算,需要内存加载这么大的数据,约16G),则可以使用如 下替代方式:该抽取模型计算目标实体和知识文本中的每个句子的最长公共子 序列;从具有最长的最长公共子序列的句子中提取出答案。
示例性的,该抽取模型计算目标实体的起始位置和知识文本中的每个句子 的最长公共子序列,得到第一位置;计算目标实体的结束位置和知识文本中的 每个句子的最长公共子序列,得到第二位置;将第一位置和第二位置之间的文 本序列提取为答案。
比如,该抽取模型分别计算目标实体(答案)的开始位置和结束位置,在 知识文本中与之最匹配的最长公共子序列用于确定答案的起始位置,同样也能 得出一样的结论(“新疆中部”与“新疆中部”拥有最长公共子序列,“天山北麓” 与“天山山脉中段北麓”拥有最长公共子序列)。
步骤312,当目标实体不满足真实性条件时,调用阅读理解模型根据问题从 知识文本中提取答案;
该阅读理解模型的输入为问题和知识文本,输出为答案在知识文本中的位 置。该阅读理解模型是基于深度学习的自然语言处理模型。
示例性的,该阅读理解模型为BERT模型。
步骤313,将答案确定为尾实体;
步骤314,根据头实体、关系实体和尾实体所构成的三元组构建知识图谱。
该知识图谱可以用于用户问询的时候方便调取知识来回答。该知识图谱是 通用类型的知识图谱,或者,针对某个领域的专用知识图谱。
综上所述,本实施例提供的方法,通过调用头实体模型从知识文本中识别 出头实体,调用关系识别模型从知识文本中识别出关系实体,根据头实体和关 系实体构建问题,利用构建的问题来调用阅读理解模型根据问题从知识文本中 提取答案。解决了相关技术中的阅读理解模型无法直接应用于开放式的非结构 化数据提取的问题,实现了自动构建问题以调用阅读理解模型进行自动化的非 结构化数据提取,从而实现自动化的非结构化数据提取的效果。
本实施例提供的方法,通过提取头实体和关系的方式,在存在至少两个头 实体和/或至少两个关系时,采用按照排列组合的方式进行拆解,从而很好的解 决了多对多的问题构建。
本实施例提供的方法,还通过基于语义类型的相似度计算方法,能够通过 目标实体从知识文本(原文)中提取出较为准确和原汁原味的答案,实现了较 高的人工智能程度。
本实施例提供的方法,还通过基于字符类型的相似度计算,能够以较少的 计算量来通过目标实体从知识文本(原文)中提取出较为准确和原汁原味的答 案,实现了更为简洁且高效的答案提取方式。
本实施例提供的方法,还通过当目标实体不满足真实性条件时,调用阅读 理解模型根据问题从知识文本中提取答案,当知识图谱无法提取答案时,利用 阅读理解模型提取答案,实现了更加全面的答案提取方式。
在基于图3所示的实施例中,头实体识别模型和关系识别模型是需要预先 训练得到的模型。在训练过程中,首先导出知识图谱中的所有的三元组,然后 利用TRANSE算法去训练词向量。将每个三元组实例(head,relation,tail)中 的关系relation看做从实体head到实体tail的翻译,通过不断调整h、r和t(head、 relation和tail的向量),使(h+r)尽可能与t相等,即h+r=t。
在基于图3所示的实施例中,上述阅读理解模型是BERT模型。该BERT 模型是需要预先得到的模型。图5示出了本申请一个示例性实施例提供的阅读 理解模型训练方法的流程图,该方法应用于服务器中国,该方法包括:
步骤401,服务器获取训练样本。
每组训练样本包括问题样本、知识文本样本和标定位置。一个问题样本是 采集得到的一个历史问题;一个历史问题对应一个知识文本中的正确答案、以 及知识文本中的非答案内容,知识文本样本是由正确答案和非答案内容混合在 一起形成的文档。知识文本样本中包括一个正确答案和至少一个非答案内容。
标定位置是正确答案在知识文本样本中句子的位置;其中,标定位置可以 包括起始标定位置和终止标定位置,起始标定位置是正确答案在知识文本样本 中句子的起始位置,终止标定位置是正确答案在知识文本样本中句子的终止位 置。比如,知识文本样本包括两个句子“今天天气晴朗。今天是本月最后一天。”, 对上述两个句子进行分词得到顺序排列的分词结果:“今天”、“天气”、“晴朗”、 “今天”、“是”、“本月”、“最后”、“一天”;每一个分词经过词嵌入、编码之后, 得到对应的词向量,并按照上述分词结果的排列顺序形成知识文本样本的向量 序列;若上述第一个句子是正确答案,那么正确答案的起始标定位置为1,即知 识文本样本的向量序列中的第一个词向量,终止标定位置为3,即知识文本样本 的向量序列中的第三个词向量;因此,上述第一个词向量至第三个词向量组成 的子向量序列即为正确答案对应的向量序列。
步骤402,服务器通过阅读理解模型对知识文本样本分别进行编码,得到知 识文本样本的向量序列。
可选地,阅读理解模型是BERT模型。服务器通过阅读理解模型的编码器 对知识文本样本进行编码得到知识文本样本的向量序列。
可选地,服务器通过阅读理解模型对知识文本样本中的各个句子进行词嵌 入,得到知识文本样本的向量序列;其次,服务器通过阅读理解模型对知识文 本样本的向量序列中的每一个词向量进行交叉编码,得到编码后的知识文本样 本的向量序列。
步骤403,服务器通过阅读理解模型预测正确答案在知识文本样本的向量序 列中的位置,并确定上述正确答案的位置与标定位置之间的损失。
可选地,上述正确答案的位置包括正确答案的起始位置和终止位置;其中, 起始位置是阅读理解模型预测得到的正确答案在知识文本样本的向量序列中句 子的起始位置,终止位置是阅读理解模型预测得到的正确答案在知识文本样本 的向量序列中句子的终止位置。
示意性的,阅读理解模型的输出层中包括归一化函数,归一化函数也就是softmax函数;服务器调用阅读理解模型中的softmax函数对知识文本样本的向 量序列中的每一个词向量进行概率计算,根据得到的概率值预测出正确答案的 句子起始位置和句子终止位置,即预测出正确答案的句子中第一个分词对应的 词向量和最后一个分词对应的词向量的位置。
服务器中的阅读理解模型中还包括损失函数(Loss Function),通过损失函 数确定出预测得到的正确答案的位置与标注位置之间的损失,即预测得到的正 确答案的位置与标准位置之间的一致性。
可选地,损失函数可以包括0-1损失(Zero-one Loss)函数、感知损失(Perceptron Loss)函数、铰链损失(Hinge Loss)函数、交叉熵损失函数、平 方误差损失(Square Loss)函数、绝对值损失(Absolute Loss)函数、指数误差 (Exponential Loss)函数和正则函数中的任意一种。
步骤404,服务器通过上述损失对阅读理解模型中的模型参数进行调整,训 练阅读理解模型对正确答案的位置预测能力。
服务器通过上述损失对阅读理解模型中的模型参数进行调整,使模型参数 调整后的阅读理解模型预测得到的正确答案在知识文本样本的向量序列中的位 置与标定位置之间的损失更小。
示意性的,服务器采用反向传播算法将上述损失反向传播,在反向传播的 过程中,根据上述损失对阅读理解模型中的模型参数的值进行调整。
示例性的,将上述实施例提供的非结构化数据抽取方法可以应用于实际, 给出以下三个实施例。
在一个如图6所示的示例性例子中,上述实施例提供的非结构化数据抽取 方法可以应用于景点讲解系统中,系统中,该方法包括如下步骤:
步骤601,景区相关文章(海量)。
采集或收集大量的景区相关文章、资料、书记等文字类信息。信息数量越 多越好。
步骤602,本申请提供的自动化的非结构化数据抽取模型。
利用本申请提供的自动化的非结构化数据抽取模型将步骤601中的景区相 关文章转化为步骤603中的景区专有的知识图谱。
步骤603,景区专有的知识图谱。
利用本申请提供的自动化的非结构化数据抽取模型,获得景区专有的知识 图谱。
步骤604,游客关于景区提问。
游客提出一个关于景区的问题。
步骤605,自动搜寻相关知识回复。
根据游客提出的问题,利用步骤603中的景区专有的知识图谱自动搜索相 关知识回复游客。
综上所述,利用上述实施例提供的非结构化数据抽取方法为景区生成专有 的知识图谱,当游客提出景区相关的问题时,可以快速检索到相关知识来恢复 游客,并且具有很高的准确度。
在一个如图7所示的示例性例子中,上述实施例提供的非结构化数据抽取 方法可以应用于自动化的知识图谱的构建过程,在构建过程中,该方法包括如 下步骤:
步骤701,所有领域的百科类知识(海量)。
采集或收集所有领域内的百科类知识,数量越多越好。
步骤702,本申请提供的自动化的非结构化数据抽取模型。
利用本申请提供的自动化的非结构化数据抽取模型将步骤701中的所有领 域的百科类知识转化为步骤703中的三元组类型的知识图谱。
步骤703,三元组类型的知识图谱。
利用本申请提供的自动化的非结构化数据抽取模型,获得三元组类型的知 识图谱。
步骤704,用户query。
用户提出一个问题。
步骤705,服务器解析意图。
服务器解析用户的意图。
步骤706,查询结果返回用户。
根据服务器解析处的用户意图,利用步骤703中的三元组类型的知识图谱 查询结果并反馈给用户。
综上所述,将上述实施例提供的非结构化数据抽取方法应用于自动化的知 识图谱的构建过程,可以从无到有的构建出知识图谱或自动完善知识图谱,利 用构建出的知识图谱可以快速准确地解答用户问题。
在一个如图8所示的示例性例子中,上述实施例提供的非结构化数据抽取 方法可以应用于全自动化的人工智能,该方法包括如下步骤:
步骤801,人类所有的知识文章。
采集或收集人类所有的知识文章。
步骤802,本申请提供的自动化的非结构化数据抽取模型。
利用本申请提供的自动化的非结构化数据抽取模型将步骤801中的人类所 有的知识文章转化为步骤803中的人类知识图谱。
步骤803,人类知识图谱。
利用本申请提供的自动化的非结构化数据抽取模型,获得人类知识图谱。
步骤804,机器自动学习。
机器在人类知识图谱的基础上可以继续自动学习其他人类知识。
步骤805,知晓人类知识的人工智能产品。
最终获得一个知晓人类知识的人工智能产品。
综上所述,将上述实施例提供的非结构化数据抽取方法应用于全自动化的 人工智能,将人类所有的只是文章利用本申请提供的自动化的非结构化数据抽 取模型生成人类知识图谱,使机器自动学习人类知识,最终获得一个知晓人类 知识的人工智能产品。
示例性的,将上述实施例提供的非结构化数据抽取方法应用于产品,给出 以下实施例。
如图9所示,当用户提问“一是什么?”时,根据上述实施例提供的非结 构化数据抽取方法,获取问题答案并显示出来。
示例性的,如图10所示,用户通过触发批量导入控件进入如图11所示的 批量导入界面,在批量导入界面可以上传段落或文章。示例性的,用户上传的 文字是“乌鲁木齐,通称乌市,旧称迪化,是新疆维吾尔自治区首府、新疆的 政治、经济、文化、科教和交通中心,中国西北地区重要的中心城市和面向中 亚西亚的国际商贸中心[1]。截至2018年,全市下辖7个区、1个县,总面积14216.3 平方千米,建成区面积436平方千米,常住人口355万人,城镇人口261.57万 人,城镇化率74.61,平均海拔是800米。”当用户提问“乌鲁木齐的平均海拔是多少”时,显示如图12所示的界面,显示“乌鲁木齐的高度是800米”。当 用户提问“乌鲁木齐的人口总数是多少”时,显示如图13所示的界面,显示“乌 鲁木齐的人口是355万人(2015年常住人口)”。
以下为本申请的装置实施例,对于装置实施例中未详细描述的细节,可以 结合参考上述方法实施例中相应的记载,本文不再赘述。
图14示出了本申请的一个示例性实施例提供的基于深度学习的非结构化数 据抽取装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成 为终端的全部或一部分,该装置包括:获取模块1404、调用模块1407、识别模 块1408、构建模块1410、提取模块1405、确定模块1403。
获取模块1404,用于获取输入的知识文本;
调用模块1407,用于调用头实体识别模型、关系识别模型和阅读理解模型;
识别模块1408,用于在调用头实体识别模型后从所述知识文本中识别出头 实体,在调用关系识别模型后从所述知识文本中识别出关系实体;
构建模块1410,用于根据所述头实体和所述关系实体构建问题;根据所述 头实体、所述关系实体和所述尾实体所构成的三元组构建知识图谱;
提取模块1405,用于在调用阅读理解模型后根据所述问题从所述知识文本 中提取答案;
确定模块1403,用于将所述答案确定为尾实体。
在一个可选的实施例中,所述构建模块还包括:确定子模块1412和组合子 模块1411;
所述确定子模块1412,用于确定所述头实体的第一实体类型和所述关系实 体的第二实体类型;从多个候选问题模板中,确定与所述第一实体类型和所述 第二实体类型对应的问题模板;
所述组合子模块1411,用于将所述头实体和所述关系实体按照所述问题模 板进行组合,得到所述问题。
在一个可选的实施例中,所述头实体或所述关系实体为至少两个;
所述装置还包括拆解模块1409;
所述拆解模块1409,用于根据至少两个所述头实体或所述关系实体的排列 组合,拆解得到至少两组所述头实体和所述关系实体之间的一对一组合。
在一个可选的实施例中,所述装置还包括判断模块1406;
所述获取模块1404,还用于获取所述头实体的第一词向量和所述关系实体 的第二词向量;
所述确定模块1403,还用于根据所述第一词向量,在所述知识图谱的已有 三元组中确定出候选实体;根据所述第一词向量和所述第二词向量,在所述候 选实体中确定出目标实体;
所述判断模块1406,用于判断目标实体是否满足阈值条件;
所述提取模块1405,还用于当所述目标实体不满足阈值条件时,执行所述 调用阅读理解模型根据所述问题从所述知识文本中提取答案的步骤。
在一个可选的实施例中,所述确定模块1403,还用于遍历所述知识图谱的 已有三元组,确定出头实体等于所述第一词向量的三元组中的尾实体作为所述 候选实体;
或,
遍历所述知识图谱的已有三元组,确定出头实体包括所述第一词向量的三 元组中的尾实体作为所述候选实体。
在一个可选的实施例中,所述装置还包括计算模块1402;
所述计算模块1402,用于根据所述第一词向量和所述第二词向量计算预测 向量;计算所述预测向量和所述候选实体对应的标签向量之间的距离;
所述确定模块1403,还用于将所述距离最小的候选实体确定为所述目标实 体。
在一个可选的实施例中,所述提取模块1405,还用于当所述目标实体满足 所述阈值条件时,根据所述目标实体在所述知识文本中提取所述答案。
在一个可选的实施例中,所述装置还包括向量化模块1401和计算模块1402;
所述向量化模块1401,用于将所述知识文本进行向量化,得到每个句子的 词向量序列;
所述计算模块1402,用于计算所述目标实体的第三词向量和所述每个句子 的词向量序列之间的相似度;
所述提取模块1405,还用于从所述相似度最高的句子中提取出所述答案。
在一个可选的实施例中,所述装置还包括计算模块1402;
所述计算模块1402,用于计算所述目标实体和所述知识文本中的每个句子 的最长公共子序列;
所述提取模块1405,还用于从具有最长的所述最长公共子序列的句子中提 取出所述答案。
图15是本申请一个实施例提供的服务器的结构示意图。具体来讲:服务器 700包括中央处理单元(英文:Central Processing Unit,简称:CPU)701、包括 随机存取存储器(英文:random access memory,简称:RAM)702和只读存储 器(英文:read-only memory,简称:ROM)703的系统存储器704,以及连接 系统存储器704和中央处理单元701的系统总线705。服务器700还包括帮助计 算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)706,和用于 存储操作系统713、应用程序714和其他程序模块715的大容量存储设备707。
基本输入/输出系统706包括有用于显示信息的显示器708和用于用户输入 信息的诸如鼠标、键盘之类的输入设备709。其中显示器708和输入设备709都 通过连接到系统总线705的输入/输出控制器710连接到中央处理单元701。基 本输入/输出系统706还可以包括输入/输出控制器710以用于接收和处理来自键 盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入/输出控制器710 还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备707通过连接到系统总线705的大容量存储控制器(未示 出)连接到中央处理单元701。大容量存储设备707及其相关联的计算机可读介 质为服务器700提供非易失性存储。也就是说,大容量存储设备707可以包括 诸如硬盘或者只读光盘(英文:Compact Disc Read-Only Memory,简称:CD-ROM) 驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算 机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他 数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介 质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(英文:Erasable Programmable Read-Only Memory,简称:EPROM)、电可擦除可编程只读存储 器(英文:Electrically Erasable ProgrammableRead-Only Memory,简称:EEPROM)、 闪存或其他固态存储其技术,CD-ROM、数字通用光盘(英文:Digital Versatile Disc,简称:DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存 储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述 的系统存储器704和大容量存储设备707可以统称为存储器。
根据本申请的各种实施例,服务器700还可以通过诸如因特网等网络连接 到网络上的远程计算机运行。也即服务器700可以通过连接在系统总线705上 的网络接口单元711连接到网络712,或者说,也可以使用网络接口单元711来 连接到其他类型的网络或远程计算机系统(未示出)。
本申请还提供一种计算机设备,该计算机设备包括:处理器和存储器,该 存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一 条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方 法实施例提供的基于深度学习的非结构化数据抽取方法。
本申请还提供一种计算机可读存储介质,该存储介质中存储有至少一条指 令、至少一段程序、代码集或指令集,该至少一条指令、至少一段程序、代码 集或指令集由处理器加载并执行以实现上述各方法实施例提供的基于深度学习 的非结构化数据抽取方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描 述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示: 单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后 关联对象是一种“或”的关系。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过 硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储于一种 计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘 等。
以上仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神 和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护 范围之内。

Claims (15)

1.一种基于深度学习的非结构化数据抽取方法,其特征在于,所述方法包括:
获取输入的知识文本;
调用头实体识别模型从所述知识文本中识别出头实体,调用关系识别模型从所述知识文本中识别出关系实体;
根据所述头实体和所述关系实体构建问题;
调用阅读理解模型根据所述问题从所述知识文本中提取答案,将所述答案确定为尾实体;
根据所述头实体、所述关系实体和所述尾实体所构成的三元组构建知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述根据所述头实体和所述关系实体构建问题,包括:
确定所述头实体的第一实体类型和所述关系实体的第二实体类型;
从多个候选问题模板中,确定与所述第一实体类型和所述第二实体类型对应的问题模板;
将所述头实体和所述关系实体按照所述问题模板进行组合,得到所述问题。
3.根据权利要求2所述的方法,其特征在于,所述头实体或所述关系实体为至少两个;
所述方法还包括:
根据至少两个所述头实体或所述关系实体的排列组合,拆解得到至少两组所述头实体和所述关系实体之间的一对一组合。
4.根据权利要求1至3任一所述的方法,其特征在于,所述调用阅读理解模型根据所述问题从所述知识文本中提取答案之前,还包括:
获取所述头实体的第一词向量和所述关系实体的第二词向量;
根据所述第一词向量,在所述知识图谱的已有三元组中确定出候选三元组;
根据所述第一词向量和所述第二词向量,在所述候选三元组中确定出目标实体;
所述调用阅读理解模型根据所述问题从所述知识文本中提取答案包括:
当所述目标实体不满足真实性条件时,执行所述调用阅读理解模型根据所述问题从所述知识文本中提取答案的步骤。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一词向量,在所述知识图谱的已有三元组中确定出候选三元组,包括:
遍历所述知识图谱的已有三元组,确定出头实体等于所述第一词向量的三元组作为所述候选三元组;
或,
遍历所述知识图谱的已有三元组,确定出头实体包括所述第一词向量的三元组作为所述候选三元组。
6.根据权利要求4所述的方法,其特征在于,所述根据所述第一词向量和所述第二词向量,在所述候选三元组中确定出目标实体,包括:
根据所述第一词向量和所述第二词向量计算预测向量;
计算所述预测向量和所述候选三元组对应的标签向量之间的距离,将所述距离最小的候选三元组确定为所述目标实体。
7.根据权利要求4所述的方法,其特征在于,所述方法还包括:
当所述目标实体满足所述真实性条件时,根据所述目标实体在所述知识文本中提取所述答案。
8.根据权利要求7所述的方法,其特征在于,所述根据所述目标实体在所述知识文本中提取所述答案,包括:
将所述知识文本进行向量化,得到每个句子的词向量序列;
计算所述目标实体的第三词向量和所述每个句子的词向量序列之间的相似度;
从所述相似度最高的句子中提取出所述答案。
9.根据权利要求7所述的方法,其特征在于,所述根据所述目标实体在所述知识文本中提取所述答案,包括:
计算所述目标实体和所述知识文本中的每个句子的最长公共子序列;
从具有最长的所述最长公共子序列的句子中提取出所述答案。
10.一种基于深度学习的非结构化数据抽取装置,其特征在于,所述装置包括:
获取模块,用于获取输入的知识文本;
调用模块,用于调用头实体识别模型、关系识别模型和阅读理解模型;
识别模块,用于在调用头实体识别模型后从所述知识文本中识别出头实体,在调用关系识别模型后从所述知识文本中识别出关系实体;
构建模块,用于根据所述头实体和所述关系实体构建问题;根据所述头实体、所述关系实体和所述尾实体所构成的三元组构建知识图谱;
提取模块,用于在调用阅读理解模型后根据所述问题从所述知识文本中提取答案;
确定模块,用于将所述答案确定为尾实体,根据所述头实体、所述关系实体和所述尾实体所构成的三元组构建知识图谱。
11.根据权利要求10所述的装置,其特征在于,所述构建模块还包括:确定子模块和组合子模块;
所述确定子模块,用于确定所述头实体的第一实体类型和所述关系实体的第二实体类型;从多个候选问题模板中,确定与所述第一实体类型和所述第二实体类型对应的问题模板;
所述组合子模块,用于将所述头实体和所述关系实体按照所述问题模板进行组合,得到所述问题。
12.根据权利要求11所述的装置,其特征在于,所述头实体或所述关系实体为至少两个;
所述装置还包括拆解模块;
所述拆解模块,用于根据至少两个所述头实体或所述关系实体的排列组合,拆解得到至少两组所述头实体和所述关系实体之间的一对一组合。
13.根据权利要求10至12任一所述的装置,其特征在于,所述装置还包括判断模块;
所述获取模块,还用于获取所述头实体的第一词向量和所述关系实体的第二词向量;
所述确定模块,还用于根据所述第一词向量,在所述知识图谱的已有三元组中确定出候选三元组;根据所述第一词向量和所述第二词向量,在所述候选三元组中确定出目标实体;
所述判断模块,用于判断目标实体是否满足真实性条件;
所述提取模块,还用于当所述目标实体不满足真实性条件时,执行所述调用阅读理解模型根据所述问题从所述知识文本中提取答案的步骤。
14.一种计算机设备,所述计算机设备包括:处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行,以实现如权利要求1至9任一项所述的基于深度学习的非结构化数据抽取方法。
15.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行,以实现如权利要求1至9任一项所述的基于深度学习的非结构化数据抽取方法。
CN201910828781.6A 2019-09-03 2019-09-03 基于深度学习的非结构化数据抽取方法、装置及存储介质 Active CN110795543B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910828781.6A CN110795543B (zh) 2019-09-03 2019-09-03 基于深度学习的非结构化数据抽取方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910828781.6A CN110795543B (zh) 2019-09-03 2019-09-03 基于深度学习的非结构化数据抽取方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110795543A true CN110795543A (zh) 2020-02-14
CN110795543B CN110795543B (zh) 2023-09-22

Family

ID=69427240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910828781.6A Active CN110795543B (zh) 2019-09-03 2019-09-03 基于深度学习的非结构化数据抽取方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110795543B (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339314A (zh) * 2020-02-19 2020-06-26 北京百度网讯科技有限公司 一种三元组数据的生成方法、装置和电子设备
CN111401033A (zh) * 2020-03-19 2020-07-10 北京百度网讯科技有限公司 事件抽取方法、事件抽取装置和电子设备
CN111444343A (zh) * 2020-03-24 2020-07-24 昆明理工大学 基于知识表示的跨境民族文化文本分类方法
CN111476038A (zh) * 2020-05-06 2020-07-31 中国人民解放军国防科技大学 长文本生成方法、装置、计算机设备和存储介质
CN111476023A (zh) * 2020-05-22 2020-07-31 北京明朝万达科技股份有限公司 识别实体关系的方法及装置
CN111476035A (zh) * 2020-05-06 2020-07-31 中国人民解放军国防科技大学 中文开放关系预测方法、装置、计算机设备和存储介质
CN111767334A (zh) * 2020-06-30 2020-10-13 北京百度网讯科技有限公司 信息抽取方法、装置、电子设备及存储介质
CN111814466A (zh) * 2020-06-24 2020-10-23 平安科技(深圳)有限公司 基于机器阅读理解的信息抽取方法、及其相关设备
CN111914559A (zh) * 2020-07-31 2020-11-10 平安科技(深圳)有限公司 基于概率图模型的文本属性抽取方法、装置及计算机设备
CN111931503A (zh) * 2020-08-04 2020-11-13 腾讯科技(深圳)有限公司 信息抽取方法及装置、设备、计算机可读存储介质
CN112131881A (zh) * 2020-09-27 2020-12-25 腾讯科技(深圳)有限公司 信息抽取方法及装置、电子设备、存储介质
CN112445784A (zh) * 2020-12-16 2021-03-05 上海芯翌智能科技有限公司 一种文本结构化的方法、设备及系统
CN112507090A (zh) * 2020-11-30 2021-03-16 北京百度网讯科技有限公司 用于输出信息的方法、装置、设备和存储介质
CN112528600A (zh) * 2020-12-15 2021-03-19 北京百度网讯科技有限公司 文本数据处理方法、相关装置及计算机程序产品
CN112559770A (zh) * 2020-12-15 2021-03-26 北京邮电大学 文本数据的关系抽取方法、装置、设备及可读存储介质
CN112733874A (zh) * 2020-10-23 2021-04-30 招商局重庆交通科研设计院有限公司 基于知识图谱推理的可疑车辆判别方法
CN113095083A (zh) * 2021-06-07 2021-07-09 浙江大华技术股份有限公司 实体抽取方法及装置
CN113326361A (zh) * 2021-05-25 2021-08-31 武汉理工大学 一种基于汽车产业图谱知识问答方法、系统及电子设备
CN113420160A (zh) * 2021-06-24 2021-09-21 竹间智能科技(上海)有限公司 数据处理方法和设备
CN113435190A (zh) * 2021-05-18 2021-09-24 北京理工大学 一种融合多层次信息抽取和降噪的篇章关系抽取方法
CN113657089A (zh) * 2021-08-20 2021-11-16 西安电子科技大学 一种英语阅读理解辅助出题方法及系统
CN113836281A (zh) * 2021-09-13 2021-12-24 中国人民解放军国防科技大学 一种基于自动问答的实体关系联合抽取方法
CN114372454A (zh) * 2020-10-14 2022-04-19 腾讯科技(深圳)有限公司 文本信息抽取方法、模型训练方法、装置及存储介质
CN115168599A (zh) * 2022-06-20 2022-10-11 北京百度网讯科技有限公司 多三元组抽取方法、装置、设备、介质及产品
CN115510245A (zh) * 2022-10-14 2022-12-23 北京理工大学 一种面向非结构化数据的领域知识抽取方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271506A (zh) * 2018-11-29 2019-01-25 武汉大学 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN109885660A (zh) * 2019-02-22 2019-06-14 上海乐言信息科技有限公司 一种知识图谱赋能的基于信息检索的问答系统和方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271506A (zh) * 2018-11-29 2019-01-25 武汉大学 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN109885660A (zh) * 2019-02-22 2019-06-14 上海乐言信息科技有限公司 一种知识图谱赋能的基于信息检索的问答系统和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIAO HUANG, JINGYUAN ZHANG, DINGCHENG LI, PING LI: "Knowledge Graph Embedding Based Question Answering", 《PROCEEDINGS OF THE TWELFTH ACM INTERNATIONAL CONFERENCE ON WEB SEARCH AND DATA MININGJANUARY》, pages 2 *

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339314A (zh) * 2020-02-19 2020-06-26 北京百度网讯科技有限公司 一种三元组数据的生成方法、装置和电子设备
CN111339314B (zh) * 2020-02-19 2024-02-13 北京百度网讯科技有限公司 一种三元组数据的生成方法、装置和电子设备
CN111401033A (zh) * 2020-03-19 2020-07-10 北京百度网讯科技有限公司 事件抽取方法、事件抽取装置和电子设备
US11928435B2 (en) 2020-03-19 2024-03-12 Beijing Baidu Netcom Science Technology Co., Ltd. Event extraction method, event extraction device, and electronic device
CN111444343A (zh) * 2020-03-24 2020-07-24 昆明理工大学 基于知识表示的跨境民族文化文本分类方法
CN111476038A (zh) * 2020-05-06 2020-07-31 中国人民解放军国防科技大学 长文本生成方法、装置、计算机设备和存储介质
CN111476035A (zh) * 2020-05-06 2020-07-31 中国人民解放军国防科技大学 中文开放关系预测方法、装置、计算机设备和存储介质
CN111476035B (zh) * 2020-05-06 2023-09-05 中国人民解放军国防科技大学 中文开放关系预测方法、装置、计算机设备和存储介质
CN111476023A (zh) * 2020-05-22 2020-07-31 北京明朝万达科技股份有限公司 识别实体关系的方法及装置
CN111476023B (zh) * 2020-05-22 2023-09-01 北京明朝万达科技股份有限公司 识别实体关系的方法及装置
CN111814466A (zh) * 2020-06-24 2020-10-23 平安科技(深圳)有限公司 基于机器阅读理解的信息抽取方法、及其相关设备
CN111767334A (zh) * 2020-06-30 2020-10-13 北京百度网讯科技有限公司 信息抽取方法、装置、电子设备及存储介质
CN111767334B (zh) * 2020-06-30 2023-07-25 北京百度网讯科技有限公司 信息抽取方法、装置、电子设备及存储介质
CN111914559A (zh) * 2020-07-31 2020-11-10 平安科技(深圳)有限公司 基于概率图模型的文本属性抽取方法、装置及计算机设备
CN111931503A (zh) * 2020-08-04 2020-11-13 腾讯科技(深圳)有限公司 信息抽取方法及装置、设备、计算机可读存储介质
CN111931503B (zh) * 2020-08-04 2024-01-26 腾讯科技(深圳)有限公司 信息抽取方法及装置、设备、计算机可读存储介质
CN112131881B (zh) * 2020-09-27 2023-11-21 腾讯科技(深圳)有限公司 信息抽取方法及装置、电子设备、存储介质
CN112131881A (zh) * 2020-09-27 2020-12-25 腾讯科技(深圳)有限公司 信息抽取方法及装置、电子设备、存储介质
CN114372454A (zh) * 2020-10-14 2022-04-19 腾讯科技(深圳)有限公司 文本信息抽取方法、模型训练方法、装置及存储介质
CN112733874A (zh) * 2020-10-23 2021-04-30 招商局重庆交通科研设计院有限公司 基于知识图谱推理的可疑车辆判别方法
CN112507090A (zh) * 2020-11-30 2021-03-16 北京百度网讯科技有限公司 用于输出信息的方法、装置、设备和存储介质
CN112507090B (zh) * 2020-11-30 2024-05-03 北京百度网讯科技有限公司 用于输出信息的方法、装置、设备和存储介质
CN112559770A (zh) * 2020-12-15 2021-03-26 北京邮电大学 文本数据的关系抽取方法、装置、设备及可读存储介质
CN112528600B (zh) * 2020-12-15 2024-05-07 北京百度网讯科技有限公司 文本数据处理方法、相关装置及计算机程序产品
CN112528600A (zh) * 2020-12-15 2021-03-19 北京百度网讯科技有限公司 文本数据处理方法、相关装置及计算机程序产品
CN112445784A (zh) * 2020-12-16 2021-03-05 上海芯翌智能科技有限公司 一种文本结构化的方法、设备及系统
CN112445784B (zh) * 2020-12-16 2023-02-21 上海芯翌智能科技有限公司 一种文本结构化的方法、设备及系统
CN113435190A (zh) * 2021-05-18 2021-09-24 北京理工大学 一种融合多层次信息抽取和降噪的篇章关系抽取方法
CN113435190B (zh) * 2021-05-18 2022-08-05 北京理工大学 一种融合多层次信息抽取和降噪的篇章关系抽取方法
CN113326361A (zh) * 2021-05-25 2021-08-31 武汉理工大学 一种基于汽车产业图谱知识问答方法、系统及电子设备
CN113095083A (zh) * 2021-06-07 2021-07-09 浙江大华技术股份有限公司 实体抽取方法及装置
CN113420160A (zh) * 2021-06-24 2021-09-21 竹间智能科技(上海)有限公司 数据处理方法和设备
CN113657089A (zh) * 2021-08-20 2021-11-16 西安电子科技大学 一种英语阅读理解辅助出题方法及系统
CN113836281A (zh) * 2021-09-13 2021-12-24 中国人民解放军国防科技大学 一种基于自动问答的实体关系联合抽取方法
CN115168599A (zh) * 2022-06-20 2022-10-11 北京百度网讯科技有限公司 多三元组抽取方法、装置、设备、介质及产品
CN115510245A (zh) * 2022-10-14 2022-12-23 北京理工大学 一种面向非结构化数据的领域知识抽取方法
CN115510245B (zh) * 2022-10-14 2024-05-14 北京理工大学 一种面向非结构化数据的领域知识抽取方法

Also Published As

Publication number Publication date
CN110795543B (zh) 2023-09-22

Similar Documents

Publication Publication Date Title
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN111046133B (zh) 基于图谱化知识库的问答方法、设备、存储介质及装置
CN111639171A (zh) 一种知识图谱问答方法及装置
CN112784696B (zh) 基于图像识别的唇语识别方法、装置、设备及存储介质
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN109949799B (zh) 一种语义解析方法及系统
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN110765254A (zh) 一种融合多视角答案重排序的多文档问答系统模型
CN113342958B (zh) 问答匹配方法、文本匹配模型的训练方法和相关设备
CN114444507A (zh) 基于水环境知识图谱增强关系的上下文参数中文实体预测方法
CN111143507A (zh) 一种基于复合式问题的阅读理解方法
CN112541347A (zh) 一种基于预训练模型的机器阅读理解方法
CN110852071B (zh) 知识点检测方法、装置、设备及可读存储介质
CN112989811B (zh) 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法
CN110795544A (zh) 内容搜索方法、装置、设备和存储介质
CN113505786A (zh) 试题拍照评判方法、装置及电子设备
CN116595023A (zh) 地址信息的更新方法和装置、电子设备及存储介质
CN114611529B (zh) 意图识别方法和装置、电子设备及存储介质
CN115017886A (zh) 文本匹配方法、文本匹配装置、电子设备及存储介质
CN114510561A (zh) 答案选择方法、装置、设备及存储介质
CN113763934A (zh) 音频识别模型的训练方法、装置和存储介质及电子设备
CN115617959A (zh) 问题解答方法及装置
CN113011141A (zh) 佛经注解模型训练方法、佛经注解生成方法及相关设备
CN111259650A (zh) 基于类标序列生成式对抗模型的文本自动生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40021518

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant