CN112016312B - 数据关系抽取方法、装置、电子设备及存储介质 - Google Patents

数据关系抽取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112016312B
CN112016312B CN202010935378.6A CN202010935378A CN112016312B CN 112016312 B CN112016312 B CN 112016312B CN 202010935378 A CN202010935378 A CN 202010935378A CN 112016312 B CN112016312 B CN 112016312B
Authority
CN
China
Prior art keywords
word
text
embedding vector
sequence
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010935378.6A
Other languages
English (en)
Other versions
CN112016312A (zh
Inventor
颜泽龙
王健宗
吴天博
程宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010935378.6A priority Critical patent/CN112016312B/zh
Priority to PCT/CN2020/125342 priority patent/WO2021159762A1/zh
Publication of CN112016312A publication Critical patent/CN112016312A/zh
Application granted granted Critical
Publication of CN112016312B publication Critical patent/CN112016312B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请适用于人工智能技术领域,提供一种数据关系抽取方法、装置、电子设备及存储介质,其中方法包括:从待处理文本中获取文本序列,基于句法依存树,获取文本序列中每一词的相关依赖词及每一词与相关依赖词之间的语义关系;根据该每一词、每一词的相关依赖词及语义关系,生成与待处理文本对应的目标词嵌入向量;将目标词嵌入向量输入至深度卷积神经网络,基于目标词嵌入向量对待处理文本进行实体关系信息抽取,获取深度卷积网络输出的具有设定预测概率值的目标实体关系。本申请可应用于智慧医疗场景中,提升相关信息中实体关系的抽取便捷度及准确度,推动智慧城市的建设。

Description

数据关系抽取方法、装置、电子设备及存储介质
技术领域
本申请属于人工智能技术领域,尤其涉及一种数据关系抽取方法、装置、电子设备及存储介质。
背景技术
信息抽取是指从自然语言处理文本中,抽取出各种有用的信息,这些信息包括但又不限于实体、关系、事件等。其中关系抽取是信息抽取中的一种任务,主要用于抽取实体之间的关系。
在许多领域,例如医学领域,存在大量的文本,包括各种病例记录,医学实验记录等等,里面充斥着各种有用的信息,所以一种有效的信息抽取方法显得格外重要。
在通常情况下,对于类似于医学数据等具有领域倾向性的数据处理时,关系抽取方法大多依赖于特征工程,而传统的特征方法需要大量的专业人士的精力跟专业知识,而且效果有限,一方面构造特征的过程中容易引入一些人为误差,另一方面有很多更深层次的特征很难被直接发现,导致信息的利用及抽取效果欠佳。
发明内容
本申请实施例提供了一种数据关系抽取方法、装置、电子设备及存储介质,以解决现有技术中传统的特征方法需要大量的专业人士的精力跟专业知识,容易引入一些人为误差,且很多更深层次的特征很难被直接发现,导致信息的利用及抽取效果欠佳的问题。
本申请实施例的第一方面提供了一种数据关系抽取方法,包括:
从待处理文本中获取分词得到的文本序列;
基于句法依存树,获取所述文本序列中每一词的相关依赖词及所述每一词与所述相关依赖词之间的语义关系;
根据所述每一词、所述每一词的相关依赖词及所述每一词与所述相关依赖词之间的语义关系,生成与所述待处理文本对应的目标词嵌入向量;
将所述目标词嵌入向量输入至深度卷积神经网络,通过所述深度卷积神经网络,基于所述目标词嵌入向量对所述待处理文本进行实体关系信息抽取,获取所述深度卷积网络输出的具有设定预测概率值的目标实体关系。
本申请实施例的第二方面提供了一种数据关系抽取装置,包括:
第一获取模块,用于从待处理文本中获取分词得到的文本序列;
第二获取模块,用于基于句法依存树,获取所述文本序列中每一词的相关依赖词及所述每一词与所述相关依赖词之间的语义关系;
生成模块,用于根据所述每一词、所述每一词的相关依赖词及所述每一词与所述相关依赖词之间的语义关系,生成与所述待处理文本对应的目标词嵌入向量;
第三获取模块,用于将所述目标词嵌入向量输入至深度卷积神经网络,通过所述深度卷积神经网络,基于所述目标词嵌入向量对所述待处理文本进行实体关系信息抽取,获取所述深度卷积网络输出的具有设定预测概率值的目标实体关系。
本申请实施例的第三方面提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述方法的步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述方法的步骤。
本申请的第五方面提供了一种计算机程序产品,当所述计算机程序产品在电子设备上运行时,使得所述电子设备执行上述第一方面所述方法的步骤。
由上可见,本申请实施例中,通过从待处理文本中获取分词得到的文本序列,基于句法依存树,获取文本序列中每一词的相关依赖词及每一词与相关依赖词之间的语义关系,生成与待处理文本对应的词嵌入向量,通过深度卷积神经网络,基于该词嵌入向量对待处理文本进行实体关系信息抽取,获取深度卷积网络输出的具有设定预测概率值的目标实体关系,实现通过深度卷积网络模型解决关系抽取任务,且利用句法依存树实现文本信息句法特征的分析,实现对文本特征的构建,充分考虑到文本之间的语义关系,不需要人为构造特征,就能取得更好的效果,提升最终实体关系的信息抽取便捷度及准确度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据关系抽取方法的流程图一;
图2是本申请实施例提供的一种数据关系抽取方法的流程图二;
图3是本申请实施例提供的一种数据关系抽取装置的结构图;
图4是本申请实施例提供的一种电子设备的结构图。
具体实施方式
以为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例所涉及的数据关系抽取方法,可以由控制终端或电子设备执行。
本申请实施例涉及的数据关系抽取方法,应用于智慧医疗场景中,从而推动智慧城市的建设。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
具体实现中,本申请实施例中描述的电子设备包括但不限于诸如具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的移动电话、膝上型计算机或平板计算机之类的其它便携式设备。还应当理解的是,在某些实施例中,所述设备并非便携式通信设备,而是具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的台式计算机。
在接下来的讨论中,描述了包括显示器和触摸敏感表面的电子设备。然而,应当理解的是,电子设备可以包括诸如物理键盘、鼠标和/或控制杆的一个或多个其它物理用户接口设备。
电子设备支持各种应用程序,例如以下中的一个或多个:绘图应用程序、演示应用程序、文字处理应用程序、网站创建应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件应用程序、即时消息收发应用程序、锻炼支持应用程序、照片管理应用程序、数码相机应用程序、数字摄影机应用程序、web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放器应用程序。
可以在电子设备上执行的各种应用程序可以使用诸如触摸敏感表面的至少一个公共物理用户接口设备。可以在应用程序之间和/或相应应用程序内调整和/或改变触摸敏感表面的一个或多个功能以及电子设备上显示的相应信息。这样,电子设备的公共物理架构(例如,触摸敏感表面)可以支持具有对用户而言直观且透明的用户界面的各种应用程序。
应理解,本实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
为了说明本申请所述的技术方案,下面通过具体实施例来进行说明。
参见图1,图1是本申请实施例提供的一种数据关系抽取方法的流程图一。如图1所示,一种数据关系抽取方法,该方法包括以下步骤:
步骤101,从待处理文本中获取分词得到的文本序列。
其中,该文本序列中的构成元素为从待处理文本中分词得到的词。即该文本序列具体为与待处理文本对应的词的序列。
该待处理文本具体可以是医学病例文本、历史文献资料文本等等。该步骤实现将待处理文本转化为以词为单位的文本序列。
作为一可选的实施方式,该从待处理文本中获取分词得到的文本序列,包括:
对待处理文本中的每一字进行标注,得到用于指示该每一字的词语构成类别的标注信息;根据该标注信息,对待处理文本进行解析,得到构成待处理文本的词,并生成以该词作为构成元素的文本序列。
在将待处理文本转化为文本序列时,需要先将待处理文本进行分词处理,具体是使用统计的分词方法,对文本序列进行标注,将分词问题转化为字的分类问题。例如,每个字可以包括4种类别:词首(B)、词中(M)、词尾(E)和单字成词(S),以对待处理文本中的每一字进行类别标注,得到用于指示该每一字的词语构成类别的标注信息。进而实现基于该标注信息得到待处理文本中所包含的词,形成由该些词组成的文本序列。
例如,待处理文本【小张的医生是小李】,文本长度为8,经过分词,各个字的预测标签为【B E S B E S B E】,通过对标签的整合,得到【小张的医生是小李】长度为5的以词为单位的文本序列。
其中,对待处理文本中的每一字进行类别标注的过程,可以通过采用事先设置好的词语构成结构、文字含义等信息来实现。
步骤102,基于句法依存树,获取文本序列中每一词的相关依赖词及每一词与相关依赖词之间的语义关系。
该句法依存树用于描述各个词语之间的依存关系,为事先构建而成。
对于文本序列中所包含的每一词均需获取其相关依赖词。该相关依赖词同样为文本序列中的词。
该相关依赖词具体为与该每一词之间具有句法依存关系的词。例如,文本序列“小张的医生是小李”中,与“小张”具有句法依存关系的词为“医生”,与“的”具有句法依存关系的词也为“医生”,该相关依赖词的确定需要基于句法依存树中所规定的句法依存关系来确定。
其中,每一词与相关依赖词之间具有语义关系,该语义关系需要基于句法依存树中所规定的句法依存关系来确定,该语义关系具体可以有不同的类型,例如主从被动关系,固定搭配关系等等。
步骤103,根据该每一词、每一词的相关依赖词及每一词与该相关依赖词之间的语义关系,生成与待处理文本对应的目标词嵌入向量。
词嵌入向量(Word Embedding)是自然语言(NLP)里面一个重要的概念,可以利用词嵌入向量将一个单词转换成固定长度的向量表示,从而便于进行数学处理。
这里,根据从待处理文本中获取分词得到的文本序列中的每一个词及其相关依赖词及每一词与该相关依赖词之间的语义关系,共同生成目标词嵌入向量,以便于后续通过深度卷积神经网络进行数学分析处理。
上述过程中,利用句法依存树实现文本信息句法特征的分析,得到文本序列及文本序列中每一词的相关依赖词及每一词与该相关依赖词之间的语义关系,共同生成与待处理文本对应的目标词嵌入向量,实现对文本特征的构建,充分考虑到文本之间的语义关系,不需要人为构造特征,避免一些人为误差的引入,有利于更深层次的文本特征的直接发现,提升最终实体关系的信息抽取便捷度及准确度。
步骤104,将目标词嵌入向量输入至深度卷积神经网络,通过深度卷积神经网络,基于目标词嵌入向量对待处理文本进行实体关系信息抽取,获取深度卷积网络输出的具有设定预测概率值的目标实体关系。
该步骤实现对待处理文本的关系抽取过程。该实体关系信息具体为待处理文本中各实体之间的关系信息。例如,待处理文本【小张的医生是小李】中实体为“小张”、“医生”及“小李”,通过将该待处理文本对应的目标词嵌入向量输入至深度卷积神经网络,实现对“小张”、“医生”及“小李”三个实体之间关系信息的抽取。
其中,在获取深度卷积网络输出的具有设定预测概率值的目标实体关系时,具体为获取深度卷积网络输出的L个实体关系的预测概率值,将预测概率值最高的实体关系确定为目标实体关系。
在通过深度卷积神经网络,基于目标词嵌入向量对待处理文本进行实体关系信息抽取时,具体为通过多个卷积层和相应的池化层进行相应的特征提取,并通过全连接层得到隐藏层的输出数据X,基于该X通过softmax进行概率的归一化计算,输出L个实体关系的预测概率值(取值在0到1之间,L是实体关系的种类数目),从softmax输出的结果中选取概率最高的那类实体关系作为最后预测结果。
例如,只有三种实体关系,【医生,病人,工作人员】,对应的概率值是【0.8,0.15,0.05】,那么则认为该文本中的实体之间的关系就是【医生】。
该过程中实现通过利用文本间的语义关系,提升最终文本中实体关系的提取准确度及快捷度。
本申请实施例中,通过从待处理文本中获取分词得到的文本序列,基于句法依存树,获取文本序列中每一词的相关依赖词及每一词与相关依赖词之间的语义关系,生成与待处理文本对应的词嵌入向量,通过深度卷积神经网络,基于该词嵌入向量对待处理文本进行实体关系信息抽取,获取深度卷积网络输出的具有设定预测概率值的目标实体关系,实现通过深度卷积网络模型解决关系抽取任务,且利用句法依存树实现文本信息句法特征的分析,实现对文本特征的构建,充分考虑到文本之间的语义关系,不需要人为构造特征,就能取得更好的效果,提升最终实体关系的信息抽取便捷度及准确度。
本申请实施例中还提供了数据关系抽取方法的不同实施方式。
参见图2,图2是本申请实施例提供的一种数据关系抽取方法的流程图二。如图2所示,一种数据关系抽取方法,该方法包括以下步骤:
步骤201,从待处理文本中获取分词得到的文本序列。
该步骤的实现过程与前述实施方式中步骤101的实现过程相同,此处不再赘述。
步骤202,基于句法依存树,获取文本序列中每一词的相关依赖词及每一词与相关依赖词之间的语义关系。
该步骤的实现过程与前述实施方式中步骤102的实现过程相同,此处不再赘述。
步骤203,根据每一词生成第一词嵌入向量,根据每一词的相关依赖词,生成与第一词嵌入向量对应的第二词嵌入向量,及,根据每一词与相关依赖词间的语义关系,生成第三词嵌入向量。
在生成与待处理文本对应的目标词嵌入向量时,需要先分别生成与文本序列中每一词、每一词的相关依赖词及每一词与相关依赖词间的语义关系对应的词嵌入向量。
作为一可选的实施方式,其中该根据每一词生成第一词嵌入向量,根据每一词的相关依赖词,生成与第一词嵌入向量对应的第二词嵌入向量,及,根据每一词与相关依赖词间的语义关系,生成第三词嵌入向量,包括:
生成包含每一词的相关依赖词的相关词序列及包含每一词与相关依赖词之间的语义关系的语义关系序列;对文本序列、相关词序列及语义关系序列进行文本长度标准化处理;生成与文本长度标准化处理后的文本序列中每一词对应的第一词嵌入向量,生成与文本长度标准化处理后的相关词序列中每一相关依赖词对应的第二词嵌入向量,生成与文本长度标准化处理后的语义关系序列中每一语义关系对应的第三词嵌入向量。
该过程实现分别生成每一词的相关依赖词及每一词与相关依赖词间的语义关系对应的序列,即相关词序列和语义关系序列。再对包含每一词的文本序列、包含相关依赖词的相关词序列及包含每一词与相关依赖词间的语义关系的语义关系序列进行文本长度的标准化处理,以在标准化处理后的各序列基础上,生成对应的词嵌入向量。
其中,文本长度的标准化处理,具体为设置标准文本长度为N,长度超过N的序列则进行内容截断,只保留前N个字,长度少于N的序列则进行内容补零,进而得到三个长度为N的序列,即处理后的文本序列、相关词序列和语义关系序列。
一个词嵌入向量对应于序列中的一个单词,例如对应于文本序列中的一个词,或者相关词序列中的一个相关依赖词,或者语义关系序列中的一个语义关系描述词。
在具体实施过程中,前述步骤生成包含每一词的相关依赖词的相关词序列及包含每一词与相关依赖词之间的语义关系的语义关系序列,具体包括:
根据每一词、每一词的相关依赖词及每一词与相关依赖词之间的语义关系,得到文本序列中每一词的语义三元组;对每一词的语义三元组进行整合,得到包含每一词的相关依赖词的相关词序列,及包含每一词与相关依赖词之间的语义关系的语义关系序列。
具体地,该语义三元组为包含文本序列中的词、该词的相关依赖词及该词与相关依赖词之间的语义关系的元素组合。文本序列中的每一词均对应有一个语义三元组。
在对每一词的语义三元组进行整合时,可以是将每一词的三元组中的相关依赖词进行整合得到相关词序列,将每一词的三元组中的词与相关依赖词之间的语义关系进行整合得到语义关系序列。
例如,文本序列【小张的医生是小李】,结合句法依存树得到各个单词所形成的三元组共5个:(小张,医生,1)、(的,医生,2)、(医生,是,3)、(是,是,4)、(小李,是,5)。经过对上述三元组的整合,可以获得对应的相关词序列为【医生医生是是是】,相应的语义关系序列为【1 2 3 4 5】,一个数字代表一个语义关系。该三元组的确定需要基于句法依存树中所规定的句法依存关系来具体实现。
步骤204,将第一词嵌入向量、第二词嵌入向量及第三词嵌入向量进行合并,得到与待处理文本对应的目标词嵌入向量。
该对第一词嵌入向量、第二词嵌入向量及第三词嵌入向量进行合并,具体是基于处理后的文本序列、相关词序列和语义关系序列中各元素的对应关系进行合并,例如文本序列【小张的医生是小李】,相关词序列为【医生医生是是是】,相应的语义关系序列为【1 23 4 5】,则将文本序列中第一个元素“小张”的第一词嵌入向量、相关词序列中第一个元素“医生”的第二词嵌入向量及语义关系序列中第一个元素“1”的第三词嵌入向量进行叠加实现合并处理。
作为一可选的实施方式,该将第一词嵌入向量、第二词嵌入向量及第三词嵌入向量进行合并,得到与待处理文本对应的目标词嵌入向量,包括:
将第一词嵌入向量、第二词嵌入向量及第三词嵌入向量进行合并,得到与待处理文本对应的N*3M的目标词嵌入向量;其中,N为长度标准化后的文本序列、相关词序列及语义关系序列中所包含的元素数量;M为第一词嵌入向量、第二词嵌入向量及第三词嵌入向量的向量维度。
其中,长度标准化后的文本序列、相关词序列及语义关系序列中所包含的元素数量相同,均为N。第一词嵌入向量、第二词嵌入向量及第三词嵌入向量的向量维度亦相同,均为M,采用相同的向量维度实现对不同词进行词嵌入数值表达。合并后生成的目标词嵌入向量中对各元素进行词嵌入数值表达的向量维度亦增加为3M。该过程实现对待处理文本对应的目标词嵌入向量的合理生成。
步骤205,将目标词嵌入向量输入至深度卷积神经网络,通过深度卷积神经网络,基于目标词嵌入向量对待处理文本进行实体关系信息抽取,获取深度卷积网络输出的具有设定预测概率值的目标实体关系。
该步骤的实现过程与前述实施方式中步骤104的实现过程相同,此处不再赘述。
本申请实施例中,通过从待处理文本中获取分词得到的文本序列,基于句法依存树,获取文本序列中每一词的相关依赖词及每一词与相关依赖词之间的语义关系,分别根据每一词、每一词的相关依赖词及每一词与相关依赖词间的语义关系生成对应的词嵌入向量,并将词嵌入向量进行合并,得到与待处理文本对应的目标词嵌入向量,通过深度卷积神经网络,基于该目标词嵌入向量对待处理文本进行实体关系信息抽取,获取深度卷积网络输出的具有设定预测概率值的目标实体关系,实现通过深度卷积网络模型解决关系抽取任务,且利用句法依存树实现文本信息句法特征的分析,实现对文本特征的构建,充分考虑到文本之间的语义关系,不需要人为构造特征,就能取得更好的效果,提升最终实体关系的信息抽取便捷度及准确度。
此外,需要阐述的是,在本申请的所有实施例中,基于待处理文本得到对应的目标实体关系,具体来说,目标实体关系由深度卷积神经网络进行实体关系信息抽取得到,比如利用句法依存树进行实体关系信息抽取得到。将目标实体关系上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该目标实体关系,以便查证目标实体关系是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
参见图3,图3是本申请实施例提供的一种数据关系抽取装置的结构图,为了便于说明,仅示出了与本申请实施例相关的部分。
该数据关系抽取装置300包括:
第一获取模块301,用于从待处理文本中获取分词得到的文本序列;
第二获取模块302,用于基于句法依存树,获取所述文本序列中每一词的相关依赖词及所述每一词与所述相关依赖词之间的语义关系;
生成模块303,用于根据所述每一词、所述每一词的相关依赖词及所述每一词与所述相关依赖词之间的语义关系,生成与所述待处理文本对应的目标词嵌入向量;
第三获取模块304,用于将所述目标词嵌入向量输入至深度卷积神经网络,通过所述深度卷积神经网络,基于所述目标词嵌入向量对所述待处理文本进行实体关系信息抽取,获取所述深度卷积网络输出的具有设定预测概率值的目标实体关系。
其中,生成模块包括:
第一生成子模块,用于根据所述每一词生成第一词嵌入向量,根据所述每一词的相关依赖词,生成与所述第一词嵌入向量对应的第二词嵌入向量,及,根据所述每一词与所述相关依赖词间的语义关系,生成第三词嵌入向量;
第二生成子模块,用于将所述第一词嵌入向量、所述第二词嵌入向量及所述第三词嵌入向量进行合并,得到与所述待处理文本对应的目标词嵌入向量。
其中该第一生成子模块具体用于:
生成包含所述每一词的相关依赖词的相关词序列及包含所述每一词与所述相关依赖词之间的语义关系的语义关系序列;
对所述文本序列、所述相关词序列及所述语义关系序列进行文本长度标准化处理;
生成与文本长度标准化处理后的所述文本序列中每一词对应的第一词嵌入向量,生成与文本长度标准化处理后的所述相关词序列中每一相关依赖词对应的第二词嵌入向量,生成与文本长度标准化处理后的所述语义关系序列中每一语义关系对应的第三词嵌入向量。
其中,该第二生成子模块具体用于:
将所述第一词嵌入向量、所述第二词嵌入向量及所述第三词嵌入向量进行合并,得到与所述待处理文本对应的N*3M的目标词嵌入向量;
其中,所述N为长度标准化后的所述文本序列、所述相关词序列及所述语义关系序列中所包含的元素数量;所述M为所述第一词嵌入向量、所述第二词嵌入向量及所述第三词嵌入向量的向量维度。
其中,该第一生成子模块更具体用于:
根据所述每一词、所述每一词的相关依赖词及所述每一词与所述相关依赖词之间的语义关系,得到文本序列中每一词的语义三元组;
对每一词的所述语义三元组进行整合,得到包含所述每一词的相关依赖词的相关词序列,及包含所述每一词与所述相关依赖词之间的语义关系的语义关系序列。
其中,第一获取模块具体用于:
对所述待处理文本中的每一字进行标注,得到用于指示所述每一字的词语构成类别的标注信息;
根据所述标注信息,对所述待处理文本进行解析,得到构成所述待处理文本的词,并生成以所述词作为构成元素的文本序列。
本申请实施例提供的数据关系抽取装置能够实现上述数据关系抽取方法的实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
图4是本申请实施例提供的一种电子设备的结构图。如该图4所示,该实施例的电子设备4包括:至少一个处理器40(图4中仅示出一个)、存储器41以及存储在所述存储器41中并可在所述至少一个处理器40上运行的计算机程序42,所述处理器40执行所述计算机程序42时实现上述任意各个数据关系抽取方法实施例中的步骤,例如图1所示的步骤101至104,或者图2所示的步骤201至205。或者,所述处理器40执行所述计算机程序42时实现上述图3对应的实施例中各单元的功能,例如,图3所示的模块301至304的功能,具体请参阅图3对应的实施例中的相关描述,此处不赘述。
示例性的,所述计算机程序42可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器41中,并由所述处理器40执行,以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序42在所述电子设备4中的执行过程。例如,所述计算机程序42可以被分割成第一获取模块、第二获取模块、生成模块、第三获取模块,各单元具体功能如上所述。
所述电子设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述电子设备4可包括,但不仅限于,处理器40、存储器41。本领域技术人员可以理解,图4仅仅是电子设备4的示例,并不构成对电子设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备还可以包括输入输出设备、网络接入设备、总线等。
所述处理器40可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器41可以是所述电子设备4的内部存储单元,例如电子设备4的硬盘或内存。所述存储器41也可以是所述电子设备4的外部存储设备,例如所述电子设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器41还可以既包括所述电子设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机程序以及所述电子设备所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/电子设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/电子设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序产品来实现,当计算机程序产品在电子设备上运行时,使得所述电子设备执行时实现可实现上述各个方法实施例中的步骤。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (8)

1.一种数据关系抽取方法,其特征在于,包括:
从待处理文本中获取分词得到的文本序列;
基于句法依存树,获取所述文本序列中每一词的相关依赖词及所述每一词与所述相关依赖词之间的语义关系;
根据所述每一词、所述每一词的相关依赖词及所述每一词与所述相关依赖词之间的语义关系,生成与所述待处理文本对应的目标词嵌入向量;
将所述目标词嵌入向量输入至深度卷积神经网络,通过所述深度卷积神经网络,基于所述目标词嵌入向量对所述待处理文本进行实体关系信息抽取,获取所述深度卷积神经网络输出的具有设定预测概率值的目标实体关系;
所述根据所述每一词、所述每一词的相关依赖词及所述每一词与所述相关依赖词之间的语义关系,生成与所述待处理文本对应的目标词嵌入向量,包括:
根据所述每一词生成第一词嵌入向量,根据所述每一词的相关依赖词,生成与所述第一词嵌入向量对应的第二词嵌入向量,及,根据所述每一词与所述相关依赖词间的语义关系,生成第三词嵌入向量;
将所述第一词嵌入向量、所述第二词嵌入向量及所述第三词嵌入向量进行合并,得到与所述待处理文本对应的目标词嵌入向量;
所述根据所述每一词生成第一词嵌入向量,根据所述每一词的相关依赖词,生成与所述第一词嵌入向量对应的第二词嵌入向量,及,根据所述每一词与所述相关依赖词间的语义关系,生成第三词嵌入向量,包括:
生成包含所述每一词的相关依赖词的相关词序列及包含所述每一词与所述相关依赖词之间的语义关系的语义关系序列;
对所述文本序列、所述相关词序列及所述语义关系序列进行文本长度标准化处理;
生成与文本长度标准化处理后的所述文本序列中每一词对应的第一词嵌入向量,生成与文本长度标准化处理后的所述相关词序列中每一相关依赖词对应的第二词嵌入向量,生成与文本长度标准化处理后的所述语义关系序列中每一语义关系对应的第三词嵌入向量。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一词嵌入向量、所述第二词嵌入向量及所述第三词嵌入向量进行合并,得到与所述待处理文本对应的目标词嵌入向量,包括:
将所述第一词嵌入向量、所述第二词嵌入向量及所述第三词嵌入向量进行合并,得到与所述待处理文本对应的N*3M的目标词嵌入向量;
其中,所述N为长度标准化后的所述文本序列、所述相关词序列及所述语义关系序列中所包含的元素数量;所述M为所述第一词嵌入向量、所述第二词嵌入向量及所述第三词嵌入向量的向量维度。
3.根据权利要求1所述的方法,其特征在于,所述生成包含所述每一词的相关依赖词的相关词序列及包含所述每一词与所述相关依赖词之间的语义关系的语义关系序列,包括:
根据所述每一词、所述每一词的相关依赖词及所述每一词与所述相关依赖词之间的语义关系,得到文本序列中每一词的语义三元组;
对每一词的所述语义三元组进行整合,得到包含所述每一词的相关依赖词的相关词序列,及包含所述每一词与所述相关依赖词之间的语义关系的语义关系序列。
4.根据权利要求1所述的方法,其特征在于,所述从待处理文本中获取分词得到的文本序列,包括:
对所述待处理文本中的每一字进行标注,得到用于指示所述每一字的词语构成类别的标注信息;
根据所述标注信息,对所述待处理文本进行解析,得到构成所述待处理文本的词,并生成以所述词作为构成元素的文本序列。
5.根据权利要求1所述的方法,其特征在于,所述基于所述目标词嵌入向量对所述待处理文本进行实体关系信息抽取,获取所述深度卷积神经网络输出的具有设定预测概率值的目标实体关系之后,还包括:
将所述目标实体关系上传至区块链中。
6.一种数据关系抽取装置,其特征在于,包括:
第一获取模块,用于从待处理文本中获取分词得到的文本序列;
第二获取模块,用于基于句法依存树,获取所述文本序列中每一词的相关依赖词及所述每一词与所述相关依赖词之间的语义关系;
生成模块,用于根据所述每一词、所述每一词的相关依赖词及所述每一词与所述相关依赖词之间的语义关系,生成与所述待处理文本对应的目标词嵌入向量;
第三获取模块,用于将所述目标词嵌入向量输入至深度卷积神经网络,通过所述深度卷积神经网络,基于所述目标词嵌入向量对所述待处理文本进行实体关系信息抽取,获取所述深度卷积神经网络输出的具有设定预测概率值的目标实体关系;
其中,所述生成模块包括:
第一生成子模块,用于根据所述每一词生成第一词嵌入向量,根据所述每一词的相关依赖词,生成与所述第一词嵌入向量对应的第二词嵌入向量,及,根据所述每一词与所述相关依赖词间的语义关系,生成第三词嵌入向量;
第二生成子模块,用于将所述第一词嵌入向量、所述第二词嵌入向量及所述第三词嵌入向量进行合并,得到与所述待处理文本对应的目标词嵌入向量;
其中所述第一生成子模块具体用于:
生成包含所述每一词的相关依赖词的相关词序列及包含所述每一词与所述相关依赖词之间的语义关系的语义关系序列;
对所述文本序列、所述相关词序列及所述语义关系序列进行文本长度标准化处理;
生成与文本长度标准化处理后的所述文本序列中每一词对应的第一词嵌入向量,生成与文本长度标准化处理后的所述相关词序列中每一相关依赖词对应的第二词嵌入向量,生成与文本长度标准化处理后的所述语义关系序列中每一语义关系对应的第三词嵌入向量。
7.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
CN202010935378.6A 2020-09-08 2020-09-08 数据关系抽取方法、装置、电子设备及存储介质 Active CN112016312B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010935378.6A CN112016312B (zh) 2020-09-08 2020-09-08 数据关系抽取方法、装置、电子设备及存储介质
PCT/CN2020/125342 WO2021159762A1 (zh) 2020-09-08 2020-10-30 数据关系抽取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010935378.6A CN112016312B (zh) 2020-09-08 2020-09-08 数据关系抽取方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112016312A CN112016312A (zh) 2020-12-01
CN112016312B true CN112016312B (zh) 2023-08-29

Family

ID=73516140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010935378.6A Active CN112016312B (zh) 2020-09-08 2020-09-08 数据关系抽取方法、装置、电子设备及存储介质

Country Status (2)

Country Link
CN (1) CN112016312B (zh)
WO (1) WO2021159762A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613032B (zh) * 2020-12-15 2024-03-26 中国科学院信息工程研究所 基于系统调用序列的主机入侵检测方法及装置
CN113297373A (zh) * 2021-06-09 2021-08-24 北京邮电大学 智慧城市主题信息抽取方法、装置、电子设备和存储介质
CN113609846B (zh) * 2021-08-06 2022-10-04 首都师范大学 一种语句中实体关系的抽取方法及装置
CN113792539B (zh) * 2021-09-15 2024-02-20 平安科技(深圳)有限公司 基于人工智能的实体关系分类方法、装置、电子设备及介质
CN115146068B (zh) * 2022-06-01 2023-10-03 西北工业大学 关系三元组的抽取方法、装置、设备及存储介质
CN115392219A (zh) * 2022-07-29 2022-11-25 苏州思萃人工智能研究所有限公司 一种关系抽取方法、计算机设备及程序产品
CN116402019B (zh) * 2023-04-21 2024-02-02 华中农业大学 一种基于多特征融合的实体关系联合抽取方法及装置
CN116303996B (zh) * 2023-05-25 2023-08-04 江西财经大学 基于多焦点图神经网络的主题事件抽取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705299A (zh) * 2019-09-26 2020-01-17 北京明略软件系统有限公司 实体和关系的联合抽取方法、模型、电子设备及存储介质
EP3660733A1 (en) * 2018-11-30 2020-06-03 Tata Consultancy Services Limited Method and system for information extraction from document images using conversational interface and database querying
CN111241294A (zh) * 2019-12-31 2020-06-05 中国地质大学(武汉) 基于依赖解析和关键词的图卷积网络的关系抽取方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015125209A1 (ja) * 2014-02-18 2015-08-27 株式会社日立製作所 情報構造化システム及び情報構造化方法
US10540438B2 (en) * 2017-12-22 2020-01-21 International Business Machines Corporation Cognitive framework to detect adverse events in free-form text
CN110874535B (zh) * 2018-08-28 2023-07-25 阿里巴巴集团控股有限公司 依存关系对齐组件、依存关系对齐训练方法、设备及介质
CN109165385B (zh) * 2018-08-29 2022-08-09 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法
CN110196913A (zh) * 2019-05-23 2019-09-03 北京邮电大学 基于文本生成式的多实体关系联合抽取方法和装置
CN111241295B (zh) * 2020-01-03 2022-05-03 浙江大学 基于语义句法交互网络的知识图谱关系数据抽取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3660733A1 (en) * 2018-11-30 2020-06-03 Tata Consultancy Services Limited Method and system for information extraction from document images using conversational interface and database querying
CN110705299A (zh) * 2019-09-26 2020-01-17 北京明略软件系统有限公司 实体和关系的联合抽取方法、模型、电子设备及存储介质
CN111241294A (zh) * 2019-12-31 2020-06-05 中国地质大学(武汉) 基于依赖解析和关键词的图卷积网络的关系抽取方法

Also Published As

Publication number Publication date
WO2021159762A1 (zh) 2021-08-19
CN112016312A (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
CN112016312B (zh) 数据关系抽取方法、装置、电子设备及存储介质
CN113449187B (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
CN107784063B (zh) 算法的生成方法及终端设备
CN106874253A (zh) 识别敏感信息的方法及装置
CN113722438B (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN112257578B (zh) 人脸关键点检测方法、装置、电子设备及存储介质
CN111767375A (zh) 语义召回方法、装置、计算机设备及存储介质
CN114462412A (zh) 实体识别方法、装置、电子设备及存储介质
CN110444254B (zh) 一种菌群标记物的检测方法、检测系统及终端
CN113626576A (zh) 远程监督中关系特征抽取方法、装置、终端及存储介质
CN113192639A (zh) 信息预测模型的训练方法、装置、设备及存储介质
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN116719904A (zh) 基于图文结合的信息查询方法、装置、设备及存储介质
CN116705304A (zh) 基于图像文本的多模态任务处理方法、装置、设备及介质
CN113806492B (zh) 基于语义识别的记录生成方法、装置、设备及存储介质
CN115186188A (zh) 基于行为分析的产品推荐方法、装置、设备及存储介质
CN111063447B (zh) 查询和文本处理方法及装置、电子设备和存储介质
CN114581177A (zh) 产品推荐方法、装置、设备及存储介质
CN113344674A (zh) 基于用户购买力的产品推荐方法、装置、设备及存储介质
CN112528647A (zh) 相似文本生成方法、装置、电子设备及可读存储介质
CN116364223B (zh) 特征处理方法、装置、计算机设备及存储介质
CN112214556B (zh) 标签生成方法、装置、电子设备及计算机可读存储介质
CN116340864B (zh) 一种模型漂移检测方法、装置、设备及其存储介质
CN111580649B (zh) 一种基于深度学习的空中手写交互方法及系统
CN116259096A (zh) 皮肤图像生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40041476

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant