CN116976314A - 一种文本处理方法、装置、设备、存储介质及产品 - Google Patents
一种文本处理方法、装置、设备、存储介质及产品 Download PDFInfo
- Publication number
- CN116976314A CN116976314A CN202211507152.1A CN202211507152A CN116976314A CN 116976314 A CN116976314 A CN 116976314A CN 202211507152 A CN202211507152 A CN 202211507152A CN 116976314 A CN116976314 A CN 116976314A
- Authority
- CN
- China
- Prior art keywords
- entity
- vector
- characterization
- text
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 638
- 238000012512 characterization method Methods 0.000 claims abstract description 394
- 238000012545 processing Methods 0.000 claims abstract description 234
- 238000000034 method Methods 0.000 claims abstract description 47
- 230000007246 mechanism Effects 0.000 claims abstract description 29
- 230000003993 interaction Effects 0.000 claims abstract description 28
- 239000011159 matrix material Substances 0.000 claims description 35
- 230000004927 fusion Effects 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 22
- 230000002776 aggregation Effects 0.000 claims description 12
- 238000004220 aggregation Methods 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000003213 activating effect Effects 0.000 claims description 6
- 230000004931 aggregating effect Effects 0.000 claims 1
- 238000012549 training Methods 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 14
- 241000282693 Cercopithecidae Species 0.000 description 10
- 238000013473 artificial intelligence Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 8
- 241000234295 Musa Species 0.000 description 7
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 239000007858 starting material Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 235000021015 bananas Nutrition 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例公开了一种文本处理方法、装置、设备、存储介质及产品。其中方法包括:获取由至少两个句子组成的篇章级文本,该文本中包括N个实体,获取N个实体中每个实体的参考表征向量,一个实体具备至少一个参考表征向量,基于注意力机制对每个实体的参考表征向量进行特征交互处理,得到每个实体更新后的参考表征向量,根据每个实体更新后的参考表征向量,确定每个实体的实体表征向量,对N个实体的实体表征向量进行分析,确定N个实体在篇章级文本中的关联关系。可见,基于注意力机制对每个实体的参考表征向量进行特征交互处理,可以对每个实体的参考表征向量进行修正,进而提高抽取的实体间的关联关系的准确度。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种文本处理方法、一种文本处理装置、一种计算机设备、一种计算机可读存储介质及一种文本处理产品。
背景技术
随着科技研究的进步,人工智能技术飞速发展,并已经被广泛应用在各个领域;例如,文本处理、信号处理、医疗检测等等。在文本处理领域中,人工智能技术的应用包括从文本中抽取实体间的关联关系。研究发现,当文本的量级的较大时(如文本中包含多个句子时),受噪声数据等因素影响,抽取的实体间的关联关系的准确度较低。
发明内容
本申请实施例提供了一种文本处理方法、装置、设备、计算机可读存储介质及产品,能够提高抽取的实体间的关联关系的准确度。
一方面,本申请实施例提供了一种文本处理方法,包括:
获取篇章级文本,篇章级文本由至少两个句子组成,且篇章级文本中包括N个实体,N为大于1的整数;
获取N个实体中每个实体的参考表征向量,一个实体具备至少一个参考表征向量;
基于注意力机制对每个实体的参考表征向量进行特征交互处理,得到每个实体更新后的参考表征向量;
根据每个实体更新后的参考表征向量,确定每个实体的实体表征向量;
对N个实体的实体表征向量进行分析,确定N个实体在篇章级文本中的关联关系。
一方面,本申请实施例提供了一种文本处理装置,该文本处理装置包括:
获取单元,用于获取篇章级文本,篇章级文本由至少两个句子组成,且篇章级文本中包括N个实体,N为大于1的整数;
以及用于获取N个实体中每个实体的参考表征向量,一个实体具备至少一个参考表征向量;
处理单元,用于基于注意力机制对每个实体的参考表征向量进行特征交互处理,得到每个实体更新后的参考表征向量;
以及用于根据每个实体更新后的参考表征向量,确定每个实体的实体表征向量;
以及用于对N个实体的实体表征向量进行分析,确定N个实体在篇章级文本中的关联关系。
在一种实施方式中,N个实体中的任一个实体表示为第一实体,第一实体具备M个参考表征向量,第一实体的M个参考表征向量中的任一个表示为第一实体的第i个参考表征向量;i、M均为正整数,且i小于等于M;
处理单元用于,基于注意力机制对每个实体的参考表征向量进行特征交互处理,得到每个实体更新后的参考表征向量,具体用于:
获取第一实体的第i个参考表征向量分别与第一实体的M个参考表征向量中的各个参考表征向量之间的相似度,得到第i个参考表征向量对应的相似度集合;
获取目标参数,并采用目标参数对第i个参考表征向量对应的相似度集合中的各个相似度进行稀疏处理,得到第i个参考表征向量对应的相似度集合中的各个相似度的稀疏处理结果;
对第i个参考表征向量对应的相似度集合中的各个相似度的稀疏处理结果进行归一化处理,得到第i个参考表征向量对应的权重集合;
按照第i个参考表征向量对应的权重集合对第一实体的M个参考表征向量进行加权求和处理,得到第一实体更新后的第i个参考表征向量。
在一种实施方式中,第一实体的M个参考表征向量中的任一个表示为第一实体的第j个参考表征向量;j为正整数,且j小于等于M;
处理单元用于,获取第一实体的第i个参考表征向量分别与第一实体的M个参考表征向量中的各个参考表征向量之间的相似度,得到第i个参考表征向量对应的相似度集合,具体用于:
获取第一参数矩阵和第一参数向量;
通过第一参数矩阵对第一实体的第i个参考表征向量和第一实体的第j个参考表征向量进行融合计算,得到融合结果;
对融合结果进行激活处理,并通过激活后的融合结果与第一参数向量计算第i个参考表征向量与第j个参考表征向量之间的相似度;
将述第i个参考表征向量与第j个参考表征向量之间的相似度添加至第i个参考表征向量对应的相似度集合中,得到第i个参考表征向量对应的相似度集合。
在一种实施方式中,第i个参考表征向量对应的权重集合包括M个权重,M个权重与第一实体对应的M个参考表征向量一一对应;
处理单元用于,按照第i个参考表征向量对应的权重集合对第一实体的M个参考表征向量进行加权求和处理,得到第一实体更新后的第i个参考表征向量,具体用于:
将第一实体对应的M个参考表征向量与第i个参考表征向量对应的M个权重对应相乘,得到第一实体对应的M个参考表征向量的加权结果;
对第一实体对应的M个参考表征向量的加权结果进行累加,得到第一实体更新后的第i个参考表征向量。
在一种实施方式中,处理单元用于,获取N个实体中每个实体的参考表征向量,具体用于:
对篇章级文本进行拆分处理,得到篇章级文本对应的字符序列;
对字符序列进行特征转换处理,得到字符序列对应的表征序列;
基于每个实体包含的字符的表征序列,确定每个实体对应的参考表征向量。
在一种实施方式中,N个实体中的任一个实体表示为第一实体,第一实体在篇章级文本中的出现次数为M,M为正整数;处理单元用于,基于每个实体包含的字符的表征序列,确定每个实体对应的参考表征向量,具体用于:
获取第一实体第i次出现在篇章级文本中时所对应的P个字符的表征,i为小于等于M的正整数,P为正整数;
通过预设参数向量和P个字符的表征,计算P个字符中每个字符的表征对应的相似度;
对P个字符中每个字符的表征对应的相似度进行分类处理,得到P个字符中每个字符的表征对应的权重;
基于P个字符中每个字符的表征对应的权重,对P个字符的表征进行加权求和处理,得到第一实体对应的第i个参考表征向量。
在一种实施方式中,N个实体中的任一个实体表示为第一实体,第一实体具备M个参考表征向量,M为正整数;处理单元用于,根据每个实体更新后的参考表征向量,确定每个实体的实体表征向量,具体用于:
若M=1,则将第一实体更新后的参考表征向量,确定为第一实体的实体表征向量;
若M>1,则对第一实体更新后的M个参考表征向量进行聚合处理,得到第一实体的实体表征向量。
在一种实施方式中,处理单元用于,对第一实体更新后的M个参考表征向量进行聚合处理,得到第一实体的实体表征向量,具体用于:
对第一实体对应的M个参考表征向量进行求和平均处理,得到第一实体的实体表征向量。
在一种实施方式中,N个实体中的任意两个实体表示为第一实体和第二实体;处理单元用于对N个实体的实体表征向量进行分析,确定N个实体在篇章级文本中的关联关系,具体用于:
对第一实体的实体表征向量和第二实体的实体表征向量进行拼接处理,得到拼接向量;
获取第二参数矩阵和第二参数向量,并基于第二参数矩阵和第二参数向量对拼接向量进行整合处理,得到整合后的拼接向量;
对整合后的拼接向量进行分类处理,得到第一实体和第二实体之间关系的概率分布;
根据第一实体和第二实体之间关系的概率分布,确定第一实体和第二实体在篇章级文本中的关联关系。
在一种实施方式中,N个实体中的任意两个实体表示为第一实体和第二实体;处理单元还用于:
基于第一实体和第二实体在篇章级文本中的关联关系,第一实体和第二实体,生成篇章级文本对应的三元组;以及,
将篇章级文本对应的三元组,添加至目标知识图谱中。
在一种实施方式中,处理单元还用于:
获取待查询文本;
对待查询文本进行解析,得到待查询文本对应的关键元素,关键元素包含两个实体,或者包含一个实体和一个关联关系;
在目标知识图谱中查询与待查询文本对应的关键元素匹配的目标三元组;
基于目标三元组,生成待查询文本的解答信息。
相应地,本申请提供了一种计算机设备,该计算机设备包括:
存储器,存储器中存储有计算机程序;
处理器,用于加载计算机程序实现上述文本处理方法。
相应地,本申请提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序适于由处理器加载并执行上述文本处理方法。
相应地,本申请提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述文本处理方法。
本申请实施例中,获取篇章级文本,篇章级文本由至少两个句子组成,且篇章级文本中包括N个实体,获取N个实体中每个实体的参考表征向量,一个实体具备至少一个参考表征向量,基于注意力机制对每个实体的参考表征向量进行特征交互处理,得到每个实体更新后的参考表征向量,对每个实体更新后的参考表征向量进行聚合处理,得到每个实体的实体表征向量,对N个实体的实体表征向量进行分析,确定N个实体在篇章级文本中的关联关系。可见,基于注意力机制对每个实体的参考表征向量进行特征交互处理,可以对每个实体的参考表征向量进行修正,进而提高抽取的实体间的关联关系的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a为本申请实施例提供的一种文本处理方案的示意图;
图1b为本申请实施例提供的一种文本处理模型的架构图;
图2为本申请实施例提供的一种文本处理方法的流程图;
图3为本申请实施例提供的另一种文本处理方法的流程图;
图4为本申请实施例提供的一种文本处理装置的结构示意图;
图5为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面对本申请涉及的相关术语和技术进行简单介绍:
实体:所谓实体可以理解为现实世界中具有可区别性且独立存在的某种事物,例如:人名、地名、游戏名称等。
关系抽取:是指从文本中挖掘实体间的关联关系。
人工智能(Artificial Intelligence,AI):所谓AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。本申请实施例主要涉及通过AI技术从篇章级文本中抽取实体间的关联关系。
AI技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大应用程序的处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。本申请实施例中主要涉及NLP中的关系抽取。具体来说,通过对篇章级文本进行自然语言处理,得到篇章级文本中包含的实体的实体表征向量,并对实体表征向量进行分析,得到篇章级文本中包含的实体之间的关联关系。
基于AI技术中的自然语言处理技术,本申请实施例提供了一种文本处理方案,以提高抽取的实体间的关联关系的准确度。图1a为本申请实施例提供的一种文本处理方案的示意图,如图1a所示,该文本处理方案可由计算机设备101执行,此处的计算机设备101可以是具有文本处理能力的终端或者服务器。其中,终端可以包括但不限于:智能手机(如Android手机、IOS手机等)、平板电脑、便携式个人计算机、移动互联网设备(MobileInternet Devices,简称MID)、车载终端、智能家电、机器人等具有文本处理能力的设备,本申请实施例对此不做限定。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器,本申请实施例对此不做限定。
需要说明的是,图1a中计算机设备的数量仅用于举例,并不构成本申请的实际限定;例如,数据处理系统中还可以包括计算机设备102,或者终端设备103,或者服务器104等。
在具体实现中,本申请提供文本处理方案可以通过文本处理模型来执行。图1b为本申请实施例提供的一种文本处理模型的架构图。如图1b所示,文本处理模型包括输入层、编码层、稀疏注意力层和分类层。通过文本处理模型来执行本申请提供文本处理方案的大致原理如下:
(1)文本处理模型获取篇章级文本,篇章级文本由至少两个句子组成,篇章级文本具体可以是一篇文章中的一个段落,也可以是整篇文章。可以理解的是,篇章级文本相较于单个的句子来说,内容更多,包含的关系更加复杂;例如,一个实体在篇章级文本中出现的次数通常多于该实体在单一句子中出现的次数;又例如,一个段落中第一个句子中问题的答案可能并不包含在第一个句子中,而是在该段落的最后一个句子中。篇章级文本中包括N个实体,N为大于1的整数。
在一种实施方式中,文本处理模型通过输入层对篇章级文本进行拆分处理,得到篇章级文本的若干个字符(token)组成的字符序列;例如,设篇章级文本中包含“猴子正在摘香蕉”,则计算机设备对“猴子正在摘香蕉”进行拆分处理,得到的字符序列包含“猴”,“子”,“正”,“在”,“摘”,“香”,“蕉”7个字符;又例如,设篇章级文本中包含“I am a boy”,则计算机设备对“I am a boy”进行拆分处理,得到的字符序列包含“I”,“a”,“m”,“a”,“b”,“o”,“y”7个字符。
(2)在得到字符序列后,文本处理模型通过编码层对该字符序列进行特征转换处理,得到字符序列对应的表征序列,表征序列里包含每个字符的表征。文本处理模型基于每个实体包含的字符的表征,确定N个实体中每个实体的参考表征向量;例如,假设实体A包含字符1和字符2,则文本处理模型可以基于字符1的表征和字符2的表征,确定实体A的参考表征向量。一个实体具备至少一个参考表征向量,表征是信息的呈现(记载或表达)方式,实体的参考表征向量可以理解为用于表示该实体的参考向量。在本申请实施例中,实体具备的参考表征向量的数量与该实体在篇章级文本中的次数相匹配;例如,实体A在篇章级文本中出现的次数为3次,则实体A的参考表征向量的数量也为3。
(3)在得到N个实体中每个实体的参考表征向量后,文本处理模型通过稀疏注意力层对每个实体的参考表征向量进行更新,得到每个实体更新后的参考表征向量。注意力机制可以理解为:选择信息中需要关注的部分,忽略信息中其他不需要关注的部分;或者理解为,提高信息中需要关注的部分的权重,减少信息中其他不需要关注的部分的权重。注意力机制包含稀疏注意力机制,所谓稀疏注意力机制可以理解为只对信息中需要关注的部分进行激活。
在一种实施方式中,N个实体中的任一个实体表示为第一实体,第一实体具备M个参考表征向量,第一实体的M个参考表征向量中的任一个表示为第一实体的第i个参考表征向量;i、M均为正整数,且i小于等于M。文本处理模型的稀疏注意力层获取第一实体的第i个参考表征向量分别与第一实体的M个参考表征向量中的各个参考表征向量之间的相似度,得到第i个参考表征向量对应的相似度集合。在一种实现方式中,第一实体的M个参考表征向量中的任一个表示为第一实体的第j个参考表征向量;j为正整数,且j小于等于M。第一实体的第i个参考表征向量和第一实体的第j个参考表征向量可以是同一个表征向量,也可以是不同的表征向量。文本处理模型的稀疏注意力层获取第一参数矩阵和第一参数向量,第一参数矩阵和第一参数向量可以是采用训练数据对文本处理模型进行训练得到的。文本处理模型的稀疏注意力层通过第一参数矩阵对第一实体的第i个参考表征向量和第一实体的第j个参考表征向量进行融合计算,得到融合结果,并对融合结果进行激活处理。接着通过激活后的融合结果与第一参数向量,计算第i个参考表征向量与第j个参考表征向量之间的相似度,并将述第i个参考表征向量与第j个参考表征向量之间的相似度添加至第i个参考表征向量对应的相似度集合中,得到第i个参考表征向量对应的相似度集合。重复上述实施例中的步骤,即可得到第一实体的第i个参考表征向量对应的相似度集合。
在得到第i个参考表征向量对应的相似度集合后,文本处理模型的稀疏注意力层获取目标参数,并采用目标参数对第i个参考表征向量对应的相似度集合中的各个相似度进行稀疏处理,得到第i个参考表征向量对应的相似度集合中的各个相似度的稀疏处理结果;目标参数可以基于实际情况进行配置,本申请对此不作限制。文本处理模型的稀疏注意力层对第i个参考表征向量对应的相似度集合中的各个相似度的稀疏处理结果进行归一化处理,得到第i个参考表征向量对应的权重集合,并按照第i个参考表征向量对应的权重集合对第一实体的M个参考表征向量进行加权求和处理,得到第一实体更新后的第i个参考表征向量。
可以理解的是,当M=1时,即第一实体只具备一个参考表征向量,文本处理模型的稀疏注意力层获取第一实体的参考表征向量与自身的相似度,并采用目标参数对第一实体的参考表征向量与自身的相似度进行稀疏处理,得到第一实体的参考表征向量与自身的相似度的稀疏处理结果,并对该稀疏处理结果进行归一化处理,得到第一实体的参考表征向量的权重。并基于该权重对第一实体的参考表征向量进行更新(如计算该权重与第一实体的参考表征向量的积),得到第一实体更新后的参考表征向量。
进一步地,文本处理模型的稀疏注意力层根据每个实体更新后的参考表征向量,确定每个实体的实体表征向量。具体来说,当M=1时,文本处理模型的稀疏注意力层将第一实体(N个实体中的任一个)更新后的参考表征向量,确定为第一实体的实体表征向量。当M>1时,文本处理模型的稀疏注意力层对第一实体更新后的参考表征向量进行聚合处理,得到第一实体的实体表征向量。在一种实施方式中,文本处理模型的稀疏注意力层(通过均值池化处理(Meanpooling机制))将第一实体更新后的参考表征向量相加后求平均值,得到第一实体的实体表征向量;例如,假设第一实体对应的更新后的参考表征向量为参考表征向量1-参考表征向量3,则第一实体的实体表征向量为:(参考表征向量1+参考表征向量2+参考表征向量1)/3。
(4)文本处理模型的分类层对N个实体的实体表征向量进行分析,确定N个实体在篇章级文本中的关联关系。在一种实施方式中,N个实体中的任意两个实体表示为第一实体和第二实体;文本处理模型的分类层对第一实体的实体表征向量和第二实体的实体表征向量进行拼接处理,得到拼接向量。获取第二参数矩阵和第二参数向量,并基于第二参数矩阵和第二参数向量对拼接向量进行整合处理(如通过全连接层对拼接向量进行处理),得到整合后的拼接向量;其中,第二参数矩阵和第二参数向量是基于训练数据对文本处理模型进行训练得到的。文本处理模型的分类层对整合后的拼接向量进行分类处理,得到第一实体和第二实体之间关系的概率分布,并根据第一实体和第二实体之间关系的概率分布,确定第一实体和第二实体在篇章级文本中的关联关系。
本申请实施例中,获取篇章级文本,篇章级文本由至少两个句子组成,且篇章级文本中包括N个实体,获取N个实体中每个实体的参考表征向量,一个实体具备至少一个参考表征向量,基于注意力机制对每个实体的参考表征向量进行特征交互处理,得到每个实体更新后的参考表征向量,对每个实体更新后的参考表征向量进行聚合处理,得到每个实体的实体表征向量,对N个实体的实体表征向量进行分析,确定N个实体在篇章级文本中的关联关系。可见,基于注意力机制对每个实体的参考表征向量进行特征交互处理,可以对每个实体的参考表征向量进行修正,进而提高抽取的实体间的关联关系的准确度。
基于上述文本处理方案,本申请实施例提出更为详细的文本处理方法,下面将结合附图对本申请实施例提出的文本处理方法进行详细介绍。
请参阅图2,图2为本申请实施例提供的一种文本处理方法的流程图,该文本处理方法可以由计算机设备执行,该计算机设备可以是终端设备或者服务器。如图2所示,该文本处理方法可包括如下步骤S201-S205:
S201、获取篇章级文本。
在本申请中,篇章级文本可以理解为等待进行关系抽取的文本。篇章级文本由至少两个句子组成,篇章级文本具体可以是一篇文章中的一个段落,也可以是整篇文章。可以理解的是,篇章级文本相较于单个的句子来说,内容更多,包含的关系更加复杂;例如,一个实体在篇章级文本中出现的次数通常多于该实体在单一句子中出现的次数;又例如,一个段落中第一个句子中问题的答案可能并不包含在第一个句子中,而是在该段落的最后一个句子中。篇章级文本中包括N个实体,N为大于1的整数。
在一种实施方式中,计算机设备可以直接获取篇章级文本,如对象输入的文本。在另一种实施方式中,计算机设备可以获取待处理的音频文件,并对待处理的音频文件进行转换,得到待处理的音频文件对应的文本,并将该文本确定为篇章级文本。在再一种实施方式中,计算机设备可以获取待处理的图像或视频,并对待处理的图像或视频中的文字进行识别,基于识别结果生成待处理的图像或视频对应的文本,并将该文本确定为篇章级文本。
S202、获取N个实体中每个实体的参考表征向量。
一个实体具备至少一个参考表征向量,表征是信息的呈现(记载或表达)方式,实体的参考表征向量可以理解为用于表示该实体的参考向量。在本申请实施例中,实体具备的参考表征向量的数量与该实体在篇章级文本中的次数相匹配;例如,实体A在篇章级文本中出现的次数为3次,则实体A的参考表征向量的数量也为3。
在一种实施方式中,计算机设备对篇章级文本进行拆分处理,得到篇章级文本的若干个字符(token)组成的字符序列;例如,设篇章级文本中包含“猴子正在摘香蕉”,则计算机设备对“猴子正在摘香蕉”进行拆分处理,得到的字符序列包含“猴”,“子”,“正”,“在”,“摘”,“香”,“蕉”7个字符;又例如,设篇章级文本中包含“I am a boy”,则计算机设备对“Iam a boy”进行拆分处理,得到的字符序列包含“I”,“a”,“m”,“a”,“b”,“o”,“y”7个字符。在得到字符序列后,计算机设备可以对该字符序列进行特征转换处理,得到字符序列对应的表征序列,表征序列里包含每个字符的表征。
在一种实现方式中,计算机设备可以调用语言表示模型(如双向变换编码(Bidirectional Encoder Representation from Transformers,BERT)模型、长短期记忆(Long short-term memory,LSTM)模型、门控循环单元(Gate Recurrent Unit,GRU)模型等)对字符序列进行特征转换处理,得到字符序列对应的表征序列。需要说明的是,若计算机设备调用BERT模型对字符序列进行特征转换处理,则在对字符序列进行特征转换处理之前,还需要在字符序列中加入特殊字符;例如,[CLS]和[SEP],其中,[CLS]为起始符,放在篇章级文本的第一个句子的首位;[SEP]为隔离符,放在篇章级文本中的两个句子之间。
进一步地,在得到篇章级文本的字符序列对应的表征序列后,计算机设备通过篇章级文本中各个实体包含的字符的表征,确定每个实体的参考表征向量。具体来说,N个实体中的任一个实体表示为第一实体,所述第一实体在所述篇章级文本中的出现次数为M,M为正整数。计算机设备获取第一实体第i次出现在篇章级文本中时所对应的P个字符的表征,i为小于等于M的正整数,P为正整数。通过预设参数向量和P个字符的表征,计算P个字符中每个字符的表征对应的相似度;其中,预设参数向量可以是通过训练数据对图1b所示的文本处理模型进行训练得到的。在一个实施例中,计算机设备分别计算预设参数向量与P个字符的表征的内积,得到P个字符中每个字符的表征对应的相似度。在得到P个字符中每个字符的表征对应的相似度后,计算机设备对P个字符中每个字符的表征对应的相似度进行分类处理(如通过softmax函数对P个字符中每个字符的表征对应的相似度进行分类处理),得到P个字符中每个字符的表征对应的权重。计算机设备基于P个字符中每个字符的表征对应的权重,对P个字符的表征进行加权求和处理,得到第一实体对应的第i个参考表征向量。
可选的,计算机设备对篇章级文本进行划分处理(例如通过实体划分模型对篇章级文本进行划分处理,又例如基于知识图谱中包含的实体对篇章级文本进行划分处理),得到篇章级文本对应的实体序列,并对该实体序列进行编码处理(如通过编码器对实体序列进行编码),得到每个实体的参考表征向量。
S203、基于注意力机制对每个实体的参考表征向量进行特征交互处理,得到每个实体更新后的参考表征向量。
注意力机制可以理解为:选择信息中需要关注的部分,忽略信息中其他不需要关注的部分。或者理解为,提高信息中需要关注的部分的权重,减少信息中其他不需要关注的部分的权重。注意力机制包含稀疏注意力机制,所谓稀疏注意力机制可以理解为只对信息中需要关注的部分进行激活。结合本申请来说,基于稀疏注意力机制对每个实体的参考表征向量进行特征交互处理可以理解为:在两个参考表征向量进行特征交互时,只对其中的部分表征进行激活,得到每个实体更新后的参考表征向量。所谓特征交互处理可以理解为基于参考表征向量之间的关联关系,对各个参考表征向量进行更新,这样可以使得更新后的参考表征向量具备全局性,提高各个参考表征向量的准确度。
在一种实施方式中,N个实体中的任一个实体表示为第一实体,第一实体具备M个参考表征向量,第一实体的M个参考表征向量中的任一个表示为第一实体的第i个参考表征向量;i、M均为正整数,且i小于等于M。计算机设备获取第一实体的第i个参考表征向量分别与第一实体的M个参考表征向量中的各个参考表征向量之间的相似度,得到第i个参考表征向量对应的相似度集合。在一个实施例中,第一实体的M个参考表征向量中的任一个表示为第一实体的第j个参考表征向量;j为正整数,且j小于等于M。第一实体的第i个参考表征向量和第一实体的第j个参考表征向量可以是同一个表征向量,也可以是不同的表征向量。计算机设备获取第一参数矩阵和第一参数向量,第一参数矩阵和第一参数向量可以是采用训练数据对图1b所示的文本处理模型进行训练得到的。计算机设备通过第一参数矩阵对第一实体的第i个参考表征向量和第一实体的第j个参考表征向量进行融合计算,得到融合结果,并对融合结果进行激活处理。接着通过激活后的融合结果与第一参数向量,计算第i个参考表征向量与第j个参考表征向量之间的相似度,并将述第i个参考表征向量与第j个参考表征向量之间的相似度添加至第i个参考表征向量对应的相似度集合中,得到第i个参考表征向量对应的相似度集合。重复上述实施例中的步骤,即可得到第一实体的第i个参考表征向量对应的相似度集合。
在得到第i个参考表征向量对应的相似度集合后,计算机设备获取目标参数,并采用目标参数对第i个参考表征向量对应的相似度集合中的各个相似度进行稀疏处理,得到第i个参考表征向量对应的相似度集合中的各个相似度的稀疏处理结果;目标参数可以基于实际情况进行配置,本申请对此不作限制。计算机设备对第i个参考表征向量对应的相似度集合中的各个相似度的稀疏处理结果进行归一化处理,得到第i个参考表征向量对应的权重集合,并按照第i个参考表征向量对应的权重集合对第一实体的M个参考表征向量进行加权求和处理,得到第一实体更新后的第i个参考表征向量。
可以理解的是,当M=1时,即第一实体只具备一个参考表征向量,计算机设备获取第一实体的参考表征向量与自身的相似度,并采用目标参数对第一实体的参考表征向量与自身的相似度进行稀疏处理,得到第一实体的参考表征向量与自身的相似度的稀疏处理结果,并对该稀疏处理结果进行归一化处理,得到第一实体的参考表征向量的权重。计算机设备基于第一实体的参考表征向量的权重对第一实体的参考表征向量进行更新(如计算第一实体的参考表征向量的权重与第一实体的参考表征向量的积),得到第一实体更新后的参考表征向量。
S204、根据每个实体更新后的参考表征向量,确定每个实体的实体表征向量。
在一种实施方式中,N个实体中的任一个实体表示为第一实体,第一实体具备M个参考表征向量,M=1。计算机设备将第一实体更新后的参考表征向量,确定为第一实体的实体表征向量。
在一另种实施方式中,N个实体中的任一个实体表示为第一实体,第一实体具备M个参考表征向量,M为大于1的整数。计算机设备对第一实体更新后的参考表征向量进行聚合处理,得到第一实体的实体表征向量。具体来说,计算机设备将每个实体更新后的参考表征向量相加后求平均值,得到每个实体的实体表征向量;例如,假设实体A对应的更新后的参考表征向量为参考表征向量1-参考表征向量3,则实体A的实体表征向量为:(参考表征向量1+参考表征向量2+参考表征向量1)/3。
可选的,计算机设备获取每个实体更新后的参考表征向量的权重(如经验值等),并对每个实体更新后的参考表征向量进行加权平均处理,得到每个实体的实体表征向量。
S205、对N个实体的实体表征向量进行分析,确定N个实体在篇章级文本中的关联关系。
在一种实施方式中,N个实体中的任意两个实体表示为第一实体和第二实体;计算机设备对第一实体的实体表征向量和第二实体的实体表征向量进行拼接处理,得到拼接向量。获取第二参数矩阵和第二参数向量,并基于第二参数矩阵和第二参数向量对拼接向量进行整合处理(如通过全连接层对拼接向量进行处理),得到整合后的拼接向量;其中,第二参数矩阵和第二参数向量可以是采用训练数据对图1b所示的文本处理模型进行训练得到的。计算机设备对整合后的拼接向量进行分类处理(如通过softmax函数对整合后的拼接向量进行分类处理),得到第一实体和第二实体之间关系的概率分布,并根据第一实体和第二实体之间关系的概率分布,确定第一实体和第二实体在篇章级文本中的关联关系;例如,假设第一实体和第二实体之间关系的概率分布指示第一实体和第二实体之间为关系1的概率为0.8,为关系2的概率为0.3,为关系3的概率为0.2,则计算机设备将关系1确定为第一实体和第二实体在篇章级文本中的关联关系。
本申请实施例中,获取篇章级文本,篇章级文本由至少两个句子组成,且篇章级文本中包括N个实体,获取N个实体中每个实体的参考表征向量,一个实体具备至少一个参考表征向量,基于注意力机制对每个实体的参考表征向量进行特征交互处理,得到每个实体更新后的参考表征向量,对每个实体更新后的参考表征向量进行聚合处理,得到每个实体的实体表征向量,对N个实体的实体表征向量进行分析,确定N个实体在篇章级文本中的关联关系。可见,基于注意力机制对每个实体的参考表征向量进行特征交互处理,可以对每个实体的参考表征向量进行修正,进而提高抽取的实体间的关联关系的准确度。
请参阅图3,图3为本申请实施例提供的另一种文本处理方法的流程图,该文本处理方法可以由计算机设备执行,该计算机设备可以是终端设备或者服务器。如图3所示,该文本处理方法可包括如下步骤S301-S305:
S301、获取篇章级文本。
步骤S301的具体实施方式可参考图2中步骤S201的实施方式,在此不再赘述。
S302、获取N个实体中每个实体的参考表征向量。
在一种实施方式中,计算机设备对篇章级文本进行拆分处理,得到篇章级文本对应的字符序列,具体的实施方式可参考图2步骤S202中对篇章级文本进行拆分处理的实施方式,在此不再赘述。
在得到篇章级文本对应的字符序列后,计算机设备对篇章级文本对应的字符序列进行特征转换处理,得到篇章级文本的表征序列(也就是字符序列对应的表征序列)。在一种实现方式中,计算机设备可以对篇章级文本对应的字符序列进行编码,得到篇章级文本的表征序列;例如,计算机设备可以通过语言表示模型(如双向变换编码(BidirectionalEncoder Representation from Transformers,BERT)模型)对字符序列进行特征转换处理,得到字符序列对应的表征序列。需要说明的是,若计算机设备调用BERT模型对字符序列进行特征转换处理,则在对字符序列进行特征转换处理之前,还需要在字符序列中加入特殊字符;例如,[CLS]和[SEP],其中,[CLS]为起始符,放在篇章级文本的第一个句子的首位;[SEP]为隔离符,放在篇章级文本中的两个句子之间。
进一步地,计算机设备基于每个实体包含的字符的表征序列,确定每个实体对应的参考表征向量。具体来说,设N个实体中的任一个实体表示为第一实体,第一实体在篇章级文本中的出现次数为M,M为正整数。计算机设备获取第一实体第i次出现在篇章级文本中时所对应的P个字符的表征,i为小于等于M的正整数,P为正整数。通过预设参数向量和P个字符的表征,计算P个字符中每个字符的表征对应的相似度。计算第k(k为小于等于P的正整数)个字符的表征对应的相似度可以表示为:
Sk=<Vq,Vk>
其中,Sk为第k个字符的表征对应的相似度;Vq为预设参数向量,该预设参数向量的初始值可以是一个随机的向量,在通过训练数据对图1b所示的文本处理模型进行训练的过程中,对Vq的初始值进行优化,得到优化后的Vq;Vk为第k个字符的表征;<x,y>表示对x和y进行内积计算。
在得到P个字符中每个字符的表征对应的相似度后,对P个字符中每个字符的表征对应的相似度进行分类处理,得到P个字符中每个字符的表征对应的权重;例如,通过softmax机制将P个字符中每个字符的表征对应的相似度转化为概率分布。通过第k个字符的表征对应的相似度确定第k个字符的表征对应的权重可以表示为:
其中,ak为第k个字符的表征对应的权重,Sk为第k个字符的表征对应的相似度;S1+2+…+P为P个字符的表征对应的相似度的和。
在得到P个字符中每个字符的表征对应的权重后,计算机设备基于P个字符中每个字符的表征对应的权重,对P个字符的表征进行加权求和处理,得到第一实体对应的第i个参考表征向量,具体可以表示为:
Ri=1V1+2V2+…+PVP
其中,Ri为第一实体对应的第i个参考表征向量,ak为第k个字符的表征对应的权重,Vk为第k个字符的表征。
S303、获取第一实体的第i个参考表征向量分别与第一实体的M个参考表征向量中的各个参考表征向量之间的相似度,得到第i个参考表征向量对应的相似度集合。
在一种实施方式中,第一实体的M个参考表征向量中的任一个表示为第一实体的第j个参考表征向量;j为正整数,且j小于等于M。第一实体的第i个参考表征向量和第一实体的第j个参考表征向量可以是同一个表征向量,也可以是不同的表征向量。计算机设备获取第一参数矩阵和第一参数向量,第一参数矩阵和第一参数向量可以是采用训练数据对图1b所示的文本处理模型进行训练得到的。计算机设备通过第一参数矩阵对第一实体的第i个参考表征向量和第一实体的第j个参考表征向量进行融合计算,得到融合结果,并对融合结果进行激活处理。接着通过激活后的融合结果与第一参数向量,计算第i个参考表征向量与第j个参考表征向量之间的相似度。具体可以表示为:
gij=btanh(b[i;j])
其中,gij表示第i个参考表征向量与第j个参考表征向量之间的相似度,wb为第一参数向量,Wb为第一参数矩阵,tanh()为双曲正切函数。Si表示第i个参考表征向量,Sj表示第j个参考表征向量,Wb[i;j]表示通过第一参数矩阵对第一实体的第i个参考表征向量和第一实体的第j个参考表征向量进行融合计算。
计算机设备将述第i个参考表征向量与第j个参考表征向量之间的相似度添加至第i个参考表征向量对应的相似度集合中,得到第i个参考表征向量对应的相似度集合。重复上述实施方式中的步骤,即可得到第一实体的第i个参考表征向量对应的相似度集合。
S304、获取目标参数,并采用目标参数对第i个参考表征向量对应的相似度集合中的各个相似度进行稀疏处理,得到第i个参考表征向量对应的相似度集合中的各个相似度的稀疏处理结果。
目标参数可以基于实际情况进行配置,本申请对此不作限制;例如,目标参数可以是人为配置的超参数。计算机设备采用目标参数对第i个参考表征向量对应的相似度集合中的各个相似度进行稀疏处理,得到第i个参考表征向量对应的相似度集合中的各个相似度的稀疏处理结果。通过目标参数对第i个参考表征向量与第j个参考表征向量之间的相似度稀疏处理可以表示为:
其中,α为目标参数(如人为配置的超参数),gij表示第i个参考表征向量与第j个参考表征向量之间的相似度,τ1为人为配置的超参数,为一个常量。
S305、对第i个参考表征向量对应的相似度集合中的各个相似度的稀疏处理结果进行归一化处理,得到第i个参考表征向量对应的权重集合。
第i个参考表征向量对应的权重集合中权重的数量为P个。计算机设备对第i个参考表征向量与第j个参考表征向量之间的相似度的稀疏处理结果,进行归一化处理,得到第j个参考表征向量的权重可以表示为:
其中,βij为对于第i个参考表征向量来说第j个参考表征向量的权重,ReLU为修正线性单元(Rectified Linear Unit),用于对第i个参考表征向量与第j个参考表征向量之间的相似度的稀疏处理的处理结果进行归一化处理。
S306、按照第i个参考表征向量对应的权重集合对第一实体的M个参考表征向量进行加权求和处理,得到第一实体更新后的第i个参考表征向量。
在一种实施方式中,第i个参考表征向量对应的权重集合包括M个权重,M个权重与第一实体对应的M个参考表征向量一一对应。计算机设备将第一实体对应的M个参考表征向量与第i个参考表征向量对应的M个权重对应相乘,得到第一实体对应的M个参考表征向量的加权结果;并对第一实体对应的M个参考表征向量的加权结果进行累加,得到第一实体更新后的第i个参考表征向量。具体可以表示为:
其中,zi为第一实体更新后的第i个参考表征向量;P为第一实体包含的字符的数量;βij为对于第i个参考表征向量来说第j个参考表征向量的权重,Sj为更新前的第j个参考表征向量。
计算机设备按照步骤S303-步骤S306中的实施方式,可以得到N个实体中每个实体更新后的参考表征向量,并在得到N个实体中每个实体更新后的参考表征向量后,继续执行步骤S307。
S307、根据每个实体更新后的参考表征向量,确定每个实体的实体表征向量。
在一种实施方式中,N个实体中的任一个实体表示为第一实体,第一实体具备M个参考表征向量,M=1。计算机设备将第一实体更新后的参考表征向量,确定为第一实体的实体表征向量。
在一种实施方式中,N个实体中的任一个实体表示为第一实体,第一实体具备M个参考表征向量,M为大于1的整数。计算机设备对第一实体更新后的参考表征向量进行聚合处理,得到第一实体的实体表征向量。具体来说,计算机设备将每个实体更新后的参考表征向量相加后求平均值,得到每个实体的实体表征向量。计算机设备对第一实体的M个更新后的参考表征向量进行聚合处理,得到第一实体的实体表征向量可以表示为:
Zfinal_entity_1=Average(z1+…+zM)
其中,Zfinal_entity_1为第一实体的实体表征向量,Average()为均值函数,用于计算z1+…+zM的平均值,z1至zM为第一实体的M个更新后的参考表征向量。
S308、对N个实体的实体表征向量进行分析,确定N个实体在篇章级文本中的关联关系。
在一种实施方式中,N个实体中的任意两个实体表示为第一实体和第二实体;计算机设备对第一实体的实体表征向量和第二实体的实体表征向量进行拼接处理,得到拼接向量。具体可以表示为:
Z=concat(Zfinal_entity_1,Zfinal_entity_2)
其中,Z为拼接向量,Zfinal_entity_1为第一实体的实体表征向量,Zfinal_entity_2为第二实体的实体表征向量,concat()为拼接函数。
在得到拼接向量后,计算机设备获取第二参数矩阵和第二参数向量,并基于第二参数矩阵和第二参数向量对拼接向量进行整合处理(如通过全连接层对拼接向量进行处理),得到整合后的拼接向量;其中,第二参数矩阵和第二参数向量可以是采用训练数据对图1b所示的文本处理模型进行训练得到的。计算机设备对整合后的拼接向量进行分类处理(如通过softmax函数对整合后的拼接向量进行分类处理),得到第一实体和第二实体之间关系的概率分布,具体可以表示为:
Prob=Softmax(WZ+b)
其中,Prob为第一实体和第二实体之间关系的概率分布,W为第二参数矩阵,b为第二参数向量,Z为第一实体的实体表征向量和第二实体的实体表征向量的拼接向量。
在得到第一实体和第二实体之间关系的概率分布之后,计算机设备根据第一实体和第二实体之间关系的概率分布,与标注关系对应的概率之间的损失值,确定第一实体和第二实体在篇章级文本中的关联关系。其中,标注关系对应的概率的损失值可以表示为:
Loss=-logProbtarget
其中,Loss为标注关系对应的概率的损失值,Probtarget为标注关系的概率。
举例来说,假设第一实体和第二实体之间关系的概率分布与关系1对应的概率之间的损失值为0.1,与关系2对应的概率之间的损失值为0.7,与关系3对应的概率之间的损失值为0.9,则计算机设备将关系1确定为第一实体和第二实体在篇章级文本中的关联关系。
进一步地,计算机设备基于第一实体和第二实体在篇章级文本中的关联关系,第一实体和第二实体,生成篇章级文本对应的三元组;三元组具体可以表示为:
(第一实体,第二实体,关联关系)
在得到篇章级文本对应的三元组后,计算机设备可以将篇章级文本对应的三元组,添加至目标知识图谱中。知识图谱是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的关联关系。
更进一步地,计算机设备可以获取待查询文本,并对待查询文本进行解析,得到待查询文本对应的关键元素,关键元素包含两个实体,或者包含一个实体和一个关联关系;例如,假设待查询文本为“猴子喜欢什么?”,则关键元素包含实体“猴子”和关联关系“喜欢”;又例如,待查询文本为“对象1和对象2之间的关系是?”,则关键元素包含实体1“对象1”和实体2“对象2”。计算机设备在得到待查询文本对应的关键元素后,在目标知识图谱中查询与待查询文本对应的关键元素匹配的目标三元组,基于目标三元组,生成待查询文本的解答信息。例如,假设待查询文本对应关键元素表示为(猴子,?,喜欢),目标知识图谱中与其匹配的三元组为(猴子,香蕉,喜欢),则计算机设备基于“香蕉”生成待查询文本的解答信息:“猴子喜欢香蕉”。
需要说明的是,知识图谱除了应用在搜索(问答)领域外,还可以应用在推荐领域、人工智能对话领域等,本申请不作限制。举例来说,在推荐领域,可以将知识图谱与推荐模型结合,得到更具针对性(更准确)的推荐结果。
本申请实施例中,获取篇章级文本,篇章级文本由至少两个句子组成,且篇章级文本中包括N个实体,获取N个实体中每个实体的参考表征向量,一个实体具备至少一个参考表征向量,基于注意力机制对每个实体的参考表征向量进行特征交互处理,得到每个实体更新后的参考表征向量,对每个实体更新后的参考表征向量进行聚合处理,得到每个实体的实体表征向量,对N个实体的实体表征向量进行分析,确定N个实体在篇章级文本中的关联关系。可见,基于注意力机制对每个实体的参考表征向量进行特征交互处理,可以对每个实体的参考表征向量进行修正,进而提高抽取的实体间的关联关系的准确度。此外,通过抽取的实体间的关联关系可以丰富知识图谱,并将知识图谱广泛应用在各个领域。
上述详细阐述了本申请实施例的方法,为了便于更好地实施本申请实施例的上述方案,相应地,下面提供了本申请实施例的装置。
请参见图4,图4为本申请实施例提供的一种文本处理装置的结构示意图,图4所示的文本处理装置可以搭载在计算机设备中,该计算机设备具体可以是终端设备或者服务器。该文本处理装置可以用于执行上述图2和图3所描述的方法实施例中的部分或全部功能。请参见图4,该文本处理装置包括:
获取单元401,用于获取篇章级文本,篇章级文本由至少两个句子组成,且篇章级文本中包括N个实体,N为大于1的整数;
以及用于获取N个实体中每个实体的参考表征向量,一个实体具备至少一个参考表征向量;
处理单元,用于基于注意力机制对每个实体的参考表征向量进行特征交互处理,得到每个实体更新后的参考表征向量;
以及用于对每个实体更新后的参考表征向量进行聚合处理,得到每个实体的实体表征向量;
以及用于对N个实体的实体表征向量进行分析,确定N个实体在篇章级文本中的关联关系。
在一种实施方式中,N个实体中的任一个实体表示为第一实体,第一实体具备M个参考表征向量,第一实体的M个参考表征向量中的任一个表示为第一实体的第i个参考表征向量;i、M均为正整数,且i小于等于M;
处理单元402用于,基于注意力机制对每个实体的参考表征向量进行特征交互处理,得到每个实体更新后的参考表征向量,具体用于:
获取第一实体的第i个参考表征向量分别与第一实体的M个参考表征向量中的各个参考表征向量之间的相似度,得到第i个参考表征向量对应的相似度集合;
获取目标参数,并采用目标参数对第i个参考表征向量对应的相似度集合中的各个相似度进行稀疏处理,得到第i个参考表征向量对应的相似度集合中的各个相似度的稀疏处理结果;
对第i个参考表征向量对应的相似度集合中的各个相似度的稀疏处理结果进行归一化处理,得到第i个参考表征向量对应的权重集合;
按照第i个参考表征向量对应的权重集合对第一实体的M个参考表征向量进行加权求和处理,得到第一实体更新后的第i个参考表征向量。
在一种实施方式中,第一实体的M个参考表征向量中的任一个表示为第一实体的第j个参考表征向量;j为正整数,且j小于等于M;
处理单元402用于,获取第一实体的第i个参考表征向量分别与第一实体的M个参考表征向量中的各个参考表征向量之间的相似度,得到第i个参考表征向量对应的相似度集合,具体用于:
获取第一参数矩阵和第一参数向量;
通过第一参数矩阵对第一实体的第i个参考表征向量和第一实体的第j个参考表征向量进行融合计算,得到融合结果;
对融合结果进行激活处理,并通过激活后的融合结果与第一参数向量计算第i个参考表征向量与第j个参考表征向量之间的相似度;
将述第i个参考表征向量与第j个参考表征向量之间的相似度添加至第i个参考表征向量对应的相似度集合中,得到第i个参考表征向量对应的相似度集合。
在一种实施方式中,第i个参考表征向量对应的权重集合包括M个权重,M个权重与第一实体对应的M个参考表征向量一一对应;
处理单元402用于,按照第i个参考表征向量对应的权重集合对第一实体的M个参考表征向量进行加权求和处理,得到第一实体更新后的第i个参考表征向量,具体用于:
将第一实体对应的M个参考表征向量与第i个参考表征向量对应的M个权重对应相乘,得到第一实体对应的M个参考表征向量的加权结果;
对第一实体对应的M个参考表征向量的加权结果进行累加,得到第一实体更新后的第i个参考表征向量。
在一种实施方式中,处理单元402用于,获取N个实体中每个实体的参考表征向量,具体用于:
对篇章级文本进行拆分处理,得到篇章级文本对应的字符序列;
对字符序列进行特征转换处理,得到字符序列对应的表征序列;
基于每个实体包含的字符的表征序列,确定每个实体对应的参考表征向量。
在一种实施方式中,N个实体中的任一个实体表示为第一实体,第一实体在篇章级文本中的出现次数为M,M为正整数;处理单元402用于,基于每个实体包含的字符的表征序列,确定每个实体对应的参考表征向量,具体用于:
获取第一实体第i次出现在篇章级文本中时所对应的P个字符的表征,i为小于等于M的正整数,P为正整数;
通过预设参数向量和P个字符的表征,计算P个字符中每个字符的表征对应的相似度;
对P个字符中每个字符的表征对应的相似度进行分类处理,得到P个字符中每个字符的表征对应的权重;
基于P个字符中每个字符的表征对应的权重,对P个字符的表征进行加权求和处理,得到第一实体对应的第i个参考表征向量。
在一种实施方式中,N个实体中的任一个实体表示为第一实体,第一实体具备M个参考表征向量,M为正整数;处理单元402用于,根据每个实体更新后的参考表征向量,确定每个实体的实体表征向量,具体用于:
若M=1,则将第一实体更新后的参考表征向量,确定为第一实体的实体表征向量;
若M>1,则对第一实体更新后的M个参考表征向量进行聚合处理,得到第一实体的实体表征向量。
在一种实施方式中,处理单元402用于,对第一实体更新后的M个参考表征向量进行聚合处理,得到第一实体的实体表征向量,具体用于:
对第一实体对应的M个参考表征向量进行求和平均处理,得到第一实体的实体表征向量。
在一种实施方式中,N个实体中的任意两个实体表示为第一实体和第二实体;处理单元402用于对N个实体的实体表征向量进行分析,确定N个实体在篇章级文本中的关联关系,具体用于:
对第一实体的实体表征向量和第二实体的实体表征向量进行拼接处理,得到拼接向量;
获取第二参数矩阵和第二参数向量,并基于第二参数矩阵和第二参数向量对拼接向量进行整合处理,得到整合后的拼接向量;
对整合后的拼接向量进行分类处理,得到第一实体和第二实体之间关系的概率分布;
根据第一实体和第二实体之间关系的概率分布,确定第一实体和第二实体在篇章级文本中的关联关系。
在一种实施方式中,N个实体中的任意两个实体表示为第一实体和第二实体;处理单元402还用于:
基于第一实体和第二实体在篇章级文本中的关联关系,第一实体和第二实体,生成篇章级文本对应的三元组;以及,
将篇章级文本对应的三元组,添加至目标知识图谱中。
在一种实施方式中,处理单元402还用于:
获取待查询文本;
对待查询文本进行解析,得到待查询文本对应的关键元素,关键元素包含两个实体,或者包含一个实体和一个关联关系;
在目标知识图谱中查询与待查询文本对应的关键元素匹配的目标三元组;
基于目标三元组,生成待查询文本的解答信息。
根据本申请的一个实施例,图2和图3所示的文本处理方法所涉及的部分步骤可由图4所示的文本处理装置中的各个单元来执行。例如,图2中所示的步骤S201和步骤S202可由图4所示的获取单元401执行,图2中所示的步骤S203-步骤S205可由图4所示的处理单元402执行;图3中所示的步骤S301-步骤S303可由图4所示的获取单元401执行,步骤S305-步骤S308可由图4所示的处理单元402执行,步骤S304可由图4所示的获取单元401和处理单元402联合执行。图4所示的文本处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,文本处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机设备的通用计算装置上运行能够执行如图2和图3中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图4中所示的文本处理装置,以及来实现本申请实施例的文本处理方法。计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算装置中,并在其中运行。
基于同一发明构思,本申请实施例中提供的文本处理装置解决问题的原理与有益效果与本申请方法实施例中文本处理方法解决问题的原理和有益效果相似,可以参见方法的实施的原理和有益效果,为简洁描述,在这里不再赘述。
请参阅图5,图5为本申请实施例提供的一种计算机设备的结构示意图,该计算机设备可以是终端设备或者服务器。如图5所示,计算机设备至少包括处理器501、通信接口502和存储器503。其中,处理器501、通信接口502和存储器503可通过总线或其他方式连接。其中,处理器501(或称中央处理器(CentralProcessing Unit,CPU))是计算机设备的计算核心以及控制核心,其可以解析计算机设备内的各类指令以及处理计算机设备的各类数据,例如:CPU可以用于解析对象向计算机设备所发出的开关机指令,并控制计算机设备进行开关机操作;再如:CPU可以在计算机设备内部结构之间传输各类交互数据,等等。通信接口502可选的可以包括标准的有线接口、无线接口(如WI-FI、移动通信接口等),受处理器501的控制可以用于收发数据;通信接口502还可以用于计算机设备内部数据的传输以及交互。存储器503(Memory)是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的存储器503既可以包括计算机设备的内置存储器,当然也可以包括计算机设备所支持的扩展存储器。存储器503提供存储空间,该存储空间存储了计算机设备的操作系统,可包括但不限于:安卓(Android)系统、互联网操作系统(InternetworkingOperatingSystem,IOS)等等,本申请对此并不作限定。
本申请实施例还提供了一种计算机可读存储介质(Memory),计算机可读存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了计算机设备的处理系统。并且,在该存储空间中还存放了适于被处理器501加载并执行的计算机程序。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器;可选的,还可以是至少一个位于远离前述处理器的计算机可读存储介质。
在一个实施例中,处理器501通过运行存储器503中的计算机程序,执行如下操作:
获取篇章级文本,篇章级文本由至少两个句子组成,且篇章级文本中包括N个实体,N为大于1的整数;
获取N个实体中每个实体的参考表征向量,一个实体具备至少一个参考表征向量;
基于注意力机制对每个实体的参考表征向量进行特征交互处理,得到每个实体更新后的参考表征向量;
对每个实体更新后的参考表征向量进行聚合处理,得到每个实体的实体表征向量;
对N个实体的实体表征向量进行分析,确定N个实体在篇章级文本中的关联关系。
作为一种可选的实施例,N个实体中的任一个实体表示为第一实体,第一实体具备M个参考表征向量,第一实体的M个参考表征向量中的任一个表示为第一实体的第i个参考表征向量;i、M均为正整数,且i小于等于M;
处理器501基于注意力机制对每个实体的参考表征向量进行特征交互处理,得到每个实体更新后的参考表征向量的具体实施例为:
获取第一实体的第i个参考表征向量分别与第一实体的M个参考表征向量中的各个参考表征向量之间的相似度,得到第i个参考表征向量对应的相似度集合;
获取目标参数,并采用目标参数对第i个参考表征向量对应的相似度集合中的各个相似度进行稀疏处理,得到第i个参考表征向量对应的相似度集合中的各个相似度的稀疏处理结果;
对第i个参考表征向量对应的相似度集合中的各个相似度的稀疏处理结果进行归一化处理,得到第i个参考表征向量对应的权重集合;
按照第i个参考表征向量对应的权重集合对第一实体的M个参考表征向量进行加权求和处理,得到第一实体更新后的第i个参考表征向量。
作为一种可选的实施例,第一实体的M个参考表征向量中的任一个表示为第一实体的第j个参考表征向量;j为正整数,且j小于等于M;
处理器501获取第一实体的第i个参考表征向量分别与第一实体的M个参考表征向量中的各个参考表征向量之间的相似度,得到第i个参考表征向量对应的相似度集合的具体实施例为:
获取第一参数矩阵和第一参数向量;
通过第一参数矩阵对第一实体的第i个参考表征向量和第一实体的第j个参考表征向量进行融合计算,得到融合结果;
对融合结果进行激活处理,并通过激活后的融合结果与第一参数向量计算第i个参考表征向量与第j个参考表征向量之间的相似度;
将述第i个参考表征向量与第j个参考表征向量之间的相似度添加至第i个参考表征向量对应的相似度集合中,得到第i个参考表征向量对应的相似度集合。
作为一种可选的实施例,第i个参考表征向量对应的权重集合包括M个权重,M个权重与第一实体对应的M个参考表征向量一一对应;
处理器501按照第i个参考表征向量对应的权重集合对第一实体的M个参考表征向量进行加权求和处理,得到第一实体更新后的第i个参考表征向量的具体实施例为:
将第一实体对应的M个参考表征向量与第i个参考表征向量对应的M个权重对应相乘,得到第一实体对应的M个参考表征向量的加权结果;
对第一实体对应的M个参考表征向量的加权结果进行累加,得到第一实体更新后的第i个参考表征向量。
作为一种可选的实施例,处理器501获取N个实体中每个实体的参考表征向量的具体实施例为:
对篇章级文本进行拆分处理,得到篇章级文本对应的字符序列;
对字符序列进行特征转换处理,得到字符序列对应的表征序列;
基于每个实体包含的字符的表征序列,确定每个实体对应的参考表征向量。
作为一种可选的实施例,N个实体中的任一个实体表示为第一实体,第一实体在篇章级文本中的出现次数为M,M为正整数;处理器501基于每个实体包含的字符的表征序列,确定每个实体对应的参考表征向量的具体实施例为:
获取第一实体第i次出现在篇章级文本中时所对应的P个字符的表征,i为小于等于M的正整数,P为正整数;
通过预设参数向量和P个字符的表征,计算P个字符中每个字符的表征对应的相似度;
对P个字符中每个字符的表征对应的相似度进行分类处理,得到P个字符中每个字符的表征对应的权重;
基于P个字符中每个字符的表征对应的权重,对P个字符的表征进行加权求和处理,得到第一实体对应的第i个参考表征向量。
作为一种可选的实施例,N个实体中的任一个实体表示为第一实体,第一实体具备M个参考表征向量,M为正整数;处理器501根据每个实体更新后的参考表征向量,确定每个实体的实体表征向量的具体实施例为:
若M=1,则将第一实体更新后的参考表征向量,确定为第一实体的实体表征向量;
若M>1,则对第一实体更新后的M个参考表征向量进行聚合处理,得到第一实体的实体表征向量。
作为一种可选的实施例,处理器501对第一实体更新后的M个参考表征向量进行聚合处理,得到第一实体的实体表征向量具体实施例为:
对第一实体对应的M个参考表征向量进行求和平均处理,得到第一实体的实体表征向量。
作为一种可选的实施例,N个实体中的任意两个实体表示为第一实体和第二实体;处理器501对N个实体的实体表征向量进行分析,确定N个实体在篇章级文本中的关联关系的具体实施例为:
对第一实体的实体表征向量和第二实体的实体表征向量进行拼接处理,得到拼接向量;
获取第二参数矩阵和第二参数向量,并基于第二参数矩阵和第二参数向量对拼接向量进行整合处理,得到整合后的拼接向量;
对整合后的拼接向量进行分类处理,得到第一实体和第二实体之间关系的概率分布;
根据第一实体和第二实体之间关系的概率分布,确定第一实体和第二实体在篇章级文本中的关联关系。
作为一种可选的实施例,N个实体中的任意两个实体表示为第一实体和第二实体;处理器501通过运行存储器503中的计算机程序,还执行如下操作:
基于第一实体和第二实体在篇章级文本中的关联关系,第一实体和第二实体,生成篇章级文本对应的三元组;以及,
将篇章级文本对应的三元组,添加至目标知识图谱中。
作为一种可选的实施例,处理器501通过运行存储器503中的计算机程序,还执行如下操作:
获取待查询文本;
对待查询文本进行解析,得到待查询文本对应的关键元素,关键元素包含两个实体,或者包含一个实体和一个关联关系;
在目标知识图谱中查询与待查询文本对应的关键元素匹配的目标三元组;
基于目标三元组,生成待查询文本的解答信息。
基于同一发明构思,本申请实施例中提供的计算机设备解决问题的原理与有益效果与本申请方法实施例中文本处理方法解决问题的原理和有益效果相似,可以参见方法的实施的原理和有益效果,为简洁描述,在这里不再赘述。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序适于被处理器加载并执行上述方法实施例的文本处理方法。
本申请实施例还提供一种计算机程序产品,该计算机程序产品包括计算机程序,计算机程序适于被处理器加载并执行上述方法实施例的文本处理方法。
本申请实施例还提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的文本处理方法。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,可读存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
以上所揭露的仅为本申请一种较佳实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于申请所涵盖的范围。
Claims (15)
1.一种文本处理方法,其特征在于,所述方法包括:
获取篇章级文本,所述篇章级文本由至少两个句子组成,且所述篇章级文本中包括N个实体,N为大于1的整数;
获取所述N个实体中每个实体的参考表征向量,一个实体具备至少一个参考表征向量;
基于注意力机制对每个实体的参考表征向量进行特征交互处理,得到每个实体更新后的参考表征向量;
根据每个实体更新后的参考表征向量,确定每个实体的实体表征向量;
对所述N个实体的实体表征向量进行分析,确定所述N个实体在所述篇章级文本中的关联关系。
2.如权利要求1所述的方法,其特征在于,所述N个实体中的任一个实体表示为第一实体,所述第一实体具备M个参考表征向量,所述第一实体的M个参考表征向量中的任一个表示为所述第一实体的第i个参考表征向量;i、M均为正整数,且i小于等于M;
所述基于注意力机制对每个实体的参考表征向量进行特征交互处理,得到每个实体更新后的参考表征向量,包括:
获取所述第一实体的第i个参考表征向量分别与所述第一实体的M个参考表征向量中的各个参考表征向量之间的相似度,得到所述第i个参考表征向量对应的相似度集合;
获取目标参数,并采用所述目标参数对所述第i个参考表征向量对应的相似度集合中的各个相似度进行稀疏处理,得到所述第i个参考表征向量对应的相似度集合中的各个相似度的稀疏处理结果;
对所述第i个参考表征向量对应的相似度集合中的各个相似度的稀疏处理结果进行归一化处理,得到所述第i个参考表征向量对应的权重集合;
按照所述第i个参考表征向量对应的权重集合对所述第一实体的M个参考表征向量进行加权求和处理,得到所述第一实体更新后的第i个参考表征向量。
3.如权利要求2所述的方法,其特征在于,所述第一实体的M个参考表征向量中的任一个表示为所述第一实体的第j个参考表征向量;j为正整数,且j小于等于M;
所述获取所述第一实体的第i个参考表征向量分别与所述第一实体的M个参考表征向量中的各个参考表征向量之间的相似度,得到所述第i个参考表征向量对应的相似度集合,包括:
获取第一参数矩阵和第一参数向量;
通过所述第一参数矩阵对所述第一实体的第i个参考表征向量和所述第一实体的第j个参考表征向量进行融合计算,得到融合结果;
对所述融合结果进行激活处理,并通过激活后的融合结果与所述第一参数向量计算所述第i个参考表征向量与所述第j个参考表征向量之间的相似度;
将述第i个参考表征向量与所述第j个参考表征向量之间的相似度添加至所述第i个参考表征向量对应的相似度集合中,得到所述第i个参考表征向量对应的相似度集合。
4.如权利要求2所述的方法,其特征在于,所述第i个参考表征向量对应的权重集合包括M个权重,所述M个权重与所述第一实体对应的M个参考表征向量一一对应;
所述按照所述第i个参考表征向量对应的权重集合对所述第一实体的M个参考表征向量进行加权求和处理,得到所述第一实体更新后的第i个参考表征向量,包括:
将所述第一实体对应的M个参考表征向量与所述第i个参考表征向量对应的M个权重对应相乘,得到所述第一实体对应的M个参考表征向量的加权结果;
对所述第一实体对应的M个参考表征向量的加权结果进行累加,得到所述第一实体更新后的第i个参考表征向量。
5.如权利要求1所述的方法,其特征在于,所述获取所述N个实体中每个实体的参考表征向量,包括:
对所述篇章级文本进行拆分处理,得到所述篇章级文本对应的字符序列;
对所述字符序列进行特征转换处理,得到所述字符序列对应的表征序列;
基于每个实体包含的字符的表征序列,确定每个实体对应的参考表征向量。
6.如权利要求5所述的方法,其特征在于,所述N个实体中的任一个实体表示为第一实体,所述第一实体在所述篇章级文本中的出现次数为M,M为正整数;所述基于每个实体包含的字符的表征序列,确定每个实体对应的参考表征向量,包括:
获取所述第一实体第i次出现在所述篇章级文本中时所对应的P个字符的表征,i为小于等于M的正整数,P为正整数;
通过预设参数向量和所述P个字符的表征,计算所述P个字符中每个字符的表征对应的相似度;
对所述P个字符中每个字符的表征对应的相似度进行分类处理,得到所述P个字符中每个字符的表征对应的权重;
基于所述P个字符中每个字符的表征对应的权重,对所述P个字符的表征进行加权求和处理,得到所述第一实体对应的第i个参考表征向量。
7.如权利要求1所述的方法,其特征在于,所述N个实体中的任一个实体表示为第一实体,所述第一实体具备M个参考表征向量,M为正整数;所述根据每个实体更新后的参考表征向量,确定每个实体的实体表征向量,包括:
若M=1,则将所述第一实体更新后的参考表征向量,确定为所述第一实体的实体表征向量;
若M>1,则对所述第一实体更新后的M个参考表征向量进行聚合处理,得到所述第一实体的实体表征向量。
8.如权利要求7所述的方法,其特征在于,所述对所述第一实体更新后的M个参考表征向量进行聚合处理,得到所述第一实体的实体表征向量,包括:
对所述第一实体对应的M个参考表征向量进行求和平均处理,得到所述第一实体的实体表征向量。
9.如权利要求1所述的方法,其特征在于,所述N个实体中的任意两个实体表示为第一实体和第二实体;所述对所述N个实体的实体表征向量进行分析,确定所述N个实体在所述篇章级文本中的关联关系,包括:
对所述第一实体的实体表征向量和所述第二实体的实体表征向量进行拼接处理,得到拼接向量;
获取第二参数矩阵和第二参数向量,并基于所述第二参数矩阵和所述第二参数向量对所述拼接向量进行整合处理,得到整合后的拼接向量;
对整合后的拼接向量进行分类处理,得到所述第一实体和所述第二实体之间关系的概率分布;
根据所述第一实体和所述第二实体之间关系的概率分布,确定所述第一实体和所述第二实体在所述篇章级文本中的关联关系。
10.如权利要求1所述的方法,其特征在于,所述N个实体中的任意两个实体表示为第一实体和第二实体;所述方法还包括:
基于所述第一实体和所述第二实体在所述篇章级文本中的关联关系,所述第一实体和所述第二实体,生成所述篇章级文本对应的三元组;以及,
将所述篇章级文本对应的三元组,添加至目标知识图谱中。
11.如权利要求10所述的方法,其特征在于,所述方法还包括:
获取待查询文本;
对所述待查询文本进行解析,得到所述待查询文本对应的关键元素,所述关键元素包含两个实体,或者包含一个实体和一个关联关系;
在所述目标知识图谱中查询与所述待查询文本对应的关键元素匹配的目标三元组;
基于所述目标三元组,生成所述待查询文本的解答信息。
12.一种文本处理装置,其特征在于,所述文本处理装置包括:
获取单元,获取篇章级文本,所述篇章级文本由至少两个句子组成,且所述篇章级文本中包括N个实体,N为大于1的整数;
以及用于获取所述N个实体中每个实体的参考表征向量,一个实体具备至少一个参考表征向量;
处理单元,用于基于注意力机制对每个实体的参考表征向量进行特征交互处理,得到每个实体更新后的参考表征向量;
以及用于根据每个实体更新后的参考表征向量,确定每个实体的实体表征向量;
以及用于对所述N个实体的实体表征向量进行分析,确定所述N个实体在所述篇章级文本中的关联关系。
13.一种计算机设备,其特征在于,包括:存储器和处理器;
存储器,所述存储器中存储有计算机程序;
处理器,用于加载所述计算机程序实现如权利要求1-11任一项所述的文本处理方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于被处理器加载并执行如权利要求1-11任一项所述的文本处理方法。
15.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序适于被处理器加载并执行如权利要求1-11任一项所述的文本处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211507152.1A CN116976314A (zh) | 2022-11-25 | 2022-11-25 | 一种文本处理方法、装置、设备、存储介质及产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211507152.1A CN116976314A (zh) | 2022-11-25 | 2022-11-25 | 一种文本处理方法、装置、设备、存储介质及产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116976314A true CN116976314A (zh) | 2023-10-31 |
Family
ID=88470106
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211507152.1A Pending CN116976314A (zh) | 2022-11-25 | 2022-11-25 | 一种文本处理方法、装置、设备、存储介质及产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116976314A (zh) |
-
2022
- 2022-11-25 CN CN202211507152.1A patent/CN116976314A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111737476B (zh) | 文本处理方法、装置、计算机可读存储介质及电子设备 | |
CN116824278B (zh) | 图像内容分析方法、装置、设备和介质 | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN112257471A (zh) | 一种模型训练方法、装置、计算机设备及存储介质 | |
CN113761220A (zh) | 信息获取方法、装置、设备及存储介质 | |
CN114510570A (zh) | 基于小样本语料的意图分类方法、装置及计算机设备 | |
CN112100377A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
US20210004406A1 (en) | Method and apparatus for storing media files and for retrieving media files | |
CN114120166A (zh) | 视频问答方法、装置、电子设备及存储介质 | |
CN112307738A (zh) | 用于处理文本的方法和装置 | |
CN115906863B (zh) | 基于对比学习的情感分析方法、装置、设备以及存储介质 | |
CN114419514B (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN112559713B (zh) | 文本相关性判断方法及装置、模型、电子设备、可读介质 | |
CN112818688B (zh) | 文本处理方法、装置、设备及存储介质 | |
CN116976314A (zh) | 一种文本处理方法、装置、设备、存储介质及产品 | |
CN112417260B (zh) | 本地化推荐方法、装置及存储介质 | |
CN114510561A (zh) | 答案选择方法、装置、设备及存储介质 | |
CN112328751A (zh) | 用于处理文本的方法和装置 | |
CN117711001B (zh) | 图像处理方法、装置、设备和介质 | |
CN113254635B (zh) | 数据处理方法、装置及存储介质 | |
CN113656573B (zh) | 文本信息生成方法、装置、终端设备 | |
CN114328797B (zh) | 内容搜索方法、装置、电子设备、存储介质及程序产品 | |
CN116975616A (zh) | 一种数据处理方法、装置、设备、存储介质及产品 | |
CN112507126B (zh) | 一种基于循环神经网络的实体链接装置和方法 | |
CN112131883B (zh) | 语言模型训练方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |