CN114330312A - 标题文本处理方法、装置、存储介质和程序 - Google Patents

标题文本处理方法、装置、存储介质和程序 Download PDF

Info

Publication number
CN114330312A
CN114330312A CN202111293604.6A CN202111293604A CN114330312A CN 114330312 A CN114330312 A CN 114330312A CN 202111293604 A CN202111293604 A CN 202111293604A CN 114330312 A CN114330312 A CN 114330312A
Authority
CN
China
Prior art keywords
text
sentence
title
target
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111293604.6A
Other languages
English (en)
Other versions
CN114330312B (zh
Inventor
李卓聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111293604.6A priority Critical patent/CN114330312B/zh
Publication of CN114330312A publication Critical patent/CN114330312A/zh
Application granted granted Critical
Publication of CN114330312B publication Critical patent/CN114330312B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种标题文本处理方法、装置、存储介质和程序,涉及人工智能技术领域,可以应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景,包括:获取待处理标题文本;将预设知识图谱数据与待处理标题文本进行知识数据匹配,以从预设知识图谱数据中得到与待处理标题文本匹配的目标知识数据;基于目标知识数据对待处理标题文本进行句子树转换,得到待处理标题文本对应的标题句子树;对标题句子树进行特征映射处理,得到对应的句子树向量序列和掩码矩阵;调用目标编码模型基于掩码矩阵对句子树向量序列进行特征提取,得到待处理标题文本的目标标题向量。本申请能够有效提高标题文本向量表征的准确性和全面性,以提高在后续任务中的应用效果。

Description

标题文本处理方法、装置、存储介质和程序
技术领域
本申请涉及自然语言处理领域,尤其涉及一种标题文本处理方法、装置、存储介质和程序。
背景技术
随着人工智能技术的发展,标题文本的自然语言处理被广泛应用于信息推荐、舆论分析和信息检索等场景,利用文本处理模型通过对标题文本的语义理解和特征提取,能够实现相关信息的召回、分析和推荐,以满足各种场景需求。然而,由于缺乏对领域知识的理解,例如游戏领域知识等,目前的文本处理模型无法理解文本在相关知识领域内的语义,进而无法提取相应的特征,影响各类任务应用中的精准性。因此,需提供一种改进的标题文本处理方案,以解决上述问题。
发明内容
本申请提供了一种标题文本处理方法、装置、存储介质和程序,可以有效提高对标题文本语义理解的准确性。
一方面,本申请提供了一种标题文本处理方法,所述方法包括:
获取待处理标题文本;
将预设知识图谱数据与所述待处理标题文本进行知识数据匹配,以从所述预设知识图谱数据中得到与所述待处理标题文本匹配的目标知识数据;
基于所述目标知识数据对所述待处理标题文本进行句子树转换,得到所述待处理标题文本对应的标题句子树;
对所述标题句子树进行特征映射处理,得到对应的句子树向量序列和掩码矩阵;所述掩码矩阵表征所述标题句子树的字连接关系或分词连接关系;
调用目标编码模型基于所述掩码矩阵对所述句子树向量序列进行特征提取,得到所述待处理标题文本的目标标题向量;
其中,所述目标编码模型是以构建的正负样本文本对作为目标预训练模型的输入,并基于自监督对比学习方法对所述目标预训练模型进行正负样本文本分类的约束训练得到的。
另一方面提供了一种标题文本处理装置,所述装置包括:
标题文本获取模块:用于获取待处理标题文本;
数据匹配模块:用于将预设知识图谱数据与所述待处理标题文本进行知识数据匹配,以从所述预设知识图谱数据中得到与所述待处理标题文本匹配的目标知识数据;
句子树转换模块:用于基于所述目标知识数据对所述待处理标题文本进行句子树转换,得到所述待处理标题文本对应的标题句子树;
特征映射模块:用于对所述标题句子树进行特征映射处理,得到对应的句子树向量序列和掩码矩阵;所述掩码矩阵表征所述标题句子树的字连接关系或分词连接关系;
特征提取模块:用于调用目标编码模型基于所述掩码矩阵对所述句子树向量序列进行特征提取,得到所述待处理标题文本的目标标题向量;
其中,所述目标编码模型是以构建的正负样本文本对作为目标预训练模型的输入,并基于自监督对比学习方法对所述目标预训练模型进行正负样本文本分类的约束训练得到的。
另一方面提供了一种计算机设备,所述设备包括处理器和存储器,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的标题文本处理方法。
另一方面提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述的标题文本处理方法。
另一方面提供了一种服务器,所述服务器包括处理器和存储器,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的标题文本处理方法。
另一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令被处理器执行时实现如上述的标题文本处理方法。
本申请提供的标题文本处理方法、装置、设备、存储介质、服务器和计算机程序产品,具有如下技术效果:
本申请在获取待处理标题文本后,将预设知识图谱数据与待处理标题文本进行知识数据匹配,以从预设知识图谱数据中得到与待处理标题文本匹配的目标知识数据;基于目标知识数据对待处理标题文本进行句子树转换,得到待处理标题文本对应的标题句子树;然后对标题句子树进行特征映射处理,得到对应的句子树向量序列和掩码矩阵;进而调用目标编码模型基于掩码矩阵对句子树向量序列进行特征提取,得到待处理标题文本的目标标题向量;通过融入知识图谱信息,能够更好的理解标题文本在专属领域的内在含义,实现精准的标题内容理解,以提高目标标题向量所携带信息的准确性和全面性,进而提高其在后续任务中的应用效果。并且,目标编码模型是以构建的正负样本文本对作为目标预训练模型的输入,并基于自监督对比学习方法对目标预训练模型进行正负样本文本分类的约束训练得到的,能够有效提高模型语义表征的准确性,以及提高标题文本向量的区分度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的一种应用环境的示意图;
图2是本申请实施例提供的一种标题文本处理方法的流程示意图;
图3是本申请实施例提供的一个标题句子树的示意图;
图4是本申请实施例提供的一个目标语句的字向量、位置向量和分段向量的示意图;
图5是本申请实施例提供的一个掩码矩阵的示意图;
图6是本申请实施例提供一种目标预训练模型的训练方法的流程示意图;
图7是本申请实施例提供的一个目标预训练模型的训练示意图;
图8是本申请实施例提供的一种初始预训练模型的训练方法的流程示意图;
图9是本申请实施例提供的一个初始预训练模型的训练示意图;
图10是本申请实施例提供一种标题文本处理装置的框架示意图;
图11是本申请实施例提供的一种标题文本处理方法的电子设备的硬件结构框图;
图12是本申请实施例提供的一个区块链系统的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或子模块的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或子模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或子模块。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
向量:指一个同时具有大小和方向,且满足平行四边形法则的几何对象。
Embedding:嵌入,在低维稠密的连续向量空间中,将每个物品映射为实数域上的向量。其中,距离相近的向量对应的物品,具有相近的含义。
NLP:Nature Language Process,自然语言处理。
Bert:Bidirectional Encoder Representation from Transformers,基于变换器的双向编码器表示技术,是用于自然语言处理的预训练技术。
知识图谱:语义网络的知识库,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
近年来,随着人工智能技术研究和进步,人工智能技术在多个领域得到广泛应用,本申请实施例提供的方案涉及人工智能的机器学习/深度学习和自然语言处理等技术,具体通过如下实施例进行说明。
请参阅图1,图1是本申请实施例提供的一种应用环境的示意图,如图1所示,该应用环境可以至少包括服务器01和终端02。在实际应用中,终端01、服务器01以及终端02可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本申请实施例中,服务器01可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
具体的,云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。其中,人工智能云服务,一般也被称作是AIaaS(AI as a Service,中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。
具体地,上述涉及的服务器可以包括实体设备,可以具体包括有网络通信子模块、处理器和存储器等等,也可以包括运行于实体设备中的软体,可以具体包括有应用程序等。
本申请实施例中,终端02可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、智能语音交互设备、智能家电、智能可穿戴设备、车载终端设备等类型的实体设备,也可以包括运行于实体设备中的软体,例如应用程序等。
本申请实施例中,服务器01可以用于提供标题文本处理服务,以得到标题文本向量;还可以提供基于标题文本向量的后续任务应用服务,如基于标题文本向量的召回服务、文本分析服务和信息推荐服务等。具体的,服务器01还可以提供目标预训练模型的训练服务和/或初始预训练模型的训练服务,以及还可以提供训练数据、模型数据、知识图谱数据和存储数据的存储服务等。终端02可以用于获取待处理标题文本,并将待处理标题文本发送至服务器01,以使服务器01进行标题文本处理。
此外,可以理解的是,图1所示的仅仅是一种标题文本处理方法的应用环境,该应用环境可以包括更多或更少的节点,本申请在此不做限制。
本申请实施例涉及的应用环境,或应用环境中的终端02和服务器01等可以是由客户端、多个节点(接入网络中的任意形式的计算设备,如服务器、用户终端)通过网络通信的形式连接形成的分布式系统。分布式系统可以为区块链系统,该区块链系统可以提供标题文本处理服务和模型训练服务等,还可以为上述各服务提供数据存储功能,例如存储模型配置数据、模型参数数据、知识图谱数据、以及标题文本处理过程中的行为数据和处理结果等。
参见图12,图12是本发明实施例提供的分布式系统100应用于区块链系统的一个可选的结构示意图,由多个节点(接入网络中的任意形式的计算设备,如服务器、用户终端)和客户端形成,节点之间形成组成的点对点(P2P,Peer To Peer)网络,P2P协议是一个运行在传输控制协议(TCP,Transmission Control Protocol)协议之上的应用层协议。在分布式系统中,任何机器如服务器、终端都可以加入而成为节点,节点包括硬件层、中间层、操作系统层和应用层。
其中,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新兴应用模式,本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
以下基于上述应用环境介绍本申请的一种标题文本处理方法,应用于服务器端,本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。请参考图2,图2是本申请实施例提供的一种标题文本处理方法的流程示意图,本说明书提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,方法可以包括下述步骤。
S201:获取待处理标题文本。
本申请实施例中,待处理标题文本可以为终端基于人机交互界面接收并发送至服务器端的文本,也可以是服务器端预存文本的标题文本。具体的,待处理标题文本也可以是基于文本语义分析对预存文本进行关键词提取,得到的标题文本,或者可以是对图像数据进行语义理解和语义提取,得到的图像数据的标题文本。
S203:将预设知识图谱数据与待处理标题文本进行知识数据匹配,以从预设知识图谱数据中得到与待处理标题文本匹配的目标知识数据。
本申请实施例中,预设知识图谱数据包括预存的一种或多种知识领域的知识图谱对应的数据,例如可以包括游戏知识领域的知识图谱数据。具体的,知识图谱为表征实体之间关系的语义网络,将知识以三元组信息为单位进行存储,其三元组信息的结构可以为第一实体-实体关系-第二实体,也可以为第一实体-属性-属性值等,其中,“第一实体”为实体头,相应的,“第二实体”和“属性值”为实体尾。
可以理解的,标题文本可以属于不同的知识领域,相同的文本词在不同的知识领域中可以具有不同的含义或表征不同的对象,在缺乏对应知识领域知识的情况下,会导致语义理解错误或缺失,因此在一些应用场景中,通过引入知识图谱数据,能够提高语义理解的准确性和全面性,进而优化任务处理效果。
举例来说,游戏资讯推荐等应用场景中,涉及不同游戏内容、游戏人物和游戏物品等,通过相关日志数据和普适语料无法学习到游戏中的人物或物品间的关联关系和内容属性等,无法实现语义的准确理解。示例性的,标题“某某游戏老夫子:你打你的”和“貂蝉看到小乔穿上了纯白花嫁,直接逆风起舞,五连绝世!”属于游戏知识领域,其中,“某某游戏”为游戏名称,“貂蝉”和“小乔”其实是代表游戏中的人物角色,而在历史知识领域或普适领域中,“貂蝉”和“小乔”代表历史人物。本申请的技术方案通过引入预设的游戏知识图谱数据,例如引入“老夫子-所属游戏-某某游戏”和“老夫子-皮肤-圣诞老人”等三元组信息,能够提高语义理解准确性,实现信息的精准召回、分析和推荐等。
在实际应用中,目标知识数据为预设知识图谱数据中与待处理标题文本匹配的三元组信息,相应的,S203可以包括下述步骤。
S2031:将预设知识图谱数据中的三元组信息与待处理标题文本进行实体匹配。
S2033:将匹配到的目标三元组信息作为目标知识数据。
具体实施例中,可以基于分词粒度或字粒度,将三元组信息与待处理标题文本进行实体匹配,即将三元组信息中的实体词与待处理标题文本中的文本词进行匹配,在待处理标题文本中存在与实体词匹配的文本词的情况下,将匹配到的实体词对应的三元组信息作为目标三元组信息,即得到目标知识数据。
具体的,可以将三元组信息中的实体头,如前述的“第一实体词”或“实体”,与待处理文本中的文本词进行实体词的字段匹配,在字段匹配成功的情况下,即确定待处理文本中存在该实体词,进而确定该实体词为待处理标题文本中的交叉节点,将该实体词对应的三元组信息确定为目标三元组信息。例如,通过对前述的游戏知识图谱数据与标题文本“某某游戏老夫子:你打你的”进行匹配,可以匹配到三元组信息“老夫子-所属游戏-某某游戏”和“老夫子-皮肤-圣诞老人”等。可以理解的,也可以利用实体尾进行匹配,或利用实体头和实体尾进行匹配,匹配方式与上述内容相类似,不再赘述。
S205:基于目标知识数据对待处理标题文本进行句子树转换,得到待处理标题文本对应的标题句子树。
本申请实施例中,三元组信息包括第一实体词、实体关系和第二实体词,或者,三元组信息包括第一实体词、属性和属性值,相应的,S205可以包括下述步骤。
S2051:基于目标三元组信息中实体关系和第二实体词,或基于目标三元组信息中属性和属性值,生成对应的分支语句。
S2053:根据第一实体词确定分支语句在待处理标题文本中的分支位置。
S2055:以待处理标题文本为主干语句,基于分支位置将分支语句和待处理标题文本转换为标题句子树。
具体的,提取目标三元组信息中的实体关系和第二实体词,或者属性和属性值,基于其在三元组信息中的位序生成对应的分支语句,将待处理标题文本中与第一实体词匹配的文本词作为分支语句对应的分支位置,该分支位置即为标题句子树中的交叉节点;然后,以待处理标题文本为主干,将分支语句接枝于对应的分支位置,以将分支语句嵌入待处理标题文本中,在主干语句上构建分支,形成标题句子树。具体的,可以将分支语句接枝于匹配的文本词后,将匹配的文本词的最后一个字作为交叉节点。
示例性的,“老夫子-所属游戏-某某游戏”对应的分支语句为“所属游戏某某游戏”,“老夫子-皮肤-圣诞老人”对应的分支语句为“皮肤圣诞老人”;针对标题文本“某某游戏老夫子:你打你的”,可以将“所属游戏某某游戏”和“皮肤圣诞老人”接枝在“老夫子”之后,请参考图3,图3示出了一个标题句子树的示意图,图中的“子”为交叉节点。
S207:对标题句子树进行特征映射处理,得到对应的句子树向量序列和掩码矩阵。
本申请实施例中,掩码矩阵表征标题句子树的字连接关系或分词连接关系,即字或分词间的相互可见性。在实际应用中,S207可以包括下述步骤。
S2071:将标题句子树中的分支语句嵌入对应的交叉节点后,得到标题句子树对应的目标语句。
具体的,交叉节点为实体词或匹配的文本词的最后一个字,将分支语句整合在对应的交叉节点后,即将分支语句置于主干上待处理标题文本中相应的实体词后,以将树结构的标题句子树转化为语句结构,示例性的,可以将图3中的句子树转化为目标语句“王者荣耀老夫子皮肤圣诞老人:你打你的”。具体的,在生成目标语句的同时,还基于标题句子树的树结构对目标语句中的字或分词进行位置标记,以生成每个字或分词的位置信息,来表征句子树的树结构信息。其中,位置信息可以是位置标识,如位置编码等。示例性的,按从左到右的顺序,“王者荣耀老夫子皮肤圣诞老人:你打你的”中,各个字的位置编码为“1/2/3/4/5/6/7/8/9/10/11/12/13/8/9/10/11/12”,即能够表明“皮肤圣诞老人”为分支,“王者荣耀老夫子:你打你的”为主干。
S2073:对目标语句进行特征嵌入处理,得到标题句子树对应的句子树向量序列。
具体的,可以基于字粒度或词粒度对目标语句进行特征嵌入处理。在基于字粒度的情况下,对目标语句中的每个字进行字嵌入处理,即对每个字进行向量化表示,例如对每个字进行0ne-hot编码,得到目标语句的字向量;基于标题句子树的树结构,对目标语句的每个字进行软位置嵌入处理,即对每个字的位置信息进行向量化表示,得到目标语句的位置向量;以及可以对目标语句进行分段嵌入处理,即对目标语句中每个字所属的分句信息进行向量化表示,得到目标语句的分段向量(segment向量)。请参考图4,图4示出了对“王者荣耀老夫子皮肤圣诞老人:你打你的”进行特征嵌入处理后得到的各向量。
具体的,在得到字向量、位置向量和分段向量后,可以对其进行拼接处理,例如相加处理,得到句子树向量序列。示例性的,可以将字向量[x11,x12,x13],位置向量[x21,x22,x23]和分段向量[A,A,A]相加,得到向量序列[x11+x21+A,x12+x22+A,x13+x23+A]。
具体的,在基于词粒度的情况下,在步骤S2073之前,还需要对目标语句进行分词处理,进而对每个分词进行词嵌入处理、位置嵌入处理和分段嵌入处理,得到相应的词嵌入向量、位置嵌入向量和分段嵌入向量,具体实施方式与前述字粒度相类似,在此不再赘述。
具体的,可以利用预设的目标嵌入网络执行步骤S2073,目标嵌入网络可以包括字嵌入层(或词嵌入层)、位置嵌入层和分段嵌入层。在一些情况下,本申请可以不对目标语句进行分段嵌入处理,进而目标嵌入网络可以不设置分段嵌入层,进而无需进行该网络层相关的训练数据处理和训练操作。
S2075:基于标题句子树的树结构对目标语句进行掩码处理,得到标题句子树对应的掩码矩阵。
具体的,基于标题句子树的树结构信息对目标词句进行掩码处理,根据前述的每个字或分词的位置信息,如位置编码,对主干语句和分支语句进行掩码(Mask)处理,得到对应的掩码矩阵在字粒度的情况下,掩码矩阵表征主干语句和分支语句中各个字间的连接关系,表征各个字之间的相互可见性;在词粒度的情况下,掩码矩阵表征主干语句和分支语句中各个分词间的连接关系,表征各个分词之间的相互可见性。该掩码矩阵表征标题句子树中,主干语句中的各个字或分词之间是相互可见的,分支语句中各个字或分词之间是相互可见的,不同分支语句间是不可见的,交叉节点上的字/分词,与主干语句上的字/分词和对应分支语句上的字/分词是相互可见的。需要说明的是,在字粒度的情况下,交叉节点也可以为标题文本中与实体词匹配的文本词,若匹配为完全匹配,则交叉节点为标题文本中的实体词。具体的,可以利用预设的目标可见网络执行步骤S2075。
示例性的,请参考图5,图5示出了目标语句“王者荣耀老夫子皮肤圣诞老人:你打你的”的掩码矩阵,其中,实心点表征可见,连接关系是1,表示连接,空心点表征不可见,连接关系是0,表示不连接。也就是说,“老夫子皮肤圣诞老人”中各个字是相互可见的,主干语句“王者荣耀老夫子:你打你的”中各个字也是相互可见的,交叉节点为实体词“老夫子”,而分支语句“皮肤圣诞老人”与主干语句中除“老夫子”外的其它字都是相互不可见的。
S209:调用目标编码模型基于掩码矩阵对句子树向量序列进行特征提取,得到待处理标题文本的目标标题向量。
本申请实施例中,目标编码模型是以构建的正负样本文本对作为目标预训练模型的输入,并基于自监督对比学习方法对目标预训练模型进行正负样本文本分类的约束训练得到的。具体的,基于对比学习,通过与正负样本的对比,拉近正样本的距离,推开负样本的距离,实现样本的表征具有良好的区分度。
具体的,将前述得到的句子树向量序列和掩码矩阵输入目标编码模型,以进行特征提取,得到目标标题向量。该目标向量序列可以用于后续的任务处理,举例来说,可以作为召回层和排序层中模型的底层特征,如物品向量,以进行相似物品或信息的召回等,进而实现召回、分析、排序和信息推荐等应用。具体的,目标预训练模型可以包括但不限于与bert模型等。
在实际应用中,S209可以包括:利用目标编码模型对句子树向量序列进行权重矩阵转换,得到句子树向量序列对应的中间向量;并基于掩码矩阵对中间向量进行自注意力处理,得到对应的目标标题向量。
具体的,利用目标编码模型引入Queries,Keys,Values三个权重矩阵对句子树向量序列中的各字向量或各分词向量进行权重矩阵转换,将各字向量或各分词向量分别与权重矩阵相乘得到对应的中间向量。具体的,基于注意力机制,如缩放的点积注意力机制或多头自注意力机制等,基于掩码矩阵携带的连接关系,对中间向量进行自注意力计算,得到目标语句中每个字或每个分词对应的自注意力值,以表征字或分词的注意力程度;进而基于自注意力值和中间向量得到目标标题向量,具体的可以基于自注意力值,将各个字或各个分词的中间向量相乘求和,得到该目标标题向量。
具体的,目标编码模型可以包括多层编码网络,如12层等。在一个实施例中,目标编码模型中的编码网络为transfomer encdoer网络,其最后一层输出的CLS向量为目标标题向量。相应的,自注意力值的计算可以采用下述公式计算。
Figure BDA0003335595350000141
其中,Attention(Qi,Ki,Vi)表征字向量或分词向量的自注意力值,dk表征K的维度,M表征掩码矩阵,在掩码矩阵中,可见点的M取值为0,不可见点的M取值为负无穷。
基于上述部分或全部实施方式,本申请实施例中,在S209之前,还需进行目标预训练模型的训练步骤,以得到该目标编码模型,相应的,请参考图6,方法还可以包括下述步骤。
S301:获取多个样本文本。
S303:基于多个样本文本中的第一样本文本和至少一个第二样本文本构建正负样本文本对。其中,第一样本文本与第二样本文本为不同的文本,第一样本文本自身为第一样本文本的正样本,第二样本文本为第一样本文本的负样本。
S305:以正负样本文本对作为目标预训练模型的输入,基于预设的对比损失函数对目标预训练模型进行正负样本文本的分类训练,得到目标编码模型。
在实际应用中,可以获取样本训练集,样本训练集中包括多个样本文本。样本文本可以是如标题文本等的语句文本,也可以是段落或文章文本,可以包括多种知识领域的文本。在构建样本正负样本对的过程中,正样本对的构建方法可以为,从多个样本文本中抽取第一样本文本,将其自身作为对应的正样本,即将第一样本文本输入目标预训练模型两次;负样本对的构建方法可以为,从多个样本文本中随机抽取与第一样本文本不同的至少一个第二样本文本,将其作为对应的负样本,以形成负样本文本对。假设存在N各样本文本,则第一样本文本存在一个正样本和N-1个负样本。
进一步地,获取目标预训练模型,将由正样本和负样本构成的正负样本文本对输入目标预训练模型,其中,将第一样本文本输入目标预训练模型两次,得到不同的第一样本文本向量和第二样本文本向量,将第二样本文本输入目标预训练模型,得到第三样本文本向量,基于自监督对比学习方法,利用对比损失函数实现分类训练,在训练过程中,通过调整模型参数拉进第一样本文本向量与第二样本文本向量间的距离,推远第一样本文本向量/第二样本文本向量与第三样本文本向量间的距离,以使该模型生成的向量具有区分度。
在一个实施例中,目标预训练该模型可以为Bert模型,模型中设置有dropout层,基于不同次输入的同一样本文本,可以得到不一致的样本文本向量(CLS向量)。请参考图7,图7示出了一个目标预训练模型的训练示意图,句子A,句子A'和句子B通过输入层生成各自对应的token序列,token可以为词粒度或字粒度,进而将token序列输入bert模型中,通过嵌入处理得到字嵌入向量E或词嵌入向量E,以及通过编码处理得到预测字向量T或词向量T,进而输出句子A对应的向量A,句子A'对应的向量A',以及句子B对应的向量B,通过对比损失函数进行损失值计算,以调整模型参数,进而拉进向量A与向量A'间的距离,推远向量A'与向量B间的距离。可以理解的,句子A和句子A'对应第一样本文本,句子B对应第二样本文本,向量A、向量A'和向量B,分别对应第一样本文本向量,第二样本文本向量和第三样本文本向量。相应的,目标预训练模型的对比损失函数的表达式如下述公式二所示。
Figure BDA0003335595350000161
Figure BDA0003335595350000162
其中,hi表示样本文本xi输入目标预测模型后输出的向量,hj表示样本文本xj输入目标预测模型后输出的向量,τ为超参数,sim(hi,hj)表示向量hi和hj的相似度。
相应的,目标编码模型可以为目标预训练模型bert经过上述文本分类训练后得到的模型中的编码器,该编码器包括transfomer encdoer网络。
在实际应用中,还需对初始预训练模型进行预训练,以得到上述目标预训练模型,相应的,在S305之前,请参考图8,方法还可以包括下述步骤。
S401:获取预训练语料,预训练语料包括与待处理标题文本相关的文本语料。
S403:基于预训练语料对初始预训练模型进行句序预测和上下文预测的联合训练,得到初始预训练模型对应的目标预训练模型。
具体实施例中,预训练语料可以包括大量的文本语料,其中包括与待处理标题文本相关的文本语料,相关的文本语料可以为与待处理标题文本同一文本分类、同一知识领域或同一应用场景中的文本语料。例如,待处理标题文本为游戏资讯标题文本,相关的文本语料可以为游戏资讯文本语料。
进一步地,以预训练语料作为目标预训练模型的输入,对其进行句序预测和上下文预测的约束训练,得到目标预训练模型。
在实际应用中,在S403之前,方法还可以包括下述步骤。
S501:基于预训练语料构建正负句子对。正负句子对中的正句子对的句子顺序为正序,正负句子对中的负句子对的句子顺序为逆序。
S503:对预训练语料中的部分文本进行分词掩码处理,得到分词掩码文本。
具体的,在获取预训练语料后,通过保持文本中句子对的顺序以得到正句子对,通过调换句子对中句子的顺序以得到负句子对,进而实现正负句子对的构建。具体的,从预训练语料中抽取部分文本,分别对抽取到的部分文本进行分词处理,并对分词处理后得到的各个文本各自对应的训练文本分词序列进行分词掩码处理,得到分词掩码文本。其中,分词掩码处理可以为从训练文本分词序列中选取目标掩码词,将目标掩码词替换为预设掩码,如替换为Mask。具体的,可以从训练文本分词序列中选取预设比例的分词作为目标掩码词,预设比例可以例如为10%或15%等。基于词粒度对整个分词进行掩码处理,有利于初始预训练模型对文本语义的理解和特征提取能力,进而提高后续任务中的应用效果。
在一些实施例中,可以基于知识图谱数据进一步提高初始预训练模型的训练效果,相应的,S503可以包括下述步骤。
S5031:将预设知识图谱数据对应的实体词与预训练语料中的部分文本进行词匹配,得到词匹配结果。
S5033:基于词匹配结果对部分文本进行分词掩码处理,得到分词掩码文本。
具体的,在对预训练语料中的部分文本进行分词处理后,可以基于分词和预设知识图谱数据中的实体词进行匹配,在识别到与实体词匹配的分词的情况下,对部分或全部匹配的分词进行掩码处理,得到分词掩码文本。通过融入预设知识图谱数据中的知识,能够提高初始预训练模型对相应知识领域中的内容理解,进而提高训练和应用效果。
示例性的,针对文本“貂蝉看到小乔穿上了纯白花嫁,直接逆风起舞”,在进行词掩码处理后,可以得到分词掩码文本“[MASK][MASK]看到小乔穿上了纯白[MASK][MASK],直接逆风起舞”。相应的正句子对为“貂蝉看到小乔穿上了纯白花嫁/直接逆风起舞”,负句子对为“直接逆风起舞/貂蝉看到小乔穿上了纯白花嫁”。
相应的,S403可以包括:基于正负句子对对初始预训练模型进行句序预测训练,以及基于分词掩码文本对初始预训练模型进行上下文预测训练,得到初始预训练模型对应的目标预训练模型。
具体实施例中,以正负句子对作为初始预训练模型的输入,基于正负句子对对应的句子顺序信息为期望输出,即判断输入的句子对为正序还是逆序,对初始预训练模型进行句序预测的约束训练,以及,以分词掩码文本作为初始预训练模型的输入,基于对应的分词掩码处理前的文本为期望输出,对初始预训练模型进行上下文预测的约束训练,通过上述联合训练的方式得到目标预训练模型。
在一个实施例中,初始预训练该模型为Bert模型。请参考图9,图9示出了一个初始预训练模型的训练示意图,通过资讯语料进行初始训练模型的预训练,基于资讯语料得到掩码句子(分词掩码文本)和正负句子对,并通过输入层生成各自对应的token序列,token可以为词粒度或字粒度,进而将token序列输入bert模型中,通过嵌入处理得到字嵌入向量E或词嵌入向量E,以及通过编码处理得到预测字向量T或词向量T,进而进行掩码分词的分词预测,以实现上下文预测训练,以及句序预测训练。需要说明的是,输入的掩码句子A和掩码句子B可以为正句子对或负句子对。即可以分别输入分词掩码文本和正负句子对,以分别进行上下文预测和句序预测,也可以将通过掩码处理的正负句子对作为输入,该正负句子对中的句子为掩码句子,以同时输出上下文预测结果和句序预测结果。
综上,本申请的技术方案通过融入知识图谱信息,能够更好的理解标题文本在专属领域的内在含义,实现精准的标题内容理解,以提高目标标题向量所携带信息的准确性和全面性,进而提高其在后续任务中的应用效果。并且,目标编码模型是以构建的正负样本文本对作为目标预训练模型的输入,并基于自监督对比学习方法对目标预训练模型进行正负样本文本分类的约束训练得到的,能够有效提高模型语义表征的准确性,以及提高标题文本向量的区分度。
本申请实施例还提供了一种标题文本处理装置800,如图10所示,图10示出了本申请实施例提供的一种标题文本处理装置的结构示意图,装置可以包括下述模块。
标题文本获取模块10:用于获取待处理标题文本。
数据匹配模块20:用于将预设知识图谱数据与待处理标题文本进行知识数据匹配,以从预设知识图谱数据中得到与待处理标题文本匹配的目标知识数据。
句子树转换模块30:用于基于目标知识数据对待处理标题文本进行句子树转换,得到待处理标题文本对应的标题句子树。
特征映射模块40:用于对标题句子树进行特征映射处理,得到对应的句子树向量序列和掩码矩阵。掩码矩阵表征标题句子树的字连接关系或分词连接关系。
特征提取模块50:用于调用目标编码模型基于掩码矩阵对句子树向量序列进行特征提取,得到待处理标题文本的目标标题向量。
其中,目标编码模型是以构建的正负样本文本对作为目标预训练模型的输入,并基于自监督对比学习方法对目标预训练模型进行正负样本文本分类的约束训练得到的。
在一些实施例中,特征映射模块40包括下述单元。
语句整合单元:用于将标题句子树中的分支语句嵌入对应的交叉节点后,得到标题句子树对应的目标语句。
特征嵌入单元:用于对目标语句进行特征嵌入处理,得到标题句子树对应的句子树向量序列。
掩码单元:用于基于标题句子树的树结构对目标语句进行掩码处理,得到标题句子树对应的掩码矩阵。
在一些实施例中,目标编码模型特征提取模块50可以用于利用目标编码模型对句子树向量序列进行权重矩阵转换,得到句子树向量序列对应的中间向量;并基于掩码矩阵对中间向量进行自注意力处理,得到对应的目标标题向量。
在一些实施例中,装置还包括下述模块。
样本文本获取模块:用于在调用目标编码模型对句子树向量序列和掩码矩阵进行特征编码处理,得到待处理标题文本的目标标题向量之前,获取多个样本文本。
样本文本对构建模块:用于基于多个样本文本中的第一样本文本和至少一个第二样本文本构建正负样本文本对。其中,第一样本文本与第二样本文本为不同的文本,第一样本文本自身为第一样本文本的正样本,第二样本文本为第一样本文本的负样本。
分类训练模块:用于以正负样本文本对作为目标预训练模型的输入,基于预设的对比损失函数对目标预训练模型进行正负样本文本的分类训练,得到目标编码模型。
在一些实施例中,装置还包括下述模块。
语料获取模块:用于在以正负样本文本对作为目标预训练模型的输入,基于预设的对比损失函数对目标预训练模型进行正负样本文本的分类训练之前,获取预训练语料,预训练语料包括与待处理标题文本相关的文本语料。
联合训练模块:用于基于预训练语料对初始预训练模型进行句序预测和上下文预测的联合训练,得到初始预训练模型对应的目标预训练模型。
在一些实施例中,装置还包括下述模块。
正负句子对构建模块:用于在基于预训练语料对初始预训练模型进行句序预测和上下文预测的联合训练之前,基于预训练语料构建正负句子对。正负句子对中的正句子对的句子顺序为正序,正负句子对中的负句子对的句子顺序为逆序。
分词掩码处理模块:用于对预训练语料中的部分文本进行分词掩码处理,得到分词掩码文本。
相应的,联合训练模块用于基于正负句子对对初始预训练模型进行句序预测训练,以及基于分词掩码文本对初始预训练模型进行上下文预测训练,得到初始预训练模型对应的目标预训练模型。
在一些实施例中,分词掩码处理模块包括下述单元。
词匹配单元:用于将预设知识图谱数据对应的实体词与预训练语料中的部分文本进行词匹配,得到词匹配结果。
分词掩码处理单元:用于基于词匹配结果对部分文本进行分词掩码处理,得到分词掩码文本。
在一些实施例中,数据匹配模块20用于将预设知识图谱数据中的三元组信息与待处理标题文本进行实体匹配,以及用于将匹配到的目标三元组信息作为目标知识数据。
在一些实施例中,三元组信息包括第一实体词、实体关系和第二实体词,或者,三元组信息包括第一实体词、属性和属性值,相应的,句子树转换模块30包括下述单元。
分支语句生成单元:用于基于目标三元组信息中实体关系和第二实体词,或基于目标三元组信息中属性和属性值,生成对应的分支语句。
分支位置确定单元:用于根据第一实体词确定分支语句在待处理标题文本中的分支位置。
文本转换单元:用于以待处理标题文本为主干语句,基于分支位置将分支语句和待处理标题文本转换为标题句子树。
需要说明的是,上述装置实施例与方法实施例基于相同的实施方式。
本申请实施例提供了一种标题文本处理设备,该识别设备可以为终端或服务器,该标题文本处理设备包括处理器和存储器,该存储器中存储有至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的标题文本处理方法。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本申请实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置等电子设备中执行。图11是本申请实施例提供的一种标题文本处理方法的电子设备的硬件结构框图。如图11所示,该电子设备900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)910(处理器910可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器930,一个或一个以上存储应用程序923或数据922的存储介质920(例如一个或一个以上海量存储设备)。其中,存储器930和存储介质920可以是短暂存储或持久存储。存储在存储介质920的程序可以包括一个或一个以上模块,每个模块可以包括对电子设备中的一系列指令操作。更进一步地,中央处理器910可以设置为与存储介质920通信,在电子设备900上执行存储介质920中的一系列指令操作。电子设备900还可以包括一个或一个以上电源960,一个或一个以上有线或无线网络接口950,一个或一个以上输入输出接口940,和/或,一个或一个以上操作系统921,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口940可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备900的通信供应商提供的无线网络。在一个实例中,输入输出接口940包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口940可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图11所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,电子设备900还可包括比图11中所示更多或者更少的组件,或者具有与图11所示不同的配置。
本申请的实施例还提供了一种计算机可读存储介质,存储介质可设置于电子设备之中以保存用于实现方法实施例中一种标题文本处理方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的标题文本处理方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
由上述本申请提供的标题文本处理方法、装置、设备、服务器、终端存储介质和程序产品的实施例可见,本申请在获取待处理标题文本后,将预设知识图谱数据与待处理标题文本进行知识数据匹配,以从预设知识图谱数据中得到与待处理标题文本匹配的目标知识数据;基于目标知识数据对待处理标题文本进行句子树转换,得到待处理标题文本对应的标题句子树;然后对标题句子树进行特征映射处理,得到对应的句子树向量序列和掩码矩阵;进而调用目标编码模型基于掩码矩阵对句子树向量序列进行特征提取,得到待处理标题文本的目标标题向量;通过融入知识图谱信息,能够更好的理解标题文本在专属领域的内在含义,实现精准的标题内容理解,以提高目标标题向量所携带信息的准确性和全面性,进而提高其在后续任务中的应用效果。并且,目标编码模型是以构建的正负样本文本对作为目标预训练模型的输入,并基于自监督对比学习方法对目标预训练模型进行正负样本文本分类的约束训练得到的,能够有效提高模型语义表征的准确性,以及提高标题文本向量的区分度。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备和存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指示相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (12)

1.一种标题文本处理方法,其特征在于,所述方法包括:
获取待处理标题文本;
将预设知识图谱数据与所述待处理标题文本进行知识数据匹配,以从所述预设知识图谱数据中得到与所述待处理标题文本匹配的目标知识数据;
基于所述目标知识数据对所述待处理标题文本进行句子树转换,得到所述待处理标题文本对应的标题句子树;
对所述标题句子树进行特征映射处理,得到对应的句子树向量序列和掩码矩阵;所述掩码矩阵表征所述标题句子树的字连接关系或分词连接关系;
调用目标编码模型基于所述掩码矩阵对所述句子树向量序列进行特征提取,得到所述待处理标题文本的目标标题向量;
其中,所述目标编码模型是以构建的正负样本文本对作为目标预训练模型的输入,并基于自监督对比学习方法对所述目标预训练模型进行正负样本文本分类的约束训练得到的。
2.根据权利要求1所述的方法,其特征在于,所述对所述标题句子树进行特征映射处理,得到对应的句子树向量序列和掩码矩阵包括:
将所述标题句子树中的分支语句嵌入对应的交叉节点后,得到所述标题句子树对应的目标语句;
对所述目标语句进行特征嵌入处理,得到所述标题句子树对应的句子树向量序列;
基于所述标题句子树的树结构对所述目标词序列进行掩码处理,得到所述标题句子树对应的掩码矩阵。
3.根据权利要求1所述的方法,其特征在于,目标编码模型所述调用目标编码模型基于所述掩码矩阵对所述句子树向量序列进行特征提取,得到所述待处理标题文本的目标标题向量包括:
利用所述目标编码模型对所述句子树向量序列进行权重矩阵转换,得到所述句子树向量序列对应的中间向量;并基于所述掩码矩阵对所述中间向量进行自注意力处理,得到对应的目标标题向量。
4.根据权利要求1所述的方法,其特征在于,所述将预设知识图谱数据与所述待处理标题文本进行知识数据匹配,以从所述预设知识图谱数据中得到与所述待处理标题文本匹配的目标知识数据包括:
将所述预设知识图谱数据中的三元组信息与所述待处理标题文本进行实体匹配;
将匹配到的目标三元组信息作为所述目标知识数据。
5.根据权利要求1所述的方法,其特征在于,所述三元组信息包括第一实体词、实体关系和第二实体词,或者,所述三元组信息包括第一实体词、属性和属性值;所述基于所述目标知识数据对所述待处理标题文本进行句子树转换,得到所述待处理标题文本对应的标题句子树包括:
基于所述目标三元组信息中实体关系和第二实体词,或基于所述目标三元组信息中属性和属性值,生成对应的分支语句;
根据所述第一实体词确定所述分支语句在所述待处理标题文本中的分支位置;
以所述待处理标题文本为主干语句,基于所述分支位置将所述分支语句和所述待处理标题文本转换为所述标题句子树。
6.根据权利要求1-5中任一项所述的方法,其特征在于,在所述调用目标编码模型对所述句子树向量序列和所述掩码矩阵进行特征编码处理,得到所述待处理标题文本的目标标题向量之前,所述方法还包括:
获取多个样本文本;
基于所述多个样本文本中的第一样本文本和至少一个第二样本文本构建所述正负样本文本对;其中,所述第一样本文本与所述第二样本文本为不同的文本,所述第一样本文本自身为所述第一样本文本的正样本,所述第二样本文本为所述第一样本文本的负样本;
以所述正负样本文本对作为所述目标预训练模型的输入,基于预设的对比损失函数对所述目标预训练模型进行正负样本文本的分类训练,得到所述目标编码模型。
7.根据权利要求6所述的方法,其特征在于,在所述以所述正负样本文本对作为所述目标预训练模型的输入,基于预设的对比损失函数对所述目标预训练模型进行正负样本文本的分类训练之前,所述方法还包括:
获取预训练语料,所述预训练语料包括与所述待处理标题文本相关的文本语料;
基于所述预训练语料对初始预训练模型进行句序预测和上下文预测的联合训练,得到所述初始预训练模型对应的目标预训练模型。
8.根据权利要求7所述的方法,其特征在于,在所述基于所述预训练语料对初始预训练模型进行句序预测和上下文预测的联合训练之前,所述方法还包括:
基于所述预训练语料构建正负句子对;所述正负句子对中的正句子对的句子顺序为正序,所述正负句子对中的负句子对的句子顺序为逆序;
对所述预训练语料中的部分文本进行分词掩码处理,得到分词掩码文本;
所述基于所述预训练语料对初始预训练模型进行句序预测和上下文预测的联合训练,得到所述初始预训练模型对应的目标预训练模型包括:
基于所述正负句子对对所述初始预训练模型进行句序预测训练,以及基于所述分词掩码文本对所述初始预训练模型进行上下文预测训练,得到所述初始预训练模型对应的目标预训练模型。
9.根据权利要求8所述的方法,其特征在于,所述对所述预训练语料中的部分文本进行分词掩码处理,得到分词掩码文本包括:
将所述预设知识图谱数据对应的实体词与所述预训练语料中的部分文本进行词匹配,得到词匹配结果;
基于所述词匹配结果对所述部分文本进行分词掩码处理,得到分词掩码文本。
10.一种标题文本处理装置,其特征在于,所述装置包括:
标题文本获取模块:用于获取待处理标题文本;
数据匹配模块:用于将预设知识图谱数据与所述待处理标题文本进行知识数据匹配,以从所述预设知识图谱数据中得到与所述待处理标题文本匹配的目标知识数据;
句子树转换模块:用于基于所述目标知识数据对所述待处理标题文本进行句子树转换,得到所述待处理标题文本对应的标题句子树;
特征映射模块:用于对所述标题句子树进行特征映射处理,得到对应的句子树向量序列和掩码矩阵;所述掩码矩阵表征所述标题句子树的字连接关系或分词连接关系;
特征提取模块:用于调用目标编码模型基于所述掩码矩阵对所述句子树向量序列进行特征提取,得到所述待处理标题文本的目标标题向量;
其中,所述目标编码模型是以构建的正负样本文本对作为目标预训练模型的输入,并基于自监督对比学习方法对所述目标预训练模型进行正负样本文本分类的约束训练得到的。
11.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-9中任一项所述的标题文本处理方法。
12.一种计算机程序产品或计算机程序,其特征在于,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令被处理器执行时实现如权利要求1-9中任一项所述的标题文本处理方法。
CN202111293604.6A 2021-11-03 2021-11-03 标题文本处理方法、装置、存储介质和程序 Active CN114330312B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111293604.6A CN114330312B (zh) 2021-11-03 2021-11-03 标题文本处理方法、装置、存储介质和程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111293604.6A CN114330312B (zh) 2021-11-03 2021-11-03 标题文本处理方法、装置、存储介质和程序

Publications (2)

Publication Number Publication Date
CN114330312A true CN114330312A (zh) 2022-04-12
CN114330312B CN114330312B (zh) 2024-06-14

Family

ID=81044807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111293604.6A Active CN114330312B (zh) 2021-11-03 2021-11-03 标题文本处理方法、装置、存储介质和程序

Country Status (1)

Country Link
CN (1) CN114330312B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996451A (zh) * 2022-05-30 2022-09-02 中电金信软件有限公司 一种语义类别识别方法、装置、电子设备及可读存储介质
CN115357719A (zh) * 2022-10-20 2022-11-18 国网天津市电力公司培训中心 基于改进bert模型的电力审计文本分类方法及装置
CN115688742A (zh) * 2022-12-08 2023-02-03 宋杨 基于人工智能的用户数据分析方法及ai系统
CN116341502A (zh) * 2023-04-13 2023-06-27 石家庄伟航科技有限公司 基于数字工厂的产品数据检测方法及系统
CN116662579A (zh) * 2023-08-02 2023-08-29 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机及存储介质
CN116992862A (zh) * 2023-09-26 2023-11-03 中科航迈数控软件(深圳)有限公司 数控机床异常辅助处理方法、装置、设备及介质
CN117076596A (zh) * 2023-10-16 2023-11-17 微网优联科技(成都)有限公司 应用人工智能的数据存储方法、装置及服务器
CN117093661A (zh) * 2023-10-16 2023-11-21 腾讯科技(深圳)有限公司 地图数据的处理方法、装置、电子设备以及存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126507A (zh) * 2016-06-22 2016-11-16 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统
CN110532377A (zh) * 2019-05-13 2019-12-03 南京大学 一种基于对抗训练和对抗学习网络的半监督文本分类方法
CN111552821A (zh) * 2020-05-14 2020-08-18 北京华宇元典信息服务有限公司 法律意图搜索方法、法律意图搜索装置和电子设备
CN111563144A (zh) * 2020-02-25 2020-08-21 升智信息科技(南京)有限公司 基于语句前后关系预测的用户意图识别方法及装置
CN111767405A (zh) * 2020-07-30 2020-10-13 腾讯科技(深圳)有限公司 文本分类模型的训练方法、装置、设备及存储介质
CN111950269A (zh) * 2020-08-21 2020-11-17 清华大学 文本语句处理方法、装置、计算机设备和存储介质
CN112487202A (zh) * 2020-11-27 2021-03-12 厦门理工学院 融合知识图谱与bert的中文医学命名实体识别方法、装置
CN112507628A (zh) * 2021-02-03 2021-03-16 北京淇瑀信息科技有限公司 基于深度双向语言模型的风险预测方法、装置和电子设备
CN112699247A (zh) * 2020-12-23 2021-04-23 清华大学 一种基于多类交叉熵对比补全编码的知识表示学习框架
CN112906873A (zh) * 2021-03-26 2021-06-04 北京邮电大学 一种图神经网络训练方法、装置、电子设备及存储介质
CN113139053A (zh) * 2021-04-15 2021-07-20 广东工业大学 一种基于自监督对比学习的文本分类方法
CN113177113A (zh) * 2021-05-27 2021-07-27 中国平安人寿保险股份有限公司 任务型对话模型预训练方法、装置、设备及存储介质
AU2021103625A4 (en) * 2021-03-17 2021-08-19 Central South University Remote sensing image semantic segmentation method based on contrastive self-supervised learning
US20210319266A1 (en) * 2020-04-13 2021-10-14 Google Llc Systems and methods for contrastive learning of visual representations
CN113569001A (zh) * 2021-01-29 2021-10-29 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备及计算机可读存储介质

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126507A (zh) * 2016-06-22 2016-11-16 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统
CN110532377A (zh) * 2019-05-13 2019-12-03 南京大学 一种基于对抗训练和对抗学习网络的半监督文本分类方法
CN111563144A (zh) * 2020-02-25 2020-08-21 升智信息科技(南京)有限公司 基于语句前后关系预测的用户意图识别方法及装置
US20210319266A1 (en) * 2020-04-13 2021-10-14 Google Llc Systems and methods for contrastive learning of visual representations
CN111552821A (zh) * 2020-05-14 2020-08-18 北京华宇元典信息服务有限公司 法律意图搜索方法、法律意图搜索装置和电子设备
CN111767405A (zh) * 2020-07-30 2020-10-13 腾讯科技(深圳)有限公司 文本分类模型的训练方法、装置、设备及存储介质
CN111950269A (zh) * 2020-08-21 2020-11-17 清华大学 文本语句处理方法、装置、计算机设备和存储介质
CN112487202A (zh) * 2020-11-27 2021-03-12 厦门理工学院 融合知识图谱与bert的中文医学命名实体识别方法、装置
CN112699247A (zh) * 2020-12-23 2021-04-23 清华大学 一种基于多类交叉熵对比补全编码的知识表示学习框架
CN113569001A (zh) * 2021-01-29 2021-10-29 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备及计算机可读存储介质
CN112507628A (zh) * 2021-02-03 2021-03-16 北京淇瑀信息科技有限公司 基于深度双向语言模型的风险预测方法、装置和电子设备
AU2021103625A4 (en) * 2021-03-17 2021-08-19 Central South University Remote sensing image semantic segmentation method based on contrastive self-supervised learning
CN112906873A (zh) * 2021-03-26 2021-06-04 北京邮电大学 一种图神经网络训练方法、装置、电子设备及存储介质
CN113139053A (zh) * 2021-04-15 2021-07-20 广东工业大学 一种基于自监督对比学习的文本分类方法
CN113177113A (zh) * 2021-05-27 2021-07-27 中国平安人寿保险股份有限公司 任务型对话模型预训练方法、装置、设备及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
AI让世界更懂你: "【论文解读】NAACL 2021 对比自监督学习的上下文和一般句子表征", Retrieved from the Internet <URL:https://blog.csdn.net/qq_35082030/article/details/119869475> *
FRANCIS LANCELOT: "BERT meet Knowledge Graph", Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/270009212> *
MELIKA GOLESTANI POUR 等: "A New Sentence Ordering Method using BERT Pretrained Model", 2020 11TH INTERNATIONAL CONFERENCE ON INFORMATION AND KNOWLEDGE TECHNOLOGY (IKT), 23 December 2020 (2020-12-23), pages 132 - 138, XP033901107, DOI: 10.1109/IKT51791.2020.9345618 *
天道酬勤: "重新审视中文自然语言处理的预训练模型", Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/412852917> *
孙浩 等: "基于自监督对比学习的深度神经网络对抗鲁棒性提升", 信号处理, vol. 37, no. 6, 30 June 2021 (2021-06-30), pages 903 - 911 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996451A (zh) * 2022-05-30 2022-09-02 中电金信软件有限公司 一种语义类别识别方法、装置、电子设备及可读存储介质
CN115357719A (zh) * 2022-10-20 2022-11-18 国网天津市电力公司培训中心 基于改进bert模型的电力审计文本分类方法及装置
CN115688742A (zh) * 2022-12-08 2023-02-03 宋杨 基于人工智能的用户数据分析方法及ai系统
CN115688742B (zh) * 2022-12-08 2023-10-31 北京国联视讯信息技术股份有限公司 基于人工智能的用户数据分析方法及ai系统
CN116341502A (zh) * 2023-04-13 2023-06-27 石家庄伟航科技有限公司 基于数字工厂的产品数据检测方法及系统
CN116662579B (zh) * 2023-08-02 2024-01-26 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机及存储介质
CN116662579A (zh) * 2023-08-02 2023-08-29 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机及存储介质
CN116992862A (zh) * 2023-09-26 2023-11-03 中科航迈数控软件(深圳)有限公司 数控机床异常辅助处理方法、装置、设备及介质
CN116992862B (zh) * 2023-09-26 2024-02-20 中科航迈数控软件(深圳)有限公司 数控机床异常辅助处理方法、装置、设备及介质
CN117093661A (zh) * 2023-10-16 2023-11-21 腾讯科技(深圳)有限公司 地图数据的处理方法、装置、电子设备以及存储介质
CN117076596B (zh) * 2023-10-16 2023-12-26 微网优联科技(成都)有限公司 应用人工智能的数据存储方法、装置及服务器
CN117076596A (zh) * 2023-10-16 2023-11-17 微网优联科技(成都)有限公司 应用人工智能的数据存储方法、装置及服务器
CN117093661B (zh) * 2023-10-16 2024-03-15 腾讯科技(深圳)有限公司 地图数据的处理方法、装置、电子设备以及存储介质

Also Published As

Publication number Publication date
CN114330312B (zh) 2024-06-14

Similar Documents

Publication Publication Date Title
CN114330312B (zh) 标题文本处理方法、装置、存储介质和程序
CN113919344B (zh) 文本处理方法和装置
CN111553267B (zh) 图像处理方法、图像处理模型训练方法及设备
CN113590854B (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN111368219A (zh) 信息推荐方法、装置、计算机设备以及存储介质
CN116824278B (zh) 图像内容分析方法、装置、设备和介质
CN110597963A (zh) 表情问答库的构建方法、表情搜索方法、装置及存储介质
CN115565238B (zh) 换脸模型的训练方法、装置、设备、存储介质和程序产品
CN113435365B (zh) 人脸图像迁移方法及装置
CN113239249A (zh) 一种对象关联识别方法、装置和存储介质
CN113327279A (zh) 一种点云数据处理方法、装置、计算机设备及存储介质
CN113641797B (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN111324773A (zh) 一种背景音乐构建方法、装置、电子设备和存储介质
CN116524125A (zh) 一种元宇宙聚合方法及平台
CN114297338A (zh) 文本匹配方法、装置、存储介质和程序产品
CN116977463A (zh) 图像处理方法、装置、计算机设备、存储介质及产品
CN113312924A (zh) 一种基于nlp高精解析标签的风险规则分类方法及装置
CN114529785B (zh) 模型的训练方法、视频生成方法和装置、设备、介质
CN117711001B (zh) 图像处理方法、装置、设备和介质
CN113128526B (zh) 图像识别方法、装置、电子设备和计算机可读存储介质
CN111783734B (zh) 原版视频识别方法及装置
CN115204436A (zh) 检测业务指标异常原因的方法、装置、设备及介质
CN116206239A (zh) 视频特征提取网络训练方法、装置、电子设备及存储介质
CN115168609A (zh) 一种文本匹配方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant