CN118052221A - 文本处理方法、装置、设备、存储介质及产品 - Google Patents

文本处理方法、装置、设备、存储介质及产品 Download PDF

Info

Publication number
CN118052221A
CN118052221A CN202410454688.4A CN202410454688A CN118052221A CN 118052221 A CN118052221 A CN 118052221A CN 202410454688 A CN202410454688 A CN 202410454688A CN 118052221 A CN118052221 A CN 118052221A
Authority
CN
China
Prior art keywords
sentence
text
synonymous
sample
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410454688.4A
Other languages
English (en)
Inventor
吴焕钦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202410454688.4A priority Critical patent/CN118052221A/zh
Publication of CN118052221A publication Critical patent/CN118052221A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本申请公开一种文本处理方法、装置、设备、存储介质及产品,属于人工智能技术领域。上述方法可以获取目标文本,该目标文本包括第一语句和第二语句;对该目标文本进行同义表述提取处理,得到提取结果,该同义表述提取处理用于在第一语句和第二语句形成的语句对中搜索同义表述,同义表述包括由第一语句的第一文本单元和第二语句的第二文本单元形成的文本单元对,该第一文本单元和该第二文本单元的语义相似度满足预设相似度要求;在提取结果指示该语句对中存在同义表述的情况下,根据提取结果生成同义表述提示信息;基于同义表述提示信息对目标文本进行语义一致性判别,得到判别结果。该方法显著且直接地提升了语义一致性判别准确度。

Description

文本处理方法、装置、设备、存储介质及产品
技术领域
本申请涉及人工智能技术领域,特别涉及一种文本处理方法、装置、设备、存储介质及产品。
背景技术
语义一致性判别是自然语言处理方向一个应用极为广泛的分支任务,其主要用于判别两个语句之间的语义相似度,即判别语句A和语句B是否为同义句。通常情况下可以将原句(语句A)与目标句(语句B)作为语义一致性判别模型的输入,由语义一致性判别模型输出判别结果,该判别结果指示原句与目标句的语义是否一致。但是,相关技术中的语义一致性判别模型的准确度普遍不高,难以满足实际需求。
发明内容
本申请实施例提供了一种文本处理方法、装置、设备、存储介质及产品,能够显著提升语义一致性判别准确度。
根据本申请实施例的一个方面,提供了一种文本处理方法,所述方法包括:
获取目标文本,所述目标文本包括第一语句和第二语句;
对所述目标文本进行同义表述提取处理,得到提取结果,所述同义表述提取处理用于在所述第一语句和所述第二语句形成的语句对中搜索同义表述,所述同义表述包括由所述第一语句的第一文本单元和所述第二语句的第二文本单元形成的文本单元对,所述第一文本单元和第二文本单元的语义相似度满足预设相似度要求;
在所述提取结果指示所述语句对中存在同义表述的情况下,根据所述提取结果生成同义表述提示信息;
基于所述同义表述提示信息对所述目标文本进行语义一致性判别,得到判别结果,所述判别结果指示所述第一语句和所述第二语句的语义相似性。
根据本申请实施例的一个方面,提供了一种文本处理装置,所述装置包括:
目标文本获取模块,用于获取目标文本,所述目标文本包括第一语句和第二语句;
同义表述提取模块,用于对所述目标文本进行同义表述提取处理,得到提取结果,所述同义表述提取处理用于在所述第一语句和所述第二语句形成的语句对中搜索同义表述,所述同义表述包括由所述第一语句的第一文本单元和所述第二语句的第二文本单元形成的文本单元对,所述第一文本单元和第二文本单元的语义相似度满足预设相似度要求;
语义一致性判别模块,用于在所述提取结果指示所述语句对中存在同义表述的情况下,根据所述提取结果生成同义表述提示信息;基于所述同义表述提示信息对所述目标文本进行语义一致性判别,得到判别结果,所述判别结果指示所述第一语句和所述第二语句的语义相似性。
根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述文本处理方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述文本处理方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行以实现上述文本处理方法。
本申请实施例提供的技术方案可以带来如下有益效果:
本申请实施例提出一种文本处理方法,该文本处理方法首先对目标文本进行同义表述提取处理,该同义表述提取处理用于在第一语句和第二语句形成的语句对中搜索同义表述,该同义表述包括第一语句的第一文本单元和第二语句的第二文本单元,所述第一文本单元和第二文本单元的语义相似度满足预设相似度要求。根据提取到的同义表述生成同义表述提示信息,基于该同义表述提示信息对第一语句和第二语句进行语义一致性判别,得到语义一致性判别结果。通过在进行语句的语义一致性判别之前首先进行同义表述搜索,然后根据搜索到的同义表述生成同义表述提示信息,从而使用该同义表述提示信息显式弥补语义一致性判别过程中对同义的文本单元判别能力不足的问题,在该同义表述提示信息的提示下语义一致性判别过程及时被补充了对于语句一致性判别而言重要的同义语义知识,显著且直接地提升了语义一致性判别准确度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的应用程序运行环境的示意图;
图2是本申请一个实施例提供的文本处理方法的流程图;
图3是本申请一个实施例提供的同义表述提取处理方法流程示意图;
图4是本申请一个实施例提供的同义词典构建方法流程示意图;
图5是本申请一个实施例提供的挖掘同义文本单元对的流程示意图;
图6是本申请一个实施例提供的同义表述提示信息生成方法流程示意图;
图7是本申请一个实施例提供的第二语义一致性判别模型的结构示意图;
图8是本申请一个实施例提供的第二语义一致性判别模型训练方法流程图;
图9是本申请一个实施例提供的文本处理装置的框图;
图10是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
在介绍本申请提供的方法实施例之前,先对本申请方法实施例中可能涉及的相关术语或者名词进行简要介绍,以便于本申请领域技术人员理解。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大文本处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
自然语言处理(NLP):是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
在具体阐述本申请实施例之前,对与本申请实施例有关的相关技术背景进行介绍,以便于本申请领域技术人员理解。
语义一致性判别是自然语言处理(NLP)方向一个应用极为广泛的分支任务,其主要用于判别两个语句之间的语义相似度,即判别语句A和语句B是否为同义句。通常情况下可以将原句(语句A)与目标句(语句B)作为语义一致性判别模型的输入,由语义一致性判别模型输出判别结果,该判别结果指示原句与目标句的语义是否一致,在一些场景下语义一致性判别任务也被称为文本语义相似度任务。该任务在众多应用场景,包括搜索,问答、对话等均有应用。相关技术中进行语义一致性判别的技术方案很多,主要分为无监督类型的技术方案和有监督类型的技术方案。
无监督类型的技术方案可以将语句A和语句B各自进行文本向量化处理,从而得到各自的高维稠密向量表达,然后通过量化语句A和语句B各自的高维稠密向量表达之间的相似度来判别语句A和语句B之间的语义一致性,相似度越高则说明语句A和语句B之间的语义一致性越强。无监督类型的技术方案对于高维稠密向量表达的准确度要求较高,即这一类型的技术方案对于文本向量化处理要求较高。但是用于进行文本向量化处理的文本向量化模型通常来说是在通用的无标注文本下训练得到的,当面对一些相对专业化或相对特殊的垂直领域的文本时,其文本向量化能力通常较弱,因此文本向量化效果也会受到限制,从而降低了语义一致性判别准确度。
为了缓解无监督方法语义一致性判别准确度不高的问题,相关技术提出了有监督类型的技术方案,这类技术方案可以基于有监督数据在语义一致性判别模型训练阶段对其进行微调,以提升语义一致性判别准确度。在训练语义一致性判别模型执行语义一致性判别任务的时候,通常需要人工标注一批有监督数据,即训练数据,该训练数据由形式为<原句、目标句、语义是否一致>的三元组数据构成。该三元组数据表征原句和目标句是否具备语义一致性。在训练数据的监督下进行训练,语义一致性判别模型能够较好地学习到文本语义一致性的知识,从而提升语义一致性判别准确度。但是这一类型的技术方案对于标注数据的质量与数量依赖度高,而在专业化或者相对特殊的垂直领域下,标注数据的获取成本较高,从而影响语义一致性判别模型对该垂直领域内语句一致性判别的准确度,因此依然存在语义一致性判别准确度薄弱的情况。
综合来说,无监督类型和有监督类型的语义一致性判别方案都可以以自编码式文本处理模型为基础对文本进行量化,无监督类型的技术方案根据量化后的高维稠密向量表达结合相似度量化得到语义一致性判别结果,有监督类型的技术方案根据量化后的高维稠密向量表达结合有监督微调来进行语义一致性判别。这两类技术方案所使用的模型基础都是自编码式文本处理模型,而这类模型大都是在一些常见且较为通用的语料下训练,从而使得这类技术方案对于一些特殊的语句对的语义一致性判别容易出现错误。
本申请实施例提出,这类特殊的语句对具备下述特点:语句A的某个词和语句B的某个词互为同义词,即如果语句A的某个词和语句B的某个词互为同义词,则语义一致性判别模型对语句A和语句B是否具备语义一致性的判别结果的准确度可能较低。
本申请实施例对于相关技术中的语义一致性判别模型进行了针对上述特殊的语句对的大量实验,以下给出实验过程中相关语义一致性判别模型判别错误的例子,请参考表1:
表1
实验结果显示,存在这些同义表述导致相关技术中的语义一致性判别模型出现判别错误,这些同义表述对于这些语义一致性判别模型而言是较难判别的。如果将目标句和原句中的同义表述替换为相同表述,则语义一致性判别模型判别结果就是正确的,以示例一为例,将同义表述替换为相同表述,即将<开放,开门>替换为<开放,开放>,将“你知道这个景点什么时候开门呀?”中的“开门”替换成“开放”,则语义一致性判别模型很容易给出表征语义一致的正确判别结果。本申请实施例通过实验提出了语义一致性判别模型对前述特殊类型的语句对判别不准确的原因在于对于同义表述的判断能力较弱。
基于本申请实施例的实验结果,本申请实施例提出一种文本处理方法,该文本处理方法首先对目标文本进行同义表述提取处理,该同义表述提取处理用于在第一语句和第二语句形成的语句对中搜索同义表述,该同义表述包括第一语句的第一文本单元和第二语句的第二文本单元,上述第一文本单元和第二文本单元的语义相似度满足预设相似度要求。根据提取到的同义表述生成同义表述提示信息,基于该同义表述提示信息对第一语句和第二语句进行语义一致性判别,得到语义一致性判别结果。通过在进行语句的语义一致性判别之前首先进行同义表述搜索,然后根据搜索到的同义表述生成同义表述提示信息,从而使用该同义表述提示信息显式弥补语义一致性判别过程中对同义的文本单元判别能力不足的问题,在该同义表述提示信息的提示下语义一致性判别过程及时被补充了对于语句一致性判别而言重要的同义语义知识,显著且直接地提升了语义一致性判别准确度。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
请参考图1,其示出了本申请一个实施例提供的应用程序运行环境的示意图。该应用程序运行环境可以包括:终端10和服务器20。
终端10包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、游戏主机、电子书阅读器、多媒体播放设备、可穿戴设备等电子设备。终端10中可以安装应用程序的客户端。
在本申请实施例中,上述应用程序可以是任何能够提供文本处理服务的应用程序。典型地,该应用程序为智能问答类应用程序。当然,除了智能问答类应用程序之外,其它类型的应用程序中也可以提供依赖文本处理的服务。例如,新闻类应用程序、社交类应用程序、互动娱乐类应用程序、浏览器应用程序、购物类应用程序、内容分享类应用程序、虚拟现实(Virtual Reality,VR)类应用程序、增强现实(Augmented Reality,AR)类应用程序等,本申请实施例对此不作限定。本申请实施例对此不作限定。可选地,终端10中运行有上述应用程序的客户端。
服务器20用于为终端10中的应用程序的客户端提供后台服务。例如,服务器20可以是上述应用程序的后台服务器。服务器20可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地,服务器20同时为多个终端10中的应用程序提供后台服务。
可选地,终端10和服务器20之间可通过网络30进行互相通信。终端10以及服务器20可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
请参考图2,其示出了本申请一个实施例提供的文本处理方法的流程图。该方法可应用于计算机设备中,上述计算机设备是指具备数据计算和处理能力的电子设备,如各步骤的执行主体可以是图1所示的应用程序运行环境中的服务器20。该方法可以包括以下几个步骤:
步骤S201.获取目标文本,上述目标文本包括第一语句和第二语句;
本申请实施例中目标文本可以包括至少一个语句对,本申请实施例对目标文本中的每个语句对都可以进行语义一致性判别,不论目标文本包括多少语句对,下文的处理方式都不变,通过步骤S201至步骤S204可以直接得到各语句对的语义一致性判别结果。以其中一个语句对为例,该语句对包括第一语句和第二语句。
步骤S202.对上述目标文本进行同义表述提取处理,得到提取结果,上述同义表述提取处理用于在上述第一语句和上述第二语句形成的语句对中搜索同义表述,上述同义表述包括由上述第一语句的第一文本单元和上述第二语句的第二文本单元形成的文本单元对,上述第一文本单元和第二文本单元的语义相似度满足预设相似度要求。
本申请实施例可以对目标文本中的各个语句对执行同义表述提取处理,以第一语句和第二语句形成的语句对为例,上述同义表述提取处理用于在上述第一语句和上述第二语句形成的语句对中搜索同义表述,上述同义表述包括由上述第一语句的第一文本单元和上述第二语句的第二文本单元形成的文本单元对,上述第一文本单元和第二文本单元的语义相似度满足预设相似度要求。
本申请实施例中不对文本单元进行限定,其可以被理解为一个独立的语义表达单元,比如可以是中文的词或词组,也可以是英文的单词或词组。
本申请实施例并不对相似度要求进行限定,比如,可以设定一个相似度阈值,如果两个文本单元的语义相似度高于该相似度阈值,则可以认为该两个文本单元满足该相似度要求。当然,本申请实施例对于该相似度阈值的大小不做限定,其可以根据实际情况进行设定。同义表述提取处理所提取出的文本单元对中的两个文本单元应当分别来自语句对的不同语句,并且这两个文本单元彼此语义相似度较高,因此,这种文本单元对可以简称为同义文本单元对。
本申请实施例提出同义文本单元对的提取先于语句一致性判别之前执行,从而通过同义文本单元对的知识提升语句一致性判别准确度,弥补本申请实施例所提出的由于相关技术中语义一致性判别模型对于同义词识别能力不足所造成的语句一致性判别准确度低缺陷。
本申请实施例中的同义文本单元对中的两个文本单元不仅仅语义相似,而且应该能够造成语义一致性判别模型的特殊表现,比如,当语句对的两个语句分别对应存在该同义文本单元对的两个文本单元的时候,语义一致性判别模型容易判别错误,并且,当将语句对的两个语句中该同义文本单元对替换为相同文本单元的时候,语义一致性判别模型容易判别正确。这种特殊表现说明该同义文本单元对对于提升语义一致性判别有显著作用,或者说,该同义文本单元对恰好就是语义一致性判别模型执行语义一致性判别的时候缺失的知识,这种情况下将该同义文本单元对的知识补充到语义一致性判别的过程才可以显著提升判别准确度。
本申请实施例并不对前述同义文本单元对的提取过程进行限定,在一个实施方式中,请参考3,其示出本申请实施例同义表述提取处理方法流程示意图。上述对上述目标文本进行同义表述提取处理,得到提取结果,包括:
步骤S301.在同义词典中搜索同义表述,上述同义词典包括至少一个同义文本单元对。
该同义词典中每个同义文本单元对都同时满足下述要求:
(1)上述同义文本单元对包括源文本单元和目标文本单元;上述源文本单元和上述目标文本单元分别对应来自同义语句对的源语句和目标语句;
同义语句对就是被标注为同义的语句形成的语句对,比如前文表1中的示例一、示例二、示例三都是同义语句对,对应的同义表述都是同义文本单元对。
(2)上述同义语句对在第一语义一致性判别模型中被判定为非同义语句;
本申请实施例并不对第一语义一致性判别模型进行限定,其可以是任何一种相关技术中实施语义一致性判别的模型,该第一语义一致性判别模型与下文的第二语义一致性判别模型可以是同一语义一致性判别模型,也可以是不同的语义一致性判别模型。本申请实施例提出由于各个语义一致性判别模型训练所使用的基础语料在语义一致性判定方面不存在明显区别,缺失的同义语义知识也没有明显区别,所以第一语义一致性判别模型和第二语义一致性判别模型即使不同,也基本不影响本申请实施例的实施效果。
如果上述同义语句对在第一语义一致性判别模型中被判定为非同义语句,则说明该同义文本单元对的存在很可能导致了第一语义一致性判别模型的判别错误,因此,该同义文本单元对很有可能属于该第一语义一致性判别模型缺失的知识,即该第一语义一致性判别模型并不能知道该同义文本单元对中的两个文本单元具备相似语义。
(3)将上述源语句中的上述源文本单元替换为上述目标文本单元,得到替换后的同义语句对,上述替换后的同义语句对在上述第一语义一致性判别模型中被判定为同义语句。
如果将上述源语句中的上述源文本单元替换为上述目标文本单元,则替换后的同义语句对中不再存在前述同义文本单元对,这种情况下第一语义一致性判别模型的判别正确,这就说明前述的判别错误恰好就是因为前述同义文本单元对的存在,从而充分说明前述的同义文本单元对命中了该第一语义一致性判别模型缺失的知识。
综上可知,同义词典本质上是第一语义一致性判别模型缺失的知识的集合,每一条缺失的知识被显式表述为该同义词典中的一条同义文本单元对。当然,这些同义文本单元对的相似度都满足前述的预设相似度要求。
步骤S302.若上述同义词典中存在目标同义文本单元对,则得到包括上述目标同义文本单元对的提取结果,上述目标同义文本单元对包括上述第一文本单元和上述第二文本单元。
举个例子,该同义词典中包括三个同义文本单元对,分别为<喜爱,热爱>,<上班,工作>,<吃饭,觅食>,步骤S301中的第一语句是“我特别喜爱盛夏的夜晚”,第二语句是“我热爱盛夏的夜晚”,则目标同义文本单元对就是<喜爱,热爱>。这充分说明第一语句和第二语句中存在语义一致性判别模型缺少的知识即<喜爱,热爱>,但是本申请实施例通过搜索同义词典将该知识直接进行了提取,从而在后续通过该知识的补充可以提升语义一致性判别模型的判别准确度。
本申请实施例并不对同义词典的构建过程进行限定,请参考图4,其示出本申请实施例同义词典构建方法流程示意图。上述方法包括:
步骤S401.获取多个正样本,上述正样本中源样本语句和目标样本语句具备语义一致性。
正样本就是被标记为具备语义一致性的语句对形成的样本。每个正样本包括两个语句,一个是源样本语句,一个是目标样本语句。本申请实施例不限定正样本的数量,当然,正样本数量越多,同义表述提取的效果越好。
步骤S402.将每一上述正样本输入上述第一语义一致性判别模型,得到对应的语义判别结果,将语义判别结果指示不具备语义一致性的正样本确定为目标正样本。
语义判别结果指示不具备语义一致性说明正样本的两个语句虽然具备同义性,但是该同义性难以被语义一致性判别模型所识别出,该同义性对于语义一致性判别模型而言具有隐蔽性,具备这类同义性的正样本中可能包括语义一致性判别模型所缺失的同义词知识,后续本申请实施例在这类正样本,即目标正样本中挖掘同义文本单元对。
步骤S403.针对每一上述目标正样本,将上述目标正样本中的源样本语句中的第一目标文本单元替换为上述目标样本语句中的第二目标文本单元,得到参考源样本语句;若将上述参考源样本语句和上述目标样本语句输入上述第一语义一致性判别模型所得到的语义判别结果指示具备语义一致性,将上述第一目标文本单元和上述第二目标文本单元确定为同义文本单元对,并且将上述同义文本单元对加入上述同义词典;其中,上述第一目标文本单元为上述源样本语句的任一文本单元,上述第二目标文本单元为上述目标样本语句的任一文本单元。
对于每个目标正样本而言,挖掘同义文本单元对的过程是一样的,具体的挖掘过程可以通过穷举替换来实现。请参考图5,其示出本申请实施例中挖掘同义文本单元对的流程示意图。上述方法包括:
步骤S501.将目标正样本中源样本语句中当前文本单元替换为目标正样本中目标样本语句的当前文本单元,得到参考源样本语句。
在该方法执行伊始,源样本语句中当前文本单元为源样本语句中第一个文本单元,目标正样本中目标样本语句的当前文本单元为目标正样本中目标样本语句的第一个文本单元。
步骤S502.将上述参考源样本语句和上述目标样本语句输入上述第一语义一致性判别模型,得到语义判别结果。若语义判别结果指示具备语义一致性,则将上述源样本语句中上述当前文本单元和上述目标样本语句的上述当前文本单元组成同义文本单元对。
具体地,该语义判别结果可以用分数体现,该分数大于预设分值,则说明语义判别结果指示具备语义一致性,否则说明语义判别结果指示不具备语义一致性。
步骤S503.若上述目标样本语句的当前文本单元不是上述目标样本语句的最后一个文本单元,则将上述目标样本语句的当前文本单元的下一个文本单元作为新的上述目标样本语句的上述当前文本单元;若上述目标样本语句的当前文本单元是上述目标样本语句的最后一个文本单元并且上述源样本语句中上述当前文本单元不是上述源样本语句的最后一个文本单元,则将上述目标样本语句的第一个文本单元作为新的上述目标样本语句的上述当前文本单元,将上述源样本语句中当前文本单元的下一个文本单元作为新的上述源样本语句的上述当前文本单元;重复执行步骤S501。
步骤S504.若上述目标样本语句的上述当前文本单元是上述目标样本语句的最后一个文本单元并且上述源样本语句中上述当前文本单元是上述源样本语句的最后一个文本单元,则直接结束流程。
请参考表2,其示出同义文本单元对的挖掘结果示例。显然,挖掘出的同义文本单元对不仅仅具备语义相近的特点,还是造成语义一致性判别模型前后输出不同判别结果的原因。
表2
步骤S203.在上述提取结果指示上述语句对中存在同义表述的情况下,根据上述提取结果生成同义表述提示信息。
该同义表述可以包括同义词典中至少一个同义文本单元对。同义表述提示信息作为提示学习的一种有效输入信息,本申请实施例对其具体生成方法不做限定。提示学习(prompttuning),是机器学习当中的一类学习方法,在不显著改变模型结构和参数的情况下,通过向输入增加“提示信息”、 作为一种信息增强来大幅改善模型的效果,他可以看作是一种对任务的指令,其本质是参数有效性训练的增强,通过单独生成prompt模板,然后在每个任务上进行微调与评估来实现提示学习。该同义表述提示信息即可以被理解为一种prompt模板。请参考图6,其示出本申请实施例的同义表述提示信息生成方法流程示意图。上述根据上述提取结果生成同义表述提示信息,包括:
步骤S601.根据各上述文本单元对,生成同义语义信息。
本申请实施例主要是将挖掘得到的同义词典应用到语义一致性判别模型的提示中,以帮助语义一致性判别模型判别那些较为生僻的同义表达。在目标文本中存在同义表述的情况下,同义表述中各个文本单元对都应当被包括在prompt模板之中,这些文本单元对被记录在同义语义信息中,形成prompt的有效组成部分,本申请实施例对同义语义信息的形式不做限定,比如,其可以被表述为“供参考的同义表达有<xxx,xxx>,<xxx,xxx>,<xxx,xxx>……”,从而将同义表述中全部文本单元对都包含在同义语义信息中。
步骤S602.生成第一任务提示信息,上述第一任务提示信息用于指示第二语义一致性判别模型基于上述同义语义信息执行语义一致性判别任务。
本申请实施例并不限定第二语义一致性判别模型,其可以与前述第一语义一致性判别模型为相同或不同模型。在一个实施方式中第二语义一致性判别模型可以为大型生成式语言模型。大型生成式语言模型(英文Large Language Model,简称LLM)是指能够处理和生成自然语言的计算机模型。它代表着人工智能领域的重大进步,并有望通过习得的知识改变该领域。LLM是基于大量数据进行预训练的大规模深度学习模型,具有很强的知识和文本理解能力,可以通过自然语言的形式完成文本理解与生成的需求,随着输入数据集与参数空间的不断扩大,LLM的能力也会相应提高。
第一任务提示信息可以为LLM模型所使用的自然语言形式的指令,本申请实施例对第一任务提示信息的形式不做限定比如,其可以被表述为“给定你语句对以及涉及的同义表述,请据此判断输入的语句对中的不同语句的语义是否相同”。
步骤S603.根据上述同义语义信息和上述第一任务提示信息,生成上述同义表述提示信息。
将上述同义语义信息和上述第一任务提示信息这两部分进行拼接,即可生成上述同义表述提示信息。进而通过提示学习的方法显式引入同义词知识,提升语义一致性判别准确度。
步骤S204.基于上述同义表述提示信息对上述目标文本进行语义一致性判别,得到判别结果,上述判别结果指示上述第一语句和上述第二语句的语义相似性。
上述基于上述同义表述提示信息对上述目标文本进行语义一致性判别,得到判别结果,包括:将上述同义表述提示信息和上述目标文本输入上述第二语义一致性判别模型,得到上述判别结果。
当然,也可能目标文本中并不存在同义表述,这种情况下执行下述流程:
步骤S205.在上述提取结果指示上述目标文本中不存在同义表述的情况下,生成第二任务提示信息,上述第二任务提示信息用于指示上述第二语义一致性判别模型直接执行语义一致性判别任务。
第二任务提示信息可以为LLM模型所使用的自然语言形式的指令,本申请实施例对第二任务提示信息的形式不做限定比如,其可以被表述为“给定你语句对,请直接判断输入的语句对中的不同语句的语义是否相同”。
步骤S206.将上述第二任务提示信息和上述目标文本输入上述第二语义一致性判别模型,得到上述判别结果。
这种情况下第二任务提示信息即为prompt模板。
请参考表3,其示出本申请实施例中为了进行语义一致性判别所生成的提示prompt模板示例。
表3
本申请实施例并不对第二语义一致性判别模型的具体结构和执行语义一致性判别的过程进行限定。请参考图7,其示出本申请实施例第二语义一致性判别模型的结构示意图,该结构包括词向量提取层701和Transformer层702。Transformer是一种神经网络,它通过提取序列数据中的关系来学习上下文并因此学习含义。Transformer基于注意力或自我注意力实现特征提取。词向量提取层701可以对文本序列进行嵌入特征提取处理,得到第一文本特征,上述文本序列为对目标提示信息、上述第一语句和上述第二语句进行拼接所得到的序列,上述目标提示信息包括上述同义表述提示信息或上述第二任务提示信息。Transformer层702可以对上述第一文本特征进行自回归式特征提取处理,得到第二文本特征;对上述第二文本特征的末端特征单元进行语义一致性概率映射,得到上述判别结果,上述判别结果指示上述第一语句和上述第二语句的语义相似度。语义一致性概率映射可以通过将上述第二文本特征的末端特征单元输入一个权重矩阵703来实现。该判别结果可以是一个分数,若分数超过分数阈值,比如0.5则认为具备语义一致性,否则认为不具备语义一致性。本申请实施例中的特征单元即为Token的特征提取结果,在 NLP 中,Token通常是指将文本分割为最小的有意义的部分或单位,第二文本特征的末端特征单元就是第二文本特征中对应于最后一个Token的特征提取结果。
第二语义一致性判别模型的训练过程执行与前文相似的操作。请参考图8,其示出本申请实施例的第二语义一致性判别模型训练方法流程图。具体地,上述第二语义一致性判别模型通过下述方法训练:
步骤S801.获取样本文本,上述样本文本包括第一样本语句、第二样本语句和标签,上述标签指示上述第一样本语句和上述第二样本语句的语义一致性。
步骤S802.对上述样本文本进行同义表述提取处理,得到样本提取结果。
这一过程与步骤S202基于相同发明构思。
步骤S803.若上述样本提取结果指示上述样本文本中不存在同义表述,将上述第二任务提示信息确定为样本提示信息;若上述样本提取结果指示上述样本文本中存在同义表述,生成样本同义表述提示信息;将上述样本同义表述提示信息确定为上述样本提示信息。
样本提示信息的获取方式与前述目标提示信息的获取方式基于相同发明构思。
步骤S804.将上述样本提示信息和上述样本文本输入上述第二语义一致性判别模型,得到样本判别结果。
第二语义一致性判别模型执行的操作与前述相同,在此不做赘述。
步骤S805.根据上述样本判别结果和上述标签之间的差异,调整上述第二语义一致性判别模型的参数。
在模型训练过程中,通过模型预测结果与实际的标签的差异计算交叉熵损失函数,根据交叉熵损失函数的值更新模型的参数,其中包括词向量提取层701、Transformer层702和/或权重矩阵703的参数。
本申请实施例可以使用大型生成式大语言模型作为第二语义一致性判别模型,结合提示(prompt)输入,优化其语义一致性判别效果。具体执行过程中,可以首先挖掘同义文本单元对构成同义词典,基于同义词典对要进行语义一致性判别的语句对进行同义表述提取,如果提取到同义表述,则可以基于提取到的同义表述生成提示(prompt),从而触发大型生成式大语言模型基于提示(prompt)给出准确的语义一致性判别结果。
本申请实施例对于前述文本处理方法的效果进行了实验验证。验证结果请参考表4。
表4
precision表示准确率,recall表示召回率。通过上述实验结果可以看到,本申请实施例提出的语义一致性判别方法在相同的recall指标下可以较好的提升precision的效果。
本申请实施例可以显著提升语义一致性判别这一基础的NLP任务的效果,因此可以在基于该基础的NLP任务的各种应用中被使用,如问答、对话、用户搜索等应用中,本申请实施例可以广泛提升这些应用的使用效果。
下述为本申请装置实施例,可用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图9,其示出了本申请一个实施例提供的文本处理装置的框图。该装置具有实现上述文本处理方法的功能,上述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置在计算机设备中。该装置可以包括:
目标文本获取模块901,用于获取目标文本,上述目标文本包括第一语句和第二语句;
同义表述提取模块902,用于对上述目标文本进行同义表述提取处理,得到提取结果,上述同义表述提取处理用于在上述第一语句和上述第二语句形成的语句对中搜索同义表述,上述同义表述包括由上述第一语句的第一文本单元和上述第二语句的第二文本单元形成的文本单元对,上述第一文本单元和第二文本单元的语义相似度满足预设相似度要求;
语义一致性判别模块903,用于在上述提取结果指示上述语句对中存在同义表述的情况下,根据上述提取结果生成同义表述提示信息;基于上述同义表述提示信息对上述目标文本进行语义一致性判别,得到判别结果,上述判别结果指示上述第一语句和上述第二语句的语义相似性。
在一个实施方式中,上述同义表述提取模块902,用于执行下述操作:
在同义词典中搜索同义表述,上述同义词典包括至少一个同义文本单元对;
若上述同义词典中存在目标同义文本单元对,则得到包括上述目标同义文本单元对的提取结果,上述目标同义文本单元对包括上述第一文本单元和上述第二文本单元;
其中,每一上述同义文本单元对同时满足下述要求:
上述同义文本单元对包括源文本单元和目标文本单元;上述源文本单元和上述目标文本单元分别对应来自同义语句对的源语句和目标语句;
上述同义语句对在第一语义一致性判别模型中被判定为非同义语句;
将上述源语句中的上述源文本单元替换为上述目标文本单元,得到替换后的同义语句对,上述替换后的同义语句对在上述第一语义一致性判别模型中被判定为同义语句。
在一个实施方式中,上述语义一致性判别模块903,用于执行下述操作:
根据各上述文本单元对,生成同义语义信息;
生成第一任务提示信息,上述第一任务提示信息用于指示第二语义一致性判别模型基于上述同义语义信息执行语义一致性判别任务;
根据上述同义语义信息和上述第一任务提示信息,生成上述同义表述提示信息;
将上述同义表述提示信息和上述目标文本输入上述第二语义一致性判别模型,得到上述判别结果。
在一个实施方式中,上述语义一致性判别模块903,用于执行下述操作:
在上述提取结果指示上述目标文本中不存在同义表述的情况下,生成第二任务提示信息,上述第二任务提示信息用于指示上述第二语义一致性判别模型直接执行语义一致性判别任务;
将上述第二任务提示信息和上述目标文本输入上述第二语义一致性判别模型,得到上述判别结果。
在一个实施方式中,上述语义一致性判别模块903,用于执行下述操作:
对文本序列进行嵌入特征提取处理,得到第一文本特征,上述文本序列为对目标提示信息、上述第一语句和上述第二语句进行拼接所得到的序列,上述目标提示信息包括上述同义表述提示信息或上述第二任务提示信息;
对上述第一文本特征进行自回归式特征提取处理,得到第二文本特征;
对上述第二文本特征的末端特征单元进行语义一致性概率映射,得到上述判别结果,上述判别结果指示上述第一语句和上述第二语句的语义相似度。
在一个实施方式中,上述语义一致性判别模块903,用于执行下述操作:
获取样本文本,上述样本文本包括第一样本语句、第二样本语句和标签,上述标签指示上述第一样本语句和上述第二样本语句的语义一致性;
对上述样本文本进行同义表述提取处理,得到样本提取结果;
若上述样本提取结果指示上述样本文本中不存在同义表述,将上述第二任务提示信息确定为样本提示信息;若上述样本提取结果指示上述样本文本中存在同义表述,生成样本同义表述提示信息;基于上述样本同义表述提示信息确定上述样本提示信息;
将上述样本提示信息和上述样本文本输入上述第二语义一致性判别模型,得到样本判别结果;
根据上述样本判别结果和上述标签之间的差异,调整上述第二语义一致性判别模型的参数。
在一个实施方式中,上述同义表述提取模块902,用于执行下述操作:
获取多个正样本,上述正样本中源样本语句和目标样本语句具备语义一致性;
将每一上述正样本输入上述第一语义一致性判别模型,得到对应的语义判别结果,将语义判别结果指示不具备语义一致性的正样本确定为目标正样本;
针对每一上述目标正样本,将上述目标正样本中的源样本语句中的第一目标文本单元替换为上述目标样本语句中的第二目标文本单元,得到参考源样本语句;若将上述参考源样本语句和上述目标样本语句输入上述第一语义一致性判别模型所得到的语义判别结果指示具备语义一致性,将上述第一目标文本单元和上述第二目标文本单元确定为同义文本单元对,并且将上述同义文本单元对加入上述同义词典;
其中,上述第一目标文本单元为上述源样本语句的任一文本单元,上述第二目标文本单元为上述目标样本语句的任一文本单元。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图10,其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可以是服务器,以用于执行上述文本处理方法。具体来讲:
计算机设备1000包括中央处理单元(Central Processing Unit ,CPU)1001、包括随机存取存储器(Random Access Memory ,RAM)1002和只读存储器(Read Only Memory,ROM)1003的系统存储器1004,以及连接系统存储器1004和中央处理单元1001的系统总线1005。计算机设备1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O(Input/Output)系统)1006,和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。
基本输入/输出系统1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中显示器1008和输入设备1009都通过连接到系统总线1005的输入输出控制器1010连接到中央处理单元1001。基本输入/输出系统1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。大容量存储设备1007及其相关联的计算机可读介质为计算机设备1000提供非易失性存储。也就是说,大容量存储设备1007可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory,只读光盘)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory,可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory,电可擦可编程只读存储器)、闪存或其他固态存储其技术,CD-ROM、DVD(Digital Video Disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。
根据本申请的各种实施例,计算机设备1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1000可以通过连接在系统总线1005上的网络接口单元1011连接到网络1012,或者说,也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括计算机程序,该计算机程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,以实现上述文本处理方法。
在示例性实施例中,还提供了一种计算机可读存储介质,上述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,上述至少一条指令、上述至少一段程序、上述代码集或上述指令集在被处理器执行时以实现上述文本处理方法。
具体地,该文本处理方法包括:
获取目标文本,上述目标文本包括第一语句和第二语句;
对上述目标文本进行同义表述提取处理,得到提取结果,上述同义表述提取处理用于在上述第一语句和上述第二语句形成的语句对中搜索同义表述,上述同义表述包括由上述第一语句的第一文本单元和上述第二语句的第二文本单元形成的文本单元对,上述第一文本单元和第二文本单元的语义相似度满足预设相似度要求;
在上述提取结果指示上述语句对中存在同义表述的情况下,根据上述提取结果生成同义表述提示信息;
基于上述同义表述提示信息对上述目标文本进行语义一致性判别,得到判别结果,上述判别结果指示上述第一语句和上述第二语句的语义相似性。
在一个实施方式中,上述对上述目标文本进行同义表述提取处理,得到提取结果,包括:
在同义词典中搜索同义表述,上述同义词典包括至少一个同义文本单元对;
若上述同义词典中存在目标同义文本单元对,则得到包括上述目标同义文本单元对的提取结果,上述目标同义文本单元对包括上述第一文本单元和上述第二文本单元;
其中,每一上述同义文本单元对同时满足下述要求:
上述同义文本单元对包括源文本单元和目标文本单元;上述源文本单元和上述目标文本单元分别对应来自同义语句对的源语句和目标语句;
上述同义语句对在第一语义一致性判别模型中被判定为非同义语句;
将上述源语句中的上述源文本单元替换为上述目标文本单元,得到替换后的同义语句对,上述替换后的同义语句对在上述第一语义一致性判别模型中被判定为同义语句。
在一个实施方式中,上述提取结果包括至少一个文本单元对,上述根据上述提取结果生成同义表述提示信息,包括:
根据各上述文本单元对,生成同义语义信息;
生成第一任务提示信息,上述第一任务提示信息用于指示第二语义一致性判别模型基于上述同义语义信息执行语义一致性判别任务;
根据上述同义语义信息和上述第一任务提示信息,生成上述同义表述提示信息;
上述基于上述同义表述提示信息对上述目标文本进行语义一致性判别,得到判别结果,包括:将上述同义表述提示信息和上述目标文本输入上述第二语义一致性判别模型,得到上述判别结果。
在一个实施方式中,上述方法还包括:
在上述提取结果指示上述目标文本中不存在同义表述的情况下,生成第二任务提示信息,上述第二任务提示信息用于指示上述第二语义一致性判别模型直接执行语义一致性判别任务;
将上述第二任务提示信息和上述目标文本输入上述第二语义一致性判别模型,得到上述判别结果。
在一个实施方式中,上述方法包括:由上述第二语义一致性判别模型执行下述操作:
对文本序列进行嵌入特征提取处理,得到第一文本特征,上述文本序列为对目标提示信息、上述第一语句和上述第二语句进行拼接所得到的序列,上述目标提示信息包括上述同义表述提示信息或上述第二任务提示信息;
对上述第一文本特征进行自回归式特征提取处理,得到第二文本特征;
对上述第二文本特征的末端特征单元进行语义一致性概率映射,得到上述判别结果,上述判别结果指示上述第一语句和上述第二语句的语义相似度。
在一个实施方式中,上述第二语义一致性判别模型通过下述方法训练:
获取样本文本,上述样本文本包括第一样本语句、第二样本语句和标签,上述标签指示上述第一样本语句和上述第二样本语句的语义一致性;
对上述样本文本进行同义表述提取处理,得到样本提取结果;
若上述样本提取结果指示上述样本文本中不存在同义表述,将上述第二任务提示信息确定为样本提示信息;若上述样本提取结果指示上述样本文本中存在同义表述,生成样本同义表述提示信息;基于上述样本同义表述提示信息确定上述样本提示信息;
将上述样本提示信息和上述样本文本输入上述第二语义一致性判别模型,得到样本判别结果;
根据上述样本判别结果和上述标签之间的差异,调整上述第二语义一致性判别模型的参数。
在一个实施方式中,上述方法还包括:
获取多个正样本,上述正样本中源样本语句和目标样本语句具备语义一致性;
将每一上述正样本输入上述第一语义一致性判别模型,得到对应的语义判别结果,将语义判别结果指示不具备语义一致性的正样本确定为目标正样本;
针对每一上述目标正样本,将上述目标正样本中的源样本语句中的第一目标文本单元替换为上述目标样本语句中的第二目标文本单元,得到参考源样本语句;若将上述参考源样本语句和上述目标样本语句输入上述第一语义一致性判别模型所得到的语义判别结果指示具备语义一致性,将上述第一目标文本单元和上述第二目标文本单元确定为同义文本单元对,并且将上述同义文本单元对加入上述同义词典;
其中,上述第一目标文本单元为上述源样本语句的任一文本单元,上述第二目标文本单元为上述目标样本语句的任一文本单元。
可选地,该计算机可读存储介质可以包括:ROM(Read Only Memory,只读存储器)、RAM(Random Access Memory,随机存取记忆体)、SSD(Solid State Drives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括ReRAM(Resistance Random Access Memory, 电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory,动态随机存取存储器)。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述文本处理方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
另外,在本申请的具体实施方式中,涉及到用户信息等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
以上上述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (11)

1.一种文本处理方法,其特征在于,所述方法包括:
获取目标文本,所述目标文本包括第一语句和第二语句;
对所述目标文本进行同义表述提取处理,得到提取结果,所述同义表述提取处理用于在所述第一语句和所述第二语句形成的语句对中搜索同义表述,所述同义表述包括由所述第一语句的第一文本单元和所述第二语句的第二文本单元形成的文本单元对,所述第一文本单元和第二文本单元的语义相似度满足预设相似度要求;
在所述提取结果指示所述语句对中存在同义表述的情况下,根据所述提取结果生成同义表述提示信息;
基于所述同义表述提示信息对所述目标文本进行语义一致性判别,得到判别结果,所述判别结果指示所述第一语句和所述第二语句的语义相似性。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标文本进行同义表述提取处理,得到提取结果,包括:
在同义词典中搜索同义表述,所述同义词典包括至少一个同义文本单元对;
若所述同义词典中存在目标同义文本单元对,则得到包括所述目标同义文本单元对的提取结果,所述目标同义文本单元对包括所述第一文本单元和所述第二文本单元;
其中,每一所述同义文本单元对同时满足下述要求:
所述同义文本单元对包括源文本单元和目标文本单元;所述源文本单元和所述目标文本单元分别对应来自同义语句对的源语句和目标语句;
所述同义语句对在第一语义一致性判别模型中被判定为非同义语句;
将所述源语句中的所述源文本单元替换为所述目标文本单元,得到替换后的同义语句对,所述替换后的同义语句对在所述第一语义一致性判别模型中被判定为同义语句。
3.根据权利要求1或2所述的方法,其特征在于,所述提取结果包括至少一个文本单元对,所述根据所述提取结果生成同义表述提示信息,包括:
根据各所述文本单元对,生成同义语义信息;
生成第一任务提示信息,所述第一任务提示信息用于指示第二语义一致性判别模型基于所述同义语义信息执行语义一致性判别任务;
根据所述同义语义信息和所述第一任务提示信息,生成所述同义表述提示信息;
所述基于所述同义表述提示信息对所述目标文本进行语义一致性判别,得到判别结果,包括:将所述同义表述提示信息和所述目标文本输入所述第二语义一致性判别模型,得到所述判别结果。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在所述提取结果指示所述目标文本中不存在同义表述的情况下,生成第二任务提示信息,所述第二任务提示信息用于指示所述第二语义一致性判别模型直接执行语义一致性判别任务;
将所述第二任务提示信息和所述目标文本输入所述第二语义一致性判别模型,得到所述判别结果。
5.根据权利要求4所述的方法,其特征在于,所述方法包括:由所述第二语义一致性判别模型执行下述操作:
对文本序列进行嵌入特征提取处理,得到第一文本特征,所述文本序列为对目标提示信息、所述第一语句和所述第二语句进行拼接所得到的序列,所述目标提示信息包括所述同义表述提示信息或所述第二任务提示信息;
对所述第一文本特征进行自回归式特征提取处理,得到第二文本特征;
对所述第二文本特征的末端特征单元进行语义一致性概率映射,得到所述判别结果,所述判别结果指示所述第一语句和所述第二语句的语义相似度。
6.根据权利要求5所述的方法,其特征在于,所述第二语义一致性判别模型通过下述方法训练:
获取样本文本,所述样本文本包括第一样本语句、第二样本语句和标签,所述标签指示所述第一样本语句和所述第二样本语句的语义一致性;
对所述样本文本进行同义表述提取处理,得到样本提取结果;
若所述样本提取结果指示所述样本文本中不存在同义表述,将所述第二任务提示信息确定为样本提示信息;若所述样本提取结果指示所述样本文本中存在同义表述,生成样本同义表述提示信息;基于所述样本同义表述提示信息确定所述样本提示信息;
将所述样本提示信息和所述样本文本输入所述第二语义一致性判别模型,得到样本判别结果;
根据所述样本判别结果和所述标签之间的差异,调整所述第二语义一致性判别模型的参数。
7.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取多个正样本,所述正样本中源样本语句和目标样本语句具备语义一致性;
将每一所述正样本输入所述第一语义一致性判别模型,得到对应的语义判别结果,将语义判别结果指示不具备语义一致性的正样本确定为目标正样本;
针对每一所述目标正样本,将所述目标正样本中的源样本语句中的第一目标文本单元替换为所述目标样本语句中的第二目标文本单元,得到参考源样本语句;若将所述参考源样本语句和所述目标样本语句输入所述第一语义一致性判别模型所得到的语义判别结果指示具备语义一致性,将所述第一目标文本单元和所述第二目标文本单元确定为同义文本单元对,并且将所述同义文本单元对加入所述同义词典;
其中,所述第一目标文本单元为所述源样本语句的任一文本单元,所述第二目标文本单元为所述目标样本语句的任一文本单元。
8.一种文本处理装置,其特征在于,所述装置包括:
目标文本获取模块,用于获取目标文本,所述目标文本包括第一语句和第二语句;
同义表述提取模块,用于对所述目标文本进行同义表述提取处理,得到提取结果,所述同义表述提取处理用于在所述第一语句和所述第二语句形成的语句对中搜索同义表述,所述同义表述包括由所述第一语句的第一文本单元和所述第二语句的第二文本单元形成的文本单元对,所述第一文本单元和第二文本单元的语义相似度满足预设相似度要求;
语义一致性判别模块,用于在所述提取结果指示所述语句对中存在同义表述的情况下,根据所述提取结果生成同义表述提示信息;基于所述同义表述提示信息对所述目标文本进行语义一致性判别,得到判别结果,所述判别结果指示所述第一语句和所述第二语句的语义相似性。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一项所述的文本处理方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一项所述的文本处理方法。
11.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,计算机设备的处理器读取所述计算机指令,所述计算机设备的处理器执行所述计算机指令实现如权利要求1至7任一项所述的文本处理方法。
CN202410454688.4A 2024-04-16 2024-04-16 文本处理方法、装置、设备、存储介质及产品 Pending CN118052221A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410454688.4A CN118052221A (zh) 2024-04-16 2024-04-16 文本处理方法、装置、设备、存储介质及产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410454688.4A CN118052221A (zh) 2024-04-16 2024-04-16 文本处理方法、装置、设备、存储介质及产品

Publications (1)

Publication Number Publication Date
CN118052221A true CN118052221A (zh) 2024-05-17

Family

ID=91050430

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410454688.4A Pending CN118052221A (zh) 2024-04-16 2024-04-16 文本处理方法、装置、设备、存储介质及产品

Country Status (1)

Country Link
CN (1) CN118052221A (zh)

Similar Documents

Publication Publication Date Title
CN111767405B (zh) 文本分类模型的训练方法、装置、设备及存储介质
CN116935169B (zh) 文生图模型训练方法以及文生图方法
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
AU2017408800B2 (en) Method and system of mining information, electronic device and readable storable medium
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN111931517B (zh) 文本翻译方法、装置、电子设备以及存储介质
CN110162594B (zh) 文本数据的观点生成方法、装置及电子设备
CN113312461A (zh) 基于自然语言处理的智能问答方法、装置、设备及介质
CN113705191A (zh) 样本语句的生成方法、装置、设备及存储介质
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN114330483A (zh) 数据处理方法及模型训练方法、装置、设备、存储介质
CN113849623A (zh) 文本视觉问答方法和装置
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN113704393A (zh) 关键词提取方法、装置、设备及介质
CN113705207A (zh) 语法错误识别方法及装置
CN110413737B (zh) 一种同义词的确定方法、装置、服务器及可读存储介质
CN111753062A (zh) 一种会话应答方案确定方法、装置、设备及介质
CN112749553B (zh) 视频文件的文本信息处理方法、装置和服务器
CN114662496A (zh) 信息识别方法、装置、设备、存储介质及产品
CN118052221A (zh) 文本处理方法、装置、设备、存储介质及产品
CN111507098B (zh) 多义词识别方法、装置、电子设备及计算机可读存储介质
CN114510561A (zh) 答案选择方法、装置、设备及存储介质
CN109933788B (zh) 类型确定方法、装置、设备和介质
CN113407683A (zh) 一种文本信息处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination