CN113420128A - 文本匹配方法、装置、存储介质及计算机设备 - Google Patents

文本匹配方法、装置、存储介质及计算机设备 Download PDF

Info

Publication number
CN113420128A
CN113420128A CN202110966479.4A CN202110966479A CN113420128A CN 113420128 A CN113420128 A CN 113420128A CN 202110966479 A CN202110966479 A CN 202110966479A CN 113420128 A CN113420128 A CN 113420128A
Authority
CN
China
Prior art keywords
original sample
text
sample set
target model
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110966479.4A
Other languages
English (en)
Other versions
CN113420128B (zh
Inventor
罗培祥
张金超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110966479.4A priority Critical patent/CN113420128B/zh
Publication of CN113420128A publication Critical patent/CN113420128A/zh
Application granted granted Critical
Publication of CN113420128B publication Critical patent/CN113420128B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种文本匹配方法、装置、存储介质及计算机设备,其中,该方法包括:获取原始样本集,原始样本集中的每一原始样本包括第一样本文本和第二样本文本,以及第一样本文本和第二样本文本的真实相似度标签;对原始样本集中的每一原始样本进行目标词遮掩处理,以构建原始样本集对应的句对相似模式样本集,句对相似模式样本集中包含有与每一原始样本对应的具有真实相似度标签的句对相似模式样本;根据原始样本集和/或句对相似模式样本集训练目标模型,以得到训练后的目标模型;基于训练后的目标模型对待测文本对进行文本匹配,以确定待测文本对的相似度标签,以低成本、高效率的方式提高文本匹配的准确率。

Description

文本匹配方法、装置、存储介质及计算机设备
技术领域
本申请涉及计算机技术领域,具体涉及一种文本匹配方法、装置、存储介质及计算机设备。
背景技术
随着自然语言处理技术的发展,预训练语言模型开始被广泛的应用在智能问答、文本匹配、信息检索等下游任务中。由于预训练任务和下游任务的不一致性,在构建预训练语言模型时,通常需要设计复杂的预训练方式,并需要构建大规模预训练语料进行训练,甚至需要设计和添加额外的复杂网络结构或者模型,从而导致成本高昂,且模型复杂度较高。
发明内容
本申请实施例提供一种文本匹配方法、装置、存储介质及计算机设备,无需设计复杂的预训练方式,无需添加额外的复杂神经网络,以低成本、高效率的方式提高文本匹配的准确率。
第一方面,提供一种文本匹配方法,所述方法包括:获取原始样本集,所述原始样本集中的每一原始样本包括第一样本文本和第二样本文本,以及所述第一样本文本和第二样本文本的真实相似度标签;对所述原始样本集中的每一原始样本进行目标词遮掩处理,以构建所述原始样本集对应的句对相似模式样本集,所述句对相似模式样本集中包含有与每一所述原始样本对应的具有所述真实相似度标签的句对相似模式样本;根据所述原始样本集和/或所述句对相似模式样本集训练目标模型,以得到训练后的目标模型;基于所述训练后的目标模型对待测文本对进行文本匹配,以确定所述待测文本对的相似度标签。
第二方面,提供一种文本匹配装置,所述装置包括:获取单元,用于获取原始样本集,所述原始样本集中的每一原始样本包括第一样本文本和第二样本文本,以及所述第一样本文本和第二样本文本的真实相似度标签;构建单元,用于对所述原始样本集中的每一原始样本进行目标词遮掩处理,以构建所述原始样本集对应的句对相似模式样本集,所述句对相似模式样本集中包含有与每一所述原始样本对应的具有所述真实相似度标签的句对相似模式样本;训练单元,用于根据所述原始样本集和/或所述句对相似模式样本集训练目标模型,以得到训练后的目标模型;匹配单元,用于基于所述训练后的目标模型对待测文本对进行文本匹配,以确定所述待测文本对的相似度标签。
第三方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行如上任一实施例所述的文本匹配方法中的步骤。
第四方面,提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行如上任一实施例所述的文本匹配方法中的步骤。
本申请实施例通过获取原始样本集,原始样本集中的每一原始样本包括第一样本文本和第二样本文本,以及第一样本文本和第二样本文本的真实相似度标签;对原始样本集中的每一原始样本进行目标词遮掩处理,以构建原始样本集对应的句对相似模式样本集,句对相似模式样本集中包含有与每一原始样本对应的具有真实相似度标签的句对相似模式样本;根据原始样本集和/或句对相似模式样本集训练目标模型,以得到训练后的目标模型;基于训练后的目标模型对待测文本对进行文本匹配,以确定待测文本对的相似度标签。本申请实施例能够直接基于原始样本构建近义词对遮掩构造句对相似模式,并基于句对相似模式训练模型,无需设计复杂的预训练方式,无需添加额外的复杂神经网络,以低成本、高效率的方式提高文本匹配的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为基于情感知识增强的预训练语言模型的具体算法流程示意图。
图2为基于主题模型增强的文本匹配模型示意图。
图3为本申请实施例提供的文本匹配方法的应用场景示意图。
图4为本申请实施例提供的文本匹配方法的流程示意图。
图5为本申请实施例提供的第一应用场景示意图。
图6为本申请实施例提供的第二应用场景示意图。
图7为本申请实施例提供的第三应用场景示意图。
图8为本申请实施例提供的区块链网络的应用架构示意图。
图9为本申请实施例提供的区块链网络中区块链的可选的结构示意图。
图10为本申请实施例提供的区块链网络的功能架构示意图。
图11为本申请实施例提供的文本匹配装置的结构示意图。
图12为本申请实施例提供的文本匹配装置的另一结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种文本匹配方法、装置、计算机设备和存储介质。具体地,本申请实施例的文本匹配方法可以由计算机设备执行,其中,该计算机设备可以为终端或者服务器等设备。
首先,对本申请进行描述的过程中出现的部分名词或者术语作如下解释:
机器学习(Machine Learning, ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
深度学习(Deep Learning, DL):是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。
神经网络(Neural Network,NN):在机器学习和认知科学领域的一种模仿生物神经网络结构和功能的深度学习模型。
文本匹配:文本匹配是自然语言处理中的核心问题,主要用于判断两个文本是否具有相似的语义信息。其中,包括信息检索、问答系统、对话系统在内的很多自然语言处理任务都可以抽象成文本匹配问题。
句对相似模式:指从需要判断是否相似的原始句对中提取出的相似模式,该模式代表了句子蕴含的模式信息,相比于带有噪声信息的完整句子,更能反映句子主要特点及关键信息。
微调阶段:微调阶段指针对在下游任务采用预训练语言模型,基于下游任务数据进行模型参数更新、学习的过程,通过微调使得预训练模型能够适配于下游任务并具有良好效果。
预训练阶段:预训练阶段指针对自然语言处理领域问题通过自监督学习的方式基于大规模数据预先训练模型,使得预训练模型能够学习到通用语言知识,便于应用在下游任务中。
随着自然语言处理技术的发展,预训练语言模型开始被广泛的应用在智能问答、文本匹配、信息检索等下游任务中。由于预训练任务和下游任务的不一致性,为了提高下游任务的效果,一些方法在预训练阶段根据任务特点设计预训练策略,并基于构建的预训练语料进行增强预训练;另一些方法则在微调阶段设计复杂的网络结构用于增强模型表达能力,从而提高在下游任务上的表现。常用的技术主要包括以下方案:
第一种为基于预训练阶段增强训练的方法。由于通用预训练模型的预训练任务与下游任务之间存在不一致性,一些方法针对下游特定任务的特点在预训练阶段设计特定策略进行增强训练,从而提高模型效果。以下游情感分析任务为例,情感词蕴含了文本中的情感信息,但是在通用预训练任务中情感语义信息并没有被设计学习,因此可以通过向模型中引入情感先验知识进行训练从而提高模型情感分析的能力。通过从大规模语料(比如约为十万级别的语料)中提取包括情感词、情感词性在内的先验知识,并在预训练任务中的掩码预测时添加情感词及情感词词性预测任务,用于增强模型情感分析能力。例如,如图1所示的基于情感知识增强的预训练语言模型的具体算法流程示意图,使用了两种情感知识:情感词(Sentiment Word)以及属性词-情感词对(Aspect-sentiment Pair),并设计了三种训练目标。如图1所示,在进行训练时,情感词以及属性词-情感词对会被屏蔽(MASK)掉,然后模型将预测:情感词,情感词的情感倾向,以及属性词-情感词对。首先,情感掩蔽(Sentiment Masking)识别输入序列中的情感信息,基于自动挖掘的情感知识,并通过删除这些信息产生一个损坏的版本。然后,情感预测(Sentiment Prediction)目标要求翻译编码器(Transformer Encoder)从损坏的版本中恢复删除的信息。最上面的三个预测目标是共同优化的:情绪词预测(在x9上),词极性(在x6和x9),属性词-情感词对的预测(x1),其中笑脸符号表示正极性。
第二种为基于微调阶段增强模型的方法。由于基于预训练阶段增强模型的方法成本较高,一些方法主要基于微调阶段对模型进行结构上的改进,从而调高模型在文本匹配任务上的效果。以在微调阶段在模型设计中引入主题模型为例,考虑到文本中蕴含的主题信息是文本主题的直观语义表达,而BERT模型并没有显式建模学习文本中的主题信息,因此考虑融合主题信息用于辅助文本匹配任务判断。例如,如图2所示的基于主题模型增强的文本匹配模型示意图,通过分别从两个文本S1、S2中基于主题模型提取主题信息,并进一步将基于BERT学习的匹配信息与主题信息进行融合,从而提高文本匹配判断的准确性。
其中,基于预训练阶段增强训练的方法需要根据下游文本匹配任务的特点设计一致的预训练策略,并需要构建大规模预训练语料(比如大约需要构建十万级别的语料)进行训练,成本高昂,且复杂度较高,而且在下游仍需要大量标签数据进行微调才能达到较优效果。
其中,基于微调阶段增强模型的方法需要设计额外的复杂网络结构或者模型,一方面需要对设计的网络结构进行调整测试才能保证有效性,另一方面提高了模型复杂度,并增加了设计及训练成本。
因此,本申请实施例提出了一种基于原始样本构建句对相似模式来增强模型文本匹配效果的微调方法。本申请实施例在数据方面引入低成本构建的句对相似模式,并在训练方面设计多种训练方式,能在不改动模型结构的基础上仅通过数据和训练方式的改进,来提高在文本匹配任务上的效果。本申请实施例既不需要在预训练阶段进行预训练策略设计、大量预训练语料的构建,也不需要在微调阶段进行复杂网络结构的设计,极大的节省了成本、减小了复杂度。即该方法无需设计预训练模型的复杂预训练方式,也无需在微调阶段添加额外的网络结构,可以通过高效、低成本的方式提升效果。而文本匹配任务作为自然语言处理的基本任务之一,适用于下游的大量应用场景,在文本匹配任务上的文本匹配效果的提升具有较大实际价值。
如果采用基于预训练阶段增强训练的方法,大约需要构建十万级别的语料用于预训练,而本案不需要这个预训练语料的构建过程。
具体的,本申请实施例提出了基于近义词遮掩的句对相似模式的构建方法,该方法通过近义词对遮掩构造句对相似模式,并将句对相似模式分别应用在训练和推断阶段,充分探究了近义词遮掩构造的句对相似模式对文本匹配效果的影响。
可选的,还设计了基于词性约束的近义词或同义词遮掩句对相似模式的构建方法,该方法通过对特定词性的近义词对或者同义词对进行遮掩来构建句对相似模式,确定了遮掩不同词性近义词对或者同义词对的相似模式对模型效果的影响。
可选的,还提出了基于原始句对以及句对相似模式共同训练的混合策略,设计了模型同时学习原始句对以及句对相似模式的方式,以及模型分别学习原始句对以及句对相似模式的方式,并确定提高文本匹配效果的较佳训练方式。
本申请实施例可以被使用在所有需要判断文本匹配的产品中,比如对话系统、搜索系统、问答系统等。本申请可以提高模型在文本匹配任务中的文本匹配效果,无需设计复杂的预训练方式,无需添加额外的复杂神经网络,以低成本、高效率的方式提高多种实际自然语言处理任务中文本匹配的准确率。
本申请实施例主要基于近义词对遮掩构造句对相似模式,并引入了基于词性约束的句对相似模式构建以及混合训练策略,用于增强模型在文本匹配任务上的效果。
请参阅图3,图3为本申请实施例提供的文本匹配方法的应用场景示意图。以该文本匹配方法由计算机设备执行为例,其中,该计算机设备可以为终端或者服务器等设备。该文本匹配方法在由计算机设备执行的过程中,包含了目标模型的训练过程和利用目标模型对待测文本对进行文本匹配以确定待测文本对的相似度标签的预测过程。在训练阶段时,计算机设备获取原始样本集,原始样本集中的每一原始样本包括第一样本文本和第二样本文本,以及第一样本文本和第二样本文本的真实相似度标签;对原始样本集中的每一原始样本进行目标词遮掩处理,以构建原始样本集对应的句对相似模式样本集,句对相似模式样本集中包含有与每一原始样本对应的具有真实相似度标签的句对相似模式样本;根据原始样本集和/或句对相似模式样本集训练目标模型,以得到训练后的目标模型。推断阶段(实际预测过程)时,用户可以通过计算机设备中安装的客户端、浏览器客户端或即时通信客户端上传待测文本对,计算机设备获取用户上传的待测文本对后,进一步对待测文本对进行目标词遮掩处理,以构建待测文本对对应的句对相似模式文本对,并将待测文本对和/或句对相似模式文本对输入训练后的目标模型进行文本匹配,以确定出所述待测文本对的相似度标签。本申请实施例能够直接基于原始样本构建近义词对遮掩构造句对相似模式,并基于句对相似模式训练模型,无需设计复杂的预训练方式,无需添加额外的复杂神经网络,以低成本、高效率的方式提高文本匹配的准确率。
需要说明的是,目标模型的训练过程、实际预测过程可以在服务器中完成,也可以在终端中完成。当模型的训练过程、实际预测过程都在服务器中端完成时,需要使用训练好的目标模型时,可以将待测文本对输入到服务器,服务器实际预测完成后,将得到的预测结果发送至终端进行显示。当模型的训练过程、实际预测过程都在终端中完成时,需要使用训练好的目标模型时,可以将待测文本对输入到终端,终端实际预测完成后,终端将预测结果进行显示。当模型的训练过程在服务器中完成,模型的实际预测过程在终端中完成时,需要使用训练好的目标模型时,可以将待测文本对输入到终端,终端实际预测完成后,终端将预测结果进行显示。可选的,可以将服务器中训练好的模型文件(model文件)移植到终端上,若需要对输入待测文本对进行预测,则将待测文本对输入到训练好的模型文件(model文件),通过计算即可得到预测结果。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优先顺序的限定。
本申请各实施例提供了一种文本匹配方法,该方法可以由终端或服务器执行,也可以由终端和服务器共同执行;本申请实施例以文本匹配方法由服务器执行为例来进行说明。
请参阅图4至图7,图4为本申请实施例提供的文本匹配方法的流程示意图,图5至图7为本申请实施例提供的文本匹配方法的应用场景示意图。方法包括:
步骤401,获取原始样本集,所述原始样本集中的每一原始样本包括第一样本文本和第二样本文本,以及所述第一样本文本和第二样本文本的真实相似度标签。
例如,对于一个原始样本<S1,S2, y’>,其中< S1, S2 >表示需要判断是否相似的句子对,y’表示句子对相似与否的标签,y’为已标注的真实相似度标签。
步骤402,对所述原始样本集中的每一原始样本进行目标词遮掩处理,以构建所述原始样本集对应的句对相似模式样本集,所述句对相似模式样本集中包含有与每一所述原始样本对应的具有所述真实相似度标签的句对相似模式样本。
可选的,所述目标词包括近义词,所述对所述原始样本集中的每一原始样本进行目标词遮掩处理,以构建所述原始样本集对应的句对相似模式样本集,包括:判断每一所述原始样本的所述第一样本文本中的每个单词与所述第二样本文本中每个单词的相似度,以确定每一所述原始样本的所述第一样本文本与所述第二样本文本之间的所有近义词对;将每一所述原始样本的所有近义词对对应的近义词进行遮掩,以构建每一所述原始样本对应的句对相似模式样本,并基于每一所述原始样本对应的句对相似模式样本获得所述句对相似模式样本集。
具体的,可以基于原始样本设计句对相似模式,用于辅助增强模型在文本匹配任务上的能力。不同于只输入原始样本的模式,句对相似模式样本的构建主要基于近义词遮掩。例如,首先,获取原始样本<S1,S2>,并对该原始样本中每个句子的进行分词处理,以得到每个句子对应的单词集合或者单词系列,假设句子S1由单词集合W1={w1,w2,…,wn}所构成,句子S2由单词集合W2={w1,w2,…,wm}所构成,其中n表示句子S1中的单词数,m表示句子S2中的单词数,其中,每一单词可包含1个字、2个字或3个以上的字。然后,进一步判断句子S1中每个单词和句子S2中每个单词的相似度,用于句对间的近义词识别。如果句子S1中的单词wi与句子S2中的单词wj的相似度高于设定的相似阈值λ,则认为wi和wj为一对近义词。找到句子S1和句子S2之间所有的近义词对,并从句子S1和句子S2中去掉与近义词对相对应的近义词,并用“[MASK]”令牌(token)进行替换,即用“[MASK]”遮掩原来的近义词,从而得到句对相似模式<P1,P2>。
例如,如图5所示的基于近义词对遮掩的句对相似模式对应的可视化示意图,原始句对(Original Sentence-Pair)样本包括句子S1和句子S2,得到的句对相似模式(Sentence-Pair Similarity Pattern)样本为<P1,P2>。
例如,句子S1为“Where can I download comics suitable for reading onmobile phones”,句子S1为“How do I read the download comics on my mobilephone”。通过判断句子S1中每个单词和句子S2中每个单词的相似度,找到句子S1和句子S2之间所有的近义词对,比如句子S1中的单词“download”与句子S2中的单词“download”为近义词对,句子S1中的单词“comics”与句子S2中的单词“comics”为近义词对,句子S1中的单词“reading”与句子S2中的单词“read”为近义词对,句子S1中的单词“mobile”与句子S2中的单词“mobile”为近义词对,句子S1中的单词“phones”与句子S2中的单词“phone”为近义词对。然后用[MASK]标志遮掩句子S1和句子S2中的近义词,以得到如图所示的句对相似模式P1和P2。例如,[MASK]标志可以用特定符号表示。
例如,若原始样本集包含有多个原始样本,则需要分别对每一原始样本构建对应的句对相似模式样本。
可选的,在所述确定所述第一样本文本与所述第二样本文本之间的所有近义词对之后,还包括:判断每一所述原始样本的所有近义词对中的近义词的词性是否满足预设词性约束条件;将每一所述原始样本的所有近义词对中词性满足预设词性约束条件的近义词进行遮掩,以构建每一所述原始样本对应的句对相似模式样本,并基于每一所述原始样本对应的句对相似模式样本获得所述句对相似模式样本集。
例如,可以基于词性约束构建句对相似模式,在具有词性约束的条件下,在对近义词对进行遮掩时,需考虑近义词的词性,只有当近义词的词性满足预设词性约束条件时,才对该近义词对进行遮蔽,否则跳过该近义词对不进行遮蔽。例如预设词性约束条件可以包括词性为名词、动词、形容词中的任一种或多种。通过只对词性满足预设词性约束条件的近义词进行遮掩,则可以构建词性约束的句对相似模式样本。例如,只对近义词对中的名词进行遮掩;或者只对近义词对中的动词进行遮掩;或者近义词对中的形容词进行遮掩;或者只对近义词对中的名词和动词进行遮掩;或者只对近义词对中的名词和形容词进行遮掩;或者只对近义词对中的动词和形容词进行遮掩;或者只对近义词对中的名词、动词和形容词进行遮掩等。但在不同的数据集上,是否加入词性约束对效果的影响会有不同,有的数据集是不加入词性约束时效果最好,有的数据集是只是用形容词遮掩时效果最好,具体效果和数据集的特点相关,因此,在对近义词对进行遮掩时,可以根据数据集的特点来确定是否设定词性约束条件。
例如,所述目标词还可以包括同义词,以上实施例描述的近义词对也可以通过同义词对来替换实现。
步骤403,根据所述原始样本集和/或所述句对相似模式样本集训练目标模型,以得到训练后的目标模型。
其中,对于文本匹配任务,给定一个原始样本<S1,S2>,模型需要输出S1和S2是否相似。具体地,将S1和S2拼接之后输入BERT模型(目标模型)中,并根据BERT输出层的“[CLS]”token对应的嵌入(embedding)向量计算相似度标签。
例如,如图6所示,Sentence1和Sentence2分别表示输入句子1和输入句子2,将输入句子1和输入句子2拼接之后输入BERT模型,得到表示这两个句子关系的表征向量C(embedding向量),根据表征向量C进一步计算得到向量的相似度标签。在计算相似度标签时,一般做一个线性映射,将多维向量映射为标量,然后再通过sigmoid函数将相应的标量映射到0-1之间,例如,若标量小于0.5,则设置标签为0(比如0表示不相似),若标量大于0.5,则设置标签为1(比如1表示相似)。
其中,BERT模型是google开源的一个基于Transformer结构的预训练模型,该BERT模型结构由多层的双向Transformer连接而成,有12层和24层两个版本。通过开源的bert接口即可得BERT向量化表示。BERT 的输入可以包含一个句子对 (比如句子1和句子2),也可以是单个句子。此外还增加了一些有特殊作用的标志位:[CLS]标志放在第一个句子的首位,经过BERT得到的表征向量C可以用于后续的分类任务。[SEP] 标志用于分开两个输入句子,例如输入句子 A 和 B,要在句子 A、句子B 后面增加 [SEP] 标志;[UNK]标志指的是未知字符;[MASK] 标志用于遮盖句子中的一些单词,将单词用 [MASK] 遮盖之后,再利用BERT 输出的 [MASK] 向量预测单词是什么。
可选的,所述根据所述原始样本集和/或所述句对相似模式样本集训练目标模型,以得到训练后的目标模型,包括:将所述原始样本集输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型;或者将所述句对相似模式样本集输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型;或者将所述原始样本集与所述句对相似模式样本集输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型。
可选的,所述将所述原始样本集输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型,包括:将所述原始样本集中的每一所述原始样本输入所述目标模型以得到每一所述原始样本的第一相似概率;根据每一所述原始样本对应的所述第一相似概率与所述真实相似度标签计算第一损失函数的值,并根据所述第一损失函数的值优化所述模型参数,以得到训练后的目标模型。
例如,对于一个原始样本<S1,S2, y’>,其中< S1, S2 >表示需要判断是否相似的句子对,y’表示句子对相似与否的标签,y’为已标注的真实相似度标签。对该原始样本<S1, S2 >采用上述近义词遮掩方式得到句对相似模式<P1,P2>。
例如,若只考虑原始样本集作为训练集,则在训练阶段仅采用原始样本作为训练样本,则第一损失函数Lori的定义表示为如下公式(1):
Lori=-logPori(y’|S1,S2;θ) (1)。
其中,ori表示采用原始样本< S1, S2 >作为输入样本;Pori表示根据BERT输出的原始样本< S1, S2 >的相似概率;y’表示句子对相似与否的标签;θ表示目标模型的参数;Pori(y’|S1,S2;θ)表示在给定句子对< S1, S2 >和模型参数θ的情况下,模型输出标签y’的概率(即第一相似概率)。
具体的,将原始样本集中的每一原始样本< S1, S2 >输入目标模型以得到每一原始样本对应的预测为标签y’的概率(即第一相似概率),然后根据每一原始样本对应的预测为标签y’的概率与真实相似度标签y’计算第一损失函数的值,并基于第一损失函数的值反向传播梯度,根据梯度更新模型参数,最终得到训练后的目标模型。
可选的,所述将所述句对相似模式样本集输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型,包括:将所述句对相似模式样本集中的每一所述句对相似模式样本输入所述目标模型以得到每一所述句对相似模式样本的第二相似概率;根据每一所述句对相似模式样本对应的所述第二相似概率与所述真实相似度标签计算第二损失函数的值,并根据所述第二损失函数的值优化所述模型参数,以得到训练后的目标模型。
例如,若只考虑句对相似模式样本集作为训练集,则仅用基于原始样本< S1, S2>构建的句对相似模式样本<P1,P2>作为训练样本,而不采用原始样本作为训练样本,则第二损失函数Lpattern的定义表示为如下公式(2):
Lpattern=-logPpattern (y’|P1,P2;θ) (2)。
其中pattern表示采用句对相似模式样本<P1,P2>作为输入样本;Ppattern表示根据BERT输出的句对相似模式样本<P1,P2>的相似概率;y’表示句子对相似与否的标签;θ表示目标模型的参数;Ppattern (y’|P1,P2;θ)表示在给定句对相似模式样本的句子对<P1,P2>和模型参数θ的情况下,模型输出标签y’的概率(即第二相似概率)。
具体的,将句对相似模式样本集中的每一句对相似模式样本<P1,P2>输入目标模型以得到每一句对相似模式样本<P1,P2>对应的预测为标签y’的概率(即第二相似概率),然后根据每一句对相似模式样本<P1,P2>对应的预测为标签y’的概率与真实相似度标签y’计算第二损失函数的值,并基于第二损失函数的值反向传播梯度,根据梯度更新模型参数,最终得到训练后的目标模型。
可选的,将所述原始样本集与所述句对相似模式样本集输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型,包括:将所述原始样本集与所述句对相似模式样本集作为同一个批次,同时输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型。
可选的,所述将所述原始样本集与所述句对相似模式样本集作为同一个批次,同时输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型,包括:将每一所述原始样本与每一所述原始样本对应的句对相似模式样本作为一个输入参数,将所述输入参数输入所述目标模型以得到每一所述输入参数的第一输出概率,其中,所述第一输出概率为第一相似概率与第二相似概率的平均值,所述第一相似概率为每一所述原始样本单独输入所述目标模型时得到的每一所述原始样本的第一相似概率,所述第二相似概率为每一所述原始样本对应的句对相似模式样本单独输入所述目标模型时得到的每一所述原始样本对应的句对相似模式样本的第二相似概率;根据每一所述输入参数对应的所述第一输出概率与所述真实相似度标签计算第三损失函数的值,并根据所述第三损失函数的值优化所述模型参数,以得到训练后的目标模型。
其中,若仅使用句对相似模式样本集作为训练集,可能会导致原始句子中的关键语义信息丢失,因此,在训练阶段,还可以同时将一个原始样本< S1, S2>及其对应的句对相似模式样本<P1,P2>一起作为一个输入参数,则第三损失函数Ltogether的定义表示为如下公式(3):
Figure 875234DEST_PATH_IMAGE001
(3)。
其中,together表示将原始句对和句对相似模式样本一起作为一个输入样本,输出概率则是对Pori和Ppattern取平均。Pori(y’|S1,S2;θ)表示在给定句子对< S1, S2 >和模型参数θ的情况下,模型输出标签y’的概率(即第一相似概率); Ppattern (y’|P1,P2;θ)表示在给定句对相似模式样本的句子对<P1,P2>和模型参数θ的情况下,模型输出标签y’的概率(即第二相似概率)。
可选的,可以将原始样本作为独立输入样本,也可以将句对相似模式作为独立输入样本,而模型可能会受到学习样本知识先后顺序的影响,因此,可以设置有两种混合训练方式。首先,对于BERT模型,每输入一个批次(Batch)的样本,模型的参数就会更新一次。
可选的,所述将所述原始样本集与所述句对相似模式样本集作为同一个批次,同时输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型,包括:将每一所述原始样本与每一所述原始样本对应的句对相似模式样本同时输入所述目标模型,以得到第一相似概率与第二相似概率,所述第一相似概率为每一所述原始样本单独输入所述目标模型时得到的每一所述原始样本的第一相似概率,所述第二相似概率为每一所述原始样本对应的句对相似模式样本单独输入所述目标模型时得到的每一所述原始样本对应的句对相似模式样本的第二相似概率;根据所述第一相似概率、所述第二相似概率与所述真实相似度标签计算第四损失函数的值,并根据所述第四损失函数的值优化所述模型参数,以得到训练后的目标模型。
例如,第一种混合训练方式为“Simultaneous”(同时),如图7所示的Simultaneous方式,即将原始样本< S1, S2>和对应的句对相似模式样本<P1,P2>放在一个批次之内输入到BERT模型(目标模型)中,使得模型可以同时根据这两种样本的语义信息进行参数更新。例如,在训练阶段,从第一个批次Batch1开始训练,当训练到第N个批次BatchN时,参数更新完成。在训练阶段,每个批次内的第四损失函数Lhybrid_simultaneous的定义可以表示为如下公式(4):
Lhybrid_simultaneous=-logPori(y’|S1,S2;θ) -logPpattern (y’|P1,P2;θ) (4)。
其中,hybrid表示混合训练方式,simultaneous表示同时训练,simultaneous属于混合训练方式的一种。Pori(y’|S1,S2;θ)表示在给定句子对< S1, S2 >和模型参数θ的情况下,模型输出标签y’的概率(即第一相似概率); Ppattern (y’|P1,P2;θ)表示在给定句对相似模式样本的句子对<P1,P2>和模型参数θ的情况下,模型输出标签y’的概率(即第二相似概率)。
例如,同时训练的混合训练方式下,模型参数更新的过程如下:
a)给定模型和模型的输入参数,然后计算模型的输出值,例如,输入参数为放在同一个批次的原始样本< S1, S2>和对应的句对相似模式样本<P1,P2>;
b)根据模型的输出值和真实相似度标签计算损失函数的值;
c)根据损失函数的值反向传播梯度,根据梯度更新模型参数。
由更新过程可知,有损失函数时就有梯度,就需要更新参数。当梯度反向传播到模型的第一层时,参数更新完成。
在训练过程中,每一批次的训练样本集都是原始样本<S1,S2>和对应的句对相似模式<P1,P2>,假设一批次里面有32个样本,那在simultaneous的训练方式下,就有16个原始样本,16个其对应的句对相似模式。
可选的,将所述原始样本集与所述句对相似模式样本集输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型,包括:将所述原始样本集与所述句对相似模式样本集分别作为不同的批次,分别在相邻批次中将所述原始样本集与所述句对相似模式样本集交替输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型。
可选的,所述将所述原始样本集与所述句对相似模式样本集分别作为不同的批次,分别在相邻批次中将所述原始样本集与所述句对相似模式样本集交替输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型,包括:将所述原始样本集中的每一所述原始样本输入所述目标模型以得到每一所述原始样本的第一相似概率,并根据每一所述原始样本对应的所述第一相似概率与所述真实相似度标签计算第五损失函数的值,并根据所述第五损失函数的值优化所述模型参数;将所述句对相似模式样本集中的每一所述句对相似模式样本输入所述目标模型以得到每一所述句对相似模式样本的第二相似概率,并根据每一所述句对相似模式样本对应的所述第二相似概率与所述真实相似度标签计算第六损失函数的值,并根据所述第六损失函数的值优化所述模型参数;根据预设迭代次数,分别在相邻批次中将所述原始样本集与所述句对相似模式样本集交替输入所述目标模型进行模型参数优化训练,直到迭代到所述预设迭代次数,以得到训练后的目标模型。
例如,第二种混合训练方式为“Gradual”(逐步),如图7所示的Gradual方式,即将原始样本< S1, S2>和对应的句对相似模式<P1,P2>放在不同的批次之内输入到BERT模型中,使得模型在第一个批次先根据原始样本信息进行参数更新,在下一个批次根据句对相似模式样本信息进行参数更新。例如,在训练阶段,从第一个批次Batch11开始训练,第一个批次Batch11为原始样本< S1, S2>,第二个批次Batch12为句对相似模式样本<P1,P2>,分别在相邻批次中交替输入原始样本< S1, S2>和句对相似模式样本<P1,P2>,当训练到第2N个批次BatchN2时,参数更新完成。训练阶段,第一个批次内的第五损失函数Lhybrid_gradual的定义可以表示为如下公式(5):
Lhybrid_gradual=-logPori(y’|S1,S2;θ) (5)。
第二个批次内的第六损失函数Lhybrid_gradual的定义可以表示为如下公式(6):
Lhybrid_gradual=-logPpattern(y’|S1,S2;θ) (6)。
其中,hybrid表示混合训练方式,gradual表示逐步训练,gradual属于混合训练方式的一种。Pori(y’|S1,S2;θ)表示在给定句子对< S1, S2 >和模型参数θ的情况下,模型输出标签y’的概率(即第一相似概率); Ppattern (y’|P1,P2;θ)表示在给定句对相似模式样本的句子对<P1,P2>和模型参数θ的情况下,模型输出标签y’的概率(即第二相似概率)。
例如,逐步训练的混合训练方式下,模型参数更新的过程如下:
a)给定模型和模型的第一输入参数,然后计算模型的输出值,例如,第一输入参数为原始样本< S1, S2>;
b)根据模型的输出值和真实相似度标签计算损失函数的值;
c)根据损失函数的值反向传播梯度,根据梯度更新模型参数;
d) 给定模型和模型的第二输入参数,然后计算模型的输出值,例如,第二输入参数与原始样本< S1, S2>对应的句对相似模式样本<P1,P2>,然后返回执行步骤b),根据预设迭代次数,分别在相邻批次中交替输入第一输入参数和第二输入参数,逐步训练模型,直到迭代到预设迭代次数,以完成参数更新。
其中,通过实验结果来看,采用同时(simultaneous)的训练方式时,目标模型的准确率会高于逐步(gradual)的训练方式的准确率0.5-1个点左右,因此simultaneous的训练方式优于gradual的训练方式。
步骤404,基于所述训练后的目标模型对待测文本对进行文本匹配,以确定所述待测文本对的相似度标签。
其中,深度学习在训练阶段完成模型的建立和参数调优,在推断阶段(Inference)完成具体的实现及应用。
例如,对于以上这三种方式:方式一,只考虑原始样本集;方式二,只考虑句对相似模式样本集;方式三,同时考虑原始样本集与句对相似模式样本集;在推断阶段,利用训练后的目标模型对待测文本对进行文本匹配时,输出的待测文本对的相似度标签,则是将最大相似概率对应的标签作为待测文本对的相似度标签,具体可分别参以下公式(7)、(8)、(9):
y’ori=argmax(Pori) (7);
y’pattern=argmax(P pattern) (8);
Figure 4864DEST_PATH_IMAGE002
(9)。
其中,y’ori表示采用原始样本< S1, S2>作为输入样本时,在推断阶段输出的待测文本对的相似度标签,具体为在推断阶段通过训练后的目标模型计算待测文本对中的第一文本和第二文本的相似概率Pori,然后将最大相似概率argmax(Pori)对应的标签作为待测文本对的相似度标签y’ori;y’pattern表示采用句对相似模式<P1,P2>作为输入样本时,在推断阶段输出的待测文本对的相似度标签,具体为在推断阶段先对待测文本对中的第一文本和第二文本进行目标词遮掩处理,得到所述待测文本对对应的句对相似模式文本对,然后通过训练后的目标模型计算所述待测文本对对应的句对相似模式文本对中的第一句对相似模式文本和第二句对相似模式文本的相似概率P pattern,然后将最大相似概率argmax(P pattern)对应的标签作为待测文本对的相似度标签y’ori;y’together表示将原始句对和句对相似模式一起作为一个输入样本时,在推断阶段输出的待测文本对的相似度标签,具体为在推断阶段,可以先通过训练后的目标模型单独计算待测文本对中的第一文本和第二文本的相似概率Pori,以及通过训练后的目标模型单独计算所述待测文本对对应的句对相似模式文本对中的第一句对相似模式文本和第二句对相似模式文本的相似概率P pattern,然后根据Pori和Ppattern的平均值的最大值
Figure 147132DEST_PATH_IMAGE003
对应的标签作为待测文本对的相似度标签y’together
例如,对于以上同时训练和逐步训练的两种混合训练方式分别训练后得到的目标模型,在推断阶段输出待测文本对的相似度标签,则是将最大相似概率对应的标签作为待测文本对的相似度标签,具体可分别参以下公式(10):
y’=argmax(P) (10)。
其中,y’表示待测文本对的相似度标签,其中P表示相似概率。
其中,相似度标签用于反映待测文本对中的第一文本和第二文本的相似程度,相似度标签,可以设置为一个数字。假设用数字1表示待测文本对中的第一文本和第二文本很相似,用数字0表示待测文本对中的第一文本和第二文本不相似。
另外,本方法的硬件要求较低,运行环境适用性广泛,在普通的服务器环境即可训练和部署上线,例如,具体的软硬件环境要求如表1:
表1
操作系统 内存 语言环境
Linux > 16G Python/c++
本申请实施例能够直接基于原始样本构建句对相似模式,并将句对相似模式引入到模型训练和推断阶段,从而增强模型在文本匹配任务上的效果。无需在预训练阶段进行复杂训练方案设计、大量训练语料进行预训练,也无需在微调阶段添加复杂神经网络结构,在带来效果提升的同时节约成本、减小复杂度。本申请实施例可以增强文本匹配任务的效果,可以应用于所有需要进行文本匹配判断的产品中,比如对话系统、搜索系统、问答系统等。
本申请实施例不仅可以用于句对相似性判断类型的短文本匹配任务,同样适用于由多个句子构成的句段类型的文本匹配任务,本申请实施例提出的基于文本之间近义词遮掩、词性约束下的近义词遮掩以及混合训练方式,适用于所有类似的文本匹配任务。本申请实施例提出的是一种通用的构建句对相似模式增强模型在文本匹配任务效果的方法,因而对于基于句对相似模式构建增强文本匹配任务表现的应用均在本申请保护范围之内。
上述所有的技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
本申请实施例通过获取原始样本集,原始样本集中的每一原始样本包括第一样本文本和第二样本文本,以及第一样本文本和第二样本文本的真实相似度标签;对原始样本集中的每一原始样本进行目标词遮掩处理,以构建原始样本集对应的句对相似模式样本集,句对相似模式样本集中包含有与每一原始样本对应的具有真实相似度标签的句对相似模式样本;根据原始样本集和/或句对相似模式样本集训练目标模型,以得到训练后的目标模型;基于训练后的目标模型对待测文本对进行文本匹配,以确定待测文本对的相似度标签。本申请实施例能够直接基于原始样本构建近义词对遮掩构造句对相似模式,并基于句对相似模式训练模型,无需设计复杂的预训练方式,无需添加额外的复杂神经网络,以低成本、高效率的方式提高文本匹配的准确率。
其中,本申请实施例可结合云技术或区块链网络技术实现,云技术(Cloudtechnology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站,因此云技术需要以云计算作为支撑。
需要说明的是,云计算是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。作为云计算的基础能力提供商,会建立云计算资源池平台,简称云平台,一般称为基础设施即服务(Infrastructure as a Service,IaaS),在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(可为虚拟化机器,包含操作系统)、存储设备和网络设备。
为了便于实现对待测文本对对应的句对相似模式文本对、训练后的目标模型以及待测文本对的相似度标签的存储和查询,可选的,该文本匹配方法还包括:将待测文本对对应的句对相似模式文本对、训练后的目标模型以及待测文本对的相似度标签发送至区块链网络中,以使区块链网络的节点将待测文本对对应的句对相似模式文本对、训练后的目标模型以及待测文本对的相似度标签填充至新区块,且当对新区块取得共识一致时,将新区块追加至区块链的尾部。
接下来对本申请实施例中的区块链网络进行说明。参见图8,图8为本申请实施例提供的区块链网络的应用架构示意图,包括区块链网络81(示例性示出了共识节点810-1至共识节点810-3)、认证中心82、业务主体83和业务主体84,下面分别进行说明。
区块链网络81的类型是灵活多样的,例如可以为公有链、私有链或联盟链中的任意一种。以公有链为例,任何业务主体的计算机设备例如用户终端和服务器(比如云端服务器),都可以在不需要授权的情况下接入区块链网络81;以联盟链为例,业务主体在获得授权后其下辖的计算机设备(例如终端/服务器)可以接入区块链网络81,此时,如成为区块链网络81中的客户端节点,这里客户端指示用于获取待测文本对的应用客户端。
可选的,客户端节点可以只作为区块链网络81的观察者,即提供支持业务主体发起交易(例如,用于上链存储数据或查询链上数据)的功能,对于区块链网络81中的共识节点810的功能,例如排序功能、共识服务和账本功能等,客户端节点可以缺省或者有选择性(例如取决于业务主体的具体业务需求)地实施。从而,可以将业务主体的数据和业务处理逻辑最大程度迁移到区块链网络81中,通过区块链网络81实现数据和业务处理过程的可信和可追溯。
区块链网络81中的共识节点接收来自不同业务主体(例如图8中示出的业务主体83和业务主体84)的客户端节点(例如,图8中示出的归属于业务主体83的客户端节点830、以及归属于业务主体84的客户端节点840)提交的交易,执行交易以更新账本或者查询账本,执行交易的各种中间结果或最终结果可以返回业务主体的客户端节点中进行显示。
例如,客户端节点830/840可以订阅区块链网络81中感兴趣的事件,例如区块链网络81中特定的组织/通道中发生的交易,由共识节点810推送相应的交易通知至客户端节点830/840,从而触发客户端节点830/840中相应的业务逻辑。
下面以多个业务主体接入区块链网络以实现待测文本对对应的句对相似模式文本对、训练后的目标模型以及待测文本对的相似度标签的管理为例,说明区块链网络的示例性应用。参见图8,管理环节涉及的多个业务主体,如业务主体83和业务主体84均可以是视频识别装置对应的客户端,从认证中心82进行登记注册获得各自的数字证书,数字证书中包括业务主体的公钥、以及认证中心82对业务主体的公钥和身份信息签署的数字签名,用来与业务主体针对交易的数字签名一起附加到交易中,并被发送到区块链网络,以供区块链网络从交易中取出数字证书和签名,验证消息的可靠性(即是否未经篡改)和发送消息的业务主体的身份信息,区块链网络81将根据身份进行验证,例如是否具有发起交易的权限。业务主体下辖的计算机设备(例如终端或者服务器)运行的客户端都可以向区块链网络81请求接入而成为客户端节点。
业务主体83的客户端节点830用于获取待测文本对,对待测文本对进行目标词遮掩处理,以构建待测文本对对应的句对相似模式文本对,并将待测文本对和/或句对相似模式文本对输入训练后的目标模型进行文本匹配,以确定出所述待测文本对的相似度标签。业务主体83的客户端节点830还用于将待测文本对对应的句对相似模式文本对、训练后的目标模型以及待测文本对的相似度标签发送至区块链网络81。
其中,将待测文本对对应的句对相似模式文本对、训练后的目标模型以及待测文本对的相似度标签发送至区块链网络81的操作,可以预先在客户端节点830设置业务逻辑,当查找到有待测文本对对应的句对相似模式文本对、训练后的目标模型以及待测文本对的相似度标签时,客户端节点830将待测文本对对应的句对相似模式文本对、训练后的目标模型以及待测文本对的相似度标签自动发送至区块链网络81,也可以由业务主体83的业务人员在客户端节点830中登录,手动打包待测文本对对应的句对相似模式文本对、训练后的目标模型以及待测文本对的相似度标签,并将其发送至区块链网络81。在发送时,客户端节点830根据待测文本对对应的句对相似模式文本对、训练后的目标模型以及待测文本对的相似度标签生成对应更新操作的交易,在交易中指定了实现更新操作需要调用的智能合约、以及向智能合约传递的参数,交易中还携带了客户端节点830的数字证书、签署的数字签名(例如,使用客户端节点830的数字证书中的私钥,对交易的摘要进行加密得到),并将交易广播到区块链网络81中的共识节点810。
区块链网络81中的共识节点810接收到交易时,对交易携带的数字证书和数字签名进行验证,验证成功后,根据交易中携带的业务主体83的身份,确认业务主体83是否是具有交易权限,数字签名和权限验证中的任何一个验证判断都将导致交易失败。验证成功后签署节点810自己的数字签名(例如,使用节点810-1的私钥对交易的摘要进行加密得到),并继续在区块链网络81中广播。
区块链网络81中的共识节点810接收到验证成功的交易后,将交易填充到新的区块中并进行广播。区块链网络81中的共识节点810广播新区块时,会对新区块进行共识过程,如果共识成功,则将新区块追加到自身所存储的区块链的尾部,并根据交易的结果更新状态数据库,执行新区块中的交易:对于提交存储待测文本对对应的句对相似模式文本对、训练后的目标模型以及待测文本对的相似度标签的交易,在状态数据库中添加包括待测文本对对应的句对相似模式文本对、训练后的目标模型以及待测文本对的相似度标签的键值对。
业务主体84的业务人员在客户端节点840中登录,输入待测文本对对应的句对相似模式文本对、训练后的目标模型以及待测文本对的相似度标签的查询请求,客户端节点840根据待测文本对对应的句对相似模式文本对、训练后的目标模型以及待测文本对的相似度标签的查询请求生成对应更新操作/查询操作的交易,在交易中指定了实现更新操作/查询操作需要调用的智能合约、以及向智能合约传递的参数,交易还携带了客户端节点840的数字证书、签署的数字签名(例如,使用客户端节点840的数字证书中的私钥,对交易的摘要进行加密得到),并将交易广播到区块链网络81中的共识节点810。
区块链网络81中的共识节点810接收到交易,对交易进行验证、区块填充及共识一致后,将填充的新区块追加到自身所存储的区块链的尾部,并根据交易的结果更新状态数据库,执行新区块中的交易:对于提交的对待测文本对进行文本匹配的交易,根据确定的待测文本对的相似度标签更新状态数据库中待测文本对对应的键值对;对于提交的查询待测文本对的相似度标签的交易,从状态数据库中查询待测文本对的相似度标签的键值对,并返回交易结果。
作为区块链的示例,参见图9,图9为本申请实施例提供的区块链网络81中区块链的一个可选的结构示意图,每个区块的头部既可以包括区块中所有交易的哈希值,同时也包含前一个区块中所有交易的哈希值,新产生的交易的记录被填充到区块并经过区块链网络中节点的共识后,将被追加到区块链的尾部从而形成链式的增长,各区块之间基于哈希值的链式结构,保证了区块中交易的防篡改和防伪造。
下面说明本申请实施例提供的区块链网络的示例性功能架构,参见图10,图10为本申请实施例提供的区块链网络81的功能架构示意图,包括应用层801、共识层802、网络层803、数据层804和资源层805,下面分别进行说明。
资源层805封装了实现区块链网络81中的各个节点810的计算资源、存储资源和通信资源。
数据层804封装了实现账本的各种数据结构,包括以文件系统中的文件实现的区块链,键值型的状态数据库和存在性证明(例如区块中交易的哈希树)。
网络层803封装了点对点(P2P,Point to Point)网络协议、数据传播机制和数据验证机制、接入认证机制和业务主体身份管理的功能。
其中,P2P网络协议实现区块链网络81中节点810之间的通信,数据传播机制保证了交易在区块链网络81中的传播,数据验证机制用于基于加密学方法(例如数字证书、数字签名、公/私钥对)实现节点810之间传输数据的可靠性;接入认证机制用于根据实际的业务场景对加入区块链网络81的业务主体的身份进行认证,并在认证通过时赋予业务主体接入区块链网络81的权限;业务主体身份管理用于存储允许接入区块链网络81的业务主体的身份、以及权限(例如能够发起的交易的类型)。
共识层802封装了区块链网络81中的节点810对区块达成一致性的机制(即共识机制)、交易管理和账本管理的功能。共识机制包括POS、POW和DPOS等共识算法,支持共识算法的可插拔。
交易管理用于验证节点810接收到的交易中携带的数字签名,验证业务主体的身份信息,并根据身份信息判断确认其是否具有权限进行交易(从业务主体身份管理读取相关信息);对于获得接入区块链网络81的授权的业务主体而言,均拥有认证中心颁发的数字证书,业务主体利用自己的数字证书中的私钥对提交的交易进行签名,从而声明自己的合法身份。
账本管理用于维护区块链和状态数据库。对于取得共识的区块,追加到区块链的尾部;执行取得共识的区块中的交易,当交易包括更新操作时更新状态数据库中的键值对,当交易包括查询操作时查询状态数据库中的键值对并向业务主体的客户端节点返回查询结果。支持对状态数据库的多种维度的查询操作,包括:根据区块向量号(例如交易的哈希值)查询区块;根据区块哈希值查询区块;根据交易向量号查询区块;根据交易向量号查询交易;根据业务主体的账号(向量号)查询业务主体的账号数据;根据通道名称查询通道中的区块链。
应用层801封装了区块链网络能够实现的各种业务,包括交易的溯源、存证和验证等。
本申请实施例可以将终端获取的待测文本对对应的句对相似模式文本对、训练后的目标模型以及待测文本对的相似度标签上链存储,实现记录的备份,当用户再次查询待测文本对的相似度标签时,可直接、快速地从区块链上获取相应的内容,而再无需再次对待测文本对进行一系列处理后,才能够获得待测文本对的相似度标签,从而提高数据获取效率。
为便于更好的实施本申请实施例的文本匹配方法,本申请实施例还提供一种文本匹配装置。请参阅图11,图11为本申请实施例提供的文本匹配装置的结构示意图。其中,该文本匹配装置1100可以包括:
获取单元1101,用于获取原始样本集,所述原始样本集中的每一原始样本包括第一样本文本和第二样本文本,以及所述第一样本文本和第二样本文本的真实相似度标签;
构建单元1102,用于对所述原始样本集中的每一原始样本进行目标词遮掩处理,以构建所述原始样本集对应的句对相似模式样本集,所述句对相似模式样本集中包含有与每一所述原始样本对应的具有所述真实相似度标签的句对相似模式样本;
训练单元1103,用于根据所述原始样本集和/或所述句对相似模式样本集训练目标模型,以得到训练后的目标模型;
匹配单元1104,用于基于所述训练后的目标模型对待测文本对进行文本匹配,以确定所述待测文本对的相似度标签。
可选的,所述目标词包括近义词,构建单元1102,用于:判断每一所述原始样本的所述第一样本文本中的每个单词与所述第二样本文本中每个单词的相似度,以确定每一所述原始样本的所述第一样本文本与所述第二样本文本之间的所有近义词对;将每一所述原始样本的所有近义词对对应的近义词进行遮掩,以构建每一所述原始样本对应的句对相似模式样本,并基于每一所述原始样本对应的句对相似模式样本获得所述句对相似模式样本集。
可选的,构建单元1102在所述确定所述第一样本文本与所述第二样本文本之间的所有近义词对之后,还可以用于:判断每一所述原始样本的所有近义词对中的近义词的词性是否满足预设词性约束条件;将每一所述原始样本的所有近义词对中词性满足预设词性约束条件的近义词进行遮掩,以构建每一所述原始样本对应的句对相似模式样本,并基于每一所述原始样本对应的句对相似模式样本获得所述句对相似模式样本集。
可选的,训练单元1103,用于:将所述原始样本集输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型;或者将所述句对相似模式样本集输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型;或者将所述原始样本集与所述句对相似模式样本集输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型。
可选的,训练单元1103在将所述原始样本集输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型时,可以用于:将所述原始样本集中的每一所述原始样本输入所述目标模型以得到每一所述原始样本的第一相似概率;根据每一所述原始样本对应的所述第一相似概率与所述真实相似度标签计算第一损失函数的值,并根据所述第一损失函数的值优化所述模型参数,以得到训练后的目标模型。
可选的,训练单元1103在将所述句对相似模式样本集输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型时,可以用于:将所述句对相似模式样本集中的每一所述句对相似模式样本输入所述目标模型以得到每一所述句对相似模式样本的第二相似概率;根据每一所述句对相似模式样本对应的所述第二相似概率与所述真实相似度标签计算第二损失函数的值,并根据所述第二损失函数的值优化所述模型参数,以得到训练后的目标模型。
可选的,训练单元1103在将所述原始样本集与所述句对相似模式样本集输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型时,可以用于:将所述原始样本集与所述句对相似模式样本集作为同一个批次,同时输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型。
可选的,训练单元1103在将所述原始样本集与所述句对相似模式样本集作为同一个批次,同时输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型时,可以用于:将每一所述原始样本与每一所述原始样本对应的句对相似模式样本作为一个输入参数,将所述输入参数输入所述目标模型以得到每一所述输入参数的第一输出概率,其中,所述第一输出概率为第一相似概率与第二相似概率的平均值,所述第一相似概率为每一所述原始样本单独输入所述目标模型时得到的每一所述原始样本的第一相似概率,所述第二相似概率为每一所述原始样本对应的句对相似模式样本单独输入所述目标模型时得到的每一所述原始样本对应的句对相似模式样本的第二相似概率;根据每一所述输入参数对应的所述第一输出概率与所述真实相似度标签计算第三损失函数的值,并根据所述第三损失函数的值优化所述模型参数,以得到训练后的目标模型。
可选的,训练单元1103在将所述原始样本集与所述句对相似模式样本集作为同一个批次,同时输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型时,可以用于:将每一所述原始样本与每一所述原始样本对应的句对相似模式样本同时输入所述目标模型,以得到第一相似概率与第二相似概率,所述第一相似概率为每一所述原始样本单独输入所述目标模型时得到的每一所述原始样本的第一相似概率,所述第二相似概率为每一所述原始样本对应的句对相似模式样本单独输入所述目标模型时得到的每一所述原始样本对应的句对相似模式样本的第二相似概率;根据所述第一相似概率、所述第二相似概率与所述真实相似度标签计算第四损失函数的值,并根据所述第四损失函数的值优化所述模型参数,以得到训练后的目标模型。
可选的,训练单元1103在将所述原始样本集与所述句对相似模式样本集输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型时,可以用于:将所述原始样本集与所述句对相似模式样本集分别作为不同的批次,分别在相邻批次中将所述原始样本集与所述句对相似模式样本集交替输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型。
可选的,训练单元1103在将所述原始样本集与所述句对相似模式样本集分别作为不同的批次,分别在相邻批次中将所述原始样本集与所述句对相似模式样本集交替输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型时,可以用于:将所述原始样本集中的每一所述原始样本输入所述目标模型以得到每一所述原始样本的第一相似概率,并根据每一所述原始样本对应的所述第一相似概率与所述真实相似度标签计算第五损失函数的值,并根据所述第五损失函数的值优化所述模型参数;将所述句对相似模式样本集中的每一所述句对相似模式样本输入所述目标模型以得到每一所述句对相似模式样本的第二相似概率,并根据每一所述句对相似模式样本对应的所述第二相似概率与所述真实相似度标签计算第六损失函数的值,并根据所述第六损失函数的值优化所述模型参数;根据预设迭代次数,分别在相邻批次中将所述原始样本集与所述句对相似模式样本集交替输入所述目标模型进行模型参数优化训练,直到迭代到所述预设迭代次数,以得到训练后的目标模型。
需要说明的是,本申请实施例中的文本匹配装置1100中各模块的功能可对应参考上述各方法实施例中任意实施例的具体实现方式,这里不再赘述。
上述文本匹配装置中的各个单元可全部或部分通过软件、硬件及其组合来实现。上述各个单元可以以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行上述各个单元对应的操作。
文本匹配装置1100例如可以集成在具备储存器并安装有处理器而具有运算能力的终端或服务器中,或者该文本匹配装置1100为该终端或服务器。该终端可以为智能手机、平板电脑、笔记本电脑、智能电视、智能音箱、穿戴式智能设备、个人计算机(PersonalComputer,PC)等设备,终端还可以包括客户端,该客户端可以是视频客户端、浏览器客户端或即时通信客户端等。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
图12为本申请实施例提供的文本匹配装置的另一示意性结构图,如图12所示,文本匹配装置1200可以包括:通信接口1201,存储器1202 ,处理器1203 和通信总线1204。通信接口1201,存储器1202 ,处理器1203 通过通信总线1204 实现相互间的通信。通信接口1201用于装置1200与外部设备进行数据通信。存储器1202 可用于存储软件程序以及模块,处理器1203 通过运行存储在存储器1202 的软件程序以及模块,例如前述方法实施例中的相应操作的软件程序。
可选的,该处理器1203可以调用存储在存储器1202 的软件程序以及模块执行如下操作:获取原始样本集,所述原始样本集中的每一原始样本包括第一样本文本和第二样本文本,以及所述第一样本文本和第二样本文本的真实相似度标签;对所述原始样本集中的每一原始样本进行目标词遮掩处理,以构建所述原始样本集对应的句对相似模式样本集,所述句对相似模式样本集中包含有与每一所述原始样本对应的具有所述真实相似度标签的句对相似模式样本;根据所述原始样本集和/或所述句对相似模式样本集训练目标模型,以得到训练后的目标模型;基于所述训练后的目标模型对待测文本对进行文本匹配,以确定所述待测文本对的相似度标签。
可选的,文本匹配装置1200例如可以集成在具备储存器并安装有处理器而具有运算能力的终端或服务器中,或者该文本匹配装置1200为该终端或服务器。该终端可以为智能手机、平板电脑、笔记本电脑、智能电视、智能音箱、穿戴式智能设备、个人计算机等设备。该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
可选的,本申请还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
本申请实施例还提供了一种计算机可读存储介质,用于存储计算机程序。该计算机可读存储介质可应用于计算机设备,且该计算机程序使得计算机设备执行本申请实施例中的文本匹配方法中的相应流程,为了简洁,在此不再赘述。
本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得计算机设备执行本申请实施例中的文本匹配方法中的相应流程,为了简洁,在此不再赘述。
本申请实施例还提供了一种计算机程序,该计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得计算机设备执行本申请实施例中的文本匹配方法中的相应流程,为了简洁,在此不再赘述。
应理解,本申请实施例的处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
可以理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DR RAM)。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
应理解,上述存储器为示例性但不是限制性说明,例如,本申请实施例中的存储器还可以是静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synch link DRAM,SLDRAM)以及直接内存总线随机存取存储器(Direct Rambus RAM,DR RAM)等等。也就是说,本申请实施例中的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (14)

1.一种文本匹配方法,其特征在于,所述方法包括:
获取原始样本集,所述原始样本集中的每一原始样本包括第一样本文本和第二样本文本,以及所述第一样本文本和第二样本文本的真实相似度标签;
对所述原始样本集中的每一原始样本进行目标词遮掩处理,以构建所述原始样本集对应的句对相似模式样本集,所述句对相似模式样本集中包含有与每一所述原始样本对应的具有所述真实相似度标签的句对相似模式样本;
根据所述原始样本集和/或所述句对相似模式样本集训练目标模型,以得到训练后的目标模型;
基于所述训练后的目标模型对待测文本对进行文本匹配,以确定所述待测文本对的相似度标签。
2.如权利要求1所述的文本匹配方法,其特征在于,所述目标词包括近义词,所述对所述原始样本集中的每一原始样本进行目标词遮掩处理,以构建所述原始样本集对应的句对相似模式样本集,包括:
判断每一所述原始样本的所述第一样本文本中的每个单词与所述第二样本文本中每个单词的相似度,以确定每一所述原始样本的所述第一样本文本与所述第二样本文本之间的所有近义词对;
将每一所述原始样本的所有近义词对对应的近义词进行遮掩,以构建每一所述原始样本对应的句对相似模式样本,并基于每一所述原始样本对应的句对相似模式样本获得所述句对相似模式样本集。
3.如权利要求2所述的文本匹配方法,其特征在于,在所述确定所述第一样本文本与所述第二样本文本之间的所有近义词对之后,还包括:
判断每一所述原始样本的所有近义词对中的近义词的词性是否满足预设词性约束条件;
将每一所述原始样本的所有近义词对中词性满足预设词性约束条件的近义词进行遮掩,以构建每一所述原始样本对应的句对相似模式样本,并基于每一所述原始样本对应的句对相似模式样本获得所述句对相似模式样本集。
4.如权利要求1所述的文本匹配方法,其特征在于,所述根据所述原始样本集和/或所述句对相似模式样本集训练目标模型,以得到训练后的目标模型,包括:
将所述原始样本集输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型;或者
将所述句对相似模式样本集输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型;或者
将所述原始样本集与所述句对相似模式样本集输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型。
5.如权利要求4所述的文本匹配方法,其特征在于,所述将所述原始样本集输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型,包括:
将所述原始样本集中的每一所述原始样本输入所述目标模型以得到每一所述原始样本的第一相似概率;
根据每一所述原始样本对应的所述第一相似概率与所述真实相似度标签计算第一损失函数的值,并根据所述第一损失函数的值优化所述模型参数,以得到训练后的目标模型。
6.如权利要求4所述的文本匹配方法,其特征在于,所述将所述句对相似模式样本集输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型,包括:
将所述句对相似模式样本集中的每一所述句对相似模式样本输入所述目标模型以得到每一所述句对相似模式样本的第二相似概率;
根据每一所述句对相似模式样本对应的所述第二相似概率与所述真实相似度标签计算第二损失函数的值,并根据所述第二损失函数的值优化所述模型参数,以得到训练后的目标模型。
7.如权利要求4所述的文本匹配方法,其特征在于,将所述原始样本集与所述句对相似模式样本集输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型,包括:
将所述原始样本集与所述句对相似模式样本集作为同一个批次,同时输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型。
8.如权利要求7所述的文本匹配方法,其特征在于,所述将所述原始样本集与所述句对相似模式样本集作为同一个批次,同时输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型,包括:
将每一所述原始样本与每一所述原始样本对应的句对相似模式样本作为一个输入参数,将所述输入参数输入所述目标模型以得到每一所述输入参数的第一输出概率,其中,所述第一输出概率为第一相似概率与第二相似概率的平均值,所述第一相似概率为每一所述原始样本单独输入所述目标模型时得到的每一所述原始样本的第一相似概率,所述第二相似概率为每一所述原始样本对应的句对相似模式样本单独输入所述目标模型时得到的每一所述原始样本对应的句对相似模式样本的第二相似概率;
根据每一所述输入参数对应的所述第一输出概率与所述真实相似度标签计算第三损失函数的值,并根据所述第三损失函数的值优化所述模型参数,以得到训练后的目标模型。
9.如权利要求7所述的文本匹配方法,其特征在于,所述将所述原始样本集与所述句对相似模式样本集作为同一个批次,同时输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型,包括:
将每一所述原始样本与每一所述原始样本对应的句对相似模式样本同时输入所述目标模型,以得到第一相似概率与第二相似概率,所述第一相似概率为每一所述原始样本单独输入所述目标模型时得到的每一所述原始样本的第一相似概率,所述第二相似概率为每一所述原始样本对应的句对相似模式样本单独输入所述目标模型时得到的每一所述原始样本对应的句对相似模式样本的第二相似概率;
根据所述第一相似概率、所述第二相似概率与所述真实相似度标签计算第四损失函数的值,并根据所述第四损失函数的值优化所述模型参数,以得到训练后的目标模型。
10.如权利要求4所述的文本匹配方法,其特征在于,将所述原始样本集与所述句对相似模式样本集输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型,包括:
将所述原始样本集与所述句对相似模式样本集分别作为不同的批次,分别在相邻批次中将所述原始样本集与所述句对相似模式样本集交替输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型。
11.如权利要求10所述的文本匹配方法,其特征在于,所述将所述原始样本集与所述句对相似模式样本集分别作为不同的批次,分别在相邻批次中将所述原始样本集与所述句对相似模式样本集交替输入所述目标模型进行模型参数优化训练,以得到训练后的目标模型,包括:
将所述原始样本集中的每一所述原始样本输入所述目标模型以得到每一所述原始样本的第一相似概率,并根据每一所述原始样本对应的所述第一相似概率与所述真实相似度标签计算第五损失函数的值,并根据所述第五损失函数的值优化所述模型参数;
将所述句对相似模式样本集中的每一所述句对相似模式样本输入所述目标模型以得到每一所述句对相似模式样本的第二相似概率,并根据每一所述句对相似模式样本对应的所述第二相似概率与所述真实相似度标签计算第六损失函数的值,并根据所述第六损失函数的值优化所述模型参数;
根据预设迭代次数,分别在相邻批次中将所述原始样本集与所述句对相似模式样本集交替输入所述目标模型进行模型参数优化训练,直到迭代到所述预设迭代次数,以得到训练后的目标模型。
12.一种文本匹配装置,其特征在于,所述装置包括:
获取单元,用于获取原始样本集,所述原始样本集中的每一原始样本包括第一样本文本和第二样本文本,以及所述第一样本文本和第二样本文本的真实相似度标签;
构建单元,用于对所述原始样本集中的每一原始样本进行目标词遮掩处理,以构建所述原始样本集对应的句对相似模式样本集,所述句对相似模式样本集中包含有与每一所述原始样本对应的具有所述真实相似度标签的句对相似模式样本;
训练单元,用于根据所述原始样本集和/或所述句对相似模式样本集训练目标模型,以得到训练后的目标模型;
匹配单元,用于基于所述训练后的目标模型对待测文本对进行文本匹配,以确定所述待测文本对的相似度标签。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行如权利要求1-11任一项所述的文本匹配方法中的步骤。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行权利要求1-11任一项所述的文本匹配方法中的步骤。
CN202110966479.4A 2021-08-23 2021-08-23 文本匹配方法、装置、存储介质及计算机设备 Active CN113420128B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110966479.4A CN113420128B (zh) 2021-08-23 2021-08-23 文本匹配方法、装置、存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110966479.4A CN113420128B (zh) 2021-08-23 2021-08-23 文本匹配方法、装置、存储介质及计算机设备

Publications (2)

Publication Number Publication Date
CN113420128A true CN113420128A (zh) 2021-09-21
CN113420128B CN113420128B (zh) 2021-11-19

Family

ID=77719183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110966479.4A Active CN113420128B (zh) 2021-08-23 2021-08-23 文本匹配方法、装置、存储介质及计算机设备

Country Status (1)

Country Link
CN (1) CN113420128B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569554A (zh) * 2021-09-24 2021-10-29 北京明略软件系统有限公司 一种数据库中实体对匹配方法、装置、电子设备及存储介质
CN114282592A (zh) * 2021-11-15 2022-04-05 清华大学 一种基于深度学习的行业文本匹配模型方法及装置
CN116150380A (zh) * 2023-04-18 2023-05-23 之江实验室 一种文本匹配方法、装置、存储介质及设备
CN116340552A (zh) * 2023-01-06 2023-06-27 北京达佳互联信息技术有限公司 一种标签排序方法、装置、设备及存储介质
CN116796723A (zh) * 2023-03-15 2023-09-22 华院计算技术(上海)股份有限公司 文本集匹配方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284399A (zh) * 2018-10-11 2019-01-29 深圳前海微众银行股份有限公司 相似度预测模型训练方法、设备及计算机可读存储介质
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
WO2020143844A1 (zh) * 2019-01-10 2020-07-16 深圳Tcl新技术有限公司 意图分析方法、装置、显示终端及计算机可读存储介质
CN111950269A (zh) * 2020-08-21 2020-11-17 清华大学 文本语句处理方法、装置、计算机设备和存储介质
US20210182662A1 (en) * 2019-12-17 2021-06-17 Adobe Inc. Training of neural network based natural language processing models using dense knowledge distillation
US20210200949A1 (en) * 2019-12-30 2021-07-01 Beijing Baidu Netcom Science And Technology Co., Ltd. Pre-training method for sentiment analysis model, and electronic device

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284399A (zh) * 2018-10-11 2019-01-29 深圳前海微众银行股份有限公司 相似度预测模型训练方法、设备及计算机可读存储介质
WO2020143844A1 (zh) * 2019-01-10 2020-07-16 深圳Tcl新技术有限公司 意图分析方法、装置、显示终端及计算机可读存储介质
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
US20210182662A1 (en) * 2019-12-17 2021-06-17 Adobe Inc. Training of neural network based natural language processing models using dense knowledge distillation
US20210200949A1 (en) * 2019-12-30 2021-07-01 Beijing Baidu Netcom Science And Technology Co., Ltd. Pre-training method for sentiment analysis model, and electronic device
CN111950269A (zh) * 2020-08-21 2020-11-17 清华大学 文本语句处理方法、装置、计算机设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周烨恒等: "结合预训练模型和语言知识库的文本匹配方法", 《中文信息学报》 *
李舟军等: "面向自然语言处理的预训练技术研究综述", 《计算机科学》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569554A (zh) * 2021-09-24 2021-10-29 北京明略软件系统有限公司 一种数据库中实体对匹配方法、装置、电子设备及存储介质
CN113569554B (zh) * 2021-09-24 2021-12-28 北京明略软件系统有限公司 一种数据库中实体对匹配方法、装置、电子设备及存储介质
CN114282592A (zh) * 2021-11-15 2022-04-05 清华大学 一种基于深度学习的行业文本匹配模型方法及装置
CN116340552A (zh) * 2023-01-06 2023-06-27 北京达佳互联信息技术有限公司 一种标签排序方法、装置、设备及存储介质
CN116796723A (zh) * 2023-03-15 2023-09-22 华院计算技术(上海)股份有限公司 文本集匹配方法、装置、电子设备及存储介质
CN116796723B (zh) * 2023-03-15 2024-02-06 华院计算技术(上海)股份有限公司 文本集匹配方法、装置、电子设备及存储介质
CN116150380A (zh) * 2023-04-18 2023-05-23 之江实验室 一种文本匹配方法、装置、存储介质及设备

Also Published As

Publication number Publication date
CN113420128B (zh) 2021-11-19

Similar Documents

Publication Publication Date Title
CN113420128B (zh) 文本匹配方法、装置、存储介质及计算机设备
CN110991391B (zh) 一种基于区块链网络的信息处理方法及装置
WO2021217935A1 (zh) 问题生成模型的训练方法、问题生成方法及其相关设备
CN110569361B (zh) 一种文本识别方法及设备
US20230023520A1 (en) Training Method, Apparatus, and Device for Federated Neural Network Model, Computer Program Product, and Computer-Readable Storage Medium
US10592607B2 (en) Iterative alternating neural attention for machine reading
CN110597963B (zh) 表情问答库的构建方法、表情搜索方法、装置及存储介质
US11423307B2 (en) Taxonomy construction via graph-based cross-domain knowledge transfer
CN112580352B (zh) 关键词提取方法、装置和设备及计算机存储介质
CN110929806B (zh) 基于人工智能的图片处理方法、装置及电子设备
CN112131881B (zh) 信息抽取方法及装置、电子设备、存储介质
CN110866119B (zh) 一种文章质量的确定方法、装置、电子设备及存储介质
CN113127652A (zh) 一种摘要获取方法、设备及计算机可读存储介质
CN115221294A (zh) 对话处理方法、装置、电子设备及存储介质
CN112749561A (zh) 一种实体识别方法及设备
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
Taofeek et al. A cognitive deception model for generating fake documents to curb data exfiltration in networks during cyber-attacks
CN116700839A (zh) 一种任务处理方法、装置、设备、存储介质及程序产品
CN113569111B (zh) 对象属性识别方法、装置、存储介质及计算机设备
CN112668325B (zh) 一种机器翻译增强方法、系统、终端及存储介质
CN117891930A (zh) 基于知识图谱增强大语言模型的图书知识问答方法
CN114330483A (zh) 数据处理方法及模型训练方法、装置、设备、存储介质
CN113033209B (zh) 文本关系抽取方法、装置、存储介质及计算机设备
CN117217197A (zh) 词对齐模型的训练方法、装置、电子设备和可读介质
Lampos Detecting events and patterns in large-scale user generated textual streams with statistical learning methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40052259

Country of ref document: HK