CN113722441B - 一种相似文本的生成方法、装置、设备及存储介质 - Google Patents

一种相似文本的生成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113722441B
CN113722441B CN202111019394.1A CN202111019394A CN113722441B CN 113722441 B CN113722441 B CN 113722441B CN 202111019394 A CN202111019394 A CN 202111019394A CN 113722441 B CN113722441 B CN 113722441B
Authority
CN
China
Prior art keywords
similar
text
sentence
training
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111019394.1A
Other languages
English (en)
Other versions
CN113722441A (zh
Inventor
杨焱麒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Bank Co Ltd
Original Assignee
Ping An Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Bank Co Ltd filed Critical Ping An Bank Co Ltd
Priority to CN202111019394.1A priority Critical patent/CN113722441B/zh
Publication of CN113722441A publication Critical patent/CN113722441A/zh
Application granted granted Critical
Publication of CN113722441B publication Critical patent/CN113722441B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例涉及人工智能领域,公开了一种相似文本的生成方法、装置、设备及存储介质,该方法包括:获取训练数据集,包括正样本和负样本,正样本中每个第一训练句子由两两相似句子拼接得到,负样本中每个第二训练句子由两两非相似句子拼接得到;将第一训练句子输入Bert模型得到第一向量表示,将第二训练句子输入Bert模型得到第二向量表示;根据第一向量表示和第二向量表示确定损失函数值,根据损失函数值训练Bert模型得到相似句向量模型;将待测试文本输入相似句向量模型得到相似句向量,确定相似句向量的相似句子,以提高生成相似文本的效率和准确性。本发明涉及区块链技术,如可将数据写入区块链中,以用于数据取证等场景。

Description

一种相似文本的生成方法、装置、设备及存储介质
技术领域
本发明涉及人工智能领域,尤其涉及一种相似文本的生成方法、装置、设备及存储介质。
背景技术
自然语言生成(natural language generation,NLG)是自然语言处理的一部分,从知识库或利用语言学中的逻辑形式去生成自然语言。NLG出现已久,但是商业NLG技术直到最近才变得普及。NLG方法的常见应用包括生成各种报告,例如天气预报,患者报告,字幕生成,对话机器人等。
60年代中期,NLG就已经存在,但NLG在90年代才首次商业化使用,说明这个技术领域的发展可以说还处于初期,在各种业务上的商业应用并不是非常成熟,这主要是人类语言的复杂性造成的。大多数NLG的落地应用都是由模板匹配和一些nlp子任务组成,要生成标准的人类自然语言,并且能够生成正确处理自然语言的含有歧义以及多样性的表达,基于模板的生成系统往往不够,所以在深度学习技术快速发展的时期,结合深度学习的NLG方法也成为了主流。为了增强模型应对自然语言多样性和歧义性的能力,自然的会考虑使用预训练语言模型,利用大量语料中丰富的语义和语法结构信息,可以使得模型的生成能力大大超过基于统计的机器学习模型。
在常见相似文本生成系统如问题问答系统中,随着数据的累计和业务的变化,需要适时更新知识库,而知识库的维护需要一定的人工参与,然而这种方式耗时费力,效率较低,生成的相似文本不够准确且具有一定的局限性。因此,如何更有效地提高相似文本的生成效率、准确性和多样性非常重要。
发明内容
本发明实施例提供了一种相似文本的生成方法、装置、设备及介质,可以提高确定相似文本的效率和准确性。
第一方面,本发明实施例提供了一种相似文本的生成方法,包括:
获取训练数据集,所述训练数据集中包括正样本和负样本,所述正样本包括多个第一训练句子,每个第一训练句子由多个相似句子中两两相似句子进行拼接得到,所述负样本包括多个第二训练句子,每个第二训练句子由多个非相似句子中两两非相似句子进行拼接得到;
根据所述训练数据集中的正样本和负样本生成一个相似矩阵,所述相似矩阵包括正样本标签和负样本标签,所述正样本标签用于指示所述正样本中的第一训练句子,所述负样本标签用于指示所述负样本中的第二训练句子;
将所述相似矩阵中的各个第一训练句子输入预设的Bert模型,得到各个第一训练句子对应的第一向量表示,以及将所述相似矩阵中的各个第二训练句子输入所述预设的Bert模型,得到各个第二训练句子对应的第二向量表示;
根据所述第一向量表示和所述第二向量表示确定损失函数值,并根据所述损失函数值训练所述预设的Bert模型,得到相似句向量模型;
获取待测试文本,所述待测试文本包括一个句子,并将所述待测试文本输入所述相似句向量生成模型,得到所述待测试文本的相似句向量,并确定与所述相似句向量对应的相似句子。
进一步地,所述将所述相似矩阵中的各个第一训练句子输入预设的Bert模型,得到各个第一训练句子对应的第一向量表示,以及将所述相似矩阵中的各个第二训练句子输入所述预设的Bert模型,得到各个第二训练句子对应的第二向量表示,包括:
获取所述各个第一训练句子的第一文本长度,并根据所述各个第一训练句子的第一文本长度确定第一自注意力矩阵;
将所述第一自注意力矩阵和所述各个第一训练句子输入所述预设的Bert模型,得到所述各个第一训练句子的第一向量表示;
获取所述各个第二训练句子的第二文本长度,并根据所述各个第二训练句子的第二文本长度确定第二自注意力矩阵;
将所述第二自注意力矩阵和所述各个第二训练句子输入所述预设的Bert模型,得到所述各个第二训练句子的第二向量表示。
进一步地,所述根据所述第一向量表示和所述第二向量表示确定损失函数值,包括:
将所述第一向量表示中的各个向量和所述第二向量表示中的各个向量两两相乘得到一个目标相似矩阵;
获取所述各个向量对应的标签,并根据所述各个向量以及所述各向量对应的标签确定标签矩阵;
根据所述目标相似矩阵和所述标签矩阵计算得到所述损失函数值。
进一步地,所述根据所述目标相似矩阵和所述标签矩阵计算得到所述损失函数值,包括:
将所述目标相似矩阵减去所述标签矩阵计算得到目标矩阵;
根据所述目标矩阵中的各个向量,计算所述目标矩阵中的各个向量的均值,并确定所述均值为所述损失函数值。
进一步地,所述将所述待测试文本输入所述相似文句向量模型,得到所述待测试文本的相似句向量,包括:
在所述待测试文本的指定位置添加分割符标识;
将添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的相似句向量表示。
进一步地,所述将添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的相似句向量表示,包括:
将所述添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的k个相似向量表示,k为正整数;
确定所述分割符标识所处位置之后的k个相似向量表示为所述相似句向量表示;
所述确定与所述相似句向量对应的相似句子,包括:
根据预设的向量表示与索引的对应关系确定与所述k个相似向量表示中每个相似向量表示的索引,并从预设的数据库中确定与所述每个相似向量表示的索引对应的第一文本,所述第一文本包括字、词、句子中的一种或多种;
根据所述每个相似向量表示的索引对应的第一文本确定与所述待测试文本对应的相似句子。
进一步地,所述将添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的相似句向量表示,包括:
将所述添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的第一相似向量表示;
根据预设的向量表示与索引的对应关系确定与所述第一相似向量表示对应的第一索引,并从预设的数据库中确定与所述第一索引对应的第二文本,所述第二文本包括字、词、句子中的一种或多种;
将所述添加分割符标识后的待测试文本以及与所述第一索引对应的第二文本输入所述相似句向量模型中,得到所述待测试文本和所述第二文本对应的第二目标向量表示以及所述第二文本所处位置之后的第二相似向量表示;
根据预设的向量表示与索引的对应关系确定与所述第二相似向量表示对应的第二索引,并从预设的数据库中确定与所述第二索引对应的第三文本,所述第三文本包括字、词、句子中的一种或多种;
所述确定与所述相似句向量对应的相似句子,包括:
根据所述第一索引对应的第二文本以及所述第二索引对应的第三文本确定与所述待测试文本对应的相似句子。
第二方面,本发明实施例提供了一种相似文本的生成装置,包括:
获取单元,用于获取训练数据集,所述训练数据集中包括正样本和负样本,所述正样本包括多个第一训练句子,每个第一训练句子由多个相似句子中两两相似句子进行拼接得到,所述负样本包括多个第二训练句子,每个第二训练句子由多个非相似句子中两两非相似句子进行拼接得到;
生成单元,用于根据所述训练数据集中的正样本和负样本生成一个相似矩阵,所述相似矩阵包括正样本标签和负样本标签,所述正样本标签用于指示所述正样本中的第一训练句子,所述负样本标签用于指示所述负样本中的第二训练句子;
处理单元,用于将所述相似矩阵中的各个第一训练句子输入预设的Bert模型,得到各个第一训练句子对应的第一向量表示,以及将所述相似矩阵中的各个第二训练句子输入所述预设的Bert模型,得到各个第二训练句子对应的第二向量表示;
训练单元,用于根据所述第一向量表示和所述第二向量表示确定损失函数值,并根据所述损失函数值训练所述预设的Bert模型,得到相似句向量模型;
测试单元,用于获取待测试文本,所述待测试文本包括一个句子,并将所述待测试文本输入所述相似句向量生成模型,得到所述待测试文本的相似句向量,并确定与所述相似句向量对应的相似句子。
第三方面,本发明实施例提供了一种计算机设备,包括处理器和存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序,所述处理器被配置用于调用所述计算机程序,执行上述第一方面的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行以实现上述第一方面的方法。
本发明实施例可以获取训练数据集,所述训练数据集中包括正样本和负样本,所述正样本包括多个第一训练句子,每个第一训练句子由多个相似句子中两两相似句子进行拼接得到,所述负样本包括多个第二训练句子,每个第二训练句子由多个非相似句子中两两非相似句子进行拼接得到;根据所述训练数据集中的正样本和负样本生成一个相似矩阵,所述相似矩阵包括正样本标签和负样本标签,所述正样本标签用于指示所述正样本中的第一训练句子,所述负样本标签用于指示所述负样本中的第二训练句子;将所述相似矩阵中的各个第一训练句子输入预设的Bert模型,得到各个第一训练句子对应的第一向量表示,以及将所述相似矩阵中的各个第二训练句子输入所述预设的Bert模型,得到各个第二训练句子对应的第二向量表示;根据所述第一向量表示和所述第二向量表示确定损失函数值,并根据所述损失函数值训练所述预设的Bert模型,得到相似句向量模型;获取待测试文本,所述待测试文本包括一个句子,并将所述待测试文本输入所述相似句向量生成模型,得到所述待测试文本的相似句向量,并确定与所述相似句向量对应的相似句子。本发明实施例通过将两两相似句子进行拼接得到第一训练句子以及将两两非相似句子进行拼接得到第二训练句子,使得训练数据集中的数据更加丰富全面,利用第一训练句子和第二训练句子训练相似句向量模型,避免人工标注相似句,基于训练得到的相似句向量模型,有助于高效、准确地获取待测试文本的相似句向量,进一步根据相似句向量确定与待测试文本对应的相似句子,以提高确定相似文本的效率和准确性。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种相似文本的生成方法的示意流程图;
图2是本发明实施例提供的一种相似矩阵的示意图;
图3是本发明实施例提供的一种标签矩阵的示意图;
图4是本发明实施例提供的一种相似文本的生成装置的示意框图;
图5是本发明实施例提供的一种计算机设备的示意框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的相似文本的生成方法可以应用于一种相似文本的生成装置,在某些实施例中,所述相似文本的生成装置设置于计算机设备中。在某些实施例中,所述计算机设备包括但不限于智能手机、平板电脑、膝上型电脑等中的一种或者多种。
本发明实施例可以获取训练数据集,所述训练数据集中包括正样本和负样本,所述正样本包括多个第一训练句子,每个第一训练句子由多个相似句子中两两相似句子进行拼接得到,所述负样本包括多个第二训练句子,每个第二训练句子由多个非相似句子中两两非相似句子进行拼接得到;根据所述训练数据集中的正样本和负样本生成一个相似矩阵,所述相似矩阵包括正样本标签和负样本标签,所述正样本标签用于指示所述正样本中的第一训练句子,所述负样本标签用于指示所述负样本中的第二训练句子;将所述相似矩阵中的各个第一训练句子输入预设的Bert模型,得到各个第一训练句子对应的第一向量表示,以及将所述相似矩阵中的各个第二训练句子输入所述预设的Bert模型,得到各个第二训练句子对应的第二向量表示;根据所述第一向量表示和所述第二向量表示确定损失函数值,并根据所述损失函数值训练所述预设的Bert模型,得到相似句向量模型;获取待测试文本,所述待测试文本包括一个句子,并将所述待测试文本输入所述相似句向量生成模型,得到所述待测试文本的相似句向量,并确定与所述相似句向量对应的相似句子。
本发明实施例通过将两两相似句子进行拼接得到第一训练句子以及将两两非相似句子进行拼接得到第二训练句子,使得训练数据集中的数据更加丰富全面,利用第一训练句子和第二训练句子训练相似句向量模型,避免人工标注相似句,基于训练得到的相似句向量模型,有助于高效、准确地获取待测试文本的相似句向量,进一步根据相似句向量确定与待测试文本对应的相似句子,以提高确定相似文本的效率和准确性。
本申请实施例可以基于人工智能技术对相关的数据(如相似句子)进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
下面结合附图1对本发明实施例提供的相似文本的生成方法进行示意性说明。
请参见图1,图1是本发明实施例提供的一种相似文本的生成方法的示意流程图,如图1所示,该方法可以由相似文本的生成装置执行,所述相似文本的生成装置设置于计算机设备中。具体地,本发明实施例的所述方法包括如下步骤。
S101:获取训练数据集,所述训练数据集中包括正样本和负样本,所述正样本包括多个第一训练句子,每个第一训练句子由多个相似句子中两两相似句子进行拼接得到,所述负样本包括多个第二训练句子,每个第二训练句子由多个非相似句子中两两非相似句子进行拼接得到。
本发明实施例中,相似文本的生成装置可以获取训练数据集,所述训练数据集中包括正样本和负样本,所述正样本包括多个第一训练句子,每个第一训练句子由多个相似句子中两两相似句子进行拼接得到,所述负样本包括多个第二训练句子,每个第二训练句子由多个非相似句子中两两非相似句子进行拼接得到。
S102:根据所述训练数据集中的正样本和负样本生成一个相似矩阵,所述相似矩阵包括正样本标签和负样本标签,所述正样本标签用于指示所述正样本中的第一训练句子,所述负样本标签用于指示所述负样本中的第二训练句子。
本发明实施例中,相似文本的生成装置可以根据所述训练数据集中的正样本和负样本生成一个相似矩阵,所述相似矩阵包括正样本标签和负样本标签,所述正样本标签用于指示所述正样本中的第一训练句子,所述负样本标签用于指示所述负样本中的第二训练句子。
在某些实施例中,所述正样本标签包括但不限于文字、字母、数字等,在一个示例中,所述正样本标签可以为1。在某些实施例中,所述负样本标签包括但不限于文字、字母、数字等,在一个示例中,所述负样本标签可以为0。
在一个实施例中,相似文本的生成装置根据所述训练数据集生成的所述相似矩阵中,相似矩阵的每行的数据均为所述训练数据集中两两相似句子拼接得到的第一训练句子,具体可以图2为例进行说明,图2是本发明实施例提供的一种相似矩阵的示意图,如图2所示,相似矩阵的每行是由两个相似句子组成,如第一行是由两个相似句“我想吃饭”和“我饿了”拼接得到第一训练句子“我想吃饭我饿了”。
S103:将所述相似矩阵中的各个第一训练句子输入预设的Bert模型,得到各个第一训练句子对应的第一向量表示,以及将所述相似矩阵中的各个第二训练句子输入所述预设的Bert模型,得到各个第二训练句子对应的第二向量表示。
本发明实施例中,相似文本的生成装置可以将所述相似矩阵中的各个第一训练句子输入预设的Bert模型,得到各个第一训练句子对应的第一向量表示,以及将所述相似矩阵中的各个第二训练句子输入所述预设的Bert模型,得到各个第二训练句子对应的第二向量表示。
在一个实施例中,相似文本的生成装置在将所述相似矩阵中的各个第一训练句子输入预设的Bert模型,得到各个第一训练句子对应的第一向量表示,以及将所述相似矩阵中的各个第二训练句子输入所述预设的Bert模型,得到各个第二训练句子对应的第二向量表示时,可以获取所述各个第一训练句子的第一文本长度,并根据所述各个第一训练句子的第一文本长度确定第一自注意力矩阵;将所述第一自注意力矩阵和所述各个第一训练句子输入所述预设的Bert模型,得到所述各个第一训练句子的第一向量表示;获取所述各个第二训练句子的第二文本长度,并根据所述各个第二训练句子的第二文本长度确定第二自注意力矩阵;将所述第二自注意力矩阵和所述各个第二训练句子输入所述预设的Bert模型,得到所述各个第二训练句子的第二向量表示。
在一个实施例中,相似文本的生成装置在将所述第一自注意力矩阵和所述各个第一训练句子输入所述预设的Bert模型,得到所述各个第一训练句子的第一向量表示时,可以根据Bert模型中注意力的计算公式得到各个第一训练句子的第一向量表示,其中,Bert模型中注意力的计算公式如下公式(1所示):
其中,Q,K,V为隐向量分别乘三个不同的参数矩阵得到的矩阵,QKT为NxN的自注意力矩阵,N为句子的文本长度。
例如,假设第一训练句子为由“我想吃饭”和“我饿了”两个句子组成,如图2所示,假设浅灰色位置对应为负样本标签0,深灰色位置对应为正样本标签1,对于“我想吃饭”和“我饿了”这两个句子,把这两个句子拼接后得到一个第一训练句子,并将该第一训练句子输入Bert模型。其中,列代表Q对应的句子长度,行代表K对应的句子长度,他们的长度是相等的。
例如,假设训练数据集中包括A A’、B B’、C C’这3对相似句子,|为拼接符号,则可以将各相似句子两两进行拼接,得到A|A'、A'|A、B|B'、B'|B、C|C'、C'|C这6个拼接后的第一训练句子,将这6个拼接后得到的第一训练句子输入Bert模型,得到6个第一向量表示。
在一个实施例中,相似文本的生成装置在将所述第二自注意力矩阵和所述各个第二训练句子输入所述预设的Bert模型,得到所述各个第二训练句子的第二向量表示时,同理可以利用上述公式(1)计算得到,计算方式与上述计算第一向量表示的方式相同,此处不再赘述。
S104:根据所述第一向量表示和所述第二向量表示确定损失函数值,并根据所述损失函数值训练所述预设的Bert模型,得到相似句向量模型。
本发明实施例中,相似文本的生成装置可以根据所述第一向量表示和所述第二向量表示确定损失函数值,并根据所述损失函数值训练所述预设的Bert模型,得到相似句向量模型。
在一个实施例中,相似文本的生成装置在根据所述第一向量表示和所述第二向量表示确定损失函数值时,可以将所述第一向量表示中的各个向量和所述第二向量表示中的各个向量两两相乘得到一个目标相似矩阵;获取所述各个向量对应的标签,并根据所述各个向量以及所述各向量对应的标签确定标签矩阵;根据所述目标相似矩阵和所述标签矩阵计算得到所述损失函数值。
在一个示例中,具体可以图3为例对所述标签矩阵进行举例说明,图3是本发明实施例提供的一种标签矩阵的示意图,如图3所示,该标签矩阵用于表示:向量A|A'乘以向量A'|A的标签是1,向量A|A'乘以向量B|B'的标签是1,向量A|A'乘以向量B'|B的标签是1,向量A|A'乘以向量C|C'的标签是1,向量A|A'乘以向量C'|C的标签是1,其余向量之间乘积的标签为0。
在一个实施例中,相似文本的生成装置在根据所述目标相似矩阵和所述标签矩阵计算得到所述损失函数值时,可以将所述目标相似矩阵减去所述标签矩阵计算得到目标矩阵;根据所述目标矩阵中的各个向量,计算所述目标矩阵中的各个向量的均值,并确定所述均值为所述损失函数值。
在一个实施例中,相似文本的生成装置在根据所述损失函数值训练所述预设的Bert模型,得到相似句向量模型时,可以根据所述损失函数值调整所述Bert模型的模型参数,并将所述各个第一训练句子和所述各个第二训练句子输入调整模型参数后的Bert模型进行迭代训练;当迭代训练得到的损失函数值满足预设条件时,确定得到所述相似句向量模型。
S105:获取待测试文本,所述待测试文本包括一个句子,并将所述待测试文本输入所述相似句向量生成模型,得到所述待测试文本的相似句向量,并确定与所述相似句向量对应的相似句子。
本发明实施例中,相似文本的生成装置可以获取待测试文本,所述待测试文本包括一个句子,并将所述待测试文本输入所述相似句向量生成模型,得到所述待测试文本的相似句向量,并确定与所述相似句向量对应的相似句子。
在一个实施例中,相似文本的生成装置在将所述待测试文本输入所述相似句向量模型,得到所述待测试文本的相似句向量时,可以在所述待测试文本的指定位置添加分割符标识;并将添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的相似句向量表示。
在一个实施例中,相似文本的生成装置在将添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的相似句向量表示时,可以将所述添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的k个相似向量表示,k为正整数;并确定所述分割符标识所处位置之后的k个相似向量表示为所述相似句向量表示。
在一个实施例中,相似文本的生成装置在确定与所述相似句向量对应的相似句子时,可以根据预设的向量表示与索引的对应关系确定与所述k个相似向量表示中每个相似向量表示的索引,并从预设的数据库中确定与所述每个相似向量表示的索引对应的第一文本,所述第一文本包括字、词、句子中的一种或多种;根据所述每个相似向量表示的索引对应的第一文本确定与所述待测试文本对应的相似句子。
例如,假设k为3,确定的分割符标识所处位置之后的3个相似向量表示为m1、m2、m3,相似文本的生成装置可以根据预设的向量表示与索引的对应关系确定相似向量表示m1的索引n1,相似向量表示m2的索引n2,相似向量表示m3的索引n3,则可以从预设的数据库中分别确定与索引n1对应的第一文本w1,确定与索引n2对应的第一文本w2,确定与索引n3对应的第一文本w3,从而确定与所述待测试文本对应的相似句子为w1 w2 w3。
在一个实施例中,相似文本的生成装置在将添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的相似句向量表示时,可以将所述添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的第一相似向量表示;根据预设的向量表示与索引的对应关系确定与所述第一相似向量表示对应的第一索引,并从预设的数据库中确定与所述第一索引对应的第二文本,所述第二文本包括字、词、句子中的一种或多种;将所述添加分割符标识后的待测试文本以及与所述第一索引对应的第二文本输入所述相似句向量模型中,得到所述待测试文本和所述第二文本对应的第二目标向量表示以及所述第二文本所处位置之后的第二相似向量表示;根据预设的向量表示与索引的对应关系确定与所述第二相似向量表示对应的第二索引,并从预设的数据库中确定与所述第二索引对应的第三文本,所述第三文本包括字、词、句子中的一种或多种。
在一个实施例中,相似文本的生成装置在确定与所述相似句向量对应的相似句子时,可以根据所述第一索引对应的第二文本以及所述第二索引对应的第三文本确定与所述待测试文本对应的相似句子。
例如,将添加分割符标识的待测试文本输入相似句向量模型,得到第一相似向量表示,并根据第一相似向量表示确定对应的第二文本为:x11 x12 x13,第二次将添加分割符标识的待测试文本和第一文本x11 x12 x13输入相似句向量模型,得到第二相似向量表示,并根据第二相似向量表示确定对应的第三文本为:
X111 x112 x113
X121 x122 x123
X131 x132 x133
本发明实施例中,相似文本的生成装置可以获取训练数据集,所述训练数据集中包括正样本和负样本,所述正样本包括多个第一训练句子,每个第一训练句子由多个相似句子中两两相似句子进行拼接得到,所述负样本包括多个第二训练句子,每个第二训练句子由多个非相似句子中两两非相似句子进行拼接得到;根据所述训练数据集中的正样本和负样本生成一个相似矩阵,所述相似矩阵包括正样本标签和负样本标签,所述正样本标签用于指示所述正样本中的第一训练句子,所述负样本标签用于指示所述负样本中的第二训练句子;将所述相似矩阵中的各个第一训练句子输入预设的Bert模型,得到各个第一训练句子对应的第一向量表示,以及将所述相似矩阵中的各个第二训练句子输入所述预设的Bert模型,得到各个第二训练句子对应的第二向量表示;根据所述第一向量表示和所述第二向量表示确定损失函数值,并根据所述损失函数值训练所述预设的Bert模型,得到相似句向量模型;获取待测试文本,所述待测试文本包括一个句子,并将所述待测试文本输入所述相似句向量生成模型,得到所述待测试文本的相似句向量,并确定与所述相似句向量对应的相似句子。通过这种实施方式,可以提高生成相似文本的效率和准确性。
本发明实施例还提供了一种相似文本的生成装置,该相似文本的生成装置用于执行前述任一项所述的方法的单元。具体地,参见图4,图4是本发明实施例提供的一种相似文本的生成装置的示意框图。本实施例的相似文本的生成装置包括:获取单元401、生成单元402、处理单元403、训练单元404以及测试单元405。
获取单元401,用于获取训练数据集,所述训练数据集中包括正样本和负样本,所述正样本包括多个第一训练句子,每个第一训练句子由多个相似句子中两两相似句子进行拼接得到,所述负样本包括多个第二训练句子,每个第二训练句子由多个非相似句子中两两非相似句子进行拼接得到;
生成单元402,用于根据所述训练数据集中的正样本和负样本生成一个相似矩阵,所述相似矩阵包括正样本标签和负样本标签,所述正样本标签用于指示所述正样本中的第一训练句子,所述负样本标签用于指示所述负样本中的第二训练句子;
处理单元403,用于将所述相似矩阵中的各个第一训练句子输入预设的Bert模型,得到各个第一训练句子对应的第一向量表示,以及将所述相似矩阵中的各个第二训练句子输入所述预设的Bert模型,得到各个第二训练句子对应的第二向量表示;
训练单元404,用于根据所述第一向量表示和所述第二向量表示确定损失函数值,并根据所述损失函数值训练所述预设的Bert模型,得到相似句向量模型;
测试单元405,用于获取待测试文本,所述待测试文本包括一个句子,并将所述待测试文本输入所述相似句向量生成模型,得到所述待测试文本的相似句向量,并确定与所述相似句向量对应的相似句子。
进一步地,所述处理单元403将所述相似矩阵中的各个第一训练句子输入预设的Bert模型,得到各个第一训练句子对应的第一向量表示,以及将所述相似矩阵中的各个第二训练句子输入所述预设的Bert模型,得到各个第二训练句子对应的第二向量表示时,具体用于:
获取所述各个第一训练句子的第一文本长度,并根据所述各个第一训练句子的第一文本长度确定第一自注意力矩阵;
将所述第一自注意力矩阵和所述各个第一训练句子输入所述预设的Bert模型,得到所述各个第一训练句子的第一向量表示;
获取所述各个第二训练句子的第二文本长度,并根据所述各个第二训练句子的第二文本长度确定第二自注意力矩阵;
将所述第二自注意力矩阵和所述各个第二训练句子输入所述预设的Bert模型,得到所述各个第二训练句子的第二向量表示。
进一步地,所述训练单元404根据所述第一向量表示和所述第二向量表示确定损失函数值时,具体用于:
将所述第一向量表示中的各个向量和所述第二向量表示中的各个向量两两相乘得到一个目标相似矩阵;
获取所述各个向量对应的标签,并根据所述各个向量以及所述各向量对应的标签确定标签矩阵;
根据所述目标相似矩阵和所述标签矩阵计算得到所述损失函数值。
进一步地,所述训练单元404根据所述目标相似矩阵和所述标签矩阵计算得到所述损失函数值时,具体用于:
将所述目标相似矩阵减去所述标签矩阵计算得到目标矩阵;
根据所述目标矩阵中的各个向量,计算所述目标矩阵中的各个向量的均值,并确定所述均值为所述损失函数值。
进一步地,所述测试单元405将所述待测试文本输入所述相似文句向量模型,得到所述待测试文本的相似句向量时,具体用于:
在所述待测试文本的指定位置添加分割符标识;
将添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的相似句向量表示。
进一步地,所述测试单元405将添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的相似句向量表示时,具体用于:
将所述添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的k个相似向量表示,k为正整数;
确定所述分割符标识所处位置之后的k个相似向量表示为所述相似句向量表示;
所述确定与所述相似句向量对应的相似句子,包括:
根据预设的向量表示与索引的对应关系确定与所述k个相似向量表示中每个相似向量表示的索引,并从预设的数据库中确定与所述每个相似向量表示的索引对应的第一文本,所述第一文本包括字、词、句子中的一种或多种;
根据所述每个相似向量表示的索引对应的第一文本确定与所述待测试文本对应的相似句子。
进一步地,所述测试单元405将添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的相似句向量表示时,具体用于:
将所述添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的第一相似向量表示;
根据预设的向量表示与索引的对应关系确定与所述第一相似向量表示对应的第一索引,并从预设的数据库中确定与所述第一索引对应的第二文本,所述第二文本包括字、词、句子中的一种或多种;
将所述添加分割符标识后的待测试文本以及与所述第一索引对应的第二文本输入所述相似句向量模型中,得到所述待测试文本和所述第二文本对应的第二目标向量表示以及所述第二文本所处位置之后的第二相似向量表示;
根据预设的向量表示与索引的对应关系确定与所述第二相似向量表示对应的第二索引,并从预设的数据库中确定与所述第二索引对应的第三文本,所述第三文本包括字、词、句子中的一种或多种;
所述确定与所述相似句向量对应的相似句子,包括:
根据所述第一索引对应的第二文本以及所述第二索引对应的第三文本确定与所述待测试文本对应的相似句子。
本发明实施例中,相似文本的生成装置可以获取训练数据集,所述训练数据集中包括正样本和负样本,所述正样本包括多个第一训练句子,每个第一训练句子由多个相似句子中两两相似句子进行拼接得到,所述负样本包括多个第二训练句子,每个第二训练句子由多个非相似句子中两两非相似句子进行拼接得到;根据所述训练数据集中的正样本和负样本生成一个相似矩阵,所述相似矩阵包括正样本标签和负样本标签,所述正样本标签用于指示所述正样本中的第一训练句子,所述负样本标签用于指示所述负样本中的第二训练句子;将所述相似矩阵中的各个第一训练句子输入预设的Bert模型,得到各个第一训练句子对应的第一向量表示,以及将所述相似矩阵中的各个第二训练句子输入所述预设的Bert模型,得到各个第二训练句子对应的第二向量表示;根据所述第一向量表示和所述第二向量表示确定损失函数值,并根据所述损失函数值训练所述预设的Bert模型,得到相似句向量模型;获取待测试文本,所述待测试文本包括一个句子,并将所述待测试文本输入所述相似句向量生成模型,得到所述待测试文本的相似句向量,并确定与所述相似句向量对应的相似句子。通过这种实施方式,可以提高生成相似文本的效率和准确性。
参见图5,图5是本发明实施例提供的一种计算机设备的示意框图,在某些实施例中,如图5所示的本实施例中的计算机设备可以包括:一个或多个处理器501;一个或多个输入设备502,一个或多个输出设备503和存储器504。上述处理器501、输入设备502、输出设备503和存储器504通过总线505连接。存储器504用于存储计算机程序,所述计算机程序包括程序,处理器501用于执行存储器504存储的程序。其中,处理器501被配置用于调用所述程序执行:
获取训练数据集,所述训练数据集中包括正样本和负样本,所述正样本包括多个第一训练句子,每个第一训练句子由多个相似句子中两两相似句子进行拼接得到,所述负样本包括多个第二训练句子,每个第二训练句子由多个非相似句子中两两非相似句子进行拼接得到;
根据所述训练数据集中的正样本和负样本生成一个相似矩阵,所述相似矩阵包括正样本标签和负样本标签,所述正样本标签用于指示所述正样本中的第一训练句子,所述负样本标签用于指示所述负样本中的第二训练句子;
将所述相似矩阵中的各个第一训练句子输入预设的Bert模型,得到各个第一训练句子对应的第一向量表示,以及将所述相似矩阵中的各个第二训练句子输入所述预设的Bert模型,得到各个第二训练句子对应的第二向量表示;
根据所述第一向量表示和所述第二向量表示确定损失函数值,并根据所述损失函数值训练所述预设的Bert模型,得到相似句向量模型;
获取待测试文本,所述待测试文本包括一个句子,并将所述待测试文本输入所述相似句向量生成模型,得到所述待测试文本的相似句向量,并确定与所述相似句向量对应的相似句子。
进一步地,所述处理器501将所述相似矩阵中的各个第一训练句子输入预设的Bert模型,得到各个第一训练句子对应的第一向量表示,以及将所述相似矩阵中的各个第二训练句子输入所述预设的Bert模型,得到各个第二训练句子对应的第二向量表示时,具体用于:
获取所述各个第一训练句子的第一文本长度,并根据所述各个第一训练句子的第一文本长度确定第一自注意力矩阵;
将所述第一自注意力矩阵和所述各个第一训练句子输入所述预设的Bert模型,得到所述各个第一训练句子的第一向量表示;
获取所述各个第二训练句子的第二文本长度,并根据所述各个第二训练句子的第二文本长度确定第二自注意力矩阵;
将所述第二自注意力矩阵和所述各个第二训练句子输入所述预设的Bert模型,得到所述各个第二训练句子的第二向量表示。
进一步地,所述处理器501根据所述第一向量表示和所述第二向量表示确定损失函数值时,具体用于:
将所述第一向量表示中的各个向量和所述第二向量表示中的各个向量两两相乘得到一个目标相似矩阵;
获取所述各个向量对应的标签,并根据所述各个向量以及所述各向量对应的标签确定标签矩阵;
根据所述目标相似矩阵和所述标签矩阵计算得到所述损失函数值。
进一步地,所述处理器501根据所述目标相似矩阵和所述标签矩阵计算得到所述损失函数值时,具体用于:
将所述目标相似矩阵减去所述标签矩阵计算得到目标矩阵;
根据所述目标矩阵中的各个向量,计算所述目标矩阵中的各个向量的均值,并确定所述均值为所述损失函数值。
进一步地,所述处理器501将所述待测试文本输入所述相似文句向量模型,得到所述待测试文本的相似句向量时,具体用于:
在所述待测试文本的指定位置添加分割符标识;
将添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的相似句向量表示。
进一步地,所述处理器501将添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的相似句向量表示时,具体用于:
将所述添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的k个相似向量表示,k为正整数;
确定所述分割符标识所处位置之后的k个相似向量表示为所述相似句向量表示;
所述确定与所述相似句向量对应的相似句子,包括:
根据预设的向量表示与索引的对应关系确定与所述k个相似向量表示中每个相似向量表示的索引,并从预设的数据库中确定与所述每个相似向量表示的索引对应的第一文本,所述第一文本包括字、词、句子中的一种或多种;
根据所述每个相似向量表示的索引对应的第一文本确定与所述待测试文本对应的相似句子。
进一步地,所述处理器501将添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的相似句向量表示时,具体用于:
将所述添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的第一相似向量表示;
根据预设的向量表示与索引的对应关系确定与所述第一相似向量表示对应的第一索引,并从预设的数据库中确定与所述第一索引对应的第二文本,所述第二文本包括字、词、句子中的一种或多种;
将所述添加分割符标识后的待测试文本以及与所述第一索引对应的第二文本输入所述相似句向量模型中,得到所述待测试文本和所述第二文本对应的第二目标向量表示以及所述第二文本所处位置之后的第二相似向量表示;
根据预设的向量表示与索引的对应关系确定与所述第二相似向量表示对应的第二索引,并从预设的数据库中确定与所述第二索引对应的第三文本,所述第三文本包括字、词、句子中的一种或多种;
所述确定与所述相似句向量对应的相似句子,包括:
根据所述第一索引对应的第二文本以及所述第二索引对应的第三文本确定与所述待测试文本对应的相似句子。
本发明实施例中,计算机设备可以获取训练数据集,所述训练数据集中包括正样本和负样本,所述正样本包括多个第一训练句子,每个第一训练句子由多个相似句子中两两相似句子进行拼接得到,所述负样本包括多个第二训练句子,每个第二训练句子由多个非相似句子中两两非相似句子进行拼接得到;根据所述训练数据集中的正样本和负样本生成一个相似矩阵,所述相似矩阵包括正样本标签和负样本标签,所述正样本标签用于指示所述正样本中的第一训练句子,所述负样本标签用于指示所述负样本中的第二训练句子;将所述相似矩阵中的各个第一训练句子输入预设的Bert模型,得到各个第一训练句子对应的第一向量表示,以及将所述相似矩阵中的各个第二训练句子输入所述预设的Bert模型,得到各个第二训练句子对应的第二向量表示;根据所述第一向量表示和所述第二向量表示确定损失函数值,并根据所述损失函数值训练所述预设的Bert模型,得到相似句向量模型;获取待测试文本,所述待测试文本包括一个句子,并将所述待测试文本输入所述相似句向量生成模型,得到所述待测试文本的相似句向量,并确定与所述相似句向量对应的相似句子。通过这种实施方式,可以提高生成相似文本的效率和准确性。
应当理解,在本发明实施例中,所称处理器501可以是中央处理单元(CenSralProcessing UniS,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigiSalSignal Processor,DSP)、专用集成电路(ApplicaSion Specific InSegraSed CircuiS,ASIC)、现成可编程门阵列(Field-Programmable GaSe Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备502可以包括触控板、麦克风等,输出设备503可以包括显示器(LCD等)、扬声器等。
该存储器504可以包括只读存储器和随机存取存储器,并向处理器501提供指令和数据。存储器504的一部分还可以包括非易失性随机存取存储器。例如,存储器504还可以存储设备类型的信息。
具体实现中,本发明实施例中所描述的处理器501、输入设备502、输出设备503可执行本发明实施例提供的图1所述的方法实施例中所描述的实现方式,也可执行本发明实施例图4所描述的相似文本的生成装置的实现方式,在此不再赘述。
本发明实施例中还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现图1所对应实施例中描述的相似文本的生成方法,也可实现本发明图4所对应实施例的相似文本的生成装置,在此不再赘述。
所述计算机可读存储介质可以是前述任一实施例所述的相似文本的生成装置的内部存储单元,例如相似文本的生成装置的硬盘或内存。所述计算机可读存储介质也可以是所述相似文本的生成装置的外部存储装置,例如所述相似文本的生成装置上配备的插接式硬盘,智能存储卡(SmarS Media Card,SMC),安全数字(Secure DigiSal,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述相似文本的生成装置的内部存储单元也包括外部存储装置。所述计算机可读存储介质用于存储所述计算机程序以及所述相似文本的生成装置所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。所述的计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
需要强调的是,为进一步保证上述数据的私密和安全性,上述数据还可以存储于一区块链的节点中。其中,本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上所述,仅为本发明的部分实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种相似文本的生成方法,其特征在于,包括:
获取训练数据集,所述训练数据集中包括正样本和负样本,所述正样本包括多个第一训练句子,每个第一训练句子由多个相似句子中两两相似句子进行拼接得到,所述负样本包括多个第二训练句子,每个第二训练句子由多个非相似句子中两两非相似句子进行拼接得到;
根据所述训练数据集中的正样本和负样本生成一个相似矩阵,所述相似矩阵包括正样本标签和负样本标签,所述正样本标签用于指示所述正样本中的第一训练句子,所述负样本标签用于指示所述负样本中的第二训练句子;
将所述相似矩阵中的各个第一训练句子输入预设的Bert模型,得到各个第一训练句子对应的第一向量表示,以及将所述相似矩阵中的各个第二训练句子输入所述预设的Bert模型,得到各个第二训练句子对应的第二向量表示;
根据所述第一向量表示和所述第二向量表示确定损失函数值,并根据所述损失函数值训练所述预设的Bert模型,得到相似句向量模型;
所述根据所述第一向量表示和所述第二向量表示确定损失函数值,包括:
将所述第一向量表示中的各个向量和所述第二向量表示中的各个向量两两相乘得到一个目标相似矩阵;
获取所述各个向量对应的标签,并根据所述各个向量以及所述各向量对应的标签确定标签矩阵;
根据所述目标相似矩阵和所述标签矩阵计算得到所述损失函数值;
所述根据所述目标相似矩阵和所述标签矩阵计算得到所述损失函数值,包括:
将所述目标相似矩阵减去所述标签矩阵计算得到目标矩阵;
根据所述目标矩阵中的各个向量,计算所述目标矩阵中的各个向量的均值,并确定所述均值为所述损失函数值;
获取待测试文本,所述待测试文本包括一个句子,并将所述待测试文本输入所述相似句向量生成模型,得到所述待测试文本的相似句向量,并确定与所述相似句向量对应的相似句子。
2.根据权利要求1所述的方法,其特征在于,所述将所述相似矩阵中的各个第一训练句子输入预设的Bert模型,得到各个第一训练句子对应的第一向量表示,以及将所述相似矩阵中的各个第二训练句子输入所述预设的Bert模型,得到各个第二训练句子对应的第二向量表示,包括:
获取所述各个第一训练句子的第一文本长度,并根据所述各个第一训练句子的第一文本长度确定第一自注意力矩阵;
将所述第一自注意力矩阵和所述各个第一训练句子输入所述预设的Bert模型,得到所述各个第一训练句子的第一向量表示;
获取所述各个第二训练句子的第二文本长度,并根据所述各个第二训练句子的第二文本长度确定第二自注意力矩阵;
将所述第二自注意力矩阵和所述各个第二训练句子输入所述预设的Bert模型,得到所述各个第二训练句子的第二向量表示。
3.根据权利要求1所述的方法,其特征在于,所述将所述待测试文本输入所述相似句向量模型,得到所述待测试文本的相似句向量,包括:
在所述待测试文本的指定位置添加分割符标识;
将添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的相似句向量表示。
4.根据权利要求3所述的方法,其特征在于,所述将添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的相似句向量表示,包括:
将所述添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的k个相似向量表示,k为正整数;
确定所述分割符标识所处位置之后的k个相似向量表示为所述相似句向量表示;
所述确定与所述相似句向量对应的相似句子,包括:
根据预设的向量表示与索引的对应关系确定与所述k个相似向量表示中每个相似向量表示的索引,并从预设的数据库中确定与所述每个相似向量表示的索引对应的第一文本,所述第一文本包括字、词、句子中的一种或多种;
根据所述每个相似向量表示的索引对应的第一文本确定与所述待测试文本对应的相似句子。
5.根据权利要求3所述的方法,其特征在于,所述将添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的相似句向量表示,包括:
将所述添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的第一相似向量表示;
根据预设的向量表示与索引的对应关系确定与所述第一相似向量表示对应的第一索引,并从预设的数据库中确定与所述第一索引对应的第二文本,所述第二文本包括字、词、句子中的一种或多种;
将所述添加分割符标识后的待测试文本以及与所述第一索引对应的第二文本输入所述相似句向量模型中,得到所述待测试文本和所述第二文本对应的第二目标向量表示以及所述第二文本所处位置之后的第二相似向量表示;
根据预设的向量表示与索引的对应关系确定与所述第二相似向量表示对应的第二索引,并从预设的数据库中确定与所述第二索引对应的第三文本,所述第三文本包括字、词、句子中的一种或多种;
所述确定与所述相似句向量对应的相似句子,包括:
根据所述第一索引对应的第二文本以及所述第二索引对应的第三文本确定与所述待测试文本对应的相似句子。
6.一种相似文本的生成装置,其特征在于,包括:
获取单元,用于获取训练数据集,所述训练数据集中包括正样本和负样本,所述正样本包括多个第一训练句子,每个第一训练句子由多个相似句子中两两相似句子进行拼接得到,所述负样本包括多个第二训练句子,每个第二训练句子由多个非相似句子中两两非相似句子进行拼接得到;
生成单元,用于根据所述训练数据集中的正样本和负样本生成一个相似矩阵,所述相似矩阵包括正样本标签和负样本标签,所述正样本标签用于指示所述正样本中的第一训练句子,所述负样本标签用于指示所述负样本中的第二训练句子;
处理单元,用于将所述相似矩阵中的各个第一训练句子输入预设的Bert模型,得到各个第一训练句子对应的第一向量表示,以及将所述相似矩阵中的各个第二训练句子输入所述预设的Bert模型,得到各个第二训练句子对应的第二向量表示;
训练单元,用于根据所述第一向量表示和所述第二向量表示确定损失函数值,并根据所述损失函数值训练所述预设的Bert模型,得到相似句向量模型;
所述训练单元根据所述第一向量表示和所述第二向量表示确定损失函数值时,具体用于:
将所述第一向量表示中的各个向量和所述第二向量表示中的各个向量两两相乘得到一个目标相似矩阵;
获取所述各个向量对应的标签,并根据所述各个向量以及所述各向量对应的标签确定标签矩阵;
根据所述目标相似矩阵和所述标签矩阵计算得到所述损失函数值;
所述训练单元根据所述目标相似矩阵和所述标签矩阵计算得到所述损失函数值时,具体用于:
将所述目标相似矩阵减去所述标签矩阵计算得到目标矩阵;
根据所述目标矩阵中的各个向量,计算所述目标矩阵中的各个向量的均值,并确定所述均值为所述损失函数值;
测试单元,用于获取待测试文本,所述待测试文本包括一个句子,并将所述待测试文本输入所述相似句向量生成模型,得到所述待测试文本的相似句向量,并确定与所述相似句向量对应的相似句子。
7.一种计算机设备,其特征在于,包括处理器和存储器,其中,所述存储器用于存储计算机程序,所述处理器被配置用于调用所述计算机程序,执行如权利要求1-5任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1-5任一项所述的方法。
CN202111019394.1A 2021-08-31 2021-08-31 一种相似文本的生成方法、装置、设备及存储介质 Active CN113722441B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111019394.1A CN113722441B (zh) 2021-08-31 2021-08-31 一种相似文本的生成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111019394.1A CN113722441B (zh) 2021-08-31 2021-08-31 一种相似文本的生成方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113722441A CN113722441A (zh) 2021-11-30
CN113722441B true CN113722441B (zh) 2023-09-05

Family

ID=78680495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111019394.1A Active CN113722441B (zh) 2021-08-31 2021-08-31 一种相似文本的生成方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113722441B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186548B (zh) * 2021-12-15 2023-08-15 平安科技(深圳)有限公司 基于人工智能的句子向量生成方法、装置、设备及介质
CN114357974B (zh) * 2021-12-28 2022-09-23 北京海泰方圆科技股份有限公司 相似样本语料的生成方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308131A (zh) * 2020-10-29 2021-02-02 腾讯科技(深圳)有限公司 样本拒识方法、装置、设备及存储介质
CN112860841A (zh) * 2021-01-21 2021-05-28 平安科技(深圳)有限公司 一种文本情感分析方法、装置、设备及存储介质
CN113221530A (zh) * 2021-04-19 2021-08-06 杭州火石数智科技有限公司 一种基于circle loss的文本相似度匹配方法、装置、计算机设备和储存介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308131A (zh) * 2020-10-29 2021-02-02 腾讯科技(深圳)有限公司 样本拒识方法、装置、设备及存储介质
CN112860841A (zh) * 2021-01-21 2021-05-28 平安科技(深圳)有限公司 一种文本情感分析方法、装置、设备及存储介质
CN113221530A (zh) * 2021-04-19 2021-08-06 杭州火石数智科技有限公司 一种基于circle loss的文本相似度匹配方法、装置、计算机设备和储存介质

Also Published As

Publication number Publication date
CN113722441A (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
US20180336193A1 (en) Artificial Intelligence Based Method and Apparatus for Generating Article
CN107423278B (zh) 评价要素的识别方法、装置及系统
CN113722441B (zh) 一种相似文本的生成方法、装置、设备及存储介质
CN112860841A (zh) 一种文本情感分析方法、装置、设备及存储介质
US20210042391A1 (en) Generating summary content using supervised sentential extractive summarization
CN111694937A (zh) 基于人工智能的面试方法、装置、计算机设备及存储介质
CN112685550B (zh) 智能问答方法、装置、服务器及计算机可读存储介质
CN115392237B (zh) 情感分析模型训练方法、装置、设备及存储介质
CN110610698A (zh) 一种语音标注方法及装置
CN112085091B (zh) 基于人工智能的短文本匹配方法、装置、设备及存储介质
CN113657105A (zh) 基于词汇增强的医学实体抽取方法、装置、设备及介质
CN113220854B (zh) 机器阅读理解的智能对话方法及装置
CN114461777A (zh) 智能问答方法、装置、设备及存储介质
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN117077679B (zh) 命名实体识别方法和装置
CN113505786A (zh) 试题拍照评判方法、装置及电子设备
CN112988996B (zh) 知识库生成方法、装置、设备及存储介质
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端
CN115757720A (zh) 基于知识图谱的项目信息搜索方法、装置、设备和介质
CN115346095A (zh) 视觉问答方法、装置、设备及存储介质
CN114722821A (zh) 一种文本匹配方法、装置、存储介质及电子设备
CN114842982A (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN111680515B (zh) 基于ai识别的答案确定方法、装置、电子设备及介质
CN116432666A (zh) 一种文本评估方法、装置、电子设备和存储介质
CN108415896A (zh) 深度学习模型训练方法、分词方法、训练系统和分词系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant