CN113705191A

CN113705191A - 样本语句的生成方法、装置、设备及存储介质

Info

Publication number: CN113705191A
Application number: CN202110399449.XA
Authority: CN
Inventors: 杨韬
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2021-11-26

Abstract

本申请公开了一种样本语句的生成方法、装置、设备及存储介质，涉及机器学习领域。该方法包括：获取用于进行关系识别的种子语句；将种子语句与语句库进行匹配，得到与种子语句符合第一相似度条件的第一候选语句；对目标实体和属性条件进行语句预测，生成第二候选语句；基于第一候选语句和第二候选语句生成样本语句。样本语句并非采用人工标注方式生成，而是通过提供种子语句，在种子语句的基础上，从语句库中匹配出第一候选语句，并通过自动生成方式生成第二候选语句，从而在第一候选语句和第二候选语句的基础上得到自动生成的样本语句，将样本语句的生成过程自动化，提高了样本语句的生成效率，从而间接提高了关系识别的训练效率和准确率。

Description

样本语句的生成方法、装置、设备及存储介质

技术领域

本申请实施例涉及机器学习领域，特别涉及一种样本语句的生成方法、装置、设备及存储介质。

背景技术

关系识别又称为关系抽取，是指从语句中识别出实体对应的属性条件，其中，待识别的语句通常为用于进行提问的语句，如：珠穆朗玛峰有多高，则该语句中包含的实体为珠穆朗玛峰，属性条件为海拔(即“有多高”对应的属性)，以珠穆朗玛峰为例，其对应的属性包括：海拔、地理位置、海拔排名等。

从语句中识别出实体对应的属性条件后，即可通过构建好的知识图谱查询得到属性结果，如：珠穆朗玛峰的海拔为8848.86米。相关技术中，通过关系识别模型从语句中识别得到属性条件，而识别模型是通过标注有参考属性的样本语句训练得到的。样本语句是由人工标注得到的。

然而，通过上述方式获取样本语句时，由于知识图谱中涉及的属性类型数量较大，故样本语句的标注需要大量的人力和时间资源，样本语句的获取效率较低，从而影响了关系识别模型的训练效率。

发明内容

本申请实施例提供了一种样本语句的生成方法、装置、设备及存储介质，能够提高样本语句的生成效率。所述技术方案如下：

一方面，提供了一种样本语句的生成方法，所述方法包括：

获取用于进行关系识别的种子语句，所述种子语句中包括目标实体和所述目标实体对应的属性条件，所述种子语句用于指示对所述目标实体的属性进行确定；

将所述种子语句与语句库进行匹配，得到与所述种子语句符合第一相似度条件的第一候选语句，其中，所述语句库中包括历史搜索语句，所述历史搜索语句为搜索平台在历史时间段内接收到的搜索语句；

基于所述第一候选语句生成与所述目标实体和所述属性条件对应的样本语句，所述样本语句用于进行关系识别的训练。

另一方面，提供了一种样本语句的生成装置，所述装置包括：

获取模块，用于获取用于进行关系识别的种子语句，所述种子语句中包括目标实体和所述目标实体对应的属性条件，所述种子语句用于指示对所述目标实体的属性进行确定；

匹配模块，用于将所述种子语句与语句库进行匹配，得到与所述种子语句符合第一相似度条件的第一候选语句，其中，所述语句库中包括历史搜索语句，所述历史搜索语句为搜索平台在历史时间段内接收到的搜索语句；

生成模块，用于基于所述第一候选语句生成与所述目标实体和所述属性条件对应的样本语句，所述样本语句用于进行关系识别的训练。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述样本语句的生成方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的样本语句的生成方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的样本语句的生成方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

样本语句并非采用相关技术中的人工标注方式生成，而是通过提供种子语句，在种子语句的基础上，从语句库中匹配出第一候选语句，并通过自动生成方式生成第二候选语句，从而在第一候选语句和第二候选语句的基础上得到自动生成的样本语句，将样本语句的生成过程自动化，提高了样本语句的生成效率，从而间接提高了关系识别的训练效率和准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性的实施例提供的实施环境示意图；

图2是本申请一个示例性实施例提供的样本语句的生成方法的整体过程示意图；

图3是本申请一个示例性实施例提供的样本语句的生成方法的流程图；

图4是基于图3示出的实施例提供的语句匹配模型的结构示意图；

图5是基于图3示出的实施例提供的语句生成模型的结构示意图；

图6是本申请另一个示例性实施例提供的样本语句的生成方法的流程图；

图7是基于图6示出的实施例提供的相似判别模型的结构示意图；

图8是本申请另一个示例性实施例提供的样本语句的生成方法的流程图；

图9是本申请一个示例性实施例提供的关系识别模型的训练过程示意图；

图10是本申请一个示例性实施例提供的样本语句的生成装置的结构框图；

图11是本申请另一个示例性实施例提供的样本语句的生成装置的结构框图；

图12是本申请一个示例性的实施例提供的服务器的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，针对本申请实施例中涉及的名词进行简单介绍：

人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(Nature Language Processing，NLP)：是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning，ML)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

实体：是指客观存在并且相互之间存在区别的事物，本申请实施例中，实体是指文本内容中出现的需要进行属性关系确定的事物。在一些实施例中，文本内容实现为用于提问的语句，实体是指在提问语句中出现的对应有属性条件的事物，也即，提问语句中通常包括提问所针对的实体和需要确定的与实体相关的属性。示意性的，在提问语句“珠穆朗玛峰有多高”中，对应的实体即为珠穆朗玛峰，而属性即为“有多高”对应的海拔，其中“有多高”为提问语句中出现的属性表达，海拔为知识图谱中记录的与“有多高”对应的属性表达，也即本申请实施例中涉及的关系识别模型用于将提问语句中的“有多高”识别为“海拔”，从而能够基于实体“珠穆朗玛峰”和属性“海拔”从知识图谱中查询到对应的结果，也即珠穆朗玛峰的海拔查询结果。

结合上述名词简介，对本申请实施例的应用场景进行举例说明：

第一，在在线问答场景中，当用户与语音或者文本输入的形式输入提问语句后，通过实体识别模型从提问语句中识别得到语句中包含的实体，并通过关系识别模型从语句中识别得到与实体相关的属性条件，从而根据实体和属性条件从已构建的知识图谱中确定对应的提问结果。

示意性的，用户通过文本输入的方式输入提问语句“明星A是在哪里出生的”，则通过实体识别模型从提问语句中识别得到实体为“明星A”，通过关系识别模型从提问语句中识别得到与实体对应的属性为“出生地”，将“明星A”和“出生地”作为查询关键词在知识图谱中将进行查询，得到查询结果“地点b”，将查询结果反馈并显示。

其中，关系识别模型需要通过标注有参考属性的样本语句进行训练。而样本语句的生成是通过语句库和语句生成模型自动生成。其中，样本语句的具体生成方式在后续实施例中进行详细介绍。

第二，在人机对话场景中，当用户以语音方式输入提问语句后，通过实体识别模型从提问语句中识别得到语句中包含的实体，并通过关系识别模型从语句中识别得到与实体相关的属性条件，从而根据实体和属性条件生成答复语句，并通过语音的形式输出答复语句。

示意性的，用户通过语音输入的方式输入提问语句“明星A的老婆是谁”，则通过实体识别模型从提问语句中识别得到实体为“明星A”，通过关系识别模型从提问语句中识别得到与实体对应的属性为“妻子”，将“明星A”和“妻子”作为查询关键词进行查询，得到查询结果“人物C”，将查询结果嵌入至语音内容，得到“明星A的妻子是人物C”，并以语音的形式输出。

值得注意的是，本申请实施例提供的样本语句的生成方法，可以由终端实现，也可以由服务器实现，还可以由终端和服务器协同实现。其中，终端包括智能手机、平板电脑、便携式膝上笔记本电脑、台式计算机、智能音箱、智能可穿戴设备等终端中的至少一种，服务器可以是物理服务器，也可以是提供云计算服务的云服务器，且服务器可以实现为一台服务器，也可以是多个服务器构成的服务器集群或分布式系统。

其中，当终端和服务器协同实现本申请实施例提供的方案时，终端和服务器可以通过有线或无线通信方式进行直接或间接连接，本申请实施例对此不加以限定。

请参考图1，其示出了本申请一个示例性实施例提供的实施环境示意图，如图1所示，该实施环境中包括终端110、服务器120，终端110和服务器120之间通过通信网络130连接；

本申请实施例中，以在线问答场景为例进行实施环境的介绍。终端110中安装提供在线问答功能的程序。该提供在线问答功能的程序可以实现为浏览器、视频播放程序、电子书阅读程序、即时通讯应用程序、游戏、工具类应用程序等，本申请实施例对此不加以限定。终端110通过文本输入的形式或者语音输入的形式输入提问语句后，终端110将提问语句发送至服务器120。

服务器120中存储有实体识别模型121、关系识别模型122和知识图谱123。当服务器120接收到提问语句后，通过实体识别模型121对提问语句进行实体识别，得到提问语句中的实体，通过关系识别模型122对提问语句进行属性识别，得到提问语句对应的属性条件，根据实体和属性条件在知识图谱123中进行查询，得到对应的提问结果。

服务器120将提问结果反馈至终端110，终端110对提问结果进行展示，其中，展示方式包括语音展示或者界面展示中的至少一种。

值得注意的是，上述通信网络130可以实现为有线网络，也可以实现为无线网络，且通信网络130可以实现为局域网、城域网或广域网中的任意一种，本申请实施例对此不加以限定。

值得注意的是，上述服务器120可以实现为云端的云服务器，其中，云技术(Cloudtechnology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

在一些实施例中，上述服务器120还可以实现为区块链系统中的节点。区块链(Blockchain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

本申请实施例中，服务器120中提供的样本语句的生成方法及实现为应用服务层中的业务服务。

结合上述介绍内容，对本申请实施例中的样本语句的生成方法进行介绍。其中，样本语句是指标注有参考属性用于对关系识别模型进行训练的语句。相关技术中，通常是通过人工标注的方式生成样本语句的，而该方式标注效率较低，需要耗费大量的人力物力资源。

本申请实施例中，仅需要提供少量的种子语句即可自动生成大量的样本语句。示意性的，请参考图2，其示出了本申请一个示例性实施例提供的样本语句的生成方法的整体过程示意图，如图2所示将种子语句210分别进行1、语句匹配221；2、语句生成222。

其中，语句匹配221是指将种子语句210与语句库230进行匹配，从语句库230中匹配出与种子语句210相似度较高的第一候选语句，而语句库230中的语句为搜索平台上用户的历史搜索语句；

语句生成222是指将种子语句210属于语句生成模型后，输出第二候选语句，语句生成模型是训练得到的用于生成与种子语句210相似的语句的模型。

将第一候选语句和第二候选语句与种子语句进行相似度判定240，并过滤掉相似度不符合要求的候选语句，最终得到样本语句250。

结合上述名词简介以及应用场景，对本申请实施例提供的样本语句的生成方法进行说明，以由服务器执行以完成该方法为例进行说明，在一些实施例中，样本语句通过匹配过程获取，或者，样本语句通过生成过程获取，或者，样本语句通过匹配和生成的过程获取。

当样本语句通过匹配过程获取时，首先获取用于进行关系识别的种子语句，种子语句中包括目标实体和目标实体对应的属性条件，种子语句用于指示对目标实体的属性进行确定；将种子语句与语句库进行匹配，得到与种子语句符合第一相似度条件的第一候选语句，其中，语句库中包括历史搜索语句，历史搜索语句为搜索平台在历史时间段内接收到的搜索语句；基于第一候选语句生成与目标实体和属性条件对应的样本语句，样本语句用于进行关系识别的训练。

本申请实施例中，以通过匹配过程和生成过程获取样本语句为例进行说明，如图3所示，该方法包括：

步骤301，获取用于进行关系识别的种子语句，种子语句中包括目标实体和目标实体对应的属性条件。

种子语句用于指示对目标实体的属性进行确定。

示意性的，种子语句为“珠峰高度”，其中，目标实体为珠峰(也即珠穆朗玛峰的简称)，属性条件为高度(也即表达的是珠峰的海拔高度)，则该种子语句用于指示对珠穆朗玛峰的海拔进行确定。

在一些实施例中，种子语句的获取方式包括如下方式中的至少一种：

第一，种子语句为人工设置的语句，也即，种子语句为人工输入并存储的语句。

在一些实施例中，种子语句为针对某个或者多个属性人工设置的语句，示意性的，针对“海拔”属性，人工设置种子语句“珠峰高度”。

在一些实施例中，服务器中存储有种子语句库，通过输入的方式输入种子语句后，将种子语句存储至种子语句库中，从而当需要通过种子语句生成样本语句时，直接从种子语句库中获取已存储的种子语句。

第二，从已有的语句库中随机获取历史搜索语句作为种子语句。

其中，语句库中包括历史搜索语句，历史搜索语句为搜索平台在历史时间段内接收到的搜索语句。搜索平台可以是指定搜索平台，也可以是一组搜索平台。可选地，该搜索平台可以实现为搜索引擎，用户需要在搜索引擎的搜索框中键入搜索语句，从而获取搜索结果。由于获取搜索结果的过程中，终端需要先向服务器发送用户键入的搜索语句，服务器在根据搜索语句获取搜索结果时，还需要将搜索语句存储至语句库中。

在一些实施例中，种子语句本身标注有参考属性和目标实体。

步骤302，将种子语句与语句库进行匹配，得到与种子语句符合第一相似度条件的第一候选语句。

其中，语句库即为上述包括历史搜索语句的语句库，在一些实施例中，历史搜索语句在语句库中按序排列存储；或者，历史搜索语句在语句库中与搜索时刻对应存储；或者，历史搜索语句在语句库中与发起搜索的用户账号对应存储；或者，历史搜索语句在语句库中与发起搜索的终端标识对应存储。本申请实施例对历史搜索语句在语句库中的存储方式不加以限定。

示意性的，以历史搜索语句与搜索时刻对应存储为例进行说明，也即语句库中存储有历史搜索语句以及每个历史搜索语句对应的搜索时刻。如：搜索语句a对应的搜索时刻为2020年5月15日17：00；搜索语句b对应的搜索时刻为2020年5月15日16：20。

在一些实施例中，历史搜索语句为搜索平台在历史时间段内接收到的搜索语句。可选地，该历史时间段为当前时刻之前指定时长的时间段；或者，历史时间段为搜索平台投入使用的时刻至当前时刻的时间段；或者，历史时间段为指定的某一时间段，本申请实施例对历史时间段不加以限定。

在一些实施例中，利用训练好的语句匹配模型，在语句库中匹配与种子语句相似的第一候选语句。在一些实施例中，将语句库中的历史搜索语句分别与种子语句进行相似度分析，从而选择出符合第一相似度条件的历史搜索语句作为第一候选语句。

在一些实施例中，将种子语句输入语句匹配模型，该语句匹配模型中包括语句库，通过语句匹配模型对种子语句与语句库进行匹配，也即与语句库中的历史搜索语句进行匹配，得到第一候选语句。可选地，通过语句匹配模型对种子语句与语句库中的历史搜索语句进行相似度分析，得到符合第一相似度的第一候选语句。

在一些实施例中，由于语句库中的历史搜索语句量较大，有几亿或者几十亿的语句量，故采用基于向量的检索。语句匹配模型采用的是双塔基于Transformer的双向编码(Bidirectional Encoder Representations from Transformers，BERT)模型，训练数据可以来自于一些开源数据，以及通过用户搜索点击日志挖掘的一些相似语句。示意性的，语句匹配模型的结构如下图4所示。

将语句库中的历史搜索语句输入BERT模型410，将种子语句输入BERT模型420，通过BERT模型410和BERT模型420输出的向量进行匹配相似度的确定，从而根据匹配相似度确定符合第一相似度条件的历史搜索语句作为第一候选语句。其中，第一相似度条件实现为相似度阈值，如：第一相似度条件为0.5，则将向量匹配相似度达到0.5的历史搜索语句作为第一候选语句。其中，BERT模型410和BERT模型420为相同或者不同的模型，或者，BERT模型410和BERT模型420可以实现为同一个模型。

步骤303，对目标实体和属性条件进行语句预测，生成第二候选语句。

在一些实施例中，通过训练好的语句生成模型生成第二候选语句。也即将种子语句输入语句生成模型，语句生成模型为预先训练的道德用户根据实体和属性关系进行语句生成的模型，通过语句生成模型对目标实体和属性条件进行语句预测，生成第二候选语句。

示意性的，利用训练好的语句生成模型，根据种子语句采用seq2seq生成模型生成一些新的相似语句作为第二候选语句。相较于语句匹配模型，语句生成模型能够生成一些语句库中不存在的新语句。语句生成模型的训练数据可以来自于一些开源数据，以及通过用户搜索点击日志挖掘的一些相似语句。

示意性的，语句生成模型的结构如图5所示。将种子语句输入至编码器510后，通过编码器510进行编码，得到编码特征。将编码特征和种子语句输入至解码器520进行解码，从而得到第二候选语句。其中，语句生成模型的编码器(Encoder)采用的是BERT,解码器(Decoder)也采用BERT权重来初始化。

值得注意的是，上述编码器也可以替换实现为长短期记忆网络(Long ShortTermMemory，LSTM)或者门控循环网络(GateRecurrent Unit，GRU)模型。

步骤304，基于第一候选语句和第二候选语句生成与目标实体和属性条件对应的样本语句。

在一些实施例中，样本语句用于进行关系识别的训练。样本语句为与种子语句指示内容相同而表达方式不同的语句。

示意性的，样本语句的应用方式包括如下方式中的至少一种：

第一，样本语句为用于对关系识别模型进行训练的语句。

关系识别模型用于从语句中识别出实体对应的属性条件。示意性的，语句为“珠峰高度”，则实体为珠峰，关系识别模型用于从语句中识别得到属性条件为海拔，也即“高度”所表达的属性条件。

第二，样本语句用于扩大搜索结果的范围。

由于样本语句与种子语句指示内容相同而表达方式不同，则当用户键入种子语句进行结果搜索时，仅能以种子语句中的表达内容为搜索关键词，生成样本语句后，能够根据种子语句中的表达内容和样本语句中的表达内容为搜索关键词进行搜索，从而扩大了搜索结果的范围。示意性的，种子语句为“珠峰高度”，则实体为珠峰，而通过上述方式扩展得到的样本语句中包括“珠穆朗玛峰的海拔”、“珠峰海拔”等语句，从而将关键词“珠峰”扩展到“珠峰”和“珠穆朗玛峰”，将关键词“高度”扩展到“高度”和“海拔”。

第三，样本语句用于提供候选翻译结果。

在一些实施例中，当针对提问语句进行翻译时，根据翻译语句(作为种子语句)进行上述处理后，得到样本语句，将样本语句提供给用户进行选择，从而用户能够从翻译语句和样本语句中选择更合理的语句作为翻译结果。

值得注意的是，上述样本语句的应用方式仅为示意性的举例，本申请实施例对此不加以限定。本申请实施例中，以样本语句为用于对关系识别模型进行训练的语句为例进行说明。

在一些实施例中，基于第一候选语句和第二候选语句生成样本语句的方式包括如下方式中的至少一种：

第一，将第一候选语句和第二候选语句的集合作为样本语句的结合，也即，第一候选语句和第二候选语句中的语句即为样本语句。

第二，从第一候选语句和第二候选语句中随机选择指定数量的候选语句作为样本语句。

第三，对第一候选语句、第二候选语句和种子语句进行相似度分析，得到符合相似度条件的样本语句。

在一些实施例中，种子语句也实现为样本语句中的一个语句。

综上所述，本申请实施例提供的样本语句的生成方法，样本语句并非采用相关技术中的人工标注方式生成，而是通过提供种子语句，在种子语句的基础上，从语句库中匹配出第一候选语句，并通过自动生成方式生成第二候选语句，从而在第一候选语句和第二候选语句的基础上得到自动生成的样本语句，将样本语句的生成过程自动化，提高了样本语句的生成效率，从而间接提高了关系识别的训练效率和准确率。

在一些实施例中，当仅通过匹配过程进行样本语句的获取时，仅针对第一候选语句进行选择；当仅通过生成过程进行样本语句的获取时，仅针对第二候选语句进行选择；当通过匹配和生成过程进行样本语句的获取时，针对第一候选语句和第二候选语句进行选择。其中，以第一候选语句和第二候选语句为例进行说明，请参考如下图6。

在一个可选的实施例中，第一候选语句和第二候选语句需要与种子语句进行相似度分析后得到样本语句。图6是本申请另一个示例性实施例提供的样本语句的生成方法流程图，以该方法由服务器执行为例进行说明，如图6所示，该方法包括：

步骤601，获取用于进行关系识别的种子语句，种子语句中包括目标实体和目标实体对应的属性条件。

种子语句用于指示对目标实体的属性进行确定。

步骤602，将种子语句与语句库进行匹配，得到与种子语句符合第一相似度条件的第一候选语句。

步骤603，对目标实体和属性条件进行语句预测，生成第二候选语句。

步骤604，将第一候选语句与种子语句进行相似度分析，从第一候选语句中确定符合第二相似度条件的第一样本语句。

在一些实施例中，将第一候选语句与种子语句输入至相似判别模型，通过相似判别模型对第一候选语句与种子语句进行相似度分析。示意性的，相似判别模型采用交互式BERT架构，如图7所示，将种子语句和第一候选语句进行拼接，并用[SEP]符号隔开，将拼接后的种子语句和第一候选语句输入至相似判别模型，710，通过相似判别模型710进行相似度分析，得到相似度分析结果。当相似度分析结果符合第二相似度条件，则保留为第一样本语句。

其中，第二相似度条件实现为相似度阈值，如，第二相似度条件为0.7，则当相似度分析结果指示相似度达到0.7时，保留第一候选语句作为第一样本语句。

步骤605，将第二候选语句与种子语句进行相似度分析，从第二候选语句中确定符合第三相似度条件的第二样本语句。

在一些实施例中，对第二候选语句和种子语句进行相似度分析的方式，与上述对第一候选语句和种子语句进行相似度分析的方式相同或者不同。在一些实施例中，将第一候选语句和第二候选语句整合得到候选语句集合，将候选语句集合中的候选语句依次进行与种子语句的相似度分析。

其中，第三相似度条件与上述第二相似度条件相同或者不同。

步骤606，将第一样本语句和第二样本语句的集合确定为包含样本语句的集合。

也即，将第一样本语句和第二样本语句作为最终的样本语句。

其中，样本语句为用于对关系识别模型进行训练的语句。在一些实施例里中，种子语句本身标注有参考属性，则生成的样本语句保持与种子语句相同的标注内容，也即，样本语句也标注有参考属性。样本语句通过参考属性对关系识别模型进行监督训练。

本实施例提供的方法，在得到第一候选语句和第二候选语句后，通过与种子语句进行相似度分析，避免语句匹配模型和语句生成模型由于阈值设置限度较宽而导致第一候选语句和第二候选语句与种子语句之间相似度较低的情况，通过相似度分析确保样本语句与种子语句之间的相似度符合相似度条件，避免产生样本语句与种子语句差别较大影响训练效果的情况。

在一个可选的实施例中，在得到样本语句后，还需要通过样本语句对关系识别模型进行训练。图8是本申请另一个示例性实施例提供的样本语句的生成方法的流程图，以该方法有服务器执行实现为例进行说明，如图8所示，该方法包括：

步骤801，获取用于进行关系识别的种子语句，种子语句中包括目标实体和目标实体对应的属性条件。

种子语句用于指示对目标实体的属性进行确定。

可选地，种子语句标注有参考属性。如，以上述种子语句“珠峰高度”为例，则参考属性为“海拔”。

步骤802，将种子语句与语句库进行匹配，得到与种子语句符合第一相似度条件的第一候选语句。

步骤803，对目标实体和属性条件进行语句预测，生成第二候选语句。

步骤804，基于第一候选语句和第二候选语句生成与目标实体和属性条件对应的样本语句。

可选地，样本语句为用于对关系识别模型进行训练的语句。关系识别模型用于从语句中识别出实体对应的属性条件。示意性的，语句为“珠峰高度”，则实体为珠峰，关系识别模型用于从语句中识别得到属性条件为海拔，也即“高度”所表达的属性条件。

步骤805，对样本语句标注参考属性。

也即，对样本语句标注与种子语句相同的参考属性。

示意性的，种子语句为“珠峰高度”，而样本语句为在种子语句的基础上自动生成的语句，且与种子语句表达的含义相同，则对样本语句标注与种子语句相同的参考属性“海拔”。

步骤806，通过样本语句对关系识别模型进行训练。

在一些实施例中，通过样本语句对关系识别模型进行训练的方式包括如下方式中的任意一种：

第一种，通过关系识别模型对样本语句进行属性关系识别，得到预测属性，基于预测属性与参考属性之间的差异，对关系识别模型中的模型参数进行调整。

其中，预测属性为关系识别模型识别得到的属性，参考属性为针对种子语句和样本语句标注的属性，即为真实属性，故，根据预测属性和参考属性即能够得到关系识别模型的识别结果与真实结果之间的差异，从而根据差异反向对关系识别模型进行训练，提高关系识别模型的识别准确率。

第二种，通过样本语句对关系识别模型和语句匹配模型进行训练，其中，关系识别模型用于识别语句中实体的属性条件。

其中，关系识别模型中包括第一模型参数，语句匹配模型中包括第二模型参数。获取样本语句中的样本语句对，样本语句对中包括第一样本语句和第二样本语句，通过关系识别模型对第一样本语句进行属性关系识别，得到第一预测属性，通过关系识别模型对第二样本语句进行属性关系识别，得到第二预测属性。基于第一预测属性、第二预测属性和参考属性之间的差异，对第一模型模型参数和第二模型参数进行调整。

其中，确定第一预测属性与参考属性之间的第一差异，确定第二预测属性与参考属性之间的第二差异，以及确定第一预测属性与第二预测属性之间的第三差异，基于第一差异、第二差异和第三差异确定损失差异，基于损失差异对第一模型参数和第二模型参数进行调整。

在一些实施例中，即将第一差异、第二差异和第三差异之和确定为损失差异；或者，将第一差异、第二差异和第三差异的加权和确定为损失差异。

示意性的，图9是本申请一个示例性实施例提供的关系识别模型的训练过程示意图，如图9所示，从样本语句中抽取样本语句对作为正例(即正样本)语句对，其中包括第一样本语句和第二样本语句，将第一样本语句输入关系识别模型910得到第一预测属性，将第二样本语句输入关系识别模型910得到第二预测属性，根据第一预测属性与参考属性确定第一差异，根据第二预测属性与参考属性确定第二差异，以及根据第一预测属性和第二预测属性确定第三差异。

示意性的，第一差异的计算方式如下公式一所示。

公式一：Loss₁＝logP_k1

其中，k1表示第一样本语句识别得到的第一预测属性，Loss₁表示第一预测属性和参考属性之间的差异度。

第二差异的计算方式如下公式二所示。

公式二：Loss₂＝logP_k2

其中，k2表示第二样本语句识别得到的第二预测属性，Loss₂表示第二预测属性和参考属性之间的差异度。

第三差异的计算方式如下公式三所示。

公式三：Loss₃＝max(0，M-S_-+S₊)

M是一个最大利润(max margin)超参数，S是指匹配分(也即样本语句的预测属性与参考属性之间的差异度)，S₊是参考属性和正例预测属性的匹配分，S_-是参考属性和负例预测属性的匹配分，匹配是采用的向量内积<V_query，V₊>，V_query表示参考属性，V₊表示正例预测属性，负例是随机采样的一个属性。最终的损失差异Loss是Loss₁、Loss₂和Loss₃之和。

根据损失差异对上述关系识别模型中的第一模型参数进行调整；以及，根据损失差异对上述语句匹配模型中的第二模型参数进行调整。

在一些实施例中，当损失差异收敛至要求损失值以下，则确定关系识别模型和语句匹配模型训练完毕，

本实施例提供的方法，由于仅通过关系识别模型进行关系识别通常会忽略掉语句与语句之间的细粒度匹配特征，故，通过关系识别模型和语句匹配模型进行联合学习，提高了模型训练的准确率。

图10是本申请一个示例性实施例提供的样本语句的生成装置的结构框图，如图10所示，该装置包括：

获取模块1010，用于获取用于进行关系识别的种子语句，所述种子语句中包括目标实体和所述目标实体对应的属性条件，所述种子语句用于指示对所述目标实体的属性进行确定；

匹配模块1020，用于将所述种子语句与语句库进行匹配，得到与所述种子语句符合第一相似度条件的第一候选语句，其中，所述语句库中包括历史搜索语句，所述历史搜索语句为搜索平台在历史时间段内接收到的搜索语句；

所述生成模块1030，还用于基于所述第一候选语句生成与所述目标实体和所述属性条件对应的样本语句。

在一个可选的实施例中，所述匹配模块1020，还用于将所述种子语句输入语句匹配模型，所述语句匹配模型中包括所述语句库；通过所述语句匹配模型对所述种子语句与所述语句库进行匹配，得到所述第一候选语句。

在一个可选的实施例中，所述匹配模块1020，还用于通过所述语句匹配模型对所述种子语句与所述语句库中的所述历史搜索语句进行相似度分析，得到符合所述第一相似度的所述第一候选语句。

在一个可选的实施例中，生成模块1030，还用于对所述目标实体和所述属性条件进行语句预测，生成第二候选语句；

所述生成模块1030，还用于基于所述第一候选语句和所述第二候选语句生成与所述目标实体和所述属性条件对应的样本语句，所述样本语句用于进行关系识别的训练。

在一个可选的实施例中，所述生成模块1030，还用于将所述种子语句输入语句生成模型，所述语句生成模型为预先训练得到的用于根据实体和属性关系进行语句生成的模型；通过所述语句生成模型对所述目标实体和所述属性条件进行语句预测，生成所述第二候选语句。

在一个可选的实施例中，如图11所示，所述生成模块1030，包括：

分析单元1031，用于将所述第一候选语句与所述种子语句进行相似度分析，从所述第一候选语句中确定符合第二相似度条件的第一样本语句；

所述分析单元1031，还用于将所述第二候选语句与所述种子语句进行相似度分析，从所述第二候选语句中确定符合第三相似度条件的第二样本语句；

确定单元1032，用于将所述第一样本语句与所述第二样本语句的集合确定为包含所述样本语句的集合。

在一个可选的实施例中，所述种子语句标注有参考属性；

所述装置，还包括：

标注模块1040，用于对所述样本语句标注所述参考属性；

训练模块1050，用于通过所述样本语句对关系识别模型进行训练，所述关系识别模型用于识别语句中实体的属性条件。

在一个可选的实施例中，所述训练模块1050，还用于通过所述关系识别模型对所述样本语句进行属性关系识别，得到预测属性；基于所述预测属性与所述参考属性之间的差异，对所述关系识别模型中的模型参数进行调整。

在一个可选的实施例中，所述种子语句标注有参考属性；

所述装置，还包括：

训练模块1050，用于通过所述样本语句对关系识别模型和所述语句匹配模型进行训练，所述关系识别模型用于识别语句中实体的属性条件。

在一个可选的实施例中，所述关系识别模型中包括第一模型参数，所述语句匹配模型中包括第二模型参数；

所述获取模块1010，还用于获取所述样本语句中的样本语句对，所述样本语句对中包括第一样本语句和第二样本语句；

所述训练模块1050，还用于通过所述关系识别模型对所述第一样本语句进行属性关系识别，得到第一预测属性；通过所述关系识别模型对所述第二样本语句进行属性关系识别，得到第二预测属性；基于所述第一预测属性、所述第二预测属性和所述参考属性之间的差异，对所述第一模型参数和所述第二模型参数进行调整。

在一个可选的实施例中，所述训练模块1050，还用于确定所述第一预测属性与所述参考属性之间的第一差异；确定所述第二预测属性与所述参考属性之间的第二差异；确定所述第一预测属性与所述第二预测属性之间的第三差异；基于所述第一差异、所述第二差异和所述第三差异确定损失差异；基于所述损失差异对所述第一模型参数和所述第二模型参数进行调整。

综上所述，本申请实施例提供的样本语句的生成装置，样本语句并非采用相关技术中的人工标注方式生成，而是通过提供种子语句，在种子语句的基础上，从语句库中匹配出第一候选语句，并通过自动生成方式生成第二候选语句，从而在第一候选语句和第二候选语句的基础上得到自动生成的样本语句，将样本语句的生成过程自动化，提高了样本语句的生成效率，从而间接提高了关系识别的训练效率和准确率。

需要说明的是：上述实施例提供的样本语句的生成装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的样本语句的生成装置与样本语句的生成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图12示出了本申请一个示例性实施例提供的服务器的结构示意图。该具体来讲：

服务器1200包括中央处理单元(Central Processing Unit，CPU)1201、包括随机存取存储器(Random Access Memory，RAM)1202和只读存储器(Read Only Memory，ROM)1203的系统存储器1204，以及连接系统存储器1204和中央处理单元1201的系统总线1205。服务器1200还包括用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1206。

大容量存储设备1206通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。大容量存储设备1206及其相关联的计算机可读介质为服务器1200提供非易失性存储。也就是说，大容量存储设备1206可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory，EEPROM)、闪存或其他固态存储其技术，CD-ROM、数字通用光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1206可以统称为存储器。

根据本申请的各种实施例，服务器1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1200可以通过连接在系统总线1205上的网络接口单元1211连接到网络1212，或者说，也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

本申请的实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的样本语句的生成方法。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行，以实现上述各方法实施例提供的样本语句的生成方法。

本申请的实施例还提供了一种计算机程序产品，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的样本语句的生成方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种样本语句的生成方法，其特征在于，所述方法包括：

基于所述第一候选语句生成与所述目标实体和所述属性条件对应的样本语句。

2.根据权利要求1所述的方法，其特征在于，所述将所述种子语句与语句库进行匹配，得到与所述种子语句符合第一相似度条件的第一候选语句，包括：

将所述种子语句输入语句匹配模型，所述语句匹配模型中包括所述语句库；

通过所述语句匹配模型对所述种子语句与所述语句库进行匹配，得到所述第一候选语句。

3.根据权利要求2所述的方法，其特征在于，所述通过所述语句匹配模型对所述种子语句与所述语句库进行匹配，得到所述第一候选语句，包括：

通过所述语句匹配模型对所述种子语句与所述语句库中的所述历史搜索语句进行相似度分析，得到符合所述第一相似度的所述第一候选语句。

4.根据权利要求2或3所述的方法，其特征在于，所述方法还包括：

对所述目标实体和所述属性条件进行语句预测，生成第二候选语句；

所述基于所述第一候选语句生成与所述目标实体和所述属性条件对应的样本语句，包括：

基于所述第一候选语句和所述第二候选语句，生成与所述目标实体和所述属性条件对应的样本语句。

5.根据权利要求4所述的方法，其特征在于，所述对所述目标实体和所述属性条件进行语句预测，生成第二候选语句，包括：

将所述种子语句输入语句生成模型，所述语句生成模型为预先训练得到的用于根据实体和属性关系进行语句生成的模型；

通过所述语句生成模型对所述目标实体和所述属性条件进行语句预测，生成所述第二候选语句。

6.根据权利要求4所述的方法，其特征在于，所述基于所述第一候选语句和所述第二候选语句生成与所述目标实体和所述属性条件对应的样本语句，包括：

将所述第一候选语句与所述种子语句进行相似度分析，从所述第一候选语句中确定符合第二相似度条件的第一样本语句；

将所述第二候选语句与所述种子语句进行相似度分析，从所述第二候选语句中确定符合第三相似度条件的第二样本语句；

将所述第一样本语句与所述第二样本语句的集合确定为包含所述样本语句的集合。

7.根据权利要求4所述的方法，其特征在于，所述种子语句标注有参考属性；

所述基于所述第一候选语句和所述第二候选语句生成与所述目标实体和所述属性条件对应的样本语句之后，还包括：

对所述样本语句标注所述参考属性；

通过所述样本语句对关系识别模型进行训练，所述关系识别模型用于识别语句中实体的属性条件。

8.根据权利要求7所述的方法，其特征在于，所述通过所述样本语句对关系识别模型进行训练，包括：

通过所述关系识别模型对所述样本语句进行属性关系识别，得到预测属性；

基于所述预测属性与所述参考属性之间的差异，对所述关系识别模型中的模型参数进行调整。

9.根据权利要求4所述的方法，其特征在于，所述种子语句标注有参考属性；

通过所述样本语句对关系识别模型和所述语句匹配模型进行训练，所述关系识别模型用于识别语句中实体的属性条件。

10.根据权利要求9所述的方法，其特征在于，所述关系识别模型中包括第一模型参数，所述语句匹配模型中包括第二模型参数；

所述通过所述样本语句对关系识别模型和所述语句匹配模型进行训练，包括：

获取所述样本语句中的样本语句对，所述样本语句对中包括第一样本语句和第二样本语句；

通过所述关系识别模型对所述第一样本语句进行属性关系识别，得到第一预测属性；

通过所述关系识别模型对所述第二样本语句进行属性关系识别，得到第二预测属性；

基于所述第一预测属性、所述第二预测属性和所述参考属性之间的差异，对所述第一模型参数和所述第二模型参数进行调整。

11.根据权利要求10所述的方法，其特征在于，所述基于所述第一预测属性、所述第二预测属性和所述参考属性之间的差异，对所述第一模型参数和所述第二模型参数进行调整，包括：

确定所述第一预测属性与所述参考属性之间的第一差异；

确定所述第二预测属性与所述参考属性之间的第二差异；

确定所述第一预测属性与所述第二预测属性之间的第三差异；

基于所述第一差异、所述第二差异和所述第三差异确定损失差异；

基于所述损失差异对所述第一模型参数和所述第二模型参数进行调整。

12.一种样本语句的生成装置，其特征在于，所述装置包括：

13.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至11任一所述的样本语句的生成方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至11任一所述的样本语句的生成方法。