CN113806483A

CN113806483A - 数据处理方法、装置、电子设备及计算机程序产品

Info

Publication number: CN113806483A
Application number: CN202111095313.6A
Authority: CN
Inventors: 曹宜超
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2021-12-17
Anticipated expiration: 2041-09-17
Also published as: CN113806483B

Abstract

本公开提供了一种数据处理方法、装置、电子设备及计算机程序产品，涉及人工智能领域，尤其涉及深度学习和自然语言处理领域。具体实现方案为：获取待处理文本，以及基于待处理文本执行搜索得到的搜索结果，并检测对搜索结果执行操作而生成的操作信息，从而根据操作信息从预设文本数据集中确定与待处理文本对应的文本集合，进而对文本集合进行过滤处理，得到待处理文本对应的至少一个目标文本，其中，待处理文本与至少一个目标文本具有相同的语义。本公开至少解决了现有的数据增强方法所产出的样本存在多样性差的问题。

Description

数据处理方法、装置、电子设备及计算机程序产品

技术领域

本公开涉及人工智能领域，尤其涉及深度学习和自然语言处理领域，具体而言，涉及一种数据处理方法、装置、电子设备及计算机程序产品。

背景技术

近年来随着机器学习和深度学习的不断发展，人工智能几乎渗透到了各行各业中，然而机器学习和深度学习往往都面临着一个过拟合的问题。当面对一个新的业务场景的特定任务时，如果无法获取到外部数据支持或仅能得到少量的外部数据，那么基于这个特定任务所建立的模型就无法训练或过拟合。

现有技术中通常采用人工标注和数据增强两种方式来解决上述的过拟合问题。

其中，单纯的人工标注会耗费大量的人力物力，成本较高，不适合新的业务场景的快速启动和迭代，因此借助数据增强方法进行样本的扩充是更好的选择。

现有技术中，主要通过EDA(Easy Data Augmentation，简单数据增强)、基于TF-IDF(Term Frequency–Inverse Document Frequency，词频-逆文档频率)的同义词替换等数据增强方法实现数据的扩充，然而这些方法都是在原句子上进行较小幅度的更改，句子的整体结构没有发生改变，这限制了样本的多样性，影响了模型的泛化能力，在实际业务场景下表现不好。

发明内容

本公开提供了一种数据处理方法、装置、电子设备及计算机程序产品，以至少解决现有的数据增强方法所产出的样本存在多样性差的问题。

根据本公开的一个方面，提供了一种数据处理方法，包括：获取待处理文本，以及基于待处理文本执行搜索得到的搜索结果，并检测对搜索结果执行操作而生成的操作信息，从而根据操作信息从预设文本数据集中确定与待处理文本对应的文本集合，进而对文本集合进行过滤处理，得到待处理文本对应的至少一个目标文本，其中，待处理文本与至少一个目标文本具有相同的语义。

进一步地，数据处理方法还包括：根据操作信息从待处理文本对应的搜索结果中确定目标搜索结果，并确定目标搜索结果对应的目标网页网址，从而根据目标网页网址从预设文本数据集中确定其他对象搜索的其他文本，其中，其他文本的搜索结果对应的网页网址中至少包括目标网页网址，并且，其他对象对目标网页网址进行的操作，与目标对象对目标网页网址进行的操作相同，进而对其他文本进行聚合，得到文本集合。

进一步地，数据处理方法还包括：在对文本集合进行过滤处理，得到待处理文本对应的至少一个目标文本之前，计算文本集合中所包含的每个文本与待处理文本的第一相似度，并根据第一相似度对文本集合进行过滤处理，得到过滤后的文本集合。

进一步地，数据处理方法还包括：从文本集合中过滤掉第一相似度小于或等于相似度阈值的文本，得到过滤后的文本集合。

进一步地，数据处理方法还包括：从过滤后的文本集合确定候选文本，并计算候选文本与待处理文本的文本相似度、关键词相似度以及语言模型分值，从而对文本相似度、关键词相似度以及语言模型分值进行加权求和处理，得到候选文本对应的目标分值，进而根据目标分值确定候选文本是否为目标文本。

进一步地，数据处理方法还包括：对待处理文本进行关键词抽取，得到至少一个第一关键词，并对候选文本进行关键词抽取，得到至少一个第二关键词，从而计算至少一个第一关键词与至少一个第二关键词之间的相似度，得到关键词相似度。

进一步地，数据处理方法还包括：计算至少一个第一关键词对应的第一词向量，以及至少一个第二关键词对应的第二词向量，并计算第一词向量与第二词向量的余弦值，得到多个第二相似度，从而对多个第二相似度进行排序，得到排序结果，根据排序结果从多个第二相似度中确定至少一个第三相似度，进而计算至少一个第三相似度的均值，得到关键词相似度。

进一步地，数据处理方法还包括：对候选文本进行分词处理，得到多个分词，并计算每个分词在候选文本中的文本概率，以及候选文本对应的困惑度，其中，困惑度用于表征候选文本的通顺程度，从而根据文本概率以及困惑度确定语言模型分值，其中，语言模型分值用于表征多个分词组成候选文本的概率。

根据本公开的一个方面，提供了一种数据处理装置，包括：获取模块，用于获取待处理文本，以及基于待处理文本执行搜索得到的搜索结果；检测模块，用于检测对搜索结果执行操作而生成的操作信息；确定模块，用于根据操作信息从预设文本数据集中确定与待处理文本对应的文本集合；过滤模块，用于对文本集合进行过滤处理，得到待处理文本对应的至少一个目标文本，其中，待处理文本与至少一个目标文本具有相同的语义。

根据本公开的一个方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述的数据处理方法。

根据本公开的一个方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行上述的数据处理方法。

根据本公开的一个方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现上述的数据处理方法。

本公开所提供的方案达到了扩充样本数量的目的，从而实现了提高模型准确率的技术效果，进而解决了现有的数据增强方法所产出的样本存在多样性差的问题。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例1的一种数据处理方法流程图；

图2是根据本公开实施例1的一种数据处理方法流程图；

图3是根据本公开实施例1的一种数据处理方法流程图；

图4是根据本公开实施例1的一种数据处理方法流程图；

图5是根据本公开实施例2的一种数据处理装置示意图；

图6是用来实现本公开实施例的数据处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

实施例1

根据本公开实施例，提供了一种数据处理方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1示出了根据本公开实施例1的一种数据处理方法流程图，以对本公开实施例中的数据处理方法进行说明，如图1所示，本公开实施例主要包含搜索扩展模块和样本去噪过滤模块两个模块，其中，搜索扩展模块可以根据输入的待处理文本在大量搜索数据中挖掘出N个候选文本，生成候选句子集合，然后样本去噪过滤模块会根据待处理文本在候选句子集合中筛选过滤出目标文本，最后将这些目标文本利用综合得分降序排序后取前M个作为数据增强最终的输出。

图2是根据本公开实施例的数据处理方法的流程图，如图2所示，该方法包括如下步骤：

步骤S202，获取待处理文本，以及基于待处理文本执行搜索得到的搜索结果。

在一种可选的实施例中，待处理文本可以是初始样本中的一个用户输入的句子，例如“我要去北京”。待处理文本的语言可以为但不限于中文、英文、日文以及韩文等其他语言或者多种语言的混合，待处理文本还可以包含有符号和/或数字。此外，用户可在搜索引擎上输入待处理文本，待搜索引擎执行搜索后，得到待处理文本所对应的搜索结果，其中，用户可通过文字输入、语音输入以及OCR(optical character recognition，文字识别)等输入方式在搜索引擎上输入待处理文本。搜索引擎包括但不限于全文搜索引擎、元搜索引擎、垂直搜索引擎以及目录搜索引擎。

进一步地，搜索引擎在基于待处理文本执行搜索后，可得到搜索结果，例如，待处理文本为“我要去北京”，搜索引擎执行搜索后得到有关的多条信息，例如，“去北京的路线”、“北京名胜古迹”以及“我要去北京歌曲”等等。

在上述过程中，由于搜索引擎上每天都会产生大量的搜索数据，因此，通过获取待处理文本以及待处理文本对应的搜索结果，可以进行大规模的数据收集，提高样本的多样性。

步骤S204，检测对搜索结果执行操作而生成的操作信息。

在一种可选的实施例中，在搜索引擎基于待处理文本执行搜索，得到搜索结果后，用户可对搜索结果执行点击、浏览等操作，从而搜索引擎后台可生成对应的操作信息，操作信息包括但不限于搜索结果内容、搜索结果所对应的URL(uniform resource locator，统一资源定位符)、用户具体操作行为以及操作时长等信息。另外，操作信息可记录在搜索引擎对应的日志文件中。

步骤S206，根据操作信息从预设文本数据集中确定与待处理文本对应的文本集合。

在一种可选的实施例中，预设文本数据集可以是大规模搜索数据，例如，搜索引擎中记录的历史搜索数据，其中，历史搜索数据是大量不同的用户在搜索引擎上输入的搜索文本。

进一步地，搜索扩展模块可根据操作信息从预设文本数据集中确定与待处理文本对应的文本集合。例如，用户在搜索时，如果搜索到符合用户要求的内容，用户会点击该内容对应的网页链接。搜索扩展模块可将点击相同网页链接的用户所搜索的内容聚合在一起，得到具有相同语义的多个句子。例如，用户A搜索“我要乘高铁去北京”，并点击了搜索结果中对应的网页链接；用户B搜索“我要乘火车去北京”，并点击了搜索结果对应的网页链接。当搜索扩展模块检测到用户A点击的网页链接和用户B点击的网页链接相同时，搜索扩展模块则会将“我要乘高铁去北京”和“我要乘火车去北京”两个句子聚合在一起，确定为候选句子集合M，即文本集合。

需要注意到的是，现有的EDA和基于非核心词的数据增强方法仅仅是在待处理文本的基础上进行较小范围的词语变动，语句的表述方式基本没有发生变化。例如：对于句子“英语六级什么时候考？”，通过EDA数据增强方法可能输出增强后的句子为“六级英语什么时候考？”。在小样本场景下，原始文本数目本来就较少，如果继续增加和原始文本句式相近的文本，那么使用这些文本训练的模型过拟合现象可能会进一步加重。

而在本公开实施例中，通过检测对搜索结果执行操作而生成的操作信息，可获取用户输入的待处理文本与操作信息之间的关联关系。根据操作信息从预设文本数据集中确定与待处理文本对应的文本集合，则可在关联关系的基础上，基于相同的操作信息，从预设文本数据集中获取与待处理文本对应的文本集合，从而实现了利用大规模搜索数据对待处理文本进行数据扩充。而且，由于文本集合是基于操作信息确定的，因此，文本集合中的文本并不是直接在待处理文本的基础上进行简单修改所得到的，而是来自于不同的用户，从而提高了扩展生成的文本集合的多样性，进而避免了由于句式重复性较高，导致的模型过拟合的问题。

步骤S208，对文本集合进行过滤处理，得到待处理文本对应的至少一个目标文本。

在一种可选的实施例中，文本集合中可能存在许多噪声数据，例如，语句不合理、关键词缺失以及语义不正确等情况。本公开通过样本去噪过滤模块可对文本集合进行过滤处理，其中，过滤处理包括但不限于：过滤语句不合理的文本、过滤关键词缺失的文本以及过滤语义错误的文本。

进一步地，在样本去噪过滤模块执行完毕过滤处理过程后，得到待处理文本对应的至少一个目标文本，其中，待处理文本与至少一个目标文本具有相同的语义。扩充得到的至少一个目标文本，可应用于自然语言处理小样本场景下的训练模型，为模型训练提供样本基础。

需要注意到的，现有技术中，回译的数据增强方法虽然可以通过中间语言的翻译过渡改变原始文本的表述方式和句式，但该方法严重依赖于机器翻译的效果，由于当前机器翻译的效果还有待提升，利用这种方式增强出来的文本可能会不通顺或者遗漏掉关键词，这在样本文本较短且关键词比较重要的时空大数据等场景下效果提升有限。

而本公开实施例输出的增强文本一般是用户在搜索引擎中输入的文本，因此这些文本一般都比较通顺，另外，本公开实施例用过对文本集合进行过滤处理，因此可以较大程度地保留文本的关键信息，从而在不改变文本语义同时保证文本通顺的情况下扩充得到至少一个目标文本。例如：对于句子“英语六级什么时候考？”，使用本公开实施例增强出的其中一个句子是“英语六级的考试时间是？”。本公开实施例对传统方法所输出的语句多样性较差、语句不通顺等问题进行了改进，能够将一句话转换为具有相同语义的多句话，从而达到了丰富样本的目的。同时由于有大规模搜索数据做支撑，因此能够对一个样本进行一次增强输出多个增强结果，保证了充足的增强数据产出。

基于上述步骤S202至S208所限定的方案，可以获知，在本公开实施例中，采用分析操作信息与待处理文本之间的关联关系，获取待处理文本对应的文本集合的方式，通过获取待处理文本，以及基于待处理文本执行搜索得到的搜索结果，并检测对搜索结果执行操作而生成的操作信息，从而根据操作信息从预设文本数据集中确定与待处理文本对应的文本集合，进而对文本集合进行过滤处理，得到待处理文本对应的至少一个目标文本，其中，待处理文本与至少一个目标文本具有相同的语义。

在上述过程中，通过获取待处理文本，以及基于待处理文本执行搜索得到的搜索结果，并检测对搜索结果执行操作而生成的操作信息，可获取用户输入的待处理文本与操作信息之间的关联关系。根据操作信息从预设文本数据集中确定与待处理文本对应的文本集合，则可在关联关系的基础上，基于相同的操作信息，从预设文本数据集中获取与待处理文本对应的文本集合，从而实现了对待处理文本的数据扩充。另外，由于文本集合是基于操作信息确定的，因此，文本集合中的文本并不是直接在待处理文本的基础上进行简单修改所得到的，而是来自于不同的用户，从而提高了文本集合的多样性。此外，由于本公开还会对文本集合进行过滤处理，得到待处理文本对应的至少一个目标文本，其中，待处理文本与至少一个目标文本具有相同的语义，因此，文本集合中一些语句不通顺、关键词缺失以及语义错误的文本将被过滤，从而实现了提高样本质量的效果。

由此可见，本公开所提供的方案达到了通过数据增强方法扩充样本数量的目的，从而实现了缓解过拟合，提高模型准确率的技术效果，进而解决了现有的数据增强方法所产出的样本存在多样性差的问题。

在一种可选的实施例中，搜索扩展模块根据操作信息从待处理文本对应的搜索结果中确定目标搜索结果，并确定目标搜索结果对应的目标网页网址，从而根据目标网页网址从预设文本数据集中确定其他对象搜索的其他文本，其中，其他文本的搜索结果对应的网页网址中至少包括目标网页网址，并且，其他对象对目标网页网址进行的操作，与目标对象对目标网页网址进行的操作相同，进而对其他文本进行聚合，得到文本集合。

可选的，如图3所示，当用户在搜索引擎上输入待处理文本(例如，句子X)，并在搜索引擎上执行搜索操作后，搜索引擎后台将生成操作信息并存储在日志数据中。在日志数据的基础上，搜索扩展模块可在处理搜索引擎中大规模搜索数据(即预设文本数据集)的同时，将点击相同目标搜索结果所对应的目标网页网址的文本聚合在一起，其中目标网页网址可以是URL，从而实现粗选语句集合的挖掘，从预设文本数据集中确定其他对象搜索的其他文本，其中，其他对象可以是其他不同的用户，其他文本可以是与待处理文本不同的文本，确定的其他文本可聚合为候选句子集合M，即文本集合。

在上述过程中，由于其他文本的搜索结果对应的网页中至少包括目标网页网址，并且，其他对象对目标网页网址进行的操作，与目标对象对目标网页网址进行的操作相同，说明其他文本与待处理文本在语义上也是接近的，因此，将这些其他文本聚合为文本集合，可在丰富文本集合多样性的同时，实现提高文本集合质量的效果。

在一种可选的实施例中，对文本集合进行过滤处理，得到待处理文本对应的至少一个目标文本之前，搜索扩展模块会计算文本集合中所包含的每个文本与待处理文本的第一相似度，并根据第一相似度对文本集合进行过滤处理，得到过滤后的文本集合。其中，从文本集合中过滤掉第一相似度小于或等于相似度阈值的文本，得到过滤后的文本集合。

可选的，由于预设文本数据集中的文本数量较大，文本集合中的文本的数量也较大，并且在文本集合中可能存在大量与待处理文本无关的文本，因此需要通过使用相似度计算模型分别计算出待处理文本与文本集合中每条文本的第一相似度，将第一相似度大于相似度阈值的文本留下，作为过滤后的文本集合，对其他第一相似度小于或者等于相似度阈值的文本，则进行舍弃。其中，相似度计算模型可以是使用大规模相似度语料训练形成的相似度计算模型。

可选的，如图3所示，待处理文本可以是输入句子X，相似度阈值可用字母T表示，在实际业务中搜索扩展模块的相似度阈值T的值可由操作人员自定义设置，例如，将相似度阈值T的值设置为0.5。第一相似度可以分数的形式表示，文本与待处理文本的第一相似度越高，则得分S的值越高。

在上述过程中，通过设置相似度阈值，可过滤掉文本集合中与待处理文本无关的文本，从而实现了提高文本集合质量的效果。

在一种可选的实施例中，样本去噪过滤模块可从过滤后的文本集合确定候选文本，并计算候选文本与待处理文本的文本相似度、关键词相似度以及语言模型分值，从而对文本相似度、关键词相似度以及语言模型分值进行加权求和处理，得到候选文本对应的目标分值，进而根据目标分值确定候选文本是否为目标文本。

可选的，在通过搜索扩展模块得到过滤后的文本集合后，过滤后的文本集合中可能还有许多噪声数据，例如，文本的语句不合理、关键词缺失等情况，因此，过滤后的文本集合还不能直接作为待处理文本的增强数据(即目标文本)输出。例如，输入句子X是“英语六级什么时候考？”，通过搜索扩展模块得到的文本集合中可能存在噪声句子“英语六级考什么候？”或“英语什么时候考？”等，这些句子虽然和句子X的第一相似度大于相似度阈值T，但是却存在着语法不通顺或者缺失关键词的问题，因此需要进行进一步的过滤。

可选的，本公开实施例在搜索扩展模块之后还增加了样本去噪过滤模块。如图4所示，假设待处理文本为句子X，搜索扩展模块输出的过滤后的文本集合是过滤候选句子集G，其中，过滤候选句子集G中包含有候选文本。样本去噪过滤模块可根据句子X和过滤候选句子集G中的候选文本计算文本相似度分值Ss、关键词相似度分值Sw以及语言模型分值Sp，进而对三个分值进行加权求和处理，得到候选文本对应的目标分值Sa，计算公式1如下：

S_a＝α*S_s+β*S_w+γ*S_p

其中，上述公式1中的α，β，γ分别是文本相似度、关键词相似度和语言模型得分的权重，在实际应用中，这三者的取值可自定义设置，例如，α＝0.6，β＝0.2，γ＝0.2。另外，文本相似度分值Ss与搜索扩展模块生成过滤后的文本集合时，计算的第一相似度得分相同，因此不需要重复计算，可在样本去噪过滤模块中直接复用，文本相似度分值Ss的取值归一化后的范围是[0,1]。

此外，如图4所示，样本去噪过滤模块可根据最终得到的目标分值对所有候选文本进行降序排序，如果需要M个目标文本作为增强后的样本，则样本去噪过滤模块会取得分最高的前M个目标文本作为数据增强的最终输出。

在上述过程中，通过对文本相似度、关键词相似度以及语言模型分值进行加权求和处理，可对过滤后的文本集合进行进一步的过滤，解决了目标文本中存在着语法不通顺或者缺失关键词的文本的问题，有利于提高数据增强样本的质量。

在一种可选的实施例中，样本去噪过滤模块可对待处理文本进行关键词抽取，得到至少一个第一关键词，并对候选文本进行关键词抽取，得到至少一个第二关键词，从而计算至少一个第一关键词与至少一个第二关键词之间的相似度，得到关键词相似度。

可选的，对于关键词相似度的计算，样本去噪过滤模块首先会对待处理文本进行关键词抽取。其中，可以选用关键词抽取接口进行抽取，关键词抽取接口可以对待处理文本进行停用词去除等处理，并结合知识图谱相关知识对待处理文本进行关键词抽取操作，例如，对于输入句子“英语六级什么时候考？”，该关键词抽取接口可以抽取出“英语六级”和“什么时候”两个关键词，从而可以获取待处理文本的核心语义表述。

可选的，在对待处理文本进行关键词抽取，得到至少一个第一关键词之后，样本去噪过滤模块同样通过上述关键词抽取接口对候选文本进行关键词抽取，得到至少一个第二关键词，并基于得到的至少一个第一关键词与至少一个第二关键词，分别进行关键词的相似度计算，得到关键词相似度。

在上述过程中，通过关键词抽取，可准确获取待处理文本以及候选文本的核心语义表述，计算第一关键词与第二关键词之间的相似度，则可将与待处理文本语义表述不一致的候选文本进行过滤，实现了提高目标文本准确度的效果。

在一种可选的实施例中，样本去噪过滤模块可计算至少一个第一关键词对应的第一词向量，以及至少一个第二关键词对应的第二词向量，并计算第一词向量与第二词向量的余弦值，得到多个第二相似度，从而对多个第二相似度进行排序，得到排序结果，根据排序结果从多个第二相似度中确定至少一个第三相似度，进而计算至少一个第三相似度的均值，得到关键词相似度。

可选的，对于待处理文本和候选文本，在使用关键词抽取接口进行关键词的抽取之后，样本去噪过滤模块需要计算至少一个第一关键词与至少一个第二关键词之间的相似度。首先，可使用实际的业务数据对相似度计算模型进行领域内知识的预训练，然后使用最后一个编码层的输出作为关键词的向量表示，即通过相似度计算模型计算得到至少一个第一关键词对应的第一词向量，以及至少一个第二关键词对应的第二词向量。然后，样本去噪过滤模块可使用第一词向量与第二词向量的余弦值作为计算的相似度值，即第二相似度。例如，对于每一个句对(A,B)，其中，A为待处理文本，B为候选文本，分别使用A中的关键词向量和B中的每个关键词向量做余弦相似度。最终，样本去噪过滤模块对多个第二相似度进行排序，得到排序结果，并取第二相似度得分最高的k个分数作为第三相似度，从而求取第三相似度的平均值，得到句对(A,B)的关键词相似度，该相似度得分取值范围为[0,1]。其中k的计算公式2如下：

k＝min(N_a，N_b)

其中N_a是句子A中的关键词个数，N_b是句子B中的关键词个数。

在上述过程中，通过计算词向量的余弦值，确定关键词相似度，可准确获取待处理文本以及候选文本的核心语义表述是否一致，实现了提高目标文本质量的效果。

在一种可选的实施例中，样本去噪过滤模块对候选文本进行分词处理，得到多个分词，并计算每个分词在候选文本中的文本概率，以及候选文本对应的困惑度，其中，困惑度用于表征候选文本的通顺程度，从而根据文本概率以及困惑度确定语言模型分值，其中，语言模型分值用于表征多个分词组成候选文本的概率。

可选的，语言模型得分主要是计算所给定词组成的文本的概率，判断候选文本是否符合客观语言表达习惯，该得分在样本去噪过滤模块中主要是衡量候选文本是否通顺，是否符合语法和客观表达。其中，样本去噪过滤模块可使用语言模型接口计算语言模型得分，语言模型接口以一个文本作为输入，输出的是该文本经过切词后每个词在文本中的概率，以及文本的困惑度(ppl，Perplexity，文本的困惑度，表征该文本是否合理通顺以及符合认知常识。其中，困惑度的数值越大，表明文本越不合理，越不通顺)。需要注意的是，概率值越高说明文本越通顺，ppl越低说明文本越通顺，而且，由于ppl的取值并不是越大越好，且并不是归一化的分数，因此，样本去噪过滤模块使用分段函数将ppl归一化，从而获取语言模型得分Sp，计算公式3如下：

另外，经过归一化之后得到的Sp的取值范围是[0,1]，这样样本去噪过滤模块就可以根据上述公式1来计算最后的目标分值S，其中，每个候选文本都对应一个得分S，依据得分S对候选文本进行降序排序，如果需要M个目标文本作为增强后的样本，则样本去噪过滤模块会取得分最高的前M个目标文本作为数据增强的最终输出。在实际业务中，M取3效果最好。

在上述过程中，通过计算语言模型的分值，可将语句不通顺，不符合客观语言表达习惯的候选文本进行过滤，从而实现了提高目标文本准确度的效果。

由上述内容可知，本公开实施例通过获取待处理文本，以及基于待处理文本执行搜索得到的搜索结果，并检测对搜索结果执行操作而生成的操作信息，可获取用户输入的待处理文本与操作信息之间的关联关系。根据操作信息从预设文本数据集中确定与待处理文本对应的文本集合，则可在关联关系的基础上，基于相同的操作信息，从预设文本数据集中获取与待处理文本对应的文本集合，从而实现了对待处理文本的数据扩充。另外，由于文本集合是基于操作信息确定的，因此，文本集合中的文本并不是直接在待处理文本的基础上进行简单修改所得到的，而是来自于不同的用户，从而提高了文本集合的多样性。此外，由于本公开还会对文本集合进行过滤处理，得到待处理文本对应的至少一个目标文本，其中，待处理文本与至少一个目标文本具有相同的语义，因此，文本集合中一些语句不通顺、关键词缺失以及语义错误的文本将被过滤，从而实现了提高样本质量的效果。

实施例2

根据本公开实施例，还提供了一种数据处理装置实施例，其中，图5根据本公开实施例2的一种数据处理装置示意图，该装置包括：获取模块501，用于获取待处理文本，以及基于待处理文本执行搜索得到的搜索结果；检测模块503，用于检测对搜索结果执行操作而生成的操作信息；确定模块505，用于根据操作信息从预设文本数据集中确定与待处理文本对应的文本集合；过滤模块507，用于对文本集合进行过滤处理，得到待处理文本对应的至少一个目标文本，其中，待处理文本与至少一个目标文本具有相同的语义。

需要说明的是，上述获取模块501、检测模块503、确定模块505以及过滤模块507对应于上述实施例中的步骤S202至步骤S208，四个模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。

可选地，上述确定模块包括：第一确定模块、第二确定模块、第三确定模块以及聚合模块。其中，第一确定模块，用于根据操作信息从待处理文本对应的搜索结果中确定目标搜索结果；第二确定模块，用于确定目标搜索结果对应的目标网页网址；第三确定模块，用于根据目标网页网址从预设文本数据集中确定其他对象搜索的其他文本，其中，其他文本的搜索结果对应的网页网址中至少包括目标网页网址，并且，其他对象对目标网页网址进行的操作，与目标对象对目标网页网址进行的操作相同；聚合模块，用于对其他文本进行聚合，得到文本集合。

可选地，数据处理装置还包括：计算模块以及第一过滤模块。其中，计算模块，用于计算文本集合中所包含的每个文本与待处理文本的第一相似度；第一过滤模块，用于根据第一相似度对文本集合进行过滤处理，得到过滤后的文本集合。

可选地，数据处理装置还包括：第二过滤模块，用于从文本集合中过滤掉第一相似度小于或等于相似度阈值的文本，得到过滤后的文本集合。

可选地，上述过滤模块还包括：第四确定模块、第一计算模块、求和模块以及第五确定模块。其中，第四确定模块，用于从过滤后的文本集合确定候选文本；第一计算模块，用于计算候选文本与待处理文本的文本相似度、关键词相似度以及语言模型分值；求和模块，用于对文本相似度、关键词相似度以及语言模型分值进行加权求和处理，得到候选文本对应的目标分值；第五确定模块，用于根据目标分值确定候选文本是否为目标文本。

可选地，数据处理装置还包括：第一抽取模块、第二抽取模块以及第二计算模块。其中，第一抽取模块，用于对待处理文本进行关键词抽取，得到至少一个第一关键词；第二抽取模块，用于对候选文本进行关键词抽取，得到至少一个第二关键词；第二计算模块，用于计算至少一个第一关键词与至少一个第二关键词之间的相似度，得到关键词相似度。

可选地，数据处理装置还包括：第三计算模块、第四计算模块、排序模块、第六确定模块以及第五计算模块。其中，第三计算模块，用于计算至少一个第一关键词对应的第一词向量，以及至少一个第二关键词对应的第二词向量；第四计算模块，用于计算第一词向量与第二词向量的余弦值，得到多个第二相似度；排序模块，用于对多个第二相似度进行排序，得到排序结果；第六确定模块，用于根据排序结果从多个第二相似度中确定至少一个第三相似度；第五计算模块，用于计算至少一个第三相似度的均值，得到关键词相似度。

可选地，数据处理装置还包括：分词模块、第六计算模块以及第七确定模块。其中，分词模块，用于对候选文本进行分词处理，得到多个分词；第六计算模块，用于计算每个分词在候选文本中的文本概率，以及候选文本对应的困惑度，其中，困惑度用于表征候选文本的通顺程度；第七确定模块，用于根据文本概率以及困惑度确定语言模型分值，其中，语言模型分值用于表征多个分词组成候选文本的概率。

实施例3

根据本公开实施例的另一方面，还提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行上述实施例1中的数据处理方法。

实施例4

根据本公开实施例的另一方面，还提供一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现上述实施例1中的数据处理方法。

实施例5

根据本公开实施例的另一方面，还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述实施例1中的数据处理方法。

图6示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如数据处理的方法。例如，在一些实施例中，数据处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的数据处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数据处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种数据处理方法，包括：

获取待处理文本，以及基于所述待处理文本执行搜索得到的搜索结果；

检测对所述搜索结果执行操作而生成的操作信息；

根据所述操作信息从预设文本数据集中确定与所述待处理文本对应的文本集合；

对所述文本集合进行过滤处理，得到所述待处理文本对应的至少一个目标文本，其中，所述待处理文本与所述至少一个目标文本具有相同的语义。

2.根据权利要求1所述的方法，其中，根据所述操作信息从预设文本数据集中确定与所述待处理文本对应的文本集合，包括：

根据所述操作信息从所述待处理文本对应的搜索结果中确定目标搜索结果；

确定所述目标搜索结果对应的目标网页网址；

根据所述目标网页网址从所述预设文本数据集中确定其他对象搜索的其他文本，其中，所述其他文本的搜索结果对应的网页网址中至少包括所述目标网页网址，并且，所述其他对象对所述目标网页网址进行的操作，与目标对象对所述目标网页网址进行的操作相同；

对所述其他文本进行聚合，得到所述文本集合。

3.根据权利要求1所述的方法，在对所述文本集合进行过滤处理，得到所述待处理文本对应的至少一个目标文本之前，所述方法还包括：

计算所述文本集合中所包含的每个文本与所述待处理文本的第一相似度；

根据所述第一相似度对所述文本集合进行过滤处理，得到过滤后的文本集合。

4.根据权利要求3所述的方法，其中，根据所述第一相似度对所述文本集合进行过滤处理，得到过滤后的文本集合，包括：

从所述文本集合中过滤掉所述第一相似度小于或等于相似度阈值的文本，得到所述过滤后的文本集合。

5.根据权利要求3所述的方法，其中，对所述文本集合进行过滤处理，得到所述待处理文本对应的至少一个目标文本，包括：

从所述过滤后的文本集合确定候选文本；

计算所述候选文本与所述待处理文本的文本相似度、关键词相似度以及语言模型分值；

对所述文本相似度、所述关键词相似度以及所述语言模型分值进行加权求和处理，得到所述候选文本对应的目标分值；

根据所述目标分值确定所述候选文本是否为所述目标文本。

6.根据权利要求5所述的方法，其中，计算所述候选文本与所述待处理文本的关键词相似度，包括：

对所述待处理文本进行关键词抽取，得到至少一个第一关键词；

对所述候选文本进行关键词抽取，得到至少一个第二关键词；

计算所述至少一个第一关键词与所述至少一个第二关键词之间的相似度，得到所述关键词相似度。

7.根据权利要求6所述的方法，其中，计算所述至少一个第一关键词与所述至少一个第二关键词之间的相似度，得到所述关键词相似度，包括：

计算所述至少一个第一关键词对应的第一词向量，以及所述至少一个第二关键词对应的第二词向量；

计算所述第一词向量与所述第二词向量的余弦值，得到多个第二相似度；

对所述多个第二相似度进行排序，得到排序结果；

根据所述排序结果从所述多个第二相似度中确定至少一个第三相似度；

计算所述至少一个第三相似度的均值，得到所述关键词相似度。

8.根据权利要求5所述的方法，其中，计算所述候选文本与所述待处理文本的语言模型分值，包括：

对所述候选文本进行分词处理，得到多个分词；

计算每个分词在所述候选文本中的文本概率，以及所述候选文本对应的困惑度，其中，所述困惑度用于表征所述候选文本的通顺程度；

根据所述文本概率以及所述困惑度确定所述语言模型分值，其中，所述语言模型分值用于表征所述多个分词组成所述候选文本的概率。

9.一种数据处理装置，包括：

获取模块，用于获取待处理文本，以及基于所述待处理文本执行搜索得到的搜索结果；

检测模块，用于检测对所述搜索结果执行操作而生成的操作信息；

确定模块，用于根据所述操作信息从预设文本数据集中确定与所述待处理文本对应的文本集合；

过滤模块，用于对所述文本集合进行过滤处理，得到所述待处理文本对应的至少一个目标文本，其中，所述待处理文本与所述至少一个目标文本具有相同的语义。

10.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至8中任一项所述的数据处理方法。

11.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1至8中任一项所述的数据处理方法。

12.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至8中任一项所述的数据处理方法。