CN109597873B

CN109597873B - 语料数据的处理方法、装置、计算机可读介质及电子设备

Info

Publication number: CN109597873B
Application number: CN201811388022.4A
Authority: CN
Inventors: 周辉阳; 饶孟良; 曹云波
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-11-21
Filing date: 2018-11-21
Publication date: 2022-02-08
Anticipated expiration: 2038-11-21
Also published as: CN109597873A

Abstract

本发明的实施例提供了一种语料数据的处理方法、装置、计算机可读介质及电子设备。该语料数据的处理方法包括：获取目标领域中的待处理语料数据；根据待处理语料数据中所包含的实体名称，生成待处理语料数据对应的第一语料模板；根据第一语料模板和目标领域中已有的第二语料模板，计算第一语料模板和第二语料模板之间的相似度；根据第一语料模板和第二语料模板之间的相似度，对待处理语料数据进行过滤，得到处理后的语料数据。本发明实施例的技术方案能够通过挖掘待处理语料数据对应的语料模板及目标领域中已有的语料模板来对待处理语料数据进行过滤处理，进而能够过滤掉与目标领域关联性较差的语料数据，确保得到目标领域中较为准确的语料数据。

Description

语料数据的处理方法、装置、计算机可读介质及电子设备

技术领域

本发明涉及计算机及通信技术领域，具体而言，涉及一种语料数据的处理方法、装置、计算机可读介质及电子设备。

背景技术

在智能问答场景中，领域语料的获得和扩充是领域建设的重要问题，高质量和多样性的充足语料能够训练得到更准确的深度学习模型，进而能够对用户问题的分类更加准确。反之，如果一个领域的相关语料太少，则会导致深度学习模型学习到的与该领域相关的特征较少，进而很难与其它领域的语料进行区分。可见，语料的挖掘工作对于深度学习模型的效果具有决定性的意义。然而，相关技术中提出的语料挖掘方案存在召回数据较多，语料数据噪声较大的问题，进而不仅会导致人工检查耗时耗力，而且会影响深度学习模型的准确性。

发明内容

本发明的实施例提供了一种语料数据的处理方法、装置、计算机可读介质及电子设备，进而至少在一定程度上可以获取到领域中较为准确的语料数据。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明实施例的一个方面，提供了一种语料数据的处理方法，包括：获取目标领域中的待处理语料数据；根据所述待处理语料数据中所包含的实体名称，生成所述待处理语料数据对应的第一语料模板；根据所述第一语料模板和所述目标领域中已有的第二语料模板，计算所述第一语料模板和所述第二语料模板之间的相似度；根据所述第一语料模板和所述第二语料模板之间的相似度，对所述待处理语料数据进行过滤，得到处理后的语料数据。

根据本发明实施例的一个方面，提供了一种语料数据的处理装置，包括：获取单元，用于获取目标领域中的待处理语料数据；生成单元，用于根据所述待处理语料数据中所包含的实体名称，生成所述待处理语料数据对应的第一语料模板；计算单元，用于根据所述第一语料模板和所述目标领域中已有的第二语料模板，计算所述第一语料模板和所述第二语料模板之间的相似度；处理单元，用于根据所述第一语料模板和所述第二语料模板之间的相似度，对所述待处理语料数据进行过滤，得到处理后的语料数据。

在本发明的一些实施例中，基于前述方案，所述生成单元配置为：检测所述待处理语料数据中所包含的预设实体名称；根据实体名称与实体标签之间的对应关系，确定与所述预设实体名称相对应的目标实体标签；通过所述目标实体标签替换所述待处理语料数据中所包含的所述预设实体名称，以生成所述待处理语料数据对应的第一语料模板。

在本发明的一些实施例中，基于前述方案，所述计算单元配置为：根据所述第一语料模板和所述第二语料模板，确定所述第一语料模板和所述第二语料模板中的其中一个语料模板是否是另一个语料模板的子集；若所述第一语料模板和所述第二语料模板中的其中一个语料模板是另一个语料模板的子集，则确定所述第一语料模板和所述第二语料模板相似。

在本发明的一些实施例中，基于前述方案，所述计算单元配置为：若所述第一语料模板和所述第二语料模板中的其中一个语料模板所包含的字符覆盖另一个语料模板所包含的字符，则确定所述第一语料模板和所述第二语料模板中的其中一个语料模板是另一个语料模板的子集。

在本发明的一些实施例中，基于前述方案，所述计算单元配置为：根据所述第一语料模板和所述第二语料模板，计算所述第一语料模板所包含的字符串和所述第二语料模板所包含的字符串之间的相似度；根据所述第一语料模板所包含的字符串和所述第二语料模板所包含的字符串之间的相似度，确定所述第一语料模板和所述第二语料模板之间的相似度。

在本发明的一些实施例中，基于前述方案，所述计算单元配置为：计算所述第一语料模板所包含的字符串和所述第二语料模板所包含的字符串之间的编辑距离，以根据所述编辑距离确定所述第一语料模板和所述第二语料模板之间的相似度；或

计算所述第一语料模板所包含的字符串和所述第二语料模板所包含的字符串之间的余弦相似度，以根据所述余弦相似度确定所述第一语料模板和所述第二语料模板之间的相似度；或

通过向量空间模型将所述第一语料模板所包含的字符串和所述第二语料模板所包含的字符串分别转换为向量空间中的第一向量和第二向量，计算所述第一向量和所述第二向量之间的相似度，以确定所述第一语料模板和所述第二语料模板之间的相似度。

在本发明的一些实施例中，基于前述方案，所述处理单元配置为：若所述目标领域中的第一类待处理语料数据对应的第一语料模板与所述目标领域中已有的第二语料模板不相似，则过滤掉所述第一类待处理语料数据。

在本发明的一些实施例中，基于前述方案，所述获取单元配置为：从用户输入的语句数据中筛选出与所述目标领域中的关键词相关联的目标语料数据，和/或从用户输入的网址中筛选出与所述目标领域相关联的目标网址；将筛选出的所述目标语料数据和/或所述目标网址中所包含的数据作为所述待处理语料数据。

在本发明的一些实施例中，基于前述方案，所述目标领域中的关键词包括所述目标领域中的实体名称，和/或所述实体名称及针对所述实体名称的限制条件；所述目标网址包括与所述目标领域相关联的网址中的服务器地址和/或IP地址。

根据本发明实施例的一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例中所述的语料数据的处理方法。

根据本发明实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的语料数据的处理方法。

在本发明的一些实施例所提供的技术方案中，通过生成待处理语料数据对应的第一语料模板，并计算该第一语料模板和目标领域中已有的第二语料模板之间的相似度，以根据该第一语料模板和该第二语料模板之间的相似度对待处理语料数据进行过滤，使得能够通过挖掘待处理语料数据对应的语料模板及目标领域中已有的语料模板来对待处理语料数据进行过滤处理，进而能够过滤掉与目标领域关联性较差的语料数据，确保得到目标领域中较为准确的语料数据，不仅能够避免人工检查较多数据而导致耗时耗力的问题，而且也能够提高训练得到的深度学习模型的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本发明实施例的技术方案的示例性系统架构的示意图；

图2示意性示出了根据本发明的一个实施例的语料数据的处理方法的流程图；

图3示意性示出了根据本发明的一个实施例的根据待处理语料数据中所包含的实体名称，生成待处理语料数据对应的第一语料模板的流程图；

图4示意性示出了根据本发明的一个实施例的计算第一语料模板和第二语料模板之间的相似度的流程图；

图5示意性示出了根据本发明的一个实施例的计算第一语料模板和第二语料模板之间的相似度的流程图；

图6示意性示出了根据本发明的一个实施例的获取领域语料数据的流程图；

图7示意性示出了根据本发明的一个实施例的获取领域语料数据的流程图；

图8示意性示出了根据本发明的一个实施例的语料数据的处理装置的框图；

图9示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本发明实施例的技术方案的示例性系统架构的示意图。

如图1所示，系统架构可以包括终端设备（如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种，当然也可以是台式计算机等等）、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

在本发明的一个实施例中，用户可以使用终端设备输入问题语句，终端设备可以通过网络104将用户输入的问题语句发送至服务器105，服务器105可以从用户输入的问题语句中获取目标领域中的待处理语料数据，然后根据该待处理语料数据中所包含的实体名称，生成该待处理语料数据对应的第一语料模板，并根据该第一语料模板和目标领域中已有的第二语料模板，计算该第一语料模板和第二语料模板之间的相似度，进而根据该第一语料模板和该第二语料模板之间的相似度，对待处理语料数据进行过滤，得到处理后的语料数据。可见，本发明实施例的技术方案能够过滤掉与目标领域关联性较差的语料数据，确保得到目标领域中较为准确的语料数据，不仅能够避免人工检查较多数据而导致耗时耗力的问题，而且也能够提高训练得到的深度学习模型的准确性。

需要说明的是，本发明实施例所提供的语料数据的处理方法一般由服务器105执行，相应地，语料数据的处理装置一般设置于服务器105中。但是，在本发明的其它实施例中，终端设备也可以与服务器具有相似的功能，从而执行本发明实施例所提供的语料数据的处理方案。

以下对本发明实施例的技术方案的实现细节进行详细阐述：

图2示意性示出了根据本发明的一个实施例的语料数据的处理方法的流程图，该语料数据的处理方法可以由服务器来执行，该服务器可以是图1中所示的服务器。参照图2所示，该语料数据的处理方法至少包括步骤S210至步骤S240，详细介绍如下：

在步骤S210中，获取目标领域中的待处理语料数据。

在本发明的一个实施例中，目标领域可以是体育领域、游戏领域、娱乐领域、军事领域等，语料数据是指在实际应用场景中用户真实使用的自然语言数据。

在本发明的一个实施例中，步骤S210中获取目标领域中的待处理语料数据可以是：从用户输入的语句数据中筛选出与目标领域中的关键词（如目标领域中的实体名称）相关联的目标语料数据，然后将筛选出的目标语料数据作为待处理语料数据。比如，假设某篮球明星的姓名为张三，那么若目标领域为体育领域，则可以将实体名称“张三”作为关键词，进而筛选出与“张三”相关联的语料数据。

可选地，由于筛选出的与“张三”相关联的语料数据中可能包含一些非体育领域的数据，比如“张三妻子”、“张三从商”等相关的数据，因此在本发明的实施例中可以对实体名称添加限制条件，比如对实体名称“张三”添加限制条件后得到“张三&NBA”，然后将“张三&NBA”作为关键词来筛选得到待处理的语料数据。

在本发明的一个实施例中，步骤S210中获取目标领域中的待处理语料数据可以是：从用户输入的网址中筛选出与目标领域相关联的目标网址，然后将目标网址中所包含的数据作为待处理语料数据。其中，与目标领域相关联的目标网址可以是服务器地址和/或IP地址。比如，若目标领域为体育领域，则可以将以下网址作为目标网址“sports.qq.com”、“sports.sohu.com”、“sports.sina.com.cn”、“sports.163.com”、“hupu.com”。

在本发明的一个实施例中，在从用户输入的语句数据中筛选得到待处理的语料数据之前，还可以对用户输入的语句数据进行黑名单过滤，比如过滤掉目标领域之外的其它领域中的数据、过滤掉敏感词等。

在步骤S220中，根据所述待处理语料数据中所包含的实体名称，生成所述待处理语料数据对应的第一语料模板。

在本发明的一个实施例中，如图3所示，步骤S220中根据待处理语料数据中所包含的实体名称，生成待处理语料数据对应的第一语料模板的过程，包括如下步骤S310至步骤S330，详细说明如下：

在步骤S310中，检测待处理语料数据中所包含的预设实体名称。

在本发明的一个实施例中，检测待处理语料数据中所包含的预设实体名称即为识别待处理语料数据中具有特定意义的实体的名称，所述的实体也即所谓的命名实体（NamedEntity），其表示以人名、机构名、地名以及其他所有以名称为标识的实体，更广泛的实体还可以包括数字、日期、货币、地址等等。其中，实体名称即为具体实体的名称，比如实体为人名，那么待处理语料数据中的具体人名，具体地，语料数据“我想知道张三的身高”中的实体即为人名，实体名称即为“张三”。

在步骤S320中，根据实体名称与实体标签之间的对应关系，确定与所述预设实体名称相对应的目标实体标签。

在本发明的一个实施例中，实体标签用于标识实体名称所属的类别，比如实体名称为“李四”，其对应的实体标签为“director”，那么该实体标签用于标识实体名称“李四”属于“director”的类别。

在步骤S330中，通过所述目标实体标签替换所述待处理语料数据中所包含的所述预设实体名称，以生成待处理语料数据对应的第一语料模板。

在本发明的一个实施例中，模板是具有扩展样例的一种通用句式。比如若待处理语料数据为“我想知道张三的身高”，该语料数据中包含的实体名称即为“张三”，与“张三”相对应的实体标签为“player”，那么该语料数据对应的第一语料模板即为“我想知道[player]的身高”。

继续参照图2所示，在步骤S230中，根据所述第一语料模板和所述目标领域中已有的第二语料模板，计算所述第一语料模板和所述第二语料模板之间的相似度。

在本发明的一个实施例中，目标领域中已有的第二语料模板可以是人工建立的语料模板，也可以是通过图3所示实施例的技术方案自动挖掘建立的语料模板。

在本发明的一个实施例中，如图4所示，步骤S230中根据第一语料模板和目标领域中已有的第二语料模板，计算第一语料模板和第二语料模板之间的相似度的过程，可以包括如下步骤：

步骤S410，根据第一语料模板和第二语料模板，确定所述第一语料模板和所述第二语料模板中的其中一个语料模板是否是另一个语料模板的子集。

在本发明的一个实施例中，若第一语料模板和第二语料模板中的其中一个语料模板所包含的字符覆盖另一个语料模板所包含的字符，则确定第一语料模板和第二语料模板中的其中一个语料模板是另一个语料模板的子集。比如若第一语料模板为“我想知道[player]的身高”，第二语料模板为“[player]的身高”，由于“我想知道[player]的身高”覆盖了“[player]的身高”，因此可以确定第二语料模板是第一语料模板的子集。

步骤S420，若所述第一语料模板和所述第二语料模板中的其中一个语料模板是另一个语料模板的子集，则确定所述第一语料模板和所述第二语料模板相似。

图4所示实施例的技术方案可以通过语料模板所包含的字符之间的关系来确定语料模板是否相似。

在本发明的一个实施例中，如图5所示，步骤S230中根据第一语料模板和目标领域中已有的第二语料模板，计算第一语料模板和第二语料模板之间的相似度的过程，可以包括如下步骤：

步骤S510，根据第一语料模板和第二语料模板，计算第一语料模板所包含的字符串和第二语料模板所包含的字符串之间的相似度。

在本发明的一个实施例中，可以通过计算第一语料模板所包含的字符串和第二语料模板所包含的字符串之间的编辑距离来计算第一语料模板所包含的字符串和第二语料模板所包含的字符串之间的相似度。具体地，若第一语料模板所包含的字符串和第二语料模板所包含的字符串之间的编辑距离小于或等于预定值，则说明第一语料模板所包含的字符串和第二语料模板所包含的字符串相似；否则，说明第一语料模板所包含的字符串和第二语料模板所包含的字符串不相似。

在本发明的一个实施例中，还可以通过余弦相似度的计算方式来计算第一语料模板所包含的字符串和第二语料模板所包含的字符串之间的相似度。或者通过向量空间模型来计算第一语料模板所包含的字符串和第二语料模板所包含的字符串之间的相似度，即通过向量空间模型将第一语料模板所包含的字符串和第二语料模板所包含的字符串分别转换为向量空间中的第一向量和第二向量，然后计算该第一向量和第二向量之间的相似度，以此来确定第一语料模板和第二语料模板之间的相似度，这种方式以空间上的相似度表达语料模板相似度，直观易懂。

步骤S520，根据所述第一语料模板所包含的字符串和所述第二语料模板所包含的字符串之间的相似度，确定所述第一语料模板和所述第二语料模板之间的相似度。

在本发明的一个实施例中，若第一语料模板所包含的字符串和第二语料模板所包含的字符串相似，则确定第一语料模板和第二语料模板相似。

继续参照图2所示，在步骤S240中，根据所述第一语料模板和所述第二语料模板之间的相似度，对所述待处理语料数据进行过滤，得到处理后的语料数据。

在本发明的一个实施例中，步骤S240中根据第一语料模板和第二语料模板之间的相似度，对待处理语料数据进行过滤的过程可以包括：若目标领域中的第一类待处理语料数据对应的第一语料模板与所述目标领域中已有的第二语料模板不相似，则过滤掉所述第一类待处理语料数据。在该实施例中，若待处理语料数据对应的第一语料模板与已有的第二语料模板不相似，则说明该语料数据与该领域的相关性不大，因此可以将其过滤掉。

在本发明的一个实施例中，在得到处理后的语料数据之后，可以通过处理后的语料数据对深度学习模型进行训练，进而通过训练后的深度学习模型来预测用户输入的问题语句属于哪个领域且属于什么意图。

本发明上述实施例的技术方案能够通过挖掘待处理语料数据对应的语料模板及目标领域中已有的语料模板来对待处理语料数据进行过滤处理，进而能够过滤掉与目标领域关联性较差的语料数据，确保得到目标领域中较为准确的语料数据，不仅能够避免人工检查较多数据而导致耗时耗力的问题，而且也能够提高训练得到的深度学习模型的准确性。

以下结合图6和图7对本发明实施例的技术方案的实现细节进行详细阐述：

在本发明的一个实施例中，如图6所示，获取领域语料数据的流程主要包括如下步骤：

步骤S601，对问题语句进行黑名单过滤处理。具体地，对于线上应用程序来说，可以收集到大量的用户query（用户的搜索语句，包含语音、文字、图片输入等）日志，然后通过黑名单（如敏感词、非目标领域的语料等）来进行初步的过滤处理。

步骤S602，对经过黑名单过滤处理之后的数据进行领域关键词筛选和领域url（Uniform Resource Locator，统一资源定位符）筛选。

在本发明的一个实施例中，对经过黑名单过滤处理之后的数据进行领域关键词筛选和领域url筛选即为从经过黑名单过滤处理后的数据中筛选出与领域关键词和领域url相关的语料数据。

比如设置的关键词为“勇士队”，若用户输入的query为“火箭队打勇士队”，那么由于这个query包含了设置的关键词，因此可以筛选出该query。再如若设置的领域url为“http://nba.stats.qq.com”，若用户点击了“http://nba.stats.qq.com/schedule/index.htm”，那么由于该网址中包含了设置的领域url，因此可以将该网址中的数据筛选出来作为领域语料。

步骤S603，对筛选出的领域语料进行人工检查，得到领域真实语料。

在本发明的一个实施例中，对筛选出的领域语料进行人工检查可以是检查领域语料是否正确，并可以对正确的领域语料进行标签标注，以便于对深度学习模型进行训练。

步骤S604，通过得到的领域真实语料训练深度学习模型。在对深度学习模型训练完成之后，可以通过训练后的深度学习模型识别用户新输入的query所属的领域及相关意图。

在图6所示实施例的技术方案中，由于是通过关键词和领域url来筛选得到语料数据，而与某个关键词相关联的语料数据太多，因此按照图6所示实施例的技术方案会筛选得到较多的相关语料，比如若设置的关键词中包含了“勇士”，那么会得到与NBA球队相关的语料数据，还会得到类似于“斯巴达300勇士”等其它语料数据，进而会导致语料数据的噪声较大，而语料数据较多也会导致人工检查耗时耗力。

基于图6所示实施例的技术方案的问题，如图7所示，获取领域语料的流程主要包括如下步骤：

步骤S701，对问题语句进行黑名单过滤处理。具体地，对于线上应用程序来说，可以收集到大量的用户query（用户的搜索语句，包含语音、文字、图片输入等）日志，然后通过黑名单来进行初步的过滤处理。

在本发明的一个实施例中，黑名单可以包括敏感政治词汇等。进一步的，如果需要挖掘某个具体领域的语料数据，则可以将其它领域的实体也作为黑名单。比如，假设某歌星的姓名是王五，那么如果当前挖掘的领域是体育领域，由于实体“王五”不属于体育领域，并且与其相关的语料都可能不会属于体育领域，因此可以将“王五”加入到体育领域的黑名单之中。

步骤S702，对经过黑名单过滤处理之后的数据进行领域关键词筛选和领域url筛选。

在本发明的一个实施例中，在设置领域url时可以先检索到体育领域的相关网站（如与体育相关的官网），然后删除网址前面的“www”和后面无用的后缀作为设置的领域url。比如，对于体育领域，可以将如下网址作为设置的领域url：“sports.qq.com”、“sports.sohu.com”、“sports.sina.com.cn”、“sports.163.com”、“hupu.com”等。

在本发明的一个实施例中，可以选择领域的实体作为领域的关键词，然而在具体的实践中，某一些词汇总会过多的召回更多的语料，因此可以针对关键词增加限制条件。比如关键词“张三”可能会召回张三从政、从商的一些语料或者是张三女儿、妻子的一些新闻，因此可以对关键词进行更加严格的说明，比如将关键词设置为“张三&NBA”，这就要求一个query中需要同时含有“张三”和“NBA”才能被召回，进而可以筛选得到更加精准的语料数据。

步骤S703，基于领域实体进行模板挖掘处理。

在本发明的一个实施例中，基于领域实体进行模板挖掘处理主要是根据领域实体和筛选得到的领域语料数据来挖掘语料数据的模板。具体地，可以先检测语料数据中包含的预设实体名称，然后根据实体名称与实体标签之间的对应关系，确定与语料数据中包含的预设实体名称相对应的目标实体标签，最后通过目标实体标签替换语料数据中包含的预设实体名称，以生成语料数据的模板。比如，若语料数据为“我想知道张三的身高”，该语料数据中包含的预设实体名称为“张三”，与“张三”相对应的实体标签为“player”，那么根据该语料数据生成的模板即为“我想知道[player]的身高”。

步骤S704，根据步骤S703得到的语料数据对应的模板和已有的领域模板来计算模板之间的相似度，并基于该相似度对语料数据进行再次过滤，得到真实语料。

在本发明的一个实施例中，可以通过如下两种实施方式来确定模板之间的相似度：

确定模板相似度的实施方式1：

在本发明的一个实施例中，如果语料数据对应的模板是已有的领域模板的子集，那么语料数据对应的模板与领域模板即为相似，该条语料数据也就是该领域的语料。

比如，若已有的领域模板为“[player]的身高”，语料数据“我想知道张三的身高”对应的模板为“我想知道[player]的身高”。由于“[player]的身高”是“我想知道[player]的身高”的子集，因此语料数据对应的模板与已有的领域模板相似，该语料数据即为该领域的语料。

确定模板相似度的实施方式2：

在本发明的一个实施例中，如果语料数据对应的模板和已有的领域模板之间的编辑距离小于或等于距离阈值（如2），则语料数据对应的模板和已有的领域模板相似，该语料数据即为该领域的语料。

比如语料数据“张三的真实身高”对应的模板为“[player]的真实身高”，而已有的领域模板“[player]的身高”与“[player]的真实身高”不存在包含关系，但是两个模板之间的编辑距离等于2，在设定的范围内，因此可以语料数据对应的模板与已有的领域模板相似，该语料数据即为该领域的语料。

在本发明的其它实施例中，也可以通过余弦相似度、向量空间模型等算法来计算模型之间的相似度。

步骤S705，对步骤S704过滤处理后得到的真实语料进行人工检查。

在本发明的一个实施例中，由于通过步骤S704的过滤处理后得到了数量较少且更加精确的语料数据，因此只需要很少的人工就能很快的完成检查工作，降低了人工检查的成本。其中，人工检查的主要目的是确定步骤S704筛选得到的真实语料数据是否符合预期，如果与预期不相符，则可以调整相关的算法参数（即上述的距离阈值）进行处理。比如如果发现距离阈值为2时得到的真实语料很少，那么可以将距离阈值调整为3或者4以扩大语料数据的召回量；如果得到的真实语料数量很多，则可以减小距离阈值来减少语料数据的召回量。

步骤S706，通过步骤S705处理后的语料数据训练深度学习模型。由于得到了精确的语料数据，因此可以提高深度学习模型的训练精度，进而在对深度学习模型训练完成之后，可以通过训练后的深度学习模型更加精确地识别出用户新输入的query所属的领域及相关意图。

本发明上述实施例的技术方案能够通过语料数据对应的语料模板及领域中已有的语料模板来对语料数据进行过滤处理，进而能够过滤掉与领域关联性较差的语料数据，确保得到领域中较为准确的语料数据，不仅能够避免人工检查较多数据而导致耗时耗力的问题，而且也能够提高训练得到的深度学习模型的准确性。

以下介绍本发明的装置实施例，可以用于执行本发明上述实施例中的语料数据的处理方法。对于本发明装置实施例中未披露的细节，请参照本发明上述的语料数据的处理方法的实施例。

图8示意性示出了根据本发明的一个实施例的语料数据的处理装置的框图。

参照图8所示，根据本发明的一个实施例的语料数据的处理装置800，包括：获取单元802、生成单元804、计算单元806和处理单元808。

其中，获取单元802用于获取目标领域中的待处理语料数据；生成单元804用于根据所述待处理语料数据中所包含的实体名称，生成所述待处理语料数据对应的第一语料模板；计算单元806用于根据所述第一语料模板和所述目标领域中已有的第二语料模板，计算所述第一语料模板和所述第二语料模板之间的相似度；处理单元808用于根据所述第一语料模板和所述第二语料模板之间的相似度，对所述待处理语料数据进行过滤，得到处理后的语料数据。

在本发明的一个实施例中，生成单元804配置为：检测所述待处理语料数据中所包含的预设实体名称；根据实体名称与实体标签之间的对应关系，确定与所述预设实体名称相对应的目标实体标签；通过所述目标实体标签替换所述待处理语料数据中所包含的所述预设实体名称，以生成所述待处理语料数据对应的第一语料模板。

在本发明的一个实施例中，计算单元806配置为：根据所述第一语料模板和所述第二语料模板，确定所述第一语料模板和所述第二语料模板中的其中一个语料模板是否是另一个语料模板的子集；若所述第一语料模板和所述第二语料模板中的其中一个语料模板是另一个语料模板的子集，则确定所述第一语料模板和所述第二语料模板相似。

在本发明的一个实施例中，计算单元806配置为：若所述第一语料模板和所述第二语料模板中的其中一个语料模板所包含的字符覆盖另一个语料模板所包含的字符，则确定所述第一语料模板和所述第二语料模板中的其中一个语料模板是另一个语料模板的子集。

在本发明的一个实施例中，计算单元806配置为：根据所述第一语料模板和所述第二语料模板，计算所述第一语料模板所包含的字符串和所述第二语料模板所包含的字符串之间的相似度；根据所述第一语料模板所包含的字符串和所述第二语料模板所包含的字符串之间的相似度，确定所述第一语料模板和所述第二语料模板之间的相似度。

在本发明的一个实施例中，计算单元806配置为：计算所述第一语料模板所包含的字符串和所述第二语料模板所包含的字符串之间的编辑距离，以根据所述编辑距离确定所述第一语料模板和所述第二语料模板之间的相似度；或

在本发明的一个实施例中，处理单元806配置为：若所述目标领域中的第一类待处理语料数据对应的第一语料模板与所述目标领域中已有的第二语料模板不相似，则过滤掉所述第一类待处理语料数据。

在本发明的一个实施例中，获取单元802配置为：从用户输入的语句数据中筛选出与所述目标领域中的关键词相关联的目标语料数据，和/或从用户输入的网址中筛选出与所述目标领域相关联的目标网址；将筛选出的所述目标语料数据和/或所述目标网址中所包含的数据作为所述待处理语料数据。

在本发明的一个实施例中，所述目标领域中的关键词包括所述目标领域中的实体名称，和/或所述实体名称及针对所述实体名称的限制条件；所述目标网址包括与所述目标领域相关联的网址中的服务器地址和/或IP地址。

需要说明的是，图9示出的电子设备的计算机系统900仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，计算机系统900包括中央处理单元（Central Processing Unit，CPU）901，其可以根据存储在只读存储器（Read-Only Memory，ROM）902中的程序或者从存储部分908加载到随机访问存储器（Random Access Memory，RAM）903中的程序而执行各种适当的动作和处理。在RAM 903中，还存储有系统操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出（Input /Output，I/O）接口905也连接至总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管（Cathode Ray Tube，CRT）、液晶显示器（Liquid Crystal Display，LCD）等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN（Local Area Network，局域网）卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

特别地，根据本发明的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元（CPU）901执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本发明实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（Erasable Programmable Read Only Memory，EPROM）、闪存、光纤、便携式紧凑磁盘只读存储器（Compact Disc Read-Only Memory，CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、触控终端、或者网络设备等）执行根据本发明实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种语料数据的处理方法，其特征在于，包括：

获取目标领域中的待处理语料数据；

根据所述待处理语料数据中所包含的实体名称，生成所述待处理语料数据对应的第一语料模板；

根据所述第一语料模板和所述目标领域中已有的第二语料模板，计算所述第一语料模板和所述第二语料模板之间的相似度；

若获取到的所述目标领域中的第一类待处理语料数据对应的第一语料模板与所述目标领域中已有的第二语料模板不相似，则从所述目标领域的待处理语料数据中过滤掉所述第一类待处理语料数据，并将从所述待处理语料数据中过滤掉所述第一类待处理语料数据后得到的语料数据作为所述目标领域中的语料数据。

2.根据权利要求1所述的语料数据的处理方法，其特征在于，根据所述待处理语料数据中所包含的实体名称，生成所述待处理语料数据对应的第一语料模板，包括：

检测所述待处理语料数据中所包含的预设实体名称；

根据实体名称与实体标签之间的对应关系，确定与所述预设实体名称相对应的目标实体标签；

通过所述目标实体标签替换所述待处理语料数据中所包含的所述预设实体名称，以生成所述待处理语料数据对应的第一语料模板。

3.根据权利要求1所述的语料数据的处理方法，其特征在于，根据所述第一语料模板和所述目标领域中已有的第二语料模板，计算所述第一语料模板和所述第二语料模板之间的相似度，包括：

根据所述第一语料模板和所述第二语料模板，确定所述第一语料模板和所述第二语料模板中的其中一个语料模板是否是另一个语料模板的子集；

若所述第一语料模板和所述第二语料模板中的其中一个语料模板是另一个语料模板的子集，则确定所述第一语料模板和所述第二语料模板相似。

4.根据权利要求3所述的语料数据的处理方法，其特征在于，根据所述第一语料模板和所述第二语料模板，确定所述第一语料模板和所述第二语料模板中的其中一个语料模板是否是另一个语料模板的子集，包括：

若所述第一语料模板和所述第二语料模板中的其中一个语料模板所包含的字符覆盖另一个语料模板所包含的字符，则确定所述第一语料模板和所述第二语料模板中的其中一个语料模板是另一个语料模板的子集。

5.根据权利要求1所述的语料数据的处理方法，其特征在于，根据所述第一语料模板和所述目标领域中已有的第二语料模板，计算所述第一语料模板和所述第二语料模板之间的相似度，包括：

根据所述第一语料模板和所述第二语料模板，计算所述第一语料模板所包含的字符串和所述第二语料模板所包含的字符串之间的相似度；

根据所述第一语料模板所包含的字符串和所述第二语料模板所包含的字符串之间的相似度，确定所述第一语料模板和所述第二语料模板之间的相似度。

6.根据权利要求5所述的语料数据的处理方法，其特征在于，计算所述第一语料模板所包含的字符串和所述第二语料模板所包含的字符串之间的相似度，包括：

计算所述第一语料模板所包含的字符串和所述第二语料模板所包含的字符串之间的编辑距离，以根据所述编辑距离确定所述第一语料模板和所述第二语料模板之间的相似度；或

7.根据权利要求1至6中任一项所述的语料数据的处理方法，其特征在于，获取目标领域中的待处理语料数据，包括：

从用户输入的语句数据中筛选出与所述目标领域中的关键词相关联的目标语料数据，和/或从用户输入的网址中筛选出与所述目标领域相关联的目标网址；

将筛选出的所述目标语料数据和/或所述目标网址中所包含的数据作为所述待处理语料数据。

8.根据权利要求7所述的语料数据的处理方法，其特征在于，所述目标领域中的关键词包括所述目标领域中的实体名称，和/或所述实体名称及针对所述实体名称的限制条件；

所述目标网址包括与所述目标领域相关联的网址中的服务器地址和/或IP地址。

9.一种语料数据的处理装置，其特征在于，包括：

获取单元，用于获取目标领域中的待处理语料数据；

生成单元，用于根据所述待处理语料数据中所包含的实体名称，生成所述待处理语料数据对应的第一语料模板；

计算单元，用于根据所述第一语料模板和所述目标领域中已有的第二语料模板，计算所述第一语料模板和所述第二语料模板之间的相似度；

处理单元，用于若获取到的所述目标领域中的第一类待处理语料数据对应的第一语料模板与所述目标领域中已有的第二语料模板不相似，则从所述目标领域的待处理语料数据中过滤掉所述第一类待处理语料数据，并将从所述待处理语料数据中过滤掉所述第一类待处理语料数据后得到的语料数据作为所述目标领域中的语料数据。

10.根据权利要求9所述的语料数据的处理装置，其特征在于，所述生成单元配置为：

检测所述待处理语料数据中所包含的预设实体名称；根据实体名称与实体标签之间的对应关系，确定与所述预设实体名称相对应的目标实体标签；通过所述目标实体标签替换所述待处理语料数据中所包含的所述预设实体名称，以生成所述待处理语料数据对应的第一语料模板。

11.根据权利要求9所述的语料数据的处理装置，其特征在于，所述计算单元配置为：

根据所述第一语料模板和所述第二语料模板，确定所述第一语料模板和所述第二语料模板中的其中一个语料模板是否是另一个语料模板的子集；若所述第一语料模板和所述第二语料模板中的其中一个语料模板是另一个语料模板的子集，则确定所述第一语料模板和所述第二语料模板相似。

12.根据权利要求11所述的语料数据的处理装置，其特征在于，所述计算单元配置为：

13.根据权利要求9所述的语料数据的处理装置，其特征在于，所述计算单元配置为：

根据所述第一语料模板和所述第二语料模板，计算所述第一语料模板所包含的字符串和所述第二语料模板所包含的字符串之间的相似度；根据所述第一语料模板所包含的字符串和所述第二语料模板所包含的字符串之间的相似度，确定所述第一语料模板和所述第二语料模板之间的相似度。

14.根据权利要求13所述的语料数据的处理装置，其特征在于，所述计算单元配置为：

15.根据权利要求9至14中任一项所述的语料数据的处理装置，其特征在于，所述获取单元配置为：

从用户输入的语句数据中筛选出与所述目标领域中的关键词相关联的目标语料数据，和/或从用户输入的网址中筛选出与所述目标领域相关联的目标网址；将筛选出的所述目标语料数据和/或所述目标网址中所包含的数据作为所述待处理语料数据。

16.根据权利要求15所述的语料数据的处理装置，其特征在于，所述目标领域中的关键词包括所述目标领域中的实体名称，和/或所述实体名称及针对所述实体名称的限制条件；所述目标网址包括与所述目标领域相关联的网址中的服务器地址和/或IP地址。

17.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的语料数据的处理方法。

18.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至8中任一项所述的语料数据的处理方法。