CN112163081A

CN112163081A - 标签确定方法、装置、介质及电子设备

Info

Publication number: CN112163081A
Application number: CN202011097282.3A
Authority: CN
Inventors: 邹武合; 张宏波; 梁楠; 李锋; 万里红; 张伟东
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2021-01-01

Abstract

本公开提供一种标签确定方法、标签确定装置、计算机可读介质及电子设备；涉及数据处理技术领域。该标签确定方法包括：获取客户端的对话数据，并通过所述对话数据确定所述客户端的语义特征，其中，所述对话数据包括文本数据和语音数据；获取所述客户端的日志数据，确定所述日志数据中的统计数据对应的统计特征，其中，所述统计数据为可进行数量累计的数据；结合所述语义特征以及所述统计特征，确定所述客户端的个性标签。本公开中的标签确定方法能够在一定程度上克服标签不够准确的问题，进而提升标签的精确性。

Description

标签确定方法、装置、介质及电子设备

技术领域

本公开涉及数据处理技术领域，具体而言，涉及一种标签确定方法、标签确定装置、计算机可读介质及电子设备。

背景技术

用户的标签能够体现出用户行为的特点，构建用户标签是实现用户个性化体验的重要环节。以游戏应用为例，通过构建玩家标签可以刻画玩家个性特征以及游戏行为特点，进而为玩家提供更符合需求的好友推荐、游戏组队匹配等服务。

目前，玩家的标签主要是通过对玩家的日志数据进行统计得出各项统计指标，例如统计累计在线时长、累计比赛场次、累计消费等，然后对统计指标设置阈值，通过玩家满足的阈值来确定玩家的标签，例如，如果玩家一个月的累计在线时长大于30小时则确定该玩家为活跃玩家。由于统计指标的阈值通常由游戏策划者根据实际情况人为设定的，如果需要增加新的标签，或者将现有标签迁移到不同的游戏应用中时，都需要人为重新设置阈值，人工成本较高；并且人为设置的阈值随着数据的积累准确性越来越低，导致标签的准确性较低。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种标签确定方法、标签确定装置、计算机可读介质及电子设备，进而在一定程度上克服用户标签准确性较低的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供一种标签确定方法，包括：

获取客户端的对话数据，并通过所述对话数据确定所述客户端的语义特征，其中，所述对话数据包括文本数据和语音数据；

获取所述客户端的日志数据，确定日志数据中的统计数据对应的统计特征，其中，所述统计数据为可进行累计的数据；

结合所述语义特征以及所述统计特征，确定所述客户端的个性标签。

在本公开的一种示例性实施例中，所述通过所述对话数据确定所述客户端的语义特征包括：

获取多个对话样本；

通过所述多个对话样本确定对话分类模型，以通过所述对话分类模型对所述对话数据进行分类，获得所述语义特征。

在本公开的一种示例性实施例中，所述通过所述多个对话样本确定对话分类模型包括：

对所述多个对话样本进行无监督聚类，以获得多个语义类别；

分别确定各个语义类别的样本匹配模板，以通过所述样本匹配模板筛选出各个所述语义类别的语料样本集；

结合所述各个语义类别的语料样本集确定所述对话分类模型。

在本公开的一种示例性实施例中，所述分别确定各个语义类别的样本匹配模板包括：

对所述各个语义类别进行关键字提取，获得所述各个语义类别分别对应的关键字；

通过所述关键字从所述多个对话样本中获取各个语义类别的正负样本；

根据所述各个语义类别的正负样本确定各个语义类别的正样本匹配模板以及负样本匹配模板。

在本公开的一种示例性实施例中，所述语义特征包括语音特征；所述通过所述对话数据确定所述客户端的语义特征包括：

通过语音分类模型对所述对话数据进行分类，以确定所述客户端的语音特征。

在本公开的一种示例性实施例中，通过语音分类模型对所述对话数据进行分类之前，所述方法还包括：

获取包含标注的语音样本集；

对所述包含标注的语音样本集进行数据增强处理，以获取处理后的目标样本集；

通过所述目标样本集确定所述语音分类模型。

通过知识蒸馏技术生成文本分类模型，以通过所述文本分类模型确定所述对话数据的语义特征。

根据本公开的第二方面，提供一种标签确定装置，包括特征提取模块、数据统计模块以及标签确定模块，其中：

特征提取模块，用于获取客户端的对话数据，并通过所述对话数据确定所述客户端的语义特征，其中，所述对话数据包括文本数据和语音数据；数据统计模块，用于确定日志数据中的统计数据对应的统计特征，其中，所述统计数据为可进行累计的数据；标签确定模块，结合所述语义特征以及所述统计特征，确定所述客户端的个性标签。

在本公开的一种示例性实施例中，特征提取模块具体包括样本获取单元以及特征分类单元，其中：

样本获取单元，用于获取多个对话样本；特征分类单元，用于通过所述多个对话样本确定对话分类模型，以通过所述对话分类模型对所述对话数据进行分类，获得所述语义特征。

在本公开的一种示例性实施例中，特征分类单元具体包括聚类单元、样本筛选单元以及模型确定单元，其中：

聚类单元，用于对所述多个对话样本进行无监督聚类，以获得多个语义类别；样本筛选单元，用于分别确定各个语义类别的样本匹配模板，以通过所述样本匹配模板筛选出各个所述语义类别的语料样本集；模型确定单元，用于结合所述各个语义类别的语料样本集确定所述对话分类模型。

在本公开的一种示例性实施例中，样本筛选单元具体包括关键字提取单元、正负样本提取单元以及匹配模板确定单元，其中：

对所述各个语义类别进行关键字提取，获得所述各个语义类别分别对应的关键字；通过所述关键字从所述多个对话样本中获取各个语义类别的正负样本；根据所述各个语义类别的正负样本确定各个语义类别的正样本匹配模板以及负样本匹配模板。

在本公开的一种示例性实施例中，所述语义特征包括语音特征，所述特征提取模块可以具体用于通过语音分类模型对所述对话数据进行分类，以确定所述客户端的语音特征。

在本公开的一种示例性实施例中，所述装置还包括语音样本获取模块、样本增强模块以及语音分类模型确定模块，其中：

语音样本获取模块，用于获取包含标注的语音样本集；样本增强模块，用于对所述包含标注的语音样本集进行数据增强处理，以获取处理后的目标样本集；语音分类模型确定模块，用于通过所述目标样本集确定所述语音分类模型。

在本公开的一种示例性实施例中，所述特征提取模块可以具体用于通过知识蒸馏技术生成文本分类模型，以通过所述文本分类模型确定所述对话数据的语义特征。

根据本公开的第三方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。

根据本公开的第四方面，提供一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的方法。

本公开示例性实施例可以具有以下部分或全部有益效果：

在本公开的示例实施方式所提供的标签确定方法中，一方面，通过获取客户端的对话数据以及日志数据确定客户端的个性标签，能够更加全面地利用到客户端的数据，可以提高数据的利用率；另一方面，确定了客户端的语义特征以及统计特征，通过这两类特征可以使得到的个性标签更加准确，提高了标签的精确性；再一方面，确定客户端个性标签的过程中不需要人工参与，能够降低人工成本，同时也能避免因人为设置而导致标签不准确的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出了根据本公开的一个实施例的标签确定方法的流程图；

图2示意性示出了根据本公开的另一个实施例的标签确定方法的流程图；

图3示意性示出了根据本公开的一个实施例的标签确定方法流程图；

图4示意性示出了根据本公开的另一个实施例的标签确定方法的流程图；

图5示意性示出了根据本公开的一个实施例的标签确定装置的框图；

图6示意性示出了根据本公开的一个实施例的用于实现标签确定方法的系统架构图；

图7示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

以下对本公开实施例的技术方案进行详细阐述：

本示例实施方式首先提供一种标签确定方法。参考图1所示，该标签确定方法可以包括以下步骤：

步骤S110：获取客户端的对话数据，并通过所述对话数据确定所述客户端的语义特征，其中，所述对话数据包括文本数据和语音数据。

步骤S120：获取所述客户端的日志数据，确定日志数据中的统计数据对应的统计特征，其中，所述统计数据为可进行累计的数据。

步骤S130：结合所述语义特征以及所述统计特征，确定所述客户端的个性标签。

下面，对于本示例实施方式的上述步骤进行更加详细的说明。

在步骤S110中，获取客户端的对话数据，并通过所述对话数据确定所述客户端的语义特征，其中，所述对话数据包括文本数据和语音数据。

其中，对话数据可以指该客户端向其他客户端发送的信息，或者从其他客户端接收的信息，不同的客户端用户可以通过对话数据进行交流。示例性的，对话数据可以包括客户端存储的文本数据、语音数据等，例如聊天记录；还可以包括客户端的弹幕、发送至公共屏幕中的信息，或者也可以包括其他信息，例如好友请求、组队请求等等，本实施方式对此不做特殊限定。

从客户端存储的数据中可以筛选出对话数据，例如从文件目录中获取保存对话数据的文件等；或者，通过请求服务器可以获取客户端的对话数据，客户端的对话数据可以存储在数据库、云盘中等，服务器在接收到客户端的请求后可以从数据库或者云盘中查询该客户端对应的对话数据，返回给该客户端。举例而言，在游戏应用中，玩家可以向其他玩家发送组队请求、发送语音或者文本进行聊天等，客户端或者服务器可以将玩家发送或者接收的信息保存在特定的文件中，通过该文件可以获取到该玩家的对话数据。示例性，每隔一段时间可以更新一次对话数据，例如每隔一天、一个月等重新获取一次客户端的对话数据，进而保持对话数据的时效性。

通过对话数据确定客户端的语义特征可以通过分类模型来实现，即通过模型可以对对话数据进行分类，从而确定对话数据的语义类型，将该语义类型作为客户端的语义特征。其中，语义类型可以预先设置，例如设置为积极、消极等，也可以设置为其他类型，例如鼓励、励志、卖萌、粗糙等，本实施方式不限于此。示例性，确定对话数据的语义特征的方法可以包括步骤S210以及步骤S220，如图2所示。

在步骤S210中，获取多个对话样本。通过语料库可以获取大量的对话样本，或者，可以获取多个客户端的历史对话消息作为对话样本。该对话样本可以包括文本信息，例如客户端的聊天记录等，也可以获取客户端的语音信息，通过自然语言识别转化为文本信息，从而得到对话样本。

在步骤S220中，通过所述对话样本确定对话分类模型，以通过所述对话分类模型对所述对话数据进行分类，获得所述语义特征。示例性的，该对话分类模型可以为文本分类模型，例如TextCNN等，将对话样本进行标注后可以作为训练数据，如果对话样本为语音则可以将语音转化为文本，通过训练之后能够得到该对话分类模型，进而将客户端的对话数据输入该对话分类模型，将该模型输出的结果作为语义特征。例如，对话数据可以为“大家好”，输入对话分类模型得到语义特征为“问候”。

对对话数据进行分类时，由于训练用于对对话数据进行分类的模型需要大量的标注的数据，也就是说，需要人工预先对各个样本进行标注，标注出对应的类型，人工成本过高。因此，本示例实施方式中确定对话数据的语义特征的可以包括步骤S310至步骤S330，如图3所示。

在步骤S310中，对所述多个对话样本进行无监督聚类，以获得多个语义类别。示例性的，在获取到大量的对话样本之后，首先可以对每个样本进行特征提取，例如可以通过BERT算法或者TF-IDF算法对对话样本进行特征提取，获取样本特征，然后通过无监督聚类算法，例如K-means等，对提取的样本特征进行聚类，得到多个类，最后定义每个类的语义类别。例如，获取多个游戏客户端的日志，从日志中筛选出一定数量的聊天记录，将每一条聊天记录作为一个对话样本，通过对聊天记录进行无监督聚类之后可以得到四个类，根据每个类中包含的对话样本的内容可以分别定义为基础信息类、表达风格类、特殊诉求类以及社交倾向类等。语义类别的数量可以根据实际需求进行设置，例如设置为4种、5种、10种、15种等等，语义类别的数量越多则对于语义特征的分类越精确。

在步骤S320中，分别确定各个语义类别的样本匹配模板，以通过所述样本匹配模板筛选出各个所述语义类别的语料样本集。对对话样本进行聚类之后，每个语义类别内包含一定数量的对话样本，可以通过语义类别中包含的样本确定语义类别的样本匹配模板。示例性的，可以统计语义类别包含的样本中各个词语出现的概率，将出现频率最高的词语作为样本匹配模板，或者将出现频率最高以及最低的词语进行组合作为样本匹配模板；或者，对样本进行关键词提取，将提取出的关键词作为样本匹配模板。例如，语义类别A包含了1万对话样本，对该1万对话样本进行关键词提取，得到关键词a，则a为语义类别A的样本匹配模板。得到样本匹配模板后可以通过字符串匹配的方式，可以从语料数据库中筛选出与样本匹配模板能够匹配的语料样本，得到语料样本集。该语料数据库中可以包括在语言实际使用过程中真实出现过的文本。

在步骤S330中，结合所述各个语义类别的语料样本集确定所述对话分类模型。通过语义类别的样本匹配模板匹配得到的语料样本集，可以自动标注为对应的类别，因此无需再对语料样本集进行人工标注；也就是说，语料样本集的标注与其对应的语义类别相同；例如，语义类别为“基础信息类”，则通过该基础信息类的样本匹配模板匹配到的语料样本集的标注为“基础信息类”。得到的语料样本集无需进行人工标注可以直接作为训练数据，对对话分类模型进行训练。

本实施方式中，通过无监督的聚类确定了语义类别，然后通过语义类别的样本匹配模板筛选出每个语义类别分别对应的语料样本集，得到的语料样本集可以直接采用对应的语义类别进行自动标注，可以避免人工标注需要耗费大量人力，提高效率。

示例性的实施方式中，确定语义类别的样本匹配模板的方法可以包括步骤S410、步骤S420以及步骤S430，如图4所示。

在步骤S410中，对所述各个语义类别进行关键字提取，获得所述各个语义类别分别对应的关键字。首先需要对语义类别中包含的文本样本进行分词处理，然后统计各个词语出现的频率，可以将在类别内出现频率高但在其他类别出现频率低的词语作为关键字。此外，通过其他方式也可以获取各个类别的关键字，例如将语义类别内出现频率最高的词语作为关键字、将语义类别内没有出现或者出现频率较低的词语作为关键字等、再例如通过关键字提取工具提取类别内样本中的关键字，例如通过TF-IDF模型提取关键字等。语义类别可以对应多个关键字，并且每个语义类别中的关键字可以相同，例如语义类别A的关键字为a，a又同时是语义类别B的关键字。

在步骤S420中，通过所述关键字从所述多个对话样本中获取各个语义类别的正负样本。通过各个语义类别中包含的样本得到各个语义类别分别对应的关键字后，可以利用该关键字从整个对话样本中再召回语义类别的正负样本。其中，正负样本中包含正样本以及负样本。正样本指的是通过通过关键字召回的对话样本同时包含在该关键字对应的语义类别中，举例而言，将原始获得的多个对话样本作为样本集A，通过无监督聚类后得到语义类别B、C、D、E、F，各个语义类别中分别包含样本集A中的一部分对话样本，通过语义类别B的关键字从样本集A中进行筛选，得到对话样本m，该样本m刚好为语义类别B中包含的样本。也就是说，正样本为通过一语义类别对应的关键字召回的样本，与无监督聚类对样本的分类相匹配的样本。相反地，通过一语义类别对应的关键字召回的样本，不在该语义类别内的为负样本。首先从多个语义类别中选择一个作为目标类别，利用该目标类别对应的关键字从对话样本中进行筛选，并验证筛选出的样本的语义类别，若语义类别为目标类别则作为正样本，若语义类别不为目标类别则作为该目标类别的负样本；然后依次对其他语义类别进行处理，得到每一个语义类别的正样本以及负样本。

在步骤S430中，根据所述各个语义类别的正负样本确定各个语义类别的正样本匹配模板以及负样本匹配模板。对于每个语义类别，通过该语义类别的正样本可以得到正样本匹配模板，通过该语义类别的负样本可以得到负样本匹配模板。具体的，对于正样本来说，可以对正样本进行近义词替换以及通配符替换，对正样本进行泛化，得到正样本匹配模板。或者，先通过正样本初步构建一匹配模板，例如将正样本中包含的词语作为匹配模板，然后对该匹配模板进行近义词替换、通配符替换等处理，对该匹配模板进行泛化，得到最终的正样本匹配模板。同样的，对于负样本也可以通过近义词替换或者通配符替换处理得到负样本匹配模板。

样本匹配模板中可以包括正样本匹配模板与负样本匹配模板，通过正样本匹配模板与负样本匹配模板可以从语料库中筛选出语义类别的语料样本。举例而言，对于语义类别A来说，通过A的正样本匹配模板可以先筛选出匹配的样本，然后对筛选出的样本再通过负样本匹配模板进行过滤，过滤掉与负样本匹配模板相匹配的样本，最终得到的样本保存在A的语料样本集中。通过本实施方式可以使每个语义类别的语料样本集更加准确，从而有利于提高对话分类模型的准确率。

本实施方式中，对话数据可以包括文本数据以及语音数据，因此还可以分别针对文本数据确定一对话分类模型，针对语音数据确定一对话分类模型。通过文本信息确定对话分类模型的方式在上述实施方式已经进行了具体介绍，通过该对话分类模型可以对文本类型的对话数据进行分类，得到文本特征。为了能够直接对语音类型的对话数据进行分类得到语音特征，需要训练一个语音分类模型，通过该语音分类模型对语音类的对话数据进行分类。具体的，该方法首先获取包含标注的语音样本集。该语音样本集中可以包括一定数量的语音样本，对每一语音样本可以预先进行人工标注，标注出语音样本对应的语义类别。为了节省人力，可以仅对少量的语音样本进行标注。然后对所述包含标注的语音样本集进行数据增强处理，以获取处理后的目标样本集。利用数据增强技术可以对语音样本集中的样本进行扩展处理，从而增加语音样本集中包含标注的样本数量，处理后的目标样本集的样本数量大于语音样本集。最后通过所述目标样本集确定所述语音分类模型。示例性的，通过说话音检测技术提取目标样本集中的语音样本中的说话音部分，然后通过多标签分类算法对说话音部分的特征进行分析，得到语音分类模型。语音分类模型可以直接对语音类型的对话数据进行分类，得到语音特征。

在示例性的实施方式中，可以通过知识蒸馏技术生成文本分类模型，通过文本分类模型确定对话数据的语义特征。其中，知识蒸馏技术指的是先用复杂的模型A拟合输入和输出；训练好模型A后，把模型A预测的结果记录下来作为p；再用简单的模型B拟合输入和p，训练好模型B后用于实际应用的过程。举例而言，可以将上述实施方式中训练得到的对话分类模型利用知识蒸馏技术进行处理，例如通过TextCNN算法训练对话分类模型，得到该对话分类模型后将该模型对对话样本预测的语义特征作为拟合目标，将对话样本与该拟合目标输入FastText中，经过训练后得到最终的文本分类模型。通过采用知识蒸馏的方式可以加快模型的预测速度，进而提高预测效率。

在步骤S120中，获取所述客户端的日志数据，确定日志数据中的统计数据对应的统计特征，其中，所述统计数据为可进行累计的数据。

其中，客户端的日志数据中可以记录客户端的用户操作，具体可以包括例如用户登录信息、聊天信息、比赛信息等等，还可以包括其他信息，例如交友信息、点赞信息、举报信息等，本实施方式不限于此。以游戏应用为例，游戏客户端的日志数据可以记录用户组队的信息，例如组队次数、队友信息等，还可以记录比赛的信息，例如胜负率、比赛类型等。

日志数据中包含可以进行累计的统计数据，通过对统计数据进行统计，可以得到客户端的统计特征。举例而言，从日志数据中可以统计用户的发送文本数量、发送好友请求数量、赠送礼物数量、对局次数、组队次数等，然后可以将统计的结果作为统计特征，或者，根据统计结果满足的阈值确定统计特征，例如若发送好友请求数量超过特定阈值，则可确定该客户端的统计特征为“社交倾向类”。

在步骤S130中，结合所述语义特征以及所述统计特征，确定所述客户端的个性标签。

其中，个性标签可以与语义类别相同，并且客户端可以包括多个个性标签，例如个性标签可以为“小学生”、“交友诉求”、“游戏语音诉求”等。举例而言，可以根据语义特征直接作为客户端的个性标签，例如对话数据的语义特征为“表达风格类”，则可以将该语义特征作为该客户端的个性标签。或者，将语义特征以及统计特征可以均作为客户端的个性标签，例如语义特征为“表达风格类”，统计特征为“活跃玩家”，则该客户端的个性标签为“表达风格类”、“活跃玩家”。此外，本实施方式中，可以通过样本训练一标签分类模型，将语义特征以及统计特征均作为该标签分类模型的输入，通过该标签分类模型来确定客户端的个性标签。例如，该标签分类模型为一GBDT(Gradient Boosting Decision Tree，梯度提升迭代决策树)模型，该模型可以通过维度和阈值的方式进行分类，将对话数据的各个维度的特征进行输入该模型，可以得到对话数据的个性标签，从而在不需要人为参与的情况下使得分类过程更容易控制，提高灵活性。

进一步的，本示例实施方式中，还提供了一种标签确定装置，用于执行本公开上述的标签确定方法。该装置可以应用于一服务器或终端设备。

参考图5所示，该标签确定装置500可以包括：特征提取模块510、数据统计模块520以及标签确定模块530，其中：

特征提取模块，用于获取客户端的对话数据，并通过所述对话数据确定所述客户端的语义特征，其中，所述对话数据包括文本数据和语音数据。

数据统计模块，用于获取所述客户端的日志数据，确定日志数据中的统计数据对应的统计特征，其中，所述统计数据为可进行累计的数据。

标签确定模块，结合所述语义特征以及所述统计特征，确定所述客户端的个性标签。

在本公开的一种示例性实施例中，特征提取模块510具体包括样本获取单元以及特征分类单元，其中：

样本获取单元，用于获取多个对话样本。

特征分类单元，用于通过所述多个对话样本确定对话分类模型，以通过所述对话分类模型对所述对话数据进行分类，获得所述语义特征。

聚类单元，用于对所述多个对话样本进行无监督聚类，以获得多个语义类别。

样本筛选单元，用于分别确定各个语义类别的样本匹配模板，以通过所述样本匹配模板筛选出各个所述语义类别的语料样本。

模型确定单元，用于结合所述各个语义类别的语料样本集确定所述对话分类模型。

对所述各个语义类别进行关键字提取，获得所述各个语义类别分别对应的关键字。

通过所述关键字从所述多个对话样本中获取各个语义类别的正负样本。

在本公开的一种示例性实施例中，所述语义特征包括语音特征，所述特征提取模块510可以具体用于通过语音分类模型对所述对话数据进行分类，以确定所述客户端的语音特征。

在本公开的一种示例性实施例中，所述装置500还包括语音样本获取模块、样本增强模块以及语音分类模型确定模块，其中：

语音样本获取模块，用于获取包含标注的语音样本集。

样本增强模块，用于对所述包含标注的语音样本集进行数据增强处理，以获取处理后的目标样本集。

语音分类模型确定模块，用于通过所述目标样本集确定所述语音分类模型。

在本公开的一种示例性实施例中，所述特征提取模块510可以具体用于通过知识蒸馏技术生成文本分类模型，以通过所述文本分类模型确定所述对话数据的语义特征。

由于本公开的示例实施例的标签确定装置的各个功能模块与上述标签确定方法的示例实施例的步骤对应，因此对于本公开装置实施例中未披露的细节，请参照本公开上述的标签确定方法的实施例。

参阅图6，图6示出了可以应用本公开实施例的一种标签确定方法及标签确定装置的示例性应用环境的系统架构的示意图。

如图6所示，系统架构600可以包括终端设备601、602、603中的一个或多个，网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

终端设备601、602、603可以是具有显示屏的各种电子设备，包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解，图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器605可以是多个服务器组成的服务器集群等。

本公开实施例所提供的标签确定方法一般由服务器605执行，相应地，标签确定装置一般设置于服务器605中。

需要说明的是，图7示出的电子设备的计算机系统700仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，计算机系统700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有系统操作所需的各种程序和数据。CPU701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本申请的方法和装置中限定的各种功能。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现如图1和图2所示的各个步骤等。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种标签确定方法，其特征在于，包括：

获取所述客户端的日志数据，确定所述日志数据中的统计数据对应的统计特征，其中，所述统计数据为可进行数量累计的数据；

2.根据权利要求1所述的方法，其特征在于，所述通过所述对话数据确定所述客户端的语义特征包括：

获取多个对话样本；

3.根据权利要求2所述的方法，其特征在于，所述通过所述多个对话样本确定对话分类模型包括：

4.根据权利要求3所述的方法，其特征在于，所述分别确定各个语义类别的样本匹配模板包括：

5.根据权利要求1所述的方法，其特征在于，所述语义特征包括语音特征；所述通过所述对话数据确定所述客户端的语义特征包括：

6.根据权利要求5所述的方法，其特征在于，通过语音分类模型对所述对话数据进行分类之前，所述方法还包括：

获取包含标注的语音样本集；

通过所述目标样本集确定所述语音分类模型。

7.根据权利要求1所述的方法，其特征在于，所述通过所述对话数据确定所述客户端的语义特征包括：

8.一种标签确定装置，其特征在于，包括：

特征提取模块，用于获取客户端的对话数据，并通过所述对话数据确定所述客户端的语义特征，其中，所述对话数据包括文本数据和语音数据；

数据统计模块，用于获取所述客户端的日志数据，确定日志数据中的统计数据对应的统计特征，其中，所述统计数据为可进行累计的数据；

9.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法。

10.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任一项所述的方法。