CN110704593B

CN110704593B - 一种数据处理方法、装置、设备及介质

Info

Publication number: CN110704593B
Application number: CN201910926690.6A
Authority: CN
Inventors: 常超
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2022-03-04
Anticipated expiration: 2039-09-27
Also published as: CN110704593A

Abstract

本发明公开了一种数据处理方法、装置、设备及介质，用以有效的提高数据标注效率。该方法包括：获取待标注的数据；对所述数据进行分词处理，划分为多个分词；若所述数据的分词中包含有设定的特征词，确定所述数据为有效数据。由于本发明实施例中当获取待标注的数据后，对该数据进行分词处理，根据该数据的分词中包含有设定的特征词，确定该数据为有效数据，从而进行后续标注，因此在一定程度上减少了干扰数据对工作人员造成的干扰，从而可以提高工作人员进行标注的效率。

Description

一种数据处理方法、装置、设备及介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种数据处理方法、装置、设备及介质。

背景技术

随着应用于智能交互设备的科学技术的迅猛发展，智能交互设备已经拥有了强大的处理能力，可以实现在一定程度上像人类一样理解自然语言。

作为智能交互设备代表的机器人可以根据采集到周围环境中的语音数据，并输出该语音数据对应的回复信息，然而有时也会出现无法回复用户的语音问询(query)的情况发生。而为了使机器人能够提供更加合理的回复信息，工作人员会定期的对机器人未能提供回复信息的数据，或者提供的回复不理想的数据进行标注，从而根据标注的数据，优化其对应的回复信息。

具体的，工作人员在对数据进行标注时，需要一条一条的获取数据的内容，根据数据的内容进行标注。但是因为进行标注的数据中存在大量的干扰数据，如周围环境的噪声数据，非对话数据等，而工作人员只能一条一条的获取到数据的内容才能识别出是否需要对其进行标注，从而影响了工作人员的标注效率，进而影响了机器人提供优化后的回复信息的效率。

例如：工作人员一天可以处理4000条左右的数据，其中可能2000条都是干扰数据，耗费了工作人员大量的时间与精力，降低了工作人员的标注效率。

发明内容

本发明实施例提供了一种数据处理方法、装置、设备、介质及系统，用以提高数据的标注效率。

本发明实施例提供了一种数据处理方法，该方法包括：

获取待标注的数据；

对所述数据进行分词处理，划分为多个分词；

若所述数据的分词中包含有设定的特征词，确定所述数据为有效数据。

在一种可能的实施方式中，所述特征词包括专属特征词和通用特征词，所述若所述数据的分词中包含有设定的特征词，确定所述数据为有效数据，包括：

若所述数据的分词中包含有设定的所述专属特征词，确定所述数据为有效数据；或者

若所述数据的分词中同时包含设定的名词和通用特征词，确定所述数据为有效数据；或者

若所述数据的分词中同时包含设定的动词和通用特征词，确定所述数据为有效数据。

在一种可能的实施方式中，若所述数据的分词中不包含设定的特征词，所述方法还包括：

将所述数据输入到预设的语义相似模型中，根据所述语义相似模型的输出结果，确定所述数据的语义与对所述语义相似模型进行训练时，采用的人机交互的语句的语义的匹配分值，若所述匹配分值大于设定的阈值，则确定所述数据为有效数据。

在一种可能的实施方式中，所述对所述数据进行分词处理，划分为多个分词之前，所述方法还包括：

若采集所述数据时未采集到人脸信息或采集到的人脸信息不满足设定条件，过滤所述数据；或者

若所述数据包含的字符数量不在预设的数量范围内，则过滤所述数据。

在一种可能的实施方式中，所述确定所述数据为有效数据之后，所述方法还包括：

确定所述数据对应的临时兜底回复信息；

控制机器人输出所述临时兜底回复信息。

在一种可能的实施方式中，所述确定所述数据对应的临时兜底回复信息包括：

在预设的多个兜底回复信息中，将任意一个兜底回复信息确定为所述临时兜底回复信息；或者

根据预设的兜底回复信息的回复顺序，确定所述临时兜底回复信息。

在一种可能的实施方式中，所述待标注的数据为未能被成功进行语义解析的数据，或基于语义解析结果未匹配到回复信息的数据。

本发明实施例还提供了一种数据处理装置，该装置包括：

接收模块，用于获取待标注的数据；

分词模块，用于对所述数据进行分词处理，划分为多个分词；

处理模块，用于若所述数据的分词中包含有设定的特征词，确定所述数据为有效数据。

在一种可能的实施方式中，所述处理模块，具体用于若所述数据的分词中包含有设定的专属特征词，确定所述数据为有效数据；或者，若所述数据的分词中同时包含设定的名词和通用特征词，确定所述数据为有效数据；或者，若所述数据的分词中同时包含设定的动词和通用特征词，确定所述数据为有效数据。

在一种可能的实施方式中，所述处理模块，还用于若所述数据的分词中不包含设定的特征词，将所述数据输入到预设的语义相似模型中，根据所述语义相似模型的输出结果，确定所述数据的语义与对所述语音相似模型进行训练时，采用的人机交互的语句的语义的匹配分值，若所述匹配分值大于设定的阈值，则确定所述数据为有效数据。

在一种可能的实施方式中，所述装置还包括：

过滤模块，用于若采集所述数据时未采集到人脸信息或采集到的人脸信息不满足设定条件，过滤所述数据；或者，若所述数据包含的字符数量不在预设的数量范围内，则过滤所述数据。

在一种可能的实施方式中，所述处理模块，还用于确定所述数据对应的临时兜底回复信息；控制机器人输出所述临时兜底回复信息。

在一种可能的实施方式中，所述处理模块，还用于在预设的多个兜底回复信息中，将任意一个兜底回复信息确定为所述临时兜底回复信息；或者，根据预设的兜底回复信息的回复顺序，确定所述临时兜底回复信息。

本发明实施例提供了一种电子设备，所述电子设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现上述数据处理方法任一所述方法的步骤。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现上述数据处理方法中任一所述方法的步骤。

本发明实施例提供了一种数据处理系统，所述系统包括实现上述数据处理方法中任一项应用于服务器的电子设备，以及向所述服务器发送待标注的数据机器人。

由于本发明实施例中当获取待标注的数据后，对该数据进行分词处理，根据该数据的分词中包含有设定的特征词，确定该数据为有效数据，从而进行后续标注，因此在一定程度上减少了干扰数据对工作人员造成的干扰，从而可以提高工作人员进行标注的效率。

附图说明

图1为本发明实施例提供的一种数据处理过程示意图；

图2为本发明实施例提供的具体的数据处理方法实施流程示意图；

图3为本发明实施例提供的一种数据处理装置的结构示意图；

图4为本发明实施例提供的一种电子设备结构示意图；

图5为本发明实施例提供的一种数据处理系统结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

为了有效的提高数据标注效率，本发明实施例提供了一种数据处理方法、装置、设备、介质及系统。

实施例1：

图1为本发明实施例提供的一种数据处理过程示意图，该过程包括以下步骤：

S101：获取待标注的数据。

本发明实施例提供的数据处理方法应用于电子设备，该电子设备可以是机器人，也可以是服务器。

本发明实施例中待标注的数据为机器人未能成功进行语义解析的数据，或基于语义解析结果未匹配到回复信息的数据。该数据可以是语音信息，也可以是文本信息。该数据之所以称为待标注的数据，是因为实际上该数据是需要工作人员获取内容并标注的。

机器人可以持续不断的采集数据，基于机器人采集的数据，机器人或者服务器可以对采集的数据进行识别、语义解析处理，从而根据处理结果提供回复信息。

如果进行数据处理的电子设备是机器人，当某一数据未能被成功进行语义解析，或基于语义解析结果未匹配到回复信息时，该数据是需要进行人工标注的，而基于本发明实施例提供的数据处理方法，当获取到该待标注的数据后可以根据本发明实施例提供的方法对该数据进行处理。

如果进行数据处理的电子设备是服务器，当机器人采集到某一数据，将该数据发送给服务器，如果服务器对该数据未能成功进行语义解析，或基于语义解析结果未匹配到回复信息时，服务器基于本发明实施例提供的数据处理方法，对该数据进行处理。

S102：对所述数据进行分词处理，划分为多个分词。

获取待标注的数据后，如果该标注的数据为文本信息，则可以直接对该数据进行分词处理，得到该数据中的每个分词。

而对于获取到待标注的数据为语音信息时，需要先将该语音信息进行语音识别处理(ASR)，转换为对应的文本信息，具体的可以基于现有方法对语音信息进行转换，在此不再赘述。针对转换得到的文本信息采用上述方法进行分词处理，得到每个分词。

例如，待标注的数据为“今天天气怎么样”，对该待标注的数据进行分词处理后，得到“今天”、“天气”、“怎么样”这三个分词。再例如待标注的数据为“平安福怎么样”，对待标注的数据进行分词处理后，得到“平安福”、“怎么样”这两个分词。

S103：若所述数据的分词中包含有设定的特征词，确定所述数据为有效数据。

为了判断获取的每个数据是否为有效数据，在本发明实施例中预先配置有特征词库，将预先设定的特征词保存在该特征词库中。这是因为用户在与机器人进行交互时，一般是向机器人提出一些问题或指令，使机器人帮忙提供服务，如提供问题的回复信息，执行指令等，问题例如可以是：“**大厦怎么走”，“今天天气怎样”，“**功能如何使用”等，或者是使机器人提供引领服务的指令，例如“带我去**大厦”、“我想去***”。因此可以根据与机器人进行正常的人机交互时，机器人采集到的数据，对该数据进行分析，从而确定出其中的特征词，如果是一个问题，该问题中一般包含有一些设定的特征词，例如：“怎么样”、“怎样”、“如何”等等，如果是需要机器人提供引领服务的，则应该包含有地点或引领指令的特定词，例如：“带我去”、“我想去”、“怎么走”、“**大厦”、“**办公室”等等。因此可以对用户与机器人进行交互的数据进行统计，从而识别哪些特征词是出现在这些数据中的，根据识别的结果对特征词进行预先的设定，并将预先设定的特征词保存在特征词库中。

在本发明实施例中预先设定并保存有多个特征词，在进行判断时，针对数据中的每个分词分别进行判断，判断该分词是否为设定的特征词，若该数据的分词中至少有一个分词为设定的特征词，则确定该数据包含有设定的特征词，从而将该数据确定为有效数据。进一步的，工作人员可以对筛选出的有效数据进行后续标注。

如果进行数据处理的电子设备为机器人，当确定该待标注的数据为有效数据后，可以将该有效数据发送给服务器，以便工作人员对服务器接收到的有效数据进行后续标注。具体的可以周期性的发送，也可以每确定出一条有效数据即将其发送给服务器。因为服务器端进行数据标注的为具体的工作人员，因此在进行数据发送时，可以直接将数据发送给相应的进行标注的工作人员。为了方便发送，在进行处理的电子设备中可以保存有进行标注的工作人员的终端的标识信息，可以将该被确认为有效数据的数据通过短信的方式发送给工作人员，或者也可以保存该工作人员的邮箱，可以将该被确认为有效数据的数据发送到工作人员的邮箱。

实施例2：

为了提高人工标注的效率，在上述实施例的基础上，在本发明实施例中，所述特征词包括专属特征词和通用特征词，步骤S103中，若所述数据的分词中包含有设定的特征词，确定所述数据为有效数据，包括：

若所述数据的分词中包含有所述专属特征词，确定所述数据为有效数据；

或者

在配置特征词时，可以针对机器人的不同应用场景或客户配置专属特征词，例如，可以针对不同企业配置各企业的专属特征词，也可以针对不同业务线配置该业务线对应的专属特征词，例如，针对银行业务配置专属特征词。还可以配置适合各应用场景的通用特征词。所配置的特征词可以存储于机器人，也可以存储于云端服务器。在存储特征词时，可以通过特征词库中不同的存储空间分别存储专属特征词和通用特征词；也可以通过多个特征库分别存储专属特征词和通用特征词。

当对待标注的数据进行分词处理后，确定分词结果中包含专属特征词，则说明获取的该数据是一条正常的与机器人进行交互的数据，而非机器人采集到的干扰数据。

在本发明实施例中专属特征词是针对客户生效的特有词汇，例如可以是某企业的产品名称，业务名称、办公室名称、会议室名称等，具体的，可以根据企业的需求进行设置。例如，待标注的数据为“平安福怎么样”，对该数据进行分词后，得到“平安福”和“怎么样”两个分词，根据与特征词库中设定的专属特征词进行比对，确定分词“平安福”为专属特征词，则说明获取的该待标注的数据是一条正常的与机器人进行交互的数据，即有效数据，而非机器人采集到的干扰数据。

通过对大量正常的与机器人进行交互的数据分析，即问询类数据分析，发现正常的问询类数据中一般会同时含有某些类型的名词和通用特征词，一般情况下包含的名词可以是地名、人名、机构名等，而通用特征词一般可能是“在哪”、“怎么走”、“带我去”等；或者正常的问询类数据中一般会同时含有某些动词和通用特征词，动词可能是“去”、“到”、“等”等，而通用特征词与上述的通用特征词是一致的，如“多少钱”、“多长”、“多远”等。

因此还可以根据上述特征，为了准确的筛选出有效数据，预先设定有效数据中可能包含的名词，或者预先设定有效数据中可能包含的动词，将预先设定的词保存在特征词库中。在特征词库中可以针对词性分别设置专门的空间用于存储该设定的名词、动词以及通用特征词，也可以设置存储该设定的名词、动词的词库，从而对预先设定的词汇进行保存。

当对待标注的数据进行分词处理后，根据特征词库确定得到的分词结果中是否同时包含有设定的名词和通用特征词，如果待标注的数据进行分词处理后，得到的分词结果中同时包含设定的名词和通用特征词，说明获取的该数据是一条正常的与机器人进行交互的数据，而非机器人采集到的干扰数据。或者，还可以根据特征词库确定得到的分词结果中是否同时包含有设定的动词和通用特征词，如果待标注的数据进行分词处理后，得到的分词结果中同时包含设定的动词和通用特征词，说明获取的该数据是一条正常的与机器人进行交互的数据，而非机器人采集到的干扰数据。

在本发明实施例中通用特征词是针对所有客户和应用场景都生效的词汇，如：问路类的“在哪”、“怎么走”、程度类“多少钱”、“多长”、“多远”、“多高”，引领类的“带我去”、“我想去”等都属于通用特征词。需要说明的是，上述的通用特征词是通过人工预先整理出来的一些分词，后续可以根据标注的数据数量的丰富不断的完善。

例如，获取的待标注的数据为“天气怎么样”，对该数据进行分词后，得到“天气”和“怎么样”两个分词，而预先设置的特征词库的设定的名词中包含“天气”，而设定的通用特征词中包含有“怎么样”，即该数据的分词中同时包含设定的名词“天气”和通用特征词“怎么样”，则说明获取的该数据是一条正常的与机器人进行交互的数据，确定该数据为有效数据。

再例如，获取的待标注的数据为“去最近的银行怎么走”，对该数据进行分词后，得到“去”、“最近的”、“银行”、“怎么走”这四个分词，而预先设置的特征词库的设定的动词中包含“去”，而设定的通用特征词中包含“怎么走”，即该数据的分词中同时包含设定的动词“去”和通用特征词“怎么走”，则说明获取的该数据是一条正常的与机器人进行交互的数据，确定该数据为有效数据。

在确定数据是否为有效数据时，只要该数据满足上述任意一条件即可确定其为有效数据，而为了准确的筛选出有效数据，需要采用上述条件对数据一一进行筛选，从而确定是否为有效数据。为了方便判断，在本发明实施例中可以预先设定上述条件的执行顺序，在具体执行时，上述条件的执行顺序不限，可以先判断数据的分词中是否包含有专属特征词，也可以先判断数据的分词中是否同时包含设定的名词和通用特征词，或者是否同时包含设定的动词和通用特征词。

一般而言，正常的与机器交互的数据一般包含专属特征词的可能性比较大，因此如果先判断数据中的分词中是否包含有专属特征词，则筛选出有效数据的可能性比较大。因此在本发明实施例中可以先判断数据的分词中是否包含有专属特征词，如果不包含再判断数据的分词中是否同时含有设定的名词和通用特征词，如果不包含再判断数据的分词中是否同时含有设定的动词和通用特征词。

基于上述任一实施例，由于专属特征词一般是针对某个企业或业务线生效的特有词汇，而机器人一般使用的应用场景也是和该企业或业务线相关的，用户在与机器人进行交互时，使用专属特征词的可能性会比较大。另外因为专属特征词的长度有限，为了进一步提高有效数据的筛选效率，在本发明实施例中可以基于专属特征词词库中的各的长度，预先设置第一长度阈值。当针对数据进行筛选时，可以首先判断数据的长度是否小于预设的第一长度阈值，如果小于，再判断该数据的分词中是否包含有专属特征词，如果该数据的分词中包含有专属特征词，则确定该数据为有效数据，否则进行其他条件的判断。其中针对不同的客户，设置的该第一长度阈值的大小可以不同，也可以相同，在进行设置时，可以根据需要进行灵活调整，一般情况下该第一长度阈值为较小的数值，例如4、5、6、7等值。

另外，因为一般与机器人进行交互的数据的长度不会太长，如果数据的长度太长电子设备将会无法解析，或者解析不出正确的意思，因此在本发明实施例中可以只对设定长度范围的数据进行分析。为了提高有效数据的筛选效率，在本发明实施例中可以预先设置有效数据的第一长度范围的信息，针对获取到的待标注的数据，如果该数据的长度在预设的第一长度范围内，则判断该数据的分词中是否同时包含设定的动词和通用特征词，如果是，则确定该数据为有效数据，如果否，则判断该数据的分词中是否同时包含设定的名词和通用特征词，如果是，则确定该数据为有效数据，如果否，则确定该数据为干扰数据。

在本发明实施例中针对数据的分词中是否包含有专属特征词，是否同时包含有设定的名词和通用特征词，以及是否同时包含设定的动词和通用特征词，分别设置筛选条件，只要数据满足上述任一条件，即确定数据为有效数据，从而方便对有效数据的筛选，后续工作人员可以只对有效数据进行标注，从而提高了数据的标注效率。

实施例3：

为了进一步提高后续人工标注的效率，在上述各实施例的基础上，在本发明实施例中，若所述数据的分词中不包含设定的特征词，所述方法还包括：

将所述数据输入到预设的语义相似模型中，确定所述数据的语义与预设的人机交互的语句的语义的匹配分值，若所述匹配分值大于设定的阈值，则确定所述数据为有效数据。

除了判断待标注的数据中是否包含上述的特征词之外，还可以根据待标注的数据的语义判断该数据是否为有效数据。为了有效的确定待标注的数据是否为有效数据，在本发明实施例中可以对语义相似模型进行训练，在对该语义相似模型进行训练时，首先获取大量的样本数据，其中该样本数据为正常的与机器人进行交互的问询类语句，即人机交互的语句，根据样本数据对该语义相似模型进行训练，从而使该语义相似模型可以对输入的数据的语义进行识别。

在进行识别时，将该待标注的数据输入到预设的语义相似模型中，该语义相似模型将会输出匹配分值，具体的为该数据的语义与预设的人机交互的语句的语义的匹配分值，该匹配分值可以用余弦值或者欧氏距离进行表示，具体的计算方法本领域技术人员可以根据本发明实施例的描述进行确定。

如果该标注的数据为文本信息，则可以直接将该数据输入至语义相似模型进行处理，得到匹配分值；如果该待标注的数据为语音信息时，需要先将该语音信息进行语音识别处理(ASR)，转换为对应的文本信息，再将该文本信息输入至语义相似模型进行处理，得到匹配分值。

因为该语义相似模型也是采用大量的正常的与机器人进行交互的问询类的语句的语义训练出来的模型，该语义相似模型可以体现有效数据的语义特征。当某一待标注的数据输入到预设的语义相似模型中后，该语义相似模型将会输出匹配分值，如果匹配分值大于设定的阈值，说明该待标注的数据的语义与对该语义相似模型进行训练的预设的人机交互的语句的语义的相似度很高，所以可以认为采集的该数据是一条正常的与机器人进行交互的数据，而非机器人采集到的干扰数据。

该阈值可以根据使用场景的不同，设置为不同值，如果为了保证有效数据识别的准确率，则可以将该阈值设置的比较高，即对相似性的要求比较高，如果为了避免可能为有效数据的数据被误认为干扰数据，则可以将该阈值设置的比较低。

下面以两个具体的例子进行说明，假设匹配分值为余弦值，设定的阈值为0.9。

当获取的待标注的数据为“今天好热啊”，对该待标注的数据分词后可知，该待标注的数据包括有分词：“今天”、“好热”和“啊”，通过与特征词库中设定的特征词进行比较，确定该待标注的数据的分词中不包含专属特征词，并且也不同时包含设定的名词和通用特征词，也不同时包含设定的动词和通用特征词，则将“今天好热啊”的待标注的数据输入到预设的语义相似模型中，输出的匹配分值是0.6，该匹配分值小于0.9，则说明该数据为干扰数据。

若获取的待标注的数据为“今天是几号”，对该待标注的数据进行分词后可知，该待标注的数据包括有分词：“今天”、“是”，“几号”，确定该待标注的数据中不包含专属特征词，并且也不同时包含设定的名词和通用特征词，也不同时包含设定的动词和通用特征词，将“今天是几号”的待标注的数据输入到预设的语义相似模型中，输出的匹配分值是0.93，该匹配分值大于0.9，则说明该待标注的数据为正常的与机器人进行交互的数据，为有效数据。

为了准确的对数据进行筛选，在本发明实施例中还可以采用上述方式进行判断，进一步提高了后续人工标注的数据的效率，防止有效数据被误删。

实施例4：

为了进一步的提高数据处理效率，在上述各实施例的基础上，在本发明实施例中，所述对所述数据进行分词处理，划分为多个分词之前，所述方法还包括：对待标注的数据进行初步过滤。具体包括以下至少一种处理方式：

方式1、若采集所述数据时未采集到人脸信息或采集到的人脸信息不满足设定条件，过滤所述数据。

具体的对采集到的数据进行过滤，是为了过滤掉明显为干扰数据的数据。

一般的机器人都配置有摄像头，在用户与机器人进行数据交互的过程中，机器人可以对周围环境进行图像采集，检测周围环境中是否有交互对象存在，以进行人脸跟踪，从而使机器人的屏幕一直是面对跟踪到的人脸的。而如果机器人采集到数据时无法获取到人脸信息，则说明采集的数据不是与机器人进行交互的数据，也就是说该数据为干扰数据。

另外在机器人的摄像头采集到人脸信息时，也有可能采集的是非使用者(即并非当前正在与机器人进行交互的用户)的人脸信息，但是对于这样的人脸信息往往是无唇动信息的，或者人脸角度信息是不满足预设要求的(由于用户与机器人进行交互时，一般人脸会朝向机器人，因此可以通过人脸角度来判断用户是否在与机器人交互)，所以根据采集到的人脸信息中是否能提取到唇动信息，或者人脸角度信息是否满足预设的要求，作为采集到的人脸信息是否满足设定条件进行判定，如果不是与机器人进行交互的过程中采集到的数据，机器人采集到数据时获取的人脸信息是无法提取到唇动信息的，人脸角度信息也是不满足预设要求的，此时说明采集到的人脸数据不满足设定条件，从而确定该数据为干扰数据，可以将该数据滤除。

因此在对数据进行过滤时，可以根据采集到该数据时是否采集到人脸信息或采集到的人脸信息是否满足设定条件，对是否过滤数据进行判断，如果采集到数据时未采集到人脸信息或采集到的人脸信息不满足设定条件，说明该数据并非与机器人进行交互的数据，此时可以将该数据滤除。

如果进行数据处理的电子设备为机器人，因为机器人在进行数据采集时，可以判断是否采集到人脸信息或采集到的人脸信息是否满足设定条件，因此机器人可以根据判断结果，确定是否对该数据进行过滤。

如果进行数据处理的电子设备为服务器，为了使服务器能够对数据进行过滤，机器人在向服务器发送采集到的数据时，还会向服务器发送其采集到人脸信息的信息，从而使服务器能够根据机器人发送的信息进行判断，从而确定是否对该待标注的数据进行过滤。

另外，因为机器人一般在一定的时间长度内采集到一条数据，例如2s、3s等，这是因为一条语音信息是占有一定的时间长度。而机器人在进行人脸检测时，是周期性进行的，例如每20ms进行一次人脸检测并输出检测结果，一般情况下采集数据的时间长度要大于人脸检测的周期，因此一个数据可能对应了多个人脸检测周期，在判断采集到该数据时是否采集到人脸信息时，根据该数据对应的每个人脸检测结果，如果检测到人脸的次数大于未检测到人脸的次数，则确定为采集到数据时采集到了人脸信息，反之，则确定为采集到数据时未采集到人脸信息。或者，若该数据对应的任一次人脸检测结果检测到了人脸，则确定为采集到数据时采集到了人脸信息，反之，若该数据对应的任一次人脸检测结果均未检测到了人脸，则确定为采集到数据时未采集到人脸信息。

或者，在确定采集到数据时是否采集到人脸信息时，可以根据采集数据的时间长度设定阈值，如果检测到人脸的次数大于该设定的次数阈值，则确定为采集到数据时采集到了人脸信息，反之，则确定为采集到数据时未采集到人脸信息。或者，若检测到人脸的次数与该采集数据的时间长度内总的检测次数的比值大于设定的比例阈值，则确定为采集到数据时采集到了人脸信息，该比例阈值例如可以为大于0.5的数值等。

另外，因为在采集一个数据时，可能会采集到了多张机器人周围环境的图像，可以在每张图像中识别人脸角度信息，判断该人脸角度信息是否位于预设的角度范围内，根据人脸角度信息位于预设的角度范围内的图像数量与总图像数量的比值，或者连续出现的人脸角度信息位于预设的角度范围内的图像数量，也可以确定采集到数据时采集到的人脸信息是否满足预设条件。

同样的，因为在采集一个数据时，可能会采集到了多张图像，可以识别该多张图像中是否存在唇动信息，如果存在唇动信息，则确定采集到数据时采集到人脸信息满足预设条件。针对一定的时间长度内采集到的多张图像进行唇动信息识别的过程属于现有技术，在本发明实施例中对该过程不进行赘述。

方式2、若所述数据包含的字符数量不在预设的数量范围内，则过滤所述数据。

一般在用户与机器人进行数据交互的过程中，向机器人输入的进行问询的数据的长度一般在一定的范围内，若数据的长度很短，则该数据是干扰数据的概率比较大。因此根据对大量的与机器人进行正常交互的数据统计，设置正常交互的数据对应的长度范围，即该待标注的数据包含的字符的数量范围。通过判断待标注的数据包含的字符数量是否在该数量范围内，确定是否对待标注的数据进行过滤。如果该待标注的数据的字符数量不在预设的数量范围内，说明该数据并非是与机器人进行交互的信息，此时可以将该数据过滤。

当对数据进行过滤时，如果该数据满足任一过滤条件，例如采集该数据时未采集到人脸信息或采集到的人脸信息不满足设定条件，又或是该待标注的数据中包含的字符数量不在预设的数量范围内，则将该数据过滤，而每条数据都要经过每条过滤条件的过滤，对不满足所有过滤条件的数据进行后续处理。

本发明实施例中不对上述过滤条件的执行顺序进行限定，可以根据应用场景的需要，配置不同过滤条件的执行顺序，以实现对数据的初步过滤。

通过上述实施方式对数据过滤，能够初步过滤出干扰数据，从而有效的减少了进行后续分析的数据的数量，从而提高了数据处理效率。

实施例5：

为了提高用户体验，在上述各实施例的基础上，在本发明实施例中，所述确定所述数据为有效数据之后，所述方法还包括：

确定所述数据对应的临时兜底回复信息；

控制机器人输出所述临时兜底回复信息。

通过上述各实施例的分析和过滤，可以筛选出有效数据，有效数据也就是后续发送给工作人员进行标注的数据。因为这样的数据一般是机器人无法提供回复信息的数据，或者是未能被成功进行语义解析的数据，而本发明实施例提供的数据处理方法是实时在线进行的，此时提出该问题的用户可能还未得到任何的回复，因此为了提高用户体验，在本发明实施例中当确定该数据为有效数据之后，需要为用户提供相应的回复信息。

临时兜底回复信息是指预设的回复信息。而临时兜底回复信息的内容可以是类似于“我已经通知管理员教我啦”，“我后续会学习的”等。

为了使机器人提供的临时兜底回复信息更加的多样化，在本发明实施例中保存有多个兜底回复信息，当存在多个兜底回复信息时，所述确定保留的所述数据对应的临时兜底回复信息包括：

例如，如果根据预设的兜底回复信息的回复顺序以及当前标记的上一次输出的兜底回复信息的位置确定临时兜底回复信息时，当前预设的兜底回复信息顺序为“这个我会继续学习的”，“这个管理员会教我的”，“我已经通知管理员教我啦”，“我会完善该信息的”，当前标记的上一次输出的兜底回复为“这个管理员会教我的”，则该数据对应的临时兜底回复信息为“我已经通知管理员教我啦”。

如果进行数据处理的电子设备是机器人，并且兜底回复信息保存在机器人中，机器人确定了临时兜底回复信息后直接输出，从而提高用户的体验。如果进行数据处理的电子设备是机器人，并且兜底回复信息保存在服务器中，则机器人在确定需要进行临时兜底回复时，向服务器发送请求，以请求临时兜底回复信息，并在接收到服务器返回的临时兜底回复信息后直接输出。

如果进行数据处理的电子设备为服务器，并且兜底回复信息保存在服务器中，因为进行回复信息提供的是机器人，因此当服务器从本地保存的预设的兜底回复信息中确定临时兜底回复信息后，将确定的临时兜底回复信息发送给机器人，机器人接收到临时兜底回复信息后输出。如果进行数据处理的电子设备为服务器，并且兜底回复信息保存在机器人中，则服务器可以向机器人发送指令以指示机器人输出临时兜底回复信息，机器人在接收到指令后，选择临时兜底回复信息并输出。

图2为本发明实施例提供的具体的数据处理方法实施流程示意图，该方法包括用户交互、数据清洗、数据分析、临时兜底以及问题解决五个部分。其中：

第一部分用户交互包括如下过程：

S201：机器人采集到数据，机器人将该数据发送给服务器，并且将采集该数据时，采集到人脸信息的信息发送给服务器。

S202：服务器对该数据进行处理，以确定是否能够成功对该数据进行语义解析并基于语义解析结果匹配到回复信息。具体的：

若该数据未文本信息，则服务器直接对其进行语义解析处理，若能够成功对该数据进行语义解析，则进一步基于语义解析结果匹配对应的回复信息；若能够匹配到回复信息，则执行S203，若匹配不到回复信息，则执行S204。若对该数据的语义解析失败，则执行S204。

若该数据为语音信息时，需要先将该语音信息进行语音识别处理(ASR)，转换为对应的文本信息，在对该文本信息进行语义解析处理，若能够成功对该文本信息进行语义解析，则进一步基于语义解析结果匹配对应的回复信息；若能够匹配到回复信息，则执行S203，若匹配不到回复信息，则执行S204。若对该文本信息的语义解析失败，则执行S204。

S203：服务器控制机器人输出匹配到的回复信息。

第二部分数据清洗包括如下过程：

S204：服务器将该数据作为待标注的数据，服务器判断采集到该待标注的数据时是否采集到人脸数据或采集到的人脸信息是否满足设定条件，若是，则执行S205，否则，执行S213。

S205：判断该待标注的数据字符数是否在预设的数量范围内，若是，则执行S206，否则，执行S213。

第三部分数据分析包括如下过程：

S206：将该待标注的数据进行分词处理，执行S207。

S207：判断待标注的数据的分词中是否包含有设定的专属特征词，若包含，则执行S211，否则，执行S208。

在判断待标注的数据的分词中是否包含有设定的专属特征词之前，首先判断该待标注的数据的长度是否小于预设的第一长度阈值，例如判断该待标注的数据的长度是否小于5，如果是，再判断待标注的数据的分词中是否包含有设定的专属特征词，否则，即待标注的数据的长度不小于预设的第一长度阈值，则执行S208。

S208：判断待标注的数据的分词中是否同时包含设定的名词和通用特征词，若包含，则执行S211，否则，执行S209。

S209：判断待标注的数据的分词中是否同时包含设定的动词和通用特征词，若包含，则执行S211，否则，执行S210。

上述S208和S209的执行顺序不限，可以先执行S208，再执行S209，或者也可以先执行S209，再执行S208。但无论哪种执行顺序，在执行顺序中的第一个步骤之前，例如上述执行顺序，在执行S208之前，首先判断待标注的数据的长度是否在预设的第一长度范围内，例如判断该待标注的数据的长度是否不小于3，且不大于15，如果是，则进行后续的S208。若该待标注的数据的长度不在预设的第一长度范围内，则执行S210。

S210：将数据输入到预设的语义相似模型中，获取语义相似模型输出的匹配分值，判断匹配分值是否大于预设的阈值，若是，则执行S211，否则，执行S213。

S211：确定该待标注的数据为有效数据并保留该数据，然后执行S212。

第四部分临时兜底包括如下过程：

S212：确定该数据对应的一条临时兜底回复信息并控制机器人输出该临时兜底回复信息。

S213：过滤掉该数据。

第五部分问题解决包括如下过程(图中未示出)：

在完成数据的清洗和分析后，过滤掉了大量的干扰数据，保留了有效数据，进一步，可以将该数据分配给工作人员进行标注处理。可以根据工作人员的任务量对该数据进行分配，当确定了对该数据进行处理的工作人员后，可以将该数据通过短信的方式发送给工作人员，或者发送到工作人员的邮箱。在进行短信发送时，可以按照设定的时间间隔进行发送，例如每个小时发送一次，具体的，可以针对每个数据，每小时发送一次该数据，或者也可以发送周期为一个小时，将一个小时内确定为有效数据的并分配给该工作人员的数据，在发送时间到来时进行发送。

工作人员在接收到的短信或邮件后，可以对服务器中保存的有效数据进行标注。具体的，工作人员根据自身的识别结果对该数据进行标注，如果工作人员识别该数据为干扰数据，则可以不进行回复信息的添加，但如果工作人员也识别该数据为有效数据，则可以添加该数据对应的回复信息。为了方便后续进行跟踪，工作人员可以针对自身识别的每条数据，添加已标注的信息及自身的标识信息，该标识信息可以是工号，或者姓名等。

下面以进行数据处理的电子设备为机器人，对本发明实施例提供的一种数据处理方法进行详细说明。

假设匹配分值用余弦值进行表示，预设的阈值为0.9，预设的数量范围为大于等于4小于等于15。

当前机器人采集到数据为“今天的天气怎么样”，若机器人针对该数据未能成功进行语义解析，或基于语义解析结果未匹配到回复信息，机器人将该数据作为待标注的数据进行过滤操作，因为机器人采集该待标注的数据时，将会获取到人脸信息的信息，所以机器人可以根据该信息对该待标注的数据进行过滤，如果该信息标识采集到人脸信息，则判断该人脸信息是否满足设定条件，若满足，则保留该待标注的数据，并对该待标注的数据进行后续的过滤分析，否则，过滤该待标注的数据。

之后，机器人继续判断该待标注的数据中包含的字符数量，是否在预设的数量范围内，因为当前该待标注的数据包含的字符数量为8，该字符数量在预设的数量范围内，则保留该待标注的数据进行后续的处理条件判断。

将上述获取的待标注的数据“今天天气怎么样”进行分词后，分别得到分词：“今天”、“天气”、“怎么样”，根据与特征词库中设定的特征词进行比对，确定“天气”为设定的名词，“怎么样”为通用特征词，因为该待标注的数据中同时包含设定的名词和通用特征词，因此该待标注的数据确定为有效数据，将该待标注的数据发送给服务器，以便后续工作人员进行标注。

并且机器人本地保存有兜底回复信息，机器人确定该待标注的数据对应的临时兜底回复信息并输出。

实施例6：

图3为本发明实施例提供的一种数据处理装置的结构示意图，本发明实施例提供了一种数据处理装置，包括：

接收模块301，用于获取待标注的数据；

分词模块302，用于对所述数据进行分词处理，划分为多个分词；

处理模块303，用于若所述数据的分词中包含有设定的特征词，确定所述数据为有效数据。

其中，所述处理模块303，具体用于若所述数据的分词中包含专属特征词，确定所述数据为有效数据；或者，若所述数据的分词中同时包含设定的名词和通用特征词，确定所述数据为有效数据；或者，若所述数据的分词中同时包含设定的动词和通用特征词，确定所述数据为有效数据。

所述处理模块303，还用于若所述数据的分词中不包含设定的特征词，将所述数据输入到预设的语义相似模型中，根据所述语义相似模型的输出结果，确定所述数据的语义与对所述语音相似模型进行训练时，采用的人机交互的语句的语义的匹配分值，若所述匹配分值大于设定的阈值，则确定所述数据为有效数据。

进一步地，所述装置还包括：

过滤模块304，用于若采集所述数据时未采集到人脸信息或采集到的人脸信息不满足设定条件，过滤所述数据；或者，若所述数据包含的字符数量不在预设的数量范围内，则过滤所述数据。

此外，所述处理模块303，还用于确定所述数据对应的临时兜底回复信息；控制机器人输出所述临时兜底回复信息。

优选的，所述处理模块303，还用于在预设的多个兜底回复信息中，将任意一个兜底回复信息确定为所述临时兜底回复信息；或者，根据预设的兜底回复信息的回复顺序，确定所述临时兜底回复信息。

实施例7：

如图4为本发明实施例还提供一种电子设备结构示意图，在上述各实施例的基础上，本发明实施例中还提供了一种电子设备，包括处理器41和存储器42；

处理器41用于执行存储器42中存储的计算机程序时实现上述数据处理方法的步骤。

可选的，处理器41可以是CPU(中央处埋器)、ASIC(Application SpecificIntegrated Circuit，专用集成电路)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)或CPLD(Complex Programmable Logic Device，复杂可编程逻辑器件)。

处理器41，用于按照存储器42中存储的计算机程序时执行如下步骤：

获取待标注的数据；

对所述数据进行分词处理，划分为多个分词；

其中，所述特征词包括专属特征词和通用特征词，所述处理器41在确定所述数据为有效数据时，具体执行如下步骤：若所述数据的分词中包含有设定的所述专属特征词，确定所述数据为有效数据；或者

基于上述任一实施例，若所述数据的分词中不包含设定的特征词，所述处理器41还执行如下步骤：将所述数据输入到预设的语义相似模型中，根据所述语义相似模型的输出结果，确定所述数据的语义与对所述语音相似模型进行训练时，采用的人机交互的语句的语义的匹配分值，若所述匹配分值大于设定的阈值，则确定所述数据为有效数据。

基于上述任一实施例，所述处理器41，还执行如下步骤：

对所述数据进行分词处理，划分为多个分词之前，若采集所述数据时未采集到人脸信息或采集到的人脸信息不满足设定条件，过滤所述数据；或者

基于上述任一实施例，确定所述数据为有效数据之后，所述处理器41执行如下步骤：确定所述数据对应的临时兜底回复信息；控制机器人输出所述临时兜底回复信息。

基于上述任一实施例，所述处理器41确定所述数据对应的临时兜底回复信息时，具体执行如下步骤：

在预设的多个兜底回复信息中，将任意一个兜底回复信息确定为所述临时兜底回复信息；或者，根据预设的兜底回复信息的回复顺序，确定所述临时兜底回复信息。

基于上述任一实施例，所述待标注的数据为未能被成功进行语义解析的数据，或基于语义解析结果未匹配到回复信息的数据。

实施例8：

在上述各实施例的基础上，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有可由处理器执行的计算机程序，当所述程序在所述处理器上运行时，使得所述处理器执行时实现如下步骤：

获取待标注的数据；

对所述数据进行分词处理，划分为多个分词；

其中，所述特征词包括专属特征词和通用特征词，所述若所述数据的分词中包含有设定的特征词，确定所述数据为有效数据，包括：

基于上述任一实施例，若所述数据的分词中不包含设定的特征词，所述方法还包括：

将所述数据输入到预设的语义相似模型中，根据所述语义相似模型的输出结果，确定所述数据的语义与对所述语音相似模型进行训练时，采用的人机交互的语句的语义的匹配分值，若所述匹配分值大于设定的阈值，则确定所述数据为有效数据。

基于上述任一实施例所述对所述数据进行分词处理，划分为多个分词之前，所述方法还包括：

基于上述任一实施例，所述确定所述数据为有效数据之后，所述方法还包括：

确定所述数据对应的临时兜底回复信息；

控制机器人输出所述临时兜底回复信息。

具体的，所述确定所述数据对应的临时兜底回复信息包括：

实施例9：

图5为本发明实施例提供的一种数据处理系统结构示意图，本发明实施例的数据处理系统包括：实现上述数据处理方法中任一项应用于服务器52的电子设备，以及向所述服务器发送待标注的数据机器人51。

服务器52，用于获取待标注的数据；

对所述数据进行分词处理，划分为多个分词；

其中，所述特征词包括专属特征词和通用特征词，在确定所述数据为有效数据时，所述服务器52用于若所述数据的分词中包含有设定的所述专属特征词，确定所述数据为有效数据；或者

基于上述任一实施例，所述服务器52，还用于若所述数据的分词中不包含设定的特征词，将所述数据输入到预设的语义相似模型中，根据所述语义相似模型的输出结果，确定所述数据的语义与对所述语音相似模型进行训练时，采用的人机交互的语句的语义的匹配分值，若所述匹配分值大于设定的阈值，则确定所述数据为有效数据。

基于上述任一实施例，所述服务器52，还用于对所述数据进行分词处理，划分为多个分词之前，若采集所述数据时未采集到人脸信息或采集到的人脸信息不满足设定条件，过滤所述数据；或者，若所述数据包含的字符数量不在预设的数量范围内，则过滤所述数据。

基于上述任一实施例，所述服务器52，用于确定所述数据为有效数据之后，确定所述数据对应的临时兜底回复信息；控制机器人输出所述临时兜底回复信息。

基于上述任一实施例，所述服务器52，具体用于在预设的多个兜底回复信息中，将任意一个兜底回复信息确定为所述临时兜底回复信息；或者，根据预设的兜底回复信息的回复顺序，确定所述临时兜底回复信息。

上述计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器如软盘、硬盘、磁带、磁光盘(MO)等、光学存储器如CD、DVD、BD、HVD等、以及半导体存储器如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD)等。

对于系统/装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者一个操作与另一个实体或者另一个操作区分开来，而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全应用实施例、或结合应用和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取待标注的数据；

对所述数据进行分词处理，划分为多个分词；

若所述数据的分词中包含有任一设定的特征词，确定所述数据为有效数据；

若所述数据的分词中不包含任意设定的特征词，将所述数据输入到预设的语义相似模型中，根据所述语义相似模型的输出结果，确定所述数据的语义与对所述语义相似模型进行训练时，采用的人机交互的语句的语义的匹配分值，若所述匹配分值大于设定的阈值，则确定所述数据为有效数据。

2.根据权利要求1所述的方法，其特征在于，所述特征词包括专属特征词和通用特征词，所述若所述数据的分词中包含有设定的特征词，确定所述数据为有效数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述数据进行分词处理，划分为多个分词之前，所述方法还包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述确定所述数据为有效数据之后，所述方法还包括：

确定所述数据对应的临时兜底回复信息；

控制机器人输出所述临时兜底回复信息。

5.根据权利要求4所述的方法，其特征在于，所述确定所述数据对应的临时兜底回复信息包括：

6.根据权利要求1所述的方法，其特征在于，所述待标注的数据为未能被成功进行语义解析的数据，或基于语义解析结果未匹配到回复信息的数据。

7.一种数据处理装置，其特征在于，所述装置包括：

接收模块，用于获取待标注的数据；

处理模块，用于若所述数据的分词中包含有任一设定的特征词，确定所述数据为有效数据；若所述数据的分词中不包含任意设定的特征词，将所述数据输入到预设的语义相似模型中，根据所述语义相似模型的输出结果，确定所述数据的语义与对所述语义相似模型进行训练时，采用的人机交互的语句的语义的匹配分值，若所述匹配分值大于设定的阈值，则确定所述数据为有效数据。

8.一种电子设备，其特征在于，所述电子设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-6中任一所述方法的步骤。

9.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-6中任一所述方法的步骤。