CN110532345A

CN110532345A - 一种未标注数据的处理方法、装置及存储介质

Info

Publication number: CN110532345A
Application number: CN201910637827.6A
Authority: CN
Inventors: 潘晓彤; 刘作鹏
Original assignee: Beijing Xiaomi Intelligent Technology Co Ltd
Current assignee: Beijing Xiaomi Intelligent Technology Co Ltd
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2019-12-03
Also published as: US11334723B2; EP3767488A1; US20210019372A1

Abstract

本发明公开了一种未标注数据的处理方法。该方法包括：将未标注数据的语义向量分别与每个已标注数据的语义向量作相似度比较，得到与所述每个已标注数据对应的相似度；根据预设选择规则，选择预设数量的所述相似度；采用已标注数据训练得到的标注模型，对未标注数据进行预测，得到所述未标注数据的预测结果；根据所述预设数量的所述相似度和所述预测结果，将所述未标注数据分为能被设备标注的未标注数据或不能被设备标注的未标注数据。本发明还公开了一种未标注数据的处理装置、存储介质。

Description

一种未标注数据的处理方法、装置及存储介质

技术领域

本发明涉及计算机应用技术，尤其涉及一种未标注数据的处理方法、装置及存储介质。

背景技术

在问答系统场景中，需要建立用户询问(query)和知识点之间关系，利用用户query和知识点之间的关系训练语义相似度模型，基于语义相似度模型的方法可以提升问答效果。基于语义相似度模型需要形如“<用户query>\t<知识点>”的标注数据，即需要人工资源用户query进行标注，建立用户query和知识点之间的关系。标注数据用于训练有监督模型，而这些标注数据的积累需要消耗大量人工资源。相关技术区分能被设备标注的未标注数据或不能被设备标注的未标注数据的精确程度较低。

发明内容

为克服相关技术中存在的问题，本发明提供一种未标注数据的处理方法、装置及存储介质。

根据本发明实施例的第一方面，提供一种未标注数据的处理方法，包括

将未标注数据的语义向量分别与每个已标注数据的语义向量作相似度比较，得到与所述每个已标注数据对应的相似度；

根据预设选择规则，选择预设数量的所述相似度；

采用已标注数据训练得到的标注模型，对未标注数据进行预测，得到所述未标注数据的预测结果；

根据所述预设数量的所述相似度和所述预测结果，将所述未标注数据分为能被设备标注的未标注数据或不能被设备标注的未标注数据。

在一个实施例中，所述根据预设选择规则，选择预设数量的所述相似度，包括；

按相似度从高到低，从所述得到与所述每个已标注数据对应的相似度中取预设数量的所述相似度。

在一个实施例中，所述根据所述预设数量的所述相似度和所述预测结果，将所述未标注数据分为能被设备标注的未标注数据或不能被设备标注的未标注数据，包括：

当所述预设数量的所述相似度的统计值到达预设相似度阈值，

和，

当所述预设数量的相似度中所有相似度分别对应的已标注数据的标注结果，与所述预测结果相同的总数到达预设相同数量阈值时，将所述未标注数据确定为能被设备标注的未标注数据；

否则，将所述未标注数据确定为不能被设备标注的未标注数据。

在一个实施例中，当所述未标注数据确定为能被设备标注的未标注数据时，所述方法还包括：

采用所述预设数量的所述相似度中的最高相似度对应的已标注数据的标注结果，标注所述未标注数据，

或，

确定所述预设数量的相似度分别对应的第一已标注数据的第一标注结果；

确定与所述预测结果相同的所述第一标注结果的总数量；

所述总数量到达预设相同数量阈值时，采用预测结果标注所述未标注数据。

在一个实施例中，所述预设数量的所述相似度的统计值，包括：

所述预设数量的所述相似度中的最高相似度、和/或、所述预设数量的所述相似度的平均相似度。

在一个实施例中，所述将未标注数据的语义向量分别与每个已标注数据的语义向量作相似度比较，包括：

将所述未标注数据的词向量平均值分别与每个所述已标注数据的词向量平均值作对比，

或，

将所述未标注数据的长短期记忆网络LSTM预测结果分别与每个所述已标注数据的LSTM预测结果作对比。

在一个实施例中，所述得到与所述每个已标注数据对应的相似度，包括：

得到与所述每个已标注数据对应的余弦相似度，

或，

得到与所述每个已标注数据对应的欧几里得相似度。

根据本发明实施例的第二方面，提供一种未标注数据的处理装置，所述装置包括：比较模块、选择模块、预测模块和确定模块；其中，

所述比较模块，用于将未标注数据的语义向量分别与每个已标注数据的语义向量作相似度比较，得到与所述每个已标注数据对应的相似度；

所述选择模块，用于根据预设选择规则，选择预设数量的所述相似度；

所述预测模块，用于采用已标注数据训练得到的标注模型，对未标注数据进行预测，得到所述未标注数据的预测结果；

所述确定模块，用于根据所述预设数量的所述相似度和所述预测结果，将所述未标注数据分为能被设备标注的未标注数据或不能被设备标注的未标注数据。

在一个实施例中，所述选择模块包括：

预测子模块，用于按相似度从高到低，从所述得到与所述每个已标注数据对应的相似度中取预设数量的所述相似度。

在一个实施例中，确定模块，包括：

确定子模块，用于当所述预设数量的所述相似度的统计值到达预设相似度阈值，

和，

当所述预设数量的相似度中所有相似度分别对应的已标注数据的标注结果，与所述预测结果相同的总数到达预设相同数量阈值时，

将所述未标注数据确定为能被设备标注的未标注数据，否则，将所述未标注数据确定为不能被设备标注的未标注数据。

在一个实施例中，所述装置还包括：

标注模块，用于当所述未标注数据确定为能被设备标注的未标注数据时，

或，

确定与所述预测结果相同的所述第一标注结果的总数量；

在一个实施例中，所述比较模块，包括：

比较子模块，或用于将所述未标注数据的词向量平均值分别与每个所述已标注数据的词向量平均值作对比，

或，

在一个实施例中，所述与所述每个已标注数据对应的相似度，包括：

与所述每个已标注数据对应的余弦相似度，

或，

与所述每个已标注数据对应的欧几里得相似度。

根据本发明实施例的第三方面，提供一种未标注数据的处理装置，包括处理器、存储器及存储在存储器上并能够有所述处理器运行的可执行程序，所述处理器运行所述可执行程序时执行如第一方面所述未标注数据的处理方法的步骤。

根据本发明实施例的第四方面，提供一种存储介质，其上存储由可执行程序，其特征在于，所述可执行程序被处理器执行时实现如第一方面所述未标注数据的处理方法的步骤。本发明实施例公开公开了一种未标注数据的处理方法、装置及存储介质；将未标注数据的语义向量分别与每个已标注数据的语义向量作相似度比较，得到与所述每个已标注数据对应的相似度；根据预设选择规则，选择预设数量的所述相似度；采用已标注数据训练得到的标注模型，对未标注数据进行预测，得到所述未标注数据的预测结果；根据所述预设数量的所述相似度和所述预测结果，将所述未标注数据分为能被设备标注的未标注数据或不能被设备标注的未标注数据。在已标注数据与未标数据之间建立直接联系，即相似度，并结合预测结果区分未标注数据是否能被设备标注，提高了区分准确度，进而可以减少因为不能标注的数据被设备标注的导致的标注错误。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种未标注数据的处理方法的流程图；

图2是根据一示例性实施例示出的一种未标注数据的处理方法详细步骤框图；

图3是根据一示例性实施例示出的一种未标注数据的处理装置的框图；

图4是根据一示例性实施例示出的另一种未标注数据的处理装置的框图；

图5是根据一示例性实施例示出的又一种未标注数据的处理装置的框图；

图6是根据一示例性实施例示出的再一种未标注数据的处理装置的框图；

图7是根据一示例性实施例示出的再一种未标注数据的处理装置的框图；

图8是根据一示例性实施例示出的另一种未标注数据的处理装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明实施例的一些方面相一致的装置和方法的例子。

在本发明实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明实施例。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

图1是根据一示例性实施例示出的一种未标注数据的处理方法的流程图，如图1所示，该方法包括以下具体步骤：

步骤101：将未标注数据的语义向量分别与每个已标注数据的语义向量作相似度比较，得到与所述每个已标注数据对应的相似度；

步骤102：根据预设选择规则，选择预设数量的所述相似度；

步骤103：采用已标注数据训练得到的标注模型，对未标注数据进行预测，得到所述未标注数据的预测结果；

步骤104：根据所述预设数量的所述相似度和所述预测结果，将所述未标注数据分为能被设备标注的未标注数据或不能被设备标注的未标注数据。

这里，已标注数据可以是在智能语音对话或文字对话等场景中已经标注知识点的语句等；未标注数据可以是在智能语音对话或文字对话等场景中未标注知识点的语句等；如在问答系统场景，已标注数据可以是已标注的用户query，未标注数据可以是未标注的用户query，标注结果可以是用户query对应的知识点。

可以将未标注数据的语义向量与多个现有的已标注数据的语义向量作相似度比较，得到与已标注数据对应的多个相似度。

预设选择规则可以根据相似度的高低确定，从上述多个相似度中，筛选出预设数量的所述相似度在后续处理中可以提高处理效率。

可以采用已标注数据训练的有监督学习模型，来预测未标注数据的预测结果。

结合所述预设数量的相似度和预测结果作为衡量参考，用来衡量采用已标注数据的标注结果来标注未标注数据的可行性，从而提高区分能被设备标注的未标注数据或不能被设备标注的未标注数据的精确程度。

已标注数据和未标注数据在计算语义向量前，还可以进行去重处理，以精简数据量，提高数据处理速度和效率。

这里，按相似度从高到低选择相似度，可以筛选出与未标注数据相关度更高的已标注数据，可以为区分能被设备标注的未标注数据或不能被设备标注的未标注数据提供更精确的参考数据。

当所述预设数量的所述相似度的统计值到达预设相似度阈值，和，当所述预设数量的相似度中所有相似度分别对应的已标注数据的标注结果，与所述预测结果相同的总数到达预设相同数量阈值时，将所述未标注数据确定为能被设备标注的未标注数据，否则，将所述未标注数据确定为不能被设备标注的未标注数据。

预设数量的所述相似度中的每一个相似度对应于一个已标注数据的标注结果，可以将相似度作为对应标注结果的置信度。

统计值可以是预设数量的所述相似度的最大值、最小值、算术平均值等。通过所述预设数量的所述相似度的统计值与预设相似度阈值比较，可以判断预设数量的所述相似度对应的每个标注结果的整体置信度或最高置信度等。

可以首先比较所述统计值与预设相似度阈值，确定预设数量的所述相似度对应的标注结果的整体置信度或最高置信度等。

再比较所述预设数量的相似度中所有相似度分别对应的标注结果，与所述预测结果，可以得到所有相似度分别对应的标注结果与预测结果相同的数量，如对比10个相似度对应的标注结果与预测结果进行比较，得到5个与预测结果相同的标注结果。

根据两次比较，可以判断出采用设备标注的未标注数据的可靠程度。

如果统计值到达预设相似度阈值，且与所述预测结果相同的总数到达预设相同数量阈值，则认为采用设备标注的未标注数据的可靠程度较高，可以采用设备标注改未标注数据。

如果统计值没有到达预设相似度阈值，和/或与所述预测结果相同的总数没有到达预设相同数量阈值，则认为采用设备标注的未标注数据的可靠程度不高，不能采用设备标注改未标注数据，需要由人工进行标注。

结合相似度和标注结果与预测结果相同的数量，可以确定已标注数据和未标注数据的关联程度，并且通过多个标注结果的置信度来判断未标注数据标注的置信度，从而提高区分未标注数据标注的精确程度。

例如，预设数量的所述相似度有10个为例，以相似度平均值作为统计值，预设相似度阈值为0.9。预设相同数量阈值为5。

如果预设数量的所述相似度平均值为0.95，即大于预设相似度阈值，并且10个所述相似度对应的标注结果有6个和预测结果相同，即大于预设相同数量阈值，则认为未标注数据是能被设备保障的未标注数据。

如果预设数量的所述相似度平均值为0.89，即小于预设相似度阈值，或者，10个所述相似度对应的标注结果有4个和预测结果相同，即小于预设相同数量阈值，则认为未标注数据是不能被设备保障的未标注数据。

实际应用中，根据相似度确定对应的标注数据可以采用建立索引的方式。首先利用有监督信息，即已标注数据，在对话系统中，整理出形如“<用户query>\t<知识点>”数据，去重后结合无监督方法计算用户query向量。这里的用户query即为已标注数据，知识点即为已标注数据的标注结果。采用与用户query对应的询问用户标识索引(query id index)分别与用户query的语义向量和对应知识点信息建立两个索引，第一类索引为标注结果索引，其键值为query id index，索引值为用户query对应的标注结果；第二类索引为语义索引，其键值为query id index，索引值为该用户query的语义向量；如此得到标注结果索引库和语义索引库。

在未标注数据中，同样采用用无监督方法计算未标注数据的用户query向量，对每个未标注数据的用户query向量，到上述语义索引库中查询，得到相似度最高的K个相似用户query id index，再利用相似度最高的K个相似用户query id到标注结果索引中查询对应的标注结果，每个标注结果对应一个相似度，得到相似度最高的K个标注结果。其中，所述K即为所述预设数量，可以根据已标注数据样本总数等实际情况确定，取3～20等，如3、5、10。

最后根据K个标注结果以及对应的置信度，即对应的相似度，判断是否采用设备标注该未标注数据或者采用人工标注该未标注数据，其中置信度判断阈值是可根据实际情况配置。

在一个实施例中，当所述未标注数据确定为能被设备标注的未标注数据时，所述方法还包括：采用所述预设数量的所述相似度中的最高相似度对应的已标注数据的标注结果，标注所述未标注数据，或，确定所述预设数量的相似度分别对应的第一已标注数据的第一标注结果；确定与所述预测结果相同的所述第一标注结果的总数量；所述总数量到达预设相同数量阈值时，采用预测结果标注所述未标注数据。

这里，可以采用设备标注该未标注数据。可以采用置信度最高的标注结果，即最高相似度对应的标注结果，来标注未标注数据；这样采用置信度最高的标注结果来标注所述未标注数据，可以提高标注准确性。

或者，在所述预设数量的相似度中所有相似度分别对应的已标注数据的标注结果中，选取与预测结果相同的标注结果，如果与预测结果相同的标注结果的总数到达所述预设相同数量阈值，则采用与预测结果相同的标注结果标注所述未标注数据；采用概率较大的标注结果来标注所述未标注数据，同样可以提高标注准确性。

这里，可以通过所述相似度的统计值从多个方面确定已标注数据的语义向量和未标注数据的语义向量之间的相似程度。如：通过最高相似度确定与未标注数据语义最接近的已标注数据；通过平均相似度可以确定所述预设数量的相似度对应的已标注数据与未标注数据的整体语义近似程度，从而为选择标注结果标准未标注数据做衡量标准。

与最高相似度对比的预设相似度阈值可以是0.95，与平均相似度对比的预设相似度阈值可以是0.90。

在一个实施例中，所述将未标注数据的语义向量分别与每个已标注数据的语义向量作相似度比较，包括：将所述未标注数据的词向量平均值分别与每个所述已标注数据的词向量平均值作对比，或，将所述未标注数据的长短期记忆网络LSTM预测结果分别与每个所述已标注数据的LSTM预测结果作对比。

对用户query即已标注数据的词向量平均值或未标注数据的词向量平均值的计算，可以首先计算出用户query中每个词的向量表示，假设词典大小为V，词向量维度为d，则第i个词的词向量为然后计算词向量平均值，假设已标注数据或未标注数据中有n个词，则词向量平均为

可以定义LSTM方法中LSTM单元结构，取已标注数据或未标注数据的相应LSTM预设结果，如可以根据用户query中最后一个单词的预测结果，作为语义索引结果。

在一个实施例中，所述得到与所述每个已标注数据对应的相似度，包括：得到与所述每个已标注数据对应的余弦相似度，或，得到与所述每个已标注数据对应的欧几里得相似度。

具体的，在比较未标注数据的语义向量分别与每个已标注数据的语义向量作相似度时，可以采用余弦相似度与欧几里得相似度比较，余弦相似度的计算可以用表达式(1)表示：

欧几里得相似度的计算可以用表达式(2)表示：

表达式(1)或表达式(2)中，v_i和v_j表示进行比较的两个语义向量，d表示词向量维度。

以下结合上述实施例提供一个具体示例：

在已标注数据与未标注数据之间建立直接联系，利用主动学习方法，提升标注效率与准确率，整个流程如图2所示。

采用语义索引建立已标注数据与未标注数据之间的联系，与传统基于tf-idf或BM25等基于词匹配的方法不同，以语义向量作为索引元素，查询过程中能捕获语义相关性。如在索引存储中有“手机坏了怎么办”A，当查询用户query为“手机故障了”时，tf-idf与BM25只能通过“手机”建立查询用户query与索引A的关系，但语义索引可以在“坏了”与“故障”之间建立联系，查询出索引A的信息。

首先利用有监督信息，即已标注数据，在对话系统中，整理出形如“<用户query>\t<知识点>”数据，去重后结合无监督方法计算用户query语义向量，计算用户query语义向量的方法很多，在实验中，可以采用词向量平均与LSTM两种方法。

针对已标注数据，对query id index和对应知识点信息建立两个索引，第一类索引为标注结果索引，其键值为query id index，索引值为用户query对应的标注结果，建立标注结果索引库；第二类索引为语义索引，其键值为query id index，索引值为该用户query语义向量，建立语义索引库。

针对未标注数据中，仍然用无监督方法计算用户query向量，对每个未标注数据的用户query语义向量。

将未标注数据的用户query语义向量到语义索引库中查询，得到相似度最高的前K个(TOP K)相似用户query id；其中，相似度度量方法可以用余弦相似度，欧几里得相似度等方法。

再利用TOP K个相似用户query id到标注结果索引库中查询对应的标注结果，每个标注结果对应一个相似度得分。根据置信度，即相似度判断是否标注该条未标注数据，其中置信度判断标准是可配置的。

在建立语义索引过程中，分别用词向量平均与LSTM方法。词向量方法可以首先计算出用户query中每个词的向量表示，假设词典大小为V，词向量维度为d，则第i个词的词向量为然后计算词向量平均值，假设已标注数据或未标注数据中有n个词，则词向量平均为

LSTM方法中定义了LSTM单元结构，取用户query中最后一个单词的预测结果作为语义索引结果。

具体的，在比较未标注数据的语义向量分别与每个已标注数据的语义向量作相似度时，可以采用余弦相似度与欧几里得相似度比较，余弦相似度的计算可以用表达式(1)表示，欧几里得相似度的计算可以用表达式(2)表示：

筛选出Top K个相似度对应的标注结果后，利用最高相似度与Top K个相似度的平均值来过滤待标注样本，若最高相似度与Top K个相似度的平均值低于某个阈值，则将其加入待人工标注样本集合中。

这里，分别用随机策略、词向量平均+余弦相似度、LSTM+余弦相似度、词向量平均+欧式距离、LSTM+欧式距离五种方法，在两份待标注数据集中筛选出等量未标注样本，通过人工标注，统计区分出的不能用设备标注的未标注数据的人工标注结果，与能用设备标注的未标注数据的设备标注结果的差异，差异越大，说明区分出能用设备标注和不能用设备标注的区分效果越好。假设筛选出的等量待标注样本有N条，标注结果与语义索引检索结果不同有M条，则差异性定义为具体结果如表1所示，从表1中可见，采用本发明实施例方法的差异性均优于随机策略的差异性。

表1

	数据集1	数据集2
			随机策略	0.37	0.42
词向量平均+余弦相似度	0.51	0.49
			LSTM+余弦相似度	0.48	0.47
词向量平均+欧式距离	0.43	0.47
			LSTM+欧式距离	0.48	0.5

图3是根据一示例性实施例示出的一种未标注数据的处理装置100框图。参照图2，该装置包括：比较模块110、选择模块120、预测模块130和确定模块140；其中，

所述比较模块110，用于将未标注数据的语义向量分别与每个已标注数据的语义向量作相似度比较，得到与所述每个已标注数据对应的相似度；

所述选择模块120，用于根据预设选择规则，选择预设数量的所述相似度；

所述预测模块130，用于采用已标注数据训练得到的标注模型，对未标注数据进行预测，得到所述未标注数据的预测结果；

所述确定模块140，用于根据所述预设数量的所述相似度和所述预测结果，将所述未标注数据分为能被设备标注的未标注数据或不能被设备标注的未标注数据。

在一个实施例中，如图4所示，所述选择模块120，包括：

预测子模块121，用于按相似度从高到低，从所述得到与所述每个已标注数据对应的相似度中取预设数量的所述相似度。

在一个实施例中，如图5所示，所述确定模块140，包括：

确定子模块141，用于当所述预设数量的所述相似度的统计值到达预设相似度阈值，

和，

在一个实施例中，如图6所示，所述装置100还包括：

标注模块150，用于当所述未标注数据确定为能被设备标注的未标注数据时，

或，

确定与所述预测结果相同的所述第一标注结果的总数量；

在一个实施例中，如图7所示，所述比较模块110，包括：

比较子模块111，或用于将所述未标注数据的词向量平均值分别与每个所述已标注数据的词向量平均值作对比，

或，

与所述每个已标注数据对应的余弦相似度，

或，

与所述每个已标注数据对应的欧几里得相似度。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种用于未标注数据的处理的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图8，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种未标注数据的处理方法，所述方法包括：

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种未标注数据的处理方法，其特征在于，包括：

根据预设选择规则，选择预设数量的所述相似度；

2.根据权利要求1所述的方法，其特征在于，所述根据预设选择规则，选择预设数量的所述相似度，包括；

3.根据权利要求1所述的方法，其特征在于，所述根据所述预设数量的所述相似度和所述预测结果，将所述未标注数据分为能被设备标注的未标注数据或不能被设备标注的未标注数据，包括：

和，

4.根据权利要求1所述的方法，其特征在于，当所述未标注数据确定为能被设备标注的未标注数据时，所述方法还包括：

或，

确定与所述预测结果相同的所述第一标注结果的总数量；

5.根据权利要求3所述的方法，其特征在于，所述预设数量的所述相似度的统计值，包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述将未标注数据的语义向量分别与每个已标注数据的语义向量作相似度比较，包括：

或，

7.根据权利要求6所述的方法，其特征在于，所述得到与所述每个已标注数据对应的相似度，包括：

得到与所述每个已标注数据对应的余弦相似度，

或，

得到与所述每个已标注数据对应的欧几里得相似度。

8.一种未标注数据的处理装置，其特征在于，所述装置包括：比较模块、选择模块、预测模块和确定模块；其中，

9.根据权利要求8所述的装置，其特征在于，所述选择模块包括：

10.根据权利要求8所述的装置，其特征在于，所述确定模块，包括：

和，

11.根据权利要求8所述的装置，其特征在于，所述装置还包括：

或，

确定与所述预测结果相同的所述第一标注结果的总数量；

12.根据权利要求10所述的装置，其特征在于，所述预设数量的所述相似度的统计值，包括：

13.根据权利要求8至12任一项所述的装置，其特征在于，所述比较模块，包括：

或，

14.根据权利要求13所述的装置，其特征在于，所述与所述每个已标注数据对应的相似度，包括：

与所述每个已标注数据对应的余弦相似度，

或，

与所述每个已标注数据对应的欧几里得相似度。

15.一种未标注数据的处理装置，包括处理器、存储器及存储在存储器上并能够有所述处理器运行的可执行程序，其特征在于，所述处理器运行所述可执行程序时执行如权利要求1至7任一项所述未标注数据的处理方法的步骤。

16.一种存储介质，其上存储由可执行程序，其特征在于，所述可执行程序被处理器执行时实现如权利要求1至7任一项所述未标注数据的处理方法的步骤。