CN104699819A

CN104699819A - 一种义原的分类方法及装置

Info

Publication number: CN104699819A
Application number: CN201510137243.4A
Authority: CN
Inventors: 张连超; 刘宇; 张鹏
Original assignee: Inspur Group Co Ltd
Current assignee: Inspur Group Co Ltd
Priority date: 2015-03-26
Filing date: 2015-03-26
Publication date: 2015-06-10

Abstract

本发明提供了一种义原的分类方法及装置，该方法包括：预先设置多个义原的类别，每个类别对应多个原始义原，预先设置语料库；获取待分类的义原；获取每个待分类的义原在所述语料库中所在的语境，及每个原始义原在所述语料库中所在的语境；计算每个待分类的义原在每个对应的语境下出现的第一条件概率，及每个原始义原在每个对应的语境下出现的第二条件概率；将每个待分类的义原的每个第一条件概率分别与每个原始义原的每个第二条件概率进行比较，当当前待分类的义原有任一第一条件概率与当前原始义原的任一第二条件概率的差值小于等于第一预设值时，判定当前待分类的义原与当前原始义原属于同一个类别。通过该方法及装置，能够将义原进行分类。

Description

一种义原的分类方法及装置

技术领域

本发明涉及数据处理技术领域，特别涉及一种义原的分类方法及装置。

背景技术

在数据挖掘领域，图形图像识别、语音识别、文本推荐等领域已经有比较成熟的解决方案，但是很多技术仍然在不断的发展和创新中，其中，在数据挖掘的义原处理是一个比较难的瓶颈。

图像、声波、文档等等都是由多维组成的复杂信息，相对容易的从相同及相似信息特征中挖掘出数据之间的联系。比如图像识别中五官的定位可以通过模式识别将人脸准确的从图像中提取出来，声波中可以根据频率音色等音频特征来区分不同的人，文档中出现某些关键词我们可以认为是广告进而进行拦截。而自然语言的词语之间存在非常复杂的关系，如同义、对义、反义、整体、部分以及上下位关系等，单单的一个义原是很难表达其含义，甚至连人类在面对这样的义原也会觉得匪夷所思，无法揣摩其中的含义。如何将义原按照已有的类别进行分类，在现有技术中还没有较好的解决方案。

发明内容

有鉴于此，本发明提供了一种义原的分类方法及装置，能够将义原进行分类。

一方面，本发明提供了一种义原的分类方法，包括：预先设置多个义原的类别，每个类别对应多个原始义原，预先设置语料库，还包括：

S1：获取待分类的义原；

S2：获取每个待分类的义原在所述语料库中所在的语境，及每个原始义原在所述语料库中所在的语境；

S3：计算每个待分类的义原在每个对应的语境下出现的第一条件概率，及每个原始义原在每个对应的语境下出现的第二条件概率；

S4：将每个待分类的义原的每个第一条件概率分别与每个原始义原的每个第二条件概率进行比较，当当前待分类的义原有任一第一条件概率与当前原始义原的任一第二条件概率的差值小于等于第一预设值时，判定当前待分类的义原与当前原始义原属于同一个类别。

进一步地，所述S2中，所述获取每个待分类的义原在所述语料库中所在的语境，包括：

A1：获取待分类的义原在所述语料库中的位置；

A2：分别获取当前待分类的义原的当前位置的前面第二预设值个前方义原，及当前待分类的义原的当前位置的后面第二预设值个后方义原；

A3：将获取的第二预设值个前方义原和第二预设值个后方义原作为当前待分类的义原在所述语料库中所在的语境；

所述S2中，所述获取每个原始义原在所述语料库中所在的语境，包括：

B1：获取原始义原在所述语料库中的位置；

B2：分别获取当前原始义原的当前位置的前面第二预设值个前方义原，及当前原始义原的当前位置的后面第二预设值个后方义原；

B3：将获取的第二预设值个前方义原和第二预设值个后方义原作为当前原始义原在所述语料库中所在的语境；

其中，所述第二预设值的取值范围是[1，5]，所述第二预设值为整数。

进一步地，所述S3中，所述计算每个待分类的义原在每个对应的语境下出现的第一条件概率，包括：

根据公式一计算当前待分类的义原在当前对应的语境下出现的第一条件概率，其中，公式一为：

P_{1} ({Wi}_{1} | {Context}_{1}) = \frac{{Counti}_{1}}{Π (1 - sigm ({Vcontext 1}_{i}))},

i＝1,2,3...n，n为当前待分类的义原的当前对应的语境中的义原的个数；

P₁(Wi₁|Context₁)为所述第一条件概率，Wi为当前待分类的义原，Context为当前待分类的义原的当前对应的语境，Counti₁是当前待分类的义原在当前对应的语境中出现的次数，Vcontext1_i为当前待分类的义原的当前对应的语境中的第i个义原的词向量；

所述S3中，所述计算每个原始义原在每个对应的语境下出现的第二条件概率，包括：

根据公式二计算当前原始义原在当前对应的语境下出现的第二条件概率，其中，公式二为：

P_{2} ({Wi}_{2} | {Context}_{2}) = \frac{{Counti}_{2}}{Π (1 - sigm ({Vcontext 2}_{j}))},

j＝1,2,3...m，m为当前原始义原的当前对应的语境中的义原的个数；

P₂(Wi₂|Context₂)为所述第二条件概率，Wi为当前原始义原，Context为当前原始义原的当前对应的语境，Counti₂是当前原始义原在当前对应的语境中出现的次数，Vcontext2_j为当前原始义原的当前对应的语境中的第j个义原的词向量。

进一步地，在所述S1之前还包括：预先为每个类别建立对应的数据集，将每个类别对应的原始义原保存到对应的数据集中；

在所述S4之后，还包括：

将当前类别对应的待分类的义原添加到当前类别对应的数据集中。

进一步地，所述S1，包括：

按组获取待分类的义原，从当前组的待分类的义原中抽取多个样本义原；

所述S2，包括：获取每个样本义原在所述语料库中所在的语境；

所述S3，包括：计算每个样本义原在每个对应的语境下出现的第一条件概率；

所述S4，包括：将每个样本义原的每个第一条件概率分别与每个原始义原的每个第二条件概率进行比较，当当前样本义原有任一第一条件概率与当前原始义原的任一第二条件概率的差值小于等于第一预设值时，判定当前样本义原与当前原始义原属于同一个类别；

在所述S4之后，还包括：

将对应的样本义原的个数最多的类别作为当前组的待分类的义原对应的类别。

另一方面，本发明提供了一种义原的分类装置，包括：

设置单元，用于设置多个义原的类别，每个类别对应多个原始义原，并设置语料库；

第一获取单元，用于获取待分类的义原；

第二获取单元，用于获取每个待分类的义原在所述语料库中所在的语境，及每个原始义原在所述语料库中所在的语境；

计算单元，用于计算每个待分类的义原在每个对应的语境下出现的第一条件概率，及每个原始义原在每个对应的语境下出现的第二条件概率；

分类单元，用于将每个待分类的义原的每个第一条件概率分别与每个原始义原的每个第二条件概率进行比较，当当前待分类的义原有任一第一条件概率与当前原始义原的任一第二条件概率的差值小于等于第一预设值时，判定当前待分类的义原与当前原始义原属于同一个类别。

进一步地，所述第二获取单元，包括：

第一待分类获取子单元，用于获取待分类的义原在所述语料库中的位置；

第二待分类获取子单元，用于分别获取当前待分类的义原的当前位置的前面第二预设值个前方义原，及当前待分类的义原的当前位置的后面第二预设值个后方义原；

待分类语境确定子单元，用于将获取的第二预设值个前方义原和第二预设值个后方义原作为当前待分类的义原在所述语料库中所在的语境；

第一原始获取子单元，用于获取原始义原在所述语料库中的位置；

第二原始获取子单元，用于分别获取当前原始义原的当前位置的前面第二预设值个前方义原，及当前原始义原的当前位置的后面第二预设值个后方义原；

原始语境确定子单元，用于将获取的第二预设值个前方义原和第二预设值个后方义原作为当前原始义原在所述语料库中所在的语境；

进一步地，所述计算单元，包括：第一计算子单元，第二计算子单元；

所述第一计算子单元，用于根据公式一计算当前待分类的义原在当前对应的语境下出现的第一条件概率，其中，公式一为：

P_{1} ({Wi}_{1} | {Context}_{1}) = \frac{{Counti}_{1}}{Π (1 - sigm ({Vcontext 1}_{i}))},

所述第二计算子单元，用于根据公式二计算当前原始义原在当前对应的语境下出现的第二条件概率，其中，公式二为：

P_{2} ({Wi}_{2} | {Context}_{2}) = \frac{{Counti}_{2}}{Π (1 - sigm ({Vcontext 2}_{j}))},

进一步地，还包括：数据集单元，为每个类别建立对应的数据集，将每个类别对应的原始义原保存到对应的数据集中；

添加单元，用于将当前类别对应的待分类的义原添加到当前类别对应的数据集中。

进一步地，所述第一获取单元，用于按组获取待分类的义原，从当前组的待分类的义原中抽取多个样本义原；

所述第二获取单元，用于获取每个样本义原在所述语料库中所在的语境；

所述计算单元，用于计算每个样本义原在每个对应的语境下出现的第一条件概率；

所述分类单元，用于将每个样本义原的每个第一条件概率分别与每个原始义原的每个第二条件概率进行比较，当当前样本义原有任一第一条件概率与当前原始义原的任一第二条件概率的差值小于等于第一预设值时，判定当前样本义原与当前原始义原属于同一个类别；

还包括：

按组分类单元，用于将对应的样本义原的个数最多的类别作为当前组的待分类的义原对应的类别。

本发明提供了一种义原的分类方法及装置，获取义原在所述语料库中所在的语境，计算义原在对应的语境下出现的条件概率，通过该条件概率来判断待分类的义原与原始义原是否在同一个语境下出现，当两个条件概率的差值小于等于第一预设值时，说明这两个条件概率对应的义原在同一个语境下出现，可以认为这两个义原是相近的，进而可以认为这两个义原属于同一个类别，由于原始义原所属的类别是已知的，则可以确定待分类的义原所属的类别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种义原的分类方法的流程图；

图2是本发明一实施例提供的另一种义原的分类方法的流程图；

图3是本发明一实施例提供的一种义原的分类装置的示意图；

图4是本发明一实施例提供的另一种义原的分类装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种义原的分类方法，该方法可以包括以下步骤：

S0：预先设置多个义原的类别，每个类别对应多个原始义原，预先设置语料库；

S1：获取待分类的义原；

通过本发明实施例提供的一种义原的分类方法，获取义原在所述语料库中所在的语境，计算义原在对应的语境下出现的条件概率，通过该条件概率来判断待分类的义原与原始义原是否在同一个语境下出现，当两个条件概率的差值小于等于第一预设值时，说明这两个条件概率对应的义原在同一个语境下出现，可以认为这两个义原是相近的，进而可以认为这两个义原属于同一个类别，由于原始义原所属的类别是已知的，则可以确定待分类的义原所属的类别。

在一个语料库中存储有大量的文档，通过搜索这些文档可以找到当前义原在文档中的位置，一个义原的用法可能有很多种，没一种用法可以认为是一种语境，在一种语境中，当前义原的前面的几个义原和后面的几个义原认为是相同或者相近的。所述S2中，所述获取每个待分类的义原在所述语料库中所在的语境，包括：

A1：获取待分类的义原在所述语料库中的位置；

B1：获取原始义原在所述语料库中的位置；

在一种可能的实现方式中，所述S3，包括：

所述S3中，所述计算每个待分类的义原在每个对应的语境下出现的第一条件概率，包括：

P_{1} ({Wi}_{1} | {Context}_{1}) = \frac{{Counti}_{1}}{Π (1 - sigm ({Vcontext 1}_{i}))},

P_{2} ({Wi}_{2} | {Context}_{2}) = \frac{{Counti}_{2}}{Π (1 - sigm ({Vcontext 2}_{j}))},

其中，∏的意思是累乘，sigm()的意思就是sigmoid公式，通过累积来表述语境的出现情况。向量化后的单词的空间向量具有独立性，即每个不同的义原的词向量是不同，其与空间原点的阿基里德举例也具有独立性，求每一个词向量的sigmoid时，就可以得到一个固定的数值。这里用sigmoid公式的原因是利用sigmoid函数值域在(0,1)的特性，把向量的阿基里德举例标准化到(0.5,1)之间。然后用1-sigm(Vcontext_i)是为了进一步缩小数值到(0,0.5)，就是将数值域控制在接近0的数值域，便于观察，而且这样也会使得累乘的结果的分布更加舒服。由于不同的义原的词向量不同，则每个义原的1-sigm(Vcontext_i)也不同，不同的语境中词向量不同，可以通过计算∏(1-sigm(Vcontext_i))来区分不同的语境。

在一种可能的实现方式中，在所述S1之前还包括：预先为每个类别建立对应的数据集，将每个类别对应的原始义原保存到对应的数据集中；

在所述S4之后，还包括：

通过该实现方式，在将待分类的义原分类完成后，将待分类的义原添加到对应的类别的数据集中，作为原始义原，对义原进行越来越好的整合归类，使得义原的关联结果更加准确、完善。

为使本发明的目的、技术方案和优点更加清楚，下面结合附图及具体实施例对本发明作进一步地详细描述。

如图2所示，本发明实施例提供了一种义原的分类方法，该方法可以包括以下步骤：

步骤201：预先设置多个义原的类别，每个类别对应多个原始义原，预先设置语料库。

举例来说，预先设置了C1、C2、C3、C4四个类别，每个类别中有多个原始义原，本实施例提供的方法通过判断待分类的义原与原始义原的相似程度来给义原分类的。语料库是指经科学取样和加工的大规模电子文本库。在语料库中存放的是在语言的实际使用中真实出现过的语言材料；语料库是以电子计算机为载体承载语言知识的基础资源。本实施例提供的方法在语料库中获取义原的语境。语料库可以通过word2vec实现。

举例来说，在“我吃饭了”中，将“吃饭”作为当前义原，将“吃饭”前面的“我”作为前方义原，将“吃饭”后面的“了”作为后方义原。

步骤202：按组获取待分类的义原，从当前组的待分类的义原中抽取多个样本义原。

为了加快处理速度，可以按组进行分类，认为一组义原所属的类别是相同的，从一组义原中抽取出多个样本义原来进行分类，进一步的提高分类的效率。

步骤203：获取每个样本义原在所述语料库中所在的语境，及每个原始义原在所述语料库中所在的语境。

具体地，所述获取每个待分类的义原在所述语料库中所在的语境，包括：

A1：获取待分类的义原在所述语料库中的位置；

A3：将获取的第二预设值个前方义原和第二预设值个后方义原作为当前待分类的义原在所述语料库中所在的语境。

所述获取每个原始义原在所述语料库中所在的语境，包括：

B1：获取原始义原在所述语料库中的位置；

B3：将获取的第二预设值个前方义原和第二预设值个后方义原作为当前原始义原在所述语料库中所在的语境。

每个义原可能具有多种不同的意思，可以应用在不同的语境中。举例来说，义原为“好”，该义原可以用于“苹果很好吃”，也可以用于“长的很好看”、“三好学生”等，在语料库中，针对一个义原可能有很多个语境，都需要获取。

步骤204：计算每个样本义原在每个对应的语境下出现的第一条件概率，及每个原始义原在每个对应的语境下出现的第二条件概率。

每个义原可能对应多个语境，每个语境对应一个条件概率，通过该步骤将每个语境对应的条件概率计算出来。所述计算每个待分类的义原在每个对应的语境下出现的第一条件概率，包括：

P_{1} ({Wi}_{1} | {Context}_{1}) = \frac{{Counti}_{1}}{Π (1 - sigm ({Vcontext 1}_{i}))},

P_{2} ({Wi}_{2} | {Context}_{2}) = \frac{{Counti}_{2}}{Π (1 - sigm ({Vcontext 2}_{j}))},

其中，在获取Counti时，需要判断两个语境是否相同。在一种可能的实现方式中，可以通过计算两个语境的∏(1-sigm(Vcontext_i))是否相等来判断两个语境是否相同。

举例来说，针对原始义原，将第二预设值设为3，在原始义原的语境中会有6个义原，m为6。

步骤205：将每个样本义原的每个第一条件概率分别与每个原始义原的每个第二条件概率进行比较，当当前样本义原有任一第一条件概率与当前原始义原的任一第二条件概率的差值小于等于第一预设值时，判定当前样本义原与当前原始义原属于同一个类别。

举例来说，当前样本义原有4个第一条件概率，则需要将当前样本义原的第一个第一条件概率与每个原始义原的每个第二条件概率进行比较，将当前样本义原的第二个第一条件概率与每个原始义原的每个第二条件概率进行比较，依次类推。当第一条件概率中的任意一个第一条件概率A与第二条件概率中的任意一个第二条件概率B的差值小于等于第一预设值时，则判定第一条件概率A对应的样本义原与第二条件概率B对应的原始义原属于同一类别。

步骤206：将对应的样本义原的个数最多的类别作为当前组的待分类的义原对应的类别。

按照步骤205，将每个样本义原进行分类，统计每个类别下有多少给样本义原，样本义原最多的类别为当前组对应的类别，即当前组中所有的义原都属于该类别。

如图3、图4所示，本发明实施例提供了一种义原的分类装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言，如图3所示，为本发明实施例提供的一种义原的分类装置所在设备的一种硬件结构图，除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的设备通常还可以包括其他硬件，如负责处理报文的转发芯片等等。以软件实现为例，如图4所示，作为一个逻辑意义上的装置，是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。本实施例提供的一种义原的分类装置，包括：

设置单元401，用于设置多个义原的类别，每个类别对应多个原始义原，并设置语料库；

第一获取单元402，用于获取待分类的义原；

第二获取单元403，用于获取每个待分类的义原在所述语料库中所在的语境，及每个原始义原在所述语料库中所在的语境；

计算单元404，用于计算每个待分类的义原在每个对应的语境下出现的第一条件概率，及每个原始义原在每个对应的语境下出现的第二条件概率；

分类单元405，用于将每个待分类的义原的每个第一条件概率分别与每个原始义原的每个第二条件概率进行比较，当当前待分类的义原有任一第一条件概率与当前原始义原的任一第二条件概率的差值小于等于第一预设值时，判定当前待分类的义原与当前原始义原属于同一个类别。

在一种可能的实现方式中，所述第二获取单元403，包括：

在一种可能的实现方式中，所述计算单元，包括：第一计算子单元，第二计算子单元；

P_{1} ({Wi}_{1} | {Context}_{1}) = \frac{{Counti}_{1}}{Π (1 - sigm ({Vcontext 1}_{i}))},

P_{2} ({Wi}_{2} | {Context}_{2}) = \frac{{Counti}_{2}}{Π (1 - sigm ({Vcontext 2}_{j}))},

在一种可能的实现方式中，该装置还包括：数据集单元，为每个类别建立对应的数据集，将每个类别对应的原始义原保存到对应的数据集中；

在一种可能的实现方式中，所述第一获取单元，用于按组获取待分类的义原，从当前组的待分类的义原中抽取多个样本义原；

该装置还包括：按组分类单元，用于将对应的样本义原的个数最多的类别作为当前组的待分类的义原对应的类别。

上述装置内的各单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

上述实施例具有如下有益效果：

1、通过本发明实施例提供的一种义原的分类方法及装置，获取义原在所述语料库中所在的语境，计算义原在对应的语境下出现的条件概率，通过该条件概率来判断待分类的义原与原始义原是否在同一个语境下出现，当两个条件概率的差值小于等于第一预设值时，说明这两个条件概率对应的义原在同一个语境下出现，可以认为这两个义原是相近的，进而可以认为这两个义原属于同一个类别，由于原始义原所属的类别是已知的，则可以确定待分类的义原所属的类别。

2、通过本发明实施例提供的一种义原的分类方法及装置，通过这种数据分类方法可以有效的建立语义并不清晰的义原之间的强关联关系，准确度高。并且依靠计算机对海量语料库的word2vec学习，可以进一步进行原始数据集和新数据之间的关联，即实现了原始数据和新数据自动关联，使得该方案具有自组织扩展性。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个······”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种义原的分类方法，其特征在于，包括：预先设置多个义原的类别，每个类别对应多个原始义原，预先设置语料库，还包括：

S1：获取待分类的义原；

2.根据权利要求1所述的方法，其特征在于，所述S2中，所述获取每个待分类的义原在所述语料库中所在的语境，包括：

A1：获取待分类的义原在所述语料库中的位置；

B1：获取原始义原在所述语料库中的位置；

3.根据权利要求1-2任一所述的方法，其特征在于，所述S3中，所述计算每个待分类的义原在每个对应的语境下出现的第一条件概率，包括：

P_{1} ({Wi}_{1} | {Context}_{1}) = \frac{{Counti}_{1}}{Π (1 - sigm ({Vcontext 1}_{i}))},

P_{2} ({Wi}_{2} | {Context}_{2}) = \frac{{Counti}_{2}}{Π (1 - sigm ({Vcontext 2}_{j}))},

4.根据权利要求1所述的方法，其特征在于，在所述S1之前还包括：预先为每个类别建立对应的数据集，将每个类别对应的原始义原保存到对应的数据集中；

在所述S4之后，还包括：

5.根据权利要求1所述的方法，其特征在于，

所述S1，包括：

在所述S4之后，还包括：

6.一种义原的分类装置，其特征在于，包括：

第一获取单元，用于获取待分类的义原；

7.根据权利要求6所述的装置，其特征在于，所述第二获取单元，包括：

8.根据权利要求6-7任一所述的装置，其特征在于，所述计算单元，包括：第一计算子单元，第二计算子单元；

P_{1} ({Wi}_{1} | {Context}_{1}) = \frac{{Counti}_{1}}{Π (1 - sigm ({Vcontext 1}_{i}))},

P_{2} ({Wi}_{2} | {Context}_{2}) = \frac{{Counti}_{2}}{Π (1 - sigm ({Vcontext 2}_{j}))},

9.根据权利要求6所述的装置，其特征在于，还包括：数据集单元，为每个类别建立对应的数据集，将每个类别对应的原始义原保存到对应的数据集中；

10.根据权利要求6所述的装置，其特征在于，

所述第一获取单元，用于按组获取待分类的义原，从当前组的待分类的义原中抽取多个样本义原；

还包括：