CN111881286B

CN111881286B - 一种分类模糊性分析方法及装置

Info

Publication number: CN111881286B
Application number: CN201910851839.9A
Authority: CN
Inventors: 刘睿; 靳丁南; 罗欢; 权圣
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2019-09-10
Filing date: 2019-09-10
Publication date: 2021-08-24
Anticipated expiration: 2039-09-10
Also published as: CN111881286A

Abstract

本发明提供一种分类模糊性分析方法及装置，该方法包括：从知识库筛选待标注的N条语料；N为大于1的整数；分别接收针对所述N条语料中每条语料的M个分类标注；M为大于1的整数；分别将所述每条语料的M个分类标注中每两个分类标注组成分类标注对；分别确定每个所述分类标注对的第一模糊相关系数；根据全部所述分类标注对的第一模糊相关系数，计算K个分类中的每个分类的模糊性指标；所述K个分类根据全部所述分类标注确定，K为正整数。通过本发明提供的分类模糊性分析方法，可以提高知识库分类的模糊性分析的客观性，使得所得到的分析结果的可靠性更强。

Description

一种分类模糊性分析方法及装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种分类模糊性分析方法及装置。

背景技术

随着深度学习和机器学习在语义识别和图像分类等的广泛应用，对智能系统的优化成为主要研究方向。其中，知识库为智能系统的重要组成部分，其性能往往会较大的影响智能系统的性能。以问答系统(例如，客服机器人)为例，一个问答系统的知识库中语料的分类的准确性往往会较大的影响问答系统的准确性。目前，通常是基于人工依据经验分析知识库分类的模糊性，这种方式不但较为耗费时间，且分析结果的准确性严重依赖于分析人员的经验水平，主观性较强，可靠性较差。

发明内容

本发明实施例提供一种分类模糊性分析方法及装置，以解决现有技术中知识库分类的模糊性分析结果的可靠性较差的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种分类模糊性分析方法。该方法包括：

从知识库筛选待标注的N条语料；N为大于1的整数；

分别接收针对所述N条语料中每条语料的M个分类标注；M为大于1的整数；

分别将所述每条语料的M个分类标注中每两个分类标注组成分类标注对；

分别确定每个所述分类标注对的第一模糊相关系数；

根据全部所述分类标注对的第一模糊相关系数，计算K个分类中的每个分类的模糊性指标；所述K个分类根据全部所述分类标注确定，K为正整数。

第二方面，本发明实施例还提供一种分类模糊性分析装置。该分类模糊性分析装置包括：

筛选模块，用于从知识库筛选待标注的N条语料；N为大于1的整数；

接收模块，用于分别接收针对所述N条语料中每条语料的M个分类标注；M为大于1的整数；

组合模块，用于分别将所述每条语料的M个分类标注中每两个分类标注组成分类标注对；

确定模块，用于分别确定每个所述分类标注对的第一模糊相关系数；

计算模块，用于根据全部所述分类标注对的第一模糊相关系数，计算K个分类中的每个分类的模糊性指标；所述K个分类根据全部所述分类标注确定，K为正整数。

第三方面，本发明实施例还提供一种分类模糊性分析装置，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述的分类模糊性分析方法的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的分类模糊性分析方法的步骤。

本发明实施例中，通过从知识库筛选待标注的N条语料；分别接收针对所述N条语料中每条语料的M个分类标注；分别将所述每条语料的M个分类标注中每两个分类标注组成分类标注对；分别确定每个所述分类标注对的第一模糊相关系数；根据全部所述分类标注对的第一模糊相关系数，计算K个分类中的每个分类的模糊性指标，不仅可以提高知识库分类的模糊性分析的客观性，使得所得到的分析结果的可靠性更强，还可提高知识库分类的模糊性分析的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的分类模糊性分析方法的流程图；

图2是本发明又一实施例提供的分类模糊性分析方法的流程图；

图3是本发明实施例提供的分类模糊性分析装置的结构图；

图4是本发明又一实施例提供的分类模糊性分析装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种分类模糊性分析方法。参见图1，图1是本发明实施例提供的分类模糊性分析方法的流程图，如图1所示，包括以下步骤：

步骤101、从知识库筛选待标注的N条语料；N为大于1的整数。

本实施例中，上述知识库可以包括多条语料，也可以称为文本。实际应用中，知识库中的语料通常是分类后存储于知识库，例如，问答系统(例如，客服机器人)通常是将日常对话、FAQ(Frequently Asked Questions，经常问到的问题)、产品信息等语料进行分类并存储于知识库。

在该步骤中，可以从知识库随机筛选出N条语料。其中，上述N可以根据实际需求进行合理设置，例如，100条、200条等，也可以根据知识库中语料总数确定N的值，例如，N可以为知识库中语料总数的二分之一或三分之一等。

步骤102、分别接收针对所述N条语料中每条语料的M个分类标注；M为大于1的整数。

本实施例中，上述M的值也可以根据实际情况进行合理设置，例如，M可以为3或5等。上述分类标注用于标注语料所属的分类。

在一实施方式中，可以在筛选得到N条语料之后向M个客户端发送所筛选得到的N条语料，并接收M个客户端返回的针对N条语料中的每条语料的分类标注。例如，M个客户端中的每个客户端接收到N条语料之后，可以显示所接收的N条语料，并可接收标注者(也即标注人员)针对N条语料中每条语料的分类标注并返回。

在另一实施方式中，可以在筛选得到N条语料之后显示所述N条语料，并分别接收M个标注者针对所述N条语料中每条语料的分类标注。

步骤103、分别将所述每条语料的M个分类标注中每两个分类标注组成分类标注对。

本实施例中，分别将各条语料的M个分类标注中每两个进行组合，形成分类标注对。例如，语料a的三个分类标注分别为a1、a2和a3，语料b的三个分类标注分别为b1、b2和b3，则将语料a的三个分类标注中的每两个分类标注组成分类标注对，可以得到(a1，a2)、(a1，a3)和(a2，a3)，将语料b的三个分类标注中的每两个分类标注组成分类标注对，可以得到(b1，b2)、(b1，b3)和(b2，b3)。

步骤104、分别确定每个所述分类标注对的第一模糊相关系数。

本实施例中，上述分类标注对的第一模糊相关系数可以用于反映该分类标注对的两个分类标注的模糊性。例如，若该分类标注对的两个分类标注相同，则第一模糊相关系数为0，若该分类标注对的两个分类标注不相同，则第一模糊相关系数为1；或者，该分类标注对的两个分类标注的相似度越高，第一模糊相关系数的值越小。

在该步骤104中，可以分别确定在步骤103中得到的每个分类标注对的第一模糊相关系数，从而可以得到多个分类标注对的第一模糊相关系数。

步骤105、根据全部所述分类标注对的第一模糊相关系数，计算K个分类中的每个分类的模糊性指标；所述K个分类根据全部所述分类标注确定，K为正整数。

本实施例中，上述K个分类可以包括全部分类标注中的不同分类标注所指示的不同分类，或者全部分类标注所指示的全部分类中的不同分类，其中，K可以是全部分类标注中不同分类标注的数量。实际情况中，不同标注者针对同一语料的分类标注可能相同，同一标注者针对不同语料的分类标注也可能相同，因此，上述N条语料的分类标注中可能存在部分分类标注相同，存在部分分类标注不同，上述K个分类可以包括不同分类标注所指示的不同分类。

上述模糊性指标可以包括但不限于分类的模糊度、分类的模糊性统计值、分类占知识库全部分类的权重(也即类模糊指数)和分类之间的相关系数(也即类模糊相关系数)等中的一项或多项。

本发明实施例，通过从知识库筛选待标注的N条语料；分别接收针对所述N条语料中每条语料的M个分类标注；分别将所述每条语料的M个分类标注中每两个分类标注组成分类标注对；分别确定每个所述分类标注对的第一模糊相关系数；根据全部所述分类标注对的第一模糊相关系数，计算K个分类中的每个分类的模糊性指标，不仅可以提高知识库分类的模糊性分析的客观性，使得所得到的分析结果的可靠性更强，还可提高知识库分类的模糊性分析的效率。

可选的，上述步骤104，也即所述分别确定每个所述分类标注对的第一模糊相关系数，可以包括：

在所述分类标注对的两个分类标注相同的情况下，确定所述分类标注对的第二模糊相关系数为第一预设值；

在所述分类标注对的两个分类标注不相同的情况下，确定所述分类标注对的第二模糊相关系数为第二预设值；

其中，所述第一预设值小于所述第二预设值，所述分类标注对的第一模糊相关系数为所述分类标注对的第二模糊相关系数，或者所述分类标注对的第一模糊相关系数为根据所述分类标注对的第二模糊相关系数和所述分类标注对的目标权重值计算得到的值。

本实施例中，上述第一预设值和第二预设值可以根据实际情况进行合理设置，例如，第一预设值可以为0或0.5，第二预设值可以为1。上述目标权重值可以根据所述分类标注对的两个分类标注的相似度进行确定，例如，两个分类标注的相似度越高，目标权重值越小；也可以根据所述分类标注对的每个分类标注所对应的标注者的相关信息进行确定，例如，标注者的等级越高，目标权重值越大。

可选的，上述分类标注对的第一模糊相关系数可以是该分类标注对的第二模糊相关系数，也可以是该分类标注对的第二模糊相关系数和目标权重值的乘积。

例如，可以遍历上述步骤103所得到的每个分类标注对，并对于每个分类标注对，在该分类标注对的两个分类标注相同的情况下，确定该分类标注对的第一模糊相关系数为第一预设值，在该分类标注对的两个分类标注不相同的情况下，确定该分类标注对的第一模糊相关系数为第二预设值；或者在该分类标注对的两个分类标注相同的情况下，确定该分类标注对的第二模糊相关系数为第一预设值，在该分类标注对的两个分类标注不相同的情况下，确定该分类标注对的第二模糊相关系数为第二预设值，并基于第二模糊相关系数和目标权重值确定该分类标注对的第一模糊相关系数。

本实施例通过设置两个分类标注相同的分类标注对的第二模糊相关系数小于两个分类标注不相同的分类标注对的第二模糊相关系数，进而可以使得模糊性分析结果可以更为准确的反映分类之间的模糊特性。

可选的，所述目标权重值可以为根据所述分类标注对的每个分类标注所对应的标注者的评分确定的权重值，所述标注者的评分根据所述标注者历史进行分类标注的准确率确定。

本实施例中，可以基于各个标注者历史进行分类标注的准确率对各个标注者进行评分，例如，可以分别将标注者历史所标注的各个分类标注所指示的分类和各个分类标注对应的基准分类进行比较，统计相同分类数量，并将相同分类数量和总分类数量的比值作为该标注者进行分类标注的准确率。

可选的，上述标注者的评分和准确率之间可以是正相关，也即准确率越高，评分越高；也可以预先设置不同评分和准确率之间的对应关系，从而可以根据准确率和对应关系确定评分。

可选的，目标权重值和评分之间可以是正相关，也即评分越高，目标权重值越大；也可以预先设置不同评分和权重值之间的对应关系，从而可以根据标注者的评分和上述对应关系确定目标权重值。

可选的，由于每个分类标注对对应两个标注者，可以分别确定每个标注者的评分，根据每个标注者的评分确定每个标注者对应的权重值，再根据两个标注者对应的权重值确定目标权重值，例如，目标权重值可以是两个标注者对应的权重值的平均值，或是目标权重值可以是两个标注者对应的权重值中较大的权重值或较小的权重值等；或者，分别确定每个标注者的评分，根据两个标注者的评分确定一目标评分，该目标评分可以是两个标注者的评分的平均值，或两个标注者的评分中较高的评分或较低的评分等，再根据目标评分确定目标权重值。

可选的，本实施例还可以对全部标注者的评分进行排序，从而可以根据所述分类标注对的每个分类标注所对应的标注者的评分和评分排序情况确定目标权重值。

例如，若两个标注者的综合评分处于优秀等级(如90分以上)且在评分排序中位于前20％，则目标权重值w＝1.2；若两个标注者的综合评分处于优秀等级且在评分排序中位于前40％至20％之间，则目标权重值w＝1.1；若两个标注者的综合评分处于优秀等级且在评分排序中未位于前40％，则目标权重值w＝1.0。

本实施例分别基于每个分类标注对的每个分类标注所对应的标注者的评分确定每个分类标注对的目标权重值，可以减少一些错误的分类标注对分析结果的影响。

可选的，上述步骤105，也即所述根据全部所述分类标注对的第一模糊相关系数，计算K个分类中的每个分类的模糊性指标，可以包括：

分别将全部所述分类标注对中对应同一分类的分类标注对的第一模糊相关系数进行累加，得到所述K个分类中的每个分类的模糊性统计值。

本实施例中，可以将上述步骤103得到的全部分类标注对中对应同一分类的分类标注对的第一模糊相关系数进行累加，也可以理解为分别将上述步骤103得到的全部分类标注对中包括同一分类标注的分类标注对的第一模糊相关系数进行累加。

例如，将全部分类标注对中对应分类a(也即包括对应分类a的分类标注a)的分类标注对的第一模糊相关系数进行累加，得到分类a的模糊性统计值，将全部分类标注对中对应分类b(也即包括对应分类b的分类标注b)的分类标注对的第一模糊相关系数进行累加，得到分类b的模糊性统计值，以此类推，直至得到全部分类的模糊性统计值。

又例如，若上述步骤103得到的全部分类标注对中包括分类标注a(用于指示分类a)的分类标注对及其第一模糊相关系数表示如下：

{(a，b)：d；(a，b1)：d1；…；(a，bn)：dn}，其中，n为正整数，则分类a的模糊性统计值Sum(a)＝d1+d2+…+dn。

可选的，本实施例也可以先分别将全部所述分类标注对中相同的分类标注对的第一模糊相关系数进行累加，得到不同的分类标注对的累加值。例如，将上述步骤103得到的全部分类标注对中的所有分类标注对(a，b)的第一模糊相关系数进行累加，得到分类标注对(a，b)的累加值，将全部分类标注对中的所有分类标注对(a，b1)的第一模糊相关系数进行累加，得到分类标注对(a，b1)的累加值，以此类推，直至得到所有不同的分类标注对的累加值。需要说明的是，分类标注对(a，b)和分类标注对(b，a)可以作为相同的分类标注对进行处理，其中，上述a和b表示任意不同的两个分类标注。

可选的，上述不同的分类标注对及其累加值可以表示为如下格式：

{(a1，b1)：c1；(a2，b2)：c2；…；(an，bn)：cn}；

其中，(ai，bi)表示分类标注对，ci表示(ai，bi)的累加值，i为大于或等于1且小于或等于n的整数，n为正整数。

具体的，在得到各个不同的分类标注的累加值之后，可以分别将全部不同的分类标注对的累加值中对应同一分类的分类标注对的累加值进行累加，得到各个不同分类的模糊性统计值。

本实施例通过统计各个分类的模糊性统计值，可以较为直观的反映各个分类对于知识库的重要程度，进而可以对知识库的分类优化提供参考。

可选的，所述分别将全部所述分类标注对中对应同一分类的分类标注对的第一模糊相关系数进行累加，得到所述K个分类中的每个分类的模糊性统计值之后，所述方法还可以包括如下至少一项：

分别将所述K个分类中的每个分类的模糊性统计值除以所述K个分类的模糊性统计值之和，得到所述K个分类中的每个分类的类模糊指数；

将目标分类标注对的累加值除以第一分类的模糊性统计值，得到所述第一分类与第二分类之间的类模糊相关系数；所述第一分类和所述第二分类为所述目标分类标注对对应的两个分类，且所述第一分类和所述第二分类不同，所述目标分类标注对的累加值为全部所述分类标注对中所有的目标分类标注对的第一模糊相关系数的累加值。

本实施例中，上述第一分类和第二分类可以为目标分类标注对的两个分类标注所指示的两个分类。上述目标分类标注对可以是上述步骤103得到的分类标注对中任意对应两个不同分类的分类标注对，也即目标分类标注对包括的两个分类标注不同。

上述目标分类标注对的累加值可以为全部所述分类标注对中所有的目标分类标注对的第一模糊相关系数的累加值，例如，若目标分类标注对包括分类标注对(a，b)，则可以将上述步骤103得到的分类标注对中所有的分类标注对(a，b)的第一模糊相关系数进行累加，得到分类标注对(a，b)的累加值；若目标分类标注对包括分类标注对(a，c)，则可以将上述步骤103得到的分类标注对中所有的分类标注对(a，c)的第一模糊相关系数进行累加，得到分类标注对(a，c)的累加值。

需要说明的是，分类标注对(a，b)和分类标注对(b，a)可以作为相同的分类标注对进行处理，其中，上述a和b表示任意不同的两个分类标注。

本实施例在得到所述K个分类中的每个分类的模糊性统计值之后，可以基于所述K个分类中的每个分类的模糊性统计值计算各个分类占知识库全部分类的权重(也即类模糊指数)、分类之间的相关系数(也即类模糊相关系数)等模糊性指标。

例如，若K个分类的模糊性统计值分别为Sum(a1)至Sum(ak)，则分类a1的类模糊指数P(a1)＝Sum(a1)/(Sum(a1)+Sum(a2)+…+Sum(ak)),分类a2的类模糊指数P(a1)＝Sum(a2)/(Sum(a1)+Sum(a2)+…+Sum(ak))，以此类推。

又例如，若分类a1的类模糊指数为Sum(a1)，分类标注对(a1，b1)的累加值为c1，则分类a1与分类b1之间的类模糊相关系数P1(a1，b1)＝c1/Sum(a1)；若分类a1的类模糊指数为Sum(a1)，分类标注对(a1，b2)的累加值为c2，则分类a1与分类b2之间的类模糊相关系数P1(a1，b2)＝c2/Sum(a1)。

本实施例通过统计各个分类占知识库全部分类的权重(也即类模糊指数)，可以较为直观的反映各个分类对于知识库的重要程度，进而可以对知识库的分类优化提供参考；通过计算分类之间的相关系数(也即类模糊相关系数)，便于进行相关分类的推荐。

可选的，上述步骤103之后，也即所述分别接收针对所述N条语料中每条语料的M个分类标注之后，所述方法还可以包括：

对所述N条语料的分类标注进行质检；

上述步骤103，也即所述分别将所述每条语料的M个分类标注中每两个分类标注组成分类标注对，可以包括：

在所述N条语料的分类标注质检通过的情况下，分别将所述每条语料的M个分类标注中每两个分类标注组成分类标注对。

本实施例可以对接收到的N条语料的分类标注进行质检，以排除一些明显不合格的分类标注(例如一些明显胡乱标记的分类标注)对分类模糊性分析结果准确性的影响。

可选的，本实施例可以通过人工对N条语料的分类标注进行质检，也可以基于在知识库中每条语料对应的分类自动对N条语料的分类标注进行质检。

可选的，本实施例可以在检测到N条语料的分类标注中存在不合格的分类标注的情况下确定N条语料的分类标注质检未通过；也可以是在检测到N条语料的分类标注中不合格的分类标注的占比达到第一预设比例的情况下确定N条语料的分类标注质检未通过。

可选的，在N条语料的分类标注质检未通过的情况下，可以对N条语料中的每条语料进行重新标注，也可以仅对不合格的分类标注对应的语料进行重新标注。

可选的，在N条语料的分类标注质检未通过的情况下，若N条语料的分类标注中不合格的分类标注的数量较少，例如，N条语料的分类标注中不合格的分类标注的占比小于第二预设比例，也可以直接剔除N条语料的分类标注中不合格的分类标注，并基于剔除不合格的分类标注后的N条语料的分类标注进行配对。

本实施例通过对所述N条语料的分类标注进行质检，并在所述N条语料的分类标注质检通过的情况下，分别将所述每条语料的M个分类标注中每两个分类标注组成分类标注对，这样可以减少一些不合格的分类标注对分类模糊性的分析结果准确性的影响。

可选的，所述对所述N条语料的分类标注进行质检，可以包括：

分别将在所述知识库中所述N条语料中每条语料对应的分类和所述N条语料中每条语料的M个分类标注进行比较，得到比较结果；

根据所述比较结果计算所述N条语料的分类标注的准确率；

在所述准确率达到预设准确率的情况下，确定所述N条语料的分类标注质检通过。

实际应用中，语料通常是按照分类存储于知识库中，也即在知识库每条语料均存在对应的分类。本实施例将在知识库中每条语料对应的分类和每条语料的分类标注进行比较，并根据比较结果确定N条语料的分类标注的准确率。

例如，可以分别将每个标注者对应的N条语料的分类标注和在知识库中每条语料对应的分类进行比较，进而可以基于比较结果统计每个标注者对应的分类标注的准确率，并可以基于M个标注者对应的分类标注的准确率确定所述N条语料的分类标注的准确率，例如，可以将M个标注对应的分类标注的准确率的平均值确定为所述N条语料的分类标注的准确率，或者将M个标注者对应的分类标注的准确率中的最大值确定为所述N条语料的分类标注的准确率，或者将M个标注者对应的分类标注的准确率中的最小值确定为所述N条语料的分类标注的准确率等。

又例如，分别将N条语料中的每条语料的每个分类标注和在知识库中每条语料对应的分类进行比较，并将N条语料的分类标注和在知识库中N条语料对应的分类中相同分类的占比确定为所述N条语料的分类标注的准确率。

需要说明的是，在所述准确率未达到预设准确率的情况下，可以确定所述N条语料的分类标注质检未通过。上述预设准确率可以根据实际需求进行合理设置，例如，0.9、0.95等。

本实施例通过分别将在所述知识库中所述N条语料中每条语料对应的分类和所述N条语料中每条语料的M个分类标注进行比较，得到比较结果；根据所述比较结果计算所述N条语料的分类标注的准确率；在所述准确率达到预设准确率的情况下，确定所述N条语料的分类标注质检通过，不仅可以提高质检效率，节省人工成本，还可以使得质检结果客观性更强，准确性更为稳定。

以下结合图2对本发明实施例提供的分类模糊性分析方法进行说明：

步骤a1、从知识库中筛选出待标注的语料，得到候选语料集合。

该步骤中，可以从知识库中随机筛选出候选语料集合。

步骤a2、接收多个标注人员对候选语料集合中每条语料的分类标注。

该步骤中，多个标注人员可以对候选语料集合中的每条语料进行标注，从而可以得到每条语料对应的多个分类标注，如图2所示，可以得到每条语料对应的M个分类标注，也即分类标注1至分类标注M。

步骤a3、对所接收到的分类标注进行质检。

该步骤中，在所接收到的分类标注不合格的情况下，可以返回执行步骤a2，或剔除不合格的分类标注，以获取合格的分类标注，进而可以对合格的分类标注进行配对。

步骤a4、在所接收到的分类标注合格的情况下，对所接收到的分类标注进行配对。

该步骤中，可以对每条语料的M个分类标注进行编号，例如，{1，2，…，M}，然后对标号后的M个分类标注中的每两个进行配对，可以得到如下所示的纠缠对(也即上述的分类标注对)：

{(1，2)，(2，3)，…，(M-1，M)，…，(1，3)，(1，M)}。

步骤a5、按照预设规则统计第一模糊相关系数。

该步骤中，可以按照预设规则统计各个纠缠对的第一模糊相关系数。

在一实施方式中，上述预设规则可以包括：对于{(1，2)，(2，3)，…，(M-1，M)，…，(1，3)，(1，M)}中的每个纠缠对，若纠缠对中两个分类标注相同，则该纠缠对记为0次(也即该纠缠对的第一模糊相关系数为0)，否则记为1次(也即该纠缠对的第一模糊相关系数为1)。

在另一实施方式中，上述预设规则可以包括：对于{(1，2)，(2，3)，…，(M-1，M)，…，(1，3)，(1，M)}中的每个纠缠对，若纠缠对中两个分类标注相同，则该纠缠对记为0次，否则记为1次，并将该次数乘以评分系数w(即目标权重值)作为该纠缠对的第一模糊相关系数。

需要说明的是，本实施例还可以将相同的纠缠对的第一模糊相关系数进行累加，得到各个不同纠缠对的累加值。

步骤a6、规整处理。

该步骤中，可以对纠缠对的第一模糊相关系数进行规整处理，得到分类的模糊性指标(也可称为类模糊相关统计结果)，也可以是对纠缠对的累加值进行规整处理，得到分类的模糊性指标。

在一实施方式中，上述规整处理可以包括：统计每个分类的模糊性统计值(也即每类模糊相关类计次的总累加)。

例如，包括分类标注a(用于指示分类a)的分类标注对及其累加值表示为如下格式：

{(a，b)：c；(a，b1)：c1；…；(a，bn)：cn}，其中，n为正整数，则分类a的模糊性统计值Sum(a)＝c1+c2+…+cn。

在另一实施方式中，上述规整处理可以包括：

统计每个分类的模糊性统计值；

统计各个分类占知识库全部分类的权重(也即类模糊指数)；例如，对于分类a1类，总分类数为K，分类a1的类模糊指数P(a1)＝Sum(a1)/(Sum(a1)+Sum(a2)+…+Sum(ak))；

统计分类之间的相关系数(也即类模糊相关系数)；例如，若分类a1的类模糊指数为Sum(a1)，纠缠对(a1，b1)的累加值为c1，则分类a1与分类b1之间的类模糊相关系数P1(a1，b1)＝c1/Sum(a1)。

综上，本发明实施例提供的分类模糊性分析方法，提出了一种量化模糊性统计指标，将模糊性分析这种主观经验分析的工作，转化为标准化的标注工作，不仅实现了知识库模糊性分析的半自动化，还可以降低分析的难度和提升分析结果的可用性。

参见图3，图3是本发明实施例提供的分类模糊性分析装置的结构图。如图3所示，分类模糊性分析装置300包括：

筛选模块301，用于从知识库筛选待标注的N条语料；N为大于1的整数；

接收模块302，用于分别接收针对所述N条语料中每条语料的M个分类标注；M为大于1的整数；

组合模块303，用于分别将所述每条语料的M个分类标注中每两个分类标注组成分类标注对；

确定模块304，用于分别确定每个所述分类标注对的第一模糊相关系数；

计算模块305，用于根据全部所述分类标注对的第一模糊相关系数，计算K个分类中的每个分类的模糊性指标；所述K个分类根据全部所述分类标注确定，K为正整数。

可选的，所述确定模块具体用于：

可选的，所述分类标注对的目标权重值为根据所述分类标注对的每个分类标注所对应的标注者的评分确定的权重值，所述标注者的评分根据所述标注者历史进行分类标注的准确率确定。

可选的，所述计算模块具体用于：

可选的，所述装置还包括统计模块，具体用于如下至少一项：

所述分别将全部所述分类标注对中对应同一分类的分类标注对的第一模糊相关系数进行累加，得到所述K个分类中的每个分类的模糊性统计值之后，分别将所述K个分类中的每个分类的模糊性统计值除以所述K个分类的模糊性统计值之和，得到所述K个分类中的每个分类的类模糊指数；

所述分别将全部所述分类标注对中对应同一分类的分类标注对的第一模糊相关系数进行累加，得到所述K个分类中的每个分类的模糊性统计值之后，将目标分类标注对的累加值除以第一分类的模糊性统计值，得到所述第一分类与第二分类之间的类模糊相关系数；所述第一分类和所述第二分类为所述目标分类标注对对应的两个分类，且所述第一分类和所述第二分类不同，所述目标分类标注对的累加值为全部所述分类标注对中所有的目标分类标注对的第一模糊相关系数的累加值。

可选的，所述装置还包括：

质检模块，用于所述分别接收针对所述N条语料中每条语料的M个分类标注之后，对所述N条语料的分类标注进行质检；

所述组合模块具体用于：

可选的，所述质检模块具体用于：

根据所述比较结果计算所述N条语料的分类标注的准确率；

本发明实施例提供的分类模糊性分析装置300能够实现上述方法实施例中的各个过程，为避免重复，这里不再赘述。

本发明实施例的分类模糊性分析装置300，筛选模块301，用于从知识库筛选待标注的N条语料；N为大于1的整数；接收模块302，用于分别接收针对所述N条语料中每条语料的M个分类标注；M为大于1的整数；组合模块303，用于分别将所述每条语料的M个分类标注中每两个分类标注组成分类标注对；确定模块304，用于分别确定每个所述分类标注对的第一模糊相关系数；计算模块305，用于根据全部所述分类标注对的第一模糊相关系数，计算K个分类中的每个分类的模糊性指标，不仅可以提高知识库分类的模糊性分析的客观性，使得所得到的分析结果的可靠性更强，还可提高知识库分类的模糊性分析的效率。

参见图4，图4是本发明又一实施提供的分类模糊性分析装置的结构图，如图4所示，分类模糊性分析装置400包括：处理器401、存储器402及存储在所述存储器402上并可在所述处理器上运行的计算机程序，数据发送装置400中的各个组件通过总线接口403耦合在一起，所述计算机程序被所述处理器401执行时实现如下步骤：

从知识库筛选待标注的N条语料；N为大于1的整数；

分别确定每个所述分类标注对的第一模糊相关系数；

可选的，所述计算机程序被所述处理器401执行时还用于：

可选的，所述计算机程序被所述处理器401执行时还用于如下至少一项：

可选的，所述计算机程序被所述处理器401执行时还用于：

所述分别接收针对所述N条语料中每条语料的M个分类标注之后，对所述N条语料的分类标注进行质检；

可选的，所述计算机程序被所述处理器401执行时还用于：

根据所述比较结果计算所述N条语料的分类标注的准确率；

本发明实施例还提供一种分类模糊性分析装置，包括处理器，存储器，存储在存储器上并可在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述分类模糊性分析方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述分类模糊性分析方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random AccessMemory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种分类模糊性分析方法，其特征在于，包括：

从知识库筛选待标注的N条语料；N为大于1的整数；

分别确定每个所述分类标注对的第一模糊相关系数；所述分类标注对的第一模糊相关系数用于反映所述分类标注对的两个分类标注的模糊性；

根据全部所述分类标注对的第一模糊相关系数，计算K个分类中的每个分类的模糊性指标；所述K个分类根据全部所述分类标注确定，K为正整数；

所述分别确定每个所述分类标注对的第一模糊相关系数，包括：

2.根据权利要求1所述的方法，其特征在于，所述分类标注对的目标权重值为根据所述分类标注对的每个分类标注所对应的标注者的评分确定的权重值，所述标注者的评分根据所述标注者历史进行分类标注的准确率确定。

3.根据权利要求1所述的方法，其特征在于，所述根据全部所述分类标注对的第一模糊相关系数，计算K个分类中的每个分类的模糊性指标，包括：

4.根据权利要求3所述的方法，其特征在于，所述分别将全部所述分类标注对中对应同一分类的分类标注对的第一模糊相关系数进行累加，得到所述K个分类中的每个分类的模糊性统计值之后，所述方法还包括如下至少一项：

5.根据权利要求1所述的方法，其特征在于，所述分别接收针对所述N条语料中每条语料的M个分类标注之后，所述方法还包括：

对所述N条语料的分类标注进行质检；

所述分别将所述每条语料的M个分类标注中每两个分类标注组成分类标注对，包括：

6.根据权利要求5所述的方法，其特征在于，所述对所述N条语料的分类标注进行质检，包括：

根据所述比较结果计算所述N条语料的分类标注的准确率；

7.一种分类模糊性分析装置，其特征在于，包括：

确定模块，用于分别确定每个所述分类标注对的第一模糊相关系数；所述分类标注对的第一模糊相关系数用于反映所述分类标注对的两个分类标注的模糊性；

计算模块，用于根据全部所述分类标注对的第一模糊相关系数，计算K个分类中的每个分类的模糊性指标；所述K个分类根据全部所述分类标注确定，K为正整数；

所述确定模块具体用于：

8.一种分类模糊性分析装置，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的分类模糊性分析方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的分类模糊性分析方法的步骤。