CN111881287B - 一种分类模糊性分析方法及装置 - Google Patents

一种分类模糊性分析方法及装置 Download PDF

Info

Publication number
CN111881287B
CN111881287B CN201910852791.3A CN201910852791A CN111881287B CN 111881287 B CN111881287 B CN 111881287B CN 201910852791 A CN201910852791 A CN 201910852791A CN 111881287 B CN111881287 B CN 111881287B
Authority
CN
China
Prior art keywords
classification
classification data
classifications
data pair
correlation coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910852791.3A
Other languages
English (en)
Other versions
CN111881287A (zh
Inventor
刘睿
靳丁南
罗欢
权圣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashang Xiaofei Finance Co Ltd
Original Assignee
Mashang Xiaofei Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashang Xiaofei Finance Co Ltd filed Critical Mashang Xiaofei Finance Co Ltd
Priority to CN201910852791.3A priority Critical patent/CN111881287B/zh
Publication of CN111881287A publication Critical patent/CN111881287A/zh
Application granted granted Critical
Publication of CN111881287B publication Critical patent/CN111881287B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明提供一种分类模糊性分析方法及装置,该方法包括:将知识库中的N条语料输入分类模型,得到所述N条语料中每条语料对应的L个分类的概率;分别根据所述每条语料对应的L个分类的概率,确定所述每条语料对应的M个分类;分别将所述每条语料对应的M个分类中每两个分类组成分类数据对;分别确定每个所述分类数据对的第一模糊相关系数;根据全部所述分类数据对的第一模糊相关系数,计算K个分类中每个分类的模糊性指标。通过本发明提供的分类模糊性分析方法,不仅可以提高知识库分类的模糊性分析的客观性,使得所得到的分析结果的可靠性更强,还可提高知识库分类的模糊性分析的效率。

Description

一种分类模糊性分析方法及装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种分类模糊性分析方法及装置。
背景技术
随着深度学习和机器学习在语义识别和图像分类等的广泛应用,对智能系统的优化成为主要研究方向。其中,知识库为智能系统的重要组成部分,其性能往往会较大的影响智能系统的性能。以问答系统(例如,客服机器人)为例,一个问答系统的知识库中语料的分类的准确性往往会较大的影响问答系统的准确性。目前,通常是基于人工依据经验分析知识库分类的模糊性,这种方式不但较为耗费时间,且分析结果的准确性严重依赖于分析人员的经验水平,主观性较强,可靠性较差。
发明内容
本发明实施例提供一种分类模糊性分析方法及装置,以解决现有技术中知识库分类的模糊性分析结果的可靠性较差的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种分类模糊性分析方法。该方法包括:
将知识库中的N条语料输入分类模型,得到所述N条语料中每条语料对应的L个分类的概率;N为大于1的整数,L为所述分类模型对应的总分类数;
分别根据所述每条语料对应的L个分类的概率,确定所述每条语料对应的M个分类;M为大于1且小于或等于L的整数;
分别将所述每条语料对应的M个分类中每两个分类组成分类数据对;
分别确定每个所述分类数据对的第一模糊相关系数;
根据全部所述分类数据对的第一模糊相关系数,计算K个分类中每个分类的模糊性指标;所述K个分类根据所述N条语料中每条语料对应的M个分类确定,K为大于或等于M且小于或等于L的正整数。
第二方面,本发明实施例还提供一种分类模糊性分析装置。该分类模糊性分析装置包括:
输入模块,用于将知识库中的N条语料输入分类模型,得到所述N条语料中每条语料对应的L个分类的概率;N为大于1的整数,L为所述分类模型对应的总分类数;
第一确定模块,用于分别根据所述每条语料对应的L个分类的概率,确定所述每条语料对应的M个分类;M为大于1且小于或等于L的整数;
组合模块,用于分别将所述每条语料对应的M个分类中每两个分类组成分类数据对;
第二确定模块,用于分别确定每个所述分类数据对的第一模糊相关系数;
第一计算模块,用于根据全部所述分类数据对的第一模糊相关系数,计算K个分类中每个分类的模糊性指标;所述K个分类根据所述N条语料中每条语料对应的M个分类确定,K为大于或等于M且小于或等于L的正整数。
第三方面,本发明实施例还提供一种分类模糊性分析装置,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述的分类模糊性分析方法的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的分类模糊性分析方法的步骤。
本发明实施例中,通过将知识库中的N条语料输入分类模型,得到所述N条语料中每条语料对应的L个分类的概率;分别根据所述每条语料对应的L个分类的概率,确定所述每条语料对应的M个分类;分别将所述每条语料对应的M个分类中每两个分类组成分类数据对;分别确定每个所述分类数据对的第一模糊相关系数;根据全部所述分类数据对的第一模糊相关系数,计算K个分类中每个分类的模糊性指标,不仅可以提高知识库分类的模糊性分析的客观性,使得所得到的分析结果的可靠性更强,还可提高知识库分类的模糊性分析的效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的分类模糊性分析方法的流程图;
图2是本发明又一实施例提供的分类模糊性分析方法的流程图;
图3是本发明实施例提供的分类模糊性分析装置的结构图;
图4是本发明又一实施例提供的分类模糊性分析装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种分类模糊性分析方法。参见图1,图1是本发明实施例提供的分类模糊性分析方法的流程图,如图1所示,包括以下步骤:
步骤101、将知识库中的N条语料输入分类模型,得到所述N条语料中每条语料对应的L个分类的概率;N为大于1的整数,L为所述分类模型对应的总分类数。
本实施例中,上述N条语料可以是知识库中的全部或部分语料。上述知识库可以包括多条语料,也可以称为文本。实际应用中,知识库中的语料通常是分类后存储于知识库,例如,问答系统(例如,客服机器人)通常是将日常对话、FAQ(Frequently AskedQuestions,经常问到的问题)、产品信息等语料进行分类并存储于知识库。
上述分类模型可以是预先训练的可以用于语料分类的网络模型,其中,该分类模型对应的总分类数为L,也即基于该分类模型最多可以分成L个分类,L为正整数。需要说明的是,上述分类模型可以是基于任意的语料样本训练得到的,也可以是基于知识库的语料样本训练得到的。
在该步骤中,每条语料输入分类模型,可以得到L个分类的概率。
步骤102、分别根据所述每条语料对应的L个分类的概率,确定所述每条语料对应的M个分类;M为大于1且小于或等于L的整数。
本实施例中,可以直接将每条语料对应的L个分类确定为每条语料对应的M个分类;也可以是将每条语料对应的L个分类中概率满足预设条件的M个分类确定为每条语料对应的M个分类,例如,概率大于预设概率的M个分类,或者概率按照从大到小排序时概率位于前M的分类,或者概率按照从小到大排序时概率位于后M的分类等。
可选的,所述每条语料对应的M个分类可以包括:将所述每条语料对应的L个分类的概率按照从大到小排序的情况下前M个概率对应的分类。
本实施例通过选取每条语料对应的L个分类中概率较高的M个分类进行分类模糊性分析,不仅可以提高分类模糊性分析的效率,还可以保证分类模糊性分类结果的准确性。
步骤103、分别将所述每条语料对应的M个分类中每两个分类组成分类数据对。
本实施例中,可以分别将N条语料中每条语料对应的M个分类中每两个进行配对,形成分类数据对。例如,若语料a对应的三个分类分别为a1、a2和a3,语料b对应的三个分类分别为b1、b2和b3,则将语料a对应的三个分类中的每两个分类组成分类数据对,可以得到(a1,a2)、(a1,a3)和(a2,a3),将语料b对应的三个分类中的每两个分类组成分类数据对,可以得到(b1,b2)、(b1,b3)和(b2,b3)。
步骤104、分别确定每个所述分类数据对的第一模糊相关系数。
本实施例中,上述分类数据对的第一模糊相关系数可以用于反映该分类数据对的两个分类的模糊性。例如,可以根据分类数据对中的两个分类的概率计算该分类数据对的第一模糊相关系数,或者可以按照计次的方式计算分类数据对的第一模糊相关系数(如存在则计次为1)等。
在该步骤104中,可以分别确定在步骤103中得到的每个分类数据对的第一模糊相关系数,从而可以得到多个分类数据对的第一模糊相关系数。
步骤105、根据全部所述分类数据对的第一模糊相关系数,计算K个分类中每个分类的模糊性指标;所述K个分类根据所述N条语料中每条语料对应的M个分类确定,K为大于或等于M且小于或等于L的正整数。
本实施例中,上述全部所述分类数据对可以包括上述步骤103所得到的全部的分类数据对。上述K个分类可以包括N条语料中每条语料对应的M个分类中所有不同的分类。上述模糊性指标可以包括但不限于分类的模糊度、分类的模糊性统计值、分类占知识库全部分类的权重(也即类模糊指数)和分类之间的相关系数(也即类模糊相关系数)等中的一项或多项。
本发明实施例提供的分类模糊性分析方法,通过将知识库中的N条语料输入分类模型,得到所述N条语料中每条语料对应的L个分类的概率;分别根据所述每条语料对应的L个分类的概率,确定所述每条语料对应的M个分类;分别将所述每条语料对应的M个分类中每两个分类组成分类数据对;分别确定每个所述分类数据对的第一模糊相关系数;根据全部所述分类数据对的第一模糊相关系数,计算K个分类中每个分类的模糊性指标,不仅可以提高知识库分类的模糊性分析的客观性,使得所得到的分析结果的可靠性更强,还可提高知识库分类的模糊性分析的效率。
可选的,上述步骤104,也即所述分别确定每个所述分类数据对的第一模糊相关系数,可以包括:
分别根据每个所述分类数据对中的两个分类的概率确定每个所述分类数据对的第二模糊相关系数,或者分别确定每个所述分类数据对的第二模糊相关系数为预设值;
其中,所述分类数据对的第一模糊相关系数为所述分类数据对的第二模糊相关系数,或者所述分类数据对的第一模糊相关系数为根据所述分类数据对的第二模糊相关系数和所述分类数据对的目标权重值计算得到的值。
在一实施方式中,对于上述步骤103得到的每个分类数据对,可以根据每个分类数据对中的两个分类的概率确定每个分类数据对的第二模糊相关系数。例如,可以将1与分类数据对中的两个分类的概率的差值的绝对值的差值确定为该分类数据对的第二模糊相关系数,或者可以预先建立第二模糊相关系数和概率差值之间的对应关系,进而可以根据分类数据对中的两个分类的概率的差值和所述对应关系确定该分类数据对的第二模糊相关系数等。
在另一实施方式中,对于上述步骤103得到的每个分类数据对,可以确定每个分类数据对的第二模糊相关系数均为预设值,其中,预设值可以是任意的正数,例如,1、2等。例如,可以对每个分类数据对按次进行统计,存在则记为1,也即确定每个分类数据对的第二模糊相关系数为1。
需要说明的是,本实施例中每个分类数据对的第一模糊相关系数可以为该分类数据对的第二模糊相关系数,也可以为根据该分类数据对的第一模糊相关系数和该分类数据对的目标权重值计算得到的值,例如,可以将分类数据对的第一模糊相关系数和该分类数据对的目标权重值的乘积确定为该分类数据对的第一模糊相关系数。
可选的,可以基于分类数据对的两个分类确定该分类数据对的目标权重值,例如,可以基于分类数据对的两个分类的概率确定该分类数据对的目标权重值,或者可以基于分类数据对的两个分类中每个分类对应的预设权重值确定该分类数据对的目标权重值等。
可选的,在所述分类数据对的两个分类的概率为目标概率排序中相邻的两个概率的情况下,所述分类数据对的目标权重值为第一权重值;在所述分类数据对的两个分类的概率为所述目标概率排序中不相邻的两个概率的情况下所述分类数据对的目标权重值为第二权重值;
其中,所述目标概率排序为所述M个分类的概率按照从大到小或从小到大的顺序排序,所述第一权重值大于所述第二权重值。
本实施例中,上述第一权重值和第二权重值可以根据实际情况进行合理设置,例如,第一权重值可以为1,第二权重值可以为0或0.5。
实际应用中,可以在得到M个分类的概率的情况下,将M个分类的概率按照从大到小或从小到大的顺序进行排序,得到目标概率排序,这样对于上述步骤103得到的每个分类数据对,若该分类数据对的两个分类的概率为目标概率排序中相邻的两个概率,例如,该分类数据对的两个分类的概率在目标概率排序中分别位于第一位和第二位,则可以认为该分类数据对为相邻分类数据对,确定该分类数据对的目标权重值为第一权重值;若该分类数据对的两个分类的概率为目标概率排序中不相邻的两个概率,例如,该分类数据对的两个分类的概率在目标概率排序中分别位于第一位和第三位,则可以认为该分类数据对为非相邻分类数据对,确定该分类数据对的目标权重值为第二权重值。
本实施例中,相邻分类数据对(也即两个分类的概率为目标概率排序中相邻的两个概率的分类数据对)的目标权重值大于非相邻分类数据对(也即两个分类的概率为目标概率排序中不相邻的两个概率的分类数据对)的目标权重值,进而可以使得模糊性分析结果可以更为准确的反映分类之间的模糊特性。
可选的,所述分别根据每个所述分类数据对中的两个分类的概率,确定每个所述分类数据对的第二模糊相关系数,可以包括:
分别将1和每个所述分类数据对对应的目标值的差值,确定为每个所述分类数据对的第二模糊相关系数;所述分类数据对对应的目标值为所述分类数据对中的两个分类的概率的差值的绝对值。
例如,对于上述步骤103中得到的每个分类数据对,可以按照如下公式计算该分类数据对的第二模糊相关系数:
FCC(a,b)=1-|Prob(a)-Prob(b)|;
其中,FCC(a,b)表示分类数据对(a,b)的第二模糊相关系数,Prob(a)表示分类数据对(a,b)中的分类a的概率,Prob(b)表示分类数据对(a,b)中的分类b的概率,||表示取绝对值符号。
本发明实施例通过分别将1和每个分类数据对中的两个分类的概率的差值的绝对值的差值,确定为每个分类数据对的第二模糊相关系数,这样可以使得两个分类越相近的分类数据对的第二模糊相关系数越大,进而可以使得模糊性分析结果可以更为准确的反映分类之间的模糊特性。
可选的,上述步骤105,也即所述根据全部所述分类数据对的第一模糊相关系数,计算K个分类中每个分类的模糊性指标,可以包括:
分别将全部所述分类数据对中包括同一分类的分类数据对的第一模糊相关系数进行累加,得到所述K个分类中的每个分类的模糊性统计值。
本实施例中,可以将上述步骤103得到的全部分类数据对中包括同一分类的分类数据对的第一模糊相关系数进行累加。例如,将全部分类数据对中包括分类a的分类数据对的第一模糊相关系数进行累加,得到分类a的模糊性统计值,将全部分类数据对中包括分类b的分类数据对的第一模糊相关系数进行累加,得到分类b的模糊性统计值,以此类推,直至得到全部分类的模糊性统计值。
又例如,若上述步骤103得到的全部分类数据对中包括分类a的分类数据对及其第一模糊相关系数表示如下:
{(a,b):d;(a,b1):d1;…;(a,bn):dn},其中,n为正整数,则分类a的模糊性统计值Sum(a)=d1+d2+…+dn。
可选的,本实施例也可以先分别将全部所述分类数据对中相同的分类数据对的第一模糊相关系数进行累加,得到不同的分类数据对的累加值。例如,将上述步骤103得到的全部分类数据对中的所有分类数据对(a,b)的第一模糊相关系数进行累加,得到分类数据对(a,b)的累加值,将全部分类数据对中的所有分类数据对(a,b1)的第一模糊相关系数进行累加,得到分类数据对(a,b1)的累加值,以此类推,直至得到所有不同的分类数据对的累加值。需要说明的是,分类数据对(a,b)和分类数据对(b,a)可以作为相同的分类数据对进行处理,其中,上述a和b表示任意不同的两个分类。
可选的,上述不同的分类数据对及其累加值可以表示为如下格式:
{(a1,b1):c1;(a2,b2):c2;…;(an,bn):cn};
其中,(ai,bi)表示分类数据对,ci表示(ai,bi)的累加值,i为大于或等于1且小于或等于n的整数,n为正整数。
具体的,在得到各个不同的分类的累加值之后,可以分别将全部不同的分类数据对的累加值中包括同一分类的分类数据对的累加值进行累加,得到各个不同分类的模糊性统计值。
本实施例通过统计各个分类的模糊性统计值,可以较为直观的反映各个分类对于知识库的重要程度,进而可以对知识库的分类优化提供参考。
可选的,所述分别将全部所述分类数据对中包括同一分类的分类数据对的第一模糊相关系数进行累加,得到所述K个分类中的每个分类的模糊性统计值之后,所述方法还可以包括如下至少一项:
分别将所述K个分类中的每个分类的模糊性统计值除以所述K个分类的模糊性统计值之和,得到所述K个分类中的每个分类的类模糊指数;
将目标分类数据对的累加值除以第一分类的模糊性统计值,得到所述第一分类与第二分类之间的类模糊相关系数;所述第一分类和所述第二分类为所述目标分类数据对的两个分类,所述目标分类数据对的累加值为全部所述分类数据对中所有的目标分类数据对的第一模糊相关系数的累加值。
本实施例中,上述目标分类数据对可以是上述步骤103得到的分类数据对中任意的分类数据对。上述目标分类数据对的累加值可以为全部所述分类数据对中所有的目标分类数据对的第一模糊相关系数的累加值,例如,若目标分类数据对包括分类数据对(a,b),则可以将上述步骤103得到的分类数据对中所有的分类数据对(a,b)的第一模糊相关系数进行累加,得到分类数据对(a,b)的累加值;若目标分类数据对包括分类数据对(a,c),则可以将上述步骤103得到的分类数据对中所有的分类数据对(a,c)的第一模糊相关系数进行累加,得到分类数据对(a,c)的累加值。
需要说明的是,分类数据对(a,b)和分类数据对(b,a)可以作为相同的分类数据对进行处理,其中,上述a和b可以表示任意不同的两个分类。
本实施例在得到K个分类中的每个分类的模糊性统计值之后,可以基于K个分类中的每个分类的模糊性统计值计算各个分类占知识库全部分类的权重(也即类模糊指数)、分类之间的相关系数(也即类模糊相关系数)等模糊性指标。
例如,若K个分类的模糊性统计值分别为Sum(a1)至Sum(ak),则分类a1的类模糊指数P(a1)=Sum(a1)/(Sum(a1)+Sum(a2)+…+Sum(ak)),分类a2的类模糊指数P(a1)=Sum(a2)/(Sum(a1)+Sum(a2)+…+Sum(ak)),以此类推。
又例如,若分类a1的模糊性统计值为Sum(a1),分类数据对(a1,b1)的累加值为c1,则分类a1与分类b1之间的类模糊相关系数P1(a1,b1)=c1/Sum(a1);若分类a1的类模糊指数为Sum(a1),分类数据对(a1,b2)的累加值为c2,则分类a1与分类b2之间的类模糊相关系数P1(a1,b2)=c2/Sum(a1)。
本实施例通过统计各个分类占知识库全部分类的权重(也即类模糊指数),可以较为直观的反映各个分类对于知识库的重要程度,进而可以对知识库的分类优化提供参考;通过计算分类之间的相关系数(也即类模糊相关系数),便于进行相关分类的推荐。
可选的,所述将知识库中的N条语料输入分类模型之前,所述方法还可以包括:
根据所述知识库中的语料对预设的分类网络进行训练,得到所述分类模型。
本实施例中,可以选取知识库中的一部分语料(即标签数据)对预设的分类网络进行训练,并可选取知识库中的另一部分语料对训练得到的分类模型进行测试。其中,上述分类网络可以是任意的监督学习网络,例如,神经网络。
本实施例基于知识库中的语料训练得到的分类模型,进而基于该分类模型对知识库中的语料进行分类,可以提高分类结果的准确性。
以下结合图2对本发明实施例提供的分类模糊性分析方法进行说明:
步骤a1、根据知识库中的语料训练分类模型。
该步骤中,可以基于知识库中分类的标签数据(也即包括分类标签的语料),采用有监督学习的方式训练分类模型。
步骤a2、将知识库中的语料输入分类模型,得到每条语料对应的前M个预测结果。
该步骤中,可以将知识库中的部分语料或全部语料输入分类模型,得到输入的每条语料的对应的前M个预测结果,也即概率位于目标概率排序的前M的分类,该目标概率排序可以是将分类模型输出的L个分类概率按照从大到小的顺序排序。
步骤a3、对每条语料对应的前M个预测结果进行配对。
该步骤中,可以按照概率从大大小或是从小到大的顺序对每条语料的对应的前M个预测结果(也即每条语料对应的M个分类)进行排序和编号,例如,按照概率从大到小的顺序对每条语料的对应的前M个预测结果排序和编号后得到:{1,2,…,M},然后对每条语料编号后的前M个预测结果中每两个进行配对,可以得到如下的纠缠对(也即上述的分类数据对):{(1,2),(2,3),…(M-1,M),…(1,3),(1,M)}。
步骤a4、按照预设规则统计第一模糊相关系数。
该步骤中,可以按照预设规则统计各个纠缠对的第一模糊相关系数。
在一实施方式中,上述预设规则可以包括根据每个纠缠对的两个分类的概率计算该纠缠对的第二模糊相关系数。
例如,对于每个纠缠对,可以按照如下公式计算该纠缠对的第二模糊相关系数:FCC(a,b)=1-|Prob(a)-Prob(b)|;其中,FCC(a,b)表示纠缠对(a,b)的第二模糊相关系数,Prob(a)表示纠缠对(a,b)中的分类a的概率,Prob(b)表示纠缠对(a,b)中的分类b的概率。
在另一实施方式中,上述预设规则可以包括:对每个纠缠对按次进行统计,存在则记为1,也即确定每个纠缠对的第二模糊相关系数为1。
需要说明的是,对于上述两种实施方式,每个纠缠对的第一模糊相关系数可以为该纠缠对的第二模糊相关系数,或者为该纠缠对的第二模糊相关系数和该纠缠对的目标权重值的乘积。
可选的,对于{(1,2),(2,3),…(N-1,N)}等相邻纠缠对,其目标权重值可以为1;对于{(1,3),(2,5),…(1,N)}等非相邻纠缠对,其目标权重值可以为0、0.5或1。
需要说明的是,本实施例还可以将相同的纠缠对的第一模糊相关系数进行累加,得到各个不同纠缠对的累加值。
步骤a5、规整处理。
该步骤中,可以对所得到的纠缠对的第一模糊相关系数进行规整处理,得到分类的模糊性指标(也可称为类模糊相关统计结果),也可以是对纠缠对的累加值进行规整处理,得到分类的模糊性指标。
在一实施方式中,上述规整处理可以包括:统计每个分类的模糊性统计值(也即每类模糊相关类计次的总累加)。
例如,包括分类a的纠缠对及其累加值表示为如下格式:
{(a,b):c;(a,b1):c1;…;(a,bn):cn},其中,n为正整数,则分类a的模糊性统计值Sum(a)=c1+c2+…+cn。
在另一实施方式中,上述规整处理可以包括:
统计每个分类的模糊性统计值;
统计各个分类占知识库全部分类的权重(也即类模糊指数);例如,对于分类a1类,总分类数为K,分类a1的类模糊指数P(a1)=Sum(a1)/(Sum(a1)+Sum(a2)+…+Sum(ak));
统计分类之间的相关系数(也即类模糊相关系数);例如,若分类a1的模糊性统计值为Sum(a1),纠缠对(a1,b1)的累加值为c1,则分类a1与分类b1之间的类模糊相关系数P1(a1,b1)=c1/Sum(a1)。
综上,本发明实施例提供的分类模糊性确定方法,提出了一种量化模糊性统计指标,将模糊性分析这种主观经验分析的工作,转化为标准化的标注工作,不仅实现了知识库模糊性分析的自动化,还可以降低分析的难度和提升分析结果的可用性。
参见图3,图3是本发明实施例提供的分类模糊性分析装置的结构图。如图3所示,分类模糊性分析装置300包括:
输入模块301,用于将知识库中的N条语料输入分类模型,得到所述N条语料中每条语料对应的L个分类的概率;N为大于1的整数,L为所述分类模型对应的总分类数;
第一确定模块302,用于分别根据所述每条语料对应的L个分类的概率,确定所述每条语料对应的M个分类;M为大于1且小于或等于L的整数;
组合模块303,用于分别将所述每条语料对应的M个分类中每两个分类组成分类数据对;
第二确定模块304,用于分别确定每个所述分类数据对的第一模糊相关系数;
第一计算模块305,用于根据全部所述分类数据对的第一模糊相关系数,计算K个分类中每个分类的模糊性指标;所述K个分类根据所述N条语料中每条语料对应的M个分类确定,K为大于或等于M且小于或等于L的正整数。
可选的,所述第二确定模块,包括:
确定单元,用于分别根据每个所述分类数据对中的两个分类的概率确定每个所述分类数据对的第二模糊相关系数,或者分别确定每个所述分类数据对的第二模糊相关系数为预设值;
其中,所述分类数据对的第一模糊相关系数为所述分类数据对的第二模糊相关系数,或者所述分类数据对的第一模糊相关系数为根据所述分类数据对的第二模糊相关系数和所述分类数据对的目标权重值计算得到的值。
可选的,在所述分类数据对的两个分类的概率为目标概率排序中相邻的两个概率的情况下,所述分类数据对的目标权重值为第一权重值;在所述分类数据对的两个分类的概率为所述目标概率排序中不相邻的两个概率的情况下所述分类数据对的目标权重值为第二权重值;
其中,所述目标概率排序为所述M个分类的概率按照从大到小或从小到大的顺序排序,所述第一权重值大于所述第二权重值。
可选的,所述确定单元具体用于:
分别将1和每个所述分类数据对对应的目标值的差值,确定为每个所述分类数据对的第二模糊相关系数;所述分类数据对对应的目标值为所述分类数据对中的两个分类的概率的差值的绝对值。
可选的,所述第一计算模块具体用于:
分别将全部所述分类数据对中包括同一分类的分类数据对的第一模糊相关系数进行累加,得到所述K个分类中的每个分类的模糊性统计值。
可选的,所述装置还包括第二计算模块,具体用于如下至少一项:
所述分别将全部所述分类数据对中包括同一分类的分类数据对的第一模糊相关系数进行累加,得到所述K个分类中的每个分类的模糊性统计值之后,分别将所述K个分类中的每个分类的模糊性统计值除以所述K个分类的模糊性统计值之和,得到所述K个分类中的每个分类的类模糊指数;
所述分别将全部所述分类数据对中包括同一分类的分类数据对的第一模糊相关系数进行累加,得到所述K个分类中的每个分类的模糊性统计值之后,将目标分类数据对的累加值除以第一分类的模糊性统计值,得到所述第一分类与第二分类之间的类模糊相关系数;所述第一分类和所述第二分类为所述目标分类数据对的两个分类,所述目标分类数据对的累加值为全部所述分类数据对中所有的目标分类数据对的第一模糊相关系数的累加值。
可选的,所述每条语料对应的M个分类包括:将所述每条语料对应的L个分类的概率按照从大到小排序的情况下前M个概率对应的分类。
可选的,所述装置还包括:
训练模块,用于所述将知识库中的N条语料输入分类模型之前,根据所述知识库中的语料对预设的分类网络进行训练,得到所述分类模型。
本发明实施例提供的分类模糊性分析装置300能够实现上述方法实施例中的各个过程,为避免重复,这里不再赘述。
本发明实施例的分类模糊性分析装置300,输入模块301,用于将知识库中的N条语料输入分类模型,得到所述N条语料中每条语料对应的L个分类的概率;第一确定模块302,用于分别根据所述每条语料对应的L个分类的概率,确定所述每条语料对应的M个分类;组合模块303,用于分别将所述每条语料对应的M个分类中每两个分类组成分类数据对;第二确定模块304,用于分别确定每个所述分类数据对的第一模糊相关系数;第一计算模块305,用于根据全部所述分类数据对的第一模糊相关系数,计算K个分类中每个分类的模糊性指标,不仅可以提高知识库分类的模糊性分析的客观性,使得所得到的分析结果的可靠性更强,还可提高知识库分类的模糊性分析的效率。
参见图4,图4是本发明又一实施提供的分类模糊性分析装置的结构图,如图4所示,分类模糊性分析装置400包括:处理器401、存储器402及存储在所述存储器402上并可在所述处理器上运行的计算机程序,数据发送装置400中的各个组件通过总线接口403耦合在一起,所述计算机程序被所述处理器401执行时实现如下步骤:
将知识库中的N条语料输入分类模型,得到所述N条语料中每条语料对应的L个分类的概率;N为大于1的整数,L为所述分类模型对应的总分类数;
分别根据所述每条语料对应的L个分类的概率,确定所述每条语料对应的M个分类;M为大于1且小于或等于L的整数;
分别将所述每条语料对应的M个分类中每两个分类组成分类数据对;
分别确定每个所述分类数据对的第一模糊相关系数;
根据全部所述分类数据对的第一模糊相关系数,计算K个分类中每个分类的模糊性指标;所述K个分类根据所述N条语料中每条语料对应的M个分类确定,K为大于或等于M且小于或等于L的正整数。
可选的,所述计算机程序被所述处理器401执行时还用于:
分别根据每个所述分类数据对中的两个分类的概率确定每个所述分类数据对的第二模糊相关系数,或者分别确定每个所述分类数据对的第二模糊相关系数为预设值;
其中,所述分类数据对的第一模糊相关系数为所述分类数据对的第二模糊相关系数,或者所述分类数据对的第一模糊相关系数为根据所述分类数据对的第二模糊相关系数和所述分类数据对的目标权重值计算得到的值。
可选的,在所述分类数据对的两个分类的概率为目标概率排序中相邻的两个概率的情况下,所述分类数据对的目标权重值为第一权重值;在所述分类数据对的两个分类的概率为所述目标概率排序中不相邻的两个概率的情况下所述分类数据对的目标权重值为第二权重值;
其中,所述目标概率排序为所述M个分类的概率按照从大到小或从小到大的顺序排序,所述第一权重值大于所述第二权重值。
可选的,所述计算机程序被所述处理器401执行时还用于:
分别将1和每个所述分类数据对对应的目标值的差值,确定为每个所述分类数据对的第二模糊相关系数;所述分类数据对对应的目标值为所述分类数据对中的两个分类的概率的差值的绝对值。
可选的,所述计算机程序被所述处理器401执行时还用于:
分别将全部所述分类数据对中包括同一分类的分类数据对的第一模糊相关系数进行累加,得到所述K个分类中的每个分类的模糊性统计值。
可选的,所述计算机程序被所述处理器401执行时还用于如下至少一项:
所述分别将全部所述分类数据对中包括同一分类的分类数据对的第一模糊相关系数进行累加,得到所述K个分类中的每个分类的模糊性统计值之后,分别将所述K个分类中的每个分类的模糊性统计值除以所述K个分类的模糊性统计值之和,得到所述K个分类中的每个分类的类模糊指数;
所述分别将全部所述分类数据对中包括同一分类的分类数据对的第一模糊相关系数进行累加,得到所述K个分类中的每个分类的模糊性统计值之后,将目标分类数据对的累加值除以第一分类的模糊性统计值,得到所述第一分类与第二分类之间的类模糊相关系数;所述第一分类和所述第二分类为所述目标分类数据对的两个分类,所述目标分类数据对的累加值为全部所述分类数据对中所有的目标分类数据对的第一模糊相关系数的累加值。
可选的,所述每条语料对应的M个分类包括:将所述每条语料对应的L个分类的概率按照从大到小排序的情况下前M个概率对应的分类。
可选的,所述计算机程序被所述处理器401执行时还用于:
所述将知识库中的N条语料输入分类模型之前,根据所述知识库中的语料对预设的分类网络进行训练,得到所述分类模型。
本发明实施例还提供一种分类模糊性分析装置,包括处理器,存储器,存储在存储器上并可在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述分类模糊性分析方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述分类模糊性分析方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random AccessMemory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (7)

1.一种分类模糊性分析方法,其特征在于,包括:
将知识库中的N条语料输入分类模型,得到所述N条语料中每条语料对应的L个分类的概率;N为大于1的整数,L为所述分类模型对应的总分类数;
分别根据所述每条语料对应的L个分类的概率,确定所述每条语料对应的M个分类;M为大于1且小于或等于L的整数;
分别将所述每条语料对应的M个分类中每两个分类组成分类数据对;
分别确定每个所述分类数据对的第一模糊相关系数;
根据全部所述分类数据对的第一模糊相关系数,计算K个分类中每个分类的模糊性指标;所述K个分类根据所述N条语料中每条语料对应的M个分类确定,K为大于或等于M且小于或等于L的正整数;
所述分别确定每个所述分类数据对的第一模糊相关系数,包括:
分别根据每个所述分类数据对中两个分类的概率确定每个所述分类数据对的第二模糊相关系数,或者分别确定每个所述分类数据对的第二模糊相关系数为预设值;
其中,所述分类数据对的第一模糊相关系数为所述分类数据对的第二模糊相关系数,或者所述分类数据对的第一模糊相关系数为根据所述分类数据对的第二模糊相关系数和所述分类数据对的目标权重值计算得到的值;
所述分别根据每个所述分类数据对中两个分类的概率确定每个所述分类数据对的第二模糊相关系数,包括:
分别将1和每个所述分类数据对对应的目标值的差值,确定为每个所述分类数据对的第二模糊相关系数;所述分类数据对对应的目标值为所述分类数据对中的两个分类的概率的差值的绝对值;
所述根据全部所述分类数据对的第一模糊相关系数,计算K个分类中每个分类的模糊性指标,包括:
分别将全部所述分类数据对中包括同一分类的分类数据对的第一模糊相关系数进行累加,得到所述K个分类中的每个分类的模糊性统计值。
2.根据权利要求1所述的方法,其特征在于,在所述分类数据对的两个分类的概率为目标概率排序中相邻的两个概率的情况下,所述分类数据对的目标权重值为第一权重值;在所述分类数据对的两个分类的概率为所述目标概率排序中不相邻的两个概率的情况下所述分类数据对的目标权重值为第二权重值;
其中,所述目标概率排序为所述M个分类的概率按照从大到小或从小到大的顺序排序,所述第一权重值大于所述第二权重值。
3.根据权利要求1所述的方法,其特征在于,所述分别将全部所述分类数据对中包括同一分类的分类数据对的第一模糊相关系数进行累加,得到所述K个分类中的每个分类的模糊性统计值之后,所述方法还包括如下至少一项:
分别将所述K个分类中的每个分类的模糊性统计值除以所述K个分类的模糊性统计值之和,得到所述K个分类中的每个分类的类模糊指数;
将目标分类数据对的累加值除以第一分类的模糊性统计值,得到所述第一分类与第二分类之间的类模糊相关系数;所述第一分类和所述第二分类为所述目标分类数据对的两个分类,所述目标分类数据对的累加值为全部所述分类数据对中所有的目标分类数据对的第一模糊相关系数的累加值。
4.根据权利要求1所述的方法,其特征在于,所述每条语料对应的M个分类包括:将所述每条语料对应的L个分类的概率按照从大到小排序的情况下前M个概率对应的分类。
5.一种分类模糊性分析装置,其特征在于,包括:
输入模块,用于将知识库中的N条语料输入分类模型,得到所述N条语料中每条语料对应的L个分类的概率;N为大于1的整数,L为所述分类模型对应的总分类数;
第一确定模块,用于分别根据所述每条语料对应的L个分类的概率,确定所述每条语料对应的M个分类;M为大于1且小于或等于L的整数;
组合模块,用于分别将所述每条语料对应的M个分类中每两个分类组成分类数据对;
第二确定模块,用于分别确定每个所述分类数据对的第一模糊相关系数;
第一计算模块,用于根据全部所述分类数据对的第一模糊相关系数,计算K个分类中每个分类的模糊性指标;所述K个分类根据所述N条语料中每条语料对应的M个分类确定,K为大于或等于M且小于或等于L的正整数;
所述第二确定模块,包括:
确定单元,用于分别根据每个所述分类数据对中的两个分类的概率确定每个所述分类数据对的第二模糊相关系数,或者分别确定每个所述分类数据对的第二模糊相关系数为预设值;
其中,所述分类数据对的第一模糊相关系数为所述分类数据对的第二模糊相关系数,或者所述分类数据对的第一模糊相关系数为根据所述分类数据对的第二模糊相关系数和所述分类数据对的目标权重值计算得到的值;
所述确定单元具体用于:
分别将1和每个所述分类数据对对应的目标值的差值,确定为每个所述分类数据对的第二模糊相关系数;所述分类数据对对应的目标值为所述分类数据对中的两个分类的概率的差值的绝对值;
所述第一计算模块具体用于:
分别将全部所述分类数据对中包括同一分类的分类数据对的第一模糊相关系数进行累加,得到所述K个分类中的每个分类的模糊性统计值。
6.一种分类模糊性分析装置,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的分类模糊性分析方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的分类模糊性分析方法的步骤。
CN201910852791.3A 2019-09-10 2019-09-10 一种分类模糊性分析方法及装置 Active CN111881287B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910852791.3A CN111881287B (zh) 2019-09-10 2019-09-10 一种分类模糊性分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910852791.3A CN111881287B (zh) 2019-09-10 2019-09-10 一种分类模糊性分析方法及装置

Publications (2)

Publication Number Publication Date
CN111881287A CN111881287A (zh) 2020-11-03
CN111881287B true CN111881287B (zh) 2021-08-17

Family

ID=73153832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910852791.3A Active CN111881287B (zh) 2019-09-10 2019-09-10 一种分类模糊性分析方法及装置

Country Status (1)

Country Link
CN (1) CN111881287B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951455A (zh) * 2014-03-26 2015-09-30 北大方正集团有限公司 一种基于类别从属度的信息分类方法及系统
CN108596251A (zh) * 2018-04-25 2018-09-28 中国地质大学(北京) 一种基于委员会机器利用测井数据进行储层流体识别方法
CN109344869A (zh) * 2018-08-28 2019-02-15 东软集团股份有限公司 一种分类模型优化方法、装置及存储设备、程序产品
CN109739989A (zh) * 2018-12-29 2019-05-10 北京奇安信科技有限公司 文本分类方法和计算机设备
CN110096519A (zh) * 2019-04-09 2019-08-06 北京中科智营科技发展有限公司 一种大数据分类规则的优化方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101491196B1 (ko) * 2007-08-03 2015-02-06 스마트시그널 코포레이션 결함 패턴 매칭을 위한 퍼지 분류 접근
US9558455B2 (en) * 2014-07-11 2017-01-31 Microsoft Technology Licensing, Llc Touch classification
CN107679564A (zh) * 2017-09-20 2018-02-09 北京百度网讯科技有限公司 样本数据推荐方法及其装置
CN107967488B (zh) * 2017-11-28 2020-06-23 网宿科技股份有限公司 一种服务器的分类方法及分类系统
CN109308318B (zh) * 2018-08-14 2021-06-04 深圳大学 跨领域文本情感分类模型的训练方法、装置、设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951455A (zh) * 2014-03-26 2015-09-30 北大方正集团有限公司 一种基于类别从属度的信息分类方法及系统
CN108596251A (zh) * 2018-04-25 2018-09-28 中国地质大学(北京) 一种基于委员会机器利用测井数据进行储层流体识别方法
CN109344869A (zh) * 2018-08-28 2019-02-15 东软集团股份有限公司 一种分类模型优化方法、装置及存储设备、程序产品
CN109739989A (zh) * 2018-12-29 2019-05-10 北京奇安信科技有限公司 文本分类方法和计算机设备
CN110096519A (zh) * 2019-04-09 2019-08-06 北京中科智营科技发展有限公司 一种大数据分类规则的优化方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于模糊分类分析法的库存管理模式在港口作业材料管理中的应用";施文 等;《水运工程》;20090325(第3期);第41-45页 *

Also Published As

Publication number Publication date
CN111881287A (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
CN108073568B (zh) 关键词提取方法和装置
CN109783632B (zh) 客服信息推送方法、装置、计算机设备及存储介质
KR102026304B1 (ko) Esg 기반의 기업 평가 수행 장치 및 이의 작동 방법
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及系统
CN104750674B (zh) 一种人机会话满意度预测方法及系统
CN111507573A (zh) 业务员考核方法、系统、设备及存储介质
KR102105319B1 (ko) Esg 기반의 기업 평가 수행 장치 및 이의 작동 방법
CN104834651A (zh) 一种提供高频问题回答的方法和装置
CN110377733A (zh) 一种基于文本的情绪识别方法、终端设备及介质
CN113392920B (zh) 生成作弊预测模型的方法、装置、设备、介质及程序产品
CN108509588B (zh) 一种基于大数据的律师评估方法及推荐方法
CN113297351A (zh) 文本数据标注方法及装置、电子设备及存储介质
CN112700203B (zh) 智能阅卷方法及装置
CN110532374B (zh) 保险信息的处理方法及装置
CN111881287B (zh) 一种分类模糊性分析方法及装置
JP2010272004A (ja) 判別装置及び判別方法、並びにコンピューター・プログラム
CN112860900B (zh) 文本分类方法、装置、电子设备及存储介质
CN112434140B (zh) 一种答复信息处理方法及系统
CN111881286B (zh) 一种分类模糊性分析方法及装置
CN111178982B (zh) 客户满意度的分析方法、存储介质和计算机设备
CN111382265B (zh) 搜索方法、装置、设备和介质
CN110309285B (zh) 自动问答方法、装置、电子设备和存储介质
KR20200088164A (ko) 소셜 네트워크 서비스 메시지의 감정 분석을 위한 POS(part of speech) 특징기반의 감정 분석 방법 및 이를 수행하는 감정 분석 장치
CN113177061B (zh) 一种搜索方法、装置和电子设备
CN114283018A (zh) 综合风险评估方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant