CN104408095B - 一种基于改进的knn文本分类方法 - Google Patents

一种基于改进的knn文本分类方法 Download PDF

Info

Publication number
CN104408095B
CN104408095B CN201410650756.0A CN201410650756A CN104408095B CN 104408095 B CN104408095 B CN 104408095B CN 201410650756 A CN201410650756 A CN 201410650756A CN 104408095 B CN104408095 B CN 104408095B
Authority
CN
China
Prior art keywords
text
point
mrow
type
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410650756.0A
Other languages
English (en)
Other versions
CN104408095A (zh
Inventor
冯素梅
赵云飞
刘建龙
张亚栋
刘邦信
周小波
程建明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China General Nuclear Power Corp
China Techenergy Co Ltd
Original Assignee
China General Nuclear Power Corp
China Techenergy Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China General Nuclear Power Corp, China Techenergy Co Ltd filed Critical China General Nuclear Power Corp
Priority to CN201410650756.0A priority Critical patent/CN104408095B/zh
Publication of CN104408095A publication Critical patent/CN104408095A/zh
Application granted granted Critical
Publication of CN104408095B publication Critical patent/CN104408095B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明提供了一种基于改进的KNN文本分类方法,首先对训练文本进行预处理并计算每个训练样本的特征向量,构建训练集的特征向量空间模型;然后定义密度和距离,将整个样本空间按类型定义为多个球形区和离群点,并存储为训练集库;在进行测试时,首先判断待测文本是否落入某个球形区,根据对应标号判断其类别,否则,离群点和每个球形的中心点作为训练集库,调用KNN算法,判断待测试文本的类别。本发明提供的方法在兼顾分类速度、分类准确度以及对数据倾斜敏感度的同时,能够较好的应用于非球形分布的分类问题,尤其适合具有高维特征向量,分布不规则特征的文本分类问题。

Description

一种基于改进的KNN文本分类方法
技术领域
本发明属于核安全级软件验证与确认技术领域,特别涉及一种基于改进的KNN文本分类方法。
背景技术
近年来,随着软件开发过程逐渐规范化,对技术文件的质量要求越来越高,尤其是在用于核安全级的软件开发过程中,产生大量的技术文件,如需求文件,设计文件等,根据核电相关标准的要求,对每个需求项和设计项,必须满足某些评估规则的要求;并随着软件的迭代开发,技术文件也不断地更新升版,针对每一版的文件中的每个条目项(如需求项或设计项),也必须满足某些规则的要求,因此,快速准确的确定条目项与规则之间的关联关系是质量人员亟待解决的问题。另外,在软件产品开发的整个生命周期中,为了及早发现潜在的失效模式,在每个阶段都要迭代执行失效模式分析(FMEA),建立失效模式库,确定条目项与评估规则之间的匹配关系,在对软件技术文件进行审查和分析时,能够为质量人员自动的识别每个条目项适用的评估规则,便于审查,避免漏审或错审;在进行FMEA分析时,能够识别相关的失效模式,使分析人员特别关注到相关的失效模式,并能够自动查询与条目项与失效模式之间的关联关系是急需解决的问题。
文本分类是指按照预先定义的主题类别,根据信息内容将不同的信息划分到与其相关的类别中,文本分类技术作为组织和处理大量电子资源信息的关键技术,将有助于信息检索和分析,方便用户快速、准确地定位所需要的信息。20世纪90年代以后,随着互联网技术的飞速发展,基于统计理论和机器学习方法成为主流的文本分类技术,主要包括向量空间法、决策树方法、神经网络方法、遗传算法、贝叶斯分类、K近邻(KNN)、支持向量机等。其中K近邻是最早应用于自动文本分类的机器学习算法之一,其分类思想是:取待分类文本d的K个近邻,看这K个近邻中多数属于哪一类,就将d归于该类。该方法由于其简单,易于理解,易于实现,无需估计参数,无需训练,且适合于多分类问题的优势而被广泛的应用。但是,该方法对测试样本分类时计算量大,内存开销大,对数据倾斜问题敏感,尤其当样本表现为高维特征,分布密度不均匀时,将会降低分类器的实现性能和分类性能。另外还有一种结合向量空间法,针对KNN算法耗时缺点,将特征向量空间划分为m+1个区域,每个类的区域以中心向量和球半径表示,所有没有被划分的样本点单独划分为一个区域,在测试时,首先判断是否落入某个球中,调用该区域标号判断类别,否则,调用KNN算法判断类别。该方案在对训练集进行空间划分的过程中,每个类别采取以向量中心和球半径确定的球面作为该类的区域临界面,针对非球形的类族,可能出现大规模的样本点被排除,仅留下一小部分样本点被划分在球形区内,这意味着仅有一小部分被球形区代替,会降低分类速度;同时,对于非球形分布的类族来说,该方法计算出来的球形区并非是该类族的聚集区或代表区域,因此,该方法对于非球形分布的类族来说,分类的准确度会大大降低;此外,当待测点处于球形区的边缘,在调用KNN时,排除球形区内的点对分类的决策影响,容易造成错误的分类结果。
发明内容
针对现有的文本分类算法中精度和速度不能同时兼顾的问题,本发明提出一种基于KNN算法的改进文本分类算法,利用文本分类技术解决软件可靠性评价分析中的规则匹配和失效模式匹配问题。
本发明解决其技术问题所采用的技术方案是,一种基于改进的KNN文本分类方法:
S1,根据每个训练样本的特征向量,构建特征向量空间模型,并存储为训练集库;
采用特征向量空间模型VSM,对所述训练样本进行预处理,并提取特征词;根据训练样本的特征词,计算每个训练样本的特征向量,构建训练集的特征向量空间模型;
所述特征向量空间模型按照文本类型划分为至少一个球形区和至少一个离群点;
所述训练集库包括:每个所述球形区的中心向量、半径、类型和每个离群点的特征向量、类型;
S2,当需要对新文本进行分类时,
首先,根据所述训练样本中提取的特征词在所述新文本中出现的情况,采用向量空间模型,计算所述新文本的特征向量;
然后,判断所述新文本的特征向量是否落入所述训练集库的某个球形区,如果“是”取得所述球形区对应的类型,否则,根据所述训练集库中存储的所有离群点和所有球形区的中心点,采用KNN算法判断所述新文本的类型。
将所述特征向量空间模型按类型划分为多个球形区和离群点的方法:
1)依据每个文本类型中所有样本点的局部密度ρi和样本点到高密度点的距离δi,将所述文本类型划分为核心区和离群点;
2)取某文本类型作为当前文本类型,并将所述当前文本类型核心区的样本点设为待划分样本点;
3)按照所述待划分样本点的局部密度值进行从大到小排序,取当前局部密度值最大的点为中心,构造一个球形区;所述球形区域内所有的点属于当前文本类型,所述球形区的半径为与所述球形区中心点之间的相似度最小的值;
4)将未被划分到所述步骤3)中球形区的样本点作为待划分样本点,重复步骤3),直到属于所述类型核心区的样本点都被划分到某个球形区内;
5)重复步骤2)直到将所述特征向量空间模型所有类型的核心区的样本点都被划分到某个球形区内;
优选的,在所述步骤3)的所述球形区中,如果除了所述球形区中心点外,没有其它点属于所述球形区则所述球形区中心点为离群点;
优选的,所述文本类型还包括截止距离dc;根据属于所述文本类型的样本点的邻居数为所有所述特征向量空间模型中样本点的1%-2%确定所述类型的截止距离dc
优选的,根据属于所述类型的离群点数量占所述类型样本点总数的一定比例确定所述样本点的局部密度ρi和所述样本点到高密度点的距离δi的阈值;
优选的,所述属于所述类型的离群点数量占所述类型样本点总数的5%-10%。
所述样本点的局部密度ρi的计算方法为:从所述样本点中任取一点i,计算与点i的相似度大于所述样本点的文本类型的截止距离dc的样本点的个数,为所述点i的局部密度ρi
优选的,所述点i的局部密度ρi的计算式为:
ρi=∑kx(dc-dik) (1)
其中dc为截止距离;dik为i点到其他样本点k的距离;
优选的,优选的,所述点i到高密度点j的距离δi为:
所述高密度点j为:比所述点i密度大,且距离所述点i的距离最小的点;
优选的,当所述点i为密度最大的点时,点j为距离点i最近的点,δi为:
所述特征向量的建立方法为:忽略所述特征词在所述文本中的先后顺序,将所述文本用向量:d(w1,w2,…,wn)表示;其中,d为所述文本;所述w1,w2,…,wn为所述文本的n个特征词;
优选的,所述文本中的特征词是互异的;
所述特征向量空间模型VSM方法包括:将每个所述训练样本的特征向量构成的向量空间模型VSM标记为D(d1,d2,...,dT),将所述文本类型标记为C(c1,c2,...,cm);所述相似程度为两点之间的距离;其中D为所有文本的集合,d1,d2,...,dT为属于向量空间模型D的所有文本,C为文本类型的集合,c1,c2,...,cm为所有的文本类型。
所述球形区表示如下:
Bit={x∈Rn|Sim(x,vt(ci))≥rit},i=1,...,m,t=1,2,...,f(ci) (4)
其中,rit、Bit分别为类别ci的核心区中划分的第t个球半径和球,UnhandledCore(ci)为类别ci的核心区中没有被划分过的样本点集合,Core(D)为所有类的核心区的集合;vt(ci)为在确定第t个球形时,类ci的UnhandledCore(ci)中ρi最大的点,f(ci)为类ci核心区最多能划分的球的个数。
所述基于改进的KNN文本分类方法,应用于核电仪控系统技术文件的文本评估规则关联;
所述训练文本或新文本为:核电站仪控系统技术文件;所述核电站仪控系统技术文件包括:技术文件、需求文件和设计文件;
所述文本类别包括:数据采集、通信、接口、故障诊断、冗余;
所述关键词包括:采集、轮询、质量位、故障、数据包、报警、定期、自诊断、协议、AIS、计数器、运算、正确性、初始化、竞争、写双口、RAM、完整性、破坏、读写、通信、干扰、非规约数、收发、看门狗、上行帧、下行帧、响应时间、中断、喂狗。
所述基于改进的KNN文本分类方法,应用于核电仪控系统技术文件的失效模式分析;
所述训练文本或所述新文本为:核电站仪控系统技术文件;所述核电站仪控系统技术文件包括:技术文件、需求文件和设计文件;
所述文本类别包括:通道采集、板卡自诊断、通信、运算处理、状态显示与警告;
所述关键词包括:初始化、参数、配置、EEPROM、校验、计数器、确定性、协议、数据帧、MAC地址、指示灯、报警、质量位、竞争、写双口、RAM、完整性、破坏、读写、通信、通道、缓冲区、自诊断、ROM、超时、指令、日志、复位、冗余、量程、上限、下限、挂起、精度、轮询、中断、误差、干扰、非规约数、收发、看门狗。
本发明的有益效果是:
1、提出了一种改进的文本分类方法,该方法基于KNN算法原理,将训练集简化为多个大小不等的球形区和离群点来表示,提高了分类速度,同时兼顾分类的精度。
2、提出了一种表征VSM空间类族分布特征的处理方法,该方法基于密度和距离将所有类族的核心区划分为大小不等的球形区,所有类族的离群点单独表示,该方法能够更真实的反应出类族的分布特点,尤其是针对非球形分布的类族,从而大大提高了分类性能。
3、当待测文本没有落入某个核心区时,将每个球形中心向量与所有离群点一起,参与KNN算法的决策,能够客观的体现核心区对待测文本分类的贡献,避免了没有落入核心区,但是处于核心区边缘的点,由于中心向量的贡献缺失,被错误的划分。
附图说明
下面结合附图对本发明所述的基于改进的KNN文本分类方法进行具体说明。
图1是本发明文本分类算法流程图;
图2是本发明特征向量空间区域划分与存储流程图;
图3是本发明确定待测文本类别的流程图;
图4是本发明失效模式分析表。
具体实施方式
本发明提出了一种改进的基于KNN的文本分类算法,并应用于软件需求和设计文件的审查(尤其是软件可靠性审查)过程中。该算法首先对训练文本进行预处理和构建特征向量空间模型,包括分词(本算法采用统计分词与字典相结合的通用分词方法进行分词),去除停用词(停用词是指一些在文件集中出现频率很高,明显对分类任务没有贡献或贡献很小的词。文件集中出现的副词、代词、冠词、介词和连词等不表示实际语义的虚词,都属于停用词的范畴),特征词提取(目的是为了选取对分类有帮助的词,并降维,采用卡方检验方法,详见步骤2),计算每个训练样本的特征向量,构建训练集的特征向量空间模型;然后定义密度和距离,将每类训练样本划分为核心区和离群点,整个样本空间由多个球形区和各个类的离群点表示,将每个球形区的中心向量和半径,离群点存储,作为测试比对的训练库;在进行测试时,首先判断待测文本是否落入某个球形区,根据对应标号判断其类别,否则,离群点和每个球形的中心点作为训练集库,调用KNN算法,判断待测试文本的类别(详见步骤5)。
具体步骤如图1所示:
步骤1,文本预处理:搜集文本并进行预处理,包括处理文本乱码及非文本内容,分词并去停用词,删除非相关文本;
步骤2,特征词提取:特征提取主要是对文本向量降维,选择尽可能少且与文件主题概念密切相关的文件特征,本发明特征选取采取卡方检验(Chi-square test)的方法进行,也可以采取信息熵等其它方法。
步骤3,特征向量计算:文本的表示主要采用向量空间模型VSM(Vector SpaceModel)即文件中词条出现的顺序是无关紧要的,他们对于文件的类别所起的作用是相互独立的,因此可以把文件看作一系列无序词条的集合,因此在该模型中,文件空间被视为一组正交词条向量组成的向量空间,每个文本d,都可以映射为此空间中的一个特征向量,即可以忽略特征项在文件中的先后顺序并要求特征项互异,因此,将文件d,简化为一特征项的权重为分量的向量表示:d(w1,w2,…,wn)。本发明采用TF-IDF(Term frequency-Inversedocument frequency,一种用于资讯检索与资讯探勘的常用加权技术)方法计算文本特征项的权重,并且进行归一化处理。
步骤四,特征向量空间区域划分与存储:文本分类算法首先基于密度和距离找出每类中的离群点,以及该类的核心区,然后将向量空间划分为多个球形区和离群点。具体方法如图2所示:
将每篇文件的特征向量构成VSM模型记为D(d1,d2,...,dT),类别记为C(c1,c2,...,cm),使用夹角余弦来衡量它们间的相似程度(距离)为dij=Sim(di,dj)=(di.dj)/|di|.|dj|,本发明中的VSM模型已经归一化,因此dij=Sim(di,dj)=di.dj。对所有坐标点,基于相互距离,定义局部密度,即与该点相似度在一定范围内的点的总数,
ρi=∑kx(dc-dik) (1)
其中dc为截止距离。
定义到高密度点j的距离δi为(这里的点j为:比点i密度大的点中距离最小的点):
对于密度最大的点,找到距离该密度最大的点距离最小的点j,我们定义δi为:
其中,dij为i点到j点的距离。
根据以上定义可知,每个类的中心是这样的一类点:它们被很多点围绕(导致局部密度大),且与局部密度比自己大的点之间的相似度也很小,即距离δi很小。因此,每个类的中心拥有高ρi,低δi的特征,那些局部密度ρi很小且δi也很小的点是离群点。
a)确定每个类的核心区和离群点。
针对每个类ci中所有的样本点,计算ρi和δi这两个属性值,确定ci的中心以及离群点,除离群点之外的所有的点认为是ci的核心区。在此过程中,首先确定dc,dc是一个截止距离,ρv相当于与点i的相似度大于dc的点的个数。参考Alex Rodriguez and AlessandroLaio在Clustering by fast search and find of density peaks中聚类的做法,选择dc使得平均每个点的邻居数为所有点的1%-2%。在确定离群点时,选择ρi和δi的阈值以被认为的离群点为该类总样本数的5%-10%为依据,也可以根据具体问题选择其它的剔除标准。
b)将每个类的核心区划分为多个球形区。
除离群点外,将其余核心区的样本点按照密度值进行从大到小排序,以当前ρi值为最大的点为中心,构造一个尽可能大的区域,该区域内所有的点属于该类,区域的半径为与中心之间的相似度最小的值。在核心区中没有被划分的样本点中,选取密度ρi最大的点为中心,重复上面的过程。直到所有核心区的样本点都被划分到某个球形区内。按照此方法,如果发现球形区内没有一个符合要求的点(即该球形区,除中心点外没有其它点属于当前球形区),则该中心点作为离群点处理。球形区表示如下:
Bit={x∈Rn|Sim(x,vt(ci))≥rit},i=1,...,m,t=1,2,...,f(ci) (4)
其中,rit、Bit分别为类ci的核心区中划分的第t个球半径和球,UnhandledCore(ci)为类ci的核心区中没有被划分过的样本点集合,Core(D)为所有类的核心区的集合。vt(ci)为在确定第t个球形时,类ci的UnhandledCore(ci)中ρi最大的点,f(ci)为类ci核心区最多能划分的球的个数。
c)存储为训练集库
按照b)描述的方法,针对每类样本将其划分为大小不同的区域,连同识别出的离群点,整个样本空间被划分成多个球形区以及离群点,作为分类的依据存储。因此,可将训练集简化存储为<vt(ci),rit,ci>和<doutliers,ci>(即每个所述球形区的中心向量、半径、类型和每个离群点的特征向量、类型),其中doutliers为离群点的特征向量。
步骤5,确定待测文本的类别:首先计算待测文本的特征向量dtest与每个球中心向量vt(ci)的相似度,与rit比较,判断是否落入该球内,如果是,则判断为类ci;否则,将每个<vt(ci),ci>和<doutliers,ci>(即每个所述球形区的中心向量、类型和每个离群点的特征向量、类型)一起,计算与dtest的相似度,根据KNN算法判断该待测文本的类型。这种方法能够避免没有落入核心区,但是处于核心区边缘的点,由于中心向量的贡献缺失,而得出错误的划分。具体步骤如图3所示:
i)计算所述新文本的特征向量dtest
ii)将所述训练集库中的第一个球形区设为当前球形区;
iii)将当前球形区点的中心向量设定为当前中心向量vt(ci);
iv)取所述新文本的特征向量dtest与所述当前中心向量vt(ci)的相似度;
v)根据所述公式(5),将所述相似度与所述rit比较,判断所述新文本的特征向量dtest是否落入球i内,如果是,则所述新文本为类别ci;否则,判断所述当前球形区是否为所述训练集的最后一个球形区,如果“是”,则执行步骤vi);否则取所述训练集库中的下一个球形区作为当前球形区,并执行步骤iv);
vi)将每个<vt(ci),ci>和<doutliers,ci>(即每个所述球形区的中心向量、类型和每个离群点的特征向量、类型)一起,计算与dtest的相似度,根据KNN算法判断所述新文本的类型。
核电站相关技术文件条目项与评估规则和失效模式匹配举例介绍:
将核电站仪控系统涉及的各种文件,包括:技术文件、需求文件和设计文件等文件,采用本发明提供的基于改进的KNN文本分类方法,建立模型,并根据建立的模型对上述文件进行分类,得到核电站仪控系统相关设备、板卡等的适用评估规则或者相关失效模式。
例如,在核电站系统中,技术文件中有一个条目项如下描述:网络通信单元接收、发送双方必须采用双口RAM的方式实现通信隔离,接收与发送双方功能彼此独立,任一方出现故障后,不影响另一方的功能。
1)如果要得到核电站仪控系统相关设备、板卡等的适用评估规则时
在核电站仪控系统涉及的各种文件中,根据关键字、文本类别等构建向量空间模型,建立训练集库,在建立的向量空间模型中按各文本类型确定核心区和离散点,以及在核心区中划分球形区域,并将需要测试的各种文件按照本发明提供的基于改进的KNN文本分类方法进行文本分类;
具体的,文本类别可以包括:数据采集、通信、接口、故障诊断、冗余;
关键词可以包括:采集、轮询、质量位、故障、数据包、报警、定期、自诊断、协议、AIS、计数器、运算、正确性、初始化、竞争、写双口、RAM、完整性、破坏、读写、通信、干扰、非规约数、收发、看门狗、上行帧、下行帧、响应时间、中断、喂狗。
然后通过本发明提供的基于改进的KNN文本分类算法得到的适用评估规则如下:
对安全级通信、尤其是用于保护系统序列之间的通信,应满足通信隔离的原则,包括单向通信、无握手、发送/接收行为不依赖对端状态,以避免错误和故障的扩散。
对采用双口RAM形式的通信接口,通信双方执行读写操作时要避免冲突:应避免对双口RAM区同时执行读写操作;读写速度应与缓冲大小相匹配,以免读操作意外受到写操作的影响。
对外部接口(如通信接口、人机接口)信息要进行检查,包括检查非规约数、数据完整性、人因操作(如抖动、开关同时操作)等,提供必要的抗扰和防误操作控制。
在维护期间,运行系统中的任何模块都可以单独被人工复位和重启、重启后可达到稳定状态。
在对重要信息的存储和传输,应提供具有高检错能力的信息完整性的检验措施。
2)如果要得到核电站仪控系统相关设备、板卡等的相关失效模式时
在核电站仪控系统涉及的各种文件中,根据关键字、文本类别等构建向量空间模型,建立训练集库,在建立的向量空间模型中按各文本类型确定核心区和离散点,以及在核心区中划分球形区域,并将需要测试的各种文件按照本发明提供的基于改进的KNN文本分类方法进行文本分类;
具体的,失效模式文本类别可以包括:通道采集、板卡自诊断、通信、运算处理、状态显示与警告等;
失效模式文本中涉及的关键词可以包括:初始化、参数、配置、EEPROM、校验、计数器、确定性、协议、数据帧、MAC地址、指示灯、报警、质量位、竞争、写双口、RAM、完整性、破坏、读写、通信、通道、缓冲区、自诊断、ROM、超时、指令、日志、复位、冗余、量程、上限、下限、挂起、精度、轮询、中断、误差、干扰、非规约数、收发、看门狗等;
然后,通过本发明提供的基于改进的KNN文本分类算法得到的相关失效模式如下:
竞争写双口RAM致数据完整性被破坏;
读写双口RAM速率失调;
通信干扰致产生非规约数;
收发非规约数。
这些失效模式将直接用于FMEA分析中,如图4。
KNN算法:计算一个点A与其他所有点之间的距离,取出与该点最近的k个点,然后统计这k个点里面所属分类比例最大的,则点A属于该分类。
以上所述仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专利的技术人员在不脱离本发明技术方案范围内,当可利用上述提示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明方案的范围内。

Claims (10)

1.一种基于改进的KNN文本分类方法,其特征在于:
S1,根据每个训练样本的特征向量,构建特征向量空间模型,并存储为训练集库;
采用特征向量空间模型VSM,对所述训练样本进行预处理,并提取特征词;根据训练样本的特征词,计算每个训练样本的特征向量,构建训练集的特征向量空间模型;
所述特征向量空间模型按照文本类型划分为至少一个球形区和至少一个离群点,包括如下步骤:
1)依据每个文本类型中所有样本点的局部密度ρi和样本点到高密度点的距离δi,将所述文本类型划分为核心区和离群点;
2)取某文本类型作为当前文本类型,并将所述当前文本类型核心区的样本点设为待划分样本点;
3)按照所述待划分样本点的局部密度值进行从大到小排序,取当前局部密度值最大的点为中心,构造一个球形区;所述球形区域内所有的点属于当前文本类型,所述球形区的半径为与所述球形区中心点之间的相似度最小的值;
4)将未被划分到所述步骤3)中球形区的样本点作为待划分样本点,重复步骤3),直到属于所述类型核心区的样本点都被划分到某个球形区内;
5)重复步骤2)直到将所述特征向量空间模型所有类型的核心区的样本点都被划分到某个球形区内;
所述训练集库包括:每个所述球形区的中心向量、半径、类型和每个离群点的特征向量、类型;
S2,当需要对新文本进行分类时,
首先,根据所述训练样本中提取的特征词在所述新文本中出现的情况,采用向量空间模型,计算所述新文本的特征向量;
然后,判断所述新文本的特征向量是否落入所述训练集库的某个球形区,如果“是”取得所述球形区对应的类型,否则,根据所述训练集库中存储的所有离群点和所有球形区的中心点,采用KNN算法判断所述新文本的类型。
2.根据权利要求1所述的基于改进的KNN文本分类方法,其特征在于,
在S1中的所述步骤3)的所述球形区中,如果除了所述球形区中心点外,没有其它点属于所述球形区则所述球形区中心点为离群点。
3.根据权利要求1所述的基于改进的KNN文本分类方法,其特征在于,所述文本类型还包括截止距离dc;根据属于所述文本类型的样本点的邻居数为所有所述特征向量空间模型中样本点的1%-2%确定所述类型的截止距离dc
4.根据权利要求1所述的基于改进的KNN文本分类方法,其特征在于,根据属于所述类型的离群点数量占所述类型样本点总数的一定比例确定所述样本点的局部密度ρi和所述样本点到高密度点的距离δi的阈值,其中所述属于所述类型的离群点数量占所述类型样本点总数的5%-10%。
5.根据权利要求1所述的基于改进的KNN文本分类方法,其特征在于,所述样本点的局部密度ρi的计算方法为:从所述样本点中任取一点i,计算与点i的相似度大于所述样本点的文本类型的截止距离dc的样本点的个数,为所述点i的局部密度ρi
其中,所述点i的局部密度ρi的计算式为:
ρi=∑kx(dc-dik) (1)
其中dc为截止距离;dik为i点到其他样本点k的距离;
所述点i到高密度点j的距离δi为:
<mrow> <msub> <mi>&amp;delta;</mi> <mi>i</mi> </msub> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <mi>j</mi> <mo>:</mo> <msub> <mi>&amp;rho;</mi> <mi>j</mi> </msub> <mo>&gt;</mo> <msub> <mi>&amp;rho;</mi> <mi>i</mi> </msub> </mrow> </munder> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>
所述高密度点j为:比所述点i密度大,且距离所述点i的距离最小的点;
优选的,当所述点i为密度最大的点时,点j为距离点i最近的点,δi为:
<mrow> <msub> <mi>&amp;delta;</mi> <mi>i</mi> </msub> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>j</mi> </munder> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> <mo>.</mo> </mrow>
6.根据权利要求1所述的基于改进的KNN文本分类方法,其特征在于,所述特征向量的建立方法为:忽略所述特征词在所述文本中的先后顺序,将所述文本用向量:d(w1,w2,…,wn)表示;其中,d为所述文本;所述w1,w2,…,wn为所述文本的n个特征词;
优选的,所述文本中的特征词是互异的。
7.根据权利要求1-6任一项所述的基于改进的KNN文本分类方法,其特征在于,所述特征向量空间模型VSM方法包括:将每个所述训练样本的特征向量构成的向量空间模型VSM标记为D(d1,d2,...,dT),将所述文本类型标记为C(c1,c2,...,cm);所述相似程度为两点之间的距离;其中D为所有文本的集合,d1,d2,...,dT为属于向量空间模型D的所有文本,C为文本类型的集合,c1,c2,...,cm为所有的文本类型。
8.根据权利要求1所述的基于改进的KNN文本分类方法,其特征在于,所述球形区表示如下:
Bit={x∈Rn|Sim(x,vt(ci))≥rit},i=1,...,m,t=1,2,...,f(ci) (4)
其中,rit、Bit分别为类别ci的核心区中划分的第t个球半径和球,UnhandledCore(ci)为类别ci的核心区中没有被划分过的样本点集合,Core(D)为所有类的核心区的集合;vt(ci)为在确定第t个球形时,类ci的UnhandledCore(ci)中ρi最大的点,f(ci)为类ci核心区最多能划分的球的个数。
9.根据权利要求1所述基于改进的KNN文本分类方法,其特征在于,所述基于改进的KNN文本分类方法,应用于核电仪控系统技术文件的文本评估规则关联;
所述训练文本或新文本为:核电站仪控系统技术文件;所述核电站仪控系统技术文件包括:技术文件、需求文件和设计文件;
文本类别包括:数据采集、通信、接口、故障诊断、冗余;
关键词包括:采集、轮询、质量位、故障、数据包、报警、定期、自诊断、协议、AIS、计数器、运算、正确性、初始化、竞争、写双口、RAM、完整性、破坏、读写、通信、干扰、非规约数、收发、看门狗、上行帧、下行帧、响应时间、中断、喂狗。
10.根据权利要求1所述基于改进的KNN文本分类方法,其特征在于,所述基于改进的KNN文本分类方法,应用于核电仪控系统技术文件的失效模式分析;
所述训练文本或所述新文本为:核电站仪控系统技术文件;所述核电站仪控系统技术文件包括:技术文件、需求文件和设计文件;
文本类别包括:通道采集、板卡自诊断、通信、运算处理、状态显示与警告;
关键词包括:初始化、参数、配置、EEPROM、校验、计数器、确定性、协议、数据帧、MAC地址、指示灯、报警、质量位、竞争、写双口、RAM、完整性、破坏、读写、通信、通道、缓冲区、自诊断、ROM、超时、指令、日志、复位、冗余、量程、上限、下限、挂起、精度、轮询、中断、误差、干扰、非规约数、收发、看门狗。
CN201410650756.0A 2014-11-15 2014-11-15 一种基于改进的knn文本分类方法 Active CN104408095B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410650756.0A CN104408095B (zh) 2014-11-15 2014-11-15 一种基于改进的knn文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410650756.0A CN104408095B (zh) 2014-11-15 2014-11-15 一种基于改进的knn文本分类方法

Publications (2)

Publication Number Publication Date
CN104408095A CN104408095A (zh) 2015-03-11
CN104408095B true CN104408095B (zh) 2017-12-05

Family

ID=52645726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410650756.0A Active CN104408095B (zh) 2014-11-15 2014-11-15 一种基于改进的knn文本分类方法

Country Status (1)

Country Link
CN (1) CN104408095B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055439B (zh) * 2016-05-27 2019-09-27 大连楼兰科技股份有限公司 基于维修决策树/词向量的故障远程诊断系统和方法
CN106844304A (zh) * 2016-12-26 2017-06-13 语联网(武汉)信息技术有限公司 一种基于译稿分类为待译稿件匹配译员的方法
CN106649818B (zh) * 2016-12-29 2020-05-15 北京奇虎科技有限公司 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN110019772B (zh) * 2017-08-14 2021-05-25 普天信息技术有限公司 一种文本情绪分类方法及系统
CN107832456B (zh) * 2017-11-24 2021-11-26 云南大学 一种基于临界值数据划分的并行knn文本分类方法
CN109961063B (zh) * 2017-12-26 2021-12-14 杭州海康机器人技术有限公司 文本检测方法及装置、计算机设备和存储介质
CN109459759B (zh) * 2018-11-13 2020-06-30 中国科学院合肥物质科学研究院 基于四旋翼无人机激光雷达系统的城市地形三维重建方法
CN109543739A (zh) * 2018-11-15 2019-03-29 杭州安恒信息技术股份有限公司 一种日志分类方法、装置、设备及可读存储介质
CN109637607A (zh) * 2018-12-24 2019-04-16 广州天鹏计算机科技有限公司 医疗数据归类方法、装置、计算机设备和存储介质
CN109829478A (zh) * 2018-12-29 2019-05-31 平安科技(深圳)有限公司 一种基于变分自编码器的问题分类方法和装置
CN110727762B (zh) * 2019-09-17 2022-04-29 东软集团股份有限公司 确定相似文本的方法、装置、存储介质及电子设备
CN111158828A (zh) * 2019-12-30 2020-05-15 青岛海尔科技有限公司 应用程序app的用户界面确定方法及装置、存储介质
CN111143303B (zh) * 2019-12-31 2023-06-02 海南电网有限责任公司信息通信分公司 一种基于信息增益和改进knn算法的日志分类方法
CN115017125B (zh) * 2022-08-09 2022-10-21 晨达(广州)网络科技有限公司 改进knn方法的数据处理方法和装置
CN116341521B (zh) * 2023-05-22 2023-07-28 环球数科集团有限公司 一种基于文本特征的aigc文章辨识系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101097570A (zh) * 2006-06-29 2008-01-02 上海唯客网广告传播有限公司 一种自动识别分类广告类型的广告分类方法
CN103605702A (zh) * 2013-11-08 2014-02-26 北京邮电大学 一种基于词相似度的网络文本分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101097570A (zh) * 2006-06-29 2008-01-02 上海唯客网广告传播有限公司 一种自动识别分类广告类型的广告分类方法
CN103605702A (zh) * 2013-11-08 2014-02-26 北京邮电大学 一种基于词相似度的网络文本分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
An adaptive fuzzy kNN text classifier;Shang W Q 等;《Proceedings of the 6th International Conference on Computational Science》;20061231;第216-223页 *
一种快速高效的文本分类方法;石志伟 等;《计算机工程与应用》;20051231;第41卷(第29期);第180-183页 *
基于区域划分的KNN文本快速分类算法研究;胡元 等;《计算机科学》;20121031;第39卷(第10期);第182-186页 *
基于概念簇的文本分类算法;马甲林 等;《图书情报工作》;20130831;第57卷(第15期);第132-137页 *

Also Published As

Publication number Publication date
CN104408095A (zh) 2015-03-11

Similar Documents

Publication Publication Date Title
CN104408095B (zh) 一种基于改进的knn文本分类方法
US10977447B2 (en) Method and device for identifying a user interest, and computer-readable storage medium
US20200175397A1 (en) Method and device for training a topic classifier, and computer-readable storage medium
CN104391835B (zh) 文本中特征词选择方法及装置
CN103902570B (zh) 一种文本分类特征提取方法、分类方法及装置
US8554715B2 (en) Electronic document classification apparatus
CN106376002B (zh) 一种管理方法及装置、垃圾短信监控系统
CN108038627B (zh) 一种对象评估方法及装置
CN110909165A (zh) 数据处理方法、装置、介质及电子设备
CN105354595A (zh) 一种鲁棒视觉图像分类方法及系统
CN110163647A (zh) 一种数据处理方法及装置
CN108363717B (zh) 一种数据安全级别的识别检测方法及装置
CN109165529B (zh) 一种暗链篡改检测方法、装置和计算机可读存储介质
CN110991474A (zh) 一种机器学习建模平台
CN108550054B (zh) 一种内容质量评估方法、装置、设备和介质
CN112487794B (zh) 行业分类方法、装置、终端设备及存储介质
CN110134777A (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN110309234A (zh) 一种基于知识图谱的客户持仓预警方法、装置及存储介质
CN106446124A (zh) 一种基于网络关系图的网站分类方法
CN103268346B (zh) 半监督分类方法及系统
CN111639493A (zh) 一种地址信息标准化方法、装置、设备及可读存储介质
CN114077832A (zh) 中文文本纠错方法、装置、电子设备及可读存储介质
CN105808602B (zh) 一种垃圾信息的检测方法及装置
CN107908649B (zh) 一种文本分类的控制方法
CN113704389A (zh) 一种数据评估方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant