CN112487194A - 文档分类规则的更新方法、装置、设备以及存储介质 - Google Patents

文档分类规则的更新方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN112487194A
CN112487194A CN202011502638.7A CN202011502638A CN112487194A CN 112487194 A CN112487194 A CN 112487194A CN 202011502638 A CN202011502638 A CN 202011502638A CN 112487194 A CN112487194 A CN 112487194A
Authority
CN
China
Prior art keywords
dimension
value
document
target
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011502638.7A
Other languages
English (en)
Inventor
钱宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Consumer Finance Co Ltd
Original Assignee
Ping An Consumer Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Consumer Finance Co Ltd filed Critical Ping An Consumer Finance Co Ltd
Priority to CN202011502638.7A priority Critical patent/CN112487194A/zh
Publication of CN112487194A publication Critical patent/CN112487194A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种文档分类规则的更新方法、装置、设备以及存储介质,其中,方法包括:获取若干待分类文档的在各个维度中分别对应的维度值;根据各个维度的当前分类规则以及对应的维度值,在各个维度中对各所述待分类文档进行分类;检测各维度的分类结果中是否存在有目标维度类别;根据所述目标维度类别对其所对应的目标维度重新制定分类规则,得到重新制定后的维度等级梯度;将所述维度等级梯度更新至所述目标维度对应的当前分类规则中,得到新的分类规则。通过检测待分类文档的维度,并基于原分案规则进行分类,对分类后文档数目比例不合理的维度等级进行细化,从而实现了根据现有文档的类型,对文档实现更好的分类。

Description

文档分类规则的更新方法、装置、设备以及存储介质
技术领域
本发明涉及数据处理领域,特别涉及一种文档分类规则的更新方法、装置、设备以及存储介质。
背景技术
随着计算机技术的发展,社会已进入大数据时代,面对如此庞大而复杂的信息,如何准确高效获取有价值的信息是每个行业和从业者都关注的问题。目前,在对数据进行分类处理时,往往采用的是同一分类规则,而采用同一分类规则对众多的文档进行分类时,可能会使某一维度类别分类过多,而导致无法提高文档分类精度的问题。
发明内容
本发明的主要目的为提供一种文档分类规则的更新方法、装置、设备以及存储介质,旨在解决采用同一分类规则对众多的文档进行分类时,可能会使某一维度类别分类过多,而导致无法提高文档分类精度的问题。
本发明提供了一种文档分类规则的更新方法,包括:
获取若干待分类文档的在各个维度中分别对应的维度值;
根据各个维度的当前分类规则以及对应的维度值,在各个维度中对各所述待分类文档进行分类;
检测各维度的分类结果中是否存在有目标维度类别;其中,所述目标维度类别为该类别中的文档数目所占的比例,达到了预设文档数目比例阈值;
根据所述目标维度类别对其所对应的目标维度重新制定分类规则,得到重新制定后的维度等级梯度;
将所述维度等级梯度更新至所述目标维度对应的当前分类规则中,得到新的分类规则。
进一步地,所述根据所述目标维度类别对其所对应的目标维度重新制定分类规则,得到重新制定后的维度等级梯度的步骤,包括:
获取所述目标维度中各文档各自对应的维度值,根据所述文档在各个维度中的所述维度值建立各个维度对应的维度集合;
计算各所述维度集合中每两个维度值的距离;
根据公式
Figure BDA0002844065020000021
计算的所述距离计算每个维度值的密度;其中,ρ(j)表示第j个维度值的密度,c=max[d(j,i)],d(j,i)表示第j个维度值与第i个维度值的距离,max[d(j,i)]表示各维度值中的最大值与最小值之间的距离;
根据公式
Figure BDA0002844065020000022
计算各个维度值的离散度;其中,LOF(j)表示第j个维度值的离散度;
根据公式
Figure BDA0002844065020000023
计算所述维度等级梯度,其中f(x)表示各所述维度值的平均离散度与所述维度等级梯度的关系函数。
进一步地,所述获取若干待分类文档的在各个维度中分别对应的维度值的步骤,包括:
通过正则表达式和分词工具对各所述待分类文档分别进行分词处理,得到对应的多个词语;
根据语义识别技术提取所述词语中的实体名词;
将提取到的所述实体名词进行聚类处理,得到各维度分别对应的实体名词;
基于各个维度分别对应的实体名词计算所述待分类文档在各个维度中的维度值。
进一步地,所述根据各个维度的当前分类规则以及对应的维度值,在各个维度中对各所述待分类文档进行分类的步骤,包括:
根据所述聚类处理后的所述实体名词与维度值的对应关系,得到各所述待分类文档在各个类别中的维度值;
根据所述待分类文档在各个维度中的所述维度值,按照所述当前分类规则进行分类。
进一步地,所述检测各维度的分类结果中是否存在有目标维度类别的步骤,包括:
获取第一维度中各个维度等级分别对应的文档数目;
将各个维度等级的文档数目与所述第一维度中文档的总数目相比,得到各个维度等级对应的所述文档数目比例;
判断各所述文档数目比例是否超过了所述预设文档数目比例阈值;其中,超过了所述预设文档数目比例阈值的文档数目比例所对应的类别为所述目标维度类别。
进一步地,所述根据所述目标维度类别对其所对应的目标维度重新制定分类规则,得到重新制定后的维度等级梯度的步骤,包括:
将文档数目比例超过了其维度等级所对应的文档数目比例阈值的维度等级记为第一维度等级;
获取所述第一维度等级内各个文档所对应的第一维度值;
计算第一维度等级内所有第一维度值的方差;
根据所述方差为所述第一维度等级设置对应的多个子维度等级,从而得到细化后的所述维度等级梯度;其中,各所述子维度等级的范围均在所述第一维度等级的范围内。
本发明还提供了一种文档分类规则的更新装置,包括:
维度值模块,用于获取若干待分类文档的在各个维度中分别对应的维度值;
待分类文档获取模块,用于根据各个维度的当前分类规则以及对应的维度值,在各个维度中对各所述待分类文档进行分类;
目标维度获取模块,用于检测各维度的分类结果中是否存在有目标维度类别;其中,所述目标维度类别为该类别中的文档数目所占的比例,达到了预设文档数目比例阈值;
目标分类获取模块,用于根据所述目标维度类别对其所对应的目标维度重新制定分类规则,得到重新制定后的维度等级梯度;
目标分类规则模块,用于将所述维度等级梯度更新至所述目标维度对应的当前分类规则中,得到新的分类规则。
进一步地,所述目标分类获取模块,包括:
维度集合建立子模块,用于获取所述目标维度中各文档各自对应的维度值,根据所述文档在各个维度中的所述维度值建立各个维度对应的维度集合;
距离子模块,用于计算各所述维度集合中每两个维度值的距离;
密度计算子模块,用于根据公式
Figure BDA0002844065020000041
计算的所述距离计算每个维度值的密度;其中,ρ(j)表示第j个维度值的密度,c=max[d(j,i)],d(j,i)表示第j个维度值与第i个维度值的距离,max[d(j,i)]表示各维度值中的最大值与最小值之间的距离;
离散度计算子模块,用于根据公式
Figure BDA0002844065020000042
计算各个维度值的离散度;其中,LOF(j)表示第j个维度值的离散度;
维度等级梯度计算子模块,用于根据公式
Figure BDA0002844065020000043
计算所述维度等级梯度,其中f(x)表示各所述维度值的平均离散度与所述维度等级梯度的关系函数。
本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本发明的有益效果:通过检测待分类文档的维度,并基于原分案规则进行分类,对分类后文档数目比例不合理的维度等级进行细化,从而实现了根据现有文档的类型,对文档实现更好的分类。
附图说明
图1是本发明一实施例的一种文档分类规则的更新方法的流程示意图;
图2是本发明一实施例的一种文档分类规则的更新装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变,所述的连接可以是直接连接,也可以是间接连接。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参照图1,本发明提出一种文档分类规则的更新方法,包括:
S1:获取若干待分类文档的在各个维度中分别对应的维度值;
S2:根据各个维度的当前分类规则以及对应的维度值,在各个维度中对各所述待分类文档进行分类;
S3:检测各维度的分类结果中是否存在有目标维度类别;其中,所述目标维度类别为该类别中的文档数目所占的比例,达到了预设文档数目比例阈值;
S4:根据所述目标维度类别对其所对应的目标维度重新制定分类规则,得到重新制定后的维度等级梯度;
S5:将所述维度等级梯度更新至所述目标维度对应的当前分类规则中,得到新的分类规则。
如上述步骤S1所述,获取若干待分类文档的在各个维度中分别对应的维度值。获取的方式可以是通过自然语言处理技术进行获取(后文有详细说明,此处不再赘述),各个维度中有着不同的维度等级,根据维度等级在对应的维度内对待分类文档进行分类。其中,维度可以包括情感维度,逻辑维度,内容维度,特征维度等。
如上述步骤S2所述,根据各个维度的当前分类规则以及对应的维度值,在各个维度中对各所述待分类文档进行分类。其中当前分类规则为系统或者是设备中所存有的分类规则,根据该分类规则对待分类文档进行分类。具体地,在一些实施例中,各待分类文档都可以根据各文档的内容在各个维度中分别得到一个维度值,即各个待分类文档在各个维度中分别对应一个维度值,根据该维度值在当前分类规则中所处的维度等级进行分类,例如在情感维度中,喜悦的维度等级所对应的数值范围为80-90,若一待分类文档的情感维度所对应的维度值为85,则可以将该待分类文档归于该喜悦的维度等级中。其中,当前分类规则为系统中当前的分类规则。
如上述步骤S3所述,检测各维度的分类结果中是否存在有目标维度类别。对于某一个维度而言,若某一类的分类结果中的文档数目远远超过了其他类别的分类结果中的文档数目,则说明当前分类规则已经不适用于现在的文档分类了,即该单一维度等级中的文档数目占的百分比(即数目比例)超过了文档数目比例阈值,其中文档数目比例阈值为预先设定的值,例如可以设置为30%。另外,需要说明的是,该文档数目比例并非仅仅是指待分类文档分类后的该待分类文档的文档数目比例,而是指待分类文档分类后该维度中所有文档的文档数目比例,该待分类文档只是一部分数据。
如上述步骤S4所述,根据所述目标维度类别对其所对应的目标维度重新制定分类规则,得到重新制定后的维度等级梯度。其中,细化的方式可以是对现有的维度等级重新划分,例如维度值的范围为1~100,当前分类规则为10分一个维度等级,即1~10,…,91-100等,则重新划分的维度等级可以是1~5,…,96~100,也可以是1~4,…,97~100。也可以是对当前分类规则中的超过了文档数目比例阈值的维度等级,分配子维度等级,例如超过了文档数目比例阈值的维度等级为21~30,则可以对该维度等级设置子维度等级,例如为21~22,…,29~30等,从而对该维度等级更加细化,使得到的数据更加精确。
如上述步骤S5所述,将所述维度等级梯度更新至所述目标维度对应的当前分类规则中,得到新的分类规则。依据细化后的维度等级梯度对文档重新分类。得到的分类后的数据更加的精确,由于只对将超过了其维度等级所对应的文档数目比例阈值的目标维度的维度等级进行细化,也不会导致分类数据过多的赘余。
在一个实施例中,所述对该维度的维度等级进行细化,得到细化后的维度等级梯度的步骤S4,包括:
S401:获取所述目标维度中各文档各自对应的维度值,根据所述文档在各个维度中的所述维度值建立各个维度对应的维度集合;
S402:计算个所述维度集合中每两个维度值的距离;
S403:根据公式
Figure BDA0002844065020000071
计算的所述距离计算每个维度值的密度;其中,ρ(j)表示第j个维度值的密度,c=max[d(j,i)],d(j,i)表示第j个维度值与第i个维度值的距离,max[d(j,i)]表示各维度值中的最大值与最小值之间的距离;
S404:根据公式
Figure BDA0002844065020000081
计算各个维度值的离散度;其中,LOF(j)表示第j个维度值的离散度;
S405:根据公式
Figure BDA0002844065020000082
计算所述维度等级梯度,其中f(x)表示各所述维度值的平均离散度与所述维度等级梯度的关系函数。
如上述步骤S401所述,获取所述目标维度中各文档各自对应的维度值,由于各文档在目标维度内都是按照对应的维度值进行分类的,故而可以直接获取到对应的维度值。
如上述步骤S402所述,计算所述维度值中每个维度值与所述维度值中其他维度值的距离。其中,距离的具体算法为将二者的维度值作差,然后求出绝对值,即得到每个维度值与所述维度值中其他维度值的距离,其中距离可以体现出该维度值与其他维度值的差异,可以用距离来判断该目标维度中的分配是否合理。
如上述步骤S403所述,根据公式计算密度,该密度计算公式充分考虑了维度值之间的关系,以及维度值的范围c,求得的密度的精度比较大,根据其计算的结果更加接近真实值。
如上述步骤S404-S405所述,根据公式
Figure BDA0002844065020000083
计算各个维度值的离散度,其中,离散度是可以体现出单个数据的波动性,因此根据维度值的平均离散度计算其维度等级梯度。其中,f(x)为事先设定的平均离散度与维度等级梯度的函数关系,其函数关系可以是线性关系,非线性关系等。从而根据得到与目标维度中的文档相适应的维度等级梯度。
在一个实施例中,所述获取若干待分类文档的在各个维度中分别对应的维度值的步骤S1,包括:
S101:通过正则表达式和分词工具对各所述待分类文档分别进行分词处理,得到对应的多个词语;
S102:根据语义识别技术提取所述词语中的实体名词;
S103:将提取到的所述实体名词进行聚类处理,得到各维度分别对应的实体名词;
S104:基于各个维度分别对应的实体名词计算所述待分类文档在各个维度中的维度值。
如上述步骤S101-S104所述,实现了对待分类文档的各个维度的获取。具体地,通过正则表达式(搜索模式的字符序列)和分词工具进行分词处理,分词工具可以是jieba、SnowNLP、THULAC、NLPIR中的任意一种,以将待分类文档进行分词,得到对应的多个词语,根据语义识别技术识别各个词语,其中语义识别技术具体可以为自然语言处理(NLP),提取到对应的实体名词后先进行聚类处理,聚类的处理的算法优选采用KMEANS聚类算法与CLARANS聚类算法,然后识别聚类处理后的实体名词所对应的维度,具体可以是识别各个类别的实体名词的语义,根据识别到的语义与系统中预设的类别进行相似度比较,相似度比较的方式可以是通过余弦相似度算法。基于上述的处理方案可以得到文档所包含的维度信息,即获取到待分类文档的在各个维度中的维度值。
在一个实施例中,所述根据各个维度的当前分类规则以及对应的维度值,在各个维度中对各所述待分类文档进行分类的步骤S2,包括:
S201:根据所述聚类处理后的所述实体名词与维度值的对应关系,得到各所述待分类文档在各个类别中的维度值;
S202:根据所述待分类文档在各个维度中的所述维度值,按照所述当前分类规则进行分类。
如上述步骤S201-S202所述,实现在各个维度中对待分类文档的分类。即先根据实体名词与维度值的对应关系,该对应关系为事先设定,考虑到实体名词有对应的近义词,可以先对实体名词进行预处理,即近义词转化,转化为数据库内所具有的词语,然后根据其对维度值的预设对应关系转化为对应的维度值,以便于区分,其中,应当理解的是两个实体名词的语义越相近,其对应的维度值也越相近,从而根据维度值进行了分类,实现了各个文档的在各个维度中的自动分类。
在一个实施例中,所述检测各维度的分类结果中是否存在有目标维度类别的步骤S3,包括:
S301:获取第一维度中各个维度等级分别对应的文档数目;
S302:将各个维度等级的文档数目与所述第一维度中文档的总数目相比,得到各个维度等级对应的所述文档数目比例;
S303:判断各所述文档数目比例是否超过了所述预设文档数目比例阈值;其中,超过了所述预设文档数目比例阈值的文档数目比例所对应的类别为所述目标维度类别。
如上述步骤S301-S303所述,实现了对各维度中分类是否合理的检测。即先获取到第一维度中各个维度等级对应的文档数目,也即获取了所有的文档总数,计算得到各个维度的文档数目比例,应当理解的是,该文档数目比例并非仅仅是指待分类文档分类后的该待分类文档的文档数目比例,而是指待分类文档分类后该维度中所有文档的文档数目比例,该待分类文档只是一部分数据。将超过了所述预设文档数目比例阈值的文档数目比例所对应的类别记为所述目标维度类别,并对该目标维度类别所在的维度进行细化处理,对于没有目标维度类别的其他维度,则不需要处理,即实现了对文档数目比例的计算,以便于后续得到需要细化处理的维度。
在一个实施例中,所述根据所述目标维度类别对其所对应的目标维度重新制定分类规则,得到重新制定后的维度等级梯度的步骤S4,包括:
S411:将文档数目比例超过了其维度等级所对应的文档数目比例阈值的维度等级记为第一维度等级;
S412:获取所述第一维度等级内各个文档所对应的第一维度值;
S413:计算第一维度等级内所有第一维度值的方差;
S414:根据所述方差为所述第一维度等级设置对应的多个子维度等级,从而得到细化后的所述维度等级梯度;其中,各所述子维度等级的范围均在所述第一维度等级的范围内。
如上述步骤S411-S414所述,实现了对维度等级梯度的获取,即先获取第一维度等级中的各个文档中的第一维度值,根据所有第一维度值的方差为对应第一维度等级设置多个子维度等级,其中方差与子维度等级的个数的对应关系是事先设定的,即根据得到的方差就可以得到对应的子维度等级的个数。例如方差为0.1,则其对应的子维度个数为5个,该5个子维度个数的范围可以是平均分配第一维度的范围,例如第一维度的范围为0~10,则对应的子维度为0~2,2~4,4~6,6~8,8~10。从而在当前分类规则的前提下,对分类规则更加细化,使得到的分类结果更加详细,更贴合于现有的技术方案。
参照图2,本发明还提供了一种文档分类规则的更新装置,包括:
维度值模块10,用于获取若干待分类文档的在各个维度中分别对应的维度值;
待分类文档获取模块20,用于根据各个维度的当前分类规则以及对应的维度值,在各个维度中对各所述待分类文档进行分类;
目标维度获取模块30,用于检测各维度的分类结果中是否存在有目标维度类别;其中,所述目标维度类别为该类别中的文档数目所占的比例,达到了预设文档数目比例阈值;
目标分类获取模块40,用于根据所述目标维度类别对其所对应的目标维度重新制定分类规则,得到重新制定后的维度等级梯度;
目标分类规则模块50,用于将所述维度等级梯度更新至所述目标维度对应的当前分类规则中,得到新的分类规则。
在一个实施例中,所述目标分类获取模块,包括:
维度集合建立子模块,用于获取所述目标维度中各文档各自对应的维度值,根据所述文档在各个维度中的所述维度值建立各个维度对应的维度集合;
距离计算子模块,用于计算各所述维度集合中每两个维度值的距离;
密度计算子模块,用于根据公式
Figure BDA0002844065020000111
计算的所述距离计算每个维度值的密度;其中,ρ(j)表示第j个维度值的密度,c=max[d(j,i)],d(j,i)表示第j个维度值与第i个维度值的距离,max[d(j,i)]表示各维度值中的最大值与最小值之间的距离;
离散度计算子模块,用于根据公式
Figure BDA0002844065020000121
计算各个维度值的离散度;其中,LOF(j)表示第j个维度值的离散度;
维度等级梯度计算子模块,用于根据公式
Figure BDA0002844065020000122
计算所述维度等级梯度,其中f(x)表示各所述维度值的平均离散度与所述维度等级梯度的关系函数。在一个实施例中,所述维度值模块包括:
分词处理子模块,用于通过正则表达式和分词工具对各所述待分类文档分别进行分词处理,得到对应的多个词语;
语义识别子模块,用于根据语义识别技术提取所述词语中的实体名词;
实体名词提取子模块,用于将提取到的所述实体名词进行聚类处理,得到各维度分别对应的实体名词;
维度值计算子模块,用于基于各个维度分别对应的实体名词计算所述待分类文档在各个维度中的维度值。
在一个实施例中,所述待分类文档获取模块20,包括:
聚类处理子模块,用于根据所述聚类处理后的所述实体名词与维度值的对应关系,得到各所述待分类文档在各个类别中的维度值;
规则分类子模块,用于根据所述待分类文档在各个维度中的所述维度值,按照所述当前分类规则进行分类。
在一个实施例中,所述目标维度获取模块30,包括:
维度等级获取子模块,用于获取第一维度中各个维度等级分别对应的文档数目;
文档相比子模块,用于将各个维度等级的文档数目与所述第一维度中文档的总数目相比,得到各个维度等级对应的所述文档数目比例;
预设子模块,用于判断各所述文档数目比例是否超过了所述预设文档数目比例阈值;其中,超过了所述预设文档数目比例阈值的文档数目比例所对应的类别为所述目标维度类别。
在一个实施例中,所述目标分类获取模块40包括:
子模块,用于将文档数目比例超过了其维度等级所对应的文档数目比例阈值的维度等级记为第一维度等级;
维度值获取子模块,用于获取所述第一维度等级内各个文档所对应的第一维度值;
方差子模块,用于计算第一维度等级内所有第一维度值的方差;
等级设置子模块,用于根据所述方差为所述第一维度等级设置对应的多个子维度等级,从而得到细化后的所述维度等级梯度;其中,各所述子维度等级的范围均在所述第一维度等级的范围内。
本发明的有益效果:通过检测待分类文档的维度,并基于原分案规则进行分类,对分类后文档数目比例不合理的维度等级进行细化,从而实现了根据现有文档的类型,对文档实现更好的分类。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储各种文档等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时可以实现上述任一实施例所述的文档分类规则的更新方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时可以实现上述任一实施例所述的文档分类规则的更新方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM一多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种文档分类规则的更新方法,其特征在于,包括:
获取若干待分类文档的在各个维度中分别对应的维度值;
根据各个维度的当前分类规则以及对应的维度值,在各个维度中对各所述待分类文档进行分类;
检测各维度的分类结果中是否存在有目标维度类别;其中,所述目标维度类别为该类别中的文档数目所占的比例,达到了预设文档数目比例阈值;
根据所述目标维度类别对其所对应的目标维度重新制定分类规则,得到重新制定后的维度等级梯度;
将所述维度等级梯度更新至所述目标维度对应的当前分类规则中,得到新的分类规则。
2.如权利要求1所述的文档分类规则的更新方法,其特征在于,所述根据所述目标维度类别对其所对应的目标维度重新制定分类规则,得到重新制定后的维度等级梯度的步骤,包括:
获取所述目标维度中各文档各自对应的维度值,根据所述文档在各个维度中的所述维度值建立各个维度对应的维度集合;
计算各所述维度集合中每两个维度值的距离;
根据公式
Figure FDA0002844065010000011
计算的所述距离计算每个维度值的密度;其中,ρ(j)表示第j个维度值的密度,c=max[d(j,i)],d(j,i)表示第j个维度值与第i个维度值的距离,max[d(j,i)]表示各维度值中的最大值与最小值之间的距离;
根据公式
Figure FDA0002844065010000012
计算各个维度值的离散度;其中,LOF(j)表示第j个维度值的离散度;
根据公式
Figure FDA0002844065010000021
计算所述维度等级梯度,其中f(x)表示各所述维度值的平均离散度与所述维度等级梯度的关系函数。
3.如权利要求1所述的文档分类规则的更新方法,其特征在于,所述获取若干待分类文档的在各个维度中分别对应的维度值的步骤,包括:
通过正则表达式和分词工具对各所述待分类文档分别进行分词处理,得到对应的多个词语;
根据语义识别技术提取所述词语中的实体名词;
将提取到的所述实体名词进行聚类处理,得到各维度分别对应的实体名词;
基于各个维度分别对应的实体名词计算所述待分类文档在各个维度中的维度值。
4.如权利要求3所述的文档分类规则的更新方法,其特征在于,所述根据各个维度的当前分类规则以及对应的维度值,在各个维度中对各所述待分类文档进行分类的步骤,包括:
根据所述聚类处理后的所述实体名词与维度值的对应关系,得到各所述待分类文档在各个类别中的维度值;
根据所述待分类文档在各个维度中的所述维度值,按照所述当前分类规则进行分类。
5.如权利要求1所述的文档分类规则的更新方法,其特征在于,所述检测各维度的分类结果中是否存在有目标维度类别的步骤,包括:
获取第一维度中各个维度等级分别对应的文档数目;
将各个维度等级的文档数目与所述第一维度中文档的总数目相比,得到各个维度等级对应的所述文档数目比例;
判断各所述文档数目比例是否超过了所述预设文档数目比例阈值;其中,超过了所述预设文档数目比例阈值的文档数目比例所对应的类别为所述目标维度类别。
6.如权利要求1所述的文档分类规则的更新方法,其特征在于,所述根据所述目标维度类别对其所对应的目标维度重新制定分类规则,得到重新制定后的维度等级梯度的步骤,包括:
将文档数目比例超过了其维度等级所对应的文档数目比例阈值的维度等级记为第一维度等级;
获取所述第一维度等级内各个文档所对应的第一维度值;
计算第一维度等级内所有第一维度值的方差;
根据所述方差为所述第一维度等级设置对应的多个子维度等级,从而得到细化后的所述维度等级梯度;其中,各所述子维度等级的范围均在所述第一维度等级的范围内。
7.一种文档分类规则的更新装置,其特征在于,包括:
维度值模块,用于获取若干待分类文档的在各个维度中分别对应的维度值;
待分类文档获取模块,用于根据各个维度的当前分类规则以及对应的维度值,在各个维度中对各所述待分类文档进行分类;
目标维度获取模块,用于检测各维度的分类结果中是否存在有目标维度类别;其中,所述目标维度类别为该类别中的文档数目所占的比例,达到了预设文档数目比例阈值;
目标分类获取模块,用于根据所述目标维度类别对其所对应的目标维度重新制定分类规则,得到重新制定后的维度等级梯度;
目标分类规则模块,用于将所述维度等级梯度更新至所述目标维度对应的当前分类规则中,得到新的分类规则。
8.如权利要求7所述的文档分类规则的更新装置,其特征在于,所述目标分类获取模块,包括:
维度集合建立子模块,用于获取所述目标维度中各文档各自对应的维度值,根据所述文档在各个维度中的所述维度值建立各个维度对应的维度集合;
距离计算子模块,用于计算各所述维度集合中每两个维度值的距离;
密度计算子模块,用于根据公式
Figure FDA0002844065010000041
计算的所述距离计算每个维度值的密度;其中,ρ(j)表示第j个维度值的密度,c=max[d(j,i)],d(j,i)表示第j个维度值与第i个维度值的距离,max[d(j,i)]表示各维度值中的最大值与最小值之间的距离;
离散度计算子模块,用于根据公式
Figure FDA0002844065010000042
计算各个维度值的离散度;其中,LOF(j)表示第j个维度值的离散度;
维度等级梯度计算子模块,用于根据公式
Figure FDA0002844065010000043
计算所述维度等级梯度,其中f(x)表示各所述维度值的平均离散度与所述维度等级梯度的关系函数。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202011502638.7A 2020-12-17 2020-12-17 文档分类规则的更新方法、装置、设备以及存储介质 Pending CN112487194A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011502638.7A CN112487194A (zh) 2020-12-17 2020-12-17 文档分类规则的更新方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011502638.7A CN112487194A (zh) 2020-12-17 2020-12-17 文档分类规则的更新方法、装置、设备以及存储介质

Publications (1)

Publication Number Publication Date
CN112487194A true CN112487194A (zh) 2021-03-12

Family

ID=74914801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011502638.7A Pending CN112487194A (zh) 2020-12-17 2020-12-17 文档分类规则的更新方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN112487194A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117892204A (zh) * 2024-03-15 2024-04-16 杭州易康信科技有限公司 一种适用于政务服务的档案分类管理方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6137911A (en) * 1997-06-16 2000-10-24 The Dialog Corporation Plc Test classification system and method
US20050044487A1 (en) * 2003-08-21 2005-02-24 Apple Computer, Inc. Method and apparatus for automatic file clustering into a data-driven, user-specific taxonomy
US20160092549A1 (en) * 2014-09-26 2016-03-31 International Business Machines Corporation Information Handling System and Computer Program Product for Deducing Entity Relationships Across Corpora Using Cluster Based Dictionary Vocabulary Lexicon
CN105786898A (zh) * 2014-12-24 2016-07-20 中国移动通信集团公司 一种领域本体的构建方法和装置
CN105956031A (zh) * 2016-04-25 2016-09-21 深圳市永兴元科技有限公司 文本分类方法和装置
CN106126734A (zh) * 2016-07-04 2016-11-16 北京奇艺世纪科技有限公司 文档的分类方法和装置
CN107943984A (zh) * 2017-11-30 2018-04-20 广东欧珀移动通信有限公司 图像处理方法、装置、计算机设备和计算机可读存储介质
CN109101633A (zh) * 2018-08-15 2018-12-28 北京神州泰岳软件股份有限公司 一种层次聚类方法及装置
CN111475647A (zh) * 2020-03-19 2020-07-31 平安国际智慧城市科技股份有限公司 一种文档处理方法、装置及服务器

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6137911A (en) * 1997-06-16 2000-10-24 The Dialog Corporation Plc Test classification system and method
US20050044487A1 (en) * 2003-08-21 2005-02-24 Apple Computer, Inc. Method and apparatus for automatic file clustering into a data-driven, user-specific taxonomy
US20160092549A1 (en) * 2014-09-26 2016-03-31 International Business Machines Corporation Information Handling System and Computer Program Product for Deducing Entity Relationships Across Corpora Using Cluster Based Dictionary Vocabulary Lexicon
CN105786898A (zh) * 2014-12-24 2016-07-20 中国移动通信集团公司 一种领域本体的构建方法和装置
CN105956031A (zh) * 2016-04-25 2016-09-21 深圳市永兴元科技有限公司 文本分类方法和装置
CN106126734A (zh) * 2016-07-04 2016-11-16 北京奇艺世纪科技有限公司 文档的分类方法和装置
CN107943984A (zh) * 2017-11-30 2018-04-20 广东欧珀移动通信有限公司 图像处理方法、装置、计算机设备和计算机可读存储介质
CN109101633A (zh) * 2018-08-15 2018-12-28 北京神州泰岳软件股份有限公司 一种层次聚类方法及装置
CN111475647A (zh) * 2020-03-19 2020-07-31 平安国际智慧城市科技股份有限公司 一种文档处理方法、装置及服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王志华: "面向实体发现的网络信息聚类技术研究与实现", 《中国优秀硕士学位论文全文数据库(信息科技辑)》, pages 138 - 6340 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117892204A (zh) * 2024-03-15 2024-04-16 杭州易康信科技有限公司 一种适用于政务服务的档案分类管理方法及系统
CN117892204B (zh) * 2024-03-15 2024-05-28 杭州易康信科技有限公司 一种适用于政务服务的档案分类管理方法及系统

Similar Documents

Publication Publication Date Title
CN109933785B (zh) 用于实体关联的方法、装置、设备和介质
CN109471942B (zh) 基于证据推理规则的中文评论情感分类方法及装置
CN110377730B (zh) 案由分类方法、装置、计算机设备和存储介质
KR101999152B1 (ko) 컨벌루션 신경망 기반 영문 텍스트 정형화 방법
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN112507711A (zh) 文本摘要抽取方法及系统
CN114706972B (zh) 一种基于多句压缩的无监督科技情报摘要自动生成方法
CN111859983A (zh) 基于人工智能的自然语言标注方法及相关设备
CN113849648A (zh) 分类模型训练方法、装置、计算机设备和存储介质
CN113807073B (zh) 文本内容异常检测方法、装置以及存储介质
CN114996463A (zh) 一种病例的智能分类方法和装置
CN112487194A (zh) 文档分类规则的更新方法、装置、设备以及存储介质
CN110399493B (zh) 一种基于增量学习的作者消歧方法
CN114510923B (zh) 基于人工智能的文本主题生成方法、装置、设备及介质
CN114492429A (zh) 文本主题的生成方法、装置、设备及存储介质
CN111368061A (zh) 短文本过滤方法、装置、介质及计算机设备
Schwenker et al. EXSCLAIM!--An automated pipeline for the construction of labeled materials imaging datasets from literature
CN111898375B (zh) 一种基于词向量句子链的文章论点论据自动检测划分方法
US20140181124A1 (en) Method, apparatus, system and storage medium having computer executable instrutions for determination of a measure of similarity and processing of documents
CN112035664A (zh) 药品的归类方法、装置以及计算机设备
CN113688243B (zh) 语句中实体的标注方法、装置、设备以及存储介质
CN112364620B (zh) 文本相似度的判断方法、装置以及计算机设备
Wei et al. Feature selection on Chinese text classification using character n-grams
CN113343699B (zh) 日志安全风险的监测方法、装置、电子设备及介质
CN114996389A (zh) 一种标注类别一致性检验方法、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210312