CN112233741B - 一种基于聚类的文本分类系统、设备、存储介质 - Google Patents
一种基于聚类的文本分类系统、设备、存储介质 Download PDFInfo
- Publication number
- CN112233741B CN112233741B CN202011063617.XA CN202011063617A CN112233741B CN 112233741 B CN112233741 B CN 112233741B CN 202011063617 A CN202011063617 A CN 202011063617A CN 112233741 B CN112233741 B CN 112233741B
- Authority
- CN
- China
- Prior art keywords
- clustering
- text
- particle
- cluster
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 21
- 230000002776 aggregation Effects 0.000 claims abstract description 7
- 238000004220 aggregation Methods 0.000 claims abstract description 7
- 238000010845 search algorithm Methods 0.000 claims abstract description 7
- 238000003064 k means clustering Methods 0.000 claims abstract description 5
- 239000002245 particle Substances 0.000 claims description 61
- 230000006870 function Effects 0.000 claims description 12
- 238000004891 communication Methods 0.000 claims description 9
- 230000001133 acceleration Effects 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 5
- 238000011002 quantification Methods 0.000 abstract description 3
- 230000005484 gravity Effects 0.000 abstract description 2
- 201000010099 disease Diseases 0.000 description 12
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 12
- 208000024891 symptom Diseases 0.000 description 9
- 206010018276 Gingival bleeding Diseases 0.000 description 7
- 238000003745 diagnosis Methods 0.000 description 5
- 208000032843 Hemorrhage Diseases 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 230000000740 bleeding effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 210000004195 gingiva Anatomy 0.000 description 3
- 206010006326 Breath odour Diseases 0.000 description 2
- 206010037660 Pyrexia Diseases 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 208000007565 gingivitis Diseases 0.000 description 2
- 230000009191 jumping Effects 0.000 description 2
- 208000032839 leukemia Diseases 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 206010048946 Anal abscess Diseases 0.000 description 1
- 208000006820 Arthralgia Diseases 0.000 description 1
- 208000032139 Halitosis Diseases 0.000 description 1
- 206010061218 Inflammation Diseases 0.000 description 1
- 208000032376 Lung infection Diseases 0.000 description 1
- 208000008771 Lymphadenopathy Diseases 0.000 description 1
- 208000002193 Pain Diseases 0.000 description 1
- 208000005888 Periodontal Pocket Diseases 0.000 description 1
- 208000007502 anemia Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 208000034158 bleeding Diseases 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 230000001680 brushing effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000000416 exudates and transudate Anatomy 0.000 description 1
- 206010019847 hepatosplenomegaly Diseases 0.000 description 1
- 230000001969 hypertrophic effect Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000004054 inflammatory process Effects 0.000 description 1
- 230000007794 irritation Effects 0.000 description 1
- 208000018555 lymphatic system disease Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 201000001245 periodontitis Diseases 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 208000003265 stomatitis Diseases 0.000 description 1
- 230000009885 systemic effect Effects 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Epidemiology (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Pathology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于聚类的文本分类系统、设备、存储介质,所述系统包括:预处理模块:用于对文本数据集中的文本对象及对应的类别标签进行向量化表示,得到文本数据集的特征向量集合;第一聚类模块:用于采用k均值聚类算法对所述特征向量集合进行初步聚类;第二聚类模块:用于采用改进的引力搜索算法对所述初步聚类结果进行优化得到最终聚类结果;文本分类模块:用于获取向量化的待测文本所属聚类类簇,在所述聚类类簇内部通过计算语义相似度的方式进行文本分类。本发明基于改进的引力搜索算法实现准确聚类,在聚类类簇内部基于语义相似度进行类别细分,可有效区分相似文本。
Description
技术领域
本发明涉及文本处理技术领域,具体一种基于聚类的文本分类系统、设备、存贮介质。
背景技术
随着互联网技术和人工智能技术的发展,各行各业都产生了大量文本数据,通过对这些文本数据的分析处理,可获得其中中蕴含的大量有益信息。比如在医疗行业中,各类病历记录、处方记录、诊断记录都实现了电子化,分过分析医疗行业文本数据,可进一步提高智能化水平,为公众健康提供助力。对于海量的文本数据,对其进行聚类分析是文本数据分析中的一项重要内容,海量的电子病历记录组成了庞大的病历库,对这些电子病历进行分析处理可反过来为疾病的智能化辅助诊断与分析提供依据。
现有技术已出现利用电子病历库开发病历文档分类系统的例子,但是由于疾病种类繁多、症状复杂,部分疾病的症状描述文本相近,疾病辅助诊断系统的精度有待提高,特别是对于症状相似的疾病,往往很难做出有效区分。
发明内容
有鉴于此,本发明提出了一种基于聚类的文本分类系统、设备、存储介质,用于解决现有的文本分类不能有效区分相似文本的问题。
本发明第一方面,公开一种基于聚类的文本分类系统,所述系统包括:
预处理模块:用于对文本数据集中的文本对象及对应的类别标签进行向量化表示,得到文本数据集的特征向量集合;
第一聚类模块:用于采用k均值聚类算法对所述特征向量集合进行初步聚类;
第二聚类模块:用于采用引力搜索算法对所述初步聚类结果进行优化得到最终聚类结果;
文本分类模块:用于获取向量化的待测文本所属聚类类簇,在所述聚类类簇内部通过计算语义相似度的方式进行文本分类。
优选的,所述第二聚类模块具体包括:
初始化单元:设n维空间引力系统中有N个粒子,定义第i个粒子的位置为 为第i个粒子在第d维中的位置;
迭代更新单元:用于根据粒子位置计算适应度值、计算粒子所受的引力合力、更新粒子空间的速度及位置;选取适应度最好的粒子进行迭代运算直到达到终止条件;
引入莱维飞行进行粒子速度更新,粒子i在第d维空间的速度更新公式为:
其中,randi为(0,1)之间的随机数,α为步长控制常量,为点对点乘法,Levy(β)表示参数为β的莱维分布,β∈(0,2);/>为第d维空间上粒子i在引力合力作用下的加速度。
引入左右方位判断进行粒子位置更新,粒子i在第d维空间的位置更新公式为:
其中,b表示n维随机单位向量, δ为预设的步长,Xl、Xr分别代表对应位置左侧、右侧搜索区域的位置;sign(.)表示符号函数,f为适应度函数。
优选的,所述迭代更新单元中,
其中,Γ为标准的gamma函数,u、v均服从正态分布。
优选的,所述迭代更新单元中,在第d维空间上,第i个粒子受第j个粒子作用力为:
G(t)=G0e-at/T
其中,ε为接近0的常量,G(t)为t时刻引力常数,T为迭代次数;
其中,fiti(t)为在t时刻粒子i的适应度值,best(t)为t时刻适应度最大值,worst(t)为t时刻适应度最小值;
第i个粒子在第d维空间上受到的引力合力Fi d(t)为:则第d维空间上,粒子i在引力合力作用下的加速度/>为:/>
优选的,所述迭代更新单元中,计算粒子适应度值的函数为:
其中K为聚类类簇数,d(Xi,Cj)为第j类中粒子Xi到个对应的聚类中心点Cj的距离。
优选的,所述文本分类模块中,在所述聚类类簇内部通过计算语义相似度的方式进行文本分类具体为:计算向量化的待分类文本与所属的聚类类簇中各个文本特征向量之间的余弦相似度,选取余弦相似度最大的文本特征向量对应的类别作为待分类文本类别。
本发明第二方面,公开一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现如本发明第一方面所述的系统。
本发明第三方面,公开一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现本发明第一方面所述的系统。
本发明相对于现有技术具有以下有益效果:
本发明通过K均值聚类算法对文本数据集中的文本进行初步聚类,然后采用基于改进的引力搜索算法对初步聚类结果优化,在速度更新时引入莱维飞行增强算法搜索能力,在位置更新时先进行方位判断,加快收敛速度,在保证全局搜索能力的同时以最快的速度找到最优解。本发明将文本数据集根据文本内容划分成多个类簇,对待分类文本进行类簇划分,在聚类类簇内部再根据语义相似度进行类别细分,本发明可有效区分相似文本,得到精细化的文本分类结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于聚类的文本分类的系统结构示意图。
具体实施方式
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
如图1所示,本发明提出的一种基于聚类的文本分类系统结构示意图,所述系统包括预处理模块100、第一聚类模块200、第二聚类模块300、文本分类模块400;
预处理模块100:用于对文本数据集中的文本对象及对应的类别标签进行向量化表示,得到文本数据集的特征向量集合;
以牙龈出血为主诉症状的电子病历文档为例,牙龈出血是口腔科常见症状之一,是指牙龈自发性的或由于轻微刺激引起的少量流血。常见的牙龈出血症状比如,如果为牙周炎:其早期症状不明显。随着疾病变化,可出现口臭伴牙周袋、牙周溢脓、牙齿松动,有咬合无力、钝痛、牙龈出血等表现;如果为牙龈炎:除口臭外,可出现刷牙或咬硬物时牙龈出血。局部表现为游离龈和龈乳头呈鲜红或暗红色,重症者的炎症充血范围可波及附着龈,另外有牙龈组织肿胀、龈缘变厚、牙间乳头圆钝,与牙面不再紧贴,点彩消失,表面光亮。牙龈变得松软脆弱、缺乏弹性,而且变得坚硬肥厚。龈沟探诊可达3厘米以上、轻探龈沟即可出血、龈沟内渗出液增多等。
牙龈出血也可能与全身性疾病有关,比如,白血病主要有发热、出血、贫血、感染、骨关节疼痛以及肝脾、淋巴结肿大等等。大多数白血病患者常常因为发热、口腔炎症、肛周脓肿、牙龈发炎、牙龈出血表现和肺部感染就诊,这些症状会反映在就诊时的电子病历中。
从电子病历库中获取以牙龈出血为主诉症状的电子病历文档,以及对应的疾病诊断结果,组成文本数据集,文本数据集中各个疾病类别的文本数量应尽量均衡。对每个文本数据,进行分词、去停用词处理,提取关键词,并计算权重向量,结合对应的疾病类别,组成向量空间模型。
第一聚类模块200:用于采用k均值聚类算法对所述特征向量集合进行初步聚类;
第二聚类模块300:用于采用引力搜索算法对所述初步聚类结果进行优化得到最终聚类结果;
所述第二聚类模块具体包括:
初始化单元:设n维空间引力系统中有N个粒子,定义第i个粒子的位置为 为第i个粒子在第d维中的位置;
迭代更新单元:用于根据粒子位置计算适应度值、计算粒子所受的引力合力、更新粒子空间的速度及位置;选取适应度最好的粒子进行迭代运算直到达到终止条件;
所述计算粒子适应度值的函数为:
其中K为聚类类簇数,d(Xi,Cj)为第j类中粒子Xi到个对应的聚类中心点Cj的距离。
在第d维空间上,第i个粒子受第j个粒子作用力为:
G(t)=G0e-at/T
其中,ε为接近0的常量,G(t)为t时刻引力常数,T为迭代次数;
其中,fiti(t)为在t时刻粒子i的适应度值,best(t)为t时刻适应度最大值,worst(t)为t时刻适应度最小值;
第i个粒子在第d维空间上受到的引力合力Fi d(t)为:
则第d维空间上,粒子i在引力合力作用下的加速度为:
引入莱维飞行进行粒子速度更新,粒子i在第d维空间的速度更新公式为:
Levy(β)服从φ的表达式为:
其中,Γ为标准的gamma函数,u、v均服从正态分布。randi为(0,1)之间的随机数,α为步长控制常量,为点对点乘法,Levy(β)表示参数为β的莱维分布,β∈(0,2);/>为第d维空间上粒子i在引力合力作用下的加速度。
引入左右方位判断进行粒子位置更新,粒子i在第d维空间的位置更新公式为:
其中,b表示n维随机单位向量, δ为预设的步长,Xl、Xr分别代表对应位置左侧、右侧搜索区域的位置;sign(.)表示符号函数,f为适应度函数。
本发明通过第一聚类模块对文本数据集进行初步聚类,通过第二聚类模块对初步聚类结果进行优化,在引力搜索算法的速度进化过程中引入莱维飞行的方式,增加粒子的活动和跳跃能力,促使粒子在陷入局部最优时具备跳出局部最优位置的能力;在进行粒子位置更新时先根据当前位置将搜索区域划分成左右区域,分别根据适应度判断左右区域中哪边区域离最佳位置近,当左侧区域适应度较好时,在进行位置更新时移动至后再向左侧叠加一个向量,当右侧区域适应度较好时,在进行位置更新时移动至/>后再向右侧叠加一个向量,使粒子在位置更新时总是向最佳方位调整,既能增加全局搜索能力又能加快收敛速度,从而得到准确地聚类结果。
文本分类模块400:用于获取向量化的待测文本所属聚类类簇,在所述聚类类簇内部通过计算语义相似度的方式进行文本分类。
首先通过预处理模块100对带分类文本进行向量化表示,计算向量化的待分类文本与所属的聚类类簇中各个文本特征向量之间的余弦相似度,选取余弦相似度最大的文本特征向量对应的类别作为待分类文本类别。
本发明第还公开一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口和总线;
其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现本发明所述系统中的数据获取模块、特征提取模块、疾病聚类模块、联合诊断模块。
本发明还公开一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现本发明所述系统中的数据获取模块、特征提取模块、疾病聚类模块、联合诊断模块。所述存储介质包括:U盘、移动硬盘、只议存储器ROM、随机存取存储器RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以分布到多个网络单元上。可以根据实际的衙要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于聚类的文本分类系统,其特征在于,所述系统包括:
预处理模块:用于对文本数据集中的文本对象及对应的类别标签进行向量化表示,得到文本数据集的特征向量集合;
第一聚类模块:用于采用k均值聚类算法对所述特征向量集合进行初步聚类;
第二聚类模块:用于采用改进的引力搜索算法对所述初步聚类结果进行优化得到最终聚类结果;
文本分类模块:用于获取向量化的待测文本所属聚类类簇,在所述聚类类簇内部通过计算语义相似度的方式进行文本分类;
所述第二聚类模块具体包括:
初始化单元:设n维空间引力系统中有N个粒子,定义第i个粒子的位置为 为第i个粒子在第d维中的位置;
迭代更新单元:用于根据粒子位置计算适应度值、计算粒子所受的引力合力、更新粒子空间的速度及位置;选取适应度最好的粒子进行迭代运算直到达到终止条件;
引入莱维飞行进行粒子速度更新,粒子i在第d维空间的速度更新公式为:
其中,randi为(0,1)之间的随机数,α为步长控制常量,为点对点乘法,Levy(β)表示参数为β的莱维分布,β∈(0,2);/>为第d维空间上粒子i在引力合力作用下的加速度;
引入左右方位判断进行粒子位置更新,粒子i在第d维空间的位置更新公式为:
其中,b表示n维随机单位向量, δ为预设的步长,Xl、Xr分别代表对应位置左侧、右侧搜索区域的位置;sign(.)表示符号函数,f为适应度函数。
2.根据权利要求1所述基于聚类的文本分类系统,其特征在于,所述迭代更新单元中,
其中,Γ为标准的gamma函数,u、v均服从正态分布。
3.根据权利要求1所述基于聚类的文本分类系统,其特征在于,所述迭代更新单元中,在第d维空间上,第i个粒子受第j个粒子作用力为:
G(t)=G0e-at/T
其中,ε为接近0的常量,G(t)为t时刻引力常数,T为迭代次数;
其中,fiti(t)为在t时刻粒子i的适应度值,best(t)为t时刻适应度最大值,worst(t)为t时刻适应度最小值;
第i个粒子在第d维空间上受到的引力合力Fi d(t)为:
则第d维空间上,粒子i在引力合力作用下的加速度ai d(t)为:
ai d(t)=Fi d(t)/Mi(t)。
4.根据权利要求3所述基于聚类的文本分类系统,其特征在于,所述迭代更新单元中,计算粒子适应度值的函数为:
其中K为聚类类簇数,d(Xi,Cj)为第j个聚类类簇中,粒子Xi到第j个聚类类簇的聚类中心点Cj的距离。
5.根据权利要求1所述基于聚类的文本分类系统,其特征在于,所述文本分类模块中,在所述聚类类簇内部通过计算语义相似度的方式进行文本分类具体为:
计算向量化的待分类文本与所属的聚类类簇中各个文本特征向量之间的余弦相似度,选取余弦相似度最大的文本特征向量对应的类别作为待分类文本类别。
6.一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口和总线;
其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现如权利要求1~5任一项所述的系统。
7.一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现权利要求1~5任一项所述的系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011063617.XA CN112233741B (zh) | 2020-09-30 | 2020-09-30 | 一种基于聚类的文本分类系统、设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011063617.XA CN112233741B (zh) | 2020-09-30 | 2020-09-30 | 一种基于聚类的文本分类系统、设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112233741A CN112233741A (zh) | 2021-01-15 |
CN112233741B true CN112233741B (zh) | 2024-03-01 |
Family
ID=74119856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011063617.XA Active CN112233741B (zh) | 2020-09-30 | 2020-09-30 | 一种基于聚类的文本分类系统、设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112233741B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113031877B (zh) * | 2021-04-12 | 2024-03-08 | 中国移动通信集团陕西有限公司 | 数据存储方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999033982A2 (en) * | 1997-12-23 | 1999-07-08 | Chiron Corporation | Human genes and gene expression products i |
CN109829420A (zh) * | 2019-01-18 | 2019-05-31 | 湖北工业大学 | 一种基于改进蚁狮优化算法的高光谱图像的特征选择方法 |
CN111064192A (zh) * | 2020-01-02 | 2020-04-24 | 河海大学 | 一种计及源荷不确定性的独立型微网容量优化配置方法 |
CN111368077A (zh) * | 2020-02-28 | 2020-07-03 | 大连大学 | 一种基于粒子群位置更新思想灰狼优化算法的K-Means文本分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9524369B2 (en) * | 2009-06-15 | 2016-12-20 | Complete Genomics, Inc. | Processing and analysis of complex nucleic acid sequence data |
-
2020
- 2020-09-30 CN CN202011063617.XA patent/CN112233741B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999033982A2 (en) * | 1997-12-23 | 1999-07-08 | Chiron Corporation | Human genes and gene expression products i |
CN109829420A (zh) * | 2019-01-18 | 2019-05-31 | 湖北工业大学 | 一种基于改进蚁狮优化算法的高光谱图像的特征选择方法 |
CN111064192A (zh) * | 2020-01-02 | 2020-04-24 | 河海大学 | 一种计及源荷不确定性的独立型微网容量优化配置方法 |
CN111368077A (zh) * | 2020-02-28 | 2020-07-03 | 大连大学 | 一种基于粒子群位置更新思想灰狼优化算法的K-Means文本分类方法 |
Non-Patent Citations (3)
Title |
---|
A hybrid algorithm based on self-adaptive gravitational search algorithm and differential evolution;Zhao Fuqing等;Expert Systems With Applications;第113卷;515-530 * |
基于LQ-GSA的独立型微网容量优化配置;黄保乐等;电力工程技术;第38卷(第06期);47-54 * |
基于改进鲸鱼优化算法的WSN覆盖优化;宋婷婷等;传感技术学报;第33卷(第03期);415-422 * |
Also Published As
Publication number | Publication date |
---|---|
CN112233741A (zh) | 2021-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111160139B (zh) | 心电信号的处理方法、装置及终端设备 | |
CN111259142B (zh) | 基于注意力编码和图卷积网络的特定目标情感分类方法 | |
CN107705839B (zh) | 疾病自动编码方法及系统 | |
CN107731269B (zh) | 基于原始诊断数据和病历文件数据的疾病编码方法及系统 | |
CN111444236A (zh) | 一种基于大数据的移动终端用户画像构建方法及系统 | |
US20230058194A1 (en) | Text classification method and apparatus, device, and computer-readable storage medium | |
CN108985133B (zh) | 一种人脸图像的年龄预测方法及装置 | |
CN112257449A (zh) | 命名实体识别方法、装置、计算机设备和存储介质 | |
CN107480194B (zh) | 多模态知识表示自动学习模型的构建方法及系统 | |
CN112233741B (zh) | 一种基于聚类的文本分类系统、设备、存储介质 | |
CN111803059A (zh) | 一种基于时域卷积网络的心电信号分类方法及装置 | |
Hantke et al. | EAT- The ICMI 2018 Eating Analysis and Tracking Challenge | |
CN115457982A (zh) | 情感预测模型的预训练优化方法、装置、设备及介质 | |
CN109493931B (zh) | 一种病历文件的编码方法、服务器及计算机可读存储介质 | |
CN115438040A (zh) | 一种病理档案信息管理方法及系统 | |
CN112466284B (zh) | 一种口罩语音鉴别方法 | |
CN107832288B (zh) | 中文词语语义相似度的度量方法及装置 | |
CN107085655B (zh) | 基于属性的约束概念格的中医数据处理方法及系统 | |
CN116108000B (zh) | 医疗数据管理查询方法 | |
CN113127607A (zh) | 文本数据标注方法、装置、电子设备及可读存储介质 | |
CN116150690A (zh) | DRGs决策树构建方法及装置、电子设备、存储介质 | |
CN113987188B (zh) | 一种短文本分类方法、装置及电子设备 | |
CN115660871A (zh) | 医学临床过程无监督建模方法、计算机设备、存储介质 | |
CN114780738A (zh) | 基于不同应用场景的医学影像检查项目名称标准化方法及系统 | |
CN108447565B (zh) | 一种基于改进降噪自动编码器的小于胎龄儿预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |