CN110955774B - 基于词频分布的文字分类方法、装置、设备及介质 - Google Patents

基于词频分布的文字分类方法、装置、设备及介质 Download PDF

Info

Publication number
CN110955774B
CN110955774B CN201911084640.4A CN201911084640A CN110955774B CN 110955774 B CN110955774 B CN 110955774B CN 201911084640 A CN201911084640 A CN 201911084640A CN 110955774 B CN110955774 B CN 110955774B
Authority
CN
China
Prior art keywords
weighted average
spatial distance
average spatial
frequency
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911084640.4A
Other languages
English (en)
Other versions
CN110955774A (zh
Inventor
郭晓麟
高刃
李红艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Optics Valley Information Technology Co ltd
Original Assignee
Wuhan Optics Valley Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Optics Valley Information Technology Co ltd filed Critical Wuhan Optics Valley Information Technology Co ltd
Priority to CN201911084640.4A priority Critical patent/CN110955774B/zh
Publication of CN110955774A publication Critical patent/CN110955774A/zh
Application granted granted Critical
Publication of CN110955774B publication Critical patent/CN110955774B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于词频分布的文字分类方法、装置、设备及介质。包括:获取历史短信样本,将历史短信样本分成训练集合以及验证集合,从训练集合中选择关键词并建立对应的矩阵,提取特征值,根据该特征值获取对应关键词的频率向量以及对应的分类组别,根据该频率向量构建向量空间,获取标准化关键词频率向量;根据关键词从验证集中获取每个关键词的出现频率向量,根据出现频率向量以及标准化关键词频率向量通过加权平均空间距离算法在向量空间中计算短信息到分类组别的加权平均空间距离,根据距离对短信息进行分类,本发明通过构建向量空间来对短信息进行分类,并在分类结束之后,对分类过程进行优化和迭代,能够高效、精准完成短信息自动分类。

Description

基于词频分布的文字分类方法、装置、设备及介质
技术领域
本发明涉及计算机处理技术领域,尤其涉及一种基于词频分布的文字分类方法、装置、设备及介质。
背景技术
传统工作中,对海量短信息进行文字语义上的有效分类时,需要分类人员有一定经验,并且要事先设立一系列具有代表性的分类组别,然后给每个分类组别打上三至五个具有描述性的典型关键词,随后将目标短信息逐一与各分类组别的关键词进行查询匹配,一旦匹配成功,短信息便落入自含关键词所对应的分类组别。
但是,传统的短信息分类的方法还具有如下的缺点,如:对于关键词的界定过于主观,系统只能在用户设定的规则下运行,无法做到自我迭代改进;因为在分类识别过程中,工作量过大,可以会导致分类组别具有一点偏差,对于一些词可能无法识别;每个关键词之间的匹配过程没有联立起来,导致整个分类过程效率低且精准性不高;无法确认某短信息落入特定分类组别的精准程度,也无法让分类者对短信息的集群做直观的复核检查。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
有鉴于此,本发明提出了一种基于词频分布的文字分类方法、装置、设备及介质,旨在解决现有技术无法通过短信息中关键词频率的数值合理构建向量空间来实现对文字进行高效、精准的自动化分类的技术问题。
本发明的技术方案是这样实现的:
一方面,本发明提供了一种基于词频分布的文字分类方法,所述基于词频分布的文字分类方法包括以下步骤:
S1,获取历史短信样本,从历史短信息样本中提取一部分短信息样本组成训练集合,将另一部分样本组成验证集合;
S2,从训练集合中选择关键词,根据关键词建立对应的矩阵,从矩阵中提取特征值,根据该特征值获取对应关键词的频率向量以及对应短信息的分类组别,并根据该频率向量构建向量空间,对该频率向量进行标准化,获取标准化关键词频率向量;
S3,建立加权平均空间距离算法,根据关键词从验证集中获取每个关键词的出现频率向量,根据出现频率向量以及标准化关键词频率向量通过加权平均空间距离算法在向量空间中计算短信息到分类组别的加权平均空间距离;
S4,根据该加权平均空间距离对短信息进行分类。
在以上技术方案的基础上,优选的,步骤S2中,从训练集合中选择关键词,还包括以下步骤,建立语词频率算法,训练集合中短信息的数量,根据语词频率算法计算训练集合中每个语词的出现频率,根据每个语词的出现频率的数值将语词按从大到小的顺序进行排列,并选取前n个语词作为关键词。
在以上技术方案的基础上,优选的,根据关键词建立对应的矩阵,从矩阵中提取特征值,根据该特征值获取对应关键词的频率向量,并根据该频率向量构建向量空间,对该频率向量进行标准化,获取标准化关键词频率向量,还包括以下步骤,获取关键词在训练集合中两两同时出现的频率,根据该频率构建矩阵,通过主成分分析,从该矩阵中获取特征值,根据该特征值确定对应短信息的分类组别以及对应的关键词的频率向量,根据该频率向量构建向量空间,同时对该频率向量进行标准化,获取标准化关键词频率向量。
在以上技术方案的基础上,优选的,步骤S3中,还包括以下步骤,所述加权平均空间距离算法为:
Figure BDA0002265018860000021
其中,dij为短信息i到分类组别j加权平均空间距离,Ri*=Ri/||Ri||,Ri是关键词的频率向量,Sj*=Sj/||Sj||,||Sj*||=1,Sj*是标准化关键词频率向量,Sj是关键词频率向量,V-1是矩阵V的逆矩阵,T代表转置符号,i=1,2,…,n;j=1,2,…,n。
在以上技术方案的基础上,优选的,根据该加权平均空间距离对短信息进行分类,还包括以下步骤,获取短信息到所有分类组别的加权平均空间距离,根据空间距离的数值,选取空间距离最小的短信息与对应的分类组别,并对该短信息进行分类。
在以上技术方案的基础上,优选的,加权平均空间距离之后,还包括以下步骤,设定重复次数以及空间距离选取标准,根据该重复次数重复运行步骤S2以及步骤S3,获取短信息在同一分类组别下的多个加权平均空间距离d,根据多个加权平均空间距离d建立空间距离d的分布图,根据空间距离选取标准从该分布图中选取满足标准的加权平均空间距离d对应的最优矩阵以及最优标准化关键词频率向量。
在以上技术方案的基础上,优选的,还包括以下步骤,设定阈值,实时获取真实场景下产生的短信息,根据最优矩阵以及最优标准化关键词频率向量利用加权平均空间距离算法测算该短信息的加权平均空间距离,将该空间距离的数值与阈值进行比较,当该空间距离的数值小于阈值时,则将该短信息放入历史短信息样本中。
更进一步优选的,所述基于词频分布的文字分类装置包括:
集合生成模块,用于获取历史短信样本,从历史短信息样本中提取一部分短信息样本组成训练集合,将另一部分样本组成验证集合;
向量空间构建模块,用于从训练集合中选择关键词,根据关键词建立对应的矩阵,从矩阵中提取特征值,根据该特征值获取对应关键词的频率向量以及对应短信息的分类组别,并根据该频率向量构建向量空间,对该频率向量进行标准化,获取标准化关键词频率向量;
计算模块,用于建立加权平均空间距离算法,根据关键词从验证集中获取每个关键词的出现频率向量,根据出现频率向量以及标准化关键词频率向量通过加权平均空间距离算法在向量空间中计算短信息到分类组别的加权平均空间距离;
分类模块,用于根据该加权平均空间距离对短信息进行分类。
第二方面,所述基于词频分布的文字分类方法还包括一种设备,所述设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于词频分布的文字分类方法程序,所述基于词频分布的文字分类方法程序配置为实现如上文所述的基于词频分布的文字分类方法的步骤。
第三方面,所述基于词频分布的文字分类方法还包括一种介质,所述介质为计算机介质,所述计算机介质上存储有基于词频分布的文字分类方法程序,所述基于词频分布的文字分类方法程序被处理器执行时实现如上文所述的基于词频分布的文字分类方法的步骤。
本发明的一种基于词频分布的文字分类方法相对于现有技术具有以下有益效果:
(1)通过对短信息中关键词的出现频率进行统计,构建出了向量空间,通过构建出来的向量空间,能够完整实现分类规则的自动形成、分类过程的高效实施以及分类结果的精准评估;
(2)通过建立矩阵的方式,将传统文字分类方法遗漏的信息带入运算中,增加了参与运算的数据,同时,让短信息集合中所有出现频率高的关键词都有机会进入工作中,增加了在分类工作中一次性使用的关键词的数量,使得分类结果更加科学,更加容易解释。
(3)通过对工作过程进行优化和迭代,分类者值只需要预设个别参数,整个过程就可以不断扩充样本集合,重新选取最优指标,完成优化和自动更新迭代的过程,节省了大量人力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例方案涉及的硬件运行环境的设备的结构示意图;
图2为本发明基于词频分布的文字分类方法第一实施例的流程示意图;
图3为本发明基于词频分布的文字分类方法第一实施例的功能模块示意图。
具体实施方式
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
如图1所示,该设备可以包括:处理器1001,例如中央处理器(Central ProcessingUnit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对设备的限定,在实际应用中设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于词频分布的文字分类方法程序。
在图1所示的设备中,网络接口1004主要用于建立设备与存储基于词频分布的文字分类方法系统中所需的所有数据的服务器的通信连接;用户接口1003主要用于与用户进行数据交互;本发明基于词频分布的文字分类方法设备中的处理器1001、存储器1005可以设置在基于词频分布的文字分类方法设备中,所述基于词频分布的文字分类方法设备通过处理器1001调用存储器1005中存储的基于词频分布的文字分类方法程序,并执行本发明实施提供的基于词频分布的文字分类方法。
结合图2,图2为本发明基于词频分布的文字分类方法第一实施例的流程示意图。
本实施例中,所述基于词频分布的文字分类方法包括以下步骤:
S10:获取历史短信样本,从历史短信息样本中提取一部分短信息样本组成训练集合,将另一部分样本组成验证集合。
应当理解的是,本实施例中会获取历史积累的短信息样本集中,并根据分类者的需求从短信息样本集中随机抽取50%~70%的样本来组成训练集合,用短信息样本集中剩下的样本组成验证集合,验证集合占总共样本数的30%~50%。
S20:从训练集合中选择关键词,根据关键词建立对应的矩阵,从矩阵中提取特征值,根据该特征值获取对应关键词的频率向量以及对应短信息的分类组别,并根据该频率向量构建向量空间,对该频率向量进行标准化,获取标准化关键词频率向量。
应当理解的是,本实施例中,首先会从训练集合中选择关键词,选择方法如下,系统会对训练集合中的短信息进行语词分析并统计每个语词的出现频率,将所有在训练集合中出现频率≥x%*训练集合短信息数量的语词自动列出,其中x%由分类者预先设定,x%是一个百分数,将语词列出之后,会根据语词的出现频率将语词按从大到小的顺序进行排列,在排列完成之后,系统会选取前n个语词作为关键词。
应当理解的是,系统会统计选取的n个关键词在训练集合中,两两同时出现的频率,并根据这个频率构建关键词的重要性矩阵V={vi,j},其中,当i=j时,矩阵元素为第i个关键词独立出现的频率,而i≠j时,矩阵元素为第i个关键词和第j个关键词同时出现的频率,i=1,2,…,n;j=1,2,…,n。
应当理解的是,系统接下来会对重要性矩阵V做主成分分析,获得矩阵V的n个特征值,并将特征值(Λ=λ12,…,λn)按从大到小进行排序后,机器按预设条件选取m个特征值,即满足λm>>λm+1~λn(第m个特征值远大于其后所有特征值,一般来说大5~10倍),于是这m个特征值每个对应一个短信息的分类组别,每个分类组别所对应的关键词出现的频率向量为Si=V*Li,其中Li为特征值λi所对应的特征向量,i=1,2,…,m。
应当理解的是,在获取到频率向量后,会进一步对频率向量进行标准化,即Si*=Si/||Si||,||Si*||=1,其中||Si||是Si的模。
应当理解的是,此时,可以根据n个关键词的出现频率来构成向量空间,并且可以根据矩阵V来确定m组分类以及分类的规则,即对每个分类组别的标准化关键词频率向量Si进行标记。
S30:建立加权平均空间距离算法,根据关键词从验证集中获取每个关键词的出现频率向量,根据出现频率向量以及标准化关键词频率向量通过加权平均空间距离算法在向量空间中计算短信息到分类组别的加权平均空间距离。
应当理解的是,系统会对验证集合中k条短信息分别测定n个关键词的出现次数,如果某个关键词出现则标记1,不出现则标记0,并将第i条短信息的关键词出现频率向量记做Ri=(r1,r2,…,rn),也就是由0和1组成的向量,并通过标准化让Ri*=Ri/||Ri||。
应当理解的是,建立加权平均空间距离算法,所述加权平均空间距离是关键词出现频率的向量空间中定义验证集合中短信息i到分类组j的距离,所述算法为:
Figure BDA0002265018860000071
其中,dij为短信息i到分类组别j加权平均空间距离,Ri*=Ri/||Ri||,Ri是关键词的频率向量,Sj*=Sj/||Sj||,||Sj*||=1,Sj*是标准化关键词频率向量,Sj是关键词频率向量,V-1是矩阵V的逆矩阵,T代表转置符号,i=1,2,…,n;j=1,2,…,n。
S40:根据该加权平均空间距离对短信息进行分类。
应当理解的是,系统会将短信息i到分类组别j的距离进行排序,并从中选定最短空间距离d所对应的分类组别,这个分类组别即是短信息i应该落入的分类。验证集合中k条短信息以此完成该操作,此时验证工作结束。
应当理解的是,在上面步骤中得到的短信息i的分类可能存在判定上误差,因为训练集合与验证集合中的短信息样本全都是随机抽取的,这可能导致在分组上存在对某些关键词重要性的误判,结果最短空间距离只是因为偶然因素的影响才获得了最小值,这并不是工作的常态。
应当理解的是,此时会通过Bootstrap技术重复进行步骤S2以及步骤S3,重复次数为短信息总样本数量的20~50倍,此时每一条短信息在Bootstrap循环中既是多次做过训练集合的元素,也是多次做过验证集合的元素,并且在作为验证集合的元素时得到了同一分类组别下多次对空间距离d的估计值,联立这些估计值可以得到d的分布——间接的知道d2应服从n维的非平均加权x2分布(权重由重要性矩阵的逆矩阵V-1所决定)。
在获得每条短信到每个分类组的空间距离d的分布后,机器将最终选取步骤S2以及步骤S3循环中最优一次的跑批结果作为日后开展真实工作的起点,该选取标准是,所有短信息在被选取的这次验证跑批中得到的空间距离d的估计值均为统计学上显著,其准确性高于95%(准确性高低可由分类者自行按需调整)。
在上述步骤中确认了最优一次的跑批结果后,即以这次跑批得到的重要性矩阵V和分类组别对应的标准化评率向量Si*为真实工作基础,对样本以外的真实场景下实时产生的短信息进行空间距离的测算,比较和分类。
相关分类结果可以用图式数据库进行展示,在多维坐标轴中标识出各个分类组的中心点(即Si*),并围绕这些中心点画出短信息的定位点(即Ri*),直观的考察集群分布的密集度和边界。
在真实工作中,一旦5%以上的短信息空间距离的估计值不再显著(每20条短信中有1条的估计值准确性在统计学上低于95%),机器则将这段时间新增的短信息作为补充样本添加到样本集合中,重新进入步骤S2以及步骤S3的计算,经迭代调优后,产生的新结果又会被投入下一阶段的真实工作,即开启新的步骤S4。这能够保证整个分类方法系统在高效与精准上的可持续性
需要说明的是,以上仅为举例说明,并不对本申请的技术方案构成任何限定。
通过上述描述不难发现,本实施例通过获取获取历史短信样本,从历史短信息样本中提取一部分短信息样本组成训练集合,将另一部分样本组成验证集合;从训练集合中选择关键词,根据关键词建立对应的矩阵,从矩阵中提取特征值,根据该特征值获取对应关键词的频率向量以及对应短信息的分类组别,并根据该频率向量构建向量空间,对该频率向量进行标准化,获取标准化关键词频率向量;建立加权平均空间距离算法,根据关键词从验证集中获取每个关键词的出现频率向量,根据出现频率向量以及标准化关键词频率向量通过加权平均空间距离算法在向量空间中计算短信息到分类组别的加权平均空间距离;根据该加权平均空间距离对短信息进行分类,本实施例通过构建向量空间来对短信息进行分类,并在分类结束之后,对分类过程进行优化和迭代,能够高效、精准完成短信息自动分类。
此外,本发明实施例还提出一种基于词频分布的文字分类装置。如图3所示,该基于词频分布的文字分类装置包括:集合生成模块10、向量空间构建模块20、计算模块30、分类模块40。
集合生成模块10,用于获取历史短信样本,从历史短信息样本中提取一部分短信息样本组成训练集合,将另一部分样本组成验证集合;
向量空间构建模块20,用于从训练集合中选择关键词,根据关键词建立对应的矩阵,从矩阵中提取特征值,根据该特征值获取对应关键词的频率向量以及对应短信息的分类组别,并根据该频率向量构建向量空间,对该频率向量进行标准化,获取标准化关键词频率向量;
计算模块30,用于建立加权平均空间距离算法,根据关键词从验证集中获取每个关键词的出现频率向量,根据出现频率向量以及标准化关键词频率向量通过加权平均空间距离算法在向量空间中计算短信息到分类组别的加权平均空间距离;
分类模块40,用于根据该加权平均空间距离对短信息进行分类。
此外,需要说明的是,以上所描述的装置实施例仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的,此处不做限制。
另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的基于词频分布的文字分类方法,此处不再赘述。
此外,本发明实施例还提出一种介质,所述介质为计算机介质,所述计算机介质上存储有基于词频分布的文字分类方法程序,所述基于词频分布的文字分类方法程序被处理器执行时实现如下操作:
S1,获取历史短信样本,从历史短信息样本中提取一部分短信息样本组成训练集合,将另一部分样本组成验证集合;
S2,从训练集合中选择关键词,根据关键词建立对应的矩阵,从矩阵中提取特征值,根据该特征值获取对应关键词的频率向量以及对应短信息的分类组别,并根据该频率向量构建向量空间,对该频率向量进行标准化,获取标准化关键词频率向量;
S3,建立加权平均空间距离算法,根据关键词从验证集中获取每个关键词的出现频率向量,根据出现频率向量以及标准化关键词频率向量通过加权平均空间距离算法在向量空间中计算短信息到分类组别的加权平均空间距离;
S4,根据该加权平均空间距离对短信息进行分类。
进一步地,所述基于词频分布的文字分类方法程序被处理器执行时还实现如下操作:
建立语词频率算法,训练集合中短信息的数量,根据语词频率算法计算训练集合中每个语词的出现频率,根据每个语词的出现频率的数值将语词按从大到小的顺序进行排列,并选取前n个语词作为关键词。
进一步地,所述基于词频分布的文字分类方法程序被处理器执行时还实现如下操作:
获取关键词在训练集合中两两同时出现的频率,根据该频率构建矩阵,通过主成分分析,从该矩阵中获取特征值,根据该特征值确定对应短信息的分类组别以及对应的关键词的频率向量,根据该频率向量构建向量空间,同时对该频率向量进行标准化,获取标准化关键词频率向量。
进一步地,所述基于词频分布的文字分类方法程序被处理器执行时还实现如下操作:
所述加权平均空间距离算法为:
Figure BDA0002265018860000111
其中,dij为短信息i到分类组别j加权平均空间距离,Ri*=Ri/||Ri||,Ri是关键词的频率向量,Sj*=Sj/||Sj||,||Sj*||=1,Sj*是标准化关键词频率向量,Sj是关键词频率向量,V-1是矩阵V的逆矩阵,T代表转置符号,i=1,2,…,n;j=1,2,…,n。
进一步地,所述基于词频分布的文字分类方法程序被处理器执行时还实现如下操作:
获取短信息到所有分类组别的加权平均空间距离,根据空间距离的数值,选取空间距离最小的短信息与对应的分类组别,并对该短信息进行分类。
进一步地,所述基于词频分布的文字分类方法程序被处理器执行时还实现如下操作:
设定重复次数以及空间距离选取标准,根据该重复次数重复运行步骤S2以及步骤S3,获取短信息在同一分类组别下的多个加权平均空间距离d,根据多个加权平均空间距离d建立空间距离d的分布图,根据空间距离选取标准从该分布图中选取满足标准的加权平均空间距离d对应的最优矩阵以及最优标准化关键词频率向量。
进一步地,所述基于词频分布的文字分类方法程序被处理器执行时还实现如下操作:
设定阈值,实时获取真实场景下产生的短信息,根据最优矩阵以及最优标准化关键词频率向量利用加权平均空间距离算法测算该短信息的加权平均空间距离,将该空间距离的数值与阈值进行比较,当该空间距离的数值小于阈值时,则将该短信息放入历史短信息样本中。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于词频分布的文字分类方法,其特征在于:包括以下步骤;
S1,获取历史短信息样本,从历史短信息样本中提取一部分短信息样本组成训练集合,将另一部分样本组成验证集合;
S2,从训练集合中选择关键词,根据关键词建立对应的矩阵,从矩阵中提取特征值,根据该特征值获取对应关键词的频率向量以及对应短信息的分类组别,并根据该频率向量构建向量空间,对该频率向量进行标准化,获取标准化关键词频率向量;
S3,建立加权平均空间距离算法,根据关键词从验证集中获取每个关键词的出现频率向量,根据出现频率向量以及标准化关键词频率向量通过加权平均空间距离算法在向量空间中计算短信息到分类组别的加权平均空间距离;
S4,根据该加权平均空间距离对短信息进行分类;
计算短信息到分类组别的加权平均空间距离之后,还包括以下步骤,设定重复次数以及空间距离选取标准,根据该重复次数重复运行步骤S2以及步骤S3,获取短信息在同一分类组别下的多个加权平均空间距离d,根据多个加权平均空间距离d建立加权平均空间距离d的分布图,根据加权平均空间距离选取标准从该分布图中选取满足标准的加权平均空间距离d对应的最优矩阵以及最优标准化关键词频率向量;
设定阈值,实时获取真实场景下产生的短信息,根据最优矩阵以及最优标准化关键词频率向量利用加权平均空间距离算法测算该短信息的加权平均空间距离,将该加权平均空间距离的数值与阈值进行比较,当该加权平均空间距离的数值小于阈值时,则将该短信息放入历史短信息样本中。
2.如权利要求1所述的基于词频分布的文字分类方法,其特征在于:步骤S2中,从训练集合中选择关键词,还包括以下步骤,对训练集合中的短信息进行语词分析,统计每个语词的出现频率,根据每个语词的出现频率的数值将语词按从大到小的顺序进行排列,并选取前n个语词作为关键词。
3.如权利要求2所述的基于词频分布的文字分类方法,其特征在于:根据关键词建立对应的矩阵,从矩阵中提取特征值,根据该特征值获取对应关键词的频率向量,并根据该频率向量构建向量空间,对该频率向量进行标准化,获取标准化关键词频率向量,还包括以下步骤,获取关键词在训练集合中两两同时出现的频率,根据该频率构建矩阵,通过主成分分析,从该矩阵中获取特征值,根据该特征值确定对应短信息的分类组别以及对应的关键词的频率向量,根据该频率向量构建向量空间,同时对该频率向量进行标准化,获取标准化关键词频率向量。
4.如权利要求3所述的基于词频分布的文字分类方法,其特征在于:步骤S3中,还包括以下步骤,所述加权平均空间距离算法为:
Figure FDA0003815001080000021
其中,dij为短信息i到分类组别j的加权平均空间距离,Ri*=Ri/||Ri||,Ri是短信息i的关键词频率向量,Ri*是短信息i的标准化关键词频率向量,Sj*=Sj/||Sj||,||Sj*||=1,Sj*是分类组别j的标准化关键词频率向量,Sj是分类组别j的关键词频率向量,V-1是矩阵V的逆矩阵,T代表转置符号,i=1,2,…,n;j=1,2,…,n。
5.如权利要求4所述的基于词频分布的文字分类方法,其特征在于:根据该加权平均空间距离对短信息进行分类,还包括以下步骤,获取短信息到所有分类组别的加权平均空间距离,根据加权平均空间距离的数值,选取数值最小的加权平均空间距离所对应的分类组别,对该短信息进行分类。
6.一种基于词频分布的文字分类装置,其特征在于,所述基于词频分布的文字分类装置包括:
集合生成模块,用于获取历史短信息样本,从历史短信息样本中提取一部分短信息样本组成训练集合,将另一部分样本组成验证集合;
向量空间构建模块,用于从训练集合中选择关键词,根据关键词建立对应的矩阵,从矩阵中提取特征值,根据该特征值获取对应关键词的频率向量以及对应短信息的分类组别,并根据该频率向量构建向量空间,对该频率向量进行标准化,获取标准化关键词频率向量;
计算模块,用于建立加权平均空间距离算法,根据关键词从验证集中获取每个关键词的出现频率向量,根据出现频率向量以及标准化关键词频率向量通过加权平均空间距离算法在向量空间中计算短信息到分类组别的加权平均空间距离;
分类模块,用于根据该加权平均空间距离对短信息进行分类;
计算短信息到分类组别的加权平均空间距离之后,还包括,设定重复次数以及空间距离选取标准,根据该重复次数重复运行向量空间构建模块以及计算模块,获取短信息在同一分类组别下的多个加权平均空间距离d,根据多个加权平均空间距离d建立加权平均空间距离d的分布图,根据加权平均空间距离选取标准从该分布图中选取满足标准的加权平均空间距离d对应的最优矩阵以及最优标准化关键词频率向量;
设定阈值,实时获取真实场景下产生的短信息,根据最优矩阵以及最优标准化关键词频率向量利用加权平均空间距离算法测算该短信息的加权平均空间距离,将该加权平均空间距离的数值与阈值进行比较,当该加权平均空间距离的数值小于阈值时,则将该短信息放入历史短信息样本中。
7.一种基于词频分布的文字分类设备,其特征在于,所述基于词频分布的文字分类设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于词频分布的文字分类方法程序,所述基于词频分布的文字分类方法程序配置为实现如权利要求1至5任一项所述的基于词频分布的文字分类方法的步骤。
8.一种计算机介质,其特征在于,所述计算机介质上存储有基于词频分布的文字分类方法程序,所述基于词频分布的文字分类方法程序被处理器执行时实现如权利要求1至5任一项所述的基于词频分布的文字分类方法的步骤。
CN201911084640.4A 2019-11-08 2019-11-08 基于词频分布的文字分类方法、装置、设备及介质 Active CN110955774B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911084640.4A CN110955774B (zh) 2019-11-08 2019-11-08 基于词频分布的文字分类方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911084640.4A CN110955774B (zh) 2019-11-08 2019-11-08 基于词频分布的文字分类方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN110955774A CN110955774A (zh) 2020-04-03
CN110955774B true CN110955774B (zh) 2022-10-11

Family

ID=69976795

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911084640.4A Active CN110955774B (zh) 2019-11-08 2019-11-08 基于词频分布的文字分类方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN110955774B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307206A (zh) * 2020-10-29 2021-02-02 青岛檬豆网络科技有限公司 一种关于新技术的领域分类方法
CN116340830B (zh) * 2023-05-19 2023-08-18 山东通维信息工程有限公司 一种基于深层记忆模型的高速公路机电系统故障分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101414300A (zh) * 2008-11-28 2009-04-22 电子科技大学 一种互联网舆情信息的分类处理方法
CN106294568A (zh) * 2016-07-27 2017-01-04 北京明朝万达科技股份有限公司 一种基于bp网络的中文文本分类规则生成方法及系统
CN107085581A (zh) * 2016-02-16 2017-08-22 腾讯科技(深圳)有限公司 短文本分类方法和装置
CN110389932A (zh) * 2019-07-02 2019-10-29 华北电力科学研究院有限责任公司 电力文件自动分类方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7836000B2 (en) * 2007-12-10 2010-11-16 Yahoo! Inc. System and method for training a multi-class support vector machine to select a common subset of features for classifying objects

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101414300A (zh) * 2008-11-28 2009-04-22 电子科技大学 一种互联网舆情信息的分类处理方法
CN107085581A (zh) * 2016-02-16 2017-08-22 腾讯科技(深圳)有限公司 短文本分类方法和装置
CN106294568A (zh) * 2016-07-27 2017-01-04 北京明朝万达科技股份有限公司 一种基于bp网络的中文文本分类规则生成方法及系统
CN110389932A (zh) * 2019-07-02 2019-10-29 华北电力科学研究院有限责任公司 电力文件自动分类方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
中文文本分类技术的研究;王倩;《中国优秀硕士学位论文全文数据库 信息科技辑》;20071115(第5期);全文 *
基于短文本的分类算法研究;徐易;《中国优秀硕士学位论文全文数据库 信息科技辑》;20101015(第10期);全文 *

Also Published As

Publication number Publication date
CN110955774A (zh) 2020-04-03

Similar Documents

Publication Publication Date Title
CN109325691A (zh) 异常行为分析方法、电子设备及计算机程序产品
CN109615129B (zh) 房地产客户成交概率预测方法、服务器及计算机存储介质
CN111444952A (zh) 样本识别模型的生成方法、装置、计算机设备和存储介质
CN107545038B (zh) 一种文本分类方法与设备
CN108491406B (zh) 信息分类方法、装置、计算机设备和存储介质
CN108304354B (zh) 一种预测模型训练方法及装置、存储介质、电子设备
CN110610193A (zh) 标注数据的处理方法及装置
CN110955774B (zh) 基于词频分布的文字分类方法、装置、设备及介质
CN110737805B (zh) 图模型数据的处理方法、装置和终端设备
CN108629345A (zh) 高维图像特征匹配方法和装置
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
CN110569363A (zh) 一种决策流组件生成方法、装置、电子设备及存储介质
CN117763126A (zh) 知识检索方法、设备、存储介质及装置
CN112396428B (zh) 一种基于用户画像数据的客群分类管理方法及装置
CN114692889A (zh) 用于机器学习算法的元特征训练模型
CN116484005B (zh) 一种分类模型构建方法、装置及存储介质
US20200302541A1 (en) Resource processing method, storage medium, and computer device
CN116501979A (zh) 信息推荐方法、装置、计算机设备及计算机可读存储介质
CN115630708A (zh) 一种模型更新方法、装置、电子设备、存储介质及产品
CN110096708A (zh) 一种定标集确定方法及装置
Karasalo et al. Developing horizon scanning methods for the discovery of scientific trends
CN109740013A (zh) 图像数据处理方法及图像检索方法
CN114780589A (zh) 多表连接查询方法、装置、设备及存储介质
CN114266643A (zh) 基于融合算法的企业挖掘方法、装置、设备及存储介质
CN112819527A (zh) 一种用户分群处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant