CN109815501A - 一种获取群聊文本分类词库的方法及装置 - Google Patents
一种获取群聊文本分类词库的方法及装置 Download PDFInfo
- Publication number
- CN109815501A CN109815501A CN201910087724.7A CN201910087724A CN109815501A CN 109815501 A CN109815501 A CN 109815501A CN 201910087724 A CN201910087724 A CN 201910087724A CN 109815501 A CN109815501 A CN 109815501A
- Authority
- CN
- China
- Prior art keywords
- group chat
- chat text
- text
- word
- sample group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012360 testing method Methods 0.000 claims abstract description 7
- 230000002452 interceptive effect Effects 0.000 claims description 17
- 230000009467 reduction Effects 0.000 claims description 13
- 238000005259 measurement Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000005303 weighing Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 18
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 6
- 239000003814 drug Substances 0.000 description 6
- 229940079593 drug Drugs 0.000 description 6
- 238000007637 random forest analysis Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 235000012054 meals Nutrition 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 101100509468 Arabidopsis thaliana JASON gene Proteins 0.000 description 1
- 241000287828 Gallus gallus Species 0.000 description 1
- 241000283973 Oryctolagus cuniculus Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006757 chemical reactions by type Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004297 night vision Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种获取群聊文本分类词库的方法及装置,所述方法包括:获取多个不同类型的样本群聊天文本,通过对样本群聊天文本进行分词、去停用词等预处理后,将预处理后的群聊天文本进行词向量赋权,将群聊天文本变为高纬词向量,然后通过梯度降维算法对词向量进行降维处理,获取样本群聊天文本的目标词库。根据获取的目标词库,可以对采集的测试群聊天文本进行分类。通过本申请提供的一种获取群聊文本分类词库的方法,可以对用户需要的目标分类词库进行获取,继而可以通过目标分类词库对采集到群聊天文本进行分类,特别是针对各类违法犯罪的群聊天文本,能够准确的对其进行区别。
Description
技术领域
本申请涉及公共安全领域,具体而言,涉及一种获取群聊文本分类词库的方法及装置。
背景技术
现目前,群聊天是在网络社交软件上的常用功能,它是由多条交互式短文本组成。而群聊天作为网络上多人交流的主要手段,其内容除了正常的聊天以外还可能成为不法分子的聚集地。而由于交互式短文本具有非正规性、不完整性、稀疏性的特点,因此对于从网络中的群聊天文本中分析找到目标关键词进而对该群聊天文本的分类进行确认,判断该聊天文本是否存在违法信息是十分困难的。
有鉴于此,如何实现对网络中群聊天文本的分类,是目前需要解决的问题。
发明内容
本申请的目的在于提供一种获取群聊文本分类词库的方法及装置。
第一方面,本申请提供一种获取群聊文本分类词库的方法,,所述方法包括:
获取多个样本群聊文本,其中,所述多个样本群聊文本包括目标分类样本群聊文本和普通样本群聊文本;
对所述多个样本群聊文本进行预处理;
根据所述预处理后的各个样本群聊文本中各分词的词频和各分词的逆向文件频率,对所述预处理后的群聊文本中各分词进行词向量赋权,其中,逆向文件频率是指词语普遍重要性的度量;
将所述词向量赋权后的各个样本群聊文本进行降维处理,得到所述目标分类样本群聊文本对应的目标分类的群聊文本分类词库。
可选地,所述方法还包括:
获取多个待分类的群聊文本;
对所述多个待分类的群聊文本进行预处理;
根据所述预处理后的待分类群聊天文本的词频和逆向文件频率,对所述预处理后的待分类的群聊天文本进行词向量赋权;
将所述词向量赋权后的待分类的群聊天文本进行降维处理,得到所述待分类的群聊文本对应的目标高频词语;
判断所述目标高频词语是否存在于所述目标分类的群聊文本分类词库,若存在,则判定所述待分类的群聊文本为目标分类样本群聊文本;
若不存在,则判定所述待分类的群聊文本为普通样本群聊文本。
可选地,所述对所述多个样本群聊文本进行预处理,包括:
将所述多个样本群聊文本中的交互式短文本分别组合成长文本;
对所述长文本进行数据清洗,除去所述长文本中的非文字数据;
将所述数据清洗后的长文本进行分词和去除停用词的操作,得到预处理后的多个样本群聊文本。
可选地,所述根据所述预处理后的各个样本群聊文本中各分词的词频和各分词的逆向文件频率,对所述预处理后的群聊文本中各分词进行词向量赋权,包括:
根据所述样本群聊文本中的各个词语出现次数及所述样本群聊文本中的所有词语出现的次数,计算得到所述预处理后的各个样本群聊文本中各分词的词频;
根据所述各个词语对应所在的所述预处理后的样本群聊文本的个数及所述预处理后的各个样本群聊文本的个数,计算得到所述预处理后的各个样本群聊文本中各分词的逆向文件频率。
可选地,所述将所述词向量赋权后的各个样本群聊文本进行降维处理,包括:
根据所述词向量赋权后的各个样本群聊文本,获取所述各个样本群聊文本对应的群体词权重曲线;
判断所述群体词权重曲线中的各个点的梯度是否大于预设梯度阈值,若大于,则将对应的词语作为目标高频词语保留;
若小于,则将对应的词语除去。
第二方面,本申请提供一种获取群聊文本分类词库的装置,所述装置包括:
获取模块,用于获取多个样本群聊文本,其中,所述多个样本群聊文本包括目标分类样本群聊文本和普通样本群聊文本;
处理模块,用于对所述多个样本群聊文本进行预处理;
赋权模块,用于根据所述预处理后的各个样本群聊文本中各分词的词频和各分词的逆向文件频率,对所述预处理后的群聊文本中各分词进行词向量赋权,其中,逆向文件频率是指词语普遍重要性的度量;
降维模块,用于将所述词向量赋权后的各个样本群聊文本进行降维处理,得到所述目标分类样本群聊文本对应的目标分类的群聊文本分类词库。
可选地,所述装置还包括:
测试模块,用于获取多个待分类的群聊文本;
对所述多个待分类的群聊文本进行预处理;
根据所述预处理后的待分类群聊天文本的词频和逆向文件频率,对所述预处理后的待分类的群聊天文本进行词向量赋权;
将所述词向量赋权后的待分类的群聊天文本进行降维处理,得到所述待分类的群聊文本对应的目标高频词语;
判断所述目标高频词语是否存在于所述目标分类的群聊文本分类词库,若存在,则判定所述待分类的群聊文本为目标分类样本群聊文本;
若不存在,则判定所述待分类的群聊文本为普通样本群聊文本。
可选地,所述处理模块具体用于:
将所述多个样本群聊文本中的交互式短文本分别组合成长文本;
对所述长文本进行数据清洗,除去所述长文本中的非文字数据;
将所述数据清洗后的长文本进行分词和去除停用词的操作,得到预处理后的多个样本群聊文本。
可选地,所述赋权模块具体用于:
根据所述样本群聊文本中的各个词语出现次数及所述样本群聊文本中的所有词语出现的次数,计算得到所述预处理后的各个样本群聊文本中各分词的词频;
根据所述各个词语对应所在的所述预处理后的样本群聊文本的个数及所述预处理后的各个样本群聊文本的个数,计算得到所述预处理后的各个样本群聊文本中各分词的逆向文件频率。
可选地,所述降维模块具体用于:
根据所述词向量赋权后的各个样本群聊文本,获取所述各个样本群聊文本对应的群体词权重曲线;
判断所述群体词权重曲线中的各个点的梯度是否大于预设梯度阈值,若大于,则将对应的词语作为目标高频词语保留;
若小于,则将对应的词语除去。
相比现有技术,本申请提供的有益效果包括:本申请提供一种获取群聊文本分类词库的方法及装置,所述方法包括:获取多个不同类型的样本群聊天文本,通过对样本群聊天文本进行分词、去停用词等预处理后,将预处理后的群聊天文本进行词向量赋权,将群聊天文本变为高纬词向量,然后通过梯度降维算法对词向量进行降维处理,获取样本群聊天文本的目标词库。根据获取的目标词库,可以对采集的测试群聊天文本进行分类。通过本申请提供的一种获取群聊文本分类词库的方法,可以对用户需要的目标分类词库进行获取,继而可以通过目标分类词库对采集到群聊天文本进行分类,特别是针对各类违法犯罪的群聊天文本,能够准确的对其进行区别。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定。对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的计算机设备的结构示意图;
图2为本申请实施例提供的获取群聊文本分类词库的方法步骤流程示意框图;
图3为本申请实施例提供的获取群聊文本分类词库的方法其他步骤流程示意框图;
图4为图2中步骤S202的子步骤流程示意框图;
图5为图2中步骤S203的子步骤流程示意框图;
图6为图2中步骤S204的子步骤流程示意框图;
图7为本申请实施例提供的涉枪群聊文本词向量权重表;
图8为本申请实施例提供的涉枪群聊文本词向量权重曲线图;
图9为本申请实施例提供的涉毒分类模型不同算法ROC曲线图;
图10为本申请实施例提供的涉枪分类模型不同算法ROC曲线图;
图11为本申请实施例提供的涉枪分类模型随机森林算法不同特征维度下性能表现;
图12为本申请实施例提供的涉毒分类模型随机森林算法不同特征维度下性能表现;
图13为本申请实施例提供的获取群聊文本分类词库的装置结构示意框图。
图标:100-计算机设备;110-获取群聊天文本分类词库的装置;111-存储器;112-处理器;113-通信单元;1101-获取模块;1102-处理模块;1103-赋权模块;1104-降维模块;1105-测试模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请的描述中,需要理解的是,术语“上”、“下”、“内”、“外”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该申请产品使用时惯常摆放的方位或位置关系,或者是本领域技术人员惯常理解的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,“设置”、“连接”等术语应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接连接,也可以通过中间媒介间接连接,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
下面结合附图,对本申请的具体实施方式进行详细说明。
请参照图1,图1为本申请实施例提供的计算机设备100的结构示意框图。所述计算机设备100包括获取群聊天文本分类词库的装置110、存储器111、处理器112及通信单元113。
所述存储器111、处理器112及通信单元113的各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
其中,所述存储器111可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(ProgrammableRead-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。其中,存储器111用于存储程序,所述处理器112在接收到执行指令后,执行所述程序。所述通信单元113用于通过网络建立所述计算机设备100与其它设备(比如设备终端)之间的通信连接,并用于通过网络进行数据的接收和发送。
请参照图2,图2为本申请实施例提供的获取群聊文本分类词库的方法步骤流程示意框图。所述方法包括:
步骤S201,获取多个样本群聊文本,其中,所述多个样本群聊文本包括目标分类样本群聊文本和普通样本群聊文本。
在本实施例中,目标分类样本群聊文本可以是涉枪群聊文本或者涉毒群聊文本。在其他实施例中,目标分类样本群聊文本也可以是其他违法群聊文本或者其他类型群聊文本。
步骤S202,对所述多个样本群聊文本进行预处理。
步骤S203,根据所述预处理后的各个样本群聊文本中各分词的词频和各分词的逆向文件频率,对所述预处理后的群聊文本中各分词进行词向量赋权,其中,逆向文件频率是指词语普遍重要性的度量。
步骤S204,将所述词向量赋权后的各个样本群聊文本进行降维处理,得到所述目标分类样本群聊文本对应的目标分类的群聊文本分类词库。
请参照图3,图3为本申请实施例提供的获取群聊文本分类词库的方法其他步骤流程示意框图。所述方法还包括:
步骤S205,获取多个待分类的群聊文本。
在本实施例中,待分类的群聊文本可以是从网络上随机获取的群聊文本,也可以是从多个用户社交软件中所在群聊中获取的。
步骤S206,对所述多个待分类的群聊文本进行预处理。
步骤S207,根据所述预处理后的待分类群聊天文本的词频和逆向文件频率,对所述预处理后的待分类的群聊天文本进行词向量赋权。
步骤S208,将所述词向量赋权后的待分类的群聊天文本进行降维处理,得到所述待分类的群聊文本对应的目标高频词语。
步骤S209,判断所述目标高频词语是否存在于所述目标分类的群聊文本分类词库,若存在,则执行步骤S210。
步骤S210,判定所述待分类的群聊文本为目标分类样本群聊文本。
若不存在,则执行步骤S211。
步骤S211,判定所述待分类的群聊文本为普通样本群聊文本。
请参照图4,图4为图2中步骤S202的子步骤流程示意框图。在本实施例中,步骤S202可以包括子步骤S2021、子步骤S2022和子步骤S2023。
步骤S2021,将所述多个样本群聊文本中的交互式短文本分别组合成长文本。
在本实施例中,样本群聊文本可以是由多个交互式短文本构成,其中,同一人员发出的信息可能是分次不连贯发出。比如,“今晚七点一起吃饭吗”,在样本群聊文本中,可以被分为“今晚七点”“一起吃”“饭吗”三部分发出,并且在三部分之间还可以夹杂其他人员发出的不相关信息。比如,还有一人员同时发出“我不知道”“你在说什么”,在样本群聊天文本中按照先后顺序可以提现为“今晚七点”“我不知道”“一起吃”“你在说什么”“饭吗”,上述情况可以认为是交互式文本的非正规性和不完整性的特点。在本实施例中,为了使预处理的过程更为方便,可以通过将一个样本群聊天文本中的所有交互式短文本整合为一个长文本,解决交互式文本的非正规性和不完整性的问题。整合后的文本可以是“今晚七点我不知道一起吃你在说什么饭吗”。
应当理解的是,将样本群聊文本中的交互式短文本整合为一个长文本,并不影响短文本之间的相关性。
步骤S2022,对所述长文本进行数据清洗,除去所述长文本中的非文字数据。
在本实施例中,除去长文本中的非文字数据可以是除去的图片、链接、标点和表情包。在其他实施例中,除去的非文字数据还可以是转账记录和红包记录。
步骤S2023,将所述数据清洗后的长文本进行分词和去除停用词的操作,得到预处理后的多个样本群聊文本。
在本实施例中,可以采用开源的结巴分词工具对数据清洗后的长文本进行分词。可以将不具备实际意义的词语去除,比如“好的”、“嗯嗯”和“可以”,以减少词空间,实现去除停用词的操作。
请参照图5,图5为图2中步骤S203的子步骤流程示意框图。在本实施例中,步骤S203可以包括子步骤S2031和子步骤S2032。
步骤S2031,根据所述样本群聊文本中的各个词语出现次数及所述样本群聊文本中的所有词语出现的次数,计算得到所述预处理后的各个样本群聊文本中各分词的词频。
在本实施例中,词频(Term Frequency,简称TF)可以是某个词语在所有样本群聊文本包括的词中出现的频率,可以用频率进行归一化处理,得到:
其中,d(wk)是词语wk在样本群聊文本中出现的次数,∑z是样本群聊文本中包含的所有词的个数,Pdj(wk)是词语wk的词频。
步骤S2032,根据所述各个词语对应所在的所述预处理后的样本群聊文本的个数及所述预处理后的各个样本群聊文本的个数,计算得到所述预处理后的各个样本群聊文本中各分词的逆向文件频率。
在本实施例中,逆向文件频率(Inverse Document Frequency,简称IDF)可以是一个词语普遍重要性的度量。可以表示为:
其中,pd(Wk)是包含词语wk的样本群聊文本的个数,M是所有样本群聊文本的总个数,Pidf是词语wk的逆向文件频率。应当理解的是,在上式分母中加1是为了避免分母为0。
在本实施例中,可以通过TF-IDF(term frequency-inverse documentfrequency,词频-逆向文件频率)统计方法对词语进行词向量赋权的操作。
得到:
Ptf-idf=Pd*Pidf
在本实施例中,Ptf-idf的值,可以是对应词语在词向量上该词词语位置的值。经过TF-IDF统计后,可以将常见的高频词语过滤掉,保留重要的目标词语。
请参照图6,图6为图2中步骤S204的子步骤流程示意框图。在本实施例中,步骤S204可以包括子步骤S2041、子步骤S2042、子步骤S2043和子步骤S2044。
步骤S2041,根据所述词向量赋权后的各个样本群聊文本,获取所述各个样本群聊文本对应的群体词权重曲线。
步骤S2042,判断所述群体词权重曲线中的各个点的梯度是否大于预设梯度阈值,若大于,则执行步骤S2043。
步骤S2043,将对应的词语作为目标高频词语保留。
若不大于,则执行步骤S2044。
步骤S2044,将对应的词语除去。
在本实施例中,通过TF-IDF统计后可以获取样本群聊文本中赋权后涉枪群聊文本,根据涉枪群聊文本中个词向量的权重,可以得到如图7所示的涉枪群聊文本词向量权重表,根据涉枪群聊文本词向量权重表可以得到涉枪群聊文本词向量权重曲线图,如图8所示。
在本实施例中,可以根据预设的梯度阈值对图8所示的涉枪群聊文本词向量权重曲线图进行处理,在最前端其各个词向量间的差异变化比较明显,后面的词向量之间的差异越来越小,并逐渐趋于平稳,差异越小的词向量对模型的影响作用就越小,差异越大的词向量对模型的影响作用就越大,所以我们可以根据预设梯度阈值的方式截断后面影响作用小的词向量,达到降维的目的。
在本实施例中,也可以根据如图7所示的涉枪群聊文本词向量权重表,设定预设权重阈值,将词向量权重小于预设权重阈值的词语排除,将词向量权重大于预设权重阈值的词语保留,达到降维的目的。
在本实施例中,通过降维后的获取的词语,将这些词语作为目标高频词语,确定目标分类的群文本分类词库。比如,在降维后获取涉枪群聊文本中的目标高频词为“手狗”、“左轮”、“弓弩”、“防管”、“整秃”、“小嘴”、“手拉鸡”、“瞄收”、“浇筑”、“外拍”、“气火”、“JASON”、“非开”、“信拓”、“整兔”、“消音器”、“货加”、“沙鹰”、“单猎”、“出六”、“小口栓”、“回压消”和“夜视仪”,可以将这些词作为目标高频词,存入涉枪分类的群文本分类词库。
本实施例还提供一种训练群聊天文本分类模型的算法,可以利用机器学习算法来训练学习处理好的词向量。算法的过程可以是:
1.算法模型训练过程
输入:带有分类标签的交互式短文本
输出:分类器
对输入的交互式短文本D进行消息整合为长文本;
对长文本进行数据清洗、分词等预处理,得到D′;
对D′进行加权,得到D′的词向量;
利用机器学习算法对标签和词向量进行学习,构造分类器。
在本实施例中,分类标签可以是涉枪群聊、涉毒群聊。在其他实施例中,也可以是其他标签。
2.算法模型预测过程
输入:待分类的交互式短文本
输出:短文本分类类别
对输入的交互式短文本D进行消息整合为长文本;
对长文本进行数据清洗、分词等预处理,得到D′;
对D′词项进行加权,得到D′的词向量;
利用已学习好的分类器进行分类。
在本实施例中,可以通过三个指标来评价分类模型的分类的性能,包括:查准率P、查全率R、F值。
查准率P表示正确分类的文档数占总文档比例,对于类别Ci,
其中|Ci|代表类别Ci的大小,max|Ci|代表Ci中正确分类的文档数,对于总体:
查全率R,即召回率,表示所有相似文本中,正确分类的比例,对于类别Ci,其中|RCi|代表类别Ci所有正确分类的大小,max|Ci|代表Ci中正确分类的文档数,对于总体:
F值是综合准确率和召回率的一个综合评价指标,定义如下:
以上三个分类指标的取值都规范化在[0,1],其值越高代表分类效果越好。
在本实施例中,ROC(receiver operating characteristic curve,受试者工作特征)曲线可以是反应分类器分类能力强弱的判断依据。其横轴代表着假阳率(FalsePositive Rate,FPR),纵轴代表真阳率(True Positive Rate,TPR)。其中,假阳率是预测为正样本但是预测错了的可能性。真阳率是代表预测为正样本且预测对了的可能性。
在本实施中,可以根据计算AUC(Area Under Curve,ROC曲线下方的面积大小)的结果比较,得出降维计算能够实现提高计算效率的依据。
在本实施例中,可以采用KNN(k-nearest neighbor,邻近算法)、SVM(SupportVector Machine,支持向量机)、朴素贝叶斯、Adaboost(Adaptive Boosting,自适应增强算法)、决策树和随机森林等多个学习算法进行模型的学习。
在本实施例中,可以分别得到涉毒分类模型和涉枪分类模型在不同算法下的ROC曲线,如图9、图10所示。可以看出随着训练模型词向量维度的增加,词向量的稀疏性不断降低,模型的准确率不断提高,模型的召回率逐渐降低,当词向量维度高于某个阈值之后,其准确性变化的幅度开始变小,F值达到顶峰后开始减小,所以利用梯度降维的方法,可以得到最合适的词向量维度进行训练学习。
在本实施例中,可以采用随机森林的模型进行计算。可以分别得到涉枪分类模型和涉毒分类模型随机森林算法下不同特征维度下性能表现,请参照图11和图12。随着维度的增加,训练和验证的时间成本就开始增加,降低维度,不仅可以使得模型有高的准确率,同时降低了过拟合的风险,并且减少了训练和分类的时间成本,提升了算法模型的综合效率。
请参照图13,图13为本申请实施例提供的获取群聊文本分类词库的装置110结构示意框图。所述装置包括:
获取模块1101,用于获取多个样本群聊文本,其中,所述多个样本群聊文本包括目标分类样本群聊文本和普通样本群聊文本。
处理模块1102,用于对所述多个样本群聊文本进行预处理。
赋权模块1103,用于根据所述预处理后的各个样本群聊文本中各分词的词频和各分词的逆向文件频率,对所述预处理后的群聊文本中各分词进行词向量赋权,其中,逆向文件频率是指词语普遍重要性的度量。
降维模块1104,用于将所述词向量赋权后的各个样本群聊文本进行降维处理,得到所述目标分类样本群聊文本对应的目标分类的群聊文本分类词库。
进一步地,所述装置还包括:
测试模块1105,用于获取多个待分类的群聊文本;
对所述多个待分类的群聊文本进行预处理。
根据所述预处理后的待分类群聊天文本的词频和逆向文件频率,对所述预处理后的待分类的群聊天文本进行词向量赋权。
将所述词向量赋权后的待分类的群聊天文本进行降维处理,得到所述待分类的群聊文本对应的目标高频词语。
判断所述目标高频词语是否存在于所述目标分类的群聊文本分类词库,若存在,则判定所述待分类的群聊文本为目标分类样本群聊文本;
若不存在,则判定所述待分类的群聊文本为普通样本群聊文本。
进一步地,所述处理模块1102具体用于:
将所述多个样本群聊文本中的交互式短文本分别组合成长文本。
对所述长文本进行数据清洗,除去所述长文本中的非文字数据。
将所述数据清洗后的长文本进行分词和去除停用词的操作,得到预处理后的多个样本群聊文本。
进一步地,所述赋权模块1103具体用于:
根据所述样本群聊文本中的各个词语出现次数及所述样本群聊文本中的所有词语出现的次数,计算得到所述预处理后的各个样本群聊文本中各分词的词频。
根据所述各个词语对应所在的所述预处理后的样本群聊文本的个数及所述预处理后的各个样本群聊文本的个数,计算得到所述预处理后的各个样本群聊文本中各分词的逆向文件频率。
进一步地,所述降维模块1104具体用于:
根据所述词向量赋权后的各个样本群聊文本,获取所述各个样本群聊文本对应的群体词权重曲线;
判断所述群体词权重曲线中的各个点的梯度是否大于预设梯度阈值,若大于,则将对应的词语作为目标高频词语保留;
若不大于,则将对应的词语除去。
综上所述,本申请提供一种获取群聊文本分类词库的方法及装置,所述方法包括:获取多个不同类型的样本群聊天文本,通过对样本群聊天文本进行分词、去停用词等预处理后,将预处理后的群聊天文本进行词向量赋权,将群聊天文本变为高纬词向量,然后通过梯度降维算法对词向量进行降维处理,获取样本群聊天文本的目标词库。根据获取的目标词库,可以对采集的测试群聊天文本进行分类。通过本申请提供的一种获取群聊文本分类词库的方法,可以对用户需要的目标分类词库进行获取,继而可以通过目标分类词库对采集到的群聊天文本进行分类,特别是针对各类违法犯罪的群聊天文本,能够准确的对其进行区别。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种获取群聊文本分类词库的方法,其特征在于,所述方法包括:
获取多个样本群聊文本,其中,所述多个样本群聊文本包括目标分类样本群聊文本和普通样本群聊文本;
对所述多个样本群聊文本进行预处理;
根据所述预处理后的各个样本群聊文本中各分词的词频和各分词的逆向文件频率,对所述预处理后的群聊文本中各分词进行词向量赋权,其中,逆向文件频率是指词语普遍重要性的度量;
将所述词向量赋权后的各个样本群聊文本进行降维处理,得到所述目标分类样本群聊文本对应的目标分类的群聊文本分类词库。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取多个待分类的群聊文本;
对所述多个待分类的群聊文本进行预处理;
根据所述预处理后的待分类群聊天文本的词频和逆向文件频率,对所述预处理后的待分类的群聊天文本进行词向量赋权;
将所述词向量赋权后的待分类的群聊天文本进行降维处理,得到所述待分类的群聊文本对应的目标高频词语;
判断所述目标高频词语是否存在于所述目标分类的群聊文本分类词库,若存在,则判定所述待分类的群聊文本为目标分类样本群聊文本;
若不存在,则判定所述待分类的群聊文本为普通样本群聊文本。
3.根据权利要求1所述的方法,其特征在于,所述对所述多个样本群聊文本进行预处理,包括:
将所述多个样本群聊文本中的交互式短文本分别组合成长文本;
对所述长文本进行数据清洗,除去所述长文本中的非文字数据;
将所述数据清洗后的长文本进行分词和去除停用词的操作,得到预处理后的多个样本群聊文本。
4.根据权利要求1所述的方法,其特征在于,所述根据所述预处理后的各个样本群聊文本中各分词的词频和各分词的逆向文件频率,对所述预处理后的群聊文本中各分词进行词向量赋权,包括:
根据所述样本群聊文本中的各个词语出现次数及所述样本群聊文本中的所有词语出现的次数,计算得到所述预处理后的各个样本群聊文本中各分词的词频;
根据所述各个词语对应所在的所述预处理后的样本群聊文本的个数及所述预处理后的各个样本群聊文本的个数,计算得到所述预处理后的各个样本群聊文本中各分词的逆向文件频率。
5.根据权利要求1所述的方法,其特征在于,所述将所述词向量赋权后的各个样本群聊文本进行降维处理,包括:
根据所述词向量赋权后的各个样本群聊文本,获取所述各个样本群聊文本对应的群体词权重曲线;
判断所述群体词权重曲线中的各个点的梯度是否大于预设梯度阈值,若大于,则将对应的词语作为目标高频词语保留;
若不大于,则将对应的词语除去。
6.一种获取群聊文本分类词库的装置,其特征在于,所述装置包括:
获取模块,用于获取多个样本群聊文本,其中,所述多个样本群聊文本包括目标分类样本群聊文本和普通样本群聊文本;
处理模块,用于对所述多个样本群聊文本进行预处理;
赋权模块,用于根据所述预处理后的各个样本群聊文本中各分词的词频和各分词的逆向文件频率,对所述预处理后的群聊文本中各分词进行词向量赋权,其中,逆向文件频率是指词语普遍重要性的度量;
降维模块,用于将所述词向量赋权后的各个样本群聊文本进行降维处理,得到所述目标分类样本群聊文本对应的目标分类的群聊文本分类词库。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
测试模块,用于获取多个待分类的群聊文本;
对所述多个待分类的群聊文本进行预处理;
根据所述预处理后的待分类群聊天文本的词频和逆向文件频率,对所述预处理后的待分类的群聊天文本进行词向量赋权;
将所述词向量赋权后的待分类的群聊天文本进行降维处理,得到所述待分类的群聊文本对应的目标高频词语;
判断所述目标高频词语是否存在于所述目标分类的群聊文本分类词库,若存在,则判定所述待分类的群聊文本为目标分类样本群聊文本;
若不存在,则判定所述待分类的群聊文本为普通样本群聊文本。
8.根据权利要求6所述的装置,其特征在于,所述处理模块具体用于:
将所述多个样本群聊文本中的交互式短文本分别组合成长文本;
对所述长文本进行数据清洗,除去所述长文本中的非文字数据;
将所述数据清洗后的长文本进行分词和去除停用词的操作,得到预处理后的多个样本群聊文本。
9.根据权利要求6所述的装置,其特征在于,所述赋权模块具体用于:
根据所述样本群聊文本中的各个词语出现次数及所述样本群聊文本中的所有词语出现的次数,计算得到所述预处理后的各个样本群聊文本中各分词的词频;
根据所述各个词语对应所在的所述预处理后的样本群聊文本的个数及所述预处理后的各个样本群聊文本的个数,计算得到所述预处理后的各个样本群聊文本中各分词的逆向文件频率。
10.根据权利要求6所述的装置,其特征在于,所述降维模块具体用于:
根据所述词向量赋权后的各个样本群聊文本,获取所述各个样本群聊文本对应的群体词权重曲线;
判断所述群体词权重曲线中的各个点的梯度是否大于预设梯度阈值,若大于,则将对应的词语作为目标高频词语保留;
若不大于,则将对应的词语除去。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910087724.7A CN109815501A (zh) | 2019-01-29 | 2019-01-29 | 一种获取群聊文本分类词库的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910087724.7A CN109815501A (zh) | 2019-01-29 | 2019-01-29 | 一种获取群聊文本分类词库的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109815501A true CN109815501A (zh) | 2019-05-28 |
Family
ID=66605761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910087724.7A Pending CN109815501A (zh) | 2019-01-29 | 2019-01-29 | 一种获取群聊文本分类词库的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109815501A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006260052A (ja) * | 2005-03-16 | 2006-09-28 | Nomura Research Institute Ltd | キーワード分析システム |
JP2010204866A (ja) * | 2009-03-02 | 2010-09-16 | Nippon Telegr & Teleph Corp <Ntt> | 重要キーワード抽出装置及び方法及びプログラム |
CN104866496A (zh) * | 2014-02-22 | 2015-08-26 | 腾讯科技(深圳)有限公司 | 确定词素重要性分析模型的方法及装置 |
CN104915386A (zh) * | 2015-05-25 | 2015-09-16 | 中国科学院自动化研究所 | 一种基于深度语义特征学习的短文本聚类方法 |
CN106528642A (zh) * | 2016-10-13 | 2017-03-22 | 广东广业开元科技有限公司 | 一种基于tf‑idf特征提取的短文本分类方法 |
CN106649255A (zh) * | 2015-11-04 | 2017-05-10 | 江苏引跑网络科技有限公司 | 一种对短文本自动分类和识别主题词的方法 |
CN106886576A (zh) * | 2017-01-22 | 2017-06-23 | 广东广业开元科技有限公司 | 一种基于预分类的短文本关键词提取方法及系统 |
CN107085581A (zh) * | 2016-02-16 | 2017-08-22 | 腾讯科技(深圳)有限公司 | 短文本分类方法和装置 |
CN107357776A (zh) * | 2017-06-16 | 2017-11-17 | 北京奇艺世纪科技有限公司 | 一种相关词挖掘方法及装置 |
WO2017202125A1 (zh) * | 2016-05-25 | 2017-11-30 | 华为技术有限公司 | 文本分类方法及装置 |
-
2019
- 2019-01-29 CN CN201910087724.7A patent/CN109815501A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006260052A (ja) * | 2005-03-16 | 2006-09-28 | Nomura Research Institute Ltd | キーワード分析システム |
JP2010204866A (ja) * | 2009-03-02 | 2010-09-16 | Nippon Telegr & Teleph Corp <Ntt> | 重要キーワード抽出装置及び方法及びプログラム |
CN104866496A (zh) * | 2014-02-22 | 2015-08-26 | 腾讯科技(深圳)有限公司 | 确定词素重要性分析模型的方法及装置 |
WO2015124096A1 (en) * | 2014-02-22 | 2015-08-27 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for determining morpheme importance analysis model |
CN104915386A (zh) * | 2015-05-25 | 2015-09-16 | 中国科学院自动化研究所 | 一种基于深度语义特征学习的短文本聚类方法 |
CN106649255A (zh) * | 2015-11-04 | 2017-05-10 | 江苏引跑网络科技有限公司 | 一种对短文本自动分类和识别主题词的方法 |
CN107085581A (zh) * | 2016-02-16 | 2017-08-22 | 腾讯科技(深圳)有限公司 | 短文本分类方法和装置 |
WO2017202125A1 (zh) * | 2016-05-25 | 2017-11-30 | 华为技术有限公司 | 文本分类方法及装置 |
CN106528642A (zh) * | 2016-10-13 | 2017-03-22 | 广东广业开元科技有限公司 | 一种基于tf‑idf特征提取的短文本分类方法 |
CN106886576A (zh) * | 2017-01-22 | 2017-06-23 | 广东广业开元科技有限公司 | 一种基于预分类的短文本关键词提取方法及系统 |
CN107357776A (zh) * | 2017-06-16 | 2017-11-17 | 北京奇艺世纪科技有限公司 | 一种相关词挖掘方法及装置 |
Non-Patent Citations (4)
Title |
---|
GEORGE FORMAN: "BNS feature scaling: an improved representation over tf-idf for svm text classification", 《PROCEEDINGS OF THE 17TH ACM CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT》 * |
ROGER ALAN STEIN ET AL: "An analysis of hierarchical text classification using word embeddings", 《INFORMATION SCIENCES》 * |
张馨雨: "群聊话题检测技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
李湘东 等: "基于维基百科的多种类型文献自动分类研究", 《数据分析与知识发现》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Agarwal et al. | Fake news detection: an ensemble learning approach | |
Ma et al. | Label embedding for zero-shot fine-grained named entity typing | |
CN111523119B (zh) | 漏洞检测的方法和装置、电子设备及计算机可读存储介质 | |
Cao et al. | Hategan: Adversarial generative-based data augmentation for hate speech detection | |
Probierz et al. | Rapid detection of fake news based on machine learning methods | |
Kareem et al. | Pakistani media fake news classification using machine learning classifiers | |
CN105912716A (zh) | 一种短文本分类方法及装置 | |
CN111866004B (zh) | 安全评估方法、装置、计算机系统和介质 | |
Trivedi et al. | Interplay between probabilistic classifiers and boosting algorithms for detecting complex unsolicited emails | |
Abid et al. | Spam SMS filtering based on text features and supervised machine learning techniques | |
Alterkavı et al. | Novel authorship verification model for social media accounts compromised by a human | |
Cormack et al. | Batch and on-line spam filter comparison | |
Patil et al. | Hate speech detection using deep learning and text analysis | |
Hisham et al. | An innovative approach for fake news detection using machine learning | |
CN109815501A (zh) | 一种获取群聊文本分类词库的方法及装置 | |
CN115827867A (zh) | 文本类型的检测方法及装置 | |
Rao et al. | A Framework for Hate Speech Detection using Different ML Algorithms | |
Gururaj et al. | Machine learning-based approach for fake news detection | |
Poonkodi | E-Mail Spam Filtering Through Feature Selection Using Enriched Firefly Optimization Algorithm | |
Batra et al. | CovFakeBot: a machine learning based chatbot using ensemble learning technique for COVID-19 fake news detection | |
Noah et al. | Poster: PhisherCop-An Automated Tool Using ML Classifiers for Phishing Detection | |
CN110309285A (zh) | 自动问答方法、装置、电子设备和存储介质 | |
Hasan et al. | Classifying Bengali Newspaper Headlines with Advanced Deep Learning Models: LSTM, Bi-LSTM, and Bi-GRU Approaches | |
Shylaja et al. | Document embedding generation for cyber-aggressive comment detection using supervised machine learning approach | |
Tu et al. | Real-time detection and sorting of news on microblogging platforms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190528 |
|
RJ01 | Rejection of invention patent application after publication |