CN109033212A

CN109033212A - 一种基于相似度匹配的文本分类方法

Info

Publication number: CN109033212A
Application number: CN201810704164.0A
Authority: CN
Inventors: 向湘杰
Original assignee: Dongguan Huarui Electronic Technology Co Ltd
Current assignee: Shanghai Nuozhu Intellectual Property Services Co.,Ltd.
Priority date: 2018-07-01
Filing date: 2018-07-01
Publication date: 2018-12-18
Anticipated expiration: 2038-07-01
Also published as: CN109033212B

Abstract

本发明提供了一种基于相似度匹配的文本分类方法，通过服务器接收用户上传的待分类的第一文本，对所述第一文本进行词频统计，将词频统计结果输入分类模型，通过分类模型识别出其所属的第一级文本类别；根据所述第一级文本类别，获取服务器中所述第一级文本类别下所对应的多个第二文本；服务器依次计算第一文本与各个第二文本之间的相似度；判断计算出的相似度最大值是否超出预设阈值；若超出，则将第一文本归类到相似度最大值所对应的第二文本所属的第二级文本类别；否则，将第一文本归类到未识别文本集中。本发明公开的文本分类方法，在现有技术的基础上，增加了相似文本匹配的步骤，提高了文本分类的效率和准确性。

Description

一种基于相似度匹配的文本分类方法

技术领域

本发明数据处理领域，尤其涉及一种基于相似度匹配的文本分类方法。

背景技术

现代社会是信息爆炸的社会，互联网上存在着海量的数据。

现有技术中，用户可能会产生对多个文本进行分类存储的需求，例如：电子图书馆需要根据文本内容的不同进行分类，便于查找，专利文件需要进行文本分类，便于查找和处理相关文件。

现有技术中的文件分类方法一般是由人工将稿件阅读完后总结出该稿件的核心思想，然后归纳出关键词，在根据文件的类型进行分类，或者简单的根据词频进行分类，前者效率低，后一种方法过于机械，无法取得较佳的分类效果。

因此，现有技术有待于进一步的改进。

发明内容

鉴于上述现有技术中的不足之处，本发明的目的在于为用户提供一种基于相似度匹配的文本分类方法，克服现有技术中文本分类效率低或者分类效果差的缺陷。

本发明公开了一种基于相似度匹配的文本分类方法，其中，所述方法包括：

服务器接收用户上传的待分类的第一文本；

提取所述第一文本的关键词，对所述第一文本进行词频统计，将词频统计结果输入分类模型，通过分类模型识别出其所属的第一级文本类别；

根据所述第一级文本类别，获取服务器中所述第一级文本类别下所对应的多个第二文本；

服务器依次计算第一文本与各个第二文本之间的相似度；

判断计算出的相似度最大值是否超出预设阈值；若超出，则将第一文本归类到相似度最大值所对应的第二文本所属的第二级文本类别；否则，将第一文本归类到未识别文本集中。

可选的，所述方法还包括：

预先在服务器内建立分类模型，所述分类模型中含有不同的词语所对应的第一级文本类别；

预先在服务器内建立多个第二文本与第二级文本类别之间的对应关系表，并存储；

所述第一级文本类别包含多个第二级文本类别；所述第一级文本类别为根据不同的技术领域划分出的文本类别，所述第二级文本类别同一技术领域下不同应用场景划分出的文本分类。

可选的，所述服务器依次计算第一文本与第二文本之间的相似度的步骤包括:

所述服务器对所述第一文本进行拆解得到若干候选句子；

所述服务器确定各候选句子的重要性分数；

所述服务器提取重要性分数大于预设值的目标句子作为所述第一文本的关键信息；

所述服务器将所述第一文本的关键信息与各个第二文本的关键信息进行对比得出相似度。

可选的，所述服务器对所述第一文本进行拆解得到若干候选句子的步骤中，对第一文本进行拆分的方法为：

按照标点符号进行拆解；其中，所述标点符号为分号、逗号、句号时，进行拆解，当标点符号为顿号、冒号、引号时，不进行拆解。

可选的，所述服务器确定各候选句子的重要性分数的步骤包括：

判断所述候选句子中是否包含中文句子和/或网页链接地址；

若仅仅含有中文句子，则将中文句子中各词组的权值之和作为所述候选句子的重要性分数；

若仅仅含有网页链接地址，则将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数；

若同时含有中文句子和网页链接地址，则将中文句子中各词组的权值之和和网页链接地址所对应网页中所含页面元素的权值之和的加权平均值作为所述候选句子的重要性分数。

可选的，所述将中文句子中各词组的权值之和作为所述候选句子的重要性分数的步骤包括：

按照语义分析的方式再将每个候选句子拆分为若干个词组；

进行全文检索，计算各词组出现的次数；

按照出现次数由高到低的顺序对各词组进行排序，每个词组按照出现次数赋予相应的权值，出现次数越高，权值越高；

根据各词组的权值，计算各候选句子的重要性分数，该重要性分数即为该候选句子中各词组的权值之和。

可选的，所述将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数步骤包括：

服务器后台开启该网页链接地址对应的目标网页；

服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数。

可选的，所述服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数的步骤包括：

使用下面的公式确定目标网页的重要性分数；

其中，S(Vi)是目标网页的重要性分数，d是阻尼系数，一般设置为0.85，In(Vi)是存在指向目标网页的链接的网页集合。out(Vj)是网页j中的链接存在的链接指向的网页集合，out(Vj)取绝对值是用以表示该网页集合中元素的个数，S(Vj)是网页j的重要性分数。

可选的，所述服务器将所述第一文本的关键信息与第二文本的关键信息进行相似度对比的步骤包括：

计算第一文本的关键信息中的第一句子与第二文本的关键信息中的第二句子的余弦相似度；

若余弦相似度高于预设值，则确定第一文本与第二文本近似。

可选的，所述余弦相似度的计算方法为：

将第一句子拆分为若干个词组；

将第二句子拆分为若干个词组；

将两组词组进行逐一对比，若存在，则记录为1，若不存在，则记录为0，得到第一序列和第二序列；

计算第一序列和第二序列之间的余弦相似度，并作为第一句子和第二句子之间的余弦相似度。

有益效果，本发明提供了一种基于相似度匹配的文本分类方法，通过服务器接收用户上传的待分类的第一文本；提取所述第一文本的关键词，对所述第一文本进行词频统计，将词频统计结果输入分类模型，通过分类模型识别出其所属的第一级文本类别；根据所述第一级文本类别，获取服务器中所述第一级文本类别下所对应的多个第二文本；服务器依次计算第一文本与各个第二文本之间的相似度；判断计算出的相似度最大值是否超出预设阈值；若超出，则将第一文本归类到相似度最大值所对应的第二文本所属的第二级文本类别；否则，将第一文本归类到未识别文本集中。本发明公开的文本分类方法，在现有技术的基础上，增加了相似文本匹配的步骤，提高了文本信息验证的准确性。

附图说明

图1为本发明所公开的一种基于文本密码的登录验证方法的具体实施例步骤流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明公开了一种基于相似度匹配的文本分类方法，如图1，所述方法包括：

步骤S101、服务器接收用户上传的待分类的第一文本。

服务器接收用户通过客户端或者直接在服务器中上传的第一文本，并需要对所述第一文本进行文本类别识别，并将所述文本归类到识别出的文本集中。

具体的，本发明中设置有两个不同的文本类别，分别通过预先在服务器内建立分类模型，所述分类模型中含有不同的词语所对应的第一级文本类别，和预先在服务器内建立多个第二文本与第二级文本类别之间的对应关系表，并存储；所述第一级文本类别包含多个第二级文本类别；所述第一级文本类别为根据不同的技术领域划分出的文本类别，所述第二级文本类别同一技术领域下不同应用场景划分出的文本分类。

步骤S102、提取所述第一文本的关键词，对所述第一文本进行词频统计，将词频统计结果输入分类模型，通过分类模型识别出其所属的第一级文本类别。

为了便于更快速的识别第一文本的文本类型，首先提取所述第一文本的关键词，对提取到的关键词进行词频统计，并将词频统计结果输入到分类模型中，识别出所述第一文本所属的第一级文本类别，即是其所属技术领域所在的文本类别。

步骤S103、根据所述第一级文本类别，获取服务器中所述第一级文本类别下所对应的多个第二文本。

获取第一级文本类别下保持的多个第二文本，所述第二文本分别为同属一个领域下的不同的应用场景所在文本类别，因此本步骤中获取多个第二文本。

步骤S104、服务器依次计算第一文本与各个第二文本之间的相似度。

依次计算第一文本与第二文本之间的相似度，判断与第一文本之间相似度最高的第二文本。

步骤S105、判断计算出的相似度最大值是否超出预设阈值；若超出，则将第一文本归类到相似度最大值所对应的第二文本所属的第二级文本类别；否则，将第一文本归类到未识别文本集中。

进一步的，所述服务器依次计算第一文本与第二文本之间的相似度的步骤包括:

所述服务器对所述第一文本进行拆解得到若干候选句子；

所述服务器确定各候选句子的重要性分数；

在具体实施例中，所述服务器对所述第一文本进行拆解得到若干候选句子的步骤中，对第一文本进行拆分的方法为：

所述服务器确定各候选句子的重要性分数；

所述服务器将所述第一文本的关键信息与第二文本的关键信息进行相似度对比，并将比对出的相似度值判定为所述第一文本与第二文本之间的相似度值。

进一步的，由于各个候选句子中可能包含不同属性的信息，也即是候选句子可能含有中文句子或者网页链接地址，所以在进行重要性分数的计算之前，所述服务器确定各候选句子的重要性分数的步骤包括：

判断所述候选句子中是否包含中文句子和/或网页链接地址；

所述将中文句子中各词组的权值之和作为所述候选句子的重要性分数的步骤包括：

按照语义分析的方式再将每个候选句子拆分为若干个词组；

进行全文检索，计算各词组出现的次数；

例如，有一篇论文中含有以下内容：

今天XX协会在北京召开了工作会议，天气不错，大概有30摄氏度，没有下雨，交通情况也良好，在工作会议上，张会长对XX协会去年的工作进行了总结，还表彰了XX协会的优秀员工。

候选句子包括：

A、今天XX协会在北京召开了工作会议；

B、天气不错；

C、大概有30摄氏度；

D、没有下雨；

E、交通情况也良好；

F、在工作会议上；

G、张会长对XX协会去年的工作进行了总结；

H、还表彰了XX协会的优秀员工。

拆解得到的词组包括：

今天：出现1次，权值为1

XX协会：出现3次，权值为3

北京：1次，权值为1

召开：1次，权值为1

工作会议：2次，权值为2

天气：1次，权值为1

30摄氏度：1次，权值为1

下雨：1次，权值为1

交通情况：1次，权值为1

张会长：1次，权值为1

去年的工作：1次，权值为1

总结：1次，权值为1

表彰：1次，权值为1

优秀员工：1次，权值为1

则上面的候选句子的重要性分数分别为：A号8分，B号1分，C号1分，D号1分，E号1分，F号2分，G号6分，H号5分。

假设预设值为2分，则目标句子为A号，F号，G号和H号，最后的关键信息为：今天XX协会在北京召开了工作会议；在工作会议上；张会长对XX协会去年的工作进行了总结；还表彰了XX协会的优秀员工。

进一步的，所述将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数步骤包括：

服务器后台开启该网页链接地址对应的目标网页；

所述服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数的步骤包括：

使用下面的公式确定目标网页的重要性分数；

具体的，所述服务器将所述第一文本的关键信息与第二文本的关键信息进行相似度对比的步骤包括：

具体的，所述余弦相似度的计算方法为：

将第一句子拆分为若干个词组；

将第二句子拆分为若干个词组；

例如：

第一句子为：今天协会在北京召开会议。

第二句子为：协会在北京召开了普法会议。

则第一序列a为(1，1，1，1，0，1)，第二序列b为(0，1，1，1，1，1)。

较佳的，本方法步骤中使用以下公式所述计算第一序列和第二序列之间的余弦相似度的计算：

其中，ab表示a序列的中元素与b序列中相应的元素相乘后整体相加，分母表示a序列中所有元素的平方和开根号后乘以a序列中所有元素的平方和开根号。

例如，上述两个句子计算的结果为：

最终的计算结果为：0.8。

本发明提供了一种基于相似度匹配的文本分类方法，通过服务器接收用户上传的待分类的第一文本；提取所述第一文本的关键词，对所述第一文本进行词频统计，将词频统计结果输入分类模型，通过分类模型识别出其所属的第一级文本类别；根据所述第一级文本类别，获取服务器中所述第一级文本类别下所对应的多个第二文本；服务器依次计算第一文本与各个第二文本之间的相似度；判断计算出的相似度最大值是否超出预设阈值；若超出，则将第一文本归类到相似度最大值所对应的第二文本所属的第二级文本类别；否则，将第一文本归类到未识别文本集中。本发明公开的文本分类方法，在现有技术的基础上，增加了相似文本匹配的步骤，提高了文本信息验证的准确性。

可以理解的是，对本领域普通技术人员来说，可以根据本发明的技术方案及其发明构思加以等同替换或改变，而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于相似度匹配的文本分类方法，其特征在于，所述方法包括：

服务器接收用户上传的待分类的第一文本；

服务器依次计算第一文本与各个第二文本之间的相似度；

2.根据权利要求1所述的基于相似度匹配的文本分类方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的基于相似度匹配的文本分类方法，其特征在于，所述服务器依次计算第一文本与第二文本之间的相似度的步骤包括:

所述服务器对所述第一文本进行拆解得到若干候选句子；

所述服务器确定各候选句子的重要性分数；

4.根据权利要求3所述的基于相似度匹配的文本分类方法，其特征在于，所述服务器对所述第一文本进行拆解得到若干候选句子的步骤中，对第一文本进行拆分的方法为：

5.根据权利要求4所述的基于相似度匹配的文本分类方法，其特征在于，所述服务器确定各候选句子的重要性分数的步骤包括：

判断所述候选句子中是否包含中文句子和/或网页链接地址；

6.根据权利要求5所述的基于相似度匹配的文本分类方法，其特征在于，所述将中文句子中各词组的权值之和作为所述候选句子的重要性分数的步骤包括：

按照语义分析的方式再将每个候选句子拆分为若干个词组；

进行全文检索，计算各词组出现的次数；

7.根据权利要求5所述的基于相似度匹配的文本分类方法，其特征在于，所述将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数步骤包括：

服务器后台开启该网页链接地址对应的目标网页；

8.根据权利要求6所述的基于相似度匹配的文本分类方法，其特征在于，所述服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数的步骤包括：

使用下面的公式确定目标网页的重要性分数；

9.根据权利要求6或7所述的基于相似度匹配的文本分类方法，其特征在于，所述服务器将所述第一文本的关键信息与第二文本的关键信息进行相似度对比的步骤包括：

10.根据权利要求9所述的基于相似度匹配的文本分类方法，其特征在于，所述余弦相似度的计算方法为：

将第一句子拆分为若干个词组；

将第二句子拆分为若干个词组；