CN109299465A

CN109299465A - 基于多种算法提升文件关键词准确度的识别系统

Info

Publication number: CN109299465A
Application number: CN201811210994.4A
Authority: CN
Inventors: 张永静; 张彤; 郝佳; 高晓琼; 李世成; 郑春; 郑春一; 李景田; 司敬; 徐海; 左晓辉
Original assignee: Beijing Jinghang Computing Communication Research Institute
Current assignee: Beijing Jinghang Computing Communication Research Institute
Priority date: 2018-10-17
Filing date: 2018-10-17
Publication date: 2019-02-01

Abstract

本发明属于关键词检索技术领域，具体涉及一种基于多种算法提升文件关键词准确度的识别系统。通过对比各个算法对关键词命中次数，各个算法配置的权重比可以自行配置也可以采用默认配置，根据各个算法的权重比对命中次数进行计算，并作为最终结果。算法包括采用分离模型的中文关键词提取算法、基于高维聚类技术的中文关键词提取算法、算法对文件及文件夹关键词准确识别提取的方法、基于语义的中文文本关键词提取算法，基于朴素贝叶斯模型的中文关键词提取算法。通过该方式，在关键词检索技术领域，通过基于多种算法提升文件关键词准确度的识别方法。

Description

基于多种算法提升文件关键词准确度的识别系统

技术领域

本发明属于关键词检索技术领域，具体涉及一种基于多种算法提升文件关键词准确度的识别系统。

背景技术

在自然语言处理领域，处理海量的文本文件最关键的是要把用户最关心的问题提取出来。而无论是对于长文本还是短文本，往往可以通过几个关键词窥探整个文本的主题思想。与此同时，不管是基于文本的推荐还是基于文本的搜索，对于文本关键词的依赖也很大，关键词提取的准确程度直接关系到推荐系统或者搜索系统的最终效果。因此，关键词提取在文本挖掘领域是一个很重要的部分。

关键词识别检索以统一策略为基础，采用深层内容分析，对静态数据、动态数据及使用中的数据进行即时的识别、监控、保护的相关技术。

目前大多数的方案主要采用分离模型算法，对关键单词提取和关键词串提取。现有技术方案由于采用算法单一，而各种算法有各自的优势和特点，采用单一算法计算关键词无法规避该算法本身的弊端。因此，目前市面上采用的关键词识别技术准确性有待提升。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何解决目前由于算法单一，无法结合多种扫描结果进行准确的综合分析的问题。

(二)技术方案

为解决上述技术问题，本发明提供一种基于多种算法提升文件关键词准确度的识别系统，所述识别系统包括：

原文本输入模块，其用于输入待进行关键词识别的原文本；

文本预处理模块，其用于对原文本输入模块输入的原文本进行文本格式转换预处理，形成可供后续识别算法处理的候选词；

基于分离模型的中文关键词提取模块，其用于基于分离模型，对来自文本预处理模块的候选词，进行关键单词提取和关键词串提取，生成基于分离模型的计算结果，获取关键词数量提取信息；

基于高维聚类技术的中文关键词提取模块，其用于基于高维聚类技术，对来自文本预处理模块的候选词，进行关键单词提取和关键词串提取，生成基于高维聚类技术的计算结果，获取关键词数量提取信息；

基于语义的中文关键词提取模块，其用于基于语义的中文文本关键词提取算法，对来自文本预处理模块的候选词，进行关键单词提取和关键词串提取，生成基于语义的计算结果，获取关键词数量提取信息；

基于朴素贝叶斯模型的中文关键词提取模块，其用于基于朴素贝叶斯模型，对来自文本预处理模块的候选词，进行关键单词提取和关键词串提取，生成基于朴素贝叶斯模型的计算结果，获取关键词数量提取信息；

算法权重比分配模块，其用于具体应用场景配置上述基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果各自在最终关键词结果运算生成过程中的权重比；

关键词识别结果生成模块，其用于对比基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果中各自对关键词的命中次数，根据上述预先配置的权重比，综合计算，得到最终的关键词识别结果。

其中，所述基于分离模型的中文关键词提取模块，采用基于分离模型的中文关键词提取算法，把关键词的识别提取当做一个分类，对文本中各个候选关键词区分关键词还是非关键词；

其中，分离模型是对关键单词与关键词串分别建立模型，在关键词特征的选取上，分别建立的各个模型选取不同的特征。

其中，所述高维聚类技术的中文关键词提取模块，通过依据小词典的快速分词、二次分词、高维聚类及关键词甄选四个步骤实现关键词的提取。

其中，所述基于语义的中文关键词提取模块，其将词语语义特征融入关键词提取过程中，构建词语语义相似度网络并利用居间度密度度量词语语义关键度。

其中，所述基于朴素贝叶斯模型的中文关键词提取模块，其首先通过训练过程获得朴素贝叶斯模型中的各个参数，然后以之为基础，在测试过程完成关键词提取。

其中，所述算法权重比分配模块按照2:3:4:3的比例确定上述基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果各自在最终关键词结果运算生成过程中的权重比。

其中，所述2:3:4:3的权重比为默认配置。

其中，所述权重比为按照具体应用场景自行配置。

其中，所述原文本的格式包括WORD格式，PDF格式。

(三)有益效果

与现有技术相比较，本发明采用分离模型的中文关键词提取算法、基于高维聚类技术的中文关键词提取算法、基于语义的中文文本关键词提取算法，基于朴素贝叶斯模型的中文关键词提取算法，综合匹配判断，来提升关键词提取识别的准确性。

对比各个算法对关键词命中次数，各个算法配置的权重比默认采用2:3:4:3计算识别结果，权重可以根据具体应用场景自行配置，根据各个算法的权重比对命中次数进行计算，并作为最终结果。

通过该方式，在关键词检索技术领域，通过基于多种算法提升文件关键词准确度的识别方法。

附图说明

图1为本发明技术方案的原理图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

为解决现有技术问题，本发明提供一种基于多种算法提升文件关键词准确度的识别系统，如图1所示，所述识别系统包括：

原文本输入模块，其用于输入待进行关键词识别的原文本；

基于语义的中文关键词提取模块，其用于基于语义的中文文本关键词提取(SKE)算法，对来自文本预处理模块的候选词，进行关键单词提取和关键词串提取，生成基于语义的计算结果，获取关键词数量提取信息；

对关键单词提取和关键词串提取根据不同的特征以提高抽取的准确性。该算法是关键词识别最常用的算法，计算结果占结果运算比重的2/10。

其中，所述高维聚类技术的中文关键词提取模块，对基于统计信息关键词提取方法准确率低的问题，提出基于高维聚类技术的中文关键词提取算法；通过依据小词典的快速分词、二次分词、高维聚类及关键词甄选四个步骤实现关键词的提取。

理论分析和实验显示，基于高维聚类技术的中文关键词提取方法具备更好的稳定性、更高的效率及更准确的结果。该算法速度较快且识别准确率很高，计算结果占结果运算比重的3/10。

其中，所述基于语义的中文关键词提取模块，采用基于语义的中文文本关键词提取(SKE)算法；其将词语语义特征融入关键词提取过程中，构建词语语义相似度网络并利用居间度密度度量词语语义关键度。

与基于统计特征的关键词提取算法相比，SKE算法提取关键词算法性能较优。该算法的关键词识别率准确度高，计算结果占结果运算比重的4/10。

其中，所述基于朴素贝叶斯模型的中文关键词提取模块，采用基于朴素贝叶斯模型的中文关键词提取算法；其首先通过训练过程获得朴素贝叶斯模型中的各个参数，然后以之为基础，在测试过程完成关键词提取。实验表明，相对于传统的方法，该算法可从小规模的文档集中提取出更为准确的关键词，而且可灵活地增加表征词语重要性的特征项，具有更好的可扩展性。该算法的关键词识别在小文档中准确度很高，计算结果占结果运算比重的3/10。

其中，所述2:3:4:3的权重比为默认配置。

其中，所述权重比为按照具体应用场景自行配置。

其中，所述原文本的格式包括WORD格式，PDF格式。

实施例1

本实施例提供一种基于多种算法提升文件关键词识别准确度的方法，其对文件采用采用分离模型的中文关键词提取算法、基于高维聚类技术的中文关键词提取算法、基于语义的中文文本关键词提取(SKE)算法，基于朴素贝叶斯模型的中文关键词提取算法进行关键词处理解析并通过权值判断提升准确度。

其中，所述的基于分离模型的中文关键词提取算法，对关键单词提取和关键词串提取，根据基于分离模型的中文关键词提取算法，对关键单词提取和关键词串提取这两个问题设计了不同的特征以提高抽取的准确性。

其中，所述的基于高维聚类技术的中文关键词提取算法，对基于统计信息关键词提取方法准确率低的问题，提出基于高维聚类技术的中文关键词提取算法。算法通过依据小词典的快速分词、二次分词、高维聚类及关键词甄选四个步骤实现关键词的提取。理论分析和实验显示，基于高维聚类技术的中文关键词提取方法具备更好的稳定性、更高的效率及更准确的结果。

其中，所述的基于语义的中文文本关键词提取(SKE)算法，将词语语义特征融入关键词提取过程中，构建词语语义相似度网络并利用居间度密度度量词语语义关键度。与基于统计特征的关键词提取算法相比，SKE算法提取关键词算法性能较优。

其中，所述的基于朴素贝叶斯模型的中文关键词提取算法，该算法首先通过训练过程获得朴素贝叶斯模型中的各个参数，然后以之为基础，在测试过程完成关键词提取。实验表明，相对于传统的if*idf方法，该算法可从小规模的文档集中提取出更为准确的关键词，而且可灵活地增加表征词语重要性的特征项，具有更好的可扩展性。

通过各个算法对关键词进行提取，来准确获取到文件/文件夹中的关键词数量提取信息。对比各个算法对关键词命中次数，各个算法配置的权重比默认采用2:3:4:3计算识别结果，权重可以根据具体应用场景自行配置，根据各个算法的权重比对命中次数进行计算，并作为最终结果。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于多种算法提升文件关键词准确度的识别系统，其特征在于，所述识别系统包括：

原文本输入模块，其用于输入待进行关键词识别的原文本；

算法权重比分配模块，其用于配置上述基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果各自在最终关键词结果运算生成过程中的权重比；

2.如权利要求1所述的基于多种算法提升文件关键词准确度的识别系统，其特征在于，所述基于分离模型的中文关键词提取模块，采用基于分离模型的中文关键词提取算法，把关键词的识别提取当做一个分类，对文本中各个候选关键词区分关键词还是非关键词。

3.如权利要求2所述的基于多种算法提升文件关键词准确度的识别系统，其特征在于，所述分离模型是对关键单词与关键词串分别建立模型，在关键词特征的选取上，分别建立的各个模型选取不同的特征。

4.如权利要求1所述的基于多种算法提升文件关键词准确度的识别系统，其特征在于，所述高维聚类技术的中文关键词提取模块，通过依据小词典的快速分词、二次分词、高维聚类及关键词甄选四个步骤实现关键词的提取。

5.如权利要求1所述的基于多种算法提升文件关键词准确度的识别系统，其特征在于，所述基于语义的中文关键词提取模块，其将词语语义特征融入关键词提取过程中，构建词语语义相似度网络并利用居间度密度度量词语语义关键度。

6.如权利要求1所述的基于多种算法提升文件关键词准确度的识别系统，其特征在于，所述基于朴素贝叶斯模型的中文关键词提取模块，其首先通过训练过程获得朴素贝叶斯模型中的各个参数，然后以之为基础，在测试过程完成关键词提取。

7.如权利要求1所述的基于多种算法提升文件关键词准确度的识别系统，其特征在于，所述算法权重比分配模块按照2:3:4:3的比例确定上述基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果各自在最终关键词结果运算生成过程中的权重比。

8.如权利要求7所述的基于多种算法提升文件关键词准确度的识别系统，其特征在于，所述2:3:4:3的权重比为默认配置。

9.如权利要求1所述的基于多种算法提升文件关键词准确度的识别系统，其特征在于，所述权重比为按照具体应用场景自行配置。

10.如权利要求1所述的基于多种算法提升文件关键词准确度的识别系统，其特征在于，所述原文本的格式包括WORD格式，PDF格式。