CN109299465A - 基于多种算法提升文件关键词准确度的识别系统 - Google Patents

基于多种算法提升文件关键词准确度的识别系统 Download PDF

Info

Publication number
CN109299465A
CN109299465A CN201811210994.4A CN201811210994A CN109299465A CN 109299465 A CN109299465 A CN 109299465A CN 201811210994 A CN201811210994 A CN 201811210994A CN 109299465 A CN109299465 A CN 109299465A
Authority
CN
China
Prior art keywords
keyword
model
calculated result
algorithm
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811210994.4A
Other languages
English (en)
Inventor
张永静
张彤
郝佳
高晓琼
李世成
郑春
郑春一
李景田
司敬
徐海
左晓辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jinghang Computing Communication Research Institute
Original Assignee
Beijing Jinghang Computing Communication Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jinghang Computing Communication Research Institute filed Critical Beijing Jinghang Computing Communication Research Institute
Priority to CN201811210994.4A priority Critical patent/CN109299465A/zh
Publication of CN109299465A publication Critical patent/CN109299465A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明属于关键词检索技术领域,具体涉及一种基于多种算法提升文件关键词准确度的识别系统。通过对比各个算法对关键词命中次数,各个算法配置的权重比可以自行配置也可以采用默认配置,根据各个算法的权重比对命中次数进行计算,并作为最终结果。算法包括采用分离模型的中文关键词提取算法、基于高维聚类技术的中文关键词提取算法、算法对文件及文件夹关键词准确识别提取的方法、基于语义的中文文本关键词提取算法,基于朴素贝叶斯模型的中文关键词提取算法。通过该方式,在关键词检索技术领域,通过基于多种算法提升文件关键词准确度的识别方法。

Description

基于多种算法提升文件关键词准确度的识别系统
技术领域
本发明属于关键词检索技术领域,具体涉及一种基于多种算法提升文件关键词准确度的识别系统。
背景技术
在自然语言处理领域,处理海量的文本文件最关键的是要把用户最关心的问题提取出来。而无论是对于长文本还是短文本,往往可以通过几个关键词窥探整个文本的主题思想。与此同时,不管是基于文本的推荐还是基于文本的搜索,对于文本关键词的依赖也很大,关键词提取的准确程度直接关系到推荐系统或者搜索系统的最终效果。因此,关键词提取在文本挖掘领域是一个很重要的部分。
关键词识别检索以统一策略为基础,采用深层内容分析,对静态数据、动态数据及使用中的数据进行即时的识别、监控、保护的相关技术。
目前大多数的方案主要采用分离模型算法,对关键单词提取和关键词串提取。现有技术方案由于采用算法单一,而各种算法有各自的优势和特点,采用单一算法计算关键词无法规避该算法本身的弊端。因此,目前市面上采用的关键词识别技术准确性有待提升。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何解决目前由于算法单一,无法结合多种扫描结果进行准确的综合分析的问题。
(二)技术方案
为解决上述技术问题,本发明提供一种基于多种算法提升文件关键词准确度的识别系统,所述识别系统包括:
原文本输入模块,其用于输入待进行关键词识别的原文本;
文本预处理模块,其用于对原文本输入模块输入的原文本进行文本格式转换预处理,形成可供后续识别算法处理的候选词;
基于分离模型的中文关键词提取模块,其用于基于分离模型,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于分离模型的计算结果,获取关键词数量提取信息;
基于高维聚类技术的中文关键词提取模块,其用于基于高维聚类技术,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于高维聚类技术的计算结果,获取关键词数量提取信息;
基于语义的中文关键词提取模块,其用于基于语义的中文文本关键词提取算法,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于语义的计算结果,获取关键词数量提取信息;
基于朴素贝叶斯模型的中文关键词提取模块,其用于基于朴素贝叶斯模型,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于朴素贝叶斯模型的计算结果,获取关键词数量提取信息;
算法权重比分配模块,其用于具体应用场景配置上述基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果各自在最终关键词结果运算生成过程中的权重比;
关键词识别结果生成模块,其用于对比基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果中各自对关键词的命中次数,根据上述预先配置的权重比,综合计算,得到最终的关键词识别结果。
其中,所述基于分离模型的中文关键词提取模块,采用基于分离模型的中文关键词提取算法,把关键词的识别提取当做一个分类,对文本中各个候选关键词区分关键词还是非关键词;
其中,分离模型是对关键单词与关键词串分别建立模型,在关键词特征的选取上,分别建立的各个模型选取不同的特征。
其中,所述高维聚类技术的中文关键词提取模块,通过依据小词典的快速分词、二次分词、高维聚类及关键词甄选四个步骤实现关键词的提取。
其中,所述基于语义的中文关键词提取模块,其将词语语义特征融入关键词提取过程中,构建词语语义相似度网络并利用居间度密度度量词语语义关键度。
其中,所述基于朴素贝叶斯模型的中文关键词提取模块,其首先通过训练过程获得朴素贝叶斯模型中的各个参数,然后以之为基础,在测试过程完成关键词提取。
其中,所述算法权重比分配模块按照2:3:4:3的比例确定上述基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果各自在最终关键词结果运算生成过程中的权重比。
其中,所述2:3:4:3的权重比为默认配置。
其中,所述权重比为按照具体应用场景自行配置。
其中,所述原文本的格式包括WORD格式,PDF格式。
(三)有益效果
与现有技术相比较,本发明采用分离模型的中文关键词提取算法、基于高维聚类技术的中文关键词提取算法、基于语义的中文文本关键词提取算法,基于朴素贝叶斯模型的中文关键词提取算法,综合匹配判断,来提升关键词提取识别的准确性。
对比各个算法对关键词命中次数,各个算法配置的权重比默认采用2:3:4:3计算识别结果,权重可以根据具体应用场景自行配置,根据各个算法的权重比对命中次数进行计算,并作为最终结果。
通过该方式,在关键词检索技术领域,通过基于多种算法提升文件关键词准确度的识别方法。
附图说明
图1为本发明技术方案的原理图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
为解决现有技术问题,本发明提供一种基于多种算法提升文件关键词准确度的识别系统,如图1所示,所述识别系统包括:
原文本输入模块,其用于输入待进行关键词识别的原文本;
文本预处理模块,其用于对原文本输入模块输入的原文本进行文本格式转换预处理,形成可供后续识别算法处理的候选词;
基于分离模型的中文关键词提取模块,其用于基于分离模型,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于分离模型的计算结果,获取关键词数量提取信息;
基于高维聚类技术的中文关键词提取模块,其用于基于高维聚类技术,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于高维聚类技术的计算结果,获取关键词数量提取信息;
基于语义的中文关键词提取模块,其用于基于语义的中文文本关键词提取(SKE)算法,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于语义的计算结果,获取关键词数量提取信息;
基于朴素贝叶斯模型的中文关键词提取模块,其用于基于朴素贝叶斯模型,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于朴素贝叶斯模型的计算结果,获取关键词数量提取信息;
算法权重比分配模块,其用于具体应用场景配置上述基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果各自在最终关键词结果运算生成过程中的权重比;
关键词识别结果生成模块,其用于对比基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果中各自对关键词的命中次数,根据上述预先配置的权重比,综合计算,得到最终的关键词识别结果。
其中,所述基于分离模型的中文关键词提取模块,采用基于分离模型的中文关键词提取算法,把关键词的识别提取当做一个分类,对文本中各个候选关键词区分关键词还是非关键词;
其中,分离模型是对关键单词与关键词串分别建立模型,在关键词特征的选取上,分别建立的各个模型选取不同的特征。
对关键单词提取和关键词串提取根据不同的特征以提高抽取的准确性。该算法是关键词识别最常用的算法,计算结果占结果运算比重的2/10。
其中,所述高维聚类技术的中文关键词提取模块,对基于统计信息关键词提取方法准确率低的问题,提出基于高维聚类技术的中文关键词提取算法;通过依据小词典的快速分词、二次分词、高维聚类及关键词甄选四个步骤实现关键词的提取。
理论分析和实验显示,基于高维聚类技术的中文关键词提取方法具备更好的稳定性、更高的效率及更准确的结果。该算法速度较快且识别准确率很高,计算结果占结果运算比重的3/10。
其中,所述基于语义的中文关键词提取模块,采用基于语义的中文文本关键词提取(SKE)算法;其将词语语义特征融入关键词提取过程中,构建词语语义相似度网络并利用居间度密度度量词语语义关键度。
与基于统计特征的关键词提取算法相比,SKE算法提取关键词算法性能较优。该算法的关键词识别率准确度高,计算结果占结果运算比重的4/10。
其中,所述基于朴素贝叶斯模型的中文关键词提取模块,采用基于朴素贝叶斯模型的中文关键词提取算法;其首先通过训练过程获得朴素贝叶斯模型中的各个参数,然后以之为基础,在测试过程完成关键词提取。实验表明,相对于传统的方法,该算法可从小规模的文档集中提取出更为准确的关键词,而且可灵活地增加表征词语重要性的特征项,具有更好的可扩展性。该算法的关键词识别在小文档中准确度很高,计算结果占结果运算比重的3/10。
其中,所述算法权重比分配模块按照2:3:4:3的比例确定上述基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果各自在最终关键词结果运算生成过程中的权重比。
其中,所述2:3:4:3的权重比为默认配置。
其中,所述权重比为按照具体应用场景自行配置。
其中,所述原文本的格式包括WORD格式,PDF格式。
实施例1
本实施例提供一种基于多种算法提升文件关键词识别准确度的方法,其对文件采用采用分离模型的中文关键词提取算法、基于高维聚类技术的中文关键词提取算法、基于语义的中文文本关键词提取(SKE)算法,基于朴素贝叶斯模型的中文关键词提取算法进行关键词处理解析并通过权值判断提升准确度。
其中,所述的基于分离模型的中文关键词提取算法,对关键单词提取和关键词串提取,根据基于分离模型的中文关键词提取算法,对关键单词提取和关键词串提取这两个问题设计了不同的特征以提高抽取的准确性。
其中,所述的基于高维聚类技术的中文关键词提取算法,对基于统计信息关键词提取方法准确率低的问题,提出基于高维聚类技术的中文关键词提取算法。算法通过依据小词典的快速分词、二次分词、高维聚类及关键词甄选四个步骤实现关键词的提取。理论分析和实验显示,基于高维聚类技术的中文关键词提取方法具备更好的稳定性、更高的效率及更准确的结果。
其中,所述的基于语义的中文文本关键词提取(SKE)算法,将词语语义特征融入关键词提取过程中,构建词语语义相似度网络并利用居间度密度度量词语语义关键度。与基于统计特征的关键词提取算法相比,SKE算法提取关键词算法性能较优。
其中,所述的基于朴素贝叶斯模型的中文关键词提取算法,该算法首先通过训练过程获得朴素贝叶斯模型中的各个参数,然后以之为基础,在测试过程完成关键词提取。实验表明,相对于传统的if*idf方法,该算法可从小规模的文档集中提取出更为准确的关键词,而且可灵活地增加表征词语重要性的特征项,具有更好的可扩展性。
通过各个算法对关键词进行提取,来准确获取到文件/文件夹中的关键词数量提取信息。对比各个算法对关键词命中次数,各个算法配置的权重比默认采用2:3:4:3计算识别结果,权重可以根据具体应用场景自行配置,根据各个算法的权重比对命中次数进行计算,并作为最终结果。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种基于多种算法提升文件关键词准确度的识别系统,其特征在于,所述识别系统包括:
原文本输入模块,其用于输入待进行关键词识别的原文本;
文本预处理模块,其用于对原文本输入模块输入的原文本进行文本格式转换预处理,形成可供后续识别算法处理的候选词;
基于分离模型的中文关键词提取模块,其用于基于分离模型,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于分离模型的计算结果,获取关键词数量提取信息;
基于高维聚类技术的中文关键词提取模块,其用于基于高维聚类技术,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于高维聚类技术的计算结果,获取关键词数量提取信息;
基于语义的中文关键词提取模块,其用于基于语义的中文文本关键词提取算法,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于语义的计算结果,获取关键词数量提取信息;
基于朴素贝叶斯模型的中文关键词提取模块,其用于基于朴素贝叶斯模型,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于朴素贝叶斯模型的计算结果,获取关键词数量提取信息;
算法权重比分配模块,其用于配置上述基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果各自在最终关键词结果运算生成过程中的权重比;
关键词识别结果生成模块,其用于对比基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果中各自对关键词的命中次数,根据上述预先配置的权重比,综合计算,得到最终的关键词识别结果。
2.如权利要求1所述的基于多种算法提升文件关键词准确度的识别系统,其特征在于,所述基于分离模型的中文关键词提取模块,采用基于分离模型的中文关键词提取算法,把关键词的识别提取当做一个分类,对文本中各个候选关键词区分关键词还是非关键词。
3.如权利要求2所述的基于多种算法提升文件关键词准确度的识别系统,其特征在于,所述分离模型是对关键单词与关键词串分别建立模型,在关键词特征的选取上,分别建立的各个模型选取不同的特征。
4.如权利要求1所述的基于多种算法提升文件关键词准确度的识别系统,其特征在于,所述高维聚类技术的中文关键词提取模块,通过依据小词典的快速分词、二次分词、高维聚类及关键词甄选四个步骤实现关键词的提取。
5.如权利要求1所述的基于多种算法提升文件关键词准确度的识别系统,其特征在于,所述基于语义的中文关键词提取模块,其将词语语义特征融入关键词提取过程中,构建词语语义相似度网络并利用居间度密度度量词语语义关键度。
6.如权利要求1所述的基于多种算法提升文件关键词准确度的识别系统,其特征在于,所述基于朴素贝叶斯模型的中文关键词提取模块,其首先通过训练过程获得朴素贝叶斯模型中的各个参数,然后以之为基础,在测试过程完成关键词提取。
7.如权利要求1所述的基于多种算法提升文件关键词准确度的识别系统,其特征在于,所述算法权重比分配模块按照2:3:4:3的比例确定上述基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果各自在最终关键词结果运算生成过程中的权重比。
8.如权利要求7所述的基于多种算法提升文件关键词准确度的识别系统,其特征在于,所述2:3:4:3的权重比为默认配置。
9.如权利要求1所述的基于多种算法提升文件关键词准确度的识别系统,其特征在于,所述权重比为按照具体应用场景自行配置。
10.如权利要求1所述的基于多种算法提升文件关键词准确度的识别系统,其特征在于,所述原文本的格式包括WORD格式,PDF格式。
CN201811210994.4A 2018-10-17 2018-10-17 基于多种算法提升文件关键词准确度的识别系统 Pending CN109299465A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811210994.4A CN109299465A (zh) 2018-10-17 2018-10-17 基于多种算法提升文件关键词准确度的识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811210994.4A CN109299465A (zh) 2018-10-17 2018-10-17 基于多种算法提升文件关键词准确度的识别系统

Publications (1)

Publication Number Publication Date
CN109299465A true CN109299465A (zh) 2019-02-01

Family

ID=65157208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811210994.4A Pending CN109299465A (zh) 2018-10-17 2018-10-17 基于多种算法提升文件关键词准确度的识别系统

Country Status (1)

Country Link
CN (1) CN109299465A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442855A (zh) * 2019-04-10 2019-11-12 北京捷通华声科技股份有限公司 一种语音分析方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069143A (zh) * 2015-08-19 2015-11-18 百度在线网络技术(北京)有限公司 提取文档中关键词的方法及装置
US20170140464A1 (en) * 2015-11-16 2017-05-18 Uberple Co., Ltd. Method and apparatus for evaluating relevance of keyword to asset price
CN107480858A (zh) * 2017-07-10 2017-12-15 武汉楚鼎信息技术有限公司 一种基于股票大数据分析的智能辅助决策系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069143A (zh) * 2015-08-19 2015-11-18 百度在线网络技术(北京)有限公司 提取文档中关键词的方法及装置
US20170140464A1 (en) * 2015-11-16 2017-05-18 Uberple Co., Ltd. Method and apparatus for evaluating relevance of keyword to asset price
CN107480858A (zh) * 2017-07-10 2017-12-15 武汉楚鼎信息技术有限公司 一种基于股票大数据分析的智能辅助决策系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王博: "基于云计算的多层次文本关键词抽取研究与应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442855A (zh) * 2019-04-10 2019-11-12 北京捷通华声科技股份有限公司 一种语音分析方法和系统
CN110442855B (zh) * 2019-04-10 2023-11-07 北京捷通华声科技股份有限公司 一种语音分析方法和系统

Similar Documents

Publication Publication Date Title
CN107515877B (zh) 敏感主题词集的生成方法和装置
Li et al. Twiner: named entity recognition in targeted twitter stream
CN106294593B (zh) 结合从句级远程监督和半监督集成学习的关系抽取方法
TW201737118A (zh) 網頁文本分類的方法和裝置,網頁文本識別的方法和裝置
CN110826337A (zh) 一种短文本语义训练模型获取方法及相似度匹配算法
CN104881458B (zh) 一种网页主题的标注方法和装置
CN108009135B (zh) 生成文档摘要的方法和装置
CN104866558B (zh) 一种社交网络账号映射模型训练方法及映射方法和系统
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
CN109033212B (zh) 一种基于相似度匹配的文本分类方法
CN108376133A (zh) 基于情感词扩充的短文本情感分类方法
CN112347223B (zh) 文档检索方法、设备及计算机可读存储介质
TW201405341A (zh) 基於產品識別的資訊分類方法及資訊分類系統
CN104216968A (zh) 一种基于文件相似度的排重方法及系统
Man Feature extension for short text categorization using frequent term sets
CN109255014A (zh) 基于多种算法提升文件关键词准确度的识别方法
CN110287314A (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN110222250A (zh) 一种面向微博的突发事件触发词识别方法
CN103064985A (zh) 基于先验知识的图像检索方法
US20160283582A1 (en) Device and method for detecting similar text, and application
CN111368539A (zh) 一种热点分析建模方法
CN114997288A (zh) 一种设计资源关联方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN113111645B (zh) 一种媒体文本相似性检测方法
Sitorus et al. Sensing trending topics in twitter for greater Jakarta area

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zhang Yongjing

Inventor after: Xu Hai

Inventor after: Zuo Xiaohui

Inventor after: Wang Jun

Inventor after: Zhang Tong

Inventor after: Hao Jia

Inventor after: Gao Xiaoqiong

Inventor after: Li Shicheng

Inventor after: Zheng Chunyi

Inventor after: Li Jingtian

Inventor after: Si Jing

Inventor before: Zhang Yongjing

Inventor before: Zuo Xiaohui

Inventor before: Zhang Tong

Inventor before: Hao Jia

Inventor before: Gao Xiaoqiong

Inventor before: Li Shicheng

Inventor before: Zheng Chunyi

Inventor before: Li Jingtian

Inventor before: Si Jing

Inventor before: Xu Hai

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190201