CN113326350B - 基于远程学习的关键词提取方法、系统、设备及存储介质 - Google Patents

基于远程学习的关键词提取方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN113326350B
CN113326350B CN202110604448.4A CN202110604448A CN113326350B CN 113326350 B CN113326350 B CN 113326350B CN 202110604448 A CN202110604448 A CN 202110604448A CN 113326350 B CN113326350 B CN 113326350B
Authority
CN
China
Prior art keywords
target
keywords
words
keyword
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110604448.4A
Other languages
English (en)
Other versions
CN113326350A (zh
Inventor
曹聪慧
王志铭
齐卉
贾茜
黄爱蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jianghan University
Original Assignee
Jianghan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jianghan University filed Critical Jianghan University
Priority to CN202110604448.4A priority Critical patent/CN113326350B/zh
Publication of CN113326350A publication Critical patent/CN113326350A/zh
Application granted granted Critical
Publication of CN113326350B publication Critical patent/CN113326350B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于远程学习的关键词提取方法、系统、设备及存储介质,其方法包括基于预设的主题生成模型对初始文本进行聚类,以得到初始文本的词典文件;对词典文件中的词语进行去噪预处理,并将去噪预处理后的词典文件作为目标文件;对目标文件进行关键词提取,得到目标集;将目标集中的目标关键词在预设的知识库中进行搜索,得到搜索结果,基于目标关键词的字符串长度计算搜索结果的匹配度,并将匹配度满足预设阈值的目标关键词确定为有效词,从目标集中筛选出所有有效词。本申请利用资源丰富的知识库对初步提取后的关键词进行搜索,并利用匹配度算法筛选有效关键词,从而有助于提高关键词的精准度。

Description

基于远程学习的关键词提取方法、系统、设备及存储介质
技术领域
本申请涉及自然语言处理技术领域,尤其是涉及一种基于远程学习的关键词提取方法、系统、设备及存储介质。
背景技术
目前,互联网信息存量丰富,比如文本、图片以及录像等数据数量日益增长,其中文本形式仍然是大部分信息的表现形式,文本信息内容丰富,如何准确高效地提取出对用户有用的信息成为亟需要解决的问题。目前主要是通过文本聚类、关键词提取、自动文摘及信息搜索等自然语言技术对文本信息进行处理,再将其直观地呈现给用户。
就处理算法而言,主要有基于机器学习的算法和基于统计学的算法,基于机器学习方法的算法,需要大量的训练语料,要耗费大量的人力进行标注;基于统计学的算法虽然不似机器学习需要大量人工标注工序,但基于统计学的算法主要是考虑的理想状态下的模型,在实际操作中关键词提取的结果并不理想,因此,本发明人认为现有基于统计学算法的文本关键词提取,在其提取精度上还存在一定问题。
发明内容
为了克服现有统计学算法提取文本关键词时存在提取精度不高的问题,本申请提供一种基于远程学习的关键词提取方法、系统、设备及存储介质。
第一方面,本申请提供了一种基于远程学习的关键词提取方法,该方法包括:
基于预设的主题生成模型对初始文本进行聚类,以得到所述初始文本的词典文件;
对所述词典文件中的词语进行去噪预处理,并将所述去噪预处理后的词典文件作为目标文件;
对目标文件进行关键词提取,得到目标集;
将所述目标集中的目标关键词在预设的知识库中进行搜索,得到搜索结果,基于所述目标关键词的字符串长度计算所述搜索结果的匹配度,并将所述匹配度满足预设阈值的目标关键词确定为有效词,从所述目标集中筛选出所有有效词。
可选的,所述主题生成模型采用LDA算法,将所述LDA算法应用于所述初始文本,所述基于预设的主题生成模型对初始文本进行聚类,以得到所述初始文本的词典文件,包括:
从狄利克雷α超参数分布中提取所述初始文本的主题分布向量,从基于多项分布的所述主题分布向量中提取生成所述初始文本中每个词语对应的主题,形成文本-主题矩阵;
从狄利克雷β超参数分布中提取每个主题对应的词语分布向量;从基于多项分布的所述词语分布向量中提取生成词语,形成主题-词语矩阵,并将所述主题-词语矩阵中词语的集合作为词典文件。
可选的,对所述词典文件中的词语进行去噪预处理,并将所述去噪预处理后的词典文件作为目标文件,包括:
将所述词典文件中的预设停用词删除,并采用中文分词算法对所述词典文件进行数据清洗。
可选的,对目标文件进行关键词提取,得到目标集,包括:
将所述目标文件存储至事务数据库,采用FP-growth算法对目标文件进行关键词提取,将提取得到的关键词集合作为目标集。
可选的,将所述目标集中的目标关键词在预设的知识库中进行搜索,得到搜索结果,包括:
将目标关键词通过预设的搜索算法在知识库中进行搜索;
根据搜索,获取知识库搜索页面的词条数据,并将所述词条数据作为搜索结果。
可选的,所述基于所述目标关键词的字符串长度计算搜索结果的匹配度,计算公式如下:
Figure BDA0003093702840000031
其中,Str表示字符串String1和字符串String2之间共同拥有的最长子串;Size(Str)表示字符串String1和字符串String2之间最大子串的长度;Size(String1)表示字符串String1的长度,size(String2)表示字符串String2的长度;字符串String1表示目标关键词的字符串;String2表示与目标关键词对应的搜索结果的字符串。
可选的,在基于所述目标关键词的字符串长度计算搜索结果的匹配度之前,所述方法还包括:
将所述目标集中的当前目标关键词和词条数据进行完全匹配,若完全一致,则将当前目标关键词确定为有效词,并对目标集中下一条目标关键词进行搜索;
若不完全一致,则将当前目标关键词的长度和词条数据的数组元素的长度进行比较,若长度相同,则比较当前目标关键词的字和词条数据的数组元素的字是否相同,若字相同且字的顺序一致,则将当前关键词确定为有效词,并对目标集中下一条目标关键词进行搜索;若当前目标关键词和词条数据的数组元素的长度、字或字的顺序不同,则进入计算搜索结果的匹配度的步骤。
第二方面,本申请提供了一种基于远程学习的关键词提取系统,该系统包括:
聚类模块,用于基于预设的主题生成模型对初始文本进行聚类,以得到所述初始文本的词典文件;
去噪模块,用于对所述词典文件中的词语进行去噪预处理,并将所述去噪预处理后的词典文件作为目标文件;
抽取模块,用于对目标文件进行关键词提取,得到目标集;
筛选模块,用于将所述目标集中的目标关键词在预设的知识库中进行搜索,得到搜索结果,基于所述目标关键词的字符串长度计算所述搜索结果的匹配度,并将所述匹配度满足预设阈值的目标关键词确定为有效词,从所述目标集中筛选出所有有效词。
第三方面,本申请提供了一种计算机设备,该计算机设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,该计算机程序代码由该一个或多个处理器加载并执行以实现该基于远程学习的关键词提取方法所执行的操作。
第四方面,本申请提供的一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,所述计算机程序被处理器加载并执行以实现该基于远程学习的关键词提取方法所执行的操作。
综上所述,本申请至少包含如下有效效果:
通过利用主题生成模型对初始文本进行聚类,可以挖掘初始文本的隐含主题以及潜在的语义关系,生成词典文件,以便于后续进行关键词提取;通过对词典文件进行去噪预处理,将词典文件中的垃圾词汇删除,使得数据更清晰,有助于提高后续关键词提取的精度;然后对聚类及去噪预处理后的词典文件进行关键词抽取,挖掘其中的词和短语,得到目标集,从而进一步缩小数据量,提高关键词的精准度;最后利用远程学习即知识库来搜索目标集中的关键词,并进行比对字符串长度的匹配度计算,从而将满足预设阈值的目标关键词即有效词筛选出来,分辨出有效词汇和无效词汇,大大提高关键词提取的准确度;此外,利用资源丰富的知识库,新词不断更新,并且数据内容广泛,免去建立字典的麻烦,因此利用开放资源的信息和数据有助于提高关键词的准确度。
附图说明
图1是本发明提供的基于远程学习的关键词提取方法一种实施例的实现流程图;
图2是本发明提供的对初始文本进行聚类一种实施例的处理过程;
图3是本发明提供的基于远程学习的关键词提取系统一种实施例的原理框图。
具体实施方式
以下结合附图1-3对本申请作进一步详细说明。
本申请实施例公开了一种基于远程学习的关键词提取方法,参照图1,该方法包括下述步骤:
S1:基于预设的主题生成模型对初始文本进行聚类,以得到初始文本的词典文件。
在本实施例中,初始文本是指需要实时进行关键词提取的大数据文档;词典文件是指初始文本中所有词语的集合文件。
需要说明的是,主题生成模型能够对初始文本文字里隐藏的主题进行建模,即挖掘将初始文本与词语之间潜在的语义关系,并且可以将文本-主题矩阵降低维度,通过文档-主题矩阵、主题-词语矩阵来表示,从而有助于解决文本中多词一意和一词多义的问题,使得最后挖掘得到的词典文件其词语词义更加准确。
S2:对词典文件中的词语进行去噪预处理,并将去噪预处理后的词典文件作为目标文件。
在本实施例中,目标文件是指用于关键词抽取的词语集合文件;对词典文件中的词语进行去噪预处理包括:将词典文件中的停用词删除,并采用中文分词算法对词典文件进行数据清洗。
需要说明的是,在文本挖掘过程中,经常会遇到停用词,停用词一般包括两类,分别是使用十分广泛的单词和出现概率很高但是实际意义不大的词,常见的停用词如:啊、你、从、就是、的、和、但、按照、比如以及趁着等;通过删除停用词,有助于提高文本挖掘的效率和准确度;此外,本实施例还可以对文本中过多的标点符号进行删除。进一步地,由于文本的特殊性,采用中文分词算法对文本进行预处理,有助于数据清洗,去除垃圾词汇和数据,提高文本挖掘的准确性。
S3:对目标文件进行关键词提取,得到目标集。
在本实施例中,目标集是指经过关键词抽取后且用于进一步筛选的词语集。
需要说明的是,可以采用FP-growth算法提取出目标文件中词语的频繁项集,并基于频繁项集的数据构造FP-树,然后对FP-树的叶子节点和父节点数据的支持度判断结果来对数据进行挖掘和分析,得到频繁项集模式下的完全集,即目标集;需要说明的是,该目标集包括词集和短语集。
S4:将目标集中的目标关键词在预设的知识库中进行搜索,得到搜索结果,基于目标关键词的字符串长度计算搜索结果的匹配度,并将匹配度满足预设阈值的目标关键词确定为有效词,从目标集中筛选出所有有效词。
在本实施例中,目标关键词是指当前目标集中进行搜索筛选的关键词;知识库是指开放的网络搜索资源;搜索结果是指在开放网络搜索资源上搜索到的词条数据;匹配度是指目标关键词与对应词条数据的数组元素的相似度;阈值是指针对匹配度设置的筛选值;有效词是指满足筛选要求的关键词。
在本实施例中,可以采用python算法将目标集中的目标关键词在远程的知识库中进行搜索,在本实施例中,知识库可以采用百度百科,在其他实施例中,知识库可以采用维基百科或搜狗百科等网络资源;进一步地,根据搜索,爬虫到百度百科搜索页面的词条数据,可以选取第一页的词条数据作为搜索结果。
进一步地,通过将目标关键词和搜索结果进行比对,计算目标关键词的字符串长度和搜索结果的字符串长度之间的匹配度,并判断目标关键词的匹配度是否满足预设阈值,若满足,则确定该满足预设阈值的目标关键词为有效词,从而将目标集中所有的关键词进行筛选,得到所有有效词,即可完成关键词的提取。
本实施例通过利用主题生成模型对初始文本进行聚类,可以挖掘初始文本的隐含主题以及潜在的语义关系,并生成词典文件,以便于后续进行关键词提取;通过对词典文件进行去噪预处理,将词典文件中的垃圾词汇删除,使得数据更清晰,有助于提高后续关键词提取的精度;然后对聚类及去噪预处理后的词典文件进行关键词抽取,挖掘其中的词和短语,得到目标集,从而进一步缩小数据量,提高关键词的精准度;最后利用远程学习即知识库来搜索目标集中的关键词,并进行比对字符串长度的匹配度计算,从而将满足预设阈值的目标关键词即有效词筛选出来,分辨出有效词汇和无效词汇,大大提高了关键词提取的准确度。此外,利用资源丰富的知识库,其数据更新块,更容易发现新词,并且数据内容广泛,免去了建立字典的麻烦,因此利用开放资源的信息和数据有助于提高关键词的准确度。
下面详细说明本实施例的步骤S1,步骤S1中的主题生成模型采用LDA(LinearDiscriminant Analysis)算法,将LDA算法应用于初始文本;具体地,基于预设的主题生成模型对初始文本进行聚类,以得到初始文本的词典文件,包括下述步骤:
S11:从狄利克雷α超参数分布中提取初始文本的主题分布向量,从基于多项分布的主题分布向量中提取生成初始文本中每个词语对应的主题,形成文本-主题矩阵。
S12:从狄利克雷β超参数分布中提取每个主题对应的词语分布向量;从基于多项分布的词语分布向量中提取生成词语,形成主题-词语矩阵,并将主题-词语矩阵中词语的集合作为词典文件。
需要说明的是,基于LDA算法的主题生成模型是假定某些隐含参数的生成模型,一些可观测的数据可以通过隐含参数来随机产生,然后通过联合概率分布的情况来计算标注序列。此外,LDA算法包含文本集、主题以及词语的三层结构,将主题作为对应文本集中所有词语的混合分布,将文本集中的文本作为对应所有主题的混合分布。
进一步地,参照图2,下面具体说明LDA算法对初始文本的实际处理过程,包括:
从狄利克雷Dirichlet分布α中取样生成文本i的主题分布θi;从主题的多项Multinomial分布θi中取样生成文本i第j个词的主题zi,j;从狄利克雷Dirichlet分布β中取样生成主题zi,j对应的词语分布
Figure BDA0003093702840000091
从词语的多项Multinomial分布/>
Figure BDA0003093702840000092
中采样最终生成词语wi,j
需要说明的是,LDA算法是对主题分布θi和词语分布
Figure BDA0003093702840000093
进行联合概率计算,即估算文本-主题和主题-词语的概率;zi,j属于隐藏变量,每个词语所对应的主题是不确定的;θi和/>
Figure BDA0003093702840000094
均为含有超参数的狄利克雷分布,进一步地,LDA算法是对超参数α和β进行估值,在本实施例中,采用用Gibbs采样法来计算α和β估计值;在本实施例中,联合概率计算的模型公式如下:
Figure BDA0003093702840000095
根据上式对文本进行计算:
Figure BDA0003093702840000096
上式中,各个参数含义如下表1所示。
表1各参数含义
Figure BDA0003093702840000101
下面详细说明本实施例的步骤S3,将目标文件存储至事务数据库,并预设最小支持度阈值,采用FP-growth算法对目标文件进行关键词提取,具体包括下述步骤:
S31:基于目标文件,构造FP-树,包括如下步骤:
S311:扫描事务数据库Q,收集初始频繁项集F和对应的支持度,并将初始频繁项集F按照支持度降序排序,将排序后的项集作为目标频繁项集L。
S312:创建FP-树的根节点,用“null”来进行标记;对于事务数据库Q中的每个事务Trans,执行如下:
选择事务Trans中的频繁项集,并按目标频繁项集L中的次序排序;设排序后的频繁项集表为[p|P],其中p表示第一个元素,P表示剩余元素的表;调用函数insert_tree([p|P],T),进一步,执行如下:
若父节点T有子女节点N使N.item-name=p.item-name,则N的计数增加1;否则创建一个新节点N,将计数设置为1,链接到它的父节点T,并且通过节点链结将其链结到具有相同item-name的节点;若P非空,递归调用insert_tree(P,N)。
S32:对FP-树进行挖掘,通过调用Procedure FP-growth(tree,u)函数实现,具体步骤如下:
S321:如果树tree包含单个路径P,那么遍历路径P的每个节点组合,记为v。
S322:产生模式uΥv,支持度support=v中节点的最小支持度。
S323:对每个节点ui在树Tree的头部都执行。
S324:产生模式v=uiΥv,它的支持度是support=uisupport。
S325:构造v的条件模式基,构造v的条件FP-树treev,若treev不为空,调用FP-growth(treev,v)。
下面详细说明本实施例的步骤S4中,基于目标关键词的字符串长度计算搜索结果的匹配度,具体计算公式如下:
Figure BDA0003093702840000111
其中,Str表示字符串String1和字符串String2之间共同拥有的最长子串;Size(Str)表示字符串String1和字符串String2之间最大子串的长度;Size(String1)表示字符串String1的长度,size(String2)表示字符串String2的长度;字符串String1表示目标关键词的字符串;String2表示与目标关键词对应的搜索结果的字符串。例如,“猴子”和“母猴子”这一对词,Str=2,利用匹配度式(3)即可计算出这一对词的匹配度是90.30%,匹配度较高。
在步骤S4中基于目标关键词的字符串长度计算搜索结果的匹配度之前,本实施例的方法还包括:
将目标集中的当前目标关键词和词条数据进行完全匹配,若完全一致,则将当前目标关键词确定为有效词,并对目标集中下一条目标关键词进行搜索。
若不完全一致,则将当前目标关键词的长度和词条数据的数组元素的长度进行比较,若长度相同,则比较当前目标关键词的字和词条数据的数组元素的字是否相同,若字相同且字的顺序一致,则将当前关键词确定为有效词,并对目标集中下一条目标关键词进行搜索;若当前目标关键词和词条数据的数组元素的长度、字或字的顺序不同,则进入计算搜索结果的匹配度的步骤。
需要说明的是,本实施例通过将目标集中的当前目标关键词和词条数据进行完全匹配,根据完全匹配的结果,确定是否继续匹配比较或进行下一条关键词搜索匹配,从而避免直接计算目标关键词和搜索结果的字符长长度的匹配度,减少计算量。
下面说明一个具体的应用实例,即基于知识库和匹配度的汉语比对算法,对目标集中的目标关键词进行筛选。在本实例中,该汉语比对算法的输入为用制表符隔开的短语集S1和匹配度的阈值,输出为:删除了无效词的短语集S2;汉语比对算法的步骤包括如下步骤:
·a.读取短语集S1,将S1集合中的每一个短语依次存入arr集合中;其中arr[0]表示第一个短语,arr[1]表示第二个短语,以此类推arr[n]表示第n+1个短语。
·b.依次读取arr数组中的第一个数据s1,将该短语通过python算法输入到百度百科,并且爬取百度百科搜索页面的第一页的的词条数据b;
·c.将数据s1与爬虫程序得到的数据进行完全匹配,若完全一致,终止下步操作,将数据s1存入到短语集S2中;
·d.若不是完全一致,先将数据s1的长度与词条数据b中每个数组元素的长度依次进行比较,若长度相同,进一步比较数据s1和b[n]里面的字是否相同,若字相同,进一步判断数据s1和词条数据b[n]是否存在正序逆序一致,若一致,则终止下一步操作,将数据s1存入到短语集S2中;
e.如果数据s1和词条数据b[n]的长度不同,或数据s1和词条数据b[n]里面的字不相同,或数据s1和词条数据b[n]存在正序逆序不一致,则对数据s1和词条数据b[n]数组中得到的词依次进行匹配度计算,当匹配度大于阈值的时,将该数据s1存入到短语集S2中并且终止计算。当对b数组中所有元素都进行了匹配度计算,且匹配度均小于阈值时,则确定数据s1为垃圾词汇,删除数据s1;
f.输出短语集S2。
针对本实施例的汉语比对算法进行实验测试后,得到的测试结果如下表2所示:
表2汉语比对算法测试结果
Figure BDA0003093702840000131
Figure BDA0003093702840000141
通过上述测试可知,本实施例的汉语比对算法的拦截成功率非常高,在关键词筛选时,将正确短语保留下来,错误短语删除,在阈值设置为30%左右时,可以满足关键词筛选的需求,成功率基本保持在96%左右;阈值设置过高时,拦截错误短语的能力提高,但同时一些正确的短语被拦截删除的概率也增加了,进一步分析该原因是一些常规正确的短语在百度百科中可能没有收录,因此,该汉语比对算法需要在设置合适阈值时对关键词进行筛选。
进一步,对本实施例关键词提取模型的性能进行分析,如表3所示为没有使用远程知识库学习筛选的实验结果,如表4所示为使用远程知识库学习筛选的实验结果。
表3未使用远程学习筛选的关键词提取结果
Figure BDA0003093702840000142
表4使用远程学习筛选的关键词提取结果
Figure BDA0003093702840000143
Figure BDA0003093702840000151
上述比较实验中设定关键词筛选的阈值为0.3,通过表3和表4对比可知,通过远程知识库学习筛选,每个分类文本的关键词提取的准确率和F值都有明显的提高,说明利用知识库的远程筛选,能有效提高系统的整体性能,使得关键词提取更加高效、更加准确。
进一步地,对阈值的设置进行实验测试,以阈值为变量,分别选取六个不同的阈值对系统进行实验,三个指标的平均数结果如表4所示。
表5不同阈值的关键词提取结果
阈值 0 0.1 0.3 0.35 0.5 1
precision 0.822 0.8569 0.94595 0.9687 0.9867 1
recall 0.6158 0.6432 0.605775 0.5096 0.30786 0.019
F 0.703707852 0.7348 0.73729470 0.66786 0.46929 0.03
由上表5分析可知,随着阈值增大,准确率不断提高,当阈值的值为1时,准确率达到100%;但是随着阈值的增大,召回率和F值均小幅度上升之后显著降低,说明阈值过高时,系统的整体性能比较低。
经上述分析可知,本实施例中的基于远程学习的关键词提取模型,在其他的参数值都是经验最佳值的情况下,阈值的最佳值为0.3左右,由于知识库里的网络资源不断扩容,针对每一类别的知识也不尽相同,因此,阈值的最佳值可以由实际语料的种类来决定,可做适应性调整;对于增加的知识库筛选,在召回率波动不大的情况下,关键词提取的准确率有较为明显的提高。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
本实施例还提供一种基于远程学习的关键词提取系统,该基于远程学习的关键词提取系统与上述实施例中基于远程学习的关键词提取方法一一对应。如图3所示,该基于远程学习的关键词提取系统包括聚类模块301、去噪模块302、抽取模块303和筛选模块304。各功能模块详细说明如下:
聚类模块301,用于基于预设的主题生成模型对初始文本进行聚类,以得到初始文本的词典文件;
去噪模块302,用于对词典文件中的词语进行去噪预处理,并将去噪预处理后的词典文件作为目标文件;
抽取模块303,用于对目标文件进行关键词提取,得到目标集;
筛选模块304,用于将目标集中的目标关键词在预设的知识库中进行搜索,得到搜索结果,基于目标关键词的字符串长度计算搜索结果的匹配度,并将匹配度满足预设阈值的目标关键词确定为有效词,从目标集中筛选出所有有效词。
本实施例的关键词提取系统还包括:
完全匹配模块,用于将目标集中的当前目标关键词和词条数据进行完全匹配,若完全一致,则将当前目标关键词确定为有效词,并对目标集中下一条目标关键词进行搜索;
汉语比对模块,用于若目标集中的当前目标关键词和词条数据不完全一致,则将当前目标关键词的长度和词条数据的数组元素的长度进行比较,若长度相同,则比较当前目标关键词的字和词条数据的数组元素的字是否相同,若字相同且字的顺序一致,则将当前关键词确定为有效词,并对目标集中下一条目标关键词进行搜索;若当前目标关键词和词条数据的数组元素的长度、字或字的顺序不同,则进入计算搜索结果的匹配度的步骤。
上述关于基于远程学习的关键词提取系统中各模块的具体原理可以参见上文中对于基于远程学习的关键词提取方法的限定,在此不再赘述。上述基于远程学习的关键词提取系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
本实施例还提供了一种计算机设备,该计算机设备可以是服务器。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储初始文本、词典文件、目标集以及有效词等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于远程学习的关键词提取方法,处理器执行计算机程序时实现以下步骤:
基于预设的主题生成模型对初始文本进行聚类,以得到初始文本的词典文件;
对词典文件中的词语进行去噪预处理,并将去噪预处理后的词典文件作为目标文件;
对目标文件进行关键词提取,得到目标集;
将目标集中的目标关键词在预设的知识库中进行搜索,得到搜索结果,基于目标关键词的字符串长度计算搜索结果的匹配度,并将匹配度满足预设阈值的目标关键词确定为有效词,从目标集中筛选出所有有效词。
本实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
基于预设的主题生成模型对初始文本进行聚类,以得到初始文本的词典文件;
对词典文件中的词语进行去噪预处理,并将去噪预处理后的词典文件作为目标文件;
对目标文件进行关键词提取,得到目标集;
将目标集中的目标关键词在预设的知识库中进行搜索,得到搜索结果,基于目标关键词的字符串长度计算搜索结果的匹配度,并将匹配度满足预设阈值的目标关键词确定为有效词,从目标集中筛选出所有有效词。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的结构、形状、原理所做的等效变化,均应涵盖于本申请的保护范围之内。

Claims (10)

1.一种基于远程学习的关键词提取方法,其特征在于:所述方法包括: 基于预设的主题生成模型对初始文本进行聚类,以得到所述初始文本的词典文件;对所述词典文件中的词语进行去噪预处理,并将所述去噪预处理后的词典文件作为目标文件;对目标文件进行关键词提取,得到目标集;将所述目标集中的目标关键词在预设的知识库中进行搜索,得到搜索结果,基于所述目标关键词的字符串长度计算所述搜索结果的匹配度,并将所述匹配度满足预设阈值的目标关键词确定为有效词,从所述目标集中筛选出所有有效词,目标关键词是指当前目标集中进行搜索筛选的关键词;知识库是指开放的网络搜索资源;搜索结果是指在开放网络搜索资源上搜索到的词条数据;匹配度是指目标关键词与对应词条数据的数组元素的相似度;阈值是指针对匹配度设置的筛选值;有效词是指满足筛选要求的关键词。
2.根据权利要求 1 所述的基于远程学习的关键词提取方法,其特征在于:所述主题生成模型采用 LDA 算法,将所述 LDA 算法应用于所述初始文本,所述基于预设的主题生成模型对初始文本进行聚类,以得到所述初始文本的词典文件,包括:
从狄利克雷 α 超参数分布中提取所述初始文本的主题分布向量,从基于多项分布的所述主题分布向量中提取生成所述初始文本中每个词语对应的主题,形成文本-主题矩阵;
从狄利克雷 β 超参数分布中提取每个主题对应的词语分布向量;从基于多项分布的所述词语分布向量中提取生成词语,形成主题-词语矩阵,并将所述主题-词语矩阵中词语的集合作为词典文件。
3.根据权利要求 1 所述的基于远程学习的关键词提取方法,其特征在于:对所述词典文件中的词语进行去噪预处理,并将所述去噪预处理后的词典文件作为目标文件,包括:
将所述词典文件中的预设停用词删除,并采用中文分词算法对所述词典文件进行数据清洗。
4.根据权利要求 1 所述的基于远程学习的关键词提取方法,其特征在于:对目标文件进行关键词提取,得到目标集,包括:
将所述目标文件存储至事务数据库,采用 FP-growth 算法对目标文件进行关键词提取,将提取得到的关键词集合作为目标集。
5.根据权利要求 1 所述的基于远程学习的关键词提取方法,其特征在于:将所述目标集中的目标关键词在预设的知识库中进行搜索,得到搜索结果,包括:
将目标关键词通过预设的搜索算法在知识库中进行搜索;
根据搜索,获取知识库搜索页面的词条数据,并将所述词条数据作为搜索结果。
6.根据权利要求 1 所述的基于远程学习的关键词提取方法,其特征在于:所述基于所述目标关键词的字符串长度计算搜索结果的匹配度,计算公式如下:
Figure QLYQS_1
其中,Str 表示字符串 String1 和字符串 String2 之间共同拥有的最长子串;Size(Str)表示字符串 String1 和字符串 String2 之间最大子串的长度; Size(String1)表示字符串 String1 的长度,size(String2)表示字符串 String2 的长度;字符串 String1表示目标关键词的字符串;String2 表示与目标关键词对应的搜索结果的字符串。
7.根据权利要求 5 所述的基于远程学习的关键词提取方法,其特征在于:在基于所述目标关键词的字符串长度计算搜索结果的匹配度之前,所述方法还包括:
将所述目标集中的当前目标关键词和词条数据进行完全匹配,若完全一致,则将当前目标关键词确定为有效词,并对目标集中下一条目标关键词进行搜索;
若不完全一致,则将当前目标关键词的长度和词条数据的数组元素的长度进行比较,若长度相同,则比较当前目标关键词的字和词条数据的数组元素的字是否相同,若字相同且字的顺序一致,则将当前关键词确定为有效词,并对目标集中下一条目标关键词进行搜索;若当前目标关键词和词条数据的数组元素的长度、字或字的顺序不同,则进入计算搜索结果的匹配度的步骤。
8.一种基于远程学习的关键词提取系统,其特征在于:所述系统包括:聚类模块,用于基于预设的主题生成模型对初始文本进行聚类,以得到所述初始文本的词典文件;去噪模块,用于对所述词典文件中的词语进行去噪预处理,并将所述去噪预处理后的词典文件作为目标文件;抽取模块,用于对目标文件进行关键词提取,得到目标集;筛选模块,用于将所述目标集中的目标关键词在预设的知识库中进行搜索,得到搜索结果,基于所述目标关键词的字符串长度计算所述搜索结果的匹配度,并将所述匹配度满足预设阈值的目标关键词确定为有效词,从所述目标集中筛选出所有有效词,目标关键词是指当前目标集中进行搜索筛选的关键词;知识库是指开放的网络搜索资源;搜索结果是指在开放网络搜索资源上搜索到的词条数据;匹配度是指目标关键词与对应词条数据的数组元素的相似度;阈值是指针对匹配度设置的筛选值;有效词是指满足筛选要求的关键词。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并 可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求 1至 7 任一项所述基于远程学习的关键词提取方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求 1 至 7 任一项所述基于远程学习的关键词提取方法的步骤。
CN202110604448.4A 2021-05-31 2021-05-31 基于远程学习的关键词提取方法、系统、设备及存储介质 Active CN113326350B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110604448.4A CN113326350B (zh) 2021-05-31 2021-05-31 基于远程学习的关键词提取方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110604448.4A CN113326350B (zh) 2021-05-31 2021-05-31 基于远程学习的关键词提取方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113326350A CN113326350A (zh) 2021-08-31
CN113326350B true CN113326350B (zh) 2023-05-26

Family

ID=77422905

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110604448.4A Active CN113326350B (zh) 2021-05-31 2021-05-31 基于远程学习的关键词提取方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113326350B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08314970A (ja) * 1995-05-15 1996-11-29 Matsushita Electric Ind Co Ltd キーワード抽出装置
EP3118751A1 (fr) * 2015-07-13 2017-01-18 Pixalione Procédé d'extraction de mots clés, dispositif et programme d'ordinateur correspondant
CN106354708A (zh) * 2015-07-13 2017-01-25 中国电力科学研究院 一种基于用电信息采集系统的客户互动信息搜索引擎系统
WO2020258662A1 (zh) * 2019-06-25 2020-12-30 平安科技(深圳)有限公司 关键词确定方法、装置、电子设备及存储介质
CN112632292A (zh) * 2020-12-23 2021-04-09 深圳壹账通智能科技有限公司 业务关键词的提取方法、装置、设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005556A (zh) * 2015-07-29 2015-10-28 成都理工大学 一种基于地质大数据的标引关键词提取方法和系统
CN108197117B (zh) * 2018-01-31 2020-05-26 厦门大学 一种基于文档主题结构与语义的中文文本关键词提取方法
CN108376151B (zh) * 2018-01-31 2020-08-04 深圳市阿西莫夫科技有限公司 问题分类方法、装置、计算机设备和存储介质
CN108399228B (zh) * 2018-02-12 2020-11-13 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质
CN110851578A (zh) * 2019-10-31 2020-02-28 北京大米科技有限公司 关键词提取方法、装置和电子设备
CN112559684A (zh) * 2020-12-10 2021-03-26 中科院计算技术研究所大数据研究院 一种关键词提取及信息检索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08314970A (ja) * 1995-05-15 1996-11-29 Matsushita Electric Ind Co Ltd キーワード抽出装置
EP3118751A1 (fr) * 2015-07-13 2017-01-18 Pixalione Procédé d'extraction de mots clés, dispositif et programme d'ordinateur correspondant
CN106354708A (zh) * 2015-07-13 2017-01-25 中国电力科学研究院 一种基于用电信息采集系统的客户互动信息搜索引擎系统
WO2020258662A1 (zh) * 2019-06-25 2020-12-30 平安科技(深圳)有限公司 关键词确定方法、装置、电子设备及存储介质
CN112632292A (zh) * 2020-12-23 2021-04-09 深圳壹账通智能科技有限公司 业务关键词的提取方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113326350A (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
US11544459B2 (en) Method and apparatus for determining feature words and server
WO2019153551A1 (zh) 文章分类方法、装置、计算机设备及存储介质
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
CN110162771B (zh) 事件触发词的识别方法、装置、电子设备
CN112163424A (zh) 数据的标注方法、装置、设备和介质
CN107506472B (zh) 一种学生浏览网页分类方法
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN111325030A (zh) 文本标签构建方法、装置、计算机设备和存储介质
CN111104801A (zh) 基于网址域名的文本分词方法、系统、设备及介质
CN112214335A (zh) 基于知识图谱和相似度网络的Web服务发现方法
Bhutada et al. Semantic latent dirichlet allocation for automatic topic extraction
CN112989208A (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN106570196B (zh) 视频节目的搜索方法和装置
CN108519978A (zh) 一种基于主动学习的中文正式文本分词方法
CN111191413B (zh) 一种基于图排序模型的事件核心内容自动标记方法、装置及系统
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN113326350B (zh) 基于远程学习的关键词提取方法、系统、设备及存储介质
CN111651675A (zh) 一种基于ucl的用户兴趣主题挖掘方法及装置
CN107169065B (zh) 一种特定内容的去除方法和装置
CN113095073B (zh) 语料标签生成方法、装置、计算机设备和存储介质
CN103744830A (zh) 基于语义分析的excel文档中身份信息的识别方法
CN113468339A (zh) 基于知识图谱的标签提取方法、系统、电子设备及介质
CN112818122A (zh) 一种面向对话文本的事件抽取方法及系统
CN112115269A (zh) 一种基于爬虫的网页自动分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant