CN118133819A - 一种中文文本关键词提取、重要度评估方法及处理终端 - Google Patents

一种中文文本关键词提取、重要度评估方法及处理终端 Download PDF

Info

Publication number
CN118133819A
CN118133819A CN202311779125.4A CN202311779125A CN118133819A CN 118133819 A CN118133819 A CN 118133819A CN 202311779125 A CN202311779125 A CN 202311779125A CN 118133819 A CN118133819 A CN 118133819A
Authority
CN
China
Prior art keywords
text
keywords
initial
keyword
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311779125.4A
Other languages
English (en)
Inventor
肖罗霖
吴志伟
李镇江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Jiadu Technology Software Development Co ltd
PCI Technology Group Co Ltd
PCI Technology and Service Co Ltd
Original Assignee
Guangzhou Jiadu Technology Software Development Co ltd
PCI Technology Group Co Ltd
PCI Technology and Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Jiadu Technology Software Development Co ltd, PCI Technology Group Co Ltd, PCI Technology and Service Co Ltd filed Critical Guangzhou Jiadu Technology Software Development Co ltd
Priority to CN202311779125.4A priority Critical patent/CN118133819A/zh
Publication of CN118133819A publication Critical patent/CN118133819A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种中文文本关键词提取、重要度评估方法及处理终端,关键词提取方法包括:获取目标中文文本;对目标中文文本内的语句进行分词,得到初始分词集合;预设一个窗口,窗口大小定义为w,以窗口大小为w的窗口对初始分词集合进行提取,从初始分词集合中的第一个分词开始,按照顺序连续w个的分词构成一个关键词,提取出该关键词,直至遍历初始分词集合中的每一个关键词,得到初始关键词集合,对初始关键词集合内的所有初始关键词按照预设规则进行筛选,剩余的初始关键词作为最终关键词。本发明有效过滤掉不符合中文表达习惯和逻辑的关键词,提取的关键词准确,能够很好的度量关键词在原始文本中的重要程度。

Description

一种中文文本关键词提取、重要度评估方法及处理终端
技术领域
本发明涉及计算机自然语言处理技术领域,具体涉及一种中文文本关键词提取、重要度评估方法及处理终端。
背景技术
从文本中提取关键词是自然语言处理领域中的一个重要任务,旨在从文本中自动识别和选取出最具代表性或有信息量的关键词,以便于在后续业务中,利用这些关键词可以对中文文本进行利用。例如,机器人与自然人对话,通过识别出自然人所讲话输出的文本来回答,实现智能对答交流。
从文本中提取关键词有较多现有技术,主要包括三大类:
基于规则的提取方法,例如TF-IDF,这种提取方法简单易于实现,能用于不同语言,但往往忽略掉语义以及需要手动调整参数,导致提取出的关键词含有较多不符合语言表达习惯的噪声,以及因需要手动设置而带来使用不方便。
基于图的提取方法,例如TextRank,这种提取方法考虑到上下文关系,并且也无需手动定义规则,但仍然需要调整相关参数,例如窗口大小、迭代次数等,并且对于大规模文本效率较低。
基于语义信息的提取方法,其背后逻辑是基于深度学习。这类方法具有一些明显的优势,其利用词嵌入技术或预训练的自然语言处理模型,例如BERT,来实现从文本中关键词的提取。
但面对中文文本,现有的关键词提取方法往往在提取结果上因含有较多噪声而导致提取结果不准确。由于中文文本通常没有明显的词语分隔符,现有的提取方法往往很难适当的进行分词,进而因没有适当的分词而难以确定词语的边界,导致基于分词得到的提取结果含有很多不符合中文表达习惯或逻辑的关键词,存在较多噪声。而分词的准确与否,恰恰影响关键词提取的准确性。
另外,从文本中所提取的这些关键词对于文本的重要度也往往很难评估,也即这些关键词在文本中的重要程度不得而知,进而比较难以判断这些提取的关键词是否真正意义上代表了原先文本的真实语义,因此,评估所提取出的关键词在原先文本中的重要程度也是需要解决的问题。
发明内容
针对现有技术的不足,本发明的目的之一是提供一种中文文本关键词提取方法,其能够解决背景技术所提到的问题;
本发明的目的之二是提供一种中文文本关键词重要度评估方法,其能够解决背景技术所提到的问题;
本发明的目的之三是提供一种处理终端,其能够解决背景技术所提到的问题。
实现本发明的目的之一的技术方案为:一种中文文本关键词提取方法,包括以下步骤:
步骤1:获取目标中文文本,目标中文文本内存储有以中文语言所表达的语句;
步骤2:对目标中文文本内的语句进行分词,得到若干分词,所有分词组成初始分词集合;
步骤3:预设一个窗口,窗口大小定义为w,以窗口大小为w的窗口对初始分词集合进行提取,从初始分词集合中的第一个分词开始,按照顺序连续w个的分词构成一个关键词,提取出该关键词,直至遍历初始分词集合中的每一个关键词,得到初始关键词,所有的初始关键词构成初始关键词集合,
对初始关键词集合内的所有初始关键词按照预设规则进行筛选,剩余的初始关键词作为最终关键词。
进一步地,在执行完步骤3后,还包括步骤4:
步骤4:更新w的取值,按w的新取值跳转至步骤3,得到按更新后w的窗口所选取的初始关键词,并按照预设规则筛选出最终关键词,直至w取值达到w的最大值为M,从而完成从目标中文文本中提取关键词,所有的最终关键词构成最终关键词集合。
进一步地,在步骤4中,每次更新w的取值时,w的新取值为w的上一次取值基础上加上预设的增加值。
进一步地,在步骤2中,对目标中文文本内的语句进行分词,还包括得到各个分词对应的词性,各个分词与对应词性的映射关系构成词性列表,
在步骤3中,对初始关键词集合内的所有初始关键词基于词性按照预设规则进行筛选,剩余的初始关键词作为最终关键词。
进一步地,预设规则为满足条件一至条件四的初始关键词为最终的关键词,并筛除掉其余的初始关键词:
条件一:初始关键词中的第一个字符或字符串和最后一个字符或字符串的词性均不为助词,且初始关键词中的各个字符至少存在能够映射到词性列表中的词性;
条件二:初始关键词的字符数量m在预设阈值区间,min_length≤m≤max_length,min_length和max_length为预设阈值,分别表示关键词的最小字符数量和最大字符数量;
条件三:初始关键词中不含特殊字符,特殊字符为预先定义;
条件四:初始关键词为非停用词。
实现本发明的目的之二的技术方案为:一种中文文本关键词重要度的评估方法,应用于评估从中文文本中提取出的关键词在该中文文本中的重要程度,从中文文本中提取出的关键词为采用所述中文文本关键词提取方法所得到的关键词,所述评估方法,包括如下步骤:
步骤21:获取待评估关键词所在出处的目标中文文本,以及最终关键词集合,关键词所在出处的目标中文文本定义为初始文本;
步骤22:对初始文本进行编码,得到初始文本的第一向量text1_embed;
步骤23:从初始文本中删除或者替换最终关键词集合中的一个关键词,删除或替换关键词后的初始文本定义为残余文本,每次删除或替换一个关键词,直至所有或部分的关键词均被删除或替换掉,得到对应的残余文本,从而得到若干个残余文本;
步骤24:分别对残余文本进行编码,得到各个残余文本对应的第二向量text2_embed;
步骤25:分别计算每一个第二向量text2_embed与第一向量text1_embed之间的相异度,相异度表征第二向量text2_embed所在残余文本所对应的删除或替换掉的关键词在初始文本中的重要程度,计算出所有第二向量text2_embed与第一向量text1_embed之间的相异度,得到每一个关键词在初始文本中的重要程度,完成关键词在初始文本中的重要程度的评估。
进一步地,相异度differ按公式①计算得到:
------①
式中,x和y分别表示第一向量text1_embed和第二向量text2_embed中的每一项,LEN表示残余文本所对应的删除或替换掉的关键词的字符数量,表示第一向量text1_embed中第i项,/>表示第二向量text2_embed中第i项,n为第一向量和第二向量的长度。
进一步地,采用bert模型对初始文本和残余文本进行编码。
进一步地,在步骤25之后,还包括基于相异度和MMR算法选取排名最靠前的k个关键词作为表征对目标中文文本最重要的关键词。
实现本发明的目的之二的另一种技术方案为:一种中文文本关键词重要度的评估方法,应用于评估从中文文本中提取出的关键词在该中文文本中的重要程度,从中文文本中提取出的关键词为采用所述中文文本关键词提取方法所得到的关键词,获取待评估关键词所在出处的目标中文文本,以及最终关键词集合,关键词所在出处的目标中文文本定义为初始文本,所述评估方法,包括如下步骤:
步骤31:基于标点符号将初始文本切分为若干个句子,记为x;
步骤32:筛选出包含待评估关键词的句子,记为g, g≤x;
步骤33:以语句为单位建立对应的向量,未删除或替换待评估关键词的句子记为初始语句,对应第一语句向量;删除或替换待评估关键词后的句子记为残余语句,对应第二语句向量;
步骤34:分别计算每一个第一语句向量与对应的第二语句向量之间的相异度,得到g个相异度值;
步骤35:g个相异度值的平均值即为待评估关键词的相异度值;
步骤36:遍历初始文本中提取出的每个待评估关键词,即可得到每个待评估关键词的相异度值,完成关键词在初始文本中的重要程度的评估。
实现本发明的目的之二的另一种技术方案为:一种中文文本关键词重要度的评估方法,包括如下步骤:
步骤S1:获取待评估关键词所在出处的目标中文文本,以及最终关键词集合,关键词所在出处的目标中文文本定义为初始文本;
步骤S2:对初始文本进行编码,得到初始文本的第一向量text1_embed;
步骤S3:从初始文本中删除或者替换最终关键词集合中的一个关键词,删除或替换关键词后的初始文本定义为残余文本,每次删除或替换一个关键词,直至所有或部分的关键词均被删除或替换掉,得到对应的残余文本,从而得到若干个残余文本;
步骤S4:分别对残余文本进行编码,得到各个残余文本对应的第二向量text2_embed;
步骤S5:分别计算每一个第二向量text2_embed与第一向量text1_embed之间的相异度,相异度表征第二向量text2_embed所在残余文本所对应的删除或替换掉的关键词在初始文本中的重要程度,计算出所有第二向量text2_embed与第一向量text1_embed之间的相异度,得到每一个关键词在初始文本中的重要程度,完成关键词在初始文本中的重要程度的评估。
实现本发明的目的之二的另一种技术方案为:一种中文文本关键词重要度的评估方法,包括如下步骤:
步骤T1:获取待评估关键词所在出处的目标中文文本,以及最终关键词集合,关键词所在出处的目标中文文本定义为初始文本,基于标点符号将初始文本切分为若干个句子,记为x;
步骤T2:筛选出包含待评估关键词的句子,记为g, g≤x;
步骤T3:以语句为单位建立对应的向量,未删除或替换待评估关键词的句子记为初始语句,对应第一语句向量;删除或替换待评估关键词后的句子记为残余语句,对应第二语句向量;
步骤T4:分别计算每一个第一语句向量与对应的第二语句向量之间的相异度,得到g个相异度值;
步骤T5:g个相异度值的平均值即为待评估关键词的相异度值;
步骤T6:遍历初始文本中提取出的每个待评估关键词,即可得到每个待评估关键词的相异度值,完成关键词在初始文本中的重要程度的评估。
实现本发明的目的之三的技术方案为:一种处理终端,其包括:
存储器,用于存储程序指令;
处理器,用于运行所述程序指令,以执行所述中文文本关键词提取方法或者所述中文文本关键词重要度的评估方法的步骤。
本发明的有益效果为:本发明提出了一种新的中文关键词提取方法。首先可以利用分词工具(例如jieba、HanLP等)对中文文本进行分词,然后根据词性标注信息及中文词汇的特点,重新组合词语(即分词)以形成关键词,并基于关键词按照预设规则进行过滤筛选,有效过滤掉不符合中文表达习惯和逻辑的关键词。此外,还引入了新的文本相异度计算模型,用于度量关键词对于原始文本的重要程度,相比于传统的相似度计算而言,本申请基于包括对应关键词的初始文本s1和不包括该关键词的残余文本s2之间的距离来度量该关键词对初始文本s1的重要程度,并未发现有类似这样计算相似度的现有技术。
最后,基于关键词的重要程度,采用MMR算法(最大边界相关性算法),从关键词中选择出前k个最具代表性的关键词。这项发明的研发,极大的提升了从中文文本中提取的关键词的准确度,为相关领域的数据分析和处理提供了有力的支持。
1)由于中文关键词可能由多个词组合而成,因此,本发明重新考虑了分词工具分词所得到的结果,并在重新组合关键词时,充分考虑了不同类型的关键词,例如单个词的关键词通常是名词,而多个词组合的关键词通常采用动名词的组合形式等等,设定了一系列生成关键词的规则。由本发明生成的关键词更具有广泛适用性。
2)在评估关键词的重要性时,传统相似度方法来计算候选词与文本之间的相似度存在一些问题。若直接计算词语与句子间的相似度来度量候选词的重要程度,不仅受到词语和句子之间的语义差异的影响,而且通常较长或更频繁出现的关键词可能会获得更高的相似度分数,这显然是不合理的。因此,在本发明中,给出的相异度计算首先是针对句子之间而非句子和词语之间,这可以很好地缓解词频带来的不必要影响,使其更关注语义本身。其次,本发明提出的相异度计算公式,不仅可以很好的度量候选词在原始文本中的重要程度,而且排除了词语长度的影响。另外,本发明提出了针对文档级和句子级别两种相异度的计算方式,可以很好的应对不同长度的文本。
附图说明
图1为实施例一的流程示意图;
图2为实施例二的流程示意图;
图3为实施例四的处理终端的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
如图1所示,一种中文文本关键词提取方法,包括以下步骤:
步骤1:获取目标中文文本,目标中文文本内存储有以中文语言所表达的语句。
中文文本内存储有中文语言表达的语句,从而基于这些语句提取出关键词,旨在通过提取出的关键词能够在较大程度上反映中文文本内的语句所表达的意思。
需要说明的是,中文语言表达的语句并不限定完全是中文汉字所表达的语句,只需要大部分是中文汉字且是基于中文表达习惯/逻辑所表达的语句即可。在日常的中文语言表达中,也会夹带一些外文(如英文)引入的字词,例如,OK或者LED等。对于这类含有非中文的字词的语句,在后面的步骤中仍会进行分词。
步骤2:对目标中文文本内的语句进行分词,得到若干分词和各个分词对应的词性,所有分词组成初始分词集合,各个分词与对应词性的映射关系构成词性列表。
当目标中文文本内有多个语句时,以一条语句为单位进行分词,故一条语句对应一个初始分词集合。所有语句对应的初始分词集合再组成一个更大的分词集合。
本发明实施例优选的采用jieba分词工具对目标中文文本进行分词。jieba分词工具能够对目标中文文本内的每条语句按其自身的规则分割成一个一个词语,并为每个词语附带词性,每个词语的词性可以是预先自定义的,每个词语即是一个分词。
词性通常包括名词、量词、动词、助词、形容词等。
可以采用相对应的字符符号来表示对应的词性,例如,用字符符号n表示名词,字符符号vn表示动名词,eng表示英文单词等等。
若中文语言表达的语句含有非中文的字词的语句,jieba分词工具会将这些外文字词分割成一个词语,并附上词性。例如,分割出一个词语“OK”,词语“OK”即构成一个分词,该分词的词性为英文单词,可以用字符符号eng表示。
步骤3:预设一个窗口,窗口的大小定义为w,w的最大值为M, M为正整数且M≥1。
步骤4:令w=1,以窗口大小为w的窗口对初始分词集合进行提取,从初始分词集合中的第一个分词开始,按照顺序连续w个的分词构成一个关键词,提取出该关键词,直至遍历初始分词集合中的每一个关键词,得到初始关键词,所有的初始关键词构成初始关键词集合,并关联初始关键词的词性,得到初始关键词的词性列表。
对初始关键词集合内的所有初始关键词基于词性按照预设规则进行筛选,剩余的初始关键词作为最终关键词。
其中,预设规则为满足条件一至条件四的初始关键词为最终的关键词,并筛除掉其余的初始关键词:
条件一:初始关键词中的第一个字符或字符串和最后一个字符或字符串的词性均不为助词,也即初始关键词中第一个字符和最后一个字符在词性列表中无法映射到表征助词的字符符号“u”,且初始关键词中的各个字符至少存在能够映射到词性列表中的词性,也即初始关键词可以查找到词性列表中对应的表征词性的字符符号。
以得到的关键词为“我爱中国”为例,该关键词划分为三个字符或字符串,分别为“我”、“爱”、“中国”。其中,“我”属于代词,“爱”属于动词,“中国”属于名词,故第一个字符或字符串(对应“我”)和最后一个字符或字符串(对应“中国”)均不是助词,并且存在3个词性,能够映射到词性列表。因此,对于关键词“我爱中国”来说,其符合条件一。
设置条件一的目的在于过滤掉以助词开头的关键词,这种关键词不符合中文词汇表达习惯和逻辑,因为中文词汇不会以助词开头。
条件二:初始关键词的字符数量m在预设阈值区间,min_length≤m≤max_length,min_length和max_length为预设阈值,分别表示关键词的最小字符数量和最大字符数量。
例如,初始关键词“我爱中国”的字符数量m=4,“我”、“爱”、“中”、“国”分别是一个字符,故有4个字符,字符数量m=4。
在本实施例中,min_length=2,max_length=10。当然,在实际使用时,可以根据实际情况调整这两者的取值。
设置条件二的目的在于过滤掉过长的关键词,这类过长的关键词是一种非真正意义上的关键词,而是中文的句子表达,而非关键词。
条件三:初始关键词中不含特殊字符,特殊字符为预先定义的,例如,[ '/','。',',', '$', '%', '^', '*', '(', '+', '"', "'", ']', '+', '|', '[', '+','——', '!', ',', '、', '~', '@', '#', '¥', '%', '&', '*', '(', ')', ':',';', '《', ')', '《', '》', '“', '”', '(', ')', '»', '〔', '〕', '-' ]该集合中的字符可以定义为特殊字符。
设置条件三的目的同样过滤掉不符合中文表达习惯和逻辑的关键词。例如,目标中文文本存储有语句“啊,美丽的中国”,采用jieba分词工具进行分词并且通过步骤4中的窗口筛选将分词组合后,可能会得到关键词“啊,美丽”这种包含特殊字符(即逗号“,”)在里面的关键词,需要筛选过滤掉。
条件四:初始关键词为非停用词。停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。故可比对停用词表判断初始关键词是否为停用词。
在实际使用时,预设规则中可以增加其他条件或替换上述四个条件中的一个或多个。
步骤5:更新w的取值,按w的新取值跳转至步骤4,得到按更新后w的窗口所选取的初始关键词按照预设规则筛选出最终关键词,直至w取值达到w的最大值为M,从而完成从目标中文文本中提取关键词,所有的最终关键词构成最终关键词集合。其中,每次更新w的取值中,w的新取值为w的上一次取值基础上加1,也即w=w+1。当然,在实际使用时,也可以每次+2或其他预设增加值。
以目标中文文本中存储的一条语句“我爱中国”为例。Jieba分词工具对该语句分词得到的初始分词集合为{我,爱,中国},预设窗口w的最大值M=3,每次更新w的增加值为1。
第一次,w=1,按此w取值的窗口进行初始分词集合进行选取,得到的初始关键词为{我,爱,中国},共有3个初始关键词。
第二次,更新w,w=2,按此w取值的窗口进行初始分词集合进行选取,得到的初始关键词为{我爱,爱中国},共有2个初始关键词。
第三次,更新w,w=3(达到最大值),按此w取值的窗口进行初始分词集合进行选取,得到的初始关键词为{我爱中国},共有1个初始关键词。
因此,最终的初始关键词为{我,爱,中国,我爱,爱中国,我爱中国},共有6个关键词,这6个关键词就构成了初始关键词集合。假如这6个关键词都符合预设规则,则最终提取到的关键词就是这6个关键词。
对于其他更复杂更长的中文语句,也是按如此方式进行提取关键词,在此就不一一举例。
另外,为说明本发明的提取方法相比于与现有技术的提取方法的优异性,举一示例比对说明,以尽可能直观说明。
示例:
一、关键词提取方法:
1.1 统计算法TFIDF
1.2 图算法 TextRank
1.3 语义算法 KeyBERT
1.4 chinese-keyBERT方法
1.5 本发明的方法,暂且命名为DisBert。
目标中文文本如下:
"1 前言 本标准是为规范广州地铁18号线各正线车站、风井(含陇枕主变电站、龙珠主变电站)FAS专业设备检修作业而制定。"
各个方法得到的结果如下:
"KeyBERT":["龙珠主变电站","本标准是为规范广州地铁","风井","含陇枕主变电站","专业设备检修作业而制定","号线各正线车站","18","fas","前言""]
"chinese-keybert":["电站","专业","广州","陇枕","为规"]
"tfidf":["变电站","规范广州","广州地铁","18","号线","正线车站","风井","含陇枕","龙珠主","fas"]
"textrank":["变电站","标准","广州","规范","正线","作业","车站","检修","风井","设备",]
"DisBert":["风井","18号线","地铁18号线","含陇枕","地铁","检修","主变电站","广州","fas","龙珠主"]
从上可以明显看出,本发明的方法相比于传统的现有技术,所提取出的关键词更能反映原文本的含义,并且符合中文表达习惯和结果。
例如,KeyBERT得到的关键词“号线各正线车站”不符合中文表达习惯,明显前面缺少了“18”这个字符,相对应的,其把“18”当成单独的一个关键词。
又如,tfidf得到的关键词“规范广州”,其也明显不符合中文表达习惯,对于一个城市而言(广州),通常不会用 “规范”这个词,规范通常接某个人或某个单位或者某种行为等。
实施例二
如图2所示,本实例提供一种中文文本关键词重要度的评估方法,应用于评估从中文文本中提取出的关键词在该中文文本中的重要程度,从中文文本中提取出的关键词基于实施例一的一种中文文本关键词提取方法所得到,所述评估方法,包括如下步骤:
步骤21:获取待评估关键词所在出处的目标中文文本,以及最终关键词集合,关键词所在出处的目标中文文本定义为初始文本,也即初始文本是包括了所提取出的关键词。
步骤22:采用bert模型对初始文本进行编码,得到初始文本的第一向量text1_embed。
步骤23:从初始文本中删除或者采用不具有任何含义的自定义字符符号替换最终关键词集合中的一个关键词,删除或替换关键词后的初始文本定义为残余文本。每次删除或替换一个关键词,直至所有或部分的关键词均被删除或替换掉,得到对应的残余文本,从而得到若干个残余文本。
例如,采用MASK这个自定义字符符号来替代某一个关键词(例如“中国”)。
需要说明的是,替代的字符符号不能出现与最终关键词集合中的关键词相同或相似或有关联的情况。
步骤24:采用bert模型分别对残余文本进行编码,得到各个残余文本对应的第二向量text2_embed。
步骤25:分别计算每一个第二向量text2_embed与第一向量text1_embed之间的相异度,相异度表征第二向量text2_embed所在残余文本所对应的删除或替换掉的关键词在初始文本中的重要程度。计算出所有第二向量text2_embed与第一向量text1_embed之间的相异度,也就得到了每一个关键词在初始文本中的重要程度,从而完成关键词在初始文本中的重要程度的评估。
其中,相异度differ按公式①计算得到:
------①
式中,x和y分别表示第一向量text1_embed和第二向量text2_embed中的每一项,LEN表示残余文本所对应的删除或替换掉的关键词的字符数量(或称之为字符长度),表示第一向量text1_embed中第i项,/>表示第二向量text2_embed中第i项,n为第一向量和第二向量的长度,也即第一向量text1_embed和第二向量text2_embed均是长度为n的一维向量
对于该公式,除以LEN作用在于消除关键词长度的影响,避免某些过长或过短的关键词对相异度值产生较大影响(因为一般来说,从句子中挖掉这个词,这个词越长,一般来说就对原始的句子影响越大,这里就是为了平衡这种影响,即为了让该算法不至于总是倾向于选长度较长的词)。并且该公式还能够映射到0-1区间,从而有利于基于该相异度即可量化衡量关键词的重要程度。
以上是以整个文档为单位来评估关键词在整个文档中的重要程度,相当于是文档级的相异度评估。
在一个可选的实施方式中,还可以对不同长度的文本,采用不同级别的相异度评估,对于短文本采用文档级的相异度评估,对于长文本则采用句子级的相异度评估。句子级的相异度评估,具体步骤如下:
步骤31:对于长文本,基于标点符号将初始文本切分为若干个句子,例如x个;
步骤32:筛选出包含待评估关键词的句子,例如g个, g≤x;
步骤33:以语句为单位进行编码得到对应的向量,未删除或替换待评估关键词的句子记为初始语句,对应第一语句向量;删除或替换待评估关键词后的句子记为残余语句,对应第二语句向量;
步骤34:分别计算每一个第一语句向量与对应的第二语句向量之间的相异度,得到g个相异度值;
步骤35:g个相异度值的平均值即为待评估关键词的相异度值;
步骤36:遍历长文本中提取出的每个待评估关键词,即可得到每个待评估关键词的相异度值,也就是每个待评估关键词在整个文档中的重要程度。
由于原理类似,具体技术细节,在此不赘述,可参考实施例二的描述。
在一个可选的实施方式中,还包括基于相异度和MMR算法(最大边界相关性算法)选取排名最靠前的k个关键词作为表征对目标中文文本最重要的关键词。具体描述如下:
a)创建一个空的关键词集合S,用于存储最终的关键词;
b)从候选关键词中选择具有最高相异度值reward的一个关键词作为初始关键词,并将其加入 S 集合。
c)对于剩余的每个候选关键词,计算其与S集合中的每个关键词的相似度。
d)对于每个候选关键词,使用以下公式计算一个得分:
其中,是多样性参数,c 是候选关键词,Sim (c, k) 表示候选关键词 c 与S集合中的关键词 k 之间的相似度。
e)选择得分最高的候选关键词,将其加入S 集合。
f)循环执行步骤cde,直到选择了 k 个关键词为止。
实施例三
实施例二的评估方法中的关键词是基于实施例一所提取到的,不同于实施例二,本实施例对关键词重要度的评估可以基于非实施例一的提取方法,可以采用任何一种能够提取到关键词的方法即可,包括现有从文本中提取关键词的方法,例如,基于规则的提取方法中TF-IDF方法所提取到的关键词,或者基于图的提取方法中TextRank所提取到的关键词,又或者是基于语义信息的提取方法所提取到的关键词。基于此,本实施例提供一种中文文本关键词重要度的评估方法,包括以下步骤:
步骤S1:获取待评估关键词所在出处的目标中文文本,以及最终关键词集合,关键词所在出处的目标中文文本定义为初始文本,也即初始文本是包括了所提取出的关键词。
步骤S2:采用bert模型对初始文本进行编码,得到初始文本的第一向量text1_embed;
步骤S3:从初始文本中删除或者采用不具有任何含义的自定义字符符号替换最终关键词集合中的一个关键词,删除或替换关键词后的初始文本定义为残余文本,每次删除或替换一个关键词,直至所有或部分的关键词均被删除或替换掉,得到对应的残余文本,从而得到若干个残余文本。
例如,采用MASK这个自定义字符符号来替代某一个关键词(例如“中国”)。
需要说明的是,替代的字符符号不能出现与最终关键词集合中的关键词相同或相似或有关联的情况。
步骤S4:采用bert模型分别对残余文本进行编码,得到各个残余文本对应的第二向量text2_embed;
步骤S5:分别计算每一个第二向量text2_embed与第一向量text1_embed之间的相异度,相异度表征第二向量text2_embed所在残余文本所对应的删除或替换掉的关键词在初始文本中的重要程度,计算出所有第二向量text2_embed与第一向量text1_embed之间的相异度,也就得到了每一个关键词在初始文本中的重要程度,从而完成关键词在初始文本中的重要程度的评估。
其中,相异度differ按公式①计算得到:
------①
式中,x和y分别表示第一向量text1_embed和第二向量text2_embed中的每一项,LEN表示残余文本所对应的删除或替换掉的关键词的字符数量(或称之为字符长度),表示第一向量text1_embed中第i项,/>表示第二向量text2_embed中第i项,n为第一向量和第二向量的长度,也即第一向量text1_embed和第二向量text2_embed均是长度为n的一维向量。
对于该公式,除以LEN作用在于消除关键词长度的影响,避免某些过长或过短的关键词对相异度值产生较大影响(因为一般来说,从句子中挖掉这个词,这个词越长,一般来说就对原始的句子影响越大,这里就是为了平衡这种影响,即为了让该算法不至于总是倾向于选长度较长的词)。并且该公式还能够映射到0-1区间,从而有利于基于该相异度即可量化衡量关键词的重要程度。
以上是以整个文档为单位来评估关键词在整个文档中的重要程度,相当于是文档级的相异度评估。
本实施例针对不同长度的文本,还提供句子级的相异度评估,以在句子级层面评估关键词在文本中的重要程度,不同长度的文本采用不同级别的相异度评估,对于短文本采用文档级的相异度评估,对于长文本则采用句子级的相异度评估,具体包括如下步骤:
步骤T1:获取待评估关键词所在出处的目标中文文本,以及最终关键词集合,关键词所在出处的目标中文文本定义为初始文本,对于长文本,基于标点符号将初始文本切分为若干个句子,例如x个;
步骤T2:筛选出包含待评估关键词的句子,例如g个, g≤x,也即是句子g的数量≤句子x的数量;
步骤T3:以语句为单位进行编码得到对应的向量,未删除或替换待评估关键词的句子记为初始语句,对应第一语句向量;删除或替换待评估关键词后的句子记为残余语句,对应第二语句向量;
步骤T4:分别计算每一个第一语句向量与对应的第二语句向量之间的相异度,得到g个相异度值;
步骤T5:g个相异度值的平均值即为待评估关键词的相异度值;
步骤T6:遍历长文本中提取出的每个待评估关键词,即可得到每个待评估关键词的相异度值,也就是每个待评估关键词在整个文档中的重要程度。
由于原理类似,具体技术细节,在此不赘述,可参考实施例三的描述。
在一个可选的实施方式中,还包括基于相异度和MMR算法(最大边界相关性算法)选取排名最靠前的k个关键词作为表征对目标中文文本最重要的关键词。具体描述如下:
a)创建一个空的关键词集合S,用于存储最终的关键词;
b)从候选关键词中选择具有最高相异度值reward的一个关键词作为初始关键词,并将其加入 S 集合。
c)对于剩余的每个候选关键词,计算其与S集合中的每个关键词的相似度。
d)对于每个候选关键词,使用以下公式计算一个得分:
其中,是多样性参数,c 是候选关键词,Sim (c, k) 表示候选关键词 c 与S集合中的关键词 k 之间的相似度。
e)选择得分最高的候选关键词,将其加入S 集合。
f)循环执行步骤cde,直到选择了 k 个关键词为止。
本发明提出了一种新的中文关键词提取方法。首先可以利用分词工具对中文文本进行分词,然后根据词性标注信息及中文词汇的特点,重新组合词语(即分词)以形成关键词,并基于关键词按照预设规则进行过滤筛选,有效过滤掉不符合中文表达习惯和逻辑的关键词。此外,还引入了新的文本相异度计算模型,用于度量候选词对于原始文本的重要程度,相比于传统的相似度计算而言,本申请基于包括对应关键词的初始文本s1和不包括该关键词的残余文本s2之间的距离来度量该关键词对初始文本s1的重要程度,并未发现有类似这样计算相似度的现有技术。
最后,基于候选词的重要程度,采用MMR算法(最大边界相关性算法),从关键词中选择出前k个最具代表性的关键词。这项发明的研发,极大的提升了从中文文本中提取的关键词的准确度,为相关领域的数据分析和处理提供了有力的支持。
1)由于中文关键词可能由多个词组合而成,因此,本发明重新考虑了分词工具所分词得到的结果,并在重新组合关键词时,充分考虑了不同类型的关键词,例如单个词的关键词通常是名词,而多个词组合的关键词通常采用动名词的组合形式等等,设定了一系列生成候选词的规则。由本发明生成的候选词更具有广泛适用性。
2)在评估候选词的重要性时,传统的相似度方法来计算候选词与文本之间的相似度存在一些问题。若直接计算词语与句子间的相似度来度量候选词的重要程度,不仅受到词语和句子之间的语义差异的影响,而且通常较长或更频繁出现的关键词可能会获得更高的相似度分数,这显然是不合理的。因此,在本发明中,给出的相异度计算首先是针对句子之间而非句子和词语之间,这可以很好地缓解词频带来的不必要影响,使其更关注语义本身。其次,本发明提出的相异度计算公式,不仅可以很好的度量候选词在原始文本中的重要程度,而且排除了词语长度的影响。另外,本发明提出了针对文档级和句子级别两种相异度的计算方式,可以很好的应对不同长度的文本。
实施例四
如图3所示,一种处理终端100,其包括:
存储器101,用于存储程序指令;
处理器102,用于运行所述程序指令,以执行所述一种中文文本关键词提取方法或一种中文文本关键词重要度的评估方法的步骤。
发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (13)

1.一种中文文本关键词提取方法,其特征在于,包括以下步骤:
步骤1:获取目标中文文本,目标中文文本内存储有以中文语言所表达的语句;
步骤2:对目标中文文本内的语句进行分词,得到若干分词,所有分词组成初始分词集合;
步骤3:预设一个窗口,窗口大小定义为w,以窗口大小为w的窗口对初始分词集合进行提取,从初始分词集合中的第一个分词开始,按照顺序连续w个的分词构成一个关键词,提取出该关键词,直至遍历初始分词集合中的每一个关键词,得到初始关键词,所有的初始关键词构成初始关键词集合,
对初始关键词集合内的所有初始关键词按照预设规则进行筛选,剩余的初始关键词作为最终关键词。
2.根据权利要求1所述的中文文本关键词提取方法,其特征在于,在执行完步骤3后,还包括步骤4:
步骤4:更新w的取值,按w的新取值跳转至步骤3,得到按更新后w的窗口所选取的初始关键词,并按照预设规则筛选出最终关键词,直至w取值达到w的最大值为M,从而完成从目标中文文本中提取关键词,所有的最终关键词构成最终关键词集合。
3.根据权利要求2所述的中文文本关键词提取方法,其特征在于,在步骤4中,每次更新w的取值时,w的新取值为w的上一次取值基础上加上预设的增加值。
4.根据权利要求1所述的中文文本关键词提取方法,其特征在于,在步骤2中,对目标中文文本内的语句进行分词,还包括得到各个分词对应的词性,各个分词与对应词性的映射关系构成词性列表,
在步骤3中,对初始关键词集合内的所有初始关键词基于词性按照预设规则进行筛选,剩余的初始关键词作为最终关键词。
5.根据权利要求4所述的中文文本关键词提取方法,其特征在于,预设规则为满足条件一至条件四的初始关键词为最终的关键词,并筛除掉其余的初始关键词:
条件一:初始关键词中的第一个字符或字符串和最后一个字符或字符串的词性均不为助词,且初始关键词中的各个字符至少存在能够映射到词性列表中的词性;
条件二:初始关键词的字符数量m在预设阈值区间,min_length≤m≤max_length,min_length和max_length为预设阈值,分别表示关键词的最小字符数量和最大字符数量;
条件三:初始关键词中不含特殊字符,特殊字符为预先定义;
条件四:初始关键词为非停用词。
6.一种中文文本关键词重要度的评估方法,其特征在于,应用于评估从中文文本中提取出的关键词在该中文文本中的重要程度,从中文文本中提取出的关键词为采用如权利要求1-5任一项所述中文文本关键词提取方法所得到的关键词,所述评估方法,包括如下步骤:
步骤21:获取待评估关键词所在出处的目标中文文本,以及最终关键词集合,关键词所在出处的目标中文文本定义为初始文本;
步骤22:对初始文本进行编码,得到初始文本的第一向量text1_embed;
步骤23:从初始文本中删除或者替换最终关键词集合中的一个关键词,删除或替换关键词后的初始文本定义为残余文本,每次删除或替换一个关键词,直至所有或部分的关键词均被删除或替换掉,得到对应的残余文本,从而得到若干个残余文本;
步骤24:分别对残余文本进行编码,得到各个残余文本对应的第二向量text2_embed;
步骤25:分别计算每一个第二向量text2_embed与第一向量text1_embed之间的相异度,相异度表征第二向量text2_embed所在残余文本所对应的删除或替换掉的关键词在初始文本中的重要程度,计算出所有第二向量text2_embed与第一向量text1_embed之间的相异度,得到每一个关键词在初始文本中的重要程度,完成关键词在初始文本中的重要程度的评估。
7. 根据权利要求6所述的中文文本关键词重要度的评估方法,其特征在于,相异度differ按公式①计算得到:
------①
式中,x和y分别表示第一向量text1_embed和第二向量text2_embed中的每一项,LEN表示残余文本所对应的删除或替换掉的关键词的字符数量,表示第一向量text1_embed中第i项,/>表示第二向量text2_embed中第i项,n为第一向量和第二向量的长度。
8.根据权利要求6所述的中文文本关键词重要度的评估方法,其特征在于,采用bert模型对初始文本和残余文本进行编码。
9.根据权利要求6所述的中文文本关键词重要度的评估方法,其特征在于,在步骤25之后,还包括基于相异度和MMR算法选取排名最靠前的k个关键词作为表征对目标中文文本最重要的关键词。
10.一种中文文本关键词重要度的评估方法,其特征在于,应用于评估从中文文本中提取出的关键词在该中文文本中的重要程度,从中文文本中提取出的关键词为采用如权利要求1-5任一项所述中文文本关键词提取方法所得到的关键词,获取待评估关键词所在出处的目标中文文本,以及最终关键词集合,关键词所在出处的目标中文文本定义为初始文本,所述评估方法,包括如下步骤:
步骤31:基于标点符号将初始文本切分为若干个句子,记为x;
步骤32:筛选出包含待评估关键词的句子,记为g, g≤x;
步骤33:以语句为单位建立对应的向量,未删除或替换待评估关键词的句子记为初始语句,对应第一语句向量;删除或替换待评估关键词后的句子记为残余语句,对应第二语句向量;
步骤34:分别计算每一个第一语句向量与对应的第二语句向量之间的相异度,得到g个相异度值;
步骤35:g个相异度值的平均值即为待评估关键词的相异度值;
步骤36:遍历初始文本中提取出的每个待评估关键词,即可得到每个待评估关键词的相异度值,完成关键词在初始文本中的重要程度的评估。
11.一种中文文本关键词重要度的评估方法,其特征在于,包括如下步骤:
步骤S1:获取待评估关键词所在出处的目标中文文本,以及最终关键词集合,关键词所在出处的目标中文文本定义为初始文本;
步骤S2:对初始文本进行编码,得到初始文本的第一向量text1_embed;
步骤S3:从初始文本中删除或者替换最终关键词集合中的一个关键词,删除或替换关键词后的初始文本定义为残余文本,每次删除或替换一个关键词,直至所有或部分的关键词均被删除或替换掉,得到对应的残余文本,从而得到若干个残余文本;
步骤S4:分别对残余文本进行编码,得到各个残余文本对应的第二向量text2_embed;
步骤S5:分别计算每一个第二向量text2_embed与第一向量text1_embed之间的相异度,相异度表征第二向量text2_embed所在残余文本所对应的删除或替换掉的关键词在初始文本中的重要程度,计算出所有第二向量text2_embed与第一向量text1_embed之间的相异度,得到每一个关键词在初始文本中的重要程度,完成关键词在初始文本中的重要程度的评估。
12.一种中文文本关键词重要度的评估方法,包括如下步骤:
步骤T1:获取待评估关键词所在出处的目标中文文本,以及最终关键词集合,关键词所在出处的目标中文文本定义为初始文本,基于标点符号将初始文本切分为若干个句子,记为x;
步骤T2:筛选出包含待评估关键词的句子,记为g, g≤x;
步骤T3:以语句为单位建立对应的向量,未删除或替换待评估关键词的句子记为初始语句,对应第一语句向量;删除或替换待评估关键词后的句子记为残余语句,对应第二语句向量;
步骤T4:分别计算每一个第一语句向量与对应的第二语句向量之间的相异度,得到g个相异度值;
步骤T5:g个相异度值的平均值即为待评估关键词的相异度值;
步骤T6:遍历初始文本中提取出的每个待评估关键词,即可得到每个待评估关键词的相异度值,完成关键词在初始文本中的重要程度的评估。
13.一种处理终端,其特征在于,其包括:
存储器,用于存储程序指令;
处理器,用于运行所述程序指令,以执行如权利要求1-5任一项所述中文文本关键词提取方法或者如权利要求6-12任一项所述中文文本关键词重要度的评估方法的步骤。
CN202311779125.4A 2023-12-22 2023-12-22 一种中文文本关键词提取、重要度评估方法及处理终端 Pending CN118133819A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311779125.4A CN118133819A (zh) 2023-12-22 2023-12-22 一种中文文本关键词提取、重要度评估方法及处理终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311779125.4A CN118133819A (zh) 2023-12-22 2023-12-22 一种中文文本关键词提取、重要度评估方法及处理终端

Publications (1)

Publication Number Publication Date
CN118133819A true CN118133819A (zh) 2024-06-04

Family

ID=91232497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311779125.4A Pending CN118133819A (zh) 2023-12-22 2023-12-22 一种中文文本关键词提取、重要度评估方法及处理终端

Country Status (1)

Country Link
CN (1) CN118133819A (zh)

Similar Documents

Publication Publication Date Title
CN109918666B (zh) 一种基于神经网络的中文标点符号添加方法
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
CN111310438A (zh) 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN110287482B (zh) 半自动化分词语料标注训练装置
WO2024131111A1 (zh) 一种智能写作方法、装置、设备及非易失性可读存储介质
CN105608218A (zh) 智能问答知识库的建立方法、建立装置及建立系统
CN111858842A (zh) 一种基于lda主题模型的司法案例筛选方法
CN109033066A (zh) 一种摘要形成方法及装置
CN107526721A (zh) 一种对电商产品评论词汇的歧义消除方法及装置
CN114997288A (zh) 一种设计资源关联方法
CN107451116B (zh) 一种移动应用内生大数据统计分析方法
CN112632982A (zh) 一种能用于供应商评价的对话文本情感分析方法
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN113254586B (zh) 一种基于深度学习的无监督文本检索方法
CN112329437A (zh) 一种智能客服语音质检评分方法、设备及存储介质
CN110377753B (zh) 基于关系触发词与gru模型的关系抽取方法及装置
CN109284392B (zh) 一种文本分类方法、装置、终端及存储介质
CN116955534A (zh) 投诉工单智能处理方法、装置、设备及存储介质
CN115310429B (zh) 一种多轮倾听对话模型中的数据压缩与高性能计算方法
CN108573025B (zh) 基于混合模板抽取句子分类特征的方法及装置
CN116502637A (zh) 一种结合上下文语义的文本关键词提取方法
CN114925668B (zh) 自动生成新闻的系统、方法及存储介质
CN114896966B (zh) 一种中文文本语法错误定位方法、系统、设备及介质
CN115840815A (zh) 基于指针关键信息的自动摘要生成方法
CN107818078B (zh) 汉语自然语言对话的语义关联与匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination