CN115080718B - 一种文本关键短语的抽取方法、系统、设备及存储介质 - Google Patents
一种文本关键短语的抽取方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN115080718B CN115080718B CN202210704329.0A CN202210704329A CN115080718B CN 115080718 B CN115080718 B CN 115080718B CN 202210704329 A CN202210704329 A CN 202210704329A CN 115080718 B CN115080718 B CN 115080718B
- Authority
- CN
- China
- Prior art keywords
- key
- keywords
- keyword
- text
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 29
- 238000000034 method Methods 0.000 claims abstract description 61
- 230000011218 segmentation Effects 0.000 claims abstract description 33
- 238000004364 calculation method Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000012216 screening Methods 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims description 13
- 230000002238 attenuated effect Effects 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000012423 maintenance Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000005406 washing Methods 0.000 description 2
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种文本关键短语的抽取方法、系统、设备及存储介质,属于文本处理技术领域。方法包括:获取文本数据,对文本数据分词,得到第一关键词集;根据关键词的权重,从第一关键词集中抽取排名大于阈值的若干个关键词,对若干个关键词进行权重衰减,得到第二关键词集;对第一关键词集内的关键词进行组合,形成关键短语集;在关键短语集中筛选出与第二关键词集中的关键词相匹配的关键短语,计算各筛选后关键短语的权重;将权重按照预设顺序排列,输出对应的各关键短语。改善了词语共现计算需要对文本的所有分词序列进行滑动组合,计算迭代次数较多,尤其对于长文本,计算耗时较长,以及直接抽取的关键词过短、无法准确表征文本主题含义的问题。
Description
技术领域
本发明涉及文本处理技术领域,具体涉及一种文本关键短语的抽取方法、系统、设备及存储介质。
背景技术
文本关键短语抽取方案有多种方式,有基于词语共现逐个计算文本中所有相邻词语的互信息的方式,有预先定义关键短语,采用关键词进行关键短语抽取的技术。目前对于文本关键短语的抽取,通常使用基于生成式的关键信息提取方法和基于抽取式的关键信息提取方法。
基于生成式的方式通常是先利用统计或深度学习模型训练的方式生成候选词集合,然后通过对比设定主题下的关键词的相似度,再结合语义模型生成有语义含义的关键信息。但基于生成式的方式生成的信息由于会生成新的词语或短语,会有语义含义表征能力比较差的问题。
基于抽取式方法有基于tf-idf/textrank抽取关键词算法和基于共现信息抽取固定搭配短语方案。其中抽取关键词算法是根据文本中分词的重要程度计算对应的词权重得分,并将词权重得分降序排列以获取对应的关键词。但这种抽取算法在无短语词典输入的情况下,存在抽取的关键词过短,无法准确表征文本的主题含义的问题。共现信息抽取方法是首先对文本的分词进行滑动组合,逐个计算组合内短语的共信息得分,由共信息得分降序排列获取关键短语。但这种基于共现信息进行关键短语抽取的方案需要循环统计短语的共现得分,迭代计算过多。因此,需要提供一种文本关键短语的抽取方法、系统、设备及存储介质。
发明内容
鉴于以上现有技术的缺点,本发明的目的在于提供一种文本关键短语的抽取方法、系统、设备及存储介质,以改善现有技术中,词语共现计算需要对文本的所有分词序列进行滑动组合,计算迭代次数较多,尤其对于长文本,计算耗时较长,以及直接抽取的关键词过短、无法准确表征文本主题含义的问题。
为实现上述目的及其它相关目的,本发明提供一种文本关键短语的抽取方法,包括以下过程:
获取文本数据,并对所述文本数据进行分词处理,得到第一关键词集;
根据关键词的权重大小,从所述第一关键词集中抽取排名大于预设阈值的若干个关键词,并对所述若干个关键词进行权重衰减处理,从而得到第二关键词集;
对所述第一关键词集内的关键词进行组合,形成关键短语集;
在所述关键短语集中筛选出与所述第二关键词集中的关键词相匹配的关键短语,并计算各筛选后关键短语的权重;
将权重按照预设顺序排列,输出对应的各关键短语。
在本发明一实施例中,所述获取文本数据之后,还包括:对所述文本数据进行预处理,预处理的过程为:
对所述文本数据进行文本清洗,去除非文本内容,获得清洗后文本数据;
去除所述清洗后文本数据中的停用词,获得预处理后文本数据。
在本发明一实施例中,所述根据关键词的权重大小,从所述第一关键词集中抽取排名大于预设阈值的若干个关键词,包括以下过程:
根据预设的共现窗口,计算所述第一关键词集中两个不同关键词的共现次数;
将每个关键词作为节点,将与所述关键词对应的共现次数作为边的权重,构建图模型;
对所述图模型中各节点对应的权重进行迭代计算,直至所述图模型收敛,并按照权重递减的顺序,选择权重大于预设阈值的若干个关键词。
在本发明一实施例中,所述根据关键词的权重大小,从所述第一关键词集中抽取排名大于预设阈值的若干个关键词,包括以下过程:
根据所述第一关键词集中每个关键词在所述文本数据中出现的次数和所述文本数据的总词数,计算各关键词在所述文本数据中的词频;
获得各所述关键词的逆文档,并计算各关键词的逆文档频率;
根据每个关键词对应的词频和逆文档频率,获得各关键词的权重,并按照权重递减的顺序,选择权重大于预设阈值的若干个关键词。
在本发明一实施例中,所述对所述若干个关键词进行权重衰减处理之后,还包括:对衰减后关键词的权重进行归一化处理,获得归一化后关键词。
在本发明一实施例中,所述在所述关键短语集中筛选出与所述第二关键词集中的关键词相匹配的关键短语,并计算各筛选后关键短语的权重包括:
S41、选择所述关键短语集中的其中一个关键短语作为待匹配关键短语;
S42、若所述待匹配关键短语与所述第二关键词集中的其中两个归一化后关键词相匹配,将所述待匹配关键短语作为筛选后关键短语;
S43、根据与所述待匹配关键短语相匹配的两个归一化后关键词的权重,计算所述筛选后关键短语的权重;
S44、遍历所述关键短语集,选择另一个关键短语作为待匹配关键短语,重复执行步骤S42和S43,直至将所述关键短语集中的关键短语全部选择完毕,获得各筛选后关键短语的权重。
在本发明一实施例中,所述将权重按照预设顺序排列之后,还包括:对各筛选后关键短语进行短语长度加权。
在本发明一实施例中,还提供一种文本关键短语的抽取系统,所述系统包括:
分词模块,用于获取文本数据,并对所述文本数据进行分词处理,得到第一关键词集;
衰减后第一关键词获取模块,用于根据关键词的权重大小,从所述第一关键词集中抽取排名大于预设阈值的若干个关键词,并对所述若干个关键词进行权重衰减处理,从而得到第二关键词集;
第二关键短语组合获取模块,用于对所述第一关键词集内的关键词进行组合,形成关键短语集;
拼接权重获取模块,用于在所述关键短语集中筛选出与所述第二关键词集中的关键词相匹配的关键短语,并计算各筛选后关键短语的权重;
抽取模块,用于将权重按照预设顺序排列,输出对应的各关键短语。
在本发明一实施例中,还提供一种文本关键短语的抽取设备,包括处理器,所述处理器与存储器耦合,所述存储器存储有程序指令,当所述存储器存储的程序指令被所述处理器执行时实现上述任一项所述的方法。
在本发明一实施例中,还提供一种计算机可读存储介质,包括程序,当所述程序在计算机上运行时,执行上述中任一项所述的方法。
综上所述,本发明中,首先对文本数据进行分词,得到第一关键词集。然后使用关键词抽取方法,从上述第一关键词集中按照权重递减的顺序抽取排名大于预设阈值的若干个关键词,并对这些抽取到的关键词进行权重衰减计算,获得第二关键词集。然后对上述第一关键词集内的各关键词进行组合,从而形成关键短语集。通过在关键短语集中筛选出与第二关键词集中的关键词相匹配的关键短语,并计算各筛选后关键短语的权重,将权重按照设定顺序依次输出对应的关键短语集中各筛选后关键短语。可以由预提取的关键词信息快速计算获取关键短语,且不需要提前进行短语词库维护。采用的权重多项式衰减可以有效避免重要关键词产生的头部效应,提高关键短语对文本的全局语义表征能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1显示为本发明一实施例中文本关键短语的抽取方法的流程示意图;
图2显示为本发明一实施例中使用textrank抽取关键词的流程示意图;
图3显示为本发明一实施例中使用tf-idf抽取关键词的流程示意图;
图4显示为本发明一实施例中步骤S4的流程示意图;
图5显示为本发明一实施例中文本关键短语的抽取系统的原理结构示意图。
元件标号说明:
10、文本关键短语的抽取系统;11、分词模块;12、衰减后第一关键词获取模块;13、第二关键短语组合获取模块;14、拼接权重获取模块;15、抽取模块。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其它优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。还应当理解,本发明实施例中使用的术语是为了描述特定的具体实施方案,而不是为了限制本发明的保护范围。下列实施例中未注明具体条件的试验方法,通常按照常规条件,或者按照各制造商所建议的条件。
请参阅图1至图5。须知,本说明书附图所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容所能涵盖的范围内。同时,本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
当实施例给出数值范围时,应理解,除非本发明另有说明,每个数值范围的两个端点以及两个端点之间任何一个数值均可选用。除非另外定义,本发明中使用的所有技术和科学术语与本技术领域的技术人员对现有技术的掌握及本发明的记载,还可以使用与本发明实施例中所述的方法、设备、材料相似或等同的现有技术的任何方法、设备和材料来实现本发明。
请参阅图1,图1显示为本发明一实施例中文本关键短语的抽取方法的流程示意图。本发明提供一种文本关键短语的抽取方法。解决了现有技术中词语共现计算需要对文本的所有分词序列进行滑动组合,计算迭代次数较多,尤其对于长文本,计算耗时较长的问题。避免了从原始文本的直接分词结果获取的关键词过短以及使用生成式方法会产生的语义含义差的问题。
请参阅图1,在本发明一实施例中,提供一种文本关键短语的抽取方法,包括以下过程:
S1、获取文本数据,并对所述文本数据进行分词处理,得到第一关键词集。
本实施例中,文本数据可以是一句文本语句,也可以是一段长文本段落,在此不做限定。文本数据的获取方式可以是用户输入的文本内容,也可以是由用户输入的语音信息进行语音-文本转化后,得到的文本数据,本领域技术人员可适应性选择。可使用结巴分词等方式对文本数据进行分词处理,从而获得第一关键词集,第一关键词集中含有分词处理后的多个关键词。
由于文本数据中可能还包含有各种非文字信息和一些没有实际意义的汉字等,若在分词处理的过程中将这些信息加入,会导致分词的准确度和速度的下降。为了提升分词正确率,在本发明一实施例中,所述获取文本数据之后,还包括:对所述文本数据进行预处理,预处理的过程为:
对所述文本数据进行文本清洗,去除非文本内容,获得清洗后文本数据;
去除所述清洗后文本数据中的停用词,获得预处理后文本数据。
本实施例中,文本清洗是指删除文本数据中含有的非文本字符,其中,非文本字符包括但不限于标点符号或特殊符号。其中,本实施例中的标点符号可以是逗号、句号、冒号、问号等各种辅助文字记录语言的符号,特殊符号可以是空格符、制表符、单位符号、箭头符号、各种表情符号等。通过对文本数据进行清洗,可将各种非文字字符从文本数据中剔除出去,从而极大地提升了模型的识别效率,以便快速的抽取当前文本数据的关键短语。考虑到清洗后文本数据可能含有一些啊、嗯等没有实际含义的字词,因此需要删除清洗后文本数含有的停用词,从而获得预处理后文本数据,可对预处理后文本数据进行分词处理,从而获得多个关键词。
S2、根据关键词的权重大小,从所述第一关键词集中抽取排名大于预设阈值的若干个关键词,并对所述若干个关键词进行权重衰减处理,从而得到第二关键词集。
本实施例中,可以通过tf-idf(term frequency–inverse document frequency,词频-逆文档频率)或textrank(文档排序算法)对第一关键词集中的各关键词进行关键词抽取并计算每个抽取到的关键词的原始权重得分,并将权重排名前N的关键词挑选出来。通过使用tf-idf或textrank对这些关键词进行抽取,能够获取文本长度约1/3的top关键词,从而获取能够表征文本全局信息的关键词,使得后续对关键词的加权抽取更为准确。示例性地,当N为10时,获得的10个第一关键词以及对应的权重如示例1所示:
{'w1':0.4626455751755613,
'w2':0.24970793739738903,
'w3':0.2184944452227154,
'w4':0.21717876331801567,
'w5':0.18886009996715405,
'w6':0.17008372854177545,
'w7':0.1691605070830287,
'w8':0.15606746087336815,
'w9':0.13893709026109663,
'w10':0.13742044762921674}
然后对上述挑选后的每个关键词进行权重衰减处理,得到第二关键词集,其中,第二关键词集中含有多个权重衰减后的关键词。具体地,可根据公式(1)对挑选后的每个关键词进行多项式衰减处理:
其中,wi为挑选后的第i个关键词对应的原始权重得分,Wmin为对关键词抽取后,抽取的关键词字典按照权重得分降序排列组成的权重列表中的最小权重值,为第i个待权重衰减的关键词对应在权重列表中的索引位置,LW指权重列表的长度,wi_decay为第i个衰减后关键词的权重,n为多项式衰减指数参数。其中,原始权重得分通过使用tf-idf或textrank对关键词进行抽取时计算获得。通过对第一关键词集中挑选出的各关键词进行多项式衰减处理,可以有效消除原始文本数据中,挑选后的重要的关键词的头部效应,从而能够消除权重得分较高的挑选后的关键词在后续组合权重计算时引起的头部效应,使得关键短语结果可以更多样化以有效表征文本全局信息。需要说明的是,本实施例中使用多项式衰减的方式对挑选后的关键词进行权重衰减处理,但权重衰减处理的方式还可为指数衰减、自然指数衰减或对数衰减等方式,在此不做限定。
考虑到多项式衰减指数参数n越大,对各挑选后的关键词权重的调整程度越大。为了平衡关键词的权重,降低头部效应的出现。在本发明一实施例中,n为大于或等于3的整数。
具体地,请参阅图1和图2,图2显示为本发明一实施例中使用textrank抽取关键词的流程示意图。所述根据关键词的权重大小,从所述第一关键词集中抽取排名大于预设阈值的若干个关键词包括以下过程:
S201、根据预设的共现窗口,计算所述第一关键词集中每两个不同关键词的共现次数;
S202、将每个关键词作为节点,将与所述关键词对应的共现次数作为边的权重,构建图模型;
S203、对所述图模型中各节点对应的权重进行迭代计算,直至所述图模型收敛,并按照权重递减的顺序,选择权重大于预设阈值的若干个关键词。
本实施例中,TextRank在构建图的时候在节点之间的边引入了权值,其中权值表示两个分词的相似程度,本质上构建的是一个带权无向图。在TextRank构建的图中,计算图中各节点的得分时,同样需要给图中的节点指定任意的初值,通常都设为1。然后递归计算直到收敛,将最后的得分按照降序排列,将排名前Top N个关键词作为对应的挑选后的关键词,该Top N个关键词对应的权重作为对应的挑选后的关键词的权重,生成第二关键词集。其中,N的数量可根据实际需求适应性设置,且第二关键词集中关键词的数量为N。
请参阅图1和图3,图3显示为本发明一实施例中使用tf-idf抽取关键词的流程示意图。所述根据关键词的权重大小,从所述第一关键词集中抽取排名大于预设阈值的若干个关键词包括以下过程:
S211、根据所述第一关键词集中每个所述关键词在所述文本数据中出现的次数和所述文本数据的总词数,计算各所述关键词在所述文本数据中的词频;
S212、获得各所述关键词的逆文档,并计算各关键词的逆文档频率;
S213、根据每个关键词对应的词频和逆文档频率,获得各关键词的权重,并按照权重递减的顺序,选择权重大于预设阈值的若干个关键词。
本实施例中,首先统计每个关键词在文本数据中出现的次数以及该文本数据中含有的词语总数,并根据公式(2)计算各关键词在文本数据中的词频:
tfi=ni/N (2)
其中,N为文本数据中的词语总数,ni为第i个关键词在文本数据中出现的次数,tfi为第i个关键词的词频。然后根据公式(3)计算各关键词的逆文档频率:
其中,idfi为第i个关键词的逆文档频率,D为语料中所有文档的总数,di为出现第i个关键词的文档数量。然后将各关键词的词频和对应的逆文档频率相乘,获得该关键词的权重。并将权重排名前Top N个关键词作为对应的挑选后的关键词,该Top N个关键词对应的权重作为对应的挑选后的关键词的权重,生成第二关键词集。其中,N的数量可根据实际需求适应性设置,且第二关键词集中关键词的数量为N。
为了在后续计算过程中统一数据量纲,在本发明一实施例中,所述对所述若干个关键词进行权重衰减处理之后,还包括:对衰减后关键词的权重进行归一化处理,获得归一化后关键词。具体地,可根据公式(4)对衰减后关键词的权重进行归一化:
wi_scaled=(wi_decay-Wd_min)/(Wd_max-Wd_min) (4)
其中,Wd为对关键词抽取后,抽取的关键词字典按照权重得分降序排列,组成的权重经过衰减计算的结果列表,Wd_max为Wd中的最大值,Wd_min为Wd中的最小值,wi_scaled为wi_decay经过归一化处理后得到的归一化权重。
S3、对所述第一关键词集内的关键词进行组合,形成关键短语集。
本实施例中,使用2-gram(二元语言模型)按照分词的顺序对多个关键词进行组合,通过原始文本词序综合衡量当前关键词与其他各关键词的关联性,获得关键短语集。关键短语集中含有多个关键短语,每个关键短语由两个不同的关键词构成。在本发明一实施例中,对所述第一关键词集内的关键词进行组合,形成关键短语集包括:按照预处理后文本数据的分词顺序,将第一关键词集内的各关键词进行排列,并将排列后的第一关键词集内的各关键词进行两两组合,形成关键短语集。作为示例,2-gram组合方法为:若文本数据为“跨越时光,连接现在与未来”,经过分词处理后,得到的结果为:['跨越','时光','连接','现在','未来'],经过分词组合后,得到的结果为:[('跨越','时光'),('时光','连接'),('连接','现在'),('现在','未来')]。需要说明的是,每个关键词在关键短语集中至少出现一次。示例性地,当关键词的数量为30个时,获得的关键短语集可如示例2所示,其中,w1至w30分别为分词结果中30个不同的关键词,('w1','w10')为一个关键短语:
[('w1','w10'),
('w10','w14'),
('w14','w30'),
('w30','w2'),
('w2','w1'),
('w1','w9'),
('w9','w3'),
('w3','w20'),
('w20','w1'),
('w1','w21'),
('w21','w8'),
('w8','w2'),
('w2','w6'),
('w6','w1')...]
S4、在所述关键短语集中筛选出与所述第二关键词集中的关键词相匹配的关键短语,并计算各筛选后关键短语的权重。
请参阅图4,图4显示为本发明一实施例中步骤S4的流程示意图。在本发明一实施例中,S4包括以下过程:
S41、选择所述关键短语集中的其中一个关键短语作为待匹配关键短语;
S42、若所述待匹配关键短语与所述第二关键词集中的其中两个归一化后关键词相匹配,将所述待匹配关键短语作为筛选后关键短语;
S43、根据与所述待匹配关键短语相匹配的两个归一化后关键词的权重,计算所述筛选后关键短语的权重;
S44、遍历所述关键短语集,选择另一个关键短语作为待匹配关键短语,重复执行步骤S42和S43,直至将所述关键短语集中的关键短语全部选择完毕,获得各筛选后关键短语的权重。
本实施例中,首先遍历关键短语集,选择其中一个关键短语作为待匹配关键短语,将该待匹配关键短语与第二关键词集中的各归一化后关键短语相匹配,若待匹配关键短语与其中两个归一化后关键短语匹配,则将该待匹配关键短语作为筛选后关键短语。若不匹配,则继续挑选下一个关键短语进行匹配。其中,第二关键词集中的每个归一化后关键短语由两个不同的归一化后关键词组成。然后根据这两个归一化后关键词对应的权重得分,根据公式(5)对获得的筛选后关键短语计算拼接后短语的权重得分:
其中,为第k个筛选后关键短语中的第i个归一化后关键词和第j个归一化后关键词拼接后的权重得分,wi_scaled为第i个归一化后关键词的权重,wj_scaled为第j个归一化后关键词的权重。权重计算完成后,遍历关键短语集,依序选择关键短语集中的另一个关键短语作为待匹配关键短语,重复执行上述过程,直至关键短语集中的所有关键短语全部选择完毕,此时会得到多个筛选后关键短语及对应的权重值。作为示例,由上述示例2和示例1得到的各筛选后关键短语如示例3所示:
[('w1','w10'),
('w2','w1'),
('w1','w9'),
('w9','w3'),
('w8','w2'),
('w2','w6'),
('w6','w1'),...]
通过采用2-gram对文本数据分词后得到的多个关键词进行两两组合,只保留出现在权重衰减后关键词中的词组合,实现了短词扩展,获取的都是关键短语,并减少了冗余计算,提升了短语抽取的效率。且这种通过关键词组合获取关键短语的方法,避免了短语词库维护的人力成本。
S5、将权重按照预设顺序排列,输出对应的各关键短语。
本实施例中,可将拼接权重按照递减的顺序进行排列,并将拼接权重按照递减的顺序输出对应的筛选后关键短语。进一步地,为了提升长文本在最终排序结果的优先级,在本发明一实施例中,拼接权重按照预设顺序排列之后,还包括:对筛选后关键短语中的各衰减后关键词进行短语长度加权,获得加权后词语。具体地,可通过公式(6)计算加权后词语的权重得分:
其中,指第k个筛选后关键短语的长度,/>指组合后的短语列表的最大长度,通过将短语对应的长度得分与短语权重得分相加获取短语最终的权重得分,并按照最终的权重得分由高到低的顺序,依次输出对应的关键短语,实现文本中关键短语的抽取。通过对筛选后关键短语进行长度加权排序,从而可以有效综合短语长度与短语重要性得分,使抽取出的信息语义准确度较高,提升了长文本在最终排序结果的优先级。且这种只计算关键词组合的关键短语权重得分的方式,缩短了迭代组合计算的复杂度。其中,筛选后第二关键短语组合的长度为其中包含的两个衰减后第一关键词的长度之和。
本发明中首先对文本数据进行分词,得到第一关键词集。然后使用关键词抽取方法,从上述关键词集中按照权重递减的顺序抽取若干个关键词,并对这些关键词进行权重衰减计算,获得第二关键词集。然后对上述分词处理后的多个关键词进行组合,从而形成关键短语集。通过在关键短语集中筛选出与第二关键词集中的关键词相匹配的关键短语,并计算各筛选后关键短语的权重,得到筛选后关键短语集。并计算筛选后关键短语集中各筛选后关键短语的拼接权重,将拼接权重按照设定顺序依次输出对应的筛选后关键短语。可以由预提取的关键词信息快速计算获取关键短语,且不需要提前进行短语词库维护。本发明是从原始文本中获取关键短语,可以避免生成式方法会产生的语义含义差的问题。本文所述方案中采用的权重多项式衰减可以有效避免重要关键词产生的头部效应,提高关键短语对文本的全局语义表征能力。
上面方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包含相同的逻辑关系,都在本发明的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该发明的保护范围内。
请参阅图5,图5显示为本发明一实施例中文本关键短语的抽取系统的原理结构示意图。该文本关键短语的抽取系统10包括分词模块11、衰减后第一关键词获取模块12、第二关键短语组合获取模块13、拼接权重获取模块14和抽取模块15。其中,分词模块11用于获取文本数据,并对所述文本数据进行分词处理,得到第一关键词集;衰减后第一关键词获取模块12用于根据关键词的权重大小,从所述第一关键词集中抽取排名大于预设阈值的若干个关键词,并对所述若干个关键词进行权重衰减处理,从而得到第二关键词集;第二关键短语组合获取模块13用于对所述第一关键词集内的关键词进行组合,形成关键短语集;拼接权重获取模块14用于在所述关键短语集中筛选出与所述第二关键词集中的关键词相匹配的关键短语,并计算各筛选后关键短语的权重;抽取模块15用于将权重按照预设顺序排列,输出对应的各关键短语。
需要说明的是,为了突出本发明的创新部分,本实施例中并没有将与解决本发明所提出的技术问题关系不太密切的模块引入,但这并不表明本实施例中不存在其它的模块。
此外,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本发明所提供的实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本实施例还提出了一种文本关键短语的抽取设备,该设备包括处理器和存储器,处理器和存储器耦合,存储器存储有程序指令,当存储器存储的程序指令被处理器执行时实现上述任务管理方法。处理器可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件;所述存储器可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(Non-Volatile Memory),例如至少一个磁盘存储器。所述存储器可以为随机存取存储器(Random Access Memory,RAM)类型的内部存储器,所述处理器、存储器可以集成为一个或多个独立的电路或硬件,如:专用集成电路(Application Specific IntegratedCircuit,ASIC)。需要说明的是,上述的存储器中的计算机程序可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。
本实施例还提出一种计算机可读的存储介质,所述存储介质存储有计算机指令,所述计算机指令用于使计算机执行上述的任务管理方法。存储介质可以是电子介质、磁介质、光介质、电磁介质、红外介质或半导体系统或传播介质。存储介质还可以包括半导体或固态存储器、磁带、可移动计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、硬磁盘和光盘。光盘可以包括光盘-只读存储器(CD-ROM)、光盘-读/写(CD-RW)和DVD。
综上所述,本发明中,通过基于2-gram组合方法对关键词文本进行扩展,解决了现有的抽取式算法提取的文本关键词过短不能准确表征文本含义的问题。可以由文本数据分词后得到的关键词信息快速计算获取关键短语,且不需要提前进行短语词库维护。采用的权重多项式衰减可以有效避免重要关键词产生的头部效应,提高了关键短语对文本的全局语义表征能力。另外对于有多个主题信息的长文本,可以有效覆盖长文本表达的多主题信息,解决了如果直接以关键词原始的权重得分进行等权重计算,原始权重得分比较高的关键词就会在组合计算中占比较大的权重,导致组合后获取的关键短语信息的主题比较单一的问题。通过权重衰减计算,既可以保持原始关键词权重的大小顺序,又可以降低不同关键词组合间的分值间距,以进行后续本发明提出的关键短语长度加权计算。针对现有技术中基于tf-idf/textrank的关键词抽取方案,解决了其只能提取出所用分词器内置的短词,若要提取具有文本主题表征含义的短语,需要预先人工定义短语词库,人工维护成本较大,且无法遍历所有短语的问题。针对基于生成式的方法提取的文本关键信息方法,解决了这种抽取方式会存在生成的新词或新短语无语义含义的问题。本发明可以在只维护领域专有名词词库的情况下,通过关键词组合的方法解决抽取式方法提取的文本关键信息文本含义表征能力差的问题,通过关键词组合衰减加权计算避免重要关键词在组合中产生的头部效应,以有效覆盖文本的多主题。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (10)
1.一种文本关键短语的抽取方法,其特征在于,包括以下过程:
获取文本数据,并对所述文本数据进行分词处理,得到第一关键词集;
根据关键词的权重大小,从所述第一关键词集中抽取排名大于预设阈值的若干个关键词,并对所述若干个关键词进行权重衰减处理,从而得到第二关键词集;
对所述第一关键词集内的关键词进行组合,形成关键短语集;
在所述关键短语集中筛选出与所述第二关键词集中的关键词相匹配的关键短语,并计算各筛选后关键短语的权重;
将权重按照预设顺序排列,输出对应的各关键短语。
2.根据权利要求1所述的文本关键短语的抽取方法,其特征在于,所述根据关键词的权重大小,从所述第一关键词集中抽取排名大于预设阈值的若干个关键词,包括以下过程:
根据预设的共现窗口,计算所述第一关键词集中两个不同关键词的共现次数;
将每个关键词作为节点,将与所述关键词对应的共现次数作为边的权重,构建图模型;
对所述图模型中各节点对应的权重进行迭代计算,直至所述图模型收敛,并按照权重递减的顺序,选择权重大于预设阈值的若干个关键词。
3.根据权利要求1所述的文本关键短语的抽取方法,其特征在于,所述根据关键词的权重大小,从所述第一关键词集中抽取排名大于预设阈值的若干个关键词,包括以下过程:
根据所述第一关键词集中每个关键词在所述文本数据中出现的次数和所述文本数据的总词数,计算各关键词在所述文本数据中的词频;
获得各所述关键词的逆文档,并计算各关键词的逆文档频率;
根据每个关键词对应的词频和逆文档频率,获得各关键词的权重,并按照权重递减的顺序,选择权重大于预设阈值的若干个关键词。
4.根据权利要求1所述的文本关键短语的抽取方法,其特征在于,所述对所述若干个关键词进行权重衰减处理之后,还包括:对衰减后关键词的权重进行归一化处理,获得归一化后关键词。
5.根据权利要求4所述的文本关键短语的抽取方法,其特征在于,所述在所述关键短语集中筛选出与所述第二关键词集中的关键词相匹配的关键短语,并计算各筛选后关键短语的权重包括:
S41、选择所述关键短语集中的其中一个关键短语作为待匹配关键短语;
S42、若所述待匹配关键短语与所述第二关键词集中的其中两个归一化后关键词相匹配,将所述待匹配关键短语作为筛选后关键短语;
S43、根据与所述待匹配关键短语相匹配的两个归一化后关键词的权重,计算所述筛选后关键短语的权重;
S44、遍历所述关键短语集,选择另一个关键短语作为待匹配关键短语,重复执行步骤S42和S43,直至将所述关键短语集中的关键短语全部选择完毕,获得各筛选后关键短语的权重。
6.根据权利要求1所述的文本关键短语的抽取方法,其特征在于,所述将权重按照预设顺序排列之后,还包括:对各筛选后关键短语进行短语长度加权。
7.根据权利要求1所述的文本关键短语的抽取方法,其特征在于,所述获取文本数据之后,还包括:对所述文本数据进行预处理,预处理的过程为:
对所述文本数据进行文本清洗,去除非文本内容,获得清洗后文本数据;
去除所述清洗后文本数据中的停用词,获得预处理后文本数据。
8.一种文本关键短语的抽取系统,其特征在于,所述系统包括:
分词模块,用于获取文本数据,并对所述文本数据进行分词处理,得到第一关键词集;
衰减后第一关键词获取模块,用于根据关键词的权重大小,从所述第一关键词集中抽取排名大于预设阈值的若干个关键词,并对所述若干个关键词进行权重衰减处理,从而得到第二关键词集;
第二关键短语组合获取模块,用于对所述第一关键词集内的关键词进行组合,形成关键短语集;
拼接权重获取模块,用于在所述关键短语集中筛选出与所述第二关键词集中的关键词相匹配的关键短语,并计算各筛选后关键短语的权重;
抽取模块,用于将权重按照预设顺序排列,输出对应的各关键短语。
9.一种文本关键短语的抽取设备,其特征在于:包括处理器,所述处理器与存储器耦合,所述存储器存储有程序指令,当所述存储器存储的程序指令被所述处理器执行时实现权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于:包括程序,当所述程序在计算机上运行时,执行如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210704329.0A CN115080718B (zh) | 2022-06-21 | 2022-06-21 | 一种文本关键短语的抽取方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210704329.0A CN115080718B (zh) | 2022-06-21 | 2022-06-21 | 一种文本关键短语的抽取方法、系统、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115080718A CN115080718A (zh) | 2022-09-20 |
CN115080718B true CN115080718B (zh) | 2024-04-09 |
Family
ID=83253696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210704329.0A Active CN115080718B (zh) | 2022-06-21 | 2022-06-21 | 一种文本关键短语的抽取方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115080718B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116050397B (zh) * | 2023-03-07 | 2023-05-30 | 知呱呱(天津)大数据技术有限公司 | 一种长文本摘要生成方法、系统、设备及存储介质 |
CN116431838B (zh) * | 2023-06-15 | 2024-01-30 | 北京墨丘科技有限公司 | 文献检索方法、装置、系统及存储介质 |
CN118170865A (zh) * | 2024-03-11 | 2024-06-11 | 杭州正义先铎网络科技有限公司 | 一种基于自然语言处理技术的文本数据采集和分析方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033919A (zh) * | 2010-12-07 | 2011-04-27 | 北京新媒传信科技有限公司 | 文本关键词提取方法及系统 |
CN111831804A (zh) * | 2020-06-29 | 2020-10-27 | 深圳价值在线信息科技股份有限公司 | 一种关键短语的提取方法、装置、终端设备及存储介质 |
CN112100216A (zh) * | 2020-09-17 | 2020-12-18 | 中国建设银行股份有限公司 | 创意关键词的处理方法和装置 |
CN114330335A (zh) * | 2020-10-10 | 2022-04-12 | 中国移动通信有限公司研究院 | 关键词抽取方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107704503A (zh) * | 2017-08-29 | 2018-02-16 | 平安科技(深圳)有限公司 | 用户关键词提取装置、方法及计算机可读存储介质 |
US11531811B2 (en) * | 2020-07-23 | 2022-12-20 | Hitachi, Ltd. | Method and system for extracting keywords from text |
-
2022
- 2022-06-21 CN CN202210704329.0A patent/CN115080718B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033919A (zh) * | 2010-12-07 | 2011-04-27 | 北京新媒传信科技有限公司 | 文本关键词提取方法及系统 |
CN111831804A (zh) * | 2020-06-29 | 2020-10-27 | 深圳价值在线信息科技股份有限公司 | 一种关键短语的提取方法、装置、终端设备及存储介质 |
CN112100216A (zh) * | 2020-09-17 | 2020-12-18 | 中国建设银行股份有限公司 | 创意关键词的处理方法和装置 |
CN114330335A (zh) * | 2020-10-10 | 2022-04-12 | 中国移动通信有限公司研究院 | 关键词抽取方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115080718A (zh) | 2022-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN115080718B (zh) | 一种文本关键短语的抽取方法、系统、设备及存储介质 | |
WO2020192401A1 (en) | System and method for generating answer based on clustering and sentence similarity | |
US10592605B2 (en) | Discovering terms using statistical corpus analysis | |
CN111460820B (zh) | 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置 | |
CN102298576B (zh) | 文档关键词生成方法和装置 | |
CN109918660B (zh) | 一种基于TextRank的关键词提取方法和装置 | |
CN103646112B (zh) | 利用了网络搜索的依存句法的领域自适应方法 | |
US10275454B2 (en) | Identifying salient terms for passage justification in a question answering system | |
Fonseca et al. | A two-step convolutional neural network approach for semantic role labeling | |
JP5216063B2 (ja) | 未登録語のカテゴリを決定する方法と装置 | |
Al-Ash et al. | Fake news identification characteristics using named entity recognition and phrase detection | |
US20170068726A1 (en) | Context based passage retreival and scoring in a question answering system | |
Al-Omari et al. | Arabic light stemmer (ARS) | |
Jain et al. | Fine-tuning textrank for legal document summarization: A Bayesian optimization based approach | |
US11941361B2 (en) | Automatically identifying multi-word expressions | |
Kumar et al. | Performance analysis of keyword extraction algorithms assessing extractive text summarization | |
CN114780672A (zh) | 一种基于网络资源的医学问题问答处理方法及装置 | |
Bayraktar et al. | A rule-based holistic approach for Turkish aspect-based sentiment analysis | |
CN112183117A (zh) | 一种翻译评价的方法、装置、存储介质及电子设备 | |
Priyadharshan et al. | Text summarization for Tamil online sports news using NLP | |
CN113743090A (zh) | 一种关键词提取方法及装置 | |
Kosmajac et al. | Automatic text summarization of news articles in serbian language | |
Gupta et al. | Semantic parsing for technical support questions | |
Vaishnavi et al. | Paraphrase identification in short texts using grammar patterns |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |