CN116432638A - 一种文本关键词提取方法、装置、电子设备及存储介质 - Google Patents
一种文本关键词提取方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116432638A CN116432638A CN202111645767.6A CN202111645767A CN116432638A CN 116432638 A CN116432638 A CN 116432638A CN 202111645767 A CN202111645767 A CN 202111645767A CN 116432638 A CN116432638 A CN 116432638A
- Authority
- CN
- China
- Prior art keywords
- word
- words
- text
- determining
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 37
- 238000003860 storage Methods 0.000 title claims abstract description 11
- 230000011218 segmentation Effects 0.000 claims abstract description 120
- 239000013598 vector Substances 0.000 claims abstract description 103
- 150000001875 compounds Chemical class 0.000 claims description 194
- 238000000034 method Methods 0.000 claims description 44
- 238000004590 computer program Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 16
- 230000014509 gene expression Effects 0.000 description 10
- 238000005065 mining Methods 0.000 description 8
- 239000004973 liquid crystal related substance Substances 0.000 description 6
- 238000007621 cluster analysis Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 101150104012 TOP2 gene Proteins 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及文本分析技术领域,尤其涉及一种文本关键词提取方法、装置、电子设备及存储介质,对待处理文本进行分词处理,获得待处理文本中包含的各个词语,分别创建以各个词语为中心词的词团,并确定各词团各自对应的词团重要度权重,从各词团中,选择出满足预设词团重要度权重条件的各词团,并将确定出的各词团各自对应的词团向量,作为相应的类别中心向量,基于各类别中心向量,以及各词语各自对应的词向量,对各个词语进行聚类,并分别从各词语类中,确定出待处理文本的各文本关键词,从而提高提取文本关键词的质量。
Description
技术领域
本申请涉及文本分析技术领域,尤其涉及一种文本关键词提取方法、装置、电子设备及存储介质。
背景技术
目前,为了更好地体现文本主题,需要对文本进行分析,从文本中提取出最能够反映文本主题的词语。
相关技术中,在提取文本关键词时,通常是通过将文本进行分词处理,并通过对各分词进行聚类,从各类簇中提取最终的文本关键词。
然而,相关技术中的这种关键词提取方式,由于在分词处理过程中,得到的均为粒度较细的词语,因此,提取出的文本关键词无法很好地体现文本主题,并且,在进行聚类时,通常是基于经验或随机指定类别中心向量,因此,聚类的准确度不高,从而导致提取出的文本关键词不准确。
发明内容
本申请实施例提供一种文本关键词提取方法、装置、电子设备及存储介质,以提高提取出的文本关键词的准确度和质量。
本申请实施例提供的具体技术方案如下:
一种文本关键词提取方法,包括:
对待处理文本进行分词处理,获得所述待处理文本中包含的各个词语,其中,所述词语包括单词和复合词,每个复合词是基于至少两个相邻的分词组成的,所述至少两个相邻的分词满足预设的词性条件;
分别创建以各个词语为中心词的词团,并确定各词团各自对应的词团重要度权重,其中,每个词团包括预设数个词语,每个词团重要度权重表征词团对于所述待处理文本的重要程度;
从所述各词团中,选择出满足预设词团重要度权重条件的各词团,并将确定出的各词团各自对应的词团向量,作为相应的类别中心向量;
基于各类别中心向量,以及所述各词语各自对应的词向量,对所述各个词语进行聚类,并分别从各词语类中,确定出所述待处理文本的各文本关键词。
可选的,对待处理文本进行分词处理,获得所述待处理文本中包含的各个词语之前,还包括:
从待处理文本中识别获得各固定短语,其中,每个固定短语由至少一个分词组成;
从预设的语料库中,查找到与所述各固定短语对应的标准短语;
分别将所述各固定短语替换为相应的标准短语,获得包含有各标准短语的待处理文本。
可选的,对待处理文本进行分词处理,获得所述待处理文本中包含的各个词语,具体包括:
分别对待处理文本中的相邻的两个分词进行组合,获得相应的候选复合词,其中,所述待处理文本是由多个分词组成的;
基于所述各分词各自对应的词性信息,从各候选复合词中,确定出满足预设的词性组合条件的各候选复合词;
分别根据所述各候选复合词各自对应的分词出现次数,确定所述各候选复合词各自对应的分词关联度,其中,所述分词关联度表征候选复合词中,各分词构成复合词的可能性大小;
基于各分词关联度,从所述各候选复合词中,确定出满足预设分词关联度条件的各复合词,并根据所述各复合词,以及除所述各复合词以外的各分词,获得所述待处理文本的各个词语。
可选的,分别根据所述各候选复合词各自对应的分词出现次数,确定所述各候选复合词各自对应的分词关联度,具体包括:
针对所述各候选复合词,分别执行以下操作:
确定任意一个候选复合词在所述待处理文本中出现的次数,获得第一出现次数,确定该候选复合词中,前一个分词出现时后一个分词不为该分词的次数,获得第二出现次数,确定该候选复合词中,后一个分词出现时前一个分词不为该分词的次数,获得第三出现次数,以及,确定除该候选复合词以外,其它各相邻分词的出现次数,获得第四出现次数;
基于所述第一出现次数、所述第二出现次数、所述第三次数和所述第四出现次数,确定该候选复合词对应的分词关联度。
可选的,对待处理文本进行分词处理,获得所述待处理文本中包含的各个词语之后,还包括:
分别对所述各个词语进行词频统计,确定所述各个词语各自对应的词语重要度权重;
分别确定所述各个词语各自对应的词向量,并分别根据各词向量,确定相应的词语对应的语义权重;
分别根据各语义权重和各词语重要度权重,确定所述各个词语各自对应的词语权重;
根据各词语权重,从所述各个词语中,剔除未满足词语权重条件的词语。
可选的,分别根据各词向量,确定相应的词语对应的语义权重,具体包括:
针对所述各个词语,分别执行以下操作:
基于所述各个词语各自对应的词向量,分别确定任意一个词语与其它各个词语之间的语义相似度;
根据各语义相似度,确定该词语对应的语义权重。
可选的,根据各语义相似度,确定该词语对应的语义权重,具体包括:
从各语义相似度中,确定出满足预设语义相似度阈值的目标语义相似度;
统计各目标语义相似度的第一数量;
基于所述各第一数量,与各词语对应的最大第一数量,获得该词语对应的语义权重。
可选的,分别创建以各个词语为中心词的词团,并确定各词团各自对应的词团重要度权重,具体包括:
针对所述各词语,分别执行以下操作:
确定与任意一个词语之间的语义相似度最高对应的预设数个词语;
创建包含有确定出的预设数个词语的词团;
根据所述词团中各个词语的词语重要度权重之间的均值,作为所述词团对应的词团重要度权重。
可选的,从所述各词团中,选择出满足预设词团重要度权重条件的各词团,具体包括:
根据所述各词团各自对应的词团重要度权重,对所述各词团进行排序,获得排序后的各词团;
将词团重要度权重最大对应的词团,作为满足预设词团重要度权重条件的词团,以及,将与词团重要度权重最大对应的词团之间的语义相似度小于相似度阈值,且词团重要度权重最大对应的词团,作为满足预设词团重要度权重条件的词团。
一种文本关键词提取装置,包括:
分词模块,用于对待处理文本进行分词处理,获得所述待处理文本中包含的各个词语,其中,所述词语包括单词和复合词,每个复合词是基于至少两个相邻的分词组成的,所述至少两个相邻的分词满足预设的词性条件;
第一处理模块,用于分别创建以各个词语为中心词的词团,并确定各词团各自对应的词团重要度权重,其中,每个词团包括预设数个词语,每个词团重要度权重表征词团对于所述待处理文本的重要程度;
确定模块,用于从所述各词团中,选择出满足预设词团重要度权重条件的各词团,并将确定出的各词团各自对应的词团向量,作为相应的类别中心向量;
第二处理模块,用于基于各类别中心向量,以及所述各词语各自对应的词向量,对所述各个词语进行聚类,并分别从各词语类中,确定出所述待处理文本的各文本关键词。
可选的,对待处理文本进行分词处理,获得所述待处理文本中包含的各个词语之前,还包括归一化模块,所述归一化模块用于:
从待处理文本中识别获得各固定短语,其中,每个固定短语由至少一个分词组成;
从预设的语料库中,查找到与所述各固定短语对应的标准短语;
分别将所述各固定短语替换为相应的标准短语,获得包含有各标准短语的待处理文本。
可选的,所述分词模块还用于:
分别对待处理文本中的相邻的两个分词进行组合,获得相应的候选复合词,其中,所述待处理文本是由多个分词组成的;
基于所述各分词各自对应的词性信息,从各候选复合词中,确定出满足预设的词性组合条件的各候选复合词;
分别根据所述各候选复合词各自对应的分词出现次数,确定所述各候选复合词各自对应的分词关联度,其中,所述分词关联度表征候选复合词中,各分词构成复合词的可能性大小;
基于各分词关联度,从所述各候选复合词中,确定出满足预设分词关联度条件的各复合词,并根据所述各复合词,以及除所述各复合词以外的各分词,获得所述待处理文本的各个词语。
可选的,分别根据所述各候选复合词各自对应的分词出现次数,确定所述各候选复合词各自对应的分词关联度时,所述分词模块还用于:
针对所述各候选复合词,分别执行以下操作:
确定任意一个候选复合词在所述待处理文本中出现的次数,获得第一出现次数,确定该候选复合词中,前一个分词出现时后一个分词不为该分词的次数,获得第二出现次数,确定该候选复合词中,后一个分词出现时前一个分词不为该分词的次数,获得第三出现次数,以及,确定除该候选复合词以外,其它各相邻分词的出现次数,获得第四出现次数;
基于所述第一出现次数、所述第二出现次数、所述第三次数和所述第四出现次数,确定该候选复合词对应的分词关联度。
可选的,对待处理文本进行分词处理,获得所述待处理文本中包含的各个词语之后,还包括第三处理模块,所述第三处理模块用于:
分别对所述各个词语进行词频统计,确定所述各个词语各自对应的词语重要度权重;
分别确定所述各个词语各自对应的词向量,并分别根据各词向量,确定相应的词语对应的语义权重;
分别根据各语义权重和各词语重要度权重,确定所述各个词语各自对应的词语权重;
根据各词语权重,从所述各个词语中,剔除未满足词语权重条件的词语。
可选的,分别根据各词向量,确定相应的词语对应的语义权重时,所述第三处理模块还用于:
针对所述各个词语,分别执行以下操作:
基于所述各个词语各自对应的词向量,分别确定任意一个词语与其它各个词语之间的语义相似度;
根据各语义相似度,确定该词语对应的语义权重。
可选的,根据各语义相似度,确定该词语对应的语义权重时,所述第三处理模块还用于:
从各语义相似度中,确定出满足预设语义相似度阈值的目标语义相似度;
统计各目标语义相似度的第一数量;
基于所述各第一数量,与各词语对应的最大第一数量,获得该词语对应的语义权重。
可选的,所述第一处理模块还用于:
针对所述各词语,分别执行以下操作:
确定与任意一个词语之间的语义相似度最高对应的预设数个词语;
创建包含有确定出的预设数个词语的词团;
根据所述词团中各个词语的词语重要度权重之间的均值,作为所述词团对应的词团重要度权重。
可选的,从所述各词团中,选择出满足预设词团重要度权重条件的各词团时,所述确定模块还用于:
根据所述各词团各自对应的词团重要度权重,对所述各词团进行排序,获得排序后的各词团;
将词团重要度权重最大对应的词团,作为满足预设词团重要度权重条件的词团,以及,将与词团重要度权重最大对应的词团之间的语义相似度小于相似度阈值,且词团重要度权重最大对应的词团,作为满足预设词团重要度权重条件的词团。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述文本关键词提取方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述文本关键词提取方法的步骤。
本申请实施例中,对待处理文本进行分词处理,获得待处理文本中包含的各个词语,分别创建以各个词语为中心词的词团,并确定各词团各自对应的词团重要度权重,从各词团中,选择出满足预设词团重要度权重条件的各词团,并将确定出的各词团各自对应的词团向量,作为相应的类别中心向量,基于各类别中心向量,以及各词语各自对应的词向量,对各个词语进行聚类,并分别从各词语类中,确定出待处理文本的各文本关键词,这样,通过对复合词挖掘,有利于获得更好的语义向量和更为准确的统计指标,提高提取文本关键词的质量,帮助理解文本意图;并且,通过创建词团的方式,增加词语的语义信息,提高词语权重的健壮性,得到精准的聚类中心,从而提高文本关键词的质量。
附图说明
图1为本申请实施例中一种文本关键词提取方法的第一流程示意图;
图2为本申请实施例中文本标注结果示意图;
图3为本申请实施例中语料库示意图;
图4为本申请实施例中一种文本关键词提取方法的第二流程示意图;
图5为本申请实施例中一种文本关键词提取方法的第三流程示意图;
图6为本申请实施例中文本关键词提取方法的示例图;
图7本申请实施例中文本关键词提取装置的结构示意图;
图8为本申请实施例中电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
关键词抽取是文本分析的重要手段和文本主题的体现,被广泛应用于文本分析领域。其目的是提取出文本中最能够反映文本主题的词语。目前,关键词抽取方法主要分为有监督和无监督两种。有监督的关键词抽取方法通过二分类思想确定文档中的候选词是否为关键词。该方法需要人工提前标注大量语料作为关键词判别模型的训练语料库,并且若在标注过程中存在误差,则会直接影响模型性能。无监督的关键词抽取方法无须事先标注训练语料,通过关键词重要性排序实现关键词抽取。无监督的关键词抽取方法一直受到学者们的广泛关注,其中基于tf-idf统计特征的关键词抽取是一种简单易行的常用方法。
相关技术中,在进行文本关键词提取时,首先将待处理文本进行分词和去停用词等处理,然后利用词嵌入模型对分词结果进行词语向量化表示,并通过聚类分析得到各类簇的候选关键词集,然后再结合tf-idf、位置信息等统计指标计算词语权重,最后根据权重从各类簇中提取最终的文本关键词。
在对话文本业务场景中,现有的分词工具得到的结果都是粒度较细的词语,然而基于这种词语抽取到的关键词往往不能很好的体现关键意图,而一些相邻词的组合形成的复合词反而更能体现对话文本的意图。比如客服对话文本中抽取的关键词结果为“5g套餐”、“更换”、“话费”等词语,虽然根据关键词可以猜测到文本意图是“更换5g套餐”,但如果提取的关键词本身就是“更换5g套餐”则更直接的表达了文本的真实意图。
并且,相关技术中,在利用K-means划分各类候选关键词集时,往往也是基于经验或随机指定类别中心,但由于数据的多样性、随机性,很难根据经验确定出类别中心,而随机不仅会导致每次结果出现差异,又难以达到较好的效果。
为了解决上述问题,本申请实施例中提供了一种文本关键词提取方法,对待处理文本进行分词处理,获得待处理文本中包含的各个词语,分别创建以各个词语为中心词的词团,并确定各词团各自对应的词团重要度权重,从各词团中,选择出满足预设词团重要度权重条件的各词团,并将确定出的各词团各自对应的词团向量,作为相应的类别中心向量,基于各类别中心向量,以及各词语各自对应的词向量,对各个词语进行聚类,并分别从各词语类中,确定出待处理文本的各文本关键词,从而能够提高提取的文本关键词的准确度,并且,以“词团”的方式综合考虑词语间语义信息和权重信息,并能以强鲁棒性得到较为精准的聚类中心点和类别数。
基于上述实施例,参阅图1所示,为本申请实施例中一种文本关键词提取方法的第一流程示意图,具体包括:
S10:对待处理文本进行分词处理,获得待处理文本中包含的各个词语。
其中,词语包括单词和复合词,每个复合词是基于至少两个相邻的分词组成的,至少两个相邻的分词满足预设的词性条件。
本申请实施例中,由于分词得到的词语粒度较细,在对话文本提取关键词问题中,仅依靠分词的结果提取关键词不能很好的体现用户的关键意图,但在对话文本中,复合词往往比单词更加能够体现待处理文本的主要内容和意图,因此,可以从待处理文本中提取出复合词,作为待处理文本的文本关键词。本申请实施例中,对待处理文本进行分词处理,获得待处理文本中包含的各个词语,各个词语为单词和复合词,也即,本申请实施例中的每个词语可以为单词,也可以为复合词。
需要说明的是,单词为由一个分词组成的词语,例如,“套餐”、“我”。复合词是由至少两个分词组成的词语,例如,“升级5g套餐”,其中,“升级”为一个分词,“5g套餐”为一个分词。
这样,通过些相邻词的组合更能体现待处理本文的意图,从而提高对于待处理文本的理解,例如,在用户咨询升级5g套餐的客服对话文本中,往往提取的文本关键词是”5g套餐”、“更换”、“话费”等词语,虽然根据文本关键词可以猜测文本意图是“更换5g套餐”,但如果提取的文本关键词本身就是“更换5g套餐”,更直接的表达出了待处理文本的真实意图,同时,也能够避免出现一些错误,如文本描述的主题是“5g套餐话费贵,更换别的套餐”。本申请实施例中将这类“更换5g套餐”称为复合词。
可选的,本申请实施例中,为确定待处理文本的各词语提供了一种可能的实施方式,下面对本申请实施例中,对待处理文本进行分词处理,获得待处理文本中包含的各词语的过程进行阐述,具体包括:
S101:分别对待处理文本中的相邻的两个分词进行组合,获得相应的候选复合词。
其中,待处理文本是由多个分词组成的。
本申请实施例中,首先,设定窗口,然后,对待处理文本进行分词,获得待处理文本中包含的各个分词,其次,分别对待处理文本中的相邻的两个分词进行组合,获得相应的候选复合词。
其中,本申请实施例中的窗口用于计算相邻的分词是否能够构成复合词,例如,设定窗口windows=3,分别为当前分词、当前分词的前一分词,以及当前分词的后一分词。
例如,假设待处理文本中的各分词为“帮”、“我”、“升级”、“5g套餐”、“。”,则将待处理文本中相邻的两个分词进行组合,获得相应的候选复合词,也即,得到的复合词为“帮+我”、“我+升级”、“升级+5g套餐”、“5g套餐+。”。
S102:基于各分词各自对应的词性信息,从各候选复合词中,确定出满足预设的词性组合条件的各候选复合词。
本申请实施例中,分别对各分词各自对应的词性信息进行标注,然后,基于各分词各自对应的词性信息,从各候选复合词中,确定出满足预设的词性组合条件的各候选复合词。
需要说明的是,本申请实施例中,由于“动词+名词”能够更好地表达出待处理文本的意图,“名词+名词”极有可能是当前业务场景中的专有名词,时因为分词精度的原因导致被拆分开,因此,本申请实施例中,预设的词性组合条件可以为“动词+名词”和“名词+名词”,换言之,当候选复合词中两个分词中的前一个分词为动词,后一个分词为名词时,确定该候选复合词为满足预设词性组合条件的候选复合词,以及,当候选复合词中两个分词中的前一个分词为名词,后一个分词也为名词时,确定该候选复合词为满足预设词性组合条件的候选复合词。
例如,参阅图2所示,为本申请实施例中文本标注结果示意图,其中,“帮”是动词,但在“帮”的窗口中,后一分词“我”的词性为代词,因此,该候选复合词未满足预设的词性组合条件,因此,无需进行复合词挖掘。“升级”是动词,前一分词的词性是代词,不做考量,而后一分词是“5g套餐”,是名词,因此,该候选复合词满足预设的词性组合条件,则需要对“升级”和“5g套餐”进行复合词挖掘。
S103:分别根据各候选复合词各自对应的分词出现次数,确定各候选复合词各自对应的分词关联度。
其中,分词关联度表征候选复合词中,各分词构成复合词的可能性大小。
本申请实施例中,确定各候选复合词各自对应的分词出现次数,并分别根据各候选复合词各自对应的分词出现次数,确定各候选复合词各自对应的分词关联度。
可选的,本申请实施例中,为确定各候选复合词各自对应的分词关联度提供了一种可能的实施方式,下面以任意一个候选复合词为例,介绍本申请实施例中确定各候选复合词各自对应的分词关联度的过程如下:
S1031:确定任意一个候选复合词在待处理文本中出现的次数,获得第一出现次数,确定该候选复合词中,前一个分词出现时后一个分词不为该分词的次数,获得第二出现次数,确定该候选复合词中,后一个分词出现时前一个分词不为该分词的次数,获得第三出现次数,以及,确定除该候选复合词以外,其它各相邻分词的出现次数,获得第四出现次数。
本申请实施例中,复合词的出现次数为第一出现次数、第二出现次数、第三出现次数和第四出现次数,下面分别为对本申请实施例中,确定第一出现次数、确定第二出现次数、确定第三出现次数和确定第四出现次数的过程进行说明。
首先,对本申请实施例中确定第一出现次数的过程进行说明,将候选复合词在待处理文本中的出现次数,作为第一出现次数,例如,假设候选复合词中的分词为“升级”和“5g套餐”,则第一出现次数为“升级”和“5g套餐”同时出现的次数,且“升级”和“5g套餐”为相邻的分词。
然后,对本申请实施例中确定第二出现次数的过程进行说明,候选复合词由分词A和分词B组成,则确定在待处理文本中,当分词A出现时,后一个分词不为分词B的次数,并将确定出的次数作为第二出现次数,例如,假设候选复合词中的分词为“升级”和“5g套餐”,则第二出现次数为当“升级”出现时后一个分词不是“5g套餐”的次数。
其次,对本申请实施例中确定第三出现次数的过程进行说明,候选复合词由分词A和分词B组成,则确定在待处理文本中,当分词B出现时,前一个分词不为分词A的次数,并将确定出的次数作为第三出现次数,例如,假设候选复合词中的分词为“升级”和“5g套餐”,则第三出现次数为当“5g套餐”出现时,相邻的前一个分词不是“升级”的次数。
最后,对本申请实施例中确定第四出现次数的过程进行说明,候选复合词由分词A和分词B组成,则确定在待处理文本中,前一个分词不是分词A,且后一个分词不是分词B的相邻分词的次数,例如,假设候选复合词中的分词为“升级”和“5g套餐”,则第四出现次数为前一个不是“升级”,且后一个不是“5g套餐”的相邻词的次数。
S1032:基于第一出现次数、第二出现次数、第三次数和第四出现次数,确定该候选复合词对应的分词关联度。
本申请实施例中,首先,计算第一出现次数、第二出现次数、第三出现次数和第四出现次数之间的累加结果,并根据第一出现次数、第二出现次数、第三出现次数和第四出现次数,以及累加结果,确定该候选复合词对应的分词关联度。
其中,分词关联度可以表示为:
其中,a表示“升级”和“5g套餐”同时出现的次数,即“升级5g套餐”的次数;b表示当“升级”出现时后一个词不是“5g套餐”的次数;c表示当“5g套餐”出现时其前一个词不是“升级”的次数;d表示前一个不是“升级”,且后一个不是“5g套餐”的相邻词的次数。n表示待处理文本中任意相邻的两个词的个数,即n=a+b+c+d。
可选的,本申请实施例中,由于分词关联度的结果分布较为离散,关联性相对较差,因此,对分词关联度进行标准化处理,具体地,计算候选复合词的分词关联度与分词关联度最小值之间的差值,与分词关联度最大值与分词关联度最小值之间的差值的比值,获得标准化后的分词关联度。
其中,标准化后的分词关联度可以表示为:
其中,weightmin为各候选复合词各自对应的分词关联度中的最小值,weightmax为各候选复合词各自对应的分词关联度中的最大值,weight相邻为候选复合词对应的分词关联度。
S104:基于各分词关联度,从各候选复合词中,确定出满足预设分词关联度条件的各复合词,并根据各复合词,以及除各复合词以外的各分词,获得待处理文本的各个词语。
本申请实施例中,具体的,预设分词关联度条件可以为分词关联度阈值,则分别判断各候选复合词各自对应的分词关联度是否大于预设的分词关联度阈值,从而确定是否将候选复合词作为最终的复合词,并从各候选复合词中,确定出大于预设分词关联度阈值的各复合词。
需要说明的是,若确定复合词的后一个分词也为名词,则需要计算复合词与后一个分词之间的标准化后的分词关联度,若确定标准化后的分词关联度大于预设的分词关联度阈值,则将满足分词关联度阈值的连续词语进行合并,最终得到一个具有多个分词的复合词。
例如,如果“5g套餐”的后一个分词也是一个名词,则需要计算“5g套餐”和后一个词的标准化后的分词关联度。如果标准化后的分词关联度大于设定的阈值,则将满足阈值的连续词进行合并,最终得到一个具有3个分词的复合词。
进一步地,本申请实施例中,由于待处理文本中,不同用户的表达方式有所不同,相同问题表述出来的意思虽然相同,但可能在词语的表达上略有差异,因此,本申请实施例中,为了降低文本的复杂度,可以将近义表述进行归一化,下面对本申请实施例中对近义表述进行归一化的过程进行说明,具体包括:
A1:从待处理文本中识别获得各固定短语。
其中,每个固定短语由至少一个分词组成。
本申请实施例中,首先,针对相同或相似含义的不同的固定短语,整理并构建语料库,参阅图3所示,为本申请实施例中语料库示意图,例如,假设待处理文本中出现“5g的套餐”、“5G的套餐”等,均统一替换成“5g套餐”。
然后,从待处理文本中识别获得各固定短语。
例如,“5g的套餐”、“5G的套餐”。
A2:从预设的语料库中,查找到与各固定短语对应的标准短语。
本申请实施例中,从预设的语料库中,查找到与各固定短语对应的标准短语。
例如,用户1表达“把我当前的套餐升级成5g套餐……”,而用户2表达“帮我把套餐改成5g套餐……”,上述两个待处理文本中的“升级成5g套餐”和“改成5g套餐”是相同的需求,因此,将这类近义表述约束成同一种标准短语“升级5g套餐”。
A3:分别将各固定短语替换为相应的标准短语,获得包含有各标准短语的待处理文本。
本申请实施例中,在获得各标准短语后,将待处理文本中的各固定短语替换为相应的标准短语,从而获得包含有各标准短语的待处理文本。
这样,通过对近义表述进行归一化,能够降低待处理文本的复杂性,也有利于在不同的表述中提取到相同的复合词,为后续的关键词提取操作提供了良好的基础,同时,也为后续计算词语权重提高了可行性。
进一步地,本申请实施例中,在获得各词语后,由于待处理文本中包含有孤立词,孤立词即为噪音数据,因此,为了提高提取文本关键词的准确性,需要将孤立词剔除,下面对本申请实施例中剔除孤立词的过程进行说明,具体包括:
B1:分别对各个词语进行词频统计,确定各个词语各自对应的词语重要度权重。
本申请实施例中,分别对各个词语进行词频统计,获得各个词语各自对应的词语重要度权重。
需要说明的是,本申请实施例中,可以通过计算词频-逆向文件频率(termfrequency–inverse document frequency,TF-IDF),获得词语重要度权重,TF-IDF是一种统计方法,用以评估词语对于待处理文本的重要程度,词语的重要性随在待处理文本中出现的次数成正比增加,但同时会随在语料库中出现的频率成反比下降。
其中,TF-IDF的主要思想是:如果某个词语在待处理文本中出现的频率TF高,并且在其它待处理文本中很少出现,则认为该词语具有很好的类别区分能力,适合用来分类。
B2:分别确定各个词语各自对应的词向量,并分别根据各词向量,确定相应的词语对应的语义权重。
本申请实施例中,首先,分别将各个词语输入至预训练的模型中,获得各个词语各自对应的词向量。
其中,本申请实施例中,预训练的模型可以为BERT模型,因此,可以使用BERT生成词向量。
需要说明的是,本申请实施例中,由于同样的词语在不同上下文语境中得到的词向量不同,但在待处理文本中,往往描述的内容同属一个业务场景,因此,词语的用法通常相对固定,本申请实施例中,针对同一个词语的不同词向量,采用均值来表示该词语在待处理文本中的实际词向量,如果两个不同词语的实际词向量很相似,则很大程度上表明两个词语的上下文语境相同或相似。
因此,本申请实施例中的词向量为不同上下文语境下的词向量的均值,每个词语的实际词向量可以表示为:
其中,Simword_in表示词语i分别在不同上下文语境中的词向量,n表示词语i出现的语境。
然后,在获得各词向量后,根据各词向量,计算任意两个词语之间的语义相似度。
可选的,本申请实施例中,为确定词语之间的语义相似度提供了一种可能的实施方式,下面以任意一个词语为例,对本申请实施例中确定语义相似度的过程进行说明,具体包括:
B21:基于各个词语各自对应的词向量,分别确定任意一个词语与其它各个词语之间的语义相似度。
本申请实施例中,分别计算任意一个词语的词向量,与其它各个词语各自对应的词向量之间的向量相似度,获得该词语与其它各个词语之间的语义相似度。
需要说明的是,本申请实施例中,在计算向量相似度时,可以计算各词向量之间的余弦相似度,本申请实施例中对此并不进行限制。
B22:根据各语义相似度,确定该词语对应的语义权重。
本申请实施例中,在获得各语义相似度后,即可根据各语义相似度,确定该词语的语义权重。
可选的,本申请实施例中,为确定词语对应的语义权重提供了一种可能的实施方式,具体包括:
B221:从各语义相似度中,确定出满足预设语义相似度阈值的目标语义相似度。
本申请实施例中,设置语义相似度阈值,判断各语义相似度是否大于预设的语义相似度阈值,并从语义相似度中,确定出满足预设语义相似度阈值的各目标语义相似度。
B222:统计各目标语义相似度的第一数量。
本申请实施例中,分别统计词语与其它各个词语之间的语义相似度大于预设语义相似度阈值的目标语义相似度的第一数量。
其中,第一数量例如可以表示为:
B223:基于第一数量,与各词语对应的最大第一数量,获得该词语对应的语义权重。
本申请实施例中,在获得各词语各自对应的第一数量后,从各第一数量中,确定出数值最大对应的第一数量,作为最大第一数量,并计算第一数量与最大第一数量之间的比值,获得该词语对应的语义权重。
其中,语义权重例如可以表示为:
B3:分别根据各语义权重和各词语重要度权重,确定各个词语各自对应的词语权重。
本申请实施例中,分别针对各词语,执行以下操作:结合词语的语义权重和语义权重,确定词语对应的词语权重。
其中,词语权重可以表示为:
B4:根据各词语权重,从各个词语中,剔除未满足词语权重条件的词语。
本申请实施例中,将词语权重小于预设权重阈值的词语视为孤立词,并将孤立词删除。
其中,预设权重阈值例如可以为0.2,也即,将词语权重小于0.2的词语视为孤立词,并将孤立词删除。
这样,在待处理文本中,孤立词即为噪音数据,将这类词剔除,有助于提高最终提取的文本关键词的准确性。
S11:分别创建以各个词语为中心词的词团,并确定各词团各自对应的词团重要度权重。
其中,每个词团包括预设数个词语,每个词团重要度权重表征词团对于待处理文本的重要程度。
本申请实施例中,分别针对各个词语,执行以下操作:以任意一个词语为中心词,创建以包含有该中心词的词团,并计算该词团对应的词团重要度权重。
可选的,本申请实施例中,为执行S11提供了一种可能的实施方式,下面以任意一个词语为例,对本申请实施例中的S11进行详细阐述,具体包括:
S111:确定与任意一个词语之间的语义相似度最高对应的预设数个词语。
本申请实施例中,由于在上述步骤中,已经计算获得任意两个词语之前的语义相似度,以及每个词语各自对应的语义权重,因此,将任意一个词语作为中心词,确定与该词语之间的语义相似度最高对应的预设数个词语。
例如,以词语A为中心词,选取与其语义相似度最高的4个词语。
S112:创建包含有确定出的预设数个词语的词团。
本申请实施例中,创建包含有确定出的预设数个词语,以及中心词的词团。
例如,假设以词语A为中心词,选取与其语义相似度最高的4个词语后,组成由5个词构成的词团。
这样,本申请实施例中,以词团来代替中心词,更能突出中心词的语义信息,同时针对词团计算权重也能提高中心词的鲁棒性。
S113:根据词团中各个词语的词语重要度权重之间的均值,作为词团对应的词团重要度权重。
本申请实施例中,计算词团中各个词语的平均向量,以及,计算词团中各个词语的词语重要度权重的平均值,作为词团对应的词团重要度权重。
其中,本申请实施例中的词团向量表示为:
其中,i为中心词,为词团向量,j、k、m、n为词团中的各个词语,Vecword_i为词语i的词向量,Vecword_j为词语j的词向量,Vecword_k为词语k的词向量,Vecword_m为词语m的词向量,Vecword_n为词语n的词向量。
其中,本申请实施例中的词团重要度权重例如可以为表示为:
其中,i为中心词,为词团重要度权重,j、k、m、n为词团中的各个词语,word_itf_idf为词语i的词团重要度权重,word_jtf_idf为词语j的词团重要度权重,word_ktf_idf为词语k的词团重要度权重,word_mtf_idf为词语m的词团重要度权重,word_ntf_idf为词语n的词团重要度权重。
S12:从各词团中,选择出满足预设词团重要度权重条件的各词团,并将确定出的各词团各自对应的词团向量,作为相应的类别中心向量。
本申请实施例中,从各词团中,选择出满足预设词团重要度权重条件的各词团,并将确定出的各词团各自对应的词团向量,作为各类簇对应的类别中心向量。
可选的,本申请实施例中,为执行S12提供了一种可能的实施方式,具体包括:
S121:根据各词团各自对应的词团重要度权重,对各词团进行排序,获得排序后的各词团。
本申请实施例中,由于已经计算出各词团各自对应的词团向量,以及各词团各自对应的词团重要度权重,因此,基于各词团重要度权重,对各词团进行降序排序,获得排序后的各词团。
S122:将词团重要度权重最大对应的词团,作为满足预设词团重要度权重条件的词团,以及,将与词团重要度权重最大对应的词团之间的语义相似度小于相似度阈值,且词团重要度权重最大对应的词团,作为满足预设词团重要度权重条件的词团。
本申请实施例中,在获得排序后的各词团后,选取词团重要度权重最大的词团,作为满足预设词团重要度权重条件的词团,并且,查找与该词团的中心词之间的语义相似度小于预设的相似度阈值,且词团重要度权重最大的词团,作为满足预设词团重要度权重条件的词团。
例如,按照对各词团进行降序排列,选取/>最大的词团word_o,则确定该词团以词语o为中心词,然后,查找满足与词语o之间的语义相似度小于0.5,且最大的词团,如,以词语p为中心词的词团word_p,因此,在满足与词团word_o之间的语义相似度小于0.5的所有词团中,/>且/>的值最大,将word_o和word_p,对应的/>和/>作为两个类别中心向量,后续选取中心点时不再考虑以word_o和word_p为中心词的“词团”中包含的词。
这样,通过依次选择数值大的词团重要度权重对应的词团,可以保证中心词在待处理文本中具有很强的表达力,同时选择与其不相似的词团,能够保证选择的多样性,避免语义重复。从而基于上述方式,选择其它中心点,直至当小于某个值时停止选择,从而确定出k的个数。
S13:基于各类别中心向量,以及各词语各自对应的词向量,对各个词语进行聚类,并分别从各词语类中,确定出待处理文本的各文本关键词。
本申请实施例中,基于各类别中心向量,以及各词语各自对应的词向量,对各个词语进行聚类,获得各个词语类,然后,基于词语重要度权重和位置信息,分别计算每个词语类中,各个词语的权重,分别从各个词语类中,选择前N个词语,作为待处理文本的各文本关键词。
本申请实施例中,对待处理文本进行复合词挖掘,对挖掘后得到的词语进行识别孤立词,创建词团,根据词团间关系来确定类别中心向量,根据得到的类别中心向量对各个词语各自对应的词语向量进行K-means聚类,计算词语权重,从聚类后的各词语类中选择topN作为抽取的文本关键词,从而能够提高确定出的文本关键词的质量。
基于上述实施例,参阅图4所示,为本申请实施例中一种文本关键词提取方法的第二流程示意图,具体包括:
S400:获取原始的待处理文本。
S410:对原始的待处理文本进行复合词挖掘,获得待处理文本中包含的各个词语。
其中,词语包括单词和复合词。
S420:对各个词语中的孤立词进行识别,获得新的待处理文本。
S430:计算各个词语各自对应的词语权重。
S440:确定各类别中心向量。
S450:进行聚类分析。
本申请实施例中,根据各类别中心向量,以及各词语各自对应的词向量,进行聚类分析。
S460:抽取文本关键词。
本申请实施例中,分别从各词语类中,确定出待处理文本的各文本关键词。
基于上述实施例,参阅图5所示,为本申请实施例中一种文本关键词提取方法的第三流程示意图,具体包括:
首先,基于语料库,对待处理文本进行表述归一化处理,获得包含有各标准短语的待处理文本。
对待处理文本进行分词,获得包含有待处理文本的各个词语的词语集合1,并对词语集合1进行复合词挖掘,获得词语集合1中的各复合词。
将复合词合并至词语集合1中,获得词语集合2,此时,词语集合2中包含有各复合词和各单词。
然后,对词语集合2中的各孤立词进行识别,获得孤立词集合,并从词语集合2中删除各孤立词,获得词语集合3。
基于词语集合3,确定类别中心,获得k个类别中心向量,同时,计算词语集合3中各个词语各自对应的词语权重。
然后,基于k个类别中心向量,进行聚类,获得k类词语类。
最后,基于各个词语各自对应的词语权重,分别从每个词语类中,选择topN个词语作为待处理文本的文本关键词。
基于上述实施例,下面采用一个具体的例子对本申请实施例中的文本关键词提取方法进行阐述,参阅图6所示,为本申请实施例中文本关键词提取方法的示例图,具体包括:
首先,采用语料库对待处理文本进行表述归一化处理,获得包含有各标准短语的待处理文本“我想问一下我这个号码能升级5g套餐么,就是我要升级5g套餐,提升网速,都有什么价格,包含多少流量,多少通话。”。
对待处理文本进行分词处理,获得各个分词,确定各个分词各自的词性信息,以及,对各个分词进行复合词挖掘,获得待处理文本的各个词语“想问一下这个号码能升级5g套餐就是要升级5g套餐提升网速有什么价格包含多少流量多少通话”。
然后,对各个词语进行孤立词识别,获得孤立词结果“想问一下这个有”。
将各个词语中的孤立词删除,获得删除孤立词后的结果“号码升级5g套餐就是升级5g套餐提升网速什么价格包含多少流量多少通话”。
然后,确定出2个类别中心向量,且类别中心向量以5维表示,结果如下:
中心向量1:(0.037018,0.028214,0.017121,0.053216,0.232154)
中心向量2:(0.000022,0.148815,0.024534,0.032741,0.018526)
然后,基于得到的类别中心向量,对删除孤立词后得到的各个词语进行聚类分析,获得各词语类。
类簇1:升级5g套餐、提升网速
类簇2:价格、多少流量、多长通话,语音
最后,计算每个词语对应的词语权重,并分别从各词语类中提取文本关键词,如抽取前top2个文本关键词,则最终获得的待处理文本的文本关键词为:升级5g套餐、提升网速、多少流量、多长通话。
基于同一发明构思,本申请实施例中还提供了一种文本关键词提取装置,该文本关键词提取装置可以是硬件结构、软件模块、或硬件结构加软件模块。基于上述实施例,参阅图7所示,本申请实施例中文本关键词提取装置的结构示意图,具体包括:
分词模块700,用于对待处理文本进行分词处理,获得所述待处理文本中包含的各个词语,其中,所述词语包括单词和复合词,每个复合词是基于至少两个相邻的分词组成的,所述至少两个相邻的分词满足预设的词性条件;
第一处理模块710,用于分别创建以各个词语为中心词的词团,并确定各词团各自对应的词团重要度权重,其中,每个词团包括预设数个词语,每个词团重要度权重表征词团对于所述待处理文本的重要程度;
确定模块720,用于从所述各词团中,选择出满足预设词团重要度权重条件的各词团,并将确定出的各词团各自对应的词团向量,作为相应的类别中心向量;
第二处理模块730,用于基于各类别中心向量,以及所述各词语各自对应的词向量,对所述各个词语进行聚类,并分别从各词语类中,确定出所述待处理文本的各文本关键词。
可选的,对待处理文本进行分词处理,获得所述待处理文本中包含的各个词语之前,还包括归一化模块740,所述归一化模块740用于:
从待处理文本中识别获得各固定短语,其中,每个固定短语由至少一个分词组成;
从预设的语料库中,查找到与所述各固定短语对应的标准短语;
分别将所述各固定短语替换为相应的标准短语,获得包含有各标准短语的待处理文本。
可选的,所述分词模块700还用于:
分别对待处理文本中的相邻的两个分词进行组合,获得相应的候选复合词,其中,所述待处理文本是由多个分词组成的;
基于所述各分词各自对应的词性信息,从各候选复合词中,确定出满足预设的词性组合条件的各候选复合词;
分别根据所述各候选复合词各自对应的分词出现次数,确定所述各候选复合词各自对应的分词关联度,其中,所述分词关联度表征候选复合词中,各分词构成复合词的可能性大小;
基于各分词关联度,从所述各候选复合词中,确定出满足预设分词关联度条件的各复合词,并根据所述各复合词,以及除所述各复合词以外的各分词,获得所述待处理文本的各个词语。
可选的,分别根据所述各候选复合词各自对应的分词出现次数,确定所述各候选复合词各自对应的分词关联度时,所述分词模块700还用于:
针对所述各候选复合词,分别执行以下操作:
确定任意一个候选复合词在所述待处理文本中出现的次数,获得第一出现次数,确定该候选复合词中,前一个分词出现时后一个分词不为该分词的次数,获得第二出现次数,确定该候选复合词中,后一个分词出现时前一个分词不为该分词的次数,获得第三出现次数,以及,确定除该候选复合词以外,其它各相邻分词的出现次数,获得第四出现次数;
基于所述第一出现次数、所述第二出现次数、所述第三次数和所述第四出现次数,确定该候选复合词对应的分词关联度。
可选的,对待处理文本进行分词处理,获得所述待处理文本中包含的各个词语之后,还包括第三处理模块750,所述第三处理模块750用于:
分别对所述各个词语进行词频统计,确定所述各个词语各自对应的词语重要度权重;
分别确定所述各个词语各自对应的词向量,并分别根据各词向量,确定相应的词语对应的语义权重;
分别根据各语义权重和各词语重要度权重,确定所述各个词语各自对应的词语权重;
根据各词语权重,从所述各个词语中,剔除未满足词语权重条件的词语。
可选的,分别根据各词向量,确定相应的词语对应的语义权重时,所述第三处理模块750还用于:
针对所述各个词语,分别执行以下操作:
基于所述各个词语各自对应的词向量,分别确定任意一个词语与其它各个词语之间的语义相似度;
根据各语义相似度,确定该词语对应的语义权重。
可选的,根据各语义相似度,确定该词语对应的语义权重时,所述第三处理模块还用于:
从各语义相似度中,确定出满足预设语义相似度阈值的目标语义相似度;
统计各目标语义相似度的第一数量;
基于所述各第一数量,与各词语对应的最大第一数量,获得该词语对应的语义权重。
可选的,所述第一处理模块710还用于:
针对所述各词语,分别执行以下操作:
确定与任意一个词语之间的语义相似度最高对应的预设数个词语;
创建包含有确定出的预设数个词语的词团;
根据所述词团中各个词语的词语重要度权重之间的均值,作为所述词团对应的词团重要度权重。
可选的,从所述各词团中,选择出满足预设词团重要度权重条件的各词团时,所述确定模块720还用于:
根据所述各词团各自对应的词团重要度权重,对所述各词团进行排序,获得排序后的各词团;
将词团重要度权重最大对应的词团,作为满足预设词团重要度权重条件的词团,以及,将与词团重要度权重最大对应的词团之间的语义相似度小于相似度阈值,且词团重要度权重最大对应的词团,作为满足预设词团重要度权重条件的词团。
基于上述实施例,参阅图8所示为本申请实施例中电子设备的结构示意图。
本申请实施例提供了一种电子设备,该电子设备可以包括处理器810(CenterProcessing Unit,CPU)、存储器820、输入设备830和输出设备840等,输入设备830可以包括键盘、鼠标、触摸屏等,输出设备840可以包括显示设备,如液晶显示器(Liquid CrystalDisplay,LCD)、阴极射线管(Cathode Ray Tube,CRT)等。
存储器820可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器810提供存储器820中存储的程序指令和数据。在本申请实施例中,存储器820可以用于存储本申请实施例中任一种文本关键词提取方法的程序。
处理器810通过调用存储器820存储的程序指令,处理器810用于按照获得的程序指令执行本申请实施例中任一种文本关键词提取方法。
基于上述实施例,本申请实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意方法实施例中的文本关键词提取方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (20)
1.一种文本关键词提取方法,其特征在于,包括:
对待处理文本进行分词处理,获得所述待处理文本中包含的各个词语,其中,所述词语包括单词和复合词,每个复合词是基于至少两个相邻的分词组成的,所述至少两个相邻的分词满足预设的词性条件;
分别创建以各个词语为中心词的词团,并确定各词团各自对应的词团重要度权重,其中,每个词团包括预设数个词语,每个词团重要度权重表征词团对于所述待处理文本的重要程度;
从所述各词团中,选择出满足预设词团重要度权重条件的各词团,并将确定出的各词团各自对应的词团向量,作为相应的类别中心向量;
基于各类别中心向量,以及所述各词语各自对应的词向量,对所述各个词语进行聚类,并分别从各词语类中,确定出所述待处理文本的各文本关键词。
2.如权利要求1所述的方法,其特征在于,对待处理文本进行分词处理,获得所述待处理文本中包含的各个词语之前,还包括:
从待处理文本中识别获得各固定短语,其中,每个固定短语由至少一个分词组成;
从预设的语料库中,查找到与所述各固定短语对应的标准短语;
分别将所述各固定短语替换为相应的标准短语,获得包含有各标准短语的待处理文本。
3.如权利要求2所述的方法,其特征在于,对待处理文本进行分词处理,获得所述待处理文本中包含的各个词语,具体包括:
分别对待处理文本中的相邻的两个分词进行组合,获得相应的候选复合词,其中,所述待处理文本是由多个分词组成的;
基于所述各分词各自对应的词性信息,从各候选复合词中,确定出满足预设的词性组合条件的各候选复合词;
分别根据所述各候选复合词各自对应的分词出现次数,确定所述各候选复合词各自对应的分词关联度,其中,所述分词关联度表征候选复合词中,各分词构成复合词的可能性大小;
基于各分词关联度,从所述各候选复合词中,确定出满足预设分词关联度条件的各复合词,并根据所述各复合词,以及除所述各复合词以外的各分词,获得所述待处理文本的各个词语。
4.如权利要求3所述的方法,其特征在于,分别根据所述各候选复合词各自对应的分词出现次数,确定所述各候选复合词各自对应的分词关联度,具体包括:
针对所述各候选复合词,分别执行以下操作:
确定任意一个候选复合词在所述待处理文本中出现的次数,获得第一出现次数,确定该候选复合词中,前一个分词出现时后一个分词不为该分词的次数,获得第二出现次数,确定该候选复合词中,后一个分词出现时前一个分词不为该分词的次数,获得第三出现次数,以及,确定除该候选复合词以外,其它各相邻分词的出现次数,获得第四出现次数;
基于所述第一出现次数、所述第二出现次数、所述第三次数和所述第四出现次数,确定该候选复合词对应的分词关联度。
5.如权利要求1所述的方法,其特征在于,对待处理文本进行分词处理,获得所述待处理文本中包含的各个词语之后,还包括:
分别对所述各个词语进行词频统计,确定所述各个词语各自对应的词语重要度权重;
分别确定所述各个词语各自对应的词向量,并分别根据各词向量,确定相应的词语对应的语义权重;
分别根据各语义权重和各词语重要度权重,确定所述各个词语各自对应的词语权重;
根据各词语权重,从所述各个词语中,剔除未满足词语权重条件的词语。
6.如权利要求5所述的方法,其特征在于,分别根据各词向量,确定相应的词语对应的语义权重,具体包括:
针对所述各个词语,分别执行以下操作:
基于所述各个词语各自对应的词向量,分别确定任意一个词语与其它各个词语之间的语义相似度;
根据各语义相似度,确定该词语对应的语义权重。
7.如权利要求6所述的方法,其特征在于,根据各语义相似度,确定该词语对应的语义权重,具体包括:
从各语义相似度中,确定出满足预设语义相似度阈值的目标语义相似度;
统计各目标语义相似度的第一数量;
基于所述各第一数量,与各词语对应的最大第一数量,获得该词语对应的语义权重。
8.如权利要求6所述的方法,其特征在于,分别创建以各个词语为中心词的词团,并确定各词团各自对应的词团重要度权重,具体包括:
针对所述各词语,分别执行以下操作:
确定与任意一个词语之间的语义相似度最高对应的预设数个词语;
创建包含有确定出的预设数个词语的词团;
根据所述词团中各个词语的词语重要度权重之间的均值,作为所述词团对应的词团重要度权重。
9.如权利要求8所述的方法,其特征在于,从所述各词团中,选择出满足预设词团重要度权重条件的各词团,具体包括:
根据所述各词团各自对应的词团重要度权重,对所述各词团进行排序,获得排序后的各词团;
将词团重要度权重最大对应的词团,作为满足预设词团重要度权重条件的词团,以及,将与词团重要度权重最大对应的词团之间的语义相似度小于相似度阈值,且词团重要度权重最大对应的词团,作为满足预设词团重要度权重条件的词团。
10.一种文本关键词提取装置,其特征在于,包括:
分词模块,用于对待处理文本进行分词处理,获得所述待处理文本中包含的各个词语,其中,所述词语包括单词和复合词,每个复合词是基于至少两个相邻的分词组成的,所述至少两个相邻的分词满足预设的词性条件;
第一处理模块,用于分别创建以各个词语为中心词的词团,并确定各词团各自对应的词团重要度权重,其中,每个词团包括预设数个词语,每个词团重要度权重表征词团对于所述待处理文本的重要程度;
确定模块,用于从所述各词团中,选择出满足预设词团重要度权重条件的各词团,并将确定出的各词团各自对应的词团向量,作为相应的类别中心向量;
第二处理模块,用于基于各类别中心向量,以及所述各词语各自对应的词向量,对所述各个词语进行聚类,并分别从各词语类中,确定出所述待处理文本的各文本关键词。
11.如权利要求10所述的装置,其特征在于,对待处理文本进行分词处理,获得所述待处理文本中包含的各个词语之前,还包括归一化模块,所述归一化模块用于:
从待处理文本中识别获得各固定短语,其中,每个固定短语由至少一个分词组成;
从预设的语料库中,查找到与所述各固定短语对应的标准短语;
分别将所述各固定短语替换为相应的标准短语,获得包含有各标准短语的待处理文本。
12.如权利要求11所述的装置,其特征在于,所述分词模块还用于:
分别对待处理文本中的相邻的两个分词进行组合,获得相应的候选复合词,其中,所述待处理文本是由多个分词组成的;
基于所述各分词各自对应的词性信息,从各候选复合词中,确定出满足预设的词性组合条件的各候选复合词;
分别根据所述各候选复合词各自对应的分词出现次数,确定所述各候选复合词各自对应的分词关联度,其中,所述分词关联度表征候选复合词中,各分词构成复合词的可能性大小;
基于各分词关联度,从所述各候选复合词中,确定出满足预设分词关联度条件的各复合词,并根据所述各复合词,以及除所述各复合词以外的各分词,获得所述待处理文本的各个词语。
13.如权利要求12所述的装置,其特征在于,分别根据所述各候选复合词各自对应的分词出现次数,确定所述各候选复合词各自对应的分词关联度时,所述分词模块还用于:
针对所述各候选复合词,分别执行以下操作:
确定任意一个候选复合词在所述待处理文本中出现的次数,获得第一出现次数,确定该候选复合词中,前一个分词出现时后一个分词不为该分词的次数,获得第二出现次数,确定该候选复合词中,后一个分词出现时前一个分词不为该分词的次数,获得第三出现次数,以及,确定除该候选复合词以外,其它各相邻分词的出现次数,获得第四出现次数;
基于所述第一出现次数、所述第二出现次数、所述第三次数和所述第四出现次数,确定该候选复合词对应的分词关联度。
14.如权利要求10所述的装置,其特征在于,对待处理文本进行分词处理,获得所述待处理文本中包含的各个词语之后,还包括第三处理模块,所述第三处理模块用于:
分别对所述各个词语进行词频统计,确定所述各个词语各自对应的词语重要度权重;
分别确定所述各个词语各自对应的词向量,并分别根据各词向量,确定相应的词语对应的语义权重;
分别根据各语义权重和各词语重要度权重,确定所述各个词语各自对应的词语权重;
根据各词语权重,从所述各个词语中,剔除未满足词语权重条件的词语。
15.如权利要求14所述的装置,其特征在于,分别根据各词向量,确定相应的词语对应的语义权重时,所述第三处理模块还用于:
针对所述各个词语,分别执行以下操作:
基于所述各个词语各自对应的词向量,分别确定任意一个词语与其它各个词语之间的语义相似度;
根据各语义相似度,确定该词语对应的语义权重。
16.如权利要求15所述的装置,其特征在于,根据各语义相似度,确定该词语对应的语义权重时,所述第三处理模块还用于:
从各语义相似度中,确定出满足预设语义相似度阈值的目标语义相似度;
统计各目标语义相似度的第一数量;
基于所述各第一数量,与各词语对应的最大第一数量,获得该词语对应的语义权重。
17.如权利要求15所述的装置,其特征在于,所述第一处理模块还用于:
针对所述各词语,分别执行以下操作:
确定与任意一个词语之间的语义相似度最高对应的预设数个词语;
创建包含有确定出的预设数个词语的词团;
根据所述词团中各个词语的词语重要度权重之间的均值,作为所述词团对应的词团重要度权重。
18.如权利要求17所述的装置,其特征在于,从所述各词团中,选择出满足预设词团重要度权重条件的各词团时,所述确定模块还用于:
根据所述各词团各自对应的词团重要度权重,对所述各词团进行排序,获得排序后的各词团;
将词团重要度权重最大对应的词团,作为满足预设词团重要度权重条件的词团,以及,将与词团重要度权重最大对应的词团之间的语义相似度小于相似度阈值,且词团重要度权重最大对应的词团,作为满足预设词团重要度权重条件的词团。
19.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-9任一项所述方法的步骤。
20.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1-9任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111645767.6A CN116432638A (zh) | 2021-12-30 | 2021-12-30 | 一种文本关键词提取方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111645767.6A CN116432638A (zh) | 2021-12-30 | 2021-12-30 | 一种文本关键词提取方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116432638A true CN116432638A (zh) | 2023-07-14 |
Family
ID=87081952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111645767.6A Pending CN116432638A (zh) | 2021-12-30 | 2021-12-30 | 一种文本关键词提取方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116432638A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117669550A (zh) * | 2023-11-13 | 2024-03-08 | 东风日产数据服务有限公司 | 一种基于文本中心的主题挖掘方法、系统、设备及介质 |
-
2021
- 2021-12-30 CN CN202111645767.6A patent/CN116432638A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117669550A (zh) * | 2023-11-13 | 2024-03-08 | 东风日产数据服务有限公司 | 一种基于文本中心的主题挖掘方法、系统、设备及介质 |
CN117669550B (zh) * | 2023-11-13 | 2024-04-30 | 东风日产数据服务有限公司 | 一种基于文本中心的主题挖掘方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11093854B2 (en) | Emoji recommendation method and device thereof | |
CN106897428B (zh) | 文本分类特征提取方法、文本分类方法及装置 | |
US20220138423A1 (en) | Deep learning based text classification | |
CN111125334B (zh) | 一种基于预训练的搜索问答系统 | |
CN109299280B (zh) | 短文本聚类分析方法、装置和终端设备 | |
JP5379138B2 (ja) | 領域辞書の作成 | |
CN113407679B (zh) | 文本主题挖掘方法、装置、电子设备及存储介质 | |
WO2020259280A1 (zh) | 日志管理方法、装置、网络设备和可读存储介质 | |
CN111767393A (zh) | 一种文本核心内容提取方法及装置 | |
CN111090731A (zh) | 基于主题聚类的电力舆情摘要提取优化方法及系统 | |
WO2017091985A1 (zh) | 停用词识别方法与装置 | |
CN107885717B (zh) | 一种关键词提取方法及装置 | |
CN110399483A (zh) | 一种主题分类方法、装置、电子设备及可读存储介质 | |
CN111310467B (zh) | 一种在长文本中结合语义推断的主题提取方法及系统 | |
CN114186061A (zh) | 语句意图预测方法、装置、存储介质及计算机设备 | |
CN111309916A (zh) | 摘要抽取方法和装置、存储介质和电子装置 | |
CN111241813A (zh) | 语料扩展方法、装置、设备及介质 | |
CN111061838B (zh) | 文本特征关键词确定方法、装置和存储介质 | |
CN115409039A (zh) | 一种对标车型数据的分析方法、装置、电子设备及介质 | |
CN114722832A (zh) | 一种摘要提取方法、装置、设备以及存储介质 | |
CN110019556B (zh) | 一种话题新闻获取方法、装置及其设备 | |
CN116432638A (zh) | 一种文本关键词提取方法、装置、电子设备及存储介质 | |
CN111930949B (zh) | 搜索串处理方法、装置、计算机可读介质及电子设备 | |
WO2023207566A1 (zh) | 语音房质量评估方法及其装置、设备、介质、产品 | |
CN111783424A (zh) | 一种文本分句方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |