CN113988053A - 一种热词提取方法及装置 - Google Patents
一种热词提取方法及装置 Download PDFInfo
- Publication number
- CN113988053A CN113988053A CN202111235555.0A CN202111235555A CN113988053A CN 113988053 A CN113988053 A CN 113988053A CN 202111235555 A CN202111235555 A CN 202111235555A CN 113988053 A CN113988053 A CN 113988053A
- Authority
- CN
- China
- Prior art keywords
- frequency data
- candidate word
- sequence
- frequency
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于软科学技术领域,具体涉及一种热词提取方法及装置。该方法首先获取所有候选词,统计各个候选词在不同时间段内出现的频率数据;对于每个候选词,按照时间顺序对频率数据进行排序得到原始序列,按照频率大小关系对频率数据进行排序得到排序序列;进而计算每个候选词的增长量能和重排损失,以计算得到每个候选词的热度,从中挑选出热度高的候选词作为热词。该方法热词提取精准度较高;而且,该方法基于排序序列进行分析,排除了噪声性波动的干扰,进一步提升了热词提取的准确性;另外,该方法不依赖任何数据集,对参数不敏感,普适性较高。
Description
技术领域
本发明属于软科学技术领域,具体涉及一种热词提取方法及装置。
背景技术
热词是一段时期内使用频率突然增加的词汇,包括以往已经存在但近期频率突增的词、以及以往并不存在的新词,对新闻、微博、评论、科技论文等文本信息提取热词是掌握事物发展动态、分析趋势、监测舆情的重要手段。
目前,热词提取方式主要基于频率波动进行分析计算,大部方法通过词汇在近期时间窗口与长期时间窗口的频率增长率来度量频率变化,计算频率变化的速率得到词语的热度,选出热度排名靠前的词语作为热词。通过调研发现,热词提取面临的主要问题有三:一是热词的定义由于应用场景的不同往往有所偏差,各算法对新词、高频词存在不同程度的偏倚;二是各算法在模型参数选取时严重依赖建模数据,模型的普适性与可用性受到一定影响;三是热词频率在使用次数上升期、下降期或振荡期都会存在一定的噪声性波动,如何排除噪声的干扰是热词提取面临的重要挑战。
授权公告号为CN107967299B的中国发明专利公开了一种热词提取方法,其采用长期变化、短期变化、整体波动三个不同长度的时间窗口。《情报杂志》2019年6月第38卷第6期出版的作者为徐敏、李广建的《基于词频均值波动和概率语言模型的短文本热点主题探测研究》采用取均值的方法,避免单个数据点的剧烈波动。《情报杂志》2015年6月第34卷第6期出版的作者郝晓玲、茅嘉惠、于秀艳的《微博热词抽取及话题发现研究》则采用时间窗口的方法,通过调节时间窗口的长度对噪声进行掩盖。以上的处理方法的出发点都是通过对多个数据点进行综合度量以掩盖噪声,因为噪声被认为大概率出现在极个别的点。然而噪声的出现依然会极大地影响热词提取结果,尤其当噪声发生在窗口的边界位置时,难以进行有效的处理,最终造成热词提取精度低。
发明内容
本发明提供了一种热词提取方法及装置,用以解决现有技术的热词提取方法过度依赖参数选取造成可用性差、易受噪声影响、提取精度低的问题。
为解决上述技术问题,本发明所包括的技术方案以及技术方案对应的有益效果如下:
本发明的一种热词提取方法,包括如下步骤:
1)获取所有候选词,统计各个候选词在不同时间段内出现的频率数据;
2)对于第i个候选词,按照时间顺序对频率数据进行排序得到原始序列Vi,按照频率大小关系对频率数据进行排序得到排序序列V′i;
3)采用如下方法计算第i个候选词的增长量能Ei:
提取第i个候选词的排序序列V′i的不同观察组,一个观察组包括两个不同的子序列,分别为第一子序列和第二子序列,第一子序列中频率数据的最大值大于等于第二子序列中频率数据的最大值、且第一子序列中频率数据的最小值大于等于第二子序列中频率数据的最小值;
计算一个观察组中第一子序列与第二子序列之间的差异;
根据各个观察组中两个子序列之间的差异,计算得到第i个候选词的增长量能Ei;
4)采用如下方法计算第i个候选词的重排损失Ri:
将第i个候选词从原始序列Vi变换至排序序列V′i过程中,确定每做一次频率数据互换时两个被互换的频率数据之间的位置间隔和频率差异;
根据每一次频率数据互换所对应的位置间隔和频率差异,计算得到第i个候选词的重排损失Ri:
5)将第i个候选词的增长量能Ei和重排损失Ri代入至构建的热度模型中,计算得到第i个候选词的热度Hi;所述热度模型体现的关系为:增长量能Ei与热度Hi呈正相关关系,重排损失Ri与热度Hi呈负相关关系;
6)按照步骤2)~步骤5)的方式计算得到每个候选词的热度,挑选热度大于热度阈值的候选词作为提取出的热词。
上述技术方案的有益效果为:本发明首先基于候选词出现的频率,可得到各个候选词的原始序列和排序序列,然后从增长量能与重排损失两方面对各个候选词的原始序列和排序序列进行分析,将原本对于一个频率序列增长态势的分析拆分为两个层面,其中增长量能表示排序序列中频率数据的增长幅度,重排损失表示原始序列和排序序列之间的差异性,进而根据增长量能与重排损失、以及构建的热度模型,便可计算得到每个候选词的热度,以从中挑选出真正的热词,热词提取精准度较高。这种拆分的有益效果主要由于,在不改变原有频率数值的前提下,排序序列中的频率数据处于平滑程度最优的状态,从数学角度解释即为一阶差分同号且二阶差分方差最小,对于一个相对平滑并且单调的函数曲线,部分参数的选取(如观察窗口的长度、不同时间周期的权重)受噪声的影响较小。不同于傅里叶变换去噪、小波变换去噪、局部均值等平滑方法,将原始序列转换成排序序列并保留排序操作的方法没有任何的信息损失,而其余平滑方法都存在不同程度的信息损失。因此,该方法基于排序序列与排序操作进行分析,在保留原始信息的同时排除了噪声性波动的干扰,有效避免噪声,进一步提升了热词提取的准确性。另外,该方法不依赖任何数据集,对参数不敏感,普适性较高。
进一步的,为了准确表征两个子序列的变化情况,步骤3)中,所述一个观察组中第一子序列与第二子序列之间的差异为第一子序列所对应的频率相较于第二子序列所对应的频率的增长率,且第一子序列所对应的频率为第一子序列中所有频率数据的平均值,第二子序列所对应的频率为第二子序列中所有频率数据的平均值。
进一步的,步骤3)中,根据各个观察组中两个子序列之间的差异,计算第i个候选词的增长量能Ei所采用的方法为:将各个观察组的的两个子序列之间的差异进行加权求和,得到第i个候选词的增长量能Ei。
进一步的,步骤4)中,根据每一次频率数据互换所对应的位置间隔和频率差异,计算第i个候选词的重排损失Ri的方法为:将一次频率数据互换所对应的位置间隔和频率差异进行相乘,得到一次频率数据互换所对应的乘积结果;将各次频率数据互换所对应的乘积结果相加,得到第i个候选词的重排损失Ri。
进一步的,步骤4)中,为了将第i个候选词从原始序列Vi变换至排序序列V′i,所采用的频率数据互换方法为:
从排序序列V′i中第1个位置处的频率数据开始依次按照如下方式进行互换,直至原始序列Vi与排序序列V′i相同:对于排序序列V′i中的第k个频率数据v′i,k,找到上一次频率数据互换后得到的中间序列中从第k个位置开始、第1个满足vi,j=v′i,k的频率数据vi,j,并在上一次频率数据互换后得到的中间序列中将频率数据vi,j与频率数据vi,k的位置进行互换,得到该次频率数据互换后的中间序列。
进一步的,步骤5)中,所述热度模型为:
其中,m为原始序列Vi的长度。
进一步的,步骤1)中获取候选词的方法为:获取各种文献,从文献中提取语料;对语料进行分词处理,得到分词结果;根据分词结果确定候选词。
进一步的,为了得到准确的分词结果,根据分词结果确定候选词的方法包括:对分词结果进行数据清洗以得到候选词;数据清洗方法包括以下方法中的至少一种:
对没有意义的停用词进行数据清洗;
将误分成多个词语的一个词语进行合并、二次切分或者替换操作,以得到正确的分词结果;
对垃圾串进行剔除,所述垃圾串包括惯用语句或句式;
对同义词进行合并。
进一步的,如果热词的定义倾向于词汇在长期内的热度变化,则观察组所对应的时间参数T越大,该观察组所对应的权重越大;反之,如果热词的定义倾向于度量词汇在短期内的热度变化,则观察组所对应的时间参数T越大,该观察组所对应的权重越小;时间参数T的采用如下方式计算得到:对于一个观察组,计算两个子序列中每个频率数据与最大频率数据之间的实际时间距离,并取所有实际时间距离的平均值作为该观察组所对应的时间参数T。
本发明的一种热词提取装置,包括存储器和处理器,所述处理器用于执行存储在存储器中的指令以实现上述介绍的热词提取方法,并达到与该方法相同的有益效果。
附图说明
图1是本发明的热词提取方法的流程图;
图2-1是候选词1的频率变化情况图;
图2-2是候选词2的频率变化情况图;
图3是本发明的热词提取装置的结构图。
具体实施方式
本发明的基本构思为:本发明基于候选词在不同时间段出现的频率,可得到各个候选词的原始序列和排序序列,然后从增长量能与重排损失两方面对各个候选词的原始序列和排序序列进行分析,将原本对于一个频率序列增长态势的分析拆分为两个层面,进而根据候选词的增长量能与重排损失、以及构建的热度模型,便可计算出每个候选词的热度,最后依据每个候选词的热度从中挑选出真正的热词。
其中,原始序列通过对频率数据按照时间顺序进行排序得到,排序序列通过对频率数据按照大小关系进行排序得到;增长量能表示排序序列中频率数据的增长幅度,重排损失表示原始序列和排序序列之间的差异性。
而且,对于某一候选词的原始序列,在只改变原有顺序的情况下,其热度最大的形态应当是原始序列中的所有频率呈单调递增的形态;一个热度高的热词应当是增长量能大而重排损失小,即原始序列接近于递增形态,并且增幅较大。
基于此,可实现本发明的一种热词提取方法和一种热词提取装置,下面结合附图和实施例进行进一步的详细说明。
方法实施例:
本发明的一种热词提取方法实施例,其整体流程如图1所示:
步骤一,获取一定时间段内的科技文献(如论文、专利、报道、成果等),对文献进行必要的前处理(如PDF解析、去重处理、文本提取等),提取文献的标题、关键词、摘要、主体内容等文本作为语料。
步骤二,对语料进行分词,得到的分词结果。一般情况下,可以采用分词模型来对语料进行分词以得到候选词。但考虑到基于训练语料的分词模型对未登录词的识别能力较弱,应该采取对未登录词识别能力较强的分词模型(如通过部分标注语料对分词模型进行二次训练、或采用BERT、CRF等对未登录词识别能力较强的模型)或引入新词发现策略(如引入外部字典或知识库)。
步骤三,对步骤二得到的分词结果进行清洗。由于热词提取的研究对象为词语,因此分词的准确性将极大地影响热词的分析准确率,需要对分词结果进行清洗,以获取更加准确的分词结果,具体过程包括:
1)对没有具体意义的停用词进行清洗。
2)对分词结果进行微调。由于使用分词模型的不同可能会将一些专有名词分开,此时需要通过相应策略对分词结果进行调整。例如,基因编辑技术“CRISPR/Cas9”、新的烟草品种“中烟100”、化学检测方法“GC-MS”等词是由中文、英文、数字、特殊字符等多种字符组成的词汇,容易被分词方法误分,需要对分词结果进行调整,包括合并、二次切分、替换等操作。
3)对分词结果中的垃圾串进行清洗。垃圾串往往是使用频率较高但不具有参考价值的短语,以“主谓”结构或“动宾”结构的短语为代表,例如“结果是”、“研究表明”等。当语料为某一领域的语料时,如科技论文、专利、微博、新闻等,会存在一定的惯用语句与句式,会造成此类垃圾串,可以有针对性的进行拆分或剔除。
4)对同义词进行合并。同义词现象在新词发现中较为常见,由于新词往往尚未形成统一的叫法,例如,近年来出现频率较高的“生物炭”与“生物质炭”、“细支烟”与“细支卷烟”、“降焦减害”与“减害降焦”等都属于同义词。当一个词语被多个同义词表示时,其出现的频率将被分散,影响频率统计的准确率。更进一步的,可通过词向量、编辑距离评估词语之间的相似程度,通过聚类分析对同义词进行发现与合并。
步骤四,将经过步骤三处理后的得到的分词结果作为候选词,对所有候选词进行整合与去重,形成候选词表V,候选词总数为n=|V|。
步骤五,根据所选择的时间窗口(或者称为时间段),如以年、月、周、日作为一个时间窗口,针对候选词表中的每一个候选词,按照时间顺序依次对该候选词的频率进行统计,得到以时间先后顺序进行排列的词频序列,记为原始序列Vi。此处的时间顺序可为时间从远至近的顺序排列,也可为时间从近至远的顺序排列,本实施例中,原始序列Vi为按照从远至近的时间顺序排列得到的序列。其中,频率可以是词汇在该时间点的出现次数、文档频率、平均次数、或任何基于词频的单调函数映射。并利用加一法对频率进行处理,以避免0值,并对频率进行归一化处理。
按此方法对所有候选词表中的候选词进行处理,得到所有候选词的频率矩阵W,如下图所示频率矩阵W是所有候选词的频率统计,vi,j表示第i个词在第j个时间窗口中内的频率数据,m为原始序列Vi的长度。
并根据原始序列Vi中各个频率数据的大小关系对原始序列Vi重新进行排列,对于频率相等的,按照原始顺序Vi进行排列,排列后得到排序序列。其中,若原始序列按照从远至近的时间顺序排列,相应的排序序列需要按照从小到大的顺序排列,此时排序序列为递增序列;若原始序列按照从近至远的时间顺序排列,相应的排序序列需要按照从大到小的顺序排列,此时排序序列为递减序列。本实施例中,排序序列使用递增序列V′i。
步骤六,计算第i个候选词的增长量能。在计算增长量能过程中,本发明设计了对参数不敏感的基于滑动窗口的频率变化评估方法。增长量能的具体计算过程如下:
1)针对一个候选词所对应的递增序列V′i,利用观察窗进行子序列提取得到不同的观察组一个观察组包括两个子序列,这两个子序列分别利用两个窗口进行子序列提取得到,以递增序列中频率值最大的频率数据为基准,称距离该基准较近的窗口为near窗口,距离该基准较远的窗口为far窗口,利用near窗口提取到的子序列称为第一子序列 利用far窗口提取到的子序列为第二子序列这两个子序列为一组子序列,即一个观察组对于第一子序列和第二子序列来说,满足v′i,r≤v′i,p且v′i,s≤v′i,q(某些情况下,第一子序列和第二子序列所包括的频率数据可能会出现重合)。
本实施例中,设置一个观察组所提取到的第一子序列和第二子序列的长度相等,均为L,即第一子序列所包括的频率数据的个数和第二子序列所包括的频率数据的个数相等。第一子序列利用距离基准最近的窗口长度为L的窗口提取得到,第二子序列利用位于第一子序列之前的窗口长度为L的窗口提取得到数据。当L取不同的数值,可以得到不同观察组。本实施例中,在频率数据允许的长度范围内,即m<2L,取L的所有取值,得到不同观察组
2)针对不同观察组设置相应的权重权重的配置与热词在应用场景中的定义有关。以时间参数T来确定权值大小,时间参数T的含义为:对于一个观察组,计算其两个子序列中每个频率数据与基准之间的实际时间距离,并取所有实际时间距离的平均值作为该观察组所对应的时间参数T。如果热词的定义倾向于词汇在长期内的热度变化,此时T值较大的观察组(即时间覆盖范围较大)应当具有较高的权重,T值较小的观察组(即时间覆盖范围较小)当具有较小的权重,因此权重应当与T值呈正相关;反之,如果热词的定义倾向于度量词汇在短期内的热度变化,则权重应当与T值呈负相关。
3)针对一个观察组分别计算其利用near窗口提取的第一子序列所对应的频率相对于利用far窗口提取的第二子序列所对应的频率的变化情况。本实施例中,near窗口提取的第一子序列所对应的频率为第一子序列中所有频率数据的平均值,far窗口提取的第二子序列所对应的频率为第二子序列中所频率数据的平均值;而且,变化情况为第一子序列所对应的频率对于第二子序列所对应的频率的增长率,公式如下:
4)根据设置的权重对每个观察组对应的变化情况进行整合,以得到该候选词的增长量能Ei。本实施例中,所选用的整合手段为对各个观察组的变化情况进行加权求和,即:
步骤七,计算第i个候选词的重排损失。重排损失主要的度量对象是原始形态与递增形态之间的差异。重排损失的度量方法受到编辑距离的启发,编辑距离即将两个字符串调整至一致所需的操作次数,而在形态转变过程中,不存在增加和删除,因此只存在互换操作(原始序列中的各个频率数据的互换操作)。互换的损失考虑两个因素,一个是被互换的两个频率数据之间的间隔距离,且互换两个间隔长的频率数据应当造成较大的损失,另一个是被互换的两个频率数据之间的频率差异,且互换两个频率差异大的频率数据应当造成较大的损失。重排损失即是将原始形态中的频率数据通过互换转换成递增形态所造成的损失。具体过程如下:
1)获取第i个候选词所对应的递增序列V′i。
2)针对递增序列V′i中的第k个频率数据v′i,k,对递增序列V′i进行遍历,找到上一次频率数据互换后得到的中间序列中所对应的频率数据vi,j,且该频率数据vi,j满足位于第k-1个位置以后且第1个满足vi,j=v′i,k,计算vi,j与v′i,k之间的位置间隔D:
3)针对上一次频率数据互换后得到的中间序列,将步骤2)中的vi,j与其所对应的第k个位置上的频率数据vi,k进行互换,从而得到该次频率数据互换后的中间序列,并计算两者的频率差异S:
4)针对递增序列V′i中的每一个频率数据,按照从小到大的顺序依次重复分步骤2)与步骤3),直至经过频率数据互换操作后的Vi与V′i相同,此时计算第i个候选词的重排损失Ri:
步骤八,将第i个候选词的增长量能Ei与重排损失Ri代入至构建的热度模型中,计算第i个候选词的热度Hi。热度模型所体现的关系为:热度Hi与增长量能Ei正相关,热度Hi与重排损失Ri负相关。
对增长量能与重排损失的量级进一步分析,可以证明得到增长量能E在观察窗口同等权重的情况下的理论上最小值不小于-m/2,最大值受频率波动影响较大,存在无限大的可能。重排损失的量级最小值为0,理论上的最大值不超过m-1,其中m是原始序列的长度。
在结合增长量能与重排损失的时候,综合考虑三点因素:①E与R通过对热度的贡献应处于同一量级内;②当重排损失为0时,H应等效于E;③重排损失不对热度计算形成支配地位(即可以由于重排损失过大造成候选词热度较低,但是不能单方面由于重排损失过小而使得热度较高)。
本实施例中,采用对Ei设置最大值的形式避免极端值对统计结果的影响,采用加一法避免分母为0,同时避免由于重排损失过小而处于支配地位的情况,最终设置的热度模型为:
步骤九,遍历频率矩阵W,按照步骤六至步骤八的方式,利用频率矩阵W中其余候选词原始序列计算其对应的热度Hi。在得到每个候选词的热度后,根据热度阈值,筛选出热度高于热度阈值的候选词作为提取出的热词。
下面结合一个具体的实例,对本发明的有效性进行验证。
从语料中统计出候选词1与候选词2频率数据的原始序列如下:
候选词1的原始序列=[3 2 3 2 5 3 4 6 9 10]
候选词2的原始序列=[5 9 6 8 4 6 3 5 0 4]
候选词1与候选词2的频率变化情况分别如图2-1和图2-2所示。从两个候选词的频率变化情况来看,候选词1呈现加速上升趋势,候选词2呈现略微下降趋势,因此理论上候选词1的热度应当高于候选词2。作为对比验证,分别以对比方法一、对比方法二、以及本发明所述方法对候选词的热度进行统计。对比方法一选用授权公告号为CN107967299B的中国发明专利申请所公开的一种面向农业舆情的热词自动提取方法,对比方法二选用2019年发表的《基于词频均值波动和概率语言模型的短文本热点主题探测研究》中所公开的方法。
1、对比方法一。
首先,针对候选1和候选词2分别计算其基础权值,其计算公式如下:
B=lg(1+lg(1+lg(tf+1)))
其中,tf为单个时间窗口的频率。
然后,通过计算,得到候选词1与候选词2的基础权值分别如下:
候选词1的基础权值B=[0.63 0.55 0.63 0.55 0.71 0.63 0.67 0.73 0.790.80]
候选词2的基础权值B=[0.71 0.79 0.73 0.77 0.67 0.73 0.63 0.71 0.000.67]
接着,分别计算其整体波动性V,长期变化L、短期变化S,波动权值F,计算方式分别如下:
F=V*0.4+L*0.4+S*0.2
由计算得到候选词1和候选词2的分别如下:
候选词1的波动权值=0.74
候选词2的波动权值=1.02
最终,得到热度权值H,其计算公式如下:
H=B*0.5+F*0.5
由此计算得到候选词1和候选词2的热度分别如下:
候选词1的热度=0.77
候选词2的热度=0.85
即,通过对比方法一得出的结论为:候选词2的热度比候选词1的热度高。
2、对比方法二。
首先,针对候选词1与候选词2分别计算其相临时间窗口的频率波动值,将正向波动值相加,获得其波动系数,将波动系数高的作为显著波动词,再通过词频排序筛选得到高频热点词。波动系数的计算公式如下:
δ=∑Kwi·tn/V(Kwi·tn>0)
其中,Kwi·tn为同一个候选词在tn+1与tn时间窗口的词频差值,V为该候选词出现的总次数。
通过计算得到候选词1和候选词2的波动系数分别如下:
候选词1的波动系数=0.23
候选词2的波动系数=0.28
由此得出,候选词2的波动系数比候选词1的波动系数高,更倾向于被选为热词。
3、本发明方法。
首先,分别计算候选词1与候选词2经过加一法处理、归一化后、保留两位小数的频率序列,即原始序列:
V1=[0.07 0.05 0.07 0.05 0.11 0.07 0.09 0.12 0.18 0.19]
V2=[0.10 0.17 0.12 0.15 0.08 0.12 0.07 0.10 0.02 0.08]
按照递增排列后得到递增序列:
V′1=[0.05 0.05 0.07 0.07 0.07 0.09 0.11 0.12 0.18 0.19]
V′2=[0.02 0.07 0.08 0.08 0.10 0.10 0.12 0.12 0.15 0.17]
然后,分别计算候选词1和候选词2的增长量能、重排损失,以最终计算得到两个候选词的热度。下面具体介绍。
1)计算增长量能。
①选取不同的near和far窗口,提取得到不同观察组。分别提取L为1到5的不同观察组,得到如下结果:
②不对不同观察组设置任何权重,计算得到相应的增长量能为:
E1=0.06+0.61+0.81+1.00+1.23=3.71
E2=0.13+0.33+0.38+0.56+0.89=2.29
2)计算重排损失。
①针对V1与V′1:
V1=[0.07 0.05 0.07 0.05 0.11 0.07 0.09 0.12 0.18 0.19]
V′1=[0.05 0.05 0.07 0.07 0.07 0.09 0.11 0.12 0.18 0.19]
进行如下互换操作:
操作1:针对v′1,1,V1中与其对应的是v1,2,互换v1,2与v1,1,损失值为0.02*1=0.02,得到如下中间序列:
[v1,2 v1,1 v1,3 v1,4 v1,5 v1,6 v1,7 v1,8 v1,9 v1,10]
操作2:针对v′1,2,V1中与其对应的是v1,4,互换v1,4与v1,1,损失值为0.02*2=0.04,得到如下中间序列:
[v1,2 v1,4 v1,3 v1,1 v1,5 v1,6 v1,7 v1,8 v1,9 v1,10]
操作3:针对v′1,3,V1中与其对应的是v1,1,互换v1,1与v1,3,损失值为0,得到如下中间序列:
[v1,2 v1,4 v1,1 v1,3 v1,5 v1,6 v1,7 v1,8 v1,9 v1,10]
操作4:针对v′1,4,V1中与其对应的是v1,3,其位置不变,损失值为0。
[v1,2 v1,4 v1,1 v1,3 v1,5 v1,6 v1,7 v1,8 v1,9 v1,10]
操作5:针对v′1,5,V1中与其对应的是v1,6,互换v1,6与v1,5,损失值为0.04*1=0.04,得到如下中间序列:
[v1,2 v1,4 v1,1 v1,3 v1,6 v1,5 v1,7 v1,8 v1,9 v1,10]
操作6:针对v′1,6,V1中与其对应的是v1,7,互换v1,7与v1,5,损失值为0.02*1=0.02,得到如下中间序列:
[v1,2 v1,4 v1,1 v1,3 v1,6 v1,7 v1,5 v1,8 v1,9 v1,10]
操作7:针对v′1,7,V1中与其对应的是v1,5,其位置不变,损失值为0。
操作8:针对v′1,8,V1中与其对应的是v1,8,其位置不变,损失值为0。
操作9:针对v′1,9,V1中与其对应的是v1,9,其位置不变,损失值为0。
操作10:针对v′1,10,V1中与其对应的是v1,10,其位置不变,损失值为0。
最终变换得到的序列与V′1相同,R1=0.2+0.04+0.04+0.02=0.12。
②针对V2与V′2:
V2=[0.10 0.17 0.12 0.15 0.08 0.12 0.07 0.10 0.02 0.08]
V′2=[0.02 0.07 0.08 0.08 0.10 0.10 0.12 0.12 0.15 0.17]
进行如下互换操作:
操作1:针对v′2,1,V2中与其对应的是v2,9,互换v2,9与v2,1,损失值为0.08*8=0.64,得到如下中间序列:
[v2,9 v2,2 v2,3 v2,4 v2,5 v2,6 v2,7 v2,8 v2,1 v2,10]
操作2:针对v′2,2,V2中与其对应的是v2,7,互换v2,7与v2,2,损失值为0.10*5=0.50,得到如下中间序列:
[v2,9 v2,7 v2,3 v2,4 v2,5 v2,6 v2,2 v2,8 v2,1 v2,10]
操作3:针对v′2,3,V2中与其对应的是v2,5,互换v2,5与v2,3,损失值为0.04*2=0.08,得到如下中间序列:
[v2,9 v2,7 v2,5 v2,4 v2,3 v2,6 v2,2 v2,8 v2,1 v2,10]
操作4:针对v′2,4,V2中与其对应的是v2,10,互换v2,10与v2,4,损失值为0.07*6=0.42,得到如下中间序列:
[v2,9 v2,7 v2,5 v2,10 v2,3 v2,6 v2,2 v2,8 v2,1 v2,4]
操作5:针对v′2,5,V2中与其对应的是v2,8,互换v2,8与v2,3,损失值为0.02*3=0.06,得到如下中间序列:
[v2,9 v2,7 v2,5 v2,10 v2,8 v2,6 v2,2 v2,3 v2,1 v2,4]
操作6:针对v′2,6,V2中与其对应的是v2,1,互换v2,1与v2,6,损失值为0.02*3=0.06,得到如下中间序列:
[v2,9 v2,7 v2,5 v2,10 v2,8 v2,1 v2,2 v2,3 v2,6 v2,4]
操作7:针对v′2,7,V2中与其对应的是v2,3,互换v2,3与v2,2,损失值为0.05*1=0.05,得到如下中间序列:
[v2,9 v2,7 v2,5 v2,10 v2,8 v2,1 v2,3 v2,2 v2,6 v2,4]
操作8:针对v′2,8,V2中与其对应的是v2,6,互换v2,6与v2,2,损失值为0.05*1=0.05,得到如下中间序列:
[v2,9 v2,7 v2,5 v2,10 v2,8 v2,1 v2,3 v2,6 v2,2 v2,4]
操作9:针对v′2,9,V2中与其对应的是v2,4,互换v2,4与v2,2,损失值为0.02*1=0.02,得到如下中间序列:
[v2,9 v2,7 v2,5 v2,10 v2,8 v2,1 v2,3 v2,6 v2,4 v2,2]
操作10:针对v′2,10,V2中与其对应的是v2,2,其位置不变,损失值为0。
最终变换得到的序列与V′2相同,R2=0.64+0.50+0.08+0.42+0.06+0.06+0.05+0.05+0.02=1.88。
3)计算热度。
通过计算,得到候选词1与候选词2的热度如下:
由此得出,候选词1的热度比候选词2的热度高。
作为对比,下表列出三种方法的结果。
表1
本发明方法 | 对比方法一 | 对比方法二 | |
候选词1热度 | 3.37 | 0.77 | 0.23 |
候选词2热度 | 0.80 | 0.85 | 0.28 |
由于从频率变化趋势可以看出候选词1的热度应当明显高于候选词2,由此验证本发明的热词提取方法在以下即方面存在优势:本发明能够有效的避免噪声性波动的影响,具有较高的准确率。
综上,本发明所述方法通过将传统的对于一个频率序列增长态势的分析拆分为增长量能与重排损失两个层面,在保留原始信息的同时有效避免了噪声性波动的影响,热词提取的精准度较高;同时,与对比方法相比模型普适性与可用性强,不依赖任何数据集,对参数不敏感。
本实施例的步骤七中给出了一种频率数据互换方法。作为其他实施方式,还可通过宽度优先搜索(BFS)或深度优先搜索(DFS)等搜索策略遍历所有互换操作,并选取重排损失最小的路径作为频率数据互换方法,从经验角度,本发明所述频率数据互换方法与重排损失最小的互换方法等效。
本实施例的步骤六中,采用增长率来表征一个观察组中的两个子序列之间的差异。作为其他实施方式,还可选用差值、比值等作为两个子序列之间的差异。
本实施例中,原始序列按照时间从远至近的顺序排列,排序序列(此时为递增序列)按照从小到大的顺序排列。作为其他实施方式,原始序列还可按照时间从近至远的顺序排列,排序序列(此时为递减序列)按照从大到小的顺序排列。两种排序方式进行后续分析处理的原理是相同的。
装置实施例:
本发明的一种热词提取装置实施例,如图3所示,包括存储器、处理器和内部总线,处理器、存储器之间通过内部总线完成相互间的通信和数据交互。存储器包括至少一个存储于存储器中的软件功能模块,处理器通过运行存储在存储器中的软件程序以及模块,执行各种功能应用以及数据处理,实现本发明的方法实施例中介绍的一种热词提取方法。
其中,处理器可以为微处理器MCU、可编程逻辑器件FPGA等处理装置。存储器可为利用电能方式存储信息的各式存储器,例如RAM、ROM等;也可为利用磁能方式存储信息的各式存储器,例如硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘等;还可为利用光学方式存储信息的各式存储器,例如CD、DVD等;当然,还可为其他方式的存储器,例如量子存储器、石墨烯存储器等。
Claims (10)
1.一种热词提取方法,其特征在于,包括如下步骤:
1)获取所有候选词,统计各个候选词在不同时间段内出现的频率数据;
2)对于第i个候选词,按照时间顺序对频率数据进行排序得到原始序列Vi,按照频率大小关系对频率数据进行排序得到排序序列V′i;
3)采用如下方法计算第i个候选词的增长量能Ei:
提取第i个候选词的排序序列V′i的不同观察组,一个观察组包括两个不同的子序列,分别为第一子序列和第二子序列,第一子序列中频率数据的最大值大于等于第二子序列中频率数据的最大值、且第一子序列中频率数据的最小值大于等于第二子序列中频率数据的最小值;
计算一个观察组中第一子序列与第二子序列之间的差异;
根据各个观察组中两个子序列之间的差异,计算得到第i个候选词的增长量能Ei;
4)采用如下方法计算第i个候选词的重排损失Ri:
将第i个候选词从原始序列Vi变换至排序序列V′i过程中,确定每做一次频率数据互换时两个被互换的频率数据之间的位置间隔和频率差异;
根据每一次频率数据互换所对应的位置间隔和频率差异,计算得到第i个候选词的重排损失Ri:
5)将第i个候选词的增长量能Ei和重排损失Ri代入至构建的热度模型中,计算得到第i个候选词的热度Hi;所述热度模型体现的关系为:增长量能Ei与热度Hi呈正相关关系,重排损失Ri与热度Hi呈负相关关系;
6)按照步骤2)~步骤5)的方式计算得到每个候选词的热度,挑选热度大于热度阈值的候选词作为提取出的热词。
2.根据权利要求1所述的热词提取方法,其特征在于,步骤3)中,所述一个观察组中第一子序列与第二子序列之间的差异为第一子序列所对应的频率相较于第二子序列所对应的频率的增长率,且第一子序列所对应的频率为第一子序列中所有频率数据的平均值,第二子序列所对应的频率为第二子序列中所有频率数据的平均值。
3.根据权利要求1或2所述的热词提取方法,其特征在于,步骤3)中,根据各个观察组中两个子序列之间的差异,计算第i个候选词的增长量能Ei所采用的方法为:将各个观察组的两个子序列之间的差异进行加权求和,得到第i个候选词的增长量能Ei。
4.根据权利要求1所述的热词提取方法,其特征在于,步骤4)中,根据每一次频率数据互换所对应的位置间隔和频率差异,计算第i个候选词的重排损失Ri的方法为:将一次频率数据互换所对应的位置间隔和频率差异进行相乘,得到一次频率数据互换所对应的乘积结果;将各次频率数据互换所对应的乘积结果相加,得到第i个候选词的重排损失Ri。
5.根据权利要求1或4所述的热词提取方法,其特征在于,步骤4)中,为了将第i个候选词从原始序列Vi变换至排序序列V′i,所采用的频率数据互换方法为:
从排序序列V′i中第1个位置处的频率数据开始依次按照如下方式进行互换,直至原始序列Vi与排序序列V′i相同:对于排序序列V′i中的第k个频率数据v′i,k,找到上一次频率数据互换后得到的中间序列中从第k个位置开始、第1个满足vi,j=v′i,k的频率数据vi,j,并在上一次频率数据互换后得到的中间序列中将频率数据vi,j与频率数据vi,k的位置进行互换,得到该次频率数据互换后的中间序列。
7.根据权利要求1所述的热词提取方法,其特征在于,步骤1)中获取候选词的方法为:获取各种文献,从文献中提取语料;对语料进行分词处理,得到分词结果;根据分词结果确定候选词。
8.根据权利要求7所述的热词提取方法,其特征在于,根据分词结果确定候选词的方法包括:对分词结果进行数据清洗以得到候选词;数据清洗方法包括以下方法中的至少一种:
对没有意义的停用词进行数据清洗;
将误分成多个词语的一个词语进行合并、二次切分或者替换操作,以得到正确的分词结果;
对垃圾串进行剔除,所述垃圾串包括惯用语句或句式;
对同义词进行合并。
9.根据权利要求3所述的热词提取方法,其特征在于,如果热词的定义倾向于词汇在长期内的热度变化,则观察组所对应的时间参数T越大,该观察组所对应的权重越大;反之,如果热词的定义倾向于度量词汇在短期内的热度变化,则观察组所对应的时间参数T越大,该观察组所对应的权重越小;时间参数T的采用如下方式计算得到:对于一个观察组,计算两个子序列中每个频率数据与最大频率数据之间的实际时间距离,并取所有实际时间距离的平均值作为该观察组所对应的时间参数T。
10.一种热词提取装置,其特征在于,包括存储器和处理器,所述处理器用于执行存储在存储器中的指令以实现如权利要求1~9任一项所述的热词提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111235555.0A CN113988053A (zh) | 2021-10-22 | 2021-10-22 | 一种热词提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111235555.0A CN113988053A (zh) | 2021-10-22 | 2021-10-22 | 一种热词提取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113988053A true CN113988053A (zh) | 2022-01-28 |
Family
ID=79740592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111235555.0A Pending CN113988053A (zh) | 2021-10-22 | 2021-10-22 | 一种热词提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113988053A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114938477A (zh) * | 2022-06-23 | 2022-08-23 | 阿里巴巴(中国)有限公司 | 视频话题确定方法、装置及设备 |
CN116227472A (zh) * | 2023-03-06 | 2023-06-06 | 成都工业学院 | 一种bert-flat实体识别的配件同义词库构建法 |
CN117252306A (zh) * | 2023-10-11 | 2023-12-19 | 中央民族大学 | 一种基因编辑能力指数计算方法 |
CN117371436A (zh) * | 2023-10-09 | 2024-01-09 | 北京睿企信息科技有限公司 | 一种热度递增的热词获取系统 |
-
2021
- 2021-10-22 CN CN202111235555.0A patent/CN113988053A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114938477A (zh) * | 2022-06-23 | 2022-08-23 | 阿里巴巴(中国)有限公司 | 视频话题确定方法、装置及设备 |
CN114938477B (zh) * | 2022-06-23 | 2024-05-03 | 阿里巴巴(中国)有限公司 | 视频话题确定方法、装置及设备 |
CN116227472A (zh) * | 2023-03-06 | 2023-06-06 | 成都工业学院 | 一种bert-flat实体识别的配件同义词库构建法 |
CN116227472B (zh) * | 2023-03-06 | 2024-05-07 | 成都工业学院 | 一种bert-flat实体识别的配件同义词库构建法 |
CN117371436A (zh) * | 2023-10-09 | 2024-01-09 | 北京睿企信息科技有限公司 | 一种热度递增的热词获取系统 |
CN117371436B (zh) * | 2023-10-09 | 2024-04-12 | 北京睿企信息科技有限公司 | 一种热度递增的热词获取系统 |
CN117252306A (zh) * | 2023-10-11 | 2023-12-19 | 中央民族大学 | 一种基因编辑能力指数计算方法 |
CN117252306B (zh) * | 2023-10-11 | 2024-02-27 | 中央民族大学 | 一种基因编辑能力指数计算方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110059311B (zh) | 一种面向司法文本数据的关键词提取方法及系统 | |
CN109858028B (zh) | 一种基于概率模型的短文本相似度计算方法 | |
CN108197117B (zh) | 一种基于文档主题结构与语义的中文文本关键词提取方法 | |
CN109190117B (zh) | 一种基于词向量的短文本语义相似度计算方法 | |
CN108920456B (zh) | 一种关键词自动抽取方法 | |
CN109960724B (zh) | 一种基于tf-idf的文本摘要方法 | |
CN113988053A (zh) | 一种热词提取方法及装置 | |
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
CN106372061B (zh) | 基于语义的短文本相似度计算方法 | |
CN107895000B (zh) | 一种基于卷积神经网络的跨领域语义信息检索方法 | |
CN111125349A (zh) | 基于词频和语义的图模型文本摘要生成方法 | |
CN110543564B (zh) | 基于主题模型的领域标签获取方法 | |
CN109522547B (zh) | 基于模式学习的中文同义词迭代抽取方法 | |
CN112989802B (zh) | 一种弹幕关键词提取方法、装置、设备及介质 | |
CN107092675B (zh) | 一种基于统计和浅层语言分析的维吾尔文语义串抽取方法 | |
CN110134799B (zh) | 一种基于bm25算法的文本语料库的搭建和优化方法 | |
CN110674296B (zh) | 一种基于关键词的资讯摘要提取方法及系统 | |
CN114065758A (zh) | 一种基于超图随机游走的文档关键词抽取方法 | |
CN110705247A (zh) | 基于χ2-C的文本相似度计算方法 | |
CN113032557A (zh) | 一种基于频繁词集与bert语义的微博热点话题发现方法 | |
Ao et al. | News keywords extraction algorithm based on TextRank and classified TF-IDF | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
Ajallouda et al. | Kp-use: an unsupervised approach for key-phrases extraction from documents | |
CN113032573B (zh) | 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统 | |
CN117057346A (zh) | 一种基于加权TextRank和K-means的领域关键词抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |