CN113360646A - 基于动态权重的文本生成方法、设备及存储介质 - Google Patents
基于动态权重的文本生成方法、设备及存储介质 Download PDFInfo
- Publication number
- CN113360646A CN113360646A CN202110614527.3A CN202110614527A CN113360646A CN 113360646 A CN113360646 A CN 113360646A CN 202110614527 A CN202110614527 A CN 202110614527A CN 113360646 A CN113360646 A CN 113360646A
- Authority
- CN
- China
- Prior art keywords
- word
- hot
- text
- words
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于动态权重的文本生成方法、设备及存储介质,所述文本生成方法包括:构建热词词库,热词词库中存储有每隔第一预设时间段获取的热搜词及每个热搜词的热搜权重,每个热搜词的热搜权重根据每个热搜词的频率参数和每个热搜词的构建时间生成;接收输入的任一文本;从任一文本中提取多个主题词;匹配主题词与热词词库,得到每个主题词的热搜权重;根据包含热搜权重的主题词生成更新后的文本。本申请实现动态加权的新闻事件多主题自动生成方法,根据增量自动搜索构建的热词,结合词的频次信息和热搜时间信息动态地赋予热词相应权重,用以处理更新快的实时性网络新闻数据。
Description
技术领域
本发明属于自然语言处理领域,特别涉及一种基于动态权重的文本生成方法、设备及存储介质。
背景技术
随着互联网的普及,网络逐渐成为社会中各种信息的载体,越来越多的人通过网络获取实时新闻及其相关信息,网页文本已成为获取信息的重要来源,每天都有大量的新闻热点产生,如何利用文本自动生成技术从海量的新闻文本中获取当前讨论的热点话题已经成为新闻文本处理必备的基础技术。同时,文本自动生成是自然语言处理领域的一项重要的具有挑战性的研究任务,旨在让计算机学会像人类一样写出高质量的自然语言文本,广泛应用于机器翻译、文本摘要、搜索推荐、问答和对话系统等方面。
新闻报道是事件的载体,一篇新闻报道中可能出现多个原子事件,然而这些原子事件往往是对关键事件不同方面的补充,通常人们对于一篇新闻报道更加注重的是这篇新闻报道的关键事件,目前从单篇新闻报道中抽取新闻要点的事件抽取研究,国内外学者都做了大量研究,并取得了一定效果,这些研究主要针对新闻事件的原子事件和主题事件这两个方面的信息抽取,但是原子事件级别的事件抽取粒度过细,实用性不足,主题级别的事件抽取粒度较粗,精确提取事件信息的效率较差。
随着深度学习技术的发展,众多基于深度神经网络模型的文本生成方法被提出来,尽管,生成在一定程度上解决了连贯性的问题,但是,深度学习在文本自动生成方面仍存在主题单一、主题分布缺乏多样性,主题词覆盖不全等问题。另外,新闻具有实时性的显著特点,而大多数网络新闻产品往往只是简单地将实时新闻报道或信息展现给用户,很难对新闻按照内容进行组织归类,造成主题分布分散,同时,由于人们对于新闻的兴趣也会随着时间的推移发生变化,所以,如何才能更好地实时性的突出新闻的重点,仍然是当下文本生成存在的难点。
发明内容
本发明要解决的技术问题是为了克服现有技术中文本自动生成存在主题单一、主题分布缺乏多样性,主题词覆盖不全、无法实时突出新闻热点等问题的缺陷,提供一种基于动态权重的文本生成方法、设备及存储介质。
本发明是通过下述技术方案来解决上述技术问题:
一种基于动态权重的文本生成方法,所述文本生成方法包括:
构建热词词库,所述热词词库中存储有每隔第一预设时间段获取的热搜词及每个热搜词的热搜权重,所述每个热搜词的热搜权重根据所述每个热搜词的频率参数和所述每个热搜词的构建时间生成;
接收输入的任一文本;
从所述任一文本中提取多个主题词;
匹配所述主题词与所述热词词库,得到每个主题词的热搜权重;
根据包含热搜权重的主题词生成更新后的文本。
较佳地,所述文本生成方法通过以下步骤生成所述频率参数,具体包括:
构建语料库,所述语料库存储有多个标准词;
基于所述语料库对所述第一预设时间段内的所有热搜新闻文本进行切词得到多个分词,并统计每个分词的TF(词频)值;
选取TF值大于预设阈值的分词作为热搜词;
以预设周期内的所有新闻文本为单位文本统计每个热搜词的IDF(逆向文件频率)值;
所述频率参数包括所述TF值和所述IDF值。
较佳地,所述文本生成方法通过以下公式计算得到所述热搜权重,具体包括:
Wi=TFi*IDFi*[a×exp(-λ×ti)]
其中,Wi为第i个热搜词的热搜权重;TFi为第i个热搜词的TF值;IDFi为第i个热搜词的IDF值;a为初始权重;λ为时间衰减系数,1>λ>0;ti为第i个热搜词被确定为热搜词的时间与当前时间的时间差。
较佳地,所述构建语料库的步骤具体包括:
爬取预设第二时间段内的所有网络文本;
基于不同的词长对所述网络文本进行切词,并统计每个词的频率;
对每个词长,将频率大于与所述每个词长对应的预设频率的词作为所述标准词。
较佳地,所述从所述文本中提取多个主题词的步骤之后,所述文本生成方法还包括:
基于相似度算法获取所述主题词的扩展词,并基于所述主题词和所述扩展词生成关键词库;
基于聚类算法对所述关键词库中的词进行分类,得到多个聚类关键词以及每个聚类关键词的聚类主题信息;
匹配所述聚类关键词与所述热词词库,得到每个聚类关键词的热搜权重;
所述根据包含热搜权重的主题词生成更新后的文本的步骤具体包括:
根据包含热搜权重的聚类关键词和所述聚类主题信息生成所述更新后的文本。
较佳地,所述根据包含热搜权重的主题词、聚类关键词和所述聚类主题信息生成所述更新后的文本的步骤具体包括:
将所述包含热搜权重的关键词及对应的任一文本中的位置信息输入双向长短记忆网络进行词编码,得到每个关键词的词向量表示及每个关键词的位置编码;
基于注意力机制根据所述词向量表示和所述位置编码得到每个关键词的注意力权重系数;
根据所述每个关键词的注意力权重系数对所述任一文本中每个句子进行句子编码,得到每个句子的句子向量表示;
基于注意力机制根据所述句子向量表示和每个聚类关键词的注意力权重系数进行文档编码,得到文档向量表示;
将所述词向量表示、所述句子向量表示和所述文档向量进行融合得到多尺度特征,并将所述多尺度特征输入文本生成模型,输出所述更新后的文本;
其中,所述文本生成模型是利用训练样本及其对应的文本模板对神经网络模型进行训练得到的。
较佳地,所述从所述文本中提取多个主题词的步骤具体包括:
基于LDA(一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构)概率主题模型提取所述多个主题词;
和/或,所述基于聚类算法对所述关键词库中的词进行分类的步骤具体包括:
基于K-means(典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大)算法对所述关键词库中的词进行分类;
和/或,所述将所述词向量表示、所述句子向量表示和所述文档向量进行融合得到多尺度特征的步骤具体包括:
基于注意力机制的神经网络模型对所述词向量表示、所述句子向量表示和所述文档向量进行融合得到多尺度特征。
较佳地,所述根据包含热搜权重的主题词生成更新后的文本的步骤之前,所述文本生成方法还包括:
对所述多个主题词赋予主题权重;
对每个主题词,选取主题权重与热搜权重中的较大值作为所述每个主题词的关键权重;
所述根据包含热搜权重的主题词生成更新后的文本的步骤中,根据包含关键权重的主题词生成更新后的文本。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的基于动态权重的文本生成方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的基于动态权重的文本生成方法。
本发明的积极进步效果在于:本申请实现动态加权的新闻事件多主题自动生成方法,根据增量自动搜索构建的热词,结合词的频次信息和热搜时间信息动态地赋予热词相应权重,用以处理更新快的实时性网络新闻数据。进一步的,通过主题词的金字塔提取算法,融合扩充关键词、聚类关键词、词特征、句子特征和文档特征,以覆盖文章更全面的关键信息。
附图说明
图1为本发明实施例1的基于动态权重的文本生成方法的流程图。
图2为本发明实施例1的基于动态权重的文本生成方法中热搜权重的计算方法的流程图。
图3为本发明实施例1的基于动态权重的文本生成方法中步骤101的流程图。
图4为本发明实施例1的基于动态权重的文本生成方法中步骤50的流程图。
图5为本发明实施例1的基于动态权重的文本生成方法中多尺度特征融合的网络示意图。
图6为本发明实施例1的基于动态权重的文本生成方法中文本生成的网络示意图。
图7为本发明实施例2的电子设备的结构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
一种基于动态权重的文本生成方法,如图1所示,所述文本生成方法包括:
步骤10、构建热词词库,热词词库中存储有每隔第一预设时间段获取的热搜词及每个热搜词的热搜权重,每个热搜词的热搜权重根据每个热搜词的频率参数和每个热搜词的构建时间生成;
步骤20、接收输入的任一文本;
步骤30、从任一文本中提取多个主题词;
其中,基于LDA概率主题模型提取多个主题词;
步骤40、匹配主题词与热词词库,得到每个主题词的热搜权重;
步骤50、根据包含热搜权重的主题词生成更新后的文本。
其中,如图2所示,通过以下步骤生成频率参数并进一步计算得到热搜权重,具体包括:
步骤101、构建语料库,语料库存储有多个标准词;
其中,如图3所示,步骤101具体包括:
步骤1011、爬取预设第二时间段内的所有网络文本;其中,优选的,网络文本可以爬取主流新闻网络热搜文本。
步骤1012、基于不同的词长对网络文本进行切词,并统计每个词的频率;
步骤1013、对每个词长,将频率大于与每个词长对应的预设频率的词作为标准词。
其中,选取某个固定的n(词长),统计2grams(词长为2的词)、3grams(词长为3的词)、…、ngrams(词长为n的词),计算它们的内部凝固度,具体可以用词统计后的频率来表征内部凝固度,保留高于某个阈值的部分词构成一个集合G,可以为2grams、3grams、…、ngrams设置不同的阈值,不一定要相同,一般来说字数越大统计就越不充分,越有可能偏高,所以字数越大,阈值要越高。
步骤102、基于语料库对第一预设时间段内的所有热搜新闻文本进行切词得到多个分词,并统计每个分词的TF值;
其中,为了兼顾准确性和凝固度,需要考虑多字,比如两个字“共和”不会出现在高凝固度集合中,所以会切开(比如“我一共和三个人去玩”,“共和”就切开了),但三字“共和国”出现在高凝固度集合中,所以“中华人民共和国”的“共和”不会切开,将统计出来的集合G进行保存。用上述保存的集合G对热搜新闻文本进行切分(粗糙的分词),并统计词频率。切分的规则是,只有一个片段出现在前一步得到的集合G中,这个片段就不切分,比如“各项目”,只要“各项”和“项目”都在G中,这时候就算“各项目”不在G中,那么“各项目”还是不切分,保留下来,这步就是根据第一步筛选出来的集合,对句子进行粗糙切分,这步保证词不被切错,接着把“粗糙的分词结果”做统计,筛选出高频词部分;最后,对切完的词再进行回溯,回溯就是检查,如果它是一个小于等于n字的词,那么检测它在不在G中,不在就移除;如果它是一个大于n字的词,那个检测它每个n字片段是不是在G中,只要有一个片段不在,就移除该词。还是以“各项目”为例,回溯就是看看,“各项目”在不在3gram中,不在的话,就得出局。第三步,例如因为“各项”和“项目”都出现高凝固度的片段中,所以第二步也不会把“各项目”切开,但不希望“各项目”成词,因为“各”跟“项目”的凝固度不高(“各”跟“项”的凝固度高,不代表“各”跟“项目”的凝固度高),所以通过回溯,把“各项目”移除。
步骤103、选取TF值大于预设阈值的分词作为热搜词;
其中,对于前述筛选出的高频词部分可以划分为热搜词。
步骤104、以预设周期内的所有新闻文本为单位文本统计每个热搜词的IDF值;频率参数包括TF值和IDF值。本实施例优选的取一个月的时间作为预设周期,那么前述的第一预设时间段可以为半年。
其中,IDF是逆向文档频率,其现有常规概念是反映一个词在所有文本中出现的频率,原有计算公式为:TF-IDF=TF*IDF,从这个计算公式可以看出,某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF,本实施例中将TF-IDF公式进行改进,原来公式中的频率计算是在一篇文档中进行统计,改进后,从一段时期内收集的所有文档进行逆文档词频的统计,即将这段时期内收集的所有文档看作为一篇文档。
步骤105、通过公式Wi=TFi*IDFi*[a×exp(-λ×ti)]计算得到热搜权重;其中,Wi为第i个热搜词的热搜权重;TFi为第i个热搜词的TF值;IDFi为第i个热搜词的IDF值;a为初始权重;λ为时间衰减系数,1>λ>0;ti为第i个热搜词被确定为热搜词的时间与当前时间的时间差。
其中,对于实时性很强的新闻来说,人们的兴趣点是会随着时间改变的,比如这段时间某公司出了一款新产品,人们很关注,但一个月后可能就不会太不在意这件事了,但是与该产品相关的关键词还一直在热词库中,历史热词和当前的相关性不断减弱,为了解决这种关注点迁移问题,引入一个时间衰减机制,即让热词库中的每个关键词权重都按一定周期保持衰减。考虑到不同词的TF-IDF值可能差异已经在不同的数量级,考虑用指数衰减的形式来相对进行公平的衰减。即引入一个λ系数,1>λ>0,每隔一段时间,对热词库中的所有关键词权重进行λ的衰减,这样来模拟人们的关注点迁移的过程。本实施例中用牛顿冷却定律数学模型,来模拟热词的权重随时间的衰减:一个较热的物体在一个温度比这个物体低的环境下,这个较热的物体的温度是要降低的,周围的物体温度要上升,最后物体的温度和周围的温度达到平衡,在这个平衡的过程中,较热物体的温度F(t)是随着时间t的增长而呈现指数型衰减,其温度衰减公式为:F(t)=初始温度×exp(-λ×间隔的时间),其中λ为衰减系数(冷却系数),初始温度可以看作热词的初始权重。除了热词的时间衰减因素,还可以综合考虑热词的位置和热词的覆盖频率,热词是在文章中的开头,结尾还是中间部分,热词库中有多少热词在这篇文章中出现等信息。还可以将这些信息进行加权计算,得到更精准的热搜权重。
本实施例中,参见图1,步骤40之后,文本生成方法还包括:
步骤41、基于相似度算法获取主题词的扩展词,并基于主题词和扩展词生成关键词库;
其中,基于Word2Vec预训练好的词向量,采用余弦相似度计算方法,筛选出与主题词相近的扩展词;
步骤42、基于聚类算法对关键词库中的词进行分类,得到多个聚类关键词以及每个聚类关键词的聚类主题信息;
其中,基于K-means算法对关键词库中的词进行分类,每个聚类包含若干个关键词,以形成文章的主题规划,每个聚类表示主题的某一方面信息;
步骤43、匹配聚类关键词与热词词库,得到每个聚类关键词的热搜权重;
进一步的,步骤50具体包括;根据包含热搜权重的聚类关键词和聚类主题信息生成更新后的文本。
本实施例中,进一步的,参见图4-5,图5示出了多尺度特征融合的网络示意图,步骤50具体包括:
步骤501、将包含热搜权重的关键词及对应的任一文本中的位置信息输入双向长短记忆网络进行词编码,得到每个关键词的词向量表示及每个关键词的位置编码;
其中,将包含热搜权重的关键词(也即主题词和扩展词)以及每个关键词的位置信息输入双向长短记忆网络进行词编码,得到每个关键词的词向量表示,其中的位置信息进行位置编码(扩展词的位置编码可以与主题词的同步);比如,给定一个包含T个单词的句子以及包含N个关键词的词集,首先将单词通过向量嵌入矩阵转化为词向量xi_(n+t)=We[win,wit],n∈[1,N],t∈[1,T],式中,i表示输入的任一文本中的第i个句子,n和t分别表示在T个单词和N个关键词中所在的位置,We是词向量矩阵,Win,Wit分别表示主题词和扩展词的词向量。
步骤502、基于注意力机制根据词向量表示和位置编码得到每个关键词的注意力权重系数;
其中,基于上述的词向量,使用双向GRU(一种循环神经网络)进一步获得句子的隐层表示,分别通过前向GRU自前向后遍历句子产生隐层表示,后向GRU自后向前遍历句子获得隐层表示,这样做可以充分提取上下文信息。将前向和后向GRU的隐层表示拼接在一起就得到了第i个句子中每个词对应的隐层表示:h为隐层表示,即包含了两个方向的信息。不是所有的单词对句子的意义表示都有同等重要的作用。加入注意力机制的目的就是为了给予那些对句子意义影响比较大的单词更高的权重。将上一层得到的隐层表示输入一个单层感知机,得到第i个句子中每个词对应的更高层次的隐层表示:ui_(n+t)=tanh(Wwhi_(n+t)+bw),式中Ww表示权重矩阵,bw为偏置向量,tanh为非线性激活函数,u为高层次隐层表示。然后衡量每个单词的重要程度,注意力矩阵公式为:
将上下文向量uw与高层次的隐向量表示输入softmax,得到每个词与上下文向量的相似度表示,即一个归一化的注意力权重矩阵。这个矩阵αi_(n+t)代表扩充关键词库i中第n个词和句子i中第t个词的注意力权重系数,公式中的上下文向量uw是随机初始化,并且在训练过程中不断进行优化。
步骤503、根据每个关键词的注意力权重系数对任一文本中每个句子进行句子编码,得到每个句子的句子向量表示;
其中,通过上面的词的权重计算,对新闻文本词和关键词新的隐层表示hi_(n+t)进行加权求和,得到关键词集合和句子i的向量表示si_(n+t)=Σn+tαi_(n+t)hi_(n+t)。得到关键词集合和句子的向量表示后,再一次使用双向GRU得到文档的隐层表示。类似的,将前向GRU与后向GRU获得的隐层表示进行拼接得到文档新的隐层表示:
其中M为聚类关键词的簇数,L为文章句子的数量,这样获得的表示可以包含两个方向的上下文信息,i介于1到M+L之间。
同样的,随机初始化一个上下文向量us(随着训练不断优化),将上下文信息的隐层表示经过单层感知机,得到更高层次的隐层表ui,这个过程就是重复上述的词编码和词注意力的计算过程,最后可以生成每一个句子的注意力结果,得到注意力矩阵公式αi:
步骤504、基于注意力机制根据句子向量表示和每个聚类关键词的注意力权重系数进行文档编码,得到文档向量表示;
其中,对文档中所有的句子和聚类关键词的隐变量表示加权求和,得到文档向量表示,最后得到向量v(v=∑iαihi),其就是整合了所有句子信息的文档表示,是文档的高层次的抽象表示。
步骤505、将词向量表示、句子向量表示和文档向量进行融合得到多尺度特征,并将多尺度特征输入文本生成模型,输出更新后的文本;其中,文本生成模型是利用训练样本及其对应的文本模板对神经网络模型进行训练得到的。需要说明的是,可以借助人工标注的文本或文本模板得到训练样本。
其中,模型将文档特征v和句子编码后产生的向量隐层表示以及词编码后得到的向量隐层表示进行相加融合,得到整个文章的多尺度融合特征。进一步的,基于多尺度特征生成文本的过程可以参考以下部分:
参见图6,示出了文本生成的网络示意图。在Seq2Seq+Attention的基础上,引入了拷贝机制,使得模型不仅具备传统Seq2Seq生成词的能力,而且可以从输入序列中拷贝合适的片段到输出序列中。对编码后的融合特征,输出一个隐层表示的矩阵作为解码器的输入。该解码器部分与传统的Seq2Seq的解码器有不同之处:
1,隐层矩阵结合了两种方式进行处理,一是使用了基于注意力机制的读取,二是选择性的读取,来获取混合了内容和位置的信息,获取位置信息之后与热搜权重进行叠加更新。
2,在状态更新部分,模型用t-1时刻的状态来更新t时刻的状态,更新时不仅使用t-1时刻的融合特征向量,还使用了隐层表示的矩阵特定位置的向量信息;
3,在文本生成时,有两种模式,一种是生成模式,一种是拷贝模式,最终的生成模型是一个结合两种模式的概率模型,并将最后的输出与热搜权重进行点积,进行生成控制,文本控制生成模块具体包括。
(1)隐层矩阵(Q)处理:对特征融合后的隐层矩阵的处理有两种方式,一是用注意力机制进行读取,主要获取文本内容特征,二是获取文本的位置特征,GRU能够将位置信息加入编码中,通过一步步状态的更新将位置信息依次加入到编码中,如文本控制生成模块的A部分所示。
(2)编码器状态更新:状态更新利用了t-1时刻的状态,t-1位置生成词语的嵌入向量,融合特征的隐含层状态以及上一状态对于的词的热搜权重,将他们对应位置的Q进行加权求和得到,如文本控制生成模块的B部分所示。
(3)拷贝和生成模式:给定了编码器当前状态和Q矩阵,生成目标单词的概率模型如下公式所示:
p(yt|st,yt-1,ct,Q)=p(yt,g|st,yt-1,ct,Q)+p(yt,c|st,yt-1,ct,Q);
其中,st表示编码器当前状态,yt-1表示t-1位置的生成目标信息,ct表示注意力机制进行读取后的加权求和结果,Q是隐含层矩阵状态表示,p(yt,g|st,yt-1,ct,Q)对应生成模式,p(yt,c|st,yt-1,ct,Q)对应拷贝模式,具体结构如文本控制生成模块的C部分所示。
最终,在多尺度特征融合的基础上生成主题多方面的文本信息,充分囊括每个主题信息使得生成文本所表达的信息保持完整,同时在动态热搜权重引导下,实现段落级文本多主题的控制生成。
另外,本实施例中,在基于主题约束的文本自动生成任务中,通常需要生成的文本内容与给定的主题词强相关,甚至直接包含部分主题词。为每个词汇的生成概率添加一个附加项,以提高主题词的生成可能性,这个附加项综合构建的热搜权重共同控制。同时,为了使模型生成的文本内容能够覆盖所有主题,引入N维主题覆盖向量对应主题聚类M,其中N是主题词个数,并为主题词赋值[0,1]的权重,表示主题在文本中的概率分布,根据包含热搜权重的主题词生成更新后的文本的步骤50之前,文本生成方法还包括:
对多个主题词赋予主题权重;
对每个主题词,选取主题权重与热搜权重中的较大值作为每个主题词的关键权重;
进一步的,根据包含热搜权重的主题词生成更新后的文本的步骤中,根据包含关键权重的主题词生成更新后的文本。
需要说明的是,对于前述的扩充词同样包含在权重设定范围内,在匹配热词词库后,若词库中查询得到的权重大于赋值的主题权重,则用热搜权重作为主题词的最终权重,若词库中查询得到的权重小于赋值的主题权重,则用主题权重作为主题词的最终权重。
本实施例中,利用从热搜中构建的带权重热词,即动态加权的热词库,添加作用到关键词抽取扩展部分和文本控制生成部分,为相应的主题热词添加一个权重附加项,提高当前流行热词在关键词集中和生成文本中出现的可能性,用以处理更新快的实时性网络新闻数据。通过对用户输入的一段描述性新闻文章进行理解和分析,形成词、句子和篇章级别的特征,并将特征进行融合,形成特征金字塔结构,使得输入到文本生成模块中文本整体语义结构保持较高的完整性和覆盖性。将多尺度融合的序列特征进行解码,在解码过程中引入拷贝和生成机制,使得模型不仅具备传统Seq2Seq生成词连贯性和多样性的能力,而且可以从输入序列中拷贝合适的片段到输出序列中保持主题的完整性,并在状态更新和解码过程中加入动态的热搜权重控制生成。
实施例2
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现实施例1所述的基于动态权重的文本生成方法。
图7为本实施例提供的一种电子设备的结构示意图。图7示出了适于用来实现本发明实施方式的示例性电子设备90的框图。图7显示的电子设备90仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,电子设备90可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备90的组件可以包括但不限于:至少一个处理器91、至少一个存储器92、连接不同系统组件(包括存储器92和处理器91)的总线93。
总线93包括数据总线、地址总线和控制总线。
存储器92可以包括易失性存储器,例如随机存取存储器(RAM)921和/或高速缓存存储器922,还可以进一步包括只读存储器(ROM)923。
存储器92还可以包括具有一组(至少一个)程序模块924的程序工具925,这样的程序模块924包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器91通过运行存储在存储器92中的计算机程序,从而执行各种功能应用以及数据处理。
电子设备90也可以与一个或多个外部设备94(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口95进行。并且,电子设备90还可以通过网络适配器96与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器96通过总线93与电子设备90的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备90使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例3
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1所述的基于动态权重的文本生成方法。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1所述的基于动态权重的文本生成方法。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (10)
1.一种基于动态权重的文本生成方法,其特征在于,所述文本生成方法包括:
构建热词词库,所述热词词库中存储有每隔第一预设时间段获取的热搜词及每个热搜词的热搜权重,所述每个热搜词的热搜权重根据所述每个热搜词的频率参数和所述每个热搜词的构建时间生成;
接收输入的任一文本;
从所述任一文本中提取多个主题词;
匹配所述主题词与所述热词词库,得到每个主题词的热搜权重;
根据包含热搜权重的主题词生成更新后的文本。
2.如权利要求1所述的基于动态权重的文本生成方法,其特征在于,所述文本生成方法通过以下步骤生成所述频率参数,具体包括:
构建语料库,所述语料库存储有多个标准词;
基于所述语料库对所述第一预设时间段内的所有热搜新闻文本进行切词得到多个分词,并统计每个分词的TF值;
选取TF值大于预设阈值的分词作为热搜词;
以预设周期内的所有新闻文本为单位文本统计每个热搜词的IDF值;
所述频率参数包括所述TF值和所述IDF值。
3.如权利要求2所述的基于动态权重的文本生成方法,其特征在于,所述文本生成方法通过以下公式计算得到所述热搜权重,具体包括:
Wi=TFi*IDFi*[a×exp(-λ×ti)]
其中,Wi为第i个热搜词的热搜权重;TFi为第i个热搜词的TF值;IDFi为第i个热搜词的IDF值;a为初始权重;λ为时间衰减系数,1>λ>0;ti为第i个热搜词被确定为热搜词的时间与当前时间的时间差。
4.如权利要求2所述的基于动态权重的文本生成方法,其特征在于,所述构建语料库的步骤具体包括:
爬取预设第二时间段内的所有网络文本;
基于不同的词长对所述网络文本进行切词,并统计每个词的频率;
对每个词长,将频率大于与所述每个词长对应的预设频率的词作为所述标准词。
5.如权利要求2所述的基于动态权重的文本生成方法,其特征在于,所述从所述文本中提取多个主题词的步骤之后,所述文本生成方法还包括:
基于相似度算法获取所述主题词的扩展词,并基于所述主题词和所述扩展词生成关键词库;
基于聚类算法对所述关键词库中的关键词进行分类,得到多个聚类关键词以及每个聚类关键词的聚类主题信息;
匹配所述聚类关键词与所述热词词库,得到每个聚类关键词的热搜权重;
所述根据包含热搜权重的主题词生成更新后的文本的步骤具体包括:
根据包含热搜权重的主题词、聚类关键词和所述聚类主题信息生成所述更新后的文本。
6.如权利要求5所述的基于动态权重的文本生成方法,其特征在于,所述根据包含热搜权重的主题词、聚类关键词和所述聚类主题信息生成所述更新后的文本的步骤具体包括:
将所述包含热搜权重的关键词及对应的任一文本中的位置信息输入双向长短记忆网络进行词编码,得到每个关键词的词向量表示及每个关键词的位置编码;
基于注意力机制根据所述词向量表示和所述位置编码得到每个关键词的注意力权重系数;
根据所述每个关键词的注意力权重系数对所述任一文本中每个句子进行句子编码,得到每个句子的句子向量表示;
基于注意力机制根据所述句子向量表示和每个聚类关键词的注意力权重系数进行文档编码,得到文档向量表示;
将所述词向量表示、所述句子向量表示和所述文档向量进行融合得到多尺度特征,并将所述多尺度特征输入文本生成模型,输出所述更新后的文本;
其中,所述文本生成模型是利用训练样本及其对应的文本模板对神经网络模型进行训练得到的。
7.如权利要求6所述的基于动态权重的文本生成方法,其特征在于,所述从所述文本中提取多个主题词的步骤具体包括:
基于LDA概率主题模型提取所述多个主题词;
和/或,所述基于聚类算法对所述关键词库中的词进行分类的步骤具体包括:
基于K-means算法对所述关键词库中的词进行分类;
和/或,所述将所述词向量表示、所述句子向量表示和所述文档向量进行融合得到多尺度特征的步骤具体包括:
基于注意力机制的神经网络模型对所述词向量表示、所述句子向量表示和所述文档向量进行融合得到多尺度特征。
8.如权利要求1所述的基于动态权重的文本生成方法,其特征在于,所述根据包含热搜权重的主题词生成更新后的文本的步骤之前,所述文本生成方法还包括:
对所述多个主题词赋予主题权重;
对每个主题词,选取主题权重与热搜权重中的较大值作为所述每个主题词的关键权重;
所述根据包含热搜权重的主题词生成更新后的文本的步骤中,根据包含关键权重的主题词生成更新后的文本。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8任一项所述的基于动态权重的文本生成方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至8任一项所述的基于动态权重的文本生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110614527.3A CN113360646B (zh) | 2021-06-02 | 2021-06-02 | 基于动态权重的文本生成方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110614527.3A CN113360646B (zh) | 2021-06-02 | 2021-06-02 | 基于动态权重的文本生成方法、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113360646A true CN113360646A (zh) | 2021-09-07 |
CN113360646B CN113360646B (zh) | 2023-09-19 |
Family
ID=77531289
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110614527.3A Active CN113360646B (zh) | 2021-06-02 | 2021-06-02 | 基于动态权重的文本生成方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113360646B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114282515A (zh) * | 2022-02-18 | 2022-04-05 | 北京语言大学 | 一种基于增量式片段预测的端到端词汇受限文本生成方法 |
CN115526173A (zh) * | 2022-10-12 | 2022-12-27 | 湖北大学 | 一种基于计算机信息技术的特征词提取方法及系统 |
CN115712700A (zh) * | 2022-11-18 | 2023-02-24 | 生态环境部环境规划院 | 热词提取方法、系统、计算机设备及存储介质 |
CN116804691A (zh) * | 2023-06-28 | 2023-09-26 | 国网安徽省电力有限公司青阳县供电公司 | 一种用于电力系统的调度自动化设备故障监测方法 |
CN117094291A (zh) * | 2023-10-19 | 2023-11-21 | 济南伊特网络信息有限公司 | 基于智能写作的自动新闻生成系统 |
CN117708434A (zh) * | 2024-01-09 | 2024-03-15 | 青岛睿哲信息技术有限公司 | 一种基于关键词的用户推荐浏览内容生成方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102004792A (zh) * | 2010-12-07 | 2011-04-06 | 百度在线网络技术(北京)有限公司 | 一种热搜词生成方法及系统 |
KR101713831B1 (ko) * | 2016-07-26 | 2017-03-09 | 한국과학기술정보연구원 | 문서추천장치 및 방법 |
CN110457580A (zh) * | 2019-07-31 | 2019-11-15 | 百度时代网络技术(北京)有限公司 | 基于搜索的热点推荐方法及装置 |
CN110704607A (zh) * | 2019-08-26 | 2020-01-17 | 北京三快在线科技有限公司 | 摘要生成方法、装置、电子设备及计算机可读存储介质 |
CN111159557A (zh) * | 2019-12-31 | 2020-05-15 | 北京奇艺世纪科技有限公司 | 一种热点信息获取方法、装置、服务器及介质 |
WO2020101477A1 (en) * | 2018-11-14 | 2020-05-22 | Mimos Berhad | System and method for dynamic entity sentiment analysis |
-
2021
- 2021-06-02 CN CN202110614527.3A patent/CN113360646B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102004792A (zh) * | 2010-12-07 | 2011-04-06 | 百度在线网络技术(北京)有限公司 | 一种热搜词生成方法及系统 |
KR101713831B1 (ko) * | 2016-07-26 | 2017-03-09 | 한국과학기술정보연구원 | 문서추천장치 및 방법 |
WO2020101477A1 (en) * | 2018-11-14 | 2020-05-22 | Mimos Berhad | System and method for dynamic entity sentiment analysis |
CN110457580A (zh) * | 2019-07-31 | 2019-11-15 | 百度时代网络技术(北京)有限公司 | 基于搜索的热点推荐方法及装置 |
CN110704607A (zh) * | 2019-08-26 | 2020-01-17 | 北京三快在线科技有限公司 | 摘要生成方法、装置、电子设备及计算机可读存储介质 |
CN111159557A (zh) * | 2019-12-31 | 2020-05-15 | 北京奇艺世纪科技有限公司 | 一种热点信息获取方法、装置、服务器及介质 |
Non-Patent Citations (2)
Title |
---|
YOUNG WANG: "抖音等热榜系统设计思考", pages 1 - 8 * |
张海同;孔存良;杨麟儿;何姗;杜永萍;杨尔弘;: "基于门控化上下文感知网络的词语释义生成方法", no. 07 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114282515A (zh) * | 2022-02-18 | 2022-04-05 | 北京语言大学 | 一种基于增量式片段预测的端到端词汇受限文本生成方法 |
CN114282515B (zh) * | 2022-02-18 | 2022-07-08 | 北京语言大学 | 一种基于增量式片段预测的端到端词汇受限文本生成方法 |
CN115526173A (zh) * | 2022-10-12 | 2022-12-27 | 湖北大学 | 一种基于计算机信息技术的特征词提取方法及系统 |
CN115712700A (zh) * | 2022-11-18 | 2023-02-24 | 生态环境部环境规划院 | 热词提取方法、系统、计算机设备及存储介质 |
CN116804691A (zh) * | 2023-06-28 | 2023-09-26 | 国网安徽省电力有限公司青阳县供电公司 | 一种用于电力系统的调度自动化设备故障监测方法 |
CN116804691B (zh) * | 2023-06-28 | 2024-02-13 | 国网安徽省电力有限公司青阳县供电公司 | 一种用于电力系统的调度自动化设备故障监测方法 |
CN117094291A (zh) * | 2023-10-19 | 2023-11-21 | 济南伊特网络信息有限公司 | 基于智能写作的自动新闻生成系统 |
CN117094291B (zh) * | 2023-10-19 | 2024-01-19 | 济南伊特网络信息有限公司 | 基于智能写作的自动新闻生成系统 |
CN117708434A (zh) * | 2024-01-09 | 2024-03-15 | 青岛睿哲信息技术有限公司 | 一种基于关键词的用户推荐浏览内容生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113360646B (zh) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN109284357B (zh) | 人机对话方法、装置、电子设备及计算机可读介质 | |
CN106997382B (zh) | 基于大数据的创新创意标签自动标注方法及系统 | |
CN113360646B (zh) | 基于动态权重的文本生成方法、设备及存储介质 | |
US9846836B2 (en) | Modeling interestingness with deep neural networks | |
US8027977B2 (en) | Recommending content using discriminatively trained document similarity | |
CN111753167B (zh) | 搜索处理方法、装置、计算机设备和介质 | |
CN113032552B (zh) | 一种基于文本摘要的政策要点抽取方法与提取系统 | |
Atkinson et al. | Rhetorics-based multi-document summarization | |
CN111737560B (zh) | 内容搜索方法、领域预测模型训练方法、装置及存储介质 | |
Mahalakshmi et al. | Summarization of text and image captioning in information retrieval using deep learning techniques | |
CN113282711B (zh) | 一种车联网文本匹配方法、装置、电子设备及存储介质 | |
CN117094291B (zh) | 基于智能写作的自动新闻生成系统 | |
CN111061939A (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN110472013A (zh) | 一种热门话题更新方法、装置和计算机存储介质 | |
CN111259156A (zh) | 一种面向时间序列的热点聚类方法 | |
CN114265936A (zh) | 一种科技项目文本挖掘的实现方法 | |
Dhankhar et al. | A statistically based sentence scoring method using mathematical combination for extractive Hindi text summarization | |
Biesialska et al. | Leveraging contextual embeddings and self-attention neural networks with bi-attention for sentiment analysis | |
Akdemir et al. | A review on deep learning applications with semantics | |
CN115481313A (zh) | 一种基于文本语义挖掘的新闻推荐方法 | |
CN116956818A (zh) | 文本素材的处理方法、装置、电子设备以及存储介质 | |
CN118170899B (zh) | 基于aigc的媒体新闻稿件生成方法以及相关装置 | |
Fatima | Deploying Transformer Models to Detect and Analyze Sponsored Content in Spotify Podcasts | |
Al Helal | Topic Modelling and Sentiment Analysis with the Bangla Language: A Deep Learning Approach Combined with the Latent Dirichlet Allocation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |