CN110413994B - 热点话题生成方法、装置、计算机设备和存储介质 - Google Patents
热点话题生成方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110413994B CN110413994B CN201910572440.7A CN201910572440A CN110413994B CN 110413994 B CN110413994 B CN 110413994B CN 201910572440 A CN201910572440 A CN 201910572440A CN 110413994 B CN110413994 B CN 110413994B
- Authority
- CN
- China
- Prior art keywords
- topic
- article data
- feature
- words
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种热点话题生成方法、装置、计算机设备和存储介质。所述方法包括:基于文本库中的文章数据,采用图谱描述文章数据,根据预先设置的特征标签与特征词的映射表,对图谱中的节点进行匹配,得到正文分词对应的特征标签以及特征标签的相关得分,根据相关得分,确定文章数据的特征词集合,根据特征词集合和摘要部分的摘要分词,建立文章数据的词集,将文本库中的文章数据的词集输入预先设置的聚类算法中,得到词集中的单词与预先设置的话题类的第一分布以及文章数据与话题类的第二分布,根据第一分布,生成各个话题类的话题词,根据第二分布以及所述话题词,生成各个话题类的话题标题。采用本方法能够快速生成热点话题。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种热点话题生成方法、装置、计算机设备和存储介质。
背景技术
目前,随着互联网技术的发展,新闻传播以及更新速度十分迅速,不同的媒体平台发布的新闻资讯文章的话题分布能够反应时下热点,通过对指定对时间范围内的海量新闻资讯文章数据进行发掘,生成当前热点话题,作为指导决策上的参考。
然而传统技术中,在生成热点话题时,一般是通过文本聚类的方式来发现话题,在处理海量数据上速度会比较慢,并且聚类的效果很难保证,从而导致热点话题生成效率低,无法适应互联网中新闻的更新速度。
发明内容
基于此,有必要针对上述技术问题,提供一种能够解决热点话题生成效率低的热点话题生成方法、装置、计算机设备和存储介质。
一种热点话题生成方法,所述方法包括:
基于文本库中的每一条文章数据,采用图谱描述所述文章数据;所述文章数据包括:摘要部分和正文部分;所述图谱中的每一个节点表示所述正文部分中的一个正文分词;
根据预先设置的特征标签与所述正文分词的映射表,对所述图谱中的节点进行匹配,得到所述特征标签对应的特征词以及所述特征标签的相关得分,根据所述相关得分,确定所述文章数据的特征标词集合
根据所述特征词集合和所述摘要部分的摘要分词,建立所述文章数据的词集,将文本库中每一条文章数据的所述词集输入预先设置的聚类算法中,得到所述词集中的单词与预先设置的话题类的第一分布以及所述文章数据与所述话题类的第二分布;
根据所述第一分布,生成各个话题类的话题词,根据所述第二分布以及所述话题词,生成各个话题类的话题标题。
在其中一个实施例中,还包括:对正文部分进行分词处理,得到所述正文的分词结果;将所述分词结果中的每一个正文分词作为一个节点,获取预先设置的词窗,确定所述正文节点前若干个词窗内的节点为入度节点,确定所述节点后若干个词窗内的节点为出度节点;根据所述节点、所述入度节点以及所述出度节点,生成描述所述文章数据的图谱。
在其中一个实施例中,还包括:对所述图谱中的节点进行初始化,得到所述节点的初始化权重;确定所述入度节点的权重之和对所述节点的权重赋值,以及所述出度节点获得所述节点的权重的均值为权重迭代的约束条件,对所述图谱中各个节点的初始化权重进行迭代;当达到预先设置的迭代条件时,停止迭代,得到所述图谱中每个节点的重要性权重。
在其中一个实施例中,还包括:根据预先设置的特征标签与所述正文分词的映射表,对所述图谱中的节点进行匹配,得到所述特征标签对应的正文分词,将所述特征标签对应的正文分词确定为所述特征标签的特征词;根据与所述特征标签相匹配的节点的重要性权重之和,得到所述特征标签的相关得分。
在其中一个实施例中,还包括:获取预先设置的阈值;根据相关得分大于所述阈值的所述特征标签,建立所述文章数据的特征词集合。
在其中一个实施例中,还包括:根据所述特征词集合中的特征词和所述摘要分词建立所述文章数据的词集;其中,所述特征词在所述词集中的数量根据所述特征词对应特征标签的相关得分确定;文本库中每一条文章数据的所述词集输入预先设置的聚类算法中,得到所述文章数据在每个预先设置的话题类中的分布情况;根据所述文章数据在每个话题类中的分布情况,建立概率图模型;
通过对所述概率图模型中的文章数据和词集中的单词进行观测,得到所述单词与所述话题类的第一分布,以及所述文章数据与所述话题类的第二分布。
在其中一个实施例中,摘要部分包括:摘要和标题,还包括:根据所述第一分布,通过TopN算法选择多个所述单词作为话题词;确定所述第二分布中所有所述文章数据的标题中包含所述话题词数量最多的,作为所述话题类的话题标题。
一种热点话题生成装置,所述装置包括:
图谱建立模块,用于基于文本库中的每一条文章数据,采用图谱描述所述文章数据;所述文章数据包括:摘要部分和正文部分;所述图谱中的每一个节点表示所述正文部分中的一个正文分词;
标签生成模块,用于根据预先设置的特征标签与所述正文分词的映射表,对所述图谱中的节点进行匹配,得到所述特征标签对应的特征词以及所述特征标签的相关得分,根据所述相关得分,确定所述文章数据的特征词集合
聚类模块,用于根据所述特征词集合和所述摘要部分的摘要分词,建立所述文章数据的词集,将文本库中每一条文章数据的所述词集输入预先设置的聚类算法中,得到所述词集中的单词与预先设置的话题类的第一分布以及所述文章数据与所述话题类的第二分布;
话题生成模块,用于根据所述第一分布,生成各个话题类的话题词,根据所述第二分布以及所述话题词,生成各个话题类的话题标题。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
基于文本库中的每一条文章数据,采用图谱描述所述文章数据;所述文章数据包括:摘要部分和正文部分;所述图谱中的每一个节点表示所述正文部分中的一个正文分词;
根据预先设置的特征标签与所述正文分词的映射表,对所述图谱中的节点进行匹配,得到所述特征标签对应的特征词以及所述特征标签的相关得分,根据所述相关得分,确定所述文章数据的特征词集合
根据所述特征词集合和所述摘要部分的摘要分词,建立所述文章数据的词集,将文本库中每一条文章数据的所述词集输入预先设置的聚类算法中,得到所述词集中的单词与预先设置的话题类的第一分布以及所述文章数据与所述话题类的第二分布;
根据所述第一分布,生成各个话题类的话题词,根据所述第二分布以及所述话题词,生成各个话题类的话题标题。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
基于文本库中的每一条文章数据,采用图谱描述所述文章数据;所述文章数据包括:摘要部分和正文部分;所述图谱中的每一个节点表示所述正文部分中的一个正文分词;
根据预先设置的特征标签与所述正文分词的映射表,对所述图谱中的节点进行匹配,得到所述特征标签对应的特征词以及所述特征标签的相关得分,根据所述相关得分,确定所述文章数据的特征词集合
根据所述特征词集合和所述摘要部分的摘要分词,建立所述文章数据的词集,将文本库中每一条文章数据的所述词集输入预先设置的聚类算法中,得到所述词集中的单词与预先设置的话题类的第一分布以及所述文章数据与所述话题类的第二分布;
根据所述第一分布,生成各个话题类的话题词,根据所述第二分布以及所述话题词,生成各个话题类的话题标题。
上述热点话题生成方法、装置、计算机设备和存储介质,通过图谱的方式,提取文章数据中各个正文分词的重要性,从而对文章数据设置对应的特征标签,然后根据摘要分词和特征标签描述文章数据,对文章数据进行聚类,聚类到预先设置的话题类中,在确定话题类中的文章数据后,可以确定单词与话题类的第一分布和文章数据和话题类的第二分布,从而根据第一分布和第二分布,确定热点话题。本实施例中,由于在建立特征标签时,选择时特定领域内的特征词,因此,在建立文章数据的词集时,具有一定的领域聚集性,由于这一特性,使得其他数据的干扰小,也加快了聚类时的准确性,从而提高了热点话题生成的速度。
附图说明
图1为一个实施例中热点话题生成方法的应用场景图;
图2为一个实施例中热点话题生成方法的流程示意图;
图3为一个实施例中采用图谱描述文章数据步骤的流程示意图;
图4为一个实施例中图谱局部示意图;
图5为一个实施例中聚类步骤的流程示意图;
图6为一个实施例中热点话题生成装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的热点话题生成方法,可以应用于如图1所示的应用环境中。其中,平台服务器102与分析服务器104通过网络进行通信。其中,平台服务器102指的是互联网中提供文章数据的服务器,分析服务器104指的是可以从平台服务器102中下载文章数据的服务器,平台服务器102和分析服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种热点话题生成方法,以该方法应用于图1中的分析服务器为例进行说明,包括以下步骤:
步骤202,基于文本库中文章数据,采用图谱描述文章数据。
文本库指的是分析数据库对应的数据库,文本库中存储了大量从平台服务器中下载的文章数据,文本库的通过分析服务器进行维护,以此对文本库中的文章数据进行增添、删除、修改、标记等。
具体的,分析数据库在下载文章数据时,可以设置爬虫脚本,通过爬虫脚本下载平台服务器中的文章数据。
文章数据指的是发布在平台数据库中的新闻、论文、时评等,文章数据是由摘要部分和正文部分组成。图谱指的是节点图谱,图谱由多个节点连接组成,其中每个节点指的是正文部分的一个正文分词,正文分词指的是对正文部分进行分词处理后得到的词。
本步骤中,通过对正文部分进行分词,可以得到文章数据的正文分词,从一个分词可以作为一个节点,通过正文分词之间的连接关系,可以确定各个节点的连接关系,从而构建文章数据的图谱,对于文本库中的文章数据,可以采用图谱进行描述。
步骤204,根据预先设置的特征标签与正文分词的映射表,对图谱中的节点进行匹配,得到特征标签对应的特征词以及特征标签的相关得分,根据相关得分,确定文章数据的特征词集合。
特征标签指的是一种可以识别的标签,对于被特征标签标记的文章数据,分析服务器可以直接识别文章数据中的特征标签,特征词指的是预先对某一领域进行研究,通过提取得到特征词,特征词可以表征该领域内高频率出现的词。值得说明的是,平台服务器中预先设置了大量领域对应的映射表,例如在生成金融领域的热点话题时,可以从数据库中查询金融领域的映射表,从而对图谱进行匹配。
相关得分指的是一种衡量指标,相关得分越大,特征标签与文章数据的关联程度越大,基于图谱中的节点,可以从而多个指标计算相关得分,例如,节点的中心度、连接关系等等。特征词集合指的是通过对映射表中的特征词进行筛选,选择出多个特征词组成的集合。
具体的,匹配时,可以采用特征词匹配节点对应的正文分词,匹配方式可以进行选择,例如:正则匹配、全匹配等,另外,还可以设置词库,词库中建立单词与其近义词的对应关系,因此,匹配时,还加入了近义词匹配。若正文分词与特征词匹配,则将特征词对应的特征标签对文章数据进行标记。
步骤206,根据特征词集合和摘要部分的摘要分词,建立文章数据的词集,将文本库中的文章数据的词集输入预先设置的聚类算法中,得到词集中的单词与预先设置的话题类的第一分布以及文章数据与话题类的第二分布。
摘要分词指的是对文章数据的摘要部分进行分词后得到的单词,文章数据的词集指的是代表文章数据内容的单词的集合,本步骤中,采用通过正文部分筛选出的特征词和摘要部分的分词代表文章数据的内容,即突出了文章数据的领域特点,还减少了词集中单词的数量,从而提升处理速度。
聚类算法可以根据需求进行选择,例如:K-means,K邻值等,通过聚类算法,可以根据词集中的数据,对文章数据进行聚类,从而得到多个话题类,每个话题类中的数据趋于统一主题,然后基于话题类对文章数据和词集中的单词进行分析,从而可以得到单词与话题类的第一分布,以及文章数据于话题类的第二分布。值得说明的是,可以预先设置多个话题类,即确定聚类算法中的K值。另外,第一分布和第二分布具体是一种分布函数,例如正态分布等。
步骤208,根据第一分布,生成各个话题类的话题词,根据第二分布以及话题词,生成各个话题类的话题标题。
话题词指的是可以确定话题标题的词,通过第一分布,可以确定话题类中的高频词,从而可以提取得到话题词。
话题标题即本实施例需要生成的话题,生成的话题标题带有话题信息,可以直接发布,或者供用户作为热点话题的参考。通过得到话题词,然后根据第二分布,可以确定出其中的热点文章,从而可以提取出话题标题。
上述热点话题生成方法中,通过图谱的方式,提取文章数据中各个正文分词的重要性,从而对文章数据设置对应的特征标签,然后根据摘要分词和特征标签描述文章数据,对文章数据进行聚类,聚类到预先设置的话题类中,在确定话题类中的文章数据后,可以确定单词与话题类的第一分布和文章数据和话题类的第二分布,从而根据第一分布和第二分布,确定热点话题。本实施例中,由于在建立特征标签时,选择时特定领域内的特征词,因此,在建立文章数据的词集时,具有一定的领域聚集性,由于这一特性,使得其他数据的干扰小,也加快了聚类时的准确性,从而提高了热点话题生成的速度。
对于步骤204,在其中一个实施例中,特征标签对应的是特征词集合,即,每一个标签对应的是一个特征词集合,特征词集合中均为近义词,具体的,可以采用同义词拓展的方法,结合互信息的PMI(Point-Wise Mutual Information,互信息)算法考虑词的共现情况,从而对特征标签中的特征词进行扩充,从而对节点中近义的正文分词用同一特征标签标记。
对于步骤206中,在其中一个实施例中,在通过聚类算法进行聚类时,预先设置了K个话题类,然后将文章数据聚类到K个话题类中,此时,需要对话题类进行筛选。确定筛选条件,确定每个话题类中文章数据阈值为m,当话题类中文章数据小于阈值时,即将该话题类,从而从中文章数据中提取出热点话题。
在一个实施例中,如图3所述,提供一种采用图谱描述文章数据的示意性流程图,具体步骤如下:
步骤302,对正文部分进行分词处理,得到正文部分的分词结果。
步骤304,将分词结果中的每一个正文分词作为一个节点,获取预先设置的词窗,确定正文节点前若干个词窗内的节点为入度节点,确定节点后若干个词窗内的节点为出度节点。
词窗指的一段执行程序代码,其每次读取固定单词数量,并可以对词窗中的单词进行识别。
步骤306,根据节点、入度节点以及出度节点,生成描述文章数据的图谱。
本实施例中,通过分词结果,可以确定文章数据中各个正文分词的排序,从而通过词窗进行遍历,从而可以确定每个正文分词的连接关系,即每个节点的出度节点和入度节点,按照连接关系将节点进行连接,从而可以得到图谱,本实施例得到的图谱,可以反映每个节点即每个正文分词在正文部分的重要程度,从而可以准确的描述文章数据的内容。
对于步骤302,在一实施例中,提出一种具体量化每个节点对正文部分的重要程度的方法,具体的:对图谱中的节点进行初始化,得到节点的初始化权重;确定入度节点的权重之和对节点的权重赋值,以及出度节点获得节点的权重的均值为权重迭代的约束条件,对图谱中各个节点的初始化权重进行迭代;当达到预先设置的迭代条件时,停止迭代,得到图谱中每个节点的重要性权重。
本实施例中,如图4所述,节点A1-A4为节点B1的入度节点,C1和C2为节点B1的出度节点,在对节点的权重进行初始化后,可以确定,入度节点越多,在迭代时,其权重也越大,与图谱找那个展示的重要程度一致,从而通过对权重对图谱中的节点进行标记,便于计算机进行读取。
具体的,例如初始化后,每个节点的权重为1,假设节点A1-A4依次有3、3、1、4个入度节点,并且只有B1一个出度节点,节点C1和C2只有B1一个入度节点,那么第一迭代后,节点B1的权重为4,因此节点A1的权重为3、节点A2的权重为3、节点A3的权重为1、节点A4的权重为4,节点C1和C2的权重为2,第二次迭代时,节点B1的权重更新为了11,按照入度节点的权重之和对节点的权重赋值,以及出度节点获得节点的权重的均值为权重迭代的约束条件,带迭代结束后,可以得到各个节点的准确重要性权重。
对于步骤302,在其中一个实施例中,在对正文部分进行分词时,需要对分词结果进行去噪,具体是去除分词结果中的停顿词,例如:从前、但是、这时、因此等,以及地名,例如:湖南、长沙、湖北等,具体的,可以采用jieba分词组件进行分词并进行去噪。
对于步骤304,在一实施例中,词窗的大小的自行设置,例如设置词窗的大小为5,那么词窗在滑动时,每次可以覆盖五个正文分词,此时,以中间的正文分词为中心词,前两个正文分词设置为中心分词的入度节点,后两个分词为中心词的出度节点,通过词窗的滑动,可以遍历整个分词结果,从而得到每个节点和节点的入度节点和出度节点,从而生成图谱。值得说明的是,词窗的大小还可以设置为3、7等等,具体可以根据分词结果中正文分词的数量以及精度需求设置。
对于步骤306,在一实施例中,入度节点与节点相连,并且指向节点,节点与出度节点相连,并且指向出度节点。
另外,在一实施例中,计算特征标签的相关得分的步骤如下:根据预先设置的特征标签与特征词的映射表,通过特征词与节点对应的正文分词的匹配关系,确定正文分词对应的特征标签,根据与特征标签相匹配的节点的重要性权重之和,得到特征标签的相关得分。本实施例中,通过特征标签进行匹配,可以匹配到一个或者一个以上的节点,然后通过统计各个节点的重要性权重,通过各个重要性权重之和,来量化特征标签的相关得分。
具体的,在确定文章数据的特征标签时,需要进行筛选,即,确定相关得分阈值,通过阈值,将相关得分小于阈值的特征标签删除,剩余特征标签对应的特征词建立特征词集合。
在一个实施例中,如图5所示,提供一种聚类过程的示意性流程图,具体步骤如下:
步骤502,根据特征词集合中的特征词和摘要分词建立文章数据的词集。
其中,特征词在词集中的数量根据特征词对应特征标签的相关得分确定。
步骤504,将文本库中的文章数据的词集输入预先设置的聚类算法中,得到文章数据在每个预先设置的话题类中的分布情况。
分布情况指的是文章数据聚类到各个话题类的聚类结果,例如,有100个文章数据聚类到话题类A中,1000个文章数据聚类到话题类B中等。
步骤506,根据文章数据在每个话题类中的分布情况,建立概率图模型。
概率图模型是用图来表示变量概率依赖关系的理论,例如:贝叶斯模型、马尔科夫网络等。
步骤508,通过对概率图模型中的文章数据和单词进行观测,得到单词与话题类的第一分布,以及文章数据与话题类的第二分布。
本实施例中,采用概率图模型来描述聚类结果,然后根据概率图模型输出的结果,得到单词与话题类的第一分布和文章数据与话题类的第二分布,从而确定文章数据、单词以及话题类的隐形关系,从而便于对热点话题进行分析。
对于步骤506,在一实施例中,采用PLSA(probabilistic Latent SemanticAnalysis,概率隐语义分析)模型对聚类结果进行分析,具体的,设置观测对象为文章数据Dm和单词Wn,二者共现的概率为P(Dm,Wn),在聚类结果中,文章m的出现概率是P(Dm),文章m的话题是k话题的概率P(Zk|Dm),单词n在文章m中的概率P(Wn|Dm)。求解联合概率分布P(Dm,Wn)=P(Dm)*Sum(P(Zk|Dm),P(Wn|Dm))。每个话题类在所有单词上服从多项式分布,才PLSA算法中,采用EM(Expectation Maximization,期望最大化)算法对参数值进行训练,即采用极大似然估计算法计算出期望值最大时的参数值,多次迭代直到收敛,即参数值不变或者变化小于预设的阈值。迭代结果即所需的第一分布和第二分布。本实施例,采用PLSA算法,可以较好的解释文章数据中隐含的语义,从而利于确定上述分布情况。
在其中一个实施例中,摘要部分包括:摘要和标题,在得到第一分布和第二分布后,可以根据所述第一分布,通过TopN算法选择多个单词作为话题词,确定第二分布中所有文章数据的标题中包含话题词数量最多的,作为话题类的话题标题。
具体的,可以通过TopN算法确定一个话题类的频率高的前N个单词为话题词,对于该话题,然后通过提取该话题类中所有文章数据的标题,然后统计每个标题中含有话题词的数量,从而根据标题中含有话题词的数量,确定该话题类对应的热点话题。本实施例中,针对每个话题类均可以生成一个热点话题,由于话题类的数量是预先设置的,因此,可以根据需求,选择生成热点话题的数量,从而满足个性化需求。
指的说明的是,本发明实施例,在建立映射表时,是通过领域进行研究后确定的,研究方法可以是采用机器学习提取其中的特征词,也可以是通过人工标记的方式,或是二者结合,因此对于同一个文本库,通过对上述实施例进行分析,若选择的映射表不同,生成的热点话题也不同。
应该理解的是,虽然图2、3、5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、3、5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种热点话题生成装置,包括:图谱建立模块602、标签生成模块604、聚类模块606和话题生成模块608,其中:
图谱建立模块602,用于基于文本库中的每一条文章数据,采用图谱描述所述文章数据;所述文章数据包括:摘要部分和正文部分;所述图谱中的每一个节点表示所述正文部分中的一个正文分词;
标签生成模块604,用于根据预先设置的特征标签与所述正文分词的映射表,对所述图谱中的节点进行匹配,得到所述特征标签对应的特征词以及所述特征标签的相关得分,根据所述相关得分,确定所述文章数据的特征词集合;
聚类模块606,用于根据所述特征词集合和所述摘要部分的摘要分词,建立所述文章数据的词集,将文本库中每一条文章数据的所述词集输入预先设置的聚类算法中,得到所述词集中的单词与预先设置的话题类的第一分布以及所述文章数据与所述话题类的第二分布;
话题生成模块608,用于根据所述第一分布,生成各个话题类的话题词,根据所述第二分布以及所述话题词,生成各个话题类的话题标题。
在其中一个实施例中,图谱建立模块602还用于对正文部分进行分词处理,得到所述正文部分的分词结果;点为入度节点,确定所述节点后若干个词窗内的节点为出度节点;根据所述节点、所述入度节点以及所述出度节点,生成描述所述文章数据的图谱。
在其中一个实施例中,权重设置模块,用于对所述图谱中的节点进行初始化,得到所述节点的初始化权重;确定所述入度节点的权重之和对所述节点的权重赋值,以及所述出度节点获得所述节点的权重的均值为权重迭代的约束条件,对所述图谱中各个节点的初始化权重进行迭代;当达到预先设置的迭代条件时,停止迭代,得到所述图谱中每个节点的重要性权重。
在其中一个实施例中,标签生成模块604还用于根据预先设置的特征标签与特征词的映射表,通过所述特征词与所述节点对应的正文分词的匹配关系,确定所述正文分词对应的特征标签;根据与所述特征标签相匹配的节点的重要性权重之和,得到所述特征标签的相关得分。
在其中一个实施例中,聚类模块606还用于获取预先设置的阈值;根据相关得分大于所述阈值的所述特征标签对应的特征词,建立所述文章数据的特征词集合。
在其中一个实施例中,聚类模块606还用于根据所述特征词集合中的特征词和所述摘要分词建立所述文章数据的词集;其中,所述特征词在所述词集中的数量根据所述特征词对应特征标签的相关得分确定;将文本库中的文章数据的所述词集输入预先设置的聚类算法中,得到所述文章数据在每个预先设置的话题类中的分布情况;根据所述文章数据在每个话题类中的分布情况,建立概率图模型;通过对所述概率图模型中的文章数据和所述单词进行观测,得到所述单词与所述话题类的第一分布,以及所述文章数据与所述话题类的第二分布。
在其中一个实施例中,摘要部分包括:摘要和标题,话题生成模块608还用于根据所述第一分布,通过TopN算法选择多个所述单词作为话题词;确定所述第二分布中所有所述文章数据的标题中包含所述话题词数量最多的,作为所述话题类的话题标题。
关于热点话题生成装置的具体限定可以参见上文中对于热点话题生成方法的限定,在此不再赘述。上述热点话题生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文章数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种热点话题生成方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
基于文本库中的文章数据,采用图谱描述所述文章数据;所述文章数据包括:摘要部分和正文部分;所述图谱中的每一个节点表示所述正文部分中的一个正文分词;
根据预先设置的特征标签与特征词的映射表,对所述图谱中的节点进行匹配,得到所述正文分词对应的特征标签以及所述特征标签的相关得分,根据所述相关得分,确定所述文章数据的特征词集合;
根据所述特征词集合和所述摘要部分的摘要分词,建立所述文章数据的词集,将文本库中的文章数据的所述词集输入预先设置的聚类算法中,得到所述词集中的单词与预先设置的话题类的第一分布以及所述文章数据与所述话题类的第二分布;
根据所述第一分布,生成各个话题类的话题词,根据所述第二分布以及所述话题词,生成各个话题类的话题标题。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对正文部分进行分词处理,得到所述正文部分的分词结果;将所述分词结果中的每一个正文分词作为一个节点,获取预先设置的词窗,确定所述正文节点前若干个词窗内的节点为入度节点,确定所述节点后若干个词窗内的节点为出度节点;根据所述节点、所述入度节点以及所述出度节点,生成描述所述文章数据的图谱。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对所述图谱中的节点进行初始化,得到所述节点的初始化权重;确定所述入度节点的权重之和对所述节点的权重赋值,以及所述出度节点获得所述节点的权重的均值为权重迭代的约束条件,对所述图谱中各个节点的初始化权重进行迭代;当达到预先设置的迭代条件时,停止迭代,得到所述图谱中每个节点的重要性权重。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据预先设置的特征标签与特征词的映射表,通过所述特征词与所述节点对应的正文分词的匹配关系,确定所述正文分词对应的特征标签;根据与所述特征标签相匹配的节点的重要性权重之和,得到所述特征标签的相关得分。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取预先设置的阈值;根据相关得分大于所述阈值的所述特征标签对应的特征词,建立所述文章数据的特征词集合。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据所述特征词集合中的特征词和所述摘要分词建立所述文章数据的词集;其中,所述特征词在所述词集中的数量根据所述特征词对应特征标签的相关得分确定;将文本库中的文章数据的所述词集输入预先设置的聚类算法中,得到所述文章数据在每个预先设置的话题类中的分布情况;根据所述文章数据在每个话题类中的分布情况,建立概率图模型;通过对所述概率图模型中的文章数据和所述单词进行观测,得到所述单词与所述话题类的第一分布,以及所述文章数据与所述话题类的第二分布。
在一个实施例中,摘要部分包括:摘要和标题,处理器执行计算机程序时还实现以下步骤:根据所述第一分布,通过TopN算法选择多个所述单词作为话题词;确定所述第二分布中所有所述文章数据的标题中包含所述话题词数量最多的,作为所述话题类的话题标题。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
基于文本库中的文章数据,采用图谱描述所述文章数据;所述文章数据包括:摘要部分和正文部分;所述图谱中的每一个节点表示所述正文部分中的一个正文分词;
根据预先设置的特征标签与特征词的映射表,对所述图谱中的节点进行匹配,得到所述正文分词对应的特征标签以及所述特征标签的相关得分,根据所述相关得分,确定所述文章数据的特征词集合;
根据所述特征词集合和所述摘要部分的摘要分词,建立所述文章数据的词集,将文本库中的文章数据的所述词集输入预先设置的聚类算法中,得到所述词集中的单词与预先设置的话题类的第一分布以及所述文章数据与所述话题类的第二分布;
根据所述第一分布,生成各个话题类的话题词,根据所述第二分布以及所述话题词,生成各个话题类的话题标题。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对正文部分进行分词处理,得到所述正文部分的分词结果;将所述分词结果中的每一个正文分词作为一个节点,获取预先设置的词窗,确定所述正文节点前若干个词窗内的节点为入度节点,确定所述节点后若干个词窗内的节点为出度节点;根据所述节点、所述入度节点以及所述出度节点,生成描述所述文章数据的图谱。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对所述图谱中的节点进行初始化,得到所述节点的初始化权重;确定所述入度节点的权重之和对所述节点的权重赋值,以及所述出度节点获得所述节点的权重的均值为权重迭代的约束条件,对所述图谱中各个节点的初始化权重进行迭代;当达到预先设置的迭代条件时,停止迭代,得到所述图谱中每个节点的重要性权重。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据预先设置的特征标签与特征词的映射表,通过所述特征词与所述节点对应的正文分词的匹配关系,确定所述正文分词对应的特征标签;根据与所述特征标签相匹配的节点的重要性权重之和,得到所述特征标签的相关得分。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取预先设置的阈值;根据相关得分大于所述阈值的所述特征标签对应的特征词,建立所述文章数据的特征词集合。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据所述特征词集合中的特征词和所述摘要分词建立所述文章数据的词集;其中,所述特征词在所述词集中的数量根据所述特征词对应特征标签的相关得分确定;将文本库中的文章数据的所述词集输入预先设置的聚类算法中,得到所述文章数据在每个预先设置的话题类中的分布情况;根据所述文章数据在每个话题类中的分布情况,建立概率图模型;通过对所述概率图模型中的文章数据和所述单词进行观测,得到所述单词与所述话题类的第一分布,以及所述文章数据与所述话题类的第二分布。
在一个实施例中,摘要部分包括:摘要和标题,计算机程序被处理器执行时还实现以下步骤:根据所述第一分布,通过TopN算法选择多个所述单词作为话题词;确定所述第二分布中所有所述文章数据的标题中包含所述话题词数量最多的,作为所述话题类的话题标题。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种热点话题生成方法,所述方法包括:
基于文本库中的文章数据,采用图谱描述所述文章数据;所述文章数据包括:摘要部分和正文部分;所述图谱中的每一个节点表示所述正文部分中的一个正文分词;
根据预先设置的特征标签与特征词的映射表,对所述图谱中的节点进行匹配,得到所述正文分词对应的特征标签以及所述特征标签的相关得分,根据所述相关得分,确定所述文章数据的特征词集合;
根据所述特征词集合和所述摘要部分的摘要分词,建立所述文章数据的词集,将文本库中的文章数据的所述词集输入预先设置的聚类算法中,得到所述词集中的单词与预先设置的话题类的第一分布以及所述文章数据与所述话题类的第二分布;
根据所述第一分布,生成各个话题类的话题词,根据所述第二分布以及所述话题词,生成各个话题类的话题标题。
2.根据权利要求1所述的方法,其特征在于,所述基于文本库中的文章数据,采用图谱描述所述文章数据,包括:
对正文部分进行分词处理,得到所述正文部分的分词结果;
将所述分词结果中的每一个正文分词作为一个节点,获取预先设置的词窗,确定所述正文节点前若干个词窗内的节点为入度节点,确定所述节点后若干个词窗内的节点为出度节点;
根据所述节点、所述入度节点以及所述出度节点,生成描述所述文章数据的图谱。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对所述图谱中的节点进行初始化,得到所述节点的初始化权重;
确定所述入度节点的权重之和对所述节点的权重赋值,以及所述出度节点获得所述节点的权重的均值为权重迭代的约束条件,对所述图谱中各个节点的初始化权重进行迭代;
当达到预先设置的迭代条件时,停止迭代,得到所述图谱中每个节点的重要性权重。
4.根据权利要求3所述的方法,其特征在于,根据预先设置的特征标签与特征词的映射表,对所述图谱中的节点进行匹配,得到所述正文分词对应的特征标签以及所述特征标签的相关得分,包括:
根据预先设置的特征标签与特征词的映射表,通过所述特征词与所述节点对应的正文分词的匹配关系,确定所述正文分词对应的特征标签;
根据与所述特征标签相匹配的节点的重要性权重之和,得到所述特征标签的相关得分。
5.根据权利要求4所述的方法,其特征在于,根据所述相关得分,确定所述文章数据的特征词集合,包括:
获取预先设置的阈值;
根据相关得分大于所述阈值的所述特征标签对应的特征词,建立所述文章数据的特征词集合。
6.根据权利要求1至5任一项所述的方法,其特征在于,根据所述特征词集合和所述摘要部分的摘要分词,建立所述文章数据的词集,将文本库中每一条文章数据的所述词集输入预先设置的聚类算法中,得到所述词集中的单词与预先设置的话题类的第一分布以及所述文章数据与所述话题类的第二分布,包括:
根据所述特征词集合中的特征词和所述摘要分词建立所述文章数据的词集;其中,所述特征词在所述词集中的数量根据所述特征词对应特征标签的相关得分确定;
将文本库中的文章数据的所述词集输入预先设置的聚类算法中,得到所述文章数据在每个预先设置的话题类中的分布情况;
根据所述文章数据在每个话题类中的分布情况,建立概率图模型;
通过对所述概率图模型中的文章数据和所述单词进行观测,得到所述单词与所述话题类的第一分布,以及所述文章数据与所述话题类的第二分布。
7.根据权利要求6所述的方法,其特征在于,所述摘要部分包括:摘要和标题;
根据所述第一分布,生成各个话题类的话题词,根据所述第二分布以及所述话题词,生成各个话题类的话题标题,包括:
根据所述第一分布,通过TopN算法选择多个所述单词作为话题词;
确定所述第二分布中所有所述文章数据的标题中包含所述话题词数量最多的,作为所述话题类的话题标题。
8.一种热点话题生成装置,其特征在于,所述装置包括:
图谱建立模块,用于基于文本库中的每一条文章数据,采用图谱描述所述文章数据;所述文章数据包括:摘要部分和正文部分;所述图谱中的每一个节点表示所述正文部分中的一个正文分词;
标签生成模块,用于根据预先设置的特征标签与所述正文分词的映射表,对所述图谱中的节点进行匹配,得到所述特征标签对应的特征词以及所述特征标签的相关得分,根据所述相关得分,确定所述文章数据的特征词集合;
聚类模块,用于根据所述特征词集合和所述摘要部分的摘要分词,建立所述文章数据的词集,将文本库中每一条文章数据的所述词集输入预先设置的聚类算法中,得到所述词集中的单词与预先设置的话题类的第一分布以及所述文章数据与所述话题类的第二分布;
话题生成模块,用于根据所述第一分布,生成各个话题类的话题词,根据所述第二分布以及所述话题词,生成各个话题类的话题标题。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910572440.7A CN110413994B (zh) | 2019-06-28 | 2019-06-28 | 热点话题生成方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910572440.7A CN110413994B (zh) | 2019-06-28 | 2019-06-28 | 热点话题生成方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110413994A CN110413994A (zh) | 2019-11-05 |
CN110413994B true CN110413994B (zh) | 2022-11-22 |
Family
ID=68359964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910572440.7A Active CN110413994B (zh) | 2019-06-28 | 2019-06-28 | 热点话题生成方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110413994B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111814465A (zh) * | 2020-06-17 | 2020-10-23 | 平安科技(深圳)有限公司 | 基于机器学习的信息抽取方法、装置、计算机设备及介质 |
CN111931060B (zh) * | 2020-08-25 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 发布平台影响力的评估方法及相关装置、计算机存储介质 |
CN114743681B (zh) * | 2021-12-20 | 2024-01-30 | 健康数据(北京)科技有限公司 | 一种基于自然语言处理的病例入组筛选方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105354333A (zh) * | 2015-12-07 | 2016-02-24 | 天云融创数据科技(北京)有限公司 | 一种基于新闻文本的话题提取方法 |
CN107562843A (zh) * | 2017-08-25 | 2018-01-09 | 贵州耕云科技有限公司 | 一种基于标题高频切分的新闻热点短语提取方法 |
CN108399228A (zh) * | 2018-02-12 | 2018-08-14 | 平安科技(深圳)有限公司 | 文章分类方法、装置、计算机设备及存储介质 |
-
2019
- 2019-06-28 CN CN201910572440.7A patent/CN110413994B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105354333A (zh) * | 2015-12-07 | 2016-02-24 | 天云融创数据科技(北京)有限公司 | 一种基于新闻文本的话题提取方法 |
CN107562843A (zh) * | 2017-08-25 | 2018-01-09 | 贵州耕云科技有限公司 | 一种基于标题高频切分的新闻热点短语提取方法 |
CN108399228A (zh) * | 2018-02-12 | 2018-08-14 | 平安科技(深圳)有限公司 | 文章分类方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110413994A (zh) | 2019-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765265B (zh) | 信息分类抽取方法、装置、计算机设备和存储介质 | |
CN109543032B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN110413994B (zh) | 热点话题生成方法、装置、计算机设备和存储介质 | |
CN112651238A (zh) | 训练语料扩充方法及装置、意图识别模型训练方法及装置 | |
CN108520041B (zh) | 文本的行业分类方法、系统、计算机设备和存储介质 | |
CN109783785B (zh) | 生成实验检测报告的方法、装置和计算机设备 | |
EP3499384A1 (en) | Word and sentence embeddings for sentence classification | |
CN111832294A (zh) | 标注数据的选择方法、装置、计算机设备和存储介质 | |
CN110674144A (zh) | 用户画像生成方法、装置、计算机设备和存储介质 | |
CN111368061B (zh) | 短文本过滤方法、装置、介质及计算机设备 | |
CN110910864A (zh) | 训练样本的选取方法、装置、计算机设备和存储介质 | |
CN112613555A (zh) | 基于元学习的目标分类方法、装置、设备和存储介质 | |
CN113704436A (zh) | 基于会话场景的用户画像标签挖掘方法及装置 | |
CN112560444A (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN115098556A (zh) | 用户需求匹配方法、装置、电子设备及存储介质 | |
CN112734008A (zh) | 分类网络构建方法以及基于分类网络的分类方法 | |
CN110909975B (zh) | 科研平台效益评估方法、装置 | |
CN112464660B (zh) | 文本分类模型构建方法以及文本数据处理方法 | |
CN111859238B (zh) | 基于模型的预测数据变化频率的方法、装置和计算机设备 | |
CN111401055B (zh) | 从金融资讯提取脉络信息的方法和装置 | |
CN115062619B (zh) | 中文实体链接方法、装置、设备及存储介质 | |
CN111680132A (zh) | 一种用于互联网文本信息的噪声过滤和自动分类方法 | |
CN110781310A (zh) | 目标概念图谱的构建方法、装置、计算机设备和存储介质 | |
CN112364620B (zh) | 文本相似度的判断方法、装置以及计算机设备 | |
CN111241811A (zh) | 确定搜索词权重的方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |