CN115409000A

CN115409000A - 一种热点人物软文自动生成方法及装置

Info

Publication number: CN115409000A
Application number: CN202211359231.2A
Authority: CN
Inventors: 袁明明; 张传刚; 倪健; 王凯; 王涛; 李尚锴
Original assignee: Inspur Communication Information System Co Ltd
Current assignee: Inspur Communication Information System Co Ltd
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2022-11-29
Anticipated expiration: 2042-11-02
Also published as: CN115409000B

Abstract

本发明涉及机器学习数据挖掘技术领域，具体提供了一种热点人物软文自动生成方法及装置，爬取一段时间内的新闻数据及参数信息；计算新闻数据的计分权重；创建过滤词库，并对新闻数据的正文及标题进行分词处理；对新闻数据进行横向挖掘，利用计分权重计算舆论人物的热度得分，找到多个热点人物；对新闻数据进行纵向挖掘，通过两步计分计算热点人物相关热度新闻；基于关键字挖掘热点人物的结构化信息，并结合横向挖掘结果和纵向挖掘结果自动生成热点人物软文。与现有技术相比，本发明的通过多次计分计算，准确的从数据中挖掘热点人物及相关信息，可以解决传统数据挖掘方法容易过滤部分信息，挖掘范围不全面等问题。

Description

一种热点人物软文自动生成方法及装置

技术领域

本发明涉及机器学习数据挖掘技术领域，具体提供一种热点人物软文自动生成方法及装置。

背景技术

随着互联网技术的发展，网络媒体已经成为人们获取新闻的一个重要渠道，热度新闻也因此收到人们越来越多的关注。近年来，金融业等专业领域开始关注热点新闻中的高价值信息，这加速了新闻数据的数据挖掘的发展，发展出基于新闻文本特征和词向量化算法，可以将新闻数据转化成文本标签向量；基于对文本标签向量的学习，可以通过聚类算法实现新闻数据的聚类，找到较为集中的热点新闻；基于LDA模型，可以找到新闻簇中山的关键主题，生成热点话题等。但这些方法在挖掘热点人物并完成人物软文生成时，依然存在一定的问题。具体问题如下：

常规的数据挖掘算法会对新闻数据进行抽取、转换、分析等处理，从而获取被认为关键的数据，但是由于姓名实体在新闻数据中数量少，且干扰因素多，因此很容易被过滤，导致数据挖掘不够全面，丢失人物信息。

传统软文生成都需要收集信息，并由编辑人员编写成软文。这种模式需要的时间更多，且对于金融业等行业来说，更重要的是人物的结构化信息和时效。

所以寻找一种挖掘范围全面、时效快的热点人物软文自动生成方法，尤为急切。

发明内容

本发明是针对上述现有技术的不足，提供一种实用性强的热点人物软文自动生成方法。

本发明进一步的技术任务是提供一种设计合理，安全适用的热点人物软文自动生成装置。

本发明解决其技术问题所采用的技术方案是：

一种热点人物软文自动生成方法，首先通过新闻数据爬取模块，利用爬虫工具爬取一段时间内的新闻数据, 记录为新闻数据集C，C中包含n条新闻数据，每条新闻数据分为新闻标题和新闻正文，分别记为C_word_i、C_title_i；

然后，新闻数据命名实体生成模块中创建过滤词库，利用分词工具对新闻数据的正文及标题进行分词处理，并利用过滤词库过滤掉停止词和新闻从业者姓名，生成新闻数据的正文命名实体集C_word_entity和标题命名实体集C_title_entity，C_word_entity中每一条数据为一条新闻数据的正文的命名实体集合，C_title_entity中每一条数据为一条新闻数据的标题的命名实体集合；

新闻数据权重计算模块，计算新闻数据集C中的每条新闻数据的正文计分权重new_weighti和标题计分权重title_weight_i；

热点人物挖掘模块，对新闻数据进行横向挖掘，基于新闻数据的正文计分权重及标题计分权重，通过两步计分计算新闻数据中出现的人物的热度得分，选取热度得分最高的前nn的人物为热点人物；

热点人物关联新闻挖掘模块，对新闻数据进行纵向挖掘，基于新闻数据的正文计分权重及标题计分权重计算热点人物相关的新闻的热度得分，选取热度得分最高的前mm的新闻为热度新闻；

最后，热点人物结构化信息挖掘及热点人物软文自动生成模块中建立人物结构化信息关键字清单，并基于关键字挖掘热点人物的结构化信息；基于关键字挖掘热点人物的结构化信息，并基于热点人物挖掘模块、热点人物关联新闻挖掘模块获取的热点人物结构化信息，自动生成热点人物软文。

进一步的，在新闻数据爬取模块中还需统计新闻数据的参数信息，包括分享数、收藏数、评论数、点赞数、阅读数，分别记为C_share_i、C_collection_i、C_comment_i、C_praise_i、C_read_i，其中，i=0,2,…,n-1；

进一步的，所述新闻数据权重计算模块中计算新闻数据集C中的每条新闻数据的正文计分权重new_weight_i和标题计分权重title_weight_i，具体步骤如下：

（1）设定新闻数据的分享数、收藏数、评论数、点赞数及阅读数的计分权重阈值，分别为share_w、collection_w、comment_w、praise_w、read_w；

（2）对新闻数据集C中的n条新闻数据的分享数、收藏数、评论数、点赞数及阅读数分别进行排序并找到的最大值，记为share_max、collection_ max、comment_ max、praise_max、read_ max；

（3）计算每一条新闻数据的分享数的计分权重C_share_weight_i、C_collection_weight_i、C_comment_weight_i、C_praise_weight_i、C_read_weight；

（4）计算每一条新闻数据的正文计分权重new_weight_i；

（5）设定新闻数据的标题的计分权重阈值为title_w，计算每一条新闻数据的标题计分权重，计算过程如下：

。

进一步的，在新闻数据权重计算模块步骤（3）中，计算每一条新闻数据的分享数的计分权重C_share_weight_i，计算过程如下：

C_share_weight_i= share_w * C_share_i / share_max

并作如下处理：如果C_share_weight_i < 0.01 * share_w，令C_share_weight_i =0.01 * share_w；

同样的，分别计算每一条新闻数据的收藏数、评论数、点赞数及阅读数的计分权重C_collection_weight_i、C_comment_weight_i、C_praise_weight_i、C_read_weight_i；

在步骤（4）中，计算每一条新闻数据的正文计分权重new_weight_i,计算过程如下：

new_weight_i = 1 + C_share_weight_i + C_collection_weight_i + C_comment_weight_i + C_praise_weight_i + C_read_weight_i。

进一步的，在热点人物挖掘模块中，具体步骤如下：

（1）提取新闻数据的正文实体集C_word_entity和标题实体集C_title_entity中人物姓名实体，并统计在C_word_entity、C_title_entity中出现的不同的人物姓名，总计nk个，并保存在人物姓名列表name_list中；

（2）对于name_list中每一个人物姓名，统计人物姓名在新闻数据的正文实体集C_word_entity中每一条数据中出现的次数，分别记为name_list_n_ij,(i = 0,1,…,nk-1,j=0,…,n-1)；

统计人物姓名在新闻数据的标题实体集C_title_entity中每一条数据中出现的次数，分别记为name_list_t_ij,(i=0,1,…,nk-1,j=0,…,n-1)；

并作如下处理：如果name_list_ij >= 1,name_list_ij = 1；

（3）计算name_list中每个人物姓名的热点计分，记为name_list_c_i,计算过程如下：

其中，i=0,1,…,nk-1；

（4）对name_list_c_i(i=0,1,…,nk-1)进行排序，并选取数值最高的前nn的人物为热点人物。

进一步的，在热点人物关联新闻挖掘模块中，具体的步骤如下：

（1）设定新闻热度初始计分最大值为cmax，最小值为cmin，初始计分衰减因子apha，计算Chot_i的热度计分Chot_c_i, i=0,1,…,mk-1，计算过程如下：

Chot_c₀ = cmax

Chot_c_mk-1 = cmin

对于Chot_c_j（j = 1,…, mk-2），从Chot_c₁开始，每一个Chot_c_j = Chot_c_j-1 -（Chot_c_j-1 – cmin）*(1 - apha）；

（2）对于Chot_i（i=0,1,…,mk-1），设定分享数计分最大值为share_max, 分享数计分最小值为share_min；对Chot_i中的新闻数据的分享数进行排序，计算Chot_i的分享数计分Chot_sh_i, 其中，i=0,1,…,mk-1，计算过程如下：

首先定义中间变量share_temp_k,k=0,1,…,mk-1,用于保存分享数计分值；并赋值如下：

share_temp₀= share_max

share_tempm_k-1 = share_min

对于share_temp_j（j = 1,2，…, mk-2），从share_temp₁开始，每一个share_temp_j= share_temp_j-1- （share_temp_j-1 – share_min）*(1 - apha）；

其次，计算Chot_sh_i如下：

如果Chot_i的分享数为最大值，则Chot_sh_i= share_temp₀；

如果Chot_i的分享数为最小值，则Chot_sh_i = share_temp_mk-1；

如果Chot_i的分享数是从高到底的第j名，则Chot_sh_i = share_temp_i，i=1,2,…,mk-2；

同样的，分别设定收藏数计分最大值为collection_max, 收藏数计分最小值为collection_min，评论数计分最大值为comment _max, 评论数计分最小值为comment _min，点赞数计分最大值为praise _max, 点赞数计分最小值为praise _min，阅读数计分最大值为read _max, 阅读数计分最小值为read _min，并用类似的方法计算Chot_i的收藏数计分Chot_col_i、评论数计分Chot_com_i、点赞数计分Chot_pr_i、阅读数计分Chot_re_i，其中i=0,1,…,mk-1；

（3）对于Chot_i（i=0,1,…,mk-1），设定标题计分值为title_value，初始化Chot_i的标题计分为Chot_t_i, i=0,1,…,mk-1；并作如下赋值：

如果Chot_i的新闻数据的标题中包含该热点人物姓名的命名实体，则Chot_t_i =title_value；

如果Chot_i的新闻数据的标题中部不包含该热点人物姓名的命名实体，则Chot_t_i= 0；

（4）对于Chot_i（i=0,1,…,mk-1），计算最终的新闻热度计分Chot_fc_i如下：

Chot_fc_i = Chot_c_i + Chot_sh_i + Chot_col_i + Chot_com_i + Chot_pr_i +Chot_re_i + Chot_t_i

其中，i=0,1,…,mk-1；

对Chot_fc_i按照计分值从高到低排序，并选取数值最高的前mm的新闻数据为热点人物相关热点新闻。

进一步的，在热点人物结构化信息挖掘及热点人物软文自动生成模块中，具有如下步骤：

（1）建立人物结构化信息的key-value清单，其中key表示关键字，value则表示该关键字的值，key包括性别、年龄、籍贯、家人关系、社会关系、经济状况、生平记录、情感情况及过往新闻；

其中，家人关系包括姓名、称谓两个子关键字；社会关系包括姓名、关系性质、对方所在团体三个子关键字；经济状况包括数字、币种、日期、金额发生属性四个子关键字；生平记录包括时间-时间、所在团体两个子关键字；情感情况包括姓名、情感属性、时间、金额四个子关键字；

（2）对于每一个热点人物，通过爬虫工具爬取从当前时间至过去old_n年中包含该热点人物姓名的命名实体的网络数据，并利用分词工具对网络数据进行分词处理，并利用过滤词库过滤掉停止词、新闻从业者姓名，生成网络数据的正文命名实体集C_people；

（3）对于热点人物的每一个关键字key，保存C_people中所有和key关键字匹配成功的命名实体所在的语句，并保存在候选value值的集合value_h中；

关键字匹配的方法具体为逐字对比网络数据中的命名实体和关键字，如果命名实体的每一个字和关键字的对应的每一个字都相同，则认为关键字匹配成功；对于包括子关键字的关键字key，每一个子关键字都要匹配成功，并将和子关键字匹配成功的命名实体所在的语句保存在候选value值得集合value_h中；

（4）遍历每一个关键字key对应的候选value值的集合value_h，并统计重复度最高的value值，即为该关键字key的值value；

（5）对于每一个热点人物，按照热点人物姓名、性别、年龄、籍贯、家人关系、社会关系、经济状况、生平记录、情感情况、过往新闻、mm条热点新闻的顺序，自动生成热点人物软文。

一种热点人物软文自动生成装置，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行一种热点人物软文自动生成方法。

本发明的一种热点人物软文自动生成方法及装置和现有技术相比，具有以下突出的有益效果：

本发明通过多次计分计算，准确的从海量数据中挖掘热点人物及相关信息，可以解决传统数据挖掘方法容易过滤部分信息，挖掘范围不全面等问题。

通过预设软文模板，基于人物结构化信息自动生成软文，解决了传统软文编辑时效慢、数据挖掘不够全面等问题，具有人物信息准确、速度快等优势。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

附图1是一种热点人物软文自动生成方法的流程示意图。

具体实施方式

为了使本技术领域的人员更好的理解本发明的方案，下面结合具体的实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。

下面给出一个最佳实施例：

如图1所示，本实施例中的一种热点人物软文自动生成方法，通过新闻数据爬取模块，利用爬虫工具爬取当前一段时间内的海量新闻数据，记录为新闻数据集C，C中包含6780条新闻数据，每条新闻数据分为新闻标题和新闻正文，分别记为C_word_i、C_title_i,统计每天新闻数据的分享数、收藏数、评论数、点赞数、阅读数，分别记为C_share_i、C_collection_i、C_comment_i、C_praise_i、C_read_i，i=0,2,…,6779；

新闻数据命名实体生成模块，创建过滤词库，利用分词工具对新闻数据的正文及标题进行分词处理，并利用过滤词库过滤掉停止词、新闻从业者姓名，生成新闻数据的正文命名实体集C_word_entity和标题命名实体集C_title_entity，C_word_entity中每一条数据为一条新闻数据的正文的命名实体集合，C_title_entity中每一条数据为一条新闻数据的标题的命名实体集合。

新闻数据权重计算模块，计算新闻数据集C中的每条新闻数据的正文计分权重new_weight_i和标题计分权重title_weight_i。

在本实施例中的热点人物挖掘模块对新闻数据进行横向挖掘，基于新闻数据的正文计分权重及标题计分权重，通过两步计分计算新闻数据中出现的人物的热度得分，选取热度得分最高的前7的人物为热点人物。

热点人物关联新闻挖掘模块，对新闻数据进行纵向挖掘，基于新闻数据的正文计分权重及标题计分权重计算热点人物相关的新闻的热度得分，选取热度得分最高的前8的新闻为热度新闻；

热点人物结构化信息挖掘及热点人物软文自动生成模块，建立人物结构化信息关键字清单，并基于关键字挖掘热点人物的结构化信息；基于关键字挖掘热点人物的结构化信息，并基于热点人物挖掘模块、热点人物关联新闻挖掘模块获取的热点人物结构化信息，自动生成热点人物软文。

其中，新闻数据权重计算模块用于计算新闻数据集C中的每条新闻数据的正文计分权重new_weight_i和标题计分权重title_weight_i，该模块分如下步骤：

（1）设定新闻数据的分享数、收藏数、评论数、点赞数及阅读数的计分权重阈值，分别为1、0.8、0.5、0.4、0.1；

（2）对新闻数据集C中的6780条新闻数据的分享数、收藏数、评论数、点赞数及阅读数分别进行排序并找到的最大值，记为share_max、collection_ max、comment_ max、praise_ max、read_ max；

（3）计算每一条新闻数据的分享数的计分权重C_share_weighti，计算过程如下：

C_share_weight_i = share_w * C_share_i/ share_max

并作如下处理：

如果C_share_weight_i< 0.01 * share_w，令C_share_weight_i = 0.01 * share_w；

（4）计算每一条新闻数据的正文计分权重new_weighti,计算过程如下：

new_weight_i = 1 + C_share_weight_i + C_collection_weight_i + C_comment_weight_i + C_praise_weight_i + C_read_weight_i；

（5）设定新闻数据的标题的计分权重阈值为5，计算每一条新闻数据的标题计分权重，计算过程如下：

热点人物挖掘模块，用于对新闻数据进行横向挖掘，基于新闻数据的正文计分权重及标题计分权重，通过两步计分计算新闻数据中出现的人物的热度得分，选取热度得分最高的前nn的人物为热点人物，该模块分如下步骤：

（2）对于name_list中每一个人物姓名，统计该人物姓名在新闻数据的正文实体集C_word_entity中每一条数据中出现的次数，分别记为name_list_n_ij,(i = 0,1,…,nk-1,j=0,…,6779)；统计该人物姓名在新闻数据的标题实体集C_title_entity中每一条数据中出现的次数，分别记为name_list_t_ij,(i=0,1,…,nk-1,j=0,…,6779)；

并作如下处理：如果name_list_ij>= 1,name_list_ij= 1；

其中，i=0,1,…,nk-1；

（4）对name_list_c_i(i=0,1,…,nk-1)进行排序，并选取数值最高的前nn的人物为热点人物；

热点人物关联新闻挖掘模块，用于对新闻数据进行纵向挖掘，基于新闻数据的正文计分权重及标题计分权重计算热点人物相关的新闻的热度得分，选取热度得分最高的前mm的新闻为热点人物相关热度新闻，该模块分如下步骤：

（1）对于每一个热点人物，在新闻数据集C中寻找正文中包含该热点人物姓名的命名实体的新闻数据，总计mk个，并按照该热点人物姓名的命名实体在出现的次数从高到底排序，记为Chot_i，其中i=0,1,…,mk-1；

（2）设定新闻热度初始计分最大值为100，最小值为50，初始计分衰减因子0.75，计算Choti的热度计分Chot_c_i, i=0,1,…,mk-1，计算过程如下：

Chot_c₀ = 100

Chot_c_mk-1 = 50

对于Chot_c_j（j = 1,…, mk-2），从Chot_c₁开始，每一个Chot_c_j = Chot_c_j-1 -（Chot_c_j-1– 50）*(1 – 0.75）；

（3）对于Chot_i（i=0,1,…,mk-1），设定分享数计分最大值为10, 分享数计分最小值为5，初始计分衰减因子0.75；对Chot_i中的新闻数据的分享数进行排序，计算Chot_i的分享数计分Chot_sh_i, i=0,1,…,mk-1，计算过程如下：

首先定义中间变量share_temp_k,k=0,1,…,mk-1,用于保存分享数计分值。并赋值如下：

share_temp₀ = 10

share_temp_mk-1 = 5

对于share_temp_j（j = 1,2，…, mk-2），从share_temp₁开始，每一个share_temp_j= share_temp_j-1- （share_temp_j-1 – 5）*(1 – 0.75）；

其次，计算Chot_sh_i如下：

如果Chot_i的分享数为最大值，则Chot_sh_i = share_temp₀；

如果Chot_i的分享数为最小值，则Chot_sh_i = share_temp_mk-1；

同样的，分别设定收藏数计分最大值为10, 收藏数计分最小值为5，评论数计分最大值为10, 评论数计分最小值为5，点赞数计分最大值为10, 点赞数计分最小值为5，阅读数计分最大值为10, 阅读数计分最小值为5，并用类似的方法计算Chot_i的收藏数计分Chot_col_i、评论数计分Chot_com_i、点赞数计分Chot_pr_i、阅读数计分Chot_re_i，其中i=0,1,…,mk-1；

（4）对于Chot_i（i=0,1,…,mk-1），设定标题计分值为10，初始化Chot_i的标题计分为Chot_t_i, i=0,1,…,mk-1；并作如下赋值：

如果Chot_i的新闻数据的标题中包含该热点人物姓名的命名实体，则Chot_t_i =10；

（5）对于Chot_i（i=0,1,…,mk-1），计算最终的新闻热度计分Chot_fc_i如下：

Chot_fc_i = Chot_c_i + Chot_sh_i+ Chot_col_i + Chot_com_i + Chot_pr_i +Chot_re_i + Chot_t_i

其中，i=0,1,…,mk-1。

在热点人物结构化信息挖掘及热点人物软文自动生成模块中，分如下步骤：

（1）建立人物结构化信息的key-value清单，其中key表示关键字，value则表示该关键字的值，key包括性别、年龄、籍贯、家人关系、社会关系、经济状况、生平记录、情感情况及过往新闻。其中，家人关系包括姓名、称谓两个子关键字；社会关系包括姓名、关系性质、对方所在团体三个子关键字；经济状况包括数字、币种、日期、金额发生属性四个子关键字；生平记录包括时间-时间、所在团体两个子关键字；情感情况包括姓名、情感属性、时间、金额四个子关键字；

（2）对于每一个热点人物，通过爬虫工具爬取从当前时间至过去2年中包含该热点人物姓名的命名实体的网络数据，并利用分词工具对网络数据进行分词处理，并利用过滤词库过滤掉停止词、新闻从业者姓名，生成网络数据的正文命名实体集C_people；

（3）对于该热点人物的每一个关键字key，保存C_people中所有和key关键字匹配成功的命名实体所在的语句，并保存在候选value值的集合value_h中；

这里的关键字匹配的方法具体为逐字对比网络数据中的命名实体和关键字，如果命名实体的每一个字和关键字的对应的每一个字都相同，则认为关键字匹配成功；对于包括子关键字的关键字key，每一个子关键字都要匹配成功，并将和子关键字匹配成功的命名实体所在的语句保存在候选value值得集合value_h中；

基于上述方法，本实施例中的一种热点人物软文自动生成装置，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

上述具体的实施方式仅是本发明具体的个案，本发明的专利保护范围包括但不限于上述具体的实施方式，任何符合本发明的一种热点人物软文自动生成方法及装置权利要求书的且任何所述技术领域普通技术人员对其做出的适当变化或者替换，皆应落入本发明的专利保护范围。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种热点人物软文自动生成方法，其特征在于,首先通过新闻数据爬取模块，利用爬虫工具爬取一段时间内的新闻数据, 记录为新闻数据集C，C中包含n条新闻数据，每条新闻数据分为新闻标题和新闻正文，分别记为C_word_i、C_title_i；

新闻数据权重计算模块，计算新闻数据集C中的每条新闻数据的正文计分权重new_weight_i和标题计分权重title_weight_i；

2.根据权利要求1所述的一种热点人物软文自动生成方法，其特征在于，在新闻数据爬取模块中还需统计新闻数据的参数信息，包括分享数、收藏数、评论数、点赞数、阅读数，分别记为C_share_i、C_collection_i、C_comment_i、C_praise_i、C_read_i，其中，i=0,2,…,n-1。

3.根据权利要求2所述的一种热点人物软文自动生成方法，其特征在于，所述新闻数据权重计算模块中计算新闻数据集C中的每条新闻数据的正文计分权重new_weight_i和标题计分权重title_weight_i，具体步骤如下：

（3）计算每一条新闻数据的分享数的计分权重C_share_weight_i、 C_collection_weight_i、C_comment_weight_i、C_praise_weight_i、C_read_weight_i；

（4）计算每一条新闻数据的正文计分权重new_weight_i；

。

4.根据权利要求3所述的一种热点人物软文自动生成方法，其特征在于，在新闻数据权重计算模块步骤（3）中，计算每一条新闻数据的分享数的计分权重C_share_weight_i，计算过程如下：

C_share_weight_i= share_w * C_share_i / share_max

并作如下处理：如果C_share_weight_i < 0.01 * share_w，令C_share_weight_i = 0.01* share_w；

5.根据权利要求4所述的一种热点人物软文自动生成方法，其特征在于，在热点人物挖掘模块中，具体步骤如下：

并作如下处理：如果name_list_ij >= 1,name_list_ij = 1；

其中，i=0,1,…,nk-1；

6.根据权利要求5所述的一种热点人物软文自动生成方法，其特征在于，在热点人物关联新闻挖掘模块中，具体的步骤如下：

Chot_c₀ = cmax

Chot_c_mk-1 = cmin

share_temp₀= share_max

share_tempm_k-1 = share_min

对于share_temp_j（j = 1,2，…, mk-2），从share_temp₁开始，每一个share_temp_j =share_temp_j-1- （share_temp_j-1 – share_min）*(1 - apha）；

其次，计算Chot_sh_i如下：

如果Chot_i的分享数为最大值，则Chot_sh_i= share_temp₀；

如果Chot_i的分享数为最小值，则Chot_sh_i = share_temp_mk-1；

如果Chot_i的新闻数据的标题中包含该热点人物姓名的命名实体，则Chot_t_i = title_value；

如果Chot_i的新闻数据的标题中部不包含该热点人物姓名的命名实体，则Chot_t_i = 0；

Chot_fc_i = Chot_c_i + Chot_sh_i + Chot_col_i + Chot_com_i + Chot_pr_i + Chot_re_i+ Chot_t_i

其中，i=0,1,…,mk-1；

7.根据权利要求6所述的一种热点人物软文自动生成方法，其特征在于，在热点人物结构化信息挖掘及热点人物软文自动生成模块中，具有如下步骤：

8.一种热点人物软文自动生成装置，其特征在于，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行权利要求1至7中任一所述的方法。