CN115409000A - 一种热点人物软文自动生成方法及装置 - Google Patents
一种热点人物软文自动生成方法及装置 Download PDFInfo
- Publication number
- CN115409000A CN115409000A CN202211359231.2A CN202211359231A CN115409000A CN 115409000 A CN115409000 A CN 115409000A CN 202211359231 A CN202211359231 A CN 202211359231A CN 115409000 A CN115409000 A CN 115409000A
- Authority
- CN
- China
- Prior art keywords
- news
- weight
- chot
- share
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000005065 mining Methods 0.000 claims abstract description 45
- 238000004364 calculation method Methods 0.000 claims abstract description 24
- 238000001914 filtration Methods 0.000 claims abstract description 13
- 230000011218 segmentation Effects 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 5
- 230000002996 emotional effect Effects 0.000 claims description 12
- 230000009193 crawling Effects 0.000 claims description 9
- 241001550224 Apha Species 0.000 claims description 6
- 238000012552 review Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims 1
- 238000007418 data mining Methods 0.000 abstract description 9
- 238000010801 machine learning Methods 0.000 abstract description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及机器学习数据挖掘技术领域,具体提供了一种热点人物软文自动生成方法及装置,爬取一段时间内的新闻数据及参数信息;计算新闻数据的计分权重;创建过滤词库,并对新闻数据的正文及标题进行分词处理;对新闻数据进行横向挖掘,利用计分权重计算舆论人物的热度得分,找到多个热点人物;对新闻数据进行纵向挖掘,通过两步计分计算热点人物相关热度新闻;基于关键字挖掘热点人物的结构化信息,并结合横向挖掘结果和纵向挖掘结果自动生成热点人物软文。与现有技术相比,本发明的通过多次计分计算,准确的从数据中挖掘热点人物及相关信息,可以解决传统数据挖掘方法容易过滤部分信息,挖掘范围不全面等问题。
Description
技术领域
本发明涉及机器学习数据挖掘技术领域,具体提供一种热点人物软文自动生成方法及装置。
背景技术
随着互联网技术的发展,网络媒体已经成为人们获取新闻的一个重要渠道,热度新闻也因此收到人们越来越多的关注。近年来,金融业等专业领域开始关注热点新闻中的高价值信息,这加速了新闻数据的数据挖掘的发展,发展出基于新闻文本特征和词向量化算法,可以将新闻数据转化成文本标签向量;基于对文本标签向量的学习,可以通过聚类算法实现新闻数据的聚类,找到较为集中的热点新闻;基于LDA模型,可以找到新闻簇中山的关键主题,生成热点话题等。但这些方法在挖掘热点人物并完成人物软文生成时,依然存在一定的问题。具体问题如下:
常规的数据挖掘算法会对新闻数据进行抽取、转换、分析等处理,从而获取被认为关键的数据,但是由于姓名实体在新闻数据中数量少,且干扰因素多,因此很容易被过滤,导致数据挖掘不够全面,丢失人物信息。
传统软文生成都需要收集信息,并由编辑人员编写成软文。这种模式需要的时间更多,且对于金融业等行业来说,更重要的是人物的结构化信息和时效。
所以寻找一种挖掘范围全面、时效快的热点人物软文自动生成方法,尤为急切。
发明内容
本发明是针对上述现有技术的不足,提供一种实用性强的热点人物软文自动生成方法。
本发明进一步的技术任务是提供一种设计合理,安全适用的热点人物软文自动生成装置。
本发明解决其技术问题所采用的技术方案是:
一种热点人物软文自动生成方法,首先通过新闻数据爬取模块,利用爬虫工具爬取一段时间内的新闻数据, 记录为新闻数据集C,C中包含n条新闻数据,每条新闻数据分为新闻标题和新闻正文,分别记为C_wordi、C_titlei;
然后,新闻数据命名实体生成模块中创建过滤词库,利用分词工具对新闻数据的正文及标题进行分词处理,并利用过滤词库过滤掉停止词和新闻从业者姓名,生成新闻数据的正文命名实体集C_word_entity和标题命名实体集C_title_entity,C_word_entity中每一条数据为一条新闻数据的正文的命名实体集合,C_title_entity中每一条数据为一条新闻数据的标题的命名实体集合;
新闻数据权重计算模块,计算新闻数据集C中的每条新闻数据的正文计分权重new_weighti和标题计分权重title_weighti;
热点人物挖掘模块,对新闻数据进行横向挖掘,基于新闻数据的正文计分权重及标题计分权重,通过两步计分计算新闻数据中出现的人物的热度得分,选取热度得分最高的前nn的人物为热点人物;
热点人物关联新闻挖掘模块,对新闻数据进行纵向挖掘,基于新闻数据的正文计分权重及标题计分权重计算热点人物相关的新闻的热度得分,选取热度得分最高的前mm的新闻为热度新闻;
最后,热点人物结构化信息挖掘及热点人物软文自动生成模块中建立人物结构化信息关键字清单,并基于关键字挖掘热点人物的结构化信息;基于关键字挖掘热点人物的结构化信息,并基于热点人物挖掘模块、热点人物关联新闻挖掘模块获取的热点人物结构化信息,自动生成热点人物软文。
进一步的, 在新闻数据爬取模块中还需统计新闻数据的参数信息,包括分享数、收藏数、评论数、点赞数、阅读数,分别记为C_sharei、C_collectioni、C_commenti、C_praisei、C_readi,其中,i=0,2,…,n-1;
进一步的,所述新闻数据权重计算模块中计算新闻数据集C中的每条新闻数据的正文计分权重new_weighti和标题计分权重title_weighti,具体步骤如下:
(1)设定新闻数据的分享数、收藏数、评论数、点赞数及阅读数的计分权重阈值,分别为share_w、collection_w、comment_w、praise_w、read_w;
(2)对新闻数据集C中的n条新闻数据的分享数、收藏数、评论数、点赞数及阅读数分别进行排序并找到的最大值,记为share_max、collection_ max、comment_ max、praise_max、read_ max;
(3)计算每一条新闻数据的分享数的计分权重C_share_weighti、C_collection_weighti、C_comment_weighti、C_praise_weighti、C_read_weight;
(4)计算每一条新闻数据的正文计分权重new_weighti;
(5)设定新闻数据的标题的计分权重阈值为title_w,计算每一条新闻数据的标题计分权重,计算过程如下:
进一步的, 在新闻数据权重计算模块步骤(3)中,计算每一条新闻数据的分享数的计分权重C_share_weighti,计算过程如下:
C_share_weighti = share_w * C_sharei / share_max
并作如下处理:如果C_share_weighti < 0.01 * share_w,令C_share_weighti =0.01 * share_w;
同样的,分别计算每一条新闻数据的收藏数、评论数、点赞数及阅读数的计分权重C_collection_weighti、C_comment_weighti、C_praise_weighti、C_read_weighti;
在步骤(4)中,计算每一条新闻数据的正文计分权重new_weighti,计算过程如下:
new_weighti = 1 + C_share_weighti + C_collection_weighti + C_comment_weighti + C_praise_weighti + C_read_weighti。
进一步的,在热点人物挖掘模块中,具体步骤如下:
(1)提取新闻数据的正文实体集C_word_entity和标题实体集C_title_entity中人物姓名实体,并统计在C_word_entity、C_title_entity中出现的不同的人物姓名,总计nk个,并保存在人物姓名列表name_list中;
(2)对于name_list中每一个人物姓名,统计人物姓名在新闻数据的正文实体集C_word_entity中每一条数据中出现的次数,分别记为name_list_nij,(i = 0,1,…,nk-1,j=0,…,n-1);
统计人物姓名在新闻数据的标题实体集C_title_entity中每一条数据中出现的次数,分别记为name_list_tij,(i=0,1,…,nk-1,j=0,…,n-1);
并作如下处理:如果name_listij >= 1,name_listij = 1;
(3)计算name_list中每个人物姓名的热点计分,记为name_list_ci,计算过程如下:
其中,i=0,1,…,nk-1;
(4)对name_list_ci(i=0,1,…,nk-1)进行排序,并选取数值最高的前nn的人物为热点人物。
进一步的,在热点人物关联新闻挖掘模块中,具体的步骤如下:
(1)设定新闻热度初始计分最大值为cmax,最小值为cmin,初始计分衰减因子apha,计算Choti的热度计分Chot_ci, i=0,1,…,mk-1,计算过程如下:
Chot_c0 = cmax
Chot_cmk-1 = cmin
对于Chot_cj(j = 1,…, mk-2),从Chot_c1开始,每一个Chot_cj = Chot_cj-1 -(Chot_cj-1 – cmin)*(1 - apha);
(2)对于Choti(i=0,1,…,mk-1),设定分享数计分最大值为share_max, 分享数计分最小值为share_min;对Choti中的新闻数据的分享数进行排序,计算Choti的分享数计分Chot_shi, 其中,i=0,1,…,mk-1,计算过程如下:
首先定义中间变量share_tempk,k=0,1,…,mk-1,用于保存分享数计分值;并赋值如下:
share_temp0 = share_max
share_tempmk-1 = share_min
对于share_tempj(j = 1,2,…, mk-2),从share_temp1开始,每一个share_tempj= share_tempj-1 - (share_tempj-1 – share_min)*(1 - apha);
其次,计算Chot_shi如下:
如果Choti的分享数为最大值,则Chot_shi = share_temp0;
如果Choti的分享数为最小值,则Chot_shi = share_tempmk-1;
如果Choti的分享数是从高到底的第j名,则Chot_shi = share_tempi,i=1,2,…,mk-2;
同样的,分别设定收藏数计分最大值为collection_max, 收藏数计分最小值为collection_min,评论数计分最大值为comment _max, 评论数计分最小值为comment _min,点赞数计分最大值为praise _max, 点赞数计分最小值为praise _min,阅读数计分最大值为read _max, 阅读数计分最小值为read _min,并用类似的方法计算Choti的收藏数计分Chot_coli、评论数计分Chot_comi、点赞数计分Chot_pri、阅读数计分Chot_rei,其中i=0,1,…,mk-1;
(3)对于Choti(i=0,1,…,mk-1),设定标题计分值为title_value,初始化Choti的标题计分为Chot_ti, i=0,1,…,mk-1;并作如下赋值:
如果Choti的新闻数据的标题中包含该热点人物姓名的命名实体,则Chot_ti =title_value;
如果Choti的新闻数据的标题中部不包含该热点人物姓名的命名实体,则Chot_ti= 0;
(4)对于Choti(i=0,1,…,mk-1),计算最终的新闻热度计分Chot_fci如下:
Chot_fci = Chot_ci + Chot_shi + Chot_coli + Chot_comi + Chot_pri +Chot_rei + Chot_ti
其中,i=0,1,…,mk-1;
对Chot_fci按照计分值从高到低排序,并选取数值最高的前mm的新闻数据为热点人物相关热点新闻。
进一步的,在热点人物结构化信息挖掘及热点人物软文自动生成模块中,具有如下步骤:
(1)建立人物结构化信息的key-value清单,其中key表示关键字,value则表示该关键字的值,key包括性别、年龄、籍贯、家人关系、社会关系、经济状况、生平记录、情感情况及过往新闻;
其中,家人关系包括姓名、称谓两个子关键字;社会关系包括姓名、关系性质、对方所在团体三个子关键字;经济状况包括数字、币种、日期、金额发生属性四个子关键字;生平记录包括时间-时间、所在团体两个子关键字;情感情况包括姓名、情感属性、时间、金额四个子关键字;
(2)对于每一个热点人物,通过爬虫工具爬取从当前时间至过去old_n年中包含该热点人物姓名的命名实体的网络数据,并利用分词工具对网络数据进行分词处理,并利用过滤词库过滤掉停止词、新闻从业者姓名,生成网络数据的正文命名实体集C_people;
(3)对于热点人物的每一个关键字key,保存C_people中所有和key关键字匹配成功的命名实体所在的语句,并保存在候选value值的集合value_h中;
关键字匹配的方法具体为逐字对比网络数据中的命名实体和关键字,如果命名实体的每一个字和关键字的对应的每一个字都相同,则认为关键字匹配成功;对于包括子关键字的关键字key,每一个子关键字都要匹配成功,并将和子关键字匹配成功的命名实体所在的语句保存在候选value值得集合value_h中;
(4)遍历每一个关键字key对应的候选value值的集合value_h,并统计重复度最高的value值,即为该关键字key的值value;
(5)对于每一个热点人物,按照热点人物姓名、性别、年龄、籍贯、家人关系、社会关系、经济状况、生平记录、情感情况、过往新闻、mm条热点新闻的顺序,自动生成热点人物软文。
一种热点人物软文自动生成装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行一种热点人物软文自动生成方法。
本发明的一种热点人物软文自动生成方法及装置和现有技术相比,具有以下突出的有益效果:
本发明通过多次计分计算,准确的从海量数据中挖掘热点人物及相关信息,可以解决传统数据挖掘方法容易过滤部分信息,挖掘范围不全面等问题。
通过预设软文模板,基于人物结构化信息自动生成软文,解决了传统软文编辑时效慢、数据挖掘不够全面等问题,具有人物信息准确、速度快等优势。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1是一种热点人物软文自动生成方法的流程示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明的方案,下面结合具体的实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
下面给出一个最佳实施例:
如图1所示,本实施例中的一种热点人物软文自动生成方法,通过新闻数据爬取模块,利用爬虫工具爬取当前一段时间内的海量新闻数据,记录为新闻数据集C,C中包含6780条新闻数据,每条新闻数据分为新闻标题和新闻正文,分别记为C_wordi、C_titlei,统计每天新闻数据的分享数、收藏数、评论数、点赞数、阅读数,分别记为C_sharei、C_collectioni、C_commenti、C_praisei、C_readi,i=0,2,…,6779;
新闻数据命名实体生成模块,创建过滤词库,利用分词工具对新闻数据的正文及标题进行分词处理,并利用过滤词库过滤掉停止词、新闻从业者姓名,生成新闻数据的正文命名实体集C_word_entity和标题命名实体集C_title_entity,C_word_entity中每一条数据为一条新闻数据的正文的命名实体集合,C_title_entity中每一条数据为一条新闻数据的标题的命名实体集合。
新闻数据权重计算模块,计算新闻数据集C中的每条新闻数据的正文计分权重new_weighti和标题计分权重title_weighti。
在本实施例中的热点人物挖掘模块对新闻数据进行横向挖掘,基于新闻数据的正文计分权重及标题计分权重,通过两步计分计算新闻数据中出现的人物的热度得分,选取热度得分最高的前7的人物为热点人物。
热点人物关联新闻挖掘模块,对新闻数据进行纵向挖掘,基于新闻数据的正文计分权重及标题计分权重计算热点人物相关的新闻的热度得分,选取热度得分最高的前8的新闻为热度新闻;
热点人物结构化信息挖掘及热点人物软文自动生成模块,建立人物结构化信息关键字清单,并基于关键字挖掘热点人物的结构化信息;基于关键字挖掘热点人物的结构化信息,并基于热点人物挖掘模块、热点人物关联新闻挖掘模块获取的热点人物结构化信息,自动生成热点人物软文。
其中,新闻数据权重计算模块用于计算新闻数据集C中的每条新闻数据的正文计分权重new_weighti和标题计分权重title_weighti,该模块分如下步骤:
(1)设定新闻数据的分享数、收藏数、评论数、点赞数及阅读数的计分权重阈值,分别为1、0.8、0.5、0.4、0.1;
(2)对新闻数据集C中的6780条新闻数据的分享数、收藏数、评论数、点赞数及阅读数分别进行排序并找到的最大值,记为share_max、collection_ max、comment_ max、praise_ max、read_ max;
(3)计算每一条新闻数据的分享数的计分权重C_share_weighti,计算过程如下:
C_share_weighti = share_w * C_sharei / share_max
并作如下处理:
如果C_share_weighti < 0.01 * share_w,令C_share_weighti = 0.01 * share_w;
同样的,分别计算每一条新闻数据的收藏数、评论数、点赞数及阅读数的计分权重C_collection_weighti、C_comment_weighti、C_praise_weighti、C_read_weighti;
(4)计算每一条新闻数据的正文计分权重new_weighti,计算过程如下:
new_weighti = 1 + C_share_weighti + C_collection_weighti + C_comment_weighti + C_praise_weighti + C_read_weighti;
(5)设定新闻数据的标题的计分权重阈值为5,计算每一条新闻数据的标题计分权重,计算过程如下:
热点人物挖掘模块,用于对新闻数据进行横向挖掘,基于新闻数据的正文计分权重及标题计分权重,通过两步计分计算新闻数据中出现的人物的热度得分,选取热度得分最高的前nn的人物为热点人物,该模块分如下步骤:
(1)提取新闻数据的正文实体集C_word_entity和标题实体集C_title_entity中人物姓名实体,并统计在C_word_entity、C_title_entity中出现的不同的人物姓名,总计nk个,并保存在人物姓名列表name_list中;
(2)对于name_list中每一个人物姓名,统计该人物姓名在新闻数据的正文实体集C_word_entity中每一条数据中出现的次数,分别记为name_list_nij,(i = 0,1,…,nk-1,j=0,…,6779); 统计该人物姓名在新闻数据的标题实体集C_title_entity中每一条数据中出现的次数,分别记为name_list_tij,(i=0,1,…,nk-1,j=0,…,6779);
并作如下处理:如果name_listij >= 1,name_listij = 1;
(3)计算name_list中每个人物姓名的热点计分,记为name_list_ci,计算过程如下:
其中,i=0,1,…,nk-1;
(4)对name_list_ci(i=0,1,…,nk-1)进行排序,并选取数值最高的前nn的人物为热点人物;
热点人物关联新闻挖掘模块,用于对新闻数据进行纵向挖掘,基于新闻数据的正文计分权重及标题计分权重计算热点人物相关的新闻的热度得分,选取热度得分最高的前mm的新闻为热点人物相关热度新闻,该模块分如下步骤:
(1)对于每一个热点人物,在新闻数据集C中寻找正文中包含该热点人物姓名的命名实体的新闻数据,总计mk个,并按照该热点人物姓名的命名实体在出现的次数从高到底排序,记为Choti,其中i=0,1,…,mk-1;
(2)设定新闻热度初始计分最大值为100,最小值为50,初始计分衰减因子0.75,计算Choti的热度计分Chot_ci, i=0,1,…,mk-1,计算过程如下:
Chot_c0 = 100
Chot_cmk-1 = 50
对于Chot_cj(j = 1,…, mk-2),从Chot_c1开始,每一个Chot_cj = Chot_cj-1 -(Chot_cj-1 – 50)*(1 – 0.75);
(3)对于Choti(i=0,1,…,mk-1),设定分享数计分最大值为10, 分享数计分最小值为5,初始计分衰减因子0.75;对Choti中的新闻数据的分享数进行排序,计算Choti的分享数计分Chot_shi, i=0,1,…,mk-1,计算过程如下:
首先定义中间变量share_tempk,k=0,1,…,mk-1,用于保存分享数计分值。并赋值如下:
share_temp0 = 10
share_tempmk-1 = 5
对于share_tempj(j = 1,2,…, mk-2),从share_temp1开始,每一个share_tempj= share_tempj-1 - (share_tempj-1 – 5)*(1 – 0.75);
其次,计算Chot_shi如下:
如果Choti的分享数为最大值,则Chot_shi = share_temp0;
如果Choti的分享数为最小值,则Chot_shi = share_tempmk-1;
如果Choti的分享数是从高到底的第j名,则Chot_shi = share_tempi,i=1,2,…,mk-2;
同样的,分别设定收藏数计分最大值为10, 收藏数计分最小值为5,评论数计分最大值为10, 评论数计分最小值为5,点赞数计分最大值为10, 点赞数计分最小值为5,阅读数计分最大值为10, 阅读数计分最小值为5,并用类似的方法计算Choti的收藏数计分Chot_coli、评论数计分Chot_comi、点赞数计分Chot_pri、阅读数计分Chot_rei,其中i=0,1,…,mk-1;
(4)对于Choti(i=0,1,…,mk-1),设定标题计分值为10,初始化Choti的标题计分为Chot_ti, i=0,1,…,mk-1;并作如下赋值:
如果Choti的新闻数据的标题中包含该热点人物姓名的命名实体,则Chot_ti =10;
如果Choti的新闻数据的标题中部不包含该热点人物姓名的命名实体,则Chot_ti = 0;
(5)对于Choti(i=0,1,…,mk-1),计算最终的新闻热度计分Chot_fci如下:
Chot_fci = Chot_ci + Chot_shi + Chot_coli + Chot_comi + Chot_pri +Chot_rei + Chot_ti
其中,i=0,1,…,mk-1。
对Chot_fci按照计分值从高到低排序,并选取数值最高的前mm的新闻数据为热点人物相关热点新闻。
在热点人物结构化信息挖掘及热点人物软文自动生成模块中,分如下步骤:
(1)建立人物结构化信息的key-value清单,其中key表示关键字,value则表示该关键字的值,key包括性别、年龄、籍贯、家人关系、社会关系、经济状况、生平记录、情感情况及过往新闻。其中,家人关系包括姓名、称谓两个子关键字;社会关系包括姓名、关系性质、对方所在团体三个子关键字;经济状况包括数字、币种、日期、金额发生属性四个子关键字;生平记录包括时间-时间、所在团体两个子关键字;情感情况包括姓名、情感属性、时间、金额四个子关键字;
(2)对于每一个热点人物,通过爬虫工具爬取从当前时间至过去2年中包含该热点人物姓名的命名实体的网络数据,并利用分词工具对网络数据进行分词处理,并利用过滤词库过滤掉停止词、新闻从业者姓名,生成网络数据的正文命名实体集C_people;
(3)对于该热点人物的每一个关键字key,保存C_people中所有和key关键字匹配成功的命名实体所在的语句,并保存在候选value值的集合value_h中;
这里的关键字匹配的方法具体为逐字对比网络数据中的命名实体和关键字,如果命名实体的每一个字和关键字的对应的每一个字都相同,则认为关键字匹配成功;对于包括子关键字的关键字key,每一个子关键字都要匹配成功,并将和子关键字匹配成功的命名实体所在的语句保存在候选value值得集合value_h中;
(4)遍历每一个关键字key对应的候选value值的集合value_h,并统计重复度最高的value值,即为该关键字key的值value;
(5)对于每一个热点人物,按照热点人物姓名、性别、年龄、籍贯、家人关系、社会关系、经济状况、生平记录、情感情况、过往新闻、mm条热点新闻的顺序,自动生成热点人物软文。
基于上述方法,本实施例中的一种热点人物软文自动生成装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行一种热点人物软文自动生成方法。
上述具体的实施方式仅是本发明具体的个案,本发明的专利保护范围包括但不限于上述具体的实施方式,任何符合本发明的一种热点人物软文自动生成方法及装置权利要求书的且任何所述技术领域普通技术人员对其做出的适当变化或者替换,皆应落入本发明的专利保护范围。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (8)
1.一种热点人物软文自动生成方法,其特征在于,首先通过新闻数据爬取模块,利用爬虫工具爬取一段时间内的新闻数据, 记录为新闻数据集C,C中包含n条新闻数据,每条新闻数据分为新闻标题和新闻正文,分别记为C_wordi、C_titlei;
然后,新闻数据命名实体生成模块中创建过滤词库,利用分词工具对新闻数据的正文及标题进行分词处理,并利用过滤词库过滤掉停止词和新闻从业者姓名,生成新闻数据的正文命名实体集C_word_entity和标题命名实体集C_title_entity,C_word_entity中每一条数据为一条新闻数据的正文的命名实体集合,C_title_entity中每一条数据为一条新闻数据的标题的命名实体集合;
新闻数据权重计算模块,计算新闻数据集C中的每条新闻数据的正文计分权重new_weighti和标题计分权重title_weighti;
热点人物挖掘模块,对新闻数据进行横向挖掘,基于新闻数据的正文计分权重及标题计分权重,通过两步计分计算新闻数据中出现的人物的热度得分,选取热度得分最高的前nn的人物为热点人物;
热点人物关联新闻挖掘模块,对新闻数据进行纵向挖掘,基于新闻数据的正文计分权重及标题计分权重计算热点人物相关的新闻的热度得分,选取热度得分最高的前mm的新闻为热度新闻;
最后,热点人物结构化信息挖掘及热点人物软文自动生成模块中建立人物结构化信息关键字清单,并基于关键字挖掘热点人物的结构化信息;基于关键字挖掘热点人物的结构化信息,并基于热点人物挖掘模块、热点人物关联新闻挖掘模块获取的热点人物结构化信息,自动生成热点人物软文。
2.根据权利要求1所述的一种热点人物软文自动生成方法,其特征在于, 在新闻数据爬取模块中还需统计新闻数据的参数信息,包括分享数、收藏数、评论数、点赞数、阅读数,分别记为C_sharei、C_collectioni、C_commenti、C_praisei、C_readi,其中,i=0,2,…,n-1。
3.根据权利要求2所述的一种热点人物软文自动生成方法,其特征在于,所述新闻数据权重计算模块中计算新闻数据集C中的每条新闻数据的正文计分权重new_weighti和标题计分权重title_weighti,具体步骤如下:
(1)设定新闻数据的分享数、收藏数、评论数、点赞数及阅读数的计分权重阈值,分别为share_w、collection_w、comment_w、praise_w、read_w;
(2)对新闻数据集C中的n条新闻数据的分享数、收藏数、评论数、点赞数及阅读数分别进行排序并找到的最大值,记为share_max、collection_ max、comment_ max、praise_max、read_ max;
(3)计算每一条新闻数据的分享数的计分权重C_share_weighti、 C_collection_weighti、C_comment_weighti、C_praise_weighti、C_read_weighti;
(4)计算每一条新闻数据的正文计分权重new_weighti;
(5)设定新闻数据的标题的计分权重阈值为title_w,计算每一条新闻数据的标题计分权重,计算过程如下:
4.根据权利要求3所述的一种热点人物软文自动生成方法,其特征在于, 在新闻数据权重计算模块步骤(3)中,计算每一条新闻数据的分享数的计分权重C_share_weighti,计算过程如下:
C_share_weighti = share_w * C_sharei / share_max
并作如下处理:如果C_share_weighti < 0.01 * share_w,令C_share_weighti = 0.01* share_w;
同样的,分别计算每一条新闻数据的收藏数、评论数、点赞数及阅读数的计分权重C_collection_weighti、C_comment_weighti、C_praise_weighti、C_read_weighti;
在步骤(4)中,计算每一条新闻数据的正文计分权重new_weighti,计算过程如下:
new_weighti = 1 + C_share_weighti + C_collection_weighti + C_comment_weighti + C_praise_weighti + C_read_weighti。
5.根据权利要求4所述的一种热点人物软文自动生成方法,其特征在于,在热点人物挖掘模块中,具体步骤如下:
(1)提取新闻数据的正文实体集C_word_entity和标题实体集C_title_entity中人物姓名实体,并统计在C_word_entity、C_title_entity中出现的不同的人物姓名,总计nk个,并保存在人物姓名列表name_list中;
(2)对于name_list中每一个人物姓名,统计人物姓名在新闻数据的正文实体集C_word_entity中每一条数据中出现的次数,分别记为name_list_nij,(i = 0,1,…,nk-1,j=0,…,n-1);
统计人物姓名在新闻数据的标题实体集C_title_entity中每一条数据中出现的次数,分别记为name_list_tij,(i=0,1,…,nk-1,j=0,…,n-1);
并作如下处理:如果name_listij >= 1,name_listij = 1;
(3)计算name_list中每个人物姓名的热点计分,记为name_list_ci,计算过程如下:
其中,i=0,1,…,nk-1;
(4)对name_list_ci(i=0,1,…,nk-1)进行排序,并选取数值最高的前nn的人物为热点人物。
6.根据权利要求5所述的一种热点人物软文自动生成方法,其特征在于,在热点人物关联新闻挖掘模块中,具体的步骤如下:
(1)设定新闻热度初始计分最大值为cmax,最小值为cmin,初始计分衰减因子apha,计算Choti的热度计分Chot_ci, i=0,1,…,mk-1,计算过程如下:
Chot_c0 = cmax
Chot_cmk-1 = cmin
对于Chot_cj(j = 1,…, mk-2),从Chot_c1开始,每一个Chot_cj = Chot_cj-1 -(Chot_cj-1 – cmin)*(1 - apha);
(2)对于Choti(i=0,1,…,mk-1),设定分享数计分最大值为share_max, 分享数计分最小值为share_min;对Choti中的新闻数据的分享数进行排序,计算Choti的分享数计分Chot_shi, 其中,i=0,1,…,mk-1,计算过程如下:
首先定义中间变量share_tempk,k=0,1,…,mk-1,用于保存分享数计分值;并赋值如下:
share_temp0 = share_max
share_tempmk-1 = share_min
对于share_tempj(j = 1,2,…, mk-2),从share_temp1开始,每一个share_tempj =share_tempj-1 - (share_tempj-1 – share_min)*(1 - apha);
其次,计算Chot_shi如下:
如果Choti的分享数为最大值,则Chot_shi = share_temp0;
如果Choti的分享数为最小值,则Chot_shi = share_tempmk-1;
如果Choti的分享数是从高到底的第j名,则Chot_shi = share_tempi,i=1,2,…,mk-2;
同样的,分别设定收藏数计分最大值为collection_max, 收藏数计分最小值为collection_min,评论数计分最大值为comment _max, 评论数计分最小值为comment _min,点赞数计分最大值为praise _max, 点赞数计分最小值为praise _min,阅读数计分最大值为read _max, 阅读数计分最小值为read _min,并用类似的方法计算Choti的收藏数计分Chot_coli、评论数计分Chot_comi、点赞数计分Chot_pri、阅读数计分Chot_rei,其中i=0,1,…,mk-1;
(3)对于Choti(i=0,1,…,mk-1),设定标题计分值为title_value,初始化Choti的标题计分为Chot_ti, i=0,1,…,mk-1;并作如下赋值:
如果Choti的新闻数据的标题中包含该热点人物姓名的命名实体,则Chot_ti = title_value;
如果Choti的新闻数据的标题中部不包含该热点人物姓名的命名实体,则Chot_ti = 0;
(4)对于Choti(i=0,1,…,mk-1),计算最终的新闻热度计分Chot_fci如下:
Chot_fci = Chot_ci + Chot_shi + Chot_coli + Chot_comi + Chot_pri + Chot_rei+ Chot_ti
其中,i=0,1,…,mk-1;
对Chot_fci按照计分值从高到低排序,并选取数值最高的前mm的新闻数据为热点人物相关热点新闻。
7.根据权利要求6所述的一种热点人物软文自动生成方法,其特征在于,在热点人物结构化信息挖掘及热点人物软文自动生成模块中,具有如下步骤:
(1)建立人物结构化信息的key-value清单,其中key表示关键字,value则表示该关键字的值,key包括性别、年龄、籍贯、家人关系、社会关系、经济状况、生平记录、情感情况及过往新闻;
其中,家人关系包括姓名、称谓两个子关键字;社会关系包括姓名、关系性质、对方所在团体三个子关键字;经济状况包括数字、币种、日期、金额发生属性四个子关键字;生平记录包括时间-时间、所在团体两个子关键字;情感情况包括姓名、情感属性、时间、金额四个子关键字;
(2)对于每一个热点人物,通过爬虫工具爬取从当前时间至过去old_n年中包含该热点人物姓名的命名实体的网络数据,并利用分词工具对网络数据进行分词处理,并利用过滤词库过滤掉停止词、新闻从业者姓名,生成网络数据的正文命名实体集C_people;
(3)对于热点人物的每一个关键字key,保存C_people中所有和key关键字匹配成功的命名实体所在的语句,并保存在候选value值的集合value_h中;
关键字匹配的方法具体为逐字对比网络数据中的命名实体和关键字,如果命名实体的每一个字和关键字的对应的每一个字都相同,则认为关键字匹配成功;对于包括子关键字的关键字key,每一个子关键字都要匹配成功,并将和子关键字匹配成功的命名实体所在的语句保存在候选value值得集合value_h中;
(4)遍历每一个关键字key对应的候选value值的集合value_h,并统计重复度最高的value值,即为该关键字key的值value;
(5)对于每一个热点人物,按照热点人物姓名、性别、年龄、籍贯、家人关系、社会关系、经济状况、生平记录、情感情况、过往新闻、mm条热点新闻的顺序,自动生成热点人物软文。
8.一种热点人物软文自动生成装置,其特征在于,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行权利要求1至7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211359231.2A CN115409000B (zh) | 2022-11-02 | 2022-11-02 | 一种热点人物软文自动生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211359231.2A CN115409000B (zh) | 2022-11-02 | 2022-11-02 | 一种热点人物软文自动生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115409000A true CN115409000A (zh) | 2022-11-29 |
CN115409000B CN115409000B (zh) | 2023-01-24 |
Family
ID=84169389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211359231.2A Active CN115409000B (zh) | 2022-11-02 | 2022-11-02 | 一种热点人物软文自动生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115409000B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102024056A (zh) * | 2010-12-15 | 2011-04-20 | 中国科学院自动化研究所 | 利用计算机的基于多媒体分析的新闻人物检索方法 |
CN105488196A (zh) * | 2015-12-07 | 2016-04-13 | 中国人民大学 | 一种基于互联语料的热门话题自动挖掘系统 |
CN107633044A (zh) * | 2017-09-14 | 2018-01-26 | 国家计算机网络与信息安全管理中心 | 一种基于热点事件的舆情知识图谱构建方法 |
US20180322115A1 (en) * | 2017-05-08 | 2018-11-08 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and device for determining comment, server and storage medium |
US20190197122A1 (en) * | 2017-12-27 | 2019-06-27 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and device for generating review article of hot news, and terminal device |
CN111178018A (zh) * | 2019-12-30 | 2020-05-19 | 苏宁云计算有限公司 | 一种基于深度学习的目标软文的生成方法及装置 |
CN114840756A (zh) * | 2022-05-06 | 2022-08-02 | 东南大学 | 一种基于关键热点信息的媒体生成推荐系统 |
-
2022
- 2022-11-02 CN CN202211359231.2A patent/CN115409000B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102024056A (zh) * | 2010-12-15 | 2011-04-20 | 中国科学院自动化研究所 | 利用计算机的基于多媒体分析的新闻人物检索方法 |
CN105488196A (zh) * | 2015-12-07 | 2016-04-13 | 中国人民大学 | 一种基于互联语料的热门话题自动挖掘系统 |
US20180322115A1 (en) * | 2017-05-08 | 2018-11-08 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and device for determining comment, server and storage medium |
CN107633044A (zh) * | 2017-09-14 | 2018-01-26 | 国家计算机网络与信息安全管理中心 | 一种基于热点事件的舆情知识图谱构建方法 |
US20190197122A1 (en) * | 2017-12-27 | 2019-06-27 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and device for generating review article of hot news, and terminal device |
CN111178018A (zh) * | 2019-12-30 | 2020-05-19 | 苏宁云计算有限公司 | 一种基于深度学习的目标软文的生成方法及装置 |
CN114840756A (zh) * | 2022-05-06 | 2022-08-02 | 东南大学 | 一种基于关键热点信息的媒体生成推荐系统 |
Non-Patent Citations (1)
Title |
---|
刘锦文等: "基于信息关联拓扑的互联网社交关系挖掘", 《计算机应用》 * |
Also Published As
Publication number | Publication date |
---|---|
CN115409000B (zh) | 2023-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Boenninghoff et al. | Explainable authorship verification in social media via attention-based similarity learning | |
Liang et al. | Unsupervised keyphrase extraction by jointly modeling local and global context | |
Meng et al. | Context-aware neural model for temporal information extraction | |
CN104573130B (zh) | 基于群体计算的实体解析方法及装置 | |
CN111191051B (zh) | 一种基于中文分词技术的应急知识图谱的构建方法及系统 | |
CN111191022A (zh) | 商品短标题生成方法及装置 | |
CN107436955A (zh) | 一种基于Wikipedia概念向量的英文词语相关度计算方法和装置 | |
CN111899090A (zh) | 企业关联风险预警方法及系统 | |
Kantharaj et al. | Opencqa: Open-ended question answering with charts | |
CN110990003B (zh) | 一种基于词嵌入技术的api推荐方法 | |
CN112434533A (zh) | 实体消歧方法、装置、电子设备及计算机可读存储介质 | |
CN110287493B (zh) | 风险短语识别方法、装置、电子设备及存储介质 | |
Bach et al. | Big data text mining in the financial sector | |
Chou et al. | Boosted web named entity recognition via tri-training | |
Bhole et al. | Extracting named entities and relating them over time based on Wikipedia | |
CN115409000B (zh) | 一种热点人物软文自动生成方法及装置 | |
CN112463922A (zh) | 一种风险用户识别方法及存储介质 | |
CN114943285B (zh) | 互联网新闻内容数据智能审核系统 | |
CN111401056A (zh) | 一种从多类文本中提取关键词的方法 | |
CN110532538A (zh) | 财产纠纷裁判文书关键实体抽取算法 | |
CN113971403A (zh) | 一种考虑文本语义信息的实体识别方法及系统 | |
Parmar et al. | Hyperbox: A supervised approach for hypernym discovery using box embeddings | |
Oljira et al. | Sentiment analysis for afaan oromoo using combined convolutional neural network and bidirectional long short-term memory | |
Daniels | Retrieval of passages for information reduction | |
US11200266B2 (en) | Identifying named entities in questions related to structured data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |