CN115409000A - 一种热点人物软文自动生成方法及装置 - Google Patents

一种热点人物软文自动生成方法及装置 Download PDF

Info

Publication number
CN115409000A
CN115409000A CN202211359231.2A CN202211359231A CN115409000A CN 115409000 A CN115409000 A CN 115409000A CN 202211359231 A CN202211359231 A CN 202211359231A CN 115409000 A CN115409000 A CN 115409000A
Authority
CN
China
Prior art keywords
news
weight
chot
share
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211359231.2A
Other languages
English (en)
Other versions
CN115409000B (zh
Inventor
袁明明
张传刚
倪健
王凯
王涛
李尚锴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Communication Information System Co Ltd
Original Assignee
Inspur Communication Information System Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Communication Information System Co Ltd filed Critical Inspur Communication Information System Co Ltd
Priority to CN202211359231.2A priority Critical patent/CN115409000B/zh
Publication of CN115409000A publication Critical patent/CN115409000A/zh
Application granted granted Critical
Publication of CN115409000B publication Critical patent/CN115409000B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及机器学习数据挖掘技术领域,具体提供了一种热点人物软文自动生成方法及装置,爬取一段时间内的新闻数据及参数信息;计算新闻数据的计分权重;创建过滤词库,并对新闻数据的正文及标题进行分词处理;对新闻数据进行横向挖掘,利用计分权重计算舆论人物的热度得分,找到多个热点人物;对新闻数据进行纵向挖掘,通过两步计分计算热点人物相关热度新闻;基于关键字挖掘热点人物的结构化信息,并结合横向挖掘结果和纵向挖掘结果自动生成热点人物软文。与现有技术相比,本发明的通过多次计分计算,准确的从数据中挖掘热点人物及相关信息,可以解决传统数据挖掘方法容易过滤部分信息,挖掘范围不全面等问题。

Description

一种热点人物软文自动生成方法及装置
技术领域
本发明涉及机器学习数据挖掘技术领域,具体提供一种热点人物软文自动生成方法及装置。
背景技术
随着互联网技术的发展,网络媒体已经成为人们获取新闻的一个重要渠道,热度新闻也因此收到人们越来越多的关注。近年来,金融业等专业领域开始关注热点新闻中的高价值信息,这加速了新闻数据的数据挖掘的发展,发展出基于新闻文本特征和词向量化算法,可以将新闻数据转化成文本标签向量;基于对文本标签向量的学习,可以通过聚类算法实现新闻数据的聚类,找到较为集中的热点新闻;基于LDA模型,可以找到新闻簇中山的关键主题,生成热点话题等。但这些方法在挖掘热点人物并完成人物软文生成时,依然存在一定的问题。具体问题如下:
常规的数据挖掘算法会对新闻数据进行抽取、转换、分析等处理,从而获取被认为关键的数据,但是由于姓名实体在新闻数据中数量少,且干扰因素多,因此很容易被过滤,导致数据挖掘不够全面,丢失人物信息。
传统软文生成都需要收集信息,并由编辑人员编写成软文。这种模式需要的时间更多,且对于金融业等行业来说,更重要的是人物的结构化信息和时效。
所以寻找一种挖掘范围全面、时效快的热点人物软文自动生成方法,尤为急切。
发明内容
本发明是针对上述现有技术的不足,提供一种实用性强的热点人物软文自动生成方法。
本发明进一步的技术任务是提供一种设计合理,安全适用的热点人物软文自动生成装置。
本发明解决其技术问题所采用的技术方案是:
一种热点人物软文自动生成方法,首先通过新闻数据爬取模块,利用爬虫工具爬取一段时间内的新闻数据, 记录为新闻数据集C,C中包含n条新闻数据,每条新闻数据分为新闻标题和新闻正文,分别记为C_wordi、C_titlei
然后,新闻数据命名实体生成模块中创建过滤词库,利用分词工具对新闻数据的正文及标题进行分词处理,并利用过滤词库过滤掉停止词和新闻从业者姓名,生成新闻数据的正文命名实体集C_word_entity和标题命名实体集C_title_entity,C_word_entity中每一条数据为一条新闻数据的正文的命名实体集合,C_title_entity中每一条数据为一条新闻数据的标题的命名实体集合;
新闻数据权重计算模块,计算新闻数据集C中的每条新闻数据的正文计分权重new_weighti和标题计分权重title_weighti
热点人物挖掘模块,对新闻数据进行横向挖掘,基于新闻数据的正文计分权重及标题计分权重,通过两步计分计算新闻数据中出现的人物的热度得分,选取热度得分最高的前nn的人物为热点人物;
热点人物关联新闻挖掘模块,对新闻数据进行纵向挖掘,基于新闻数据的正文计分权重及标题计分权重计算热点人物相关的新闻的热度得分,选取热度得分最高的前mm的新闻为热度新闻;
最后,热点人物结构化信息挖掘及热点人物软文自动生成模块中建立人物结构化信息关键字清单,并基于关键字挖掘热点人物的结构化信息;基于关键字挖掘热点人物的结构化信息,并基于热点人物挖掘模块、热点人物关联新闻挖掘模块获取的热点人物结构化信息,自动生成热点人物软文。
进一步的, 在新闻数据爬取模块中还需统计新闻数据的参数信息,包括分享数、收藏数、评论数、点赞数、阅读数,分别记为C_sharei、C_collectioni、C_commenti、C_praisei、C_readi,其中,i=0,2,…,n-1;
进一步的,所述新闻数据权重计算模块中计算新闻数据集C中的每条新闻数据的正文计分权重new_weighti和标题计分权重title_weighti,具体步骤如下:
(1)设定新闻数据的分享数、收藏数、评论数、点赞数及阅读数的计分权重阈值,分别为share_w、collection_w、comment_w、praise_w、read_w;
(2)对新闻数据集C中的n条新闻数据的分享数、收藏数、评论数、点赞数及阅读数分别进行排序并找到的最大值,记为share_max、collection_ max、comment_ max、praise_max、read_ max;
(3)计算每一条新闻数据的分享数的计分权重C_share_weighti、C_collection_weighti、C_comment_weighti、C_praise_weighti、C_read_weight;
(4)计算每一条新闻数据的正文计分权重new_weighti
(5)设定新闻数据的标题的计分权重阈值为title_w,计算每一条新闻数据的标题计分权重,计算过程如下:
Figure 100002_DEST_PATH_IMAGE002
进一步的, 在新闻数据权重计算模块步骤(3)中,计算每一条新闻数据的分享数的计分权重C_share_weighti,计算过程如下:
C_share_weighti = share_w * C_sharei / share_max
并作如下处理:如果C_share_weighti < 0.01 * share_w,令C_share_weighti =0.01 * share_w;
同样的,分别计算每一条新闻数据的收藏数、评论数、点赞数及阅读数的计分权重C_collection_weighti、C_comment_weighti、C_praise_weighti、C_read_weighti
在步骤(4)中,计算每一条新闻数据的正文计分权重new_weighti,计算过程如下:
new_weighti = 1 + C_share_weighti + C_collection_weighti + C_comment_weighti + C_praise_weighti + C_read_weighti
进一步的,在热点人物挖掘模块中,具体步骤如下:
(1)提取新闻数据的正文实体集C_word_entity和标题实体集C_title_entity中人物姓名实体,并统计在C_word_entity、C_title_entity中出现的不同的人物姓名,总计nk个,并保存在人物姓名列表name_list中;
(2)对于name_list中每一个人物姓名,统计人物姓名在新闻数据的正文实体集C_word_entity中每一条数据中出现的次数,分别记为name_list_nij,(i = 0,1,…,nk-1,j=0,…,n-1);
统计人物姓名在新闻数据的标题实体集C_title_entity中每一条数据中出现的次数,分别记为name_list_tij,(i=0,1,…,nk-1,j=0,…,n-1);
并作如下处理:如果name_listij >= 1,name_listij = 1;
(3)计算name_list中每个人物姓名的热点计分,记为name_list_ci,计算过程如下:
Figure 100002_DEST_PATH_IMAGE004
其中,i=0,1,…,nk-1;
(4)对name_list_ci(i=0,1,…,nk-1)进行排序,并选取数值最高的前nn的人物为热点人物。
进一步的,在热点人物关联新闻挖掘模块中,具体的步骤如下:
(1)设定新闻热度初始计分最大值为cmax,最小值为cmin,初始计分衰减因子apha,计算Choti的热度计分Chot_ci, i=0,1,…,mk-1,计算过程如下:
Chot_c0 = cmax
Chot_cmk-1 = cmin
对于Chot_cj(j = 1,…, mk-2),从Chot_c1开始,每一个Chot_cj = Chot_cj-1 -(Chot_cj-1 – cmin)*(1 - apha);
(2)对于Choti(i=0,1,…,mk-1),设定分享数计分最大值为share_max, 分享数计分最小值为share_min;对Choti中的新闻数据的分享数进行排序,计算Choti的分享数计分Chot_shi, 其中,i=0,1,…,mk-1,计算过程如下:
首先定义中间变量share_tempk,k=0,1,…,mk-1,用于保存分享数计分值;并赋值如下:
share_temp0 = share_max
share_tempmk-1 = share_min
对于share_tempj(j = 1,2,…, mk-2),从share_temp1开始,每一个share_tempj= share_tempj-1 - (share_tempj-1 – share_min)*(1 - apha);
其次,计算Chot_shi如下:
如果Choti的分享数为最大值,则Chot_shi = share_temp0
如果Choti的分享数为最小值,则Chot_shi = share_tempmk-1
如果Choti的分享数是从高到底的第j名,则Chot_shi = share_tempi,i=1,2,…,mk-2;
同样的,分别设定收藏数计分最大值为collection_max, 收藏数计分最小值为collection_min,评论数计分最大值为comment _max, 评论数计分最小值为comment _min,点赞数计分最大值为praise _max, 点赞数计分最小值为praise _min,阅读数计分最大值为read _max, 阅读数计分最小值为read _min,并用类似的方法计算Choti的收藏数计分Chot_coli、评论数计分Chot_comi、点赞数计分Chot_pri、阅读数计分Chot_rei,其中i=0,1,…,mk-1;
(3)对于Choti(i=0,1,…,mk-1),设定标题计分值为title_value,初始化Choti的标题计分为Chot_ti, i=0,1,…,mk-1;并作如下赋值:
如果Choti的新闻数据的标题中包含该热点人物姓名的命名实体,则Chot_ti =title_value;
如果Choti的新闻数据的标题中部不包含该热点人物姓名的命名实体,则Chot_ti= 0;
(4)对于Choti(i=0,1,…,mk-1),计算最终的新闻热度计分Chot_fci如下:
Chot_fci = Chot_ci + Chot_shi + Chot_coli + Chot_comi + Chot_pri +Chot_rei + Chot_ti
其中,i=0,1,…,mk-1;
对Chot_fci按照计分值从高到低排序,并选取数值最高的前mm的新闻数据为热点人物相关热点新闻。
进一步的,在热点人物结构化信息挖掘及热点人物软文自动生成模块中,具有如下步骤:
(1)建立人物结构化信息的key-value清单,其中key表示关键字,value则表示该关键字的值,key包括性别、年龄、籍贯、家人关系、社会关系、经济状况、生平记录、情感情况及过往新闻;
其中,家人关系包括姓名、称谓两个子关键字;社会关系包括姓名、关系性质、对方所在团体三个子关键字;经济状况包括数字、币种、日期、金额发生属性四个子关键字;生平记录包括时间-时间、所在团体两个子关键字;情感情况包括姓名、情感属性、时间、金额四个子关键字;
(2)对于每一个热点人物,通过爬虫工具爬取从当前时间至过去old_n年中包含该热点人物姓名的命名实体的网络数据,并利用分词工具对网络数据进行分词处理,并利用过滤词库过滤掉停止词、新闻从业者姓名,生成网络数据的正文命名实体集C_people;
(3)对于热点人物的每一个关键字key,保存C_people中所有和key关键字匹配成功的命名实体所在的语句,并保存在候选value值的集合value_h中;
关键字匹配的方法具体为逐字对比网络数据中的命名实体和关键字,如果命名实体的每一个字和关键字的对应的每一个字都相同,则认为关键字匹配成功;对于包括子关键字的关键字key,每一个子关键字都要匹配成功,并将和子关键字匹配成功的命名实体所在的语句保存在候选value值得集合value_h中;
(4)遍历每一个关键字key对应的候选value值的集合value_h,并统计重复度最高的value值,即为该关键字key的值value;
(5)对于每一个热点人物,按照热点人物姓名、性别、年龄、籍贯、家人关系、社会关系、经济状况、生平记录、情感情况、过往新闻、mm条热点新闻的顺序,自动生成热点人物软文。
一种热点人物软文自动生成装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行一种热点人物软文自动生成方法。
本发明的一种热点人物软文自动生成方法及装置和现有技术相比,具有以下突出的有益效果:
本发明通过多次计分计算,准确的从海量数据中挖掘热点人物及相关信息,可以解决传统数据挖掘方法容易过滤部分信息,挖掘范围不全面等问题。
通过预设软文模板,基于人物结构化信息自动生成软文,解决了传统软文编辑时效慢、数据挖掘不够全面等问题,具有人物信息准确、速度快等优势。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1是一种热点人物软文自动生成方法的流程示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明的方案,下面结合具体的实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
下面给出一个最佳实施例:
如图1所示,本实施例中的一种热点人物软文自动生成方法,通过新闻数据爬取模块,利用爬虫工具爬取当前一段时间内的海量新闻数据,记录为新闻数据集C,C中包含6780条新闻数据,每条新闻数据分为新闻标题和新闻正文,分别记为C_wordi、C_titlei,统计每天新闻数据的分享数、收藏数、评论数、点赞数、阅读数,分别记为C_sharei、C_collectioni、C_commenti、C_praisei、C_readi,i=0,2,…,6779;
新闻数据命名实体生成模块,创建过滤词库,利用分词工具对新闻数据的正文及标题进行分词处理,并利用过滤词库过滤掉停止词、新闻从业者姓名,生成新闻数据的正文命名实体集C_word_entity和标题命名实体集C_title_entity,C_word_entity中每一条数据为一条新闻数据的正文的命名实体集合,C_title_entity中每一条数据为一条新闻数据的标题的命名实体集合。
新闻数据权重计算模块,计算新闻数据集C中的每条新闻数据的正文计分权重new_weighti和标题计分权重title_weighti
在本实施例中的热点人物挖掘模块对新闻数据进行横向挖掘,基于新闻数据的正文计分权重及标题计分权重,通过两步计分计算新闻数据中出现的人物的热度得分,选取热度得分最高的前7的人物为热点人物。
热点人物关联新闻挖掘模块,对新闻数据进行纵向挖掘,基于新闻数据的正文计分权重及标题计分权重计算热点人物相关的新闻的热度得分,选取热度得分最高的前8的新闻为热度新闻;
热点人物结构化信息挖掘及热点人物软文自动生成模块,建立人物结构化信息关键字清单,并基于关键字挖掘热点人物的结构化信息;基于关键字挖掘热点人物的结构化信息,并基于热点人物挖掘模块、热点人物关联新闻挖掘模块获取的热点人物结构化信息,自动生成热点人物软文。
其中,新闻数据权重计算模块用于计算新闻数据集C中的每条新闻数据的正文计分权重new_weighti和标题计分权重title_weighti,该模块分如下步骤:
(1)设定新闻数据的分享数、收藏数、评论数、点赞数及阅读数的计分权重阈值,分别为1、0.8、0.5、0.4、0.1;
(2)对新闻数据集C中的6780条新闻数据的分享数、收藏数、评论数、点赞数及阅读数分别进行排序并找到的最大值,记为share_max、collection_ max、comment_ max、praise_ max、read_ max;
(3)计算每一条新闻数据的分享数的计分权重C_share_weighti,计算过程如下:
C_share_weighti = share_w * C_sharei / share_max
并作如下处理:
如果C_share_weighti < 0.01 * share_w,令C_share_weighti = 0.01 * share_w;
同样的,分别计算每一条新闻数据的收藏数、评论数、点赞数及阅读数的计分权重C_collection_weighti、C_comment_weighti、C_praise_weighti、C_read_weighti
(4)计算每一条新闻数据的正文计分权重new_weighti,计算过程如下:
new_weighti = 1 + C_share_weighti + C_collection_weighti + C_comment_weighti + C_praise_weighti + C_read_weighti
(5)设定新闻数据的标题的计分权重阈值为5,计算每一条新闻数据的标题计分权重,计算过程如下:
Figure DEST_PATH_IMAGE006
热点人物挖掘模块,用于对新闻数据进行横向挖掘,基于新闻数据的正文计分权重及标题计分权重,通过两步计分计算新闻数据中出现的人物的热度得分,选取热度得分最高的前nn的人物为热点人物,该模块分如下步骤:
(1)提取新闻数据的正文实体集C_word_entity和标题实体集C_title_entity中人物姓名实体,并统计在C_word_entity、C_title_entity中出现的不同的人物姓名,总计nk个,并保存在人物姓名列表name_list中;
(2)对于name_list中每一个人物姓名,统计该人物姓名在新闻数据的正文实体集C_word_entity中每一条数据中出现的次数,分别记为name_list_nij,(i = 0,1,…,nk-1,j=0,…,6779); 统计该人物姓名在新闻数据的标题实体集C_title_entity中每一条数据中出现的次数,分别记为name_list_tij,(i=0,1,…,nk-1,j=0,…,6779);
并作如下处理:如果name_listij >= 1,name_listij = 1;
(3)计算name_list中每个人物姓名的热点计分,记为name_list_ci,计算过程如下:
Figure DEST_PATH_IMAGE004A
其中,i=0,1,…,nk-1;
(4)对name_list_ci(i=0,1,…,nk-1)进行排序,并选取数值最高的前nn的人物为热点人物;
热点人物关联新闻挖掘模块,用于对新闻数据进行纵向挖掘,基于新闻数据的正文计分权重及标题计分权重计算热点人物相关的新闻的热度得分,选取热度得分最高的前mm的新闻为热点人物相关热度新闻,该模块分如下步骤:
(1)对于每一个热点人物,在新闻数据集C中寻找正文中包含该热点人物姓名的命名实体的新闻数据,总计mk个,并按照该热点人物姓名的命名实体在出现的次数从高到底排序,记为Choti,其中i=0,1,…,mk-1;
(2)设定新闻热度初始计分最大值为100,最小值为50,初始计分衰减因子0.75,计算Choti的热度计分Chot_ci, i=0,1,…,mk-1,计算过程如下:
Chot_c0 = 100
Chot_cmk-1 = 50
对于Chot_cj(j = 1,…, mk-2),从Chot_c1开始,每一个Chot_cj = Chot_cj-1 -(Chot_cj-1 – 50)*(1 – 0.75);
(3)对于Choti(i=0,1,…,mk-1),设定分享数计分最大值为10, 分享数计分最小值为5,初始计分衰减因子0.75;对Choti中的新闻数据的分享数进行排序,计算Choti的分享数计分Chot_shi, i=0,1,…,mk-1,计算过程如下:
首先定义中间变量share_tempk,k=0,1,…,mk-1,用于保存分享数计分值。并赋值如下:
share_temp0 = 10
share_tempmk-1 = 5
对于share_tempj(j = 1,2,…, mk-2),从share_temp1开始,每一个share_tempj= share_tempj-1 - (share_tempj-1 – 5)*(1 – 0.75);
其次,计算Chot_shi如下:
如果Choti的分享数为最大值,则Chot_shi = share_temp0
如果Choti的分享数为最小值,则Chot_shi = share_tempmk-1
如果Choti的分享数是从高到底的第j名,则Chot_shi = share_tempi,i=1,2,…,mk-2;
同样的,分别设定收藏数计分最大值为10, 收藏数计分最小值为5,评论数计分最大值为10, 评论数计分最小值为5,点赞数计分最大值为10, 点赞数计分最小值为5,阅读数计分最大值为10, 阅读数计分最小值为5,并用类似的方法计算Choti的收藏数计分Chot_coli、评论数计分Chot_comi、点赞数计分Chot_pri、阅读数计分Chot_rei,其中i=0,1,…,mk-1;
(4)对于Choti(i=0,1,…,mk-1),设定标题计分值为10,初始化Choti的标题计分为Chot_ti, i=0,1,…,mk-1;并作如下赋值:
如果Choti的新闻数据的标题中包含该热点人物姓名的命名实体,则Chot_ti =10;
如果Choti的新闻数据的标题中部不包含该热点人物姓名的命名实体,则Chot_ti = 0;
(5)对于Choti(i=0,1,…,mk-1),计算最终的新闻热度计分Chot_fci如下:
Chot_fci = Chot_ci + Chot_shi + Chot_coli + Chot_comi + Chot_pri +Chot_rei + Chot_ti
其中,i=0,1,…,mk-1。
对Chot_fci按照计分值从高到低排序,并选取数值最高的前mm的新闻数据为热点人物相关热点新闻。
在热点人物结构化信息挖掘及热点人物软文自动生成模块中,分如下步骤:
(1)建立人物结构化信息的key-value清单,其中key表示关键字,value则表示该关键字的值,key包括性别、年龄、籍贯、家人关系、社会关系、经济状况、生平记录、情感情况及过往新闻。其中,家人关系包括姓名、称谓两个子关键字;社会关系包括姓名、关系性质、对方所在团体三个子关键字;经济状况包括数字、币种、日期、金额发生属性四个子关键字;生平记录包括时间-时间、所在团体两个子关键字;情感情况包括姓名、情感属性、时间、金额四个子关键字;
(2)对于每一个热点人物,通过爬虫工具爬取从当前时间至过去2年中包含该热点人物姓名的命名实体的网络数据,并利用分词工具对网络数据进行分词处理,并利用过滤词库过滤掉停止词、新闻从业者姓名,生成网络数据的正文命名实体集C_people;
(3)对于该热点人物的每一个关键字key,保存C_people中所有和key关键字匹配成功的命名实体所在的语句,并保存在候选value值的集合value_h中;
这里的关键字匹配的方法具体为逐字对比网络数据中的命名实体和关键字,如果命名实体的每一个字和关键字的对应的每一个字都相同,则认为关键字匹配成功;对于包括子关键字的关键字key,每一个子关键字都要匹配成功,并将和子关键字匹配成功的命名实体所在的语句保存在候选value值得集合value_h中;
(4)遍历每一个关键字key对应的候选value值的集合value_h,并统计重复度最高的value值,即为该关键字key的值value;
(5)对于每一个热点人物,按照热点人物姓名、性别、年龄、籍贯、家人关系、社会关系、经济状况、生平记录、情感情况、过往新闻、mm条热点新闻的顺序,自动生成热点人物软文。
基于上述方法,本实施例中的一种热点人物软文自动生成装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行一种热点人物软文自动生成方法。
上述具体的实施方式仅是本发明具体的个案,本发明的专利保护范围包括但不限于上述具体的实施方式,任何符合本发明的一种热点人物软文自动生成方法及装置权利要求书的且任何所述技术领域普通技术人员对其做出的适当变化或者替换,皆应落入本发明的专利保护范围。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种热点人物软文自动生成方法,其特征在于,首先通过新闻数据爬取模块,利用爬虫工具爬取一段时间内的新闻数据, 记录为新闻数据集C,C中包含n条新闻数据,每条新闻数据分为新闻标题和新闻正文,分别记为C_wordi、C_titlei
然后,新闻数据命名实体生成模块中创建过滤词库,利用分词工具对新闻数据的正文及标题进行分词处理,并利用过滤词库过滤掉停止词和新闻从业者姓名,生成新闻数据的正文命名实体集C_word_entity和标题命名实体集C_title_entity,C_word_entity中每一条数据为一条新闻数据的正文的命名实体集合,C_title_entity中每一条数据为一条新闻数据的标题的命名实体集合;
新闻数据权重计算模块,计算新闻数据集C中的每条新闻数据的正文计分权重new_weighti和标题计分权重title_weighti
热点人物挖掘模块,对新闻数据进行横向挖掘,基于新闻数据的正文计分权重及标题计分权重,通过两步计分计算新闻数据中出现的人物的热度得分,选取热度得分最高的前nn的人物为热点人物;
热点人物关联新闻挖掘模块,对新闻数据进行纵向挖掘,基于新闻数据的正文计分权重及标题计分权重计算热点人物相关的新闻的热度得分,选取热度得分最高的前mm的新闻为热度新闻;
最后,热点人物结构化信息挖掘及热点人物软文自动生成模块中建立人物结构化信息关键字清单,并基于关键字挖掘热点人物的结构化信息;基于关键字挖掘热点人物的结构化信息,并基于热点人物挖掘模块、热点人物关联新闻挖掘模块获取的热点人物结构化信息,自动生成热点人物软文。
2.根据权利要求1所述的一种热点人物软文自动生成方法,其特征在于, 在新闻数据爬取模块中还需统计新闻数据的参数信息,包括分享数、收藏数、评论数、点赞数、阅读数,分别记为C_sharei、C_collectioni、C_commenti、C_praisei、C_readi,其中,i=0,2,…,n-1。
3.根据权利要求2所述的一种热点人物软文自动生成方法,其特征在于,所述新闻数据权重计算模块中计算新闻数据集C中的每条新闻数据的正文计分权重new_weighti和标题计分权重title_weighti,具体步骤如下:
(1)设定新闻数据的分享数、收藏数、评论数、点赞数及阅读数的计分权重阈值,分别为share_w、collection_w、comment_w、praise_w、read_w;
(2)对新闻数据集C中的n条新闻数据的分享数、收藏数、评论数、点赞数及阅读数分别进行排序并找到的最大值,记为share_max、collection_ max、comment_ max、praise_max、read_ max;
(3)计算每一条新闻数据的分享数的计分权重C_share_weighti、 C_collection_weighti、C_comment_weighti、C_praise_weighti、C_read_weighti
(4)计算每一条新闻数据的正文计分权重new_weighti
(5)设定新闻数据的标题的计分权重阈值为title_w,计算每一条新闻数据的标题计分权重,计算过程如下:
Figure DEST_PATH_IMAGE002
4.根据权利要求3所述的一种热点人物软文自动生成方法,其特征在于, 在新闻数据权重计算模块步骤(3)中,计算每一条新闻数据的分享数的计分权重C_share_weighti,计算过程如下:
C_share_weighti = share_w * C_sharei / share_max
并作如下处理:如果C_share_weighti < 0.01 * share_w,令C_share_weighti = 0.01* share_w;
同样的,分别计算每一条新闻数据的收藏数、评论数、点赞数及阅读数的计分权重C_collection_weighti、C_comment_weighti、C_praise_weighti、C_read_weighti
在步骤(4)中,计算每一条新闻数据的正文计分权重new_weighti,计算过程如下:
new_weighti = 1 + C_share_weighti + C_collection_weighti + C_comment_weighti + C_praise_weighti + C_read_weighti
5.根据权利要求4所述的一种热点人物软文自动生成方法,其特征在于,在热点人物挖掘模块中,具体步骤如下:
(1)提取新闻数据的正文实体集C_word_entity和标题实体集C_title_entity中人物姓名实体,并统计在C_word_entity、C_title_entity中出现的不同的人物姓名,总计nk个,并保存在人物姓名列表name_list中;
(2)对于name_list中每一个人物姓名,统计人物姓名在新闻数据的正文实体集C_word_entity中每一条数据中出现的次数,分别记为name_list_nij,(i = 0,1,…,nk-1,j=0,…,n-1);
统计人物姓名在新闻数据的标题实体集C_title_entity中每一条数据中出现的次数,分别记为name_list_tij,(i=0,1,…,nk-1,j=0,…,n-1);
并作如下处理:如果name_listij >= 1,name_listij = 1;
(3)计算name_list中每个人物姓名的热点计分,记为name_list_ci,计算过程如下:
Figure DEST_PATH_IMAGE004
其中,i=0,1,…,nk-1;
(4)对name_list_ci(i=0,1,…,nk-1)进行排序,并选取数值最高的前nn的人物为热点人物。
6.根据权利要求5所述的一种热点人物软文自动生成方法,其特征在于,在热点人物关联新闻挖掘模块中,具体的步骤如下:
(1)设定新闻热度初始计分最大值为cmax,最小值为cmin,初始计分衰减因子apha,计算Choti的热度计分Chot_ci, i=0,1,…,mk-1,计算过程如下:
Chot_c0 = cmax
Chot_cmk-1 = cmin
对于Chot_cj(j = 1,…, mk-2),从Chot_c1开始,每一个Chot_cj = Chot_cj-1 -(Chot_cj-1 – cmin)*(1 - apha);
(2)对于Choti(i=0,1,…,mk-1),设定分享数计分最大值为share_max, 分享数计分最小值为share_min;对Choti中的新闻数据的分享数进行排序,计算Choti的分享数计分Chot_shi, 其中,i=0,1,…,mk-1,计算过程如下:
首先定义中间变量share_tempk,k=0,1,…,mk-1,用于保存分享数计分值;并赋值如下:
share_temp0 = share_max
share_tempmk-1 = share_min
对于share_tempj(j = 1,2,…, mk-2),从share_temp1开始,每一个share_tempj =share_tempj-1 - (share_tempj-1 – share_min)*(1 - apha);
其次,计算Chot_shi如下:
如果Choti的分享数为最大值,则Chot_shi = share_temp0
如果Choti的分享数为最小值,则Chot_shi = share_tempmk-1
如果Choti的分享数是从高到底的第j名,则Chot_shi = share_tempi,i=1,2,…,mk-2;
同样的,分别设定收藏数计分最大值为collection_max, 收藏数计分最小值为collection_min,评论数计分最大值为comment _max, 评论数计分最小值为comment _min,点赞数计分最大值为praise _max, 点赞数计分最小值为praise _min,阅读数计分最大值为read _max, 阅读数计分最小值为read _min,并用类似的方法计算Choti的收藏数计分Chot_coli、评论数计分Chot_comi、点赞数计分Chot_pri、阅读数计分Chot_rei,其中i=0,1,…,mk-1;
(3)对于Choti(i=0,1,…,mk-1),设定标题计分值为title_value,初始化Choti的标题计分为Chot_ti, i=0,1,…,mk-1;并作如下赋值:
如果Choti的新闻数据的标题中包含该热点人物姓名的命名实体,则Chot_ti = title_value;
如果Choti的新闻数据的标题中部不包含该热点人物姓名的命名实体,则Chot_ti = 0;
(4)对于Choti(i=0,1,…,mk-1),计算最终的新闻热度计分Chot_fci如下:
Chot_fci = Chot_ci + Chot_shi + Chot_coli + Chot_comi + Chot_pri + Chot_rei+ Chot_ti
其中,i=0,1,…,mk-1;
对Chot_fci按照计分值从高到低排序,并选取数值最高的前mm的新闻数据为热点人物相关热点新闻。
7.根据权利要求6所述的一种热点人物软文自动生成方法,其特征在于,在热点人物结构化信息挖掘及热点人物软文自动生成模块中,具有如下步骤:
(1)建立人物结构化信息的key-value清单,其中key表示关键字,value则表示该关键字的值,key包括性别、年龄、籍贯、家人关系、社会关系、经济状况、生平记录、情感情况及过往新闻;
其中,家人关系包括姓名、称谓两个子关键字;社会关系包括姓名、关系性质、对方所在团体三个子关键字;经济状况包括数字、币种、日期、金额发生属性四个子关键字;生平记录包括时间-时间、所在团体两个子关键字;情感情况包括姓名、情感属性、时间、金额四个子关键字;
(2)对于每一个热点人物,通过爬虫工具爬取从当前时间至过去old_n年中包含该热点人物姓名的命名实体的网络数据,并利用分词工具对网络数据进行分词处理,并利用过滤词库过滤掉停止词、新闻从业者姓名,生成网络数据的正文命名实体集C_people;
(3)对于热点人物的每一个关键字key,保存C_people中所有和key关键字匹配成功的命名实体所在的语句,并保存在候选value值的集合value_h中;
关键字匹配的方法具体为逐字对比网络数据中的命名实体和关键字,如果命名实体的每一个字和关键字的对应的每一个字都相同,则认为关键字匹配成功;对于包括子关键字的关键字key,每一个子关键字都要匹配成功,并将和子关键字匹配成功的命名实体所在的语句保存在候选value值得集合value_h中;
(4)遍历每一个关键字key对应的候选value值的集合value_h,并统计重复度最高的value值,即为该关键字key的值value;
(5)对于每一个热点人物,按照热点人物姓名、性别、年龄、籍贯、家人关系、社会关系、经济状况、生平记录、情感情况、过往新闻、mm条热点新闻的顺序,自动生成热点人物软文。
8.一种热点人物软文自动生成装置,其特征在于,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行权利要求1至7中任一所述的方法。
CN202211359231.2A 2022-11-02 2022-11-02 一种热点人物软文自动生成方法及装置 Active CN115409000B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211359231.2A CN115409000B (zh) 2022-11-02 2022-11-02 一种热点人物软文自动生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211359231.2A CN115409000B (zh) 2022-11-02 2022-11-02 一种热点人物软文自动生成方法及装置

Publications (2)

Publication Number Publication Date
CN115409000A true CN115409000A (zh) 2022-11-29
CN115409000B CN115409000B (zh) 2023-01-24

Family

ID=84169389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211359231.2A Active CN115409000B (zh) 2022-11-02 2022-11-02 一种热点人物软文自动生成方法及装置

Country Status (1)

Country Link
CN (1) CN115409000B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024056A (zh) * 2010-12-15 2011-04-20 中国科学院自动化研究所 利用计算机的基于多媒体分析的新闻人物检索方法
CN105488196A (zh) * 2015-12-07 2016-04-13 中国人民大学 一种基于互联语料的热门话题自动挖掘系统
CN107633044A (zh) * 2017-09-14 2018-01-26 国家计算机网络与信息安全管理中心 一种基于热点事件的舆情知识图谱构建方法
US20180322115A1 (en) * 2017-05-08 2018-11-08 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for determining comment, server and storage medium
US20190197122A1 (en) * 2017-12-27 2019-06-27 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for generating review article of hot news, and terminal device
CN111178018A (zh) * 2019-12-30 2020-05-19 苏宁云计算有限公司 一种基于深度学习的目标软文的生成方法及装置
CN114840756A (zh) * 2022-05-06 2022-08-02 东南大学 一种基于关键热点信息的媒体生成推荐系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024056A (zh) * 2010-12-15 2011-04-20 中国科学院自动化研究所 利用计算机的基于多媒体分析的新闻人物检索方法
CN105488196A (zh) * 2015-12-07 2016-04-13 中国人民大学 一种基于互联语料的热门话题自动挖掘系统
US20180322115A1 (en) * 2017-05-08 2018-11-08 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for determining comment, server and storage medium
CN107633044A (zh) * 2017-09-14 2018-01-26 国家计算机网络与信息安全管理中心 一种基于热点事件的舆情知识图谱构建方法
US20190197122A1 (en) * 2017-12-27 2019-06-27 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for generating review article of hot news, and terminal device
CN111178018A (zh) * 2019-12-30 2020-05-19 苏宁云计算有限公司 一种基于深度学习的目标软文的生成方法及装置
CN114840756A (zh) * 2022-05-06 2022-08-02 东南大学 一种基于关键热点信息的媒体生成推荐系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘锦文等: "基于信息关联拓扑的互联网社交关系挖掘", 《计算机应用》 *

Also Published As

Publication number Publication date
CN115409000B (zh) 2023-01-24

Similar Documents

Publication Publication Date Title
Boenninghoff et al. Explainable authorship verification in social media via attention-based similarity learning
Liang et al. Unsupervised keyphrase extraction by jointly modeling local and global context
Meng et al. Context-aware neural model for temporal information extraction
CN104573130B (zh) 基于群体计算的实体解析方法及装置
CN111191051B (zh) 一种基于中文分词技术的应急知识图谱的构建方法及系统
CN111191022A (zh) 商品短标题生成方法及装置
CN107436955A (zh) 一种基于Wikipedia概念向量的英文词语相关度计算方法和装置
CN111899090A (zh) 企业关联风险预警方法及系统
Kantharaj et al. Opencqa: Open-ended question answering with charts
CN110990003B (zh) 一种基于词嵌入技术的api推荐方法
CN112434533A (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN110287493B (zh) 风险短语识别方法、装置、电子设备及存储介质
Bach et al. Big data text mining in the financial sector
Chou et al. Boosted web named entity recognition via tri-training
Bhole et al. Extracting named entities and relating them over time based on Wikipedia
CN115409000B (zh) 一种热点人物软文自动生成方法及装置
CN112463922A (zh) 一种风险用户识别方法及存储介质
CN114943285B (zh) 互联网新闻内容数据智能审核系统
CN111401056A (zh) 一种从多类文本中提取关键词的方法
CN110532538A (zh) 财产纠纷裁判文书关键实体抽取算法
CN113971403A (zh) 一种考虑文本语义信息的实体识别方法及系统
Parmar et al. Hyperbox: A supervised approach for hypernym discovery using box embeddings
Oljira et al. Sentiment analysis for afaan oromoo using combined convolutional neural network and bidirectional long short-term memory
Daniels Retrieval of passages for information reduction
US11200266B2 (en) Identifying named entities in questions related to structured data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant