CN113420153A - 一种基于话题库和事件库的专题制作方法、装置及设备 - Google Patents
一种基于话题库和事件库的专题制作方法、装置及设备 Download PDFInfo
- Publication number
- CN113420153A CN113420153A CN202110965328.7A CN202110965328A CN113420153A CN 113420153 A CN113420153 A CN 113420153A CN 202110965328 A CN202110965328 A CN 202110965328A CN 113420153 A CN113420153 A CN 113420153A
- Authority
- CN
- China
- Prior art keywords
- news
- news data
- topic
- event
- library
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本文提供了一种基于话题库和事件库的专题制作方法、装置及设备,所述方法包括:获取指定时间段内的新闻数据;根据所述新闻数据,确定所述指定时间段内的新闻热门词;根据所述热门词所在的新闻数据,通过预设向量生成模型,生成所述热门词所在的新闻数据的特征向量;根据所述特征向量,对所述热门词所在的新闻数据进行分类,得到多个话题库;依次对每个话题库进行事件提取,得到每个话题库中不同类型的事件库;根据所述事件库,制作生成相应的新闻专题,本文通过话题库和事件库不同粒度对新闻数据进行分类,提高了专题制作的效率和准确性。
Description
技术领域
本文属于计算机技术领域,具体涉及一种基于话题库和事件库的专题制作方法、装置及设备。
背景技术
专题是由若干有共同性的新闻文本组成的集合体。这种共同性,是指各篇文本存在主题、题材、体裁、表现手法几个方面中,至少有一个方面有共同之处。这种共同性,表明这些文本属于同一类。因此以专栏的形式集中展现某一时间的某一事件的起因、进展、趋势和影响程度,将给读者在浏览这一信息时得到全方位的认知,从而取得读者给予信任和认可,在读者的认知中建立起权威。
现有技术中对专题的制作有人工分类和机器分类两种方案,其中人工分类是通过人工方式分析观察相关事件热度,归纳总结出相关事件脉络,人工对文章进行聚类,并按照内容对聚类进行取名,但这种方法不能及时发布最新的突发性事件,且需要大量的编辑人员对热点新闻进行分析总结,并且不同编辑人员可能会有不同的分类标准,可能导致门户网站的文章展现方式略有差异;机器分类使用基于文本聚类的方式,将新闻定时聚类为不同的类别,人工进行校验后,对不同类别打上不同的标签,但是现有的聚类算法,只是简单的将文章进行聚类,会导致粒度不一致,导致准确率并不高,且需要人工对聚类文章进行取名,人工成本较高。因此如何提高专题制作效率和准确性成为目前亟需解决的问题。
发明内容
针对现有技术的上述问题,本文的目的在于,提供一种基于话题库和事件库的专题制作方法、装置及设备,能够提高专题制作效率和准确性。
为了解决上述技术问题,本文的具体技术方案如下:
一方面,本文提供一种基于话题库和事件库的专题制作方法,所述方法包括:
获取指定时间段内的新闻数据;
根据所述新闻数据,确定所述指定时间段内的新闻热门词;
根据所述热门词所在的新闻数据,通过预设向量生成模型,生成所述热门词所在的新闻数据的特征向量;
根据所述特征向量,对所述热门词所在的新闻数据进行分类,得到多个话题库;
依次对每个话题库进行事件提取,得到每个话题库中不同类型的事件库;
根据所述事件库,制作生成相应的新闻专题。
进一步地,所述根据所述新闻数据,确定所述指定时间段内的新闻热门词,包括:
根据所述新闻数据,计算获得所述指定时间段内新闻词的出现频率;
根据所述新闻词的出现频率,确定候选热门词;
根据所述候选热门词,生成每个候选热门词的时间频率序列;
根据所述时间频率序列和热门趋势模板,计算获得每个候选热门词和所述热门趋势模板之间的热门相似度;
将热门相似度超过热门词阈值的候选热门词确定为所述指定时间段内的新闻热门词。
进一步地,所述热门趋势模板包括词语的第一阶段趋势;
所述第一阶段趋势为所述词语在第一时间段的频率增长率为上升状态。
进一步地,所述热门趋势模板还包括词语的第二阶段趋势和第三阶段趋势;
所述第二阶段趋势为所述词语在第二时间段的频率增长率为平滑状态;
所述第三阶段趋势为所述词语在第三时间段的频率增长率为下降状态;
所述第二时间段、所述第一时间段和所述第三时间段为依次连续的时间段。
进一步地,所述根据所述热门词所在的新闻数据,通过预设向量生成模型,生成所述热门词所在的新闻数据的特征向量,包括:
根据所述热门词所在的新闻数据,通过预先训练完成的实体识别模型识别出所述新闻数据中的实体类型;
根据所述新闻数据以及所述新闻数据中的热门词和实体类型,通过预设向量生成模型,分别生成所述新闻数据的语义向量以及所述新闻数据中的热门词特征向量和实体特征向量;
将所述语义向量、所述热门词特征向量和所述实体特征向量进行拼接,形成所述新闻数据的特征向量。
作为可选地,所述预设向量生成模型为BERT模型。
进一步地,所述根据所述特征向量,对所述热门词所在的新闻数据进行分类,得到多个话题库,包括:
根据所述特征向量,计算任意两个新闻数据之间的类间距离;
判断所述类间距离中的最小值是否超过预设距离;
若所述类间距离中的最小值不超过预设距离,则将所述类间距离的最小值对应的两个新闻数据进行合并,形成更新后的多个新闻数据类别;
根据所述更新后的新闻数据类别,重复上述步骤,直到计算得到的类间距离中的最小值不超过所述预设距离,则获得最后的新闻数据类型;
根据所述最后的新闻数据类别,确定多个话题库。
进一步地,所述根据所述特征向量,对所述热门词所在的新闻数据进行分类,得到多个话题库之后还包括:
针对每个话题库:
获取所述话题库中每个新闻数据的新闻标题;
将所述新闻标题进行拼接处理得到所述话题库的标题集合;
根据所述标题集合,通过TextRank算法计算获得每个新闻标题的评分值;
将所述评分值中最大值对应的新闻标题作为所述话题库的话题库标题。
进一步地,所述依次对每个话题库进行事件提取,得到每个话题库中不同类型的事件库,包括:
将所述话题库中的每个新闻数据依次输入到预先训练的概率模型中,得到每个所述新闻数据属于不同事件类型的概率分布,其中不同话题库对应不同预先训练的概率模型;
判断所述概率分布中最大概率是否超过第一预设概率;
若所述概率分布中最大概率超过所述第一预设概率,则将所述最大概率对应的事件类型确定为所述新闻数据的事件类型;
若所述概率分布中最大概率不超过所述第一预设概率,则对所述新闻数据的事件类型进行人工分类;
重复上述步骤,确定所述话题库中所有新闻类型的所属事件类型,形成不同类型的事件库。
进一步地,所述依次对每个话题库进行事件提取,得到每个话题库中不同类型的事件库,还包括:
确定预设样本问题集合,所述预设样本问题集合为根据预设事件类型集合设计的样本问题
将所述话题库中的新闻数据和预设样本问题集合中的样本问题带入到问答模型中,获得输出结果,所述输出结果包括所述样本问题的可回答概率以及预测答案在所述新闻数据中的起始位置;
根据所述样本问题的可回答概率,确定所述样本问题是否可回答;
若所述样本问题可回答,则根据所述预测答案在所述新闻数据中的起止位置判断所述新闻数据与所述预设事件类型是否一致;
若所述新闻数据与所述预设事件类型一致,则将所述新闻数据划分为预设事件类型;
根据所述预设样本问题集合,重复上述步骤,直到将所述话题库中的新闻数据划分到对应的事件库中。
进一步地,所述问答模型包括编码层、交互层、外部前置验证器、线性层、内部前置判别器和输出层;
所述编码层用于将输入的新闻数据和所述样本问题进行编码处理;
所述交互层用于根据编码后的数据构建文本和答案之间的向量空间关系,得到隐藏向量;
所述外部前置验证器用于根据所述隐藏向量对所述样本问题的可回答性进行初步预测,得到第一预测概率,并且当所述第一预测概率超过指定概率时,将所述隐藏向量输入所述线性层中;
所述线性层根据所述隐藏向量得到预测答案在所述新闻数据中的起止位置;
所述内部前置判别器用于根据所述隐藏向量判断所述样本问题的第二预测概率;
所述输出层用于根据所述第一预测概率和所述第二预测概率输出所述样本问题的可回答概率,以及输出所述预测答案在所述新闻数据中的起止位置。
进一步地,所述根据所述样本问题的可回答概率,确定所述样本问题是否可回答,包括:
判断所述可回答概率是否超过第二预设概率;
若超过,则确定所述样本问题可回答;
若不超过,则对所述新闻数据的事件类型进行人工分类。
进一步地,所述根据所述预测答案在所述新闻数据中的起止位置判断所述新闻数据与所述预设事件类型是否一致,包括:
根据所述新闻数据中的起止位置,确定所述预测答案;
判断所述预测答案与所述样本问题对应的预设答案是否一致,所述预设答案是所述预设事件类型对所述样本问题的答案;
若所述预测答案与所述样本问题对应的预设答案一致,则所述新闻数据与所述预设事件类型一致;
若所述预测答案与所述样本问题对应的预设答案不一致,则对所述新闻数据的事件类型进行人工分类。
进一步地,所述根据所述事件库,制作生成相应的新闻专题,包括:
获取新闻专题模板;
根据所述新闻专题模板,确定不同新闻属性标识及其分布位置;
确定所述事件库中新闻数据的属性标识;
根据所述新闻数据的属性标识和所述新闻专题模板中不同新闻属性标识的分布位置,加载生成所述事件库的新闻专题。
另一方面,本文还提供一种基于话题库和事件库的专题制作装置,所述装置包括:
新闻数据获取模块,用于获取指定时间段内的新闻数据;
热门词确定模块,用于根据所述新闻数据,确定所述指定时间段内的新闻热门词;
特征向量生成模块,用于根据所述热门词所在的新闻数据,通过预设向量生成模型,生成所述热门词所在的新闻数据的特征向量;
话题库生成模块,用于根据所述特征向量,对所述热门词所在的新闻数据进行分类,得到多个话题库;
事件库生成模块,用于依次对每个话题库进行事件提取,得到每个话题库中不同类型的事件库;
新闻专题制作模块,用于根据所述事件库,制作生成相应的新闻专题。
另一方面,本文还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述所述的方法。
最后,本文还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述的方法。
采用上述技术方案,本文所述的一种基于话题库和事件库的专题制作方法、装置及设备,通过在指定时间段内对新闻数据中热门词的确定,挖掘热点事件,然后将新闻数据中的热点事件进行分类得到不同的话题库,进而通过在每个话题库中进行事件提取得到每个话题库中的不同事件库,进而针对每个事件库制作相应的新闻专题,本文通过话题库和事件库的结合,从不同粒度实现热点事件的集合,增加了新闻数据分类的准确性,同时也能减少人工参与,降低人工成本,提高专题制作效率。
为让本文的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
附图说明
为了更清楚地说明本文实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本文的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本文实施例提供的一种基于话题库和事件库的专题制作方法的步骤示意图;
图2示出了本文实施例中新闻热门词确定步骤示意图;
图3示出了本文实施例中频率变化曲线展示示意图;
图4示出了本文实施例中特征向量获取步骤示意图;
图5示出了本文实施例中话题库确定步骤示意图;
图6示出了本文实施例中事件库的确定步骤示意图;
图7示出了本文实施例中事件库的另一确定步骤示意图;
图8示出了本文实施例提供的一种基于话题库和事件库的专题制作装置结构示意图;
图9示出了本文实施例提供的计算机设备结构示意图。
附图符号说明:
100、新闻数据获取模块;
200、热门词确定模块;
300、特征向量生成模块;
400、话题库生成模块;
500、事件库生成模块;
600、新闻专题制作模块;
902、计算机设备;
904、处理器;
906、存储器;
908、驱动机构;
910、输入/输出模块;
912、输入设备;
914、输出设备;
916、呈现设备;
918、图形用户接口;
920、网络接口;
922、通信链路;
924、通信总线。
具体实施方式
下面将结合本文实施例中的附图,对本文实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本文一部分实施例,而不是全部的实施例。基于本文中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本文保护的范围。
需要说明的是,本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本文的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
现有技术中对专题的制作有人工分类和机器分类两种方案,其中人工分类是通过人工方式对热点事件进行聚类分析,但这种方法不能及时发布最新的突发性事件,且需要依靠编辑人员的经验,但编辑人员经验很难保持一致,且需要大量的人力来完成;机器分类使用基于文本聚类的方式,将新闻定时聚类为不同的类别,人工进行校验后进行标签化处理,但是现有的聚类算法,只是简单的将文章进行聚类,会导致粒度不一致,导致准确率并不高,且需要人工对聚类文章进行取名,人工成本较高。
为了解决上述问题,本文实施例提供了一种基于话题库和事件库的专题制作方法,能够提高专题制作的效率和准确性。图1是本文实施例提供的一种基于话题库和事件库的专题制作方法的步骤示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或装置产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行。具体的如图1所示,所述方法可以包括:
S101:获取指定时间段内的新闻数据;
S102:根据所述新闻数据,确定所述指定时间段内的新闻热门词;
S103:根据所述热门词所在的新闻数据,通过预设向量生成模型,生成所述热门词所在的新闻数据的特征向量;
S104:根据所述特征向量,对所述热门词所在的新闻数据进行分类,得到多个话题库;
S105:依次对每个话题库进行事件提取,得到每个话题库中不同类型的事件库;
S106:根据所述事件库,制作生成相应的新闻专题。
可以理解为,本文先通过指定时间段内确定新闻数据的热门词,然后在根据热门词确定热点事件(即热门词所在的新闻数据),再将所述热点事件进行聚类得到不同的话题库,在对每个话题库进行事件提取,得到每个话题库中更小粒度的事件库,从而根据事件库制作相应的新闻专题,本文通过不同粒度的依次聚类可以提高对新闻数据分类的准确性,进而提高了新闻专题制作的效率。
所述新闻数据可以为具有标题和正文的对社会事件做出描述的载体,可以包括体育、政治、财经、军事等领域,所述标题和所述正文可以为本文形式,作为可选地,所述正文也可以为视频、图像,或者文本、视频和图像至少两者的结合的形式,具体的形式在本说明书实施例中不作限定。
在本说明书实施例中,可以通过网络爬虫技术获取互联网中的新闻数据,比如从新闻门户网站中采集所发布的网络新闻数据,也可以接收其他单位或个人传输的新闻数据,进一步地,可以选择指定篇幅(比如1000字符以内等)的新闻数据作为采集的对象,避免出现新闻数据臃肿的情况。另外还可以根据不同的爬取目标(领域、人物、地点或事件等)进行针对性的爬取新闻数据,这样可以进一步提高专题制作的准确性,所述新闻数据的获取方式和获取目标在本说明书中不做限定。
所述指定时间段根据实际情况设置,为了保证新闻数据中热门词确定的准确性,以及对热门词变化的有效抓取,所述指定时间段不宜过小(比如一周两周等),当然所述指定时间段也不宜过大(比如超过一年),这样可以避免采集大量的新闻数据,进而增加了新闻数据分类的难度,降低了分类的准确性和效率,作为可选地,所述指定时间段可以为一个月、三个月等时间段,进一步地,为了保证新闻专题制作的实时性,以及对突发的热点事件能及时的处理和归类,所述指定时间段可以为距离当前时间最近的时间段,比如过去一个月、过去三个月的新闻数据,通过对该时间段新闻数据的聚类和专题制作可以实时把握当前热门事件,同时对热门事件的发展历程能有更准确的把握,进而做出准确性、针对性的报道和传播。
所述热门词可以为在某一时间段广泛传播的事件中的特殊词语,比如在奥运会期间,关于奥运会的新闻报道比较多,例如奥运会历史、奥运会排行榜、奥运会趣事等,因此“奥运会”就可以是在奥运会期间的热门词,进而通过对关于奥运会相关的新闻数据进行处理,得到关于奥运会不同的专题。
所述话题库可以为热点事件较大程度的集合,粒度较广,包括热点事件的各种信息,例如历史背景,事件起因,事件发展候选等等,所述事件库则为每个话题库中热点事件的进一步分类,因此所述话题库和所述事件库为不同的事件集合粒度,粒度更小,也更加精确,比如在奥运会期间,奥运会可以形成一个话题库,关于奥运会起源、奥运会文化、奥运会实时赛事等可以形成不同的事件库。
在本说明书实施例中,如图2所示,所述根据所述新闻数据,确定所述指定时间段内的新闻热门词,包括:
S201:根据所述新闻数据,计算获得所述指定时间段内新闻词的出现频率;
S202:根据所述新闻词的出现频率,确定候选热门词;
S203:根据所述候选热门词,生成每个候选热门词的时间频率序列;
S204:根据所述时间频率序列和热门趋势模板,计算获得每个候选热门词和所述热门趋势模板之间的热门相似度;
S205:将热门相似度超过热门词阈值的候选热门词确定为所述指定时间段内的新闻热门词。
可以理解为,本文通过对新闻数据中出现的词语进行出现频率的统计,从而确定其中的候选热门词,进而对候选热门词进行二次筛选从而找出其中真正的热门词,通过此新闻词的二次筛选可以避免将偶发性的词语作为热门词,提高新闻词确定的准确性。
其中,所述新闻数据中的新闻词可以通过现有的文本处理工具进行分词处理,比如开源工具Jieba。通过对所有的新闻数据进行分词处理后即可得到在指定时间段内所有词语的出现次数,进而可以得到每个词语的出现频率,所述出现频率计算公式可以为:单一词语的出现频率=该单一词语的出现次数/所有词语的出现次数。
在本说明书实施例中,所述新闻词的出现频率为在所述指定时间段内的出现次数的概率,即每个新闻词对应一个出现频率,可以设置频率阈值,当所述出现频率超过了所述频率阈值,则确定该出现频率对应的新闻词出现次数较多,可以确定为候选热门词,所述频率阈值根据实际情况设置,在本说明书中不做限定。
示例性地,通过采集三个月内的新闻数据,对新闻数据进行分词处理并统计,可以获得1万个新闻词,所有新闻词出现的总次数为10万次,则每个新闻词的出现频率为该新闻词的出现次数与10万的比值,所述频率阈值可以为1%,当所述出现频率超过1%,则可以将其对应的新闻词作为候选热门词。
在本说明书另一实施例中,在指定时间段内采集的一般都是大量的新闻数据,为了减少数据统计难度,还可以将所述指定时间段划分为多个等距(即等时间段)的子时间段,针对每个新闻词,只需计算每个子时间段内的所述新闻词的出现频率,这样可以很明显的降低工作量,当所述新闻词在所有子时间段内的出现频率的最大值超过频率阈值,即可确定该新闻词为候选热门词,通过将所述指定时间段进行进一步划分,可以快速确定候选热门词,提高新闻数据统计的效率。
示例性地,获取三个月内的新闻数据,并对所有新闻数据进行分词处理,针对每个新闻词:计算该新闻词每天的出现频率,这样可以获得大约90个出现频率,当90个出现频率中的最大值超过频率阈值(比如2%)时,则可以确定该新闻词为候选热门词。通过上述过程可以获得在三个月内的候选热门词。
进一步实施例中,在计算获得所述新闻词在每个子时间段的出现频率基础上,还可以获得所述新闻词的增长幅度,即由后一字时间段的出现频率和前一子时间段的出现频率进行比较确定所述新闻词的增长幅度,计算公式可以为:任一子时间段新闻词增长幅度=(该子时间段的出现频率-前一子时间段的出现频率)/前一子时间段的出现频率,比如,在获得三个月新闻数据的基础上,通过计算每天的新闻词的出现频率,则可以计算获得在三个月内新闻词每天的增长幅度,进而确定增长幅度的最大值是否超过预设幅度阈值,当超过了就可以当该新闻词作为候选热门词,通过增长幅度作为候选热门词确定的指标可以直观的确定新闻词的变化情况,对突发式的新闻词能直接的进行锁定。在一些其他实施例中,也有其他候选热门词确定的方式,在本说明书实施例中不做赘述。
所述时间频率序列为所述候选热门词出现频率在时间上的连续变化情况,比如在指定时间段内设置多个连续的子时间段,这样通过计算每个子时间段所述候选热门词的出现频率,就可以得到所述候选热门词在指定时间段内的时间频率序列,并在图上绘制得到时间视频变化曲线。
所述热门趋势模板可以为热点词确定的标准模板,可以通过计算候选热门词的时间频率序列形成的变化曲线和所述热门趋势模板之间的相似度,当所述相似度达到热门词阈值时即可表示所述候选热门词的时间视频序列形成的变化曲线与所述热门趋势模板相似较高,可以将其作为热门词,如图3所示,其中曲线C为热门趋势模板的变化曲线示意图。
在本说明书实施例中,所述热门趋势模板包括词语的第一阶段趋势;所述第一阶段趋势为所述词语在第一时间段的频率增长率为上升状态。也就是说,热门词可以为在一定时间段内其频率(或频率增长率)处于上升状态,表明该热门词在新闻数据中传播速度和传播量在快速增加,因此第一阶段趋势可以为所述热门词的基本特征,如图3中的t1-t2时间段为第一时间段。
进一步地,热点事件应该是在一段时间段内广泛传播,进而传播量下降,保持到一个较低的水平,相应地,表示热点事件的热门词也会有相应的特征,即所述热门词的出现频率理想状态应该是在爆发阶段的前一阶段和后一阶段都是保持在一个相对较低的水平,这样才能够将爆发阶段对其进行更加广泛的传播和讨论,从而可以确定热门词理想的生命周期应该是两端平缓,中间上升的频率变化趋势,因此为了进一步提高所述热门趋势模板的完整性和对热门词确定的准确性,所述热门趋势模板还包括词语的第二阶段趋势和第三阶段趋势;
所述第二阶段趋势为所述词语在第二时间段的频率增长率为平滑状态;
所述第三阶段趋势为所述词语在第三时间段的频率增长率为下降状态;
所述第二时间段、所述第一时间段和所述第三时间段为依次连续的时间段。
通过对热门趋势模板的进一步完善,当所述候选热门词的变化趋势符合该热门趋势模板,则可以将其确定为热门词,其中所述第一时间段、第二时间段和第三时间段根据实际情况设置,在本说明书实施例中不做限定,如图3中的0-t1为第二时间段,t2-t3为第三时间段。
示例性地,由于指定时间段和热门趋势模板的时间长度可以能不一致,可以通过动态时间规划(Dynamic Time Warping,DTW)的方式来对齐时间序列,能更好捕捉趋势相似的情况。相似度的计算可以选择距离算法,比如欧式距离、马氏距离和曼哈顿距离等等,在本说明书实施例中,通过欧氏距离进行说明:
如图3所示,有两条时间频率序列变化曲线,其中曲线Q为候选热门词的变化曲线,曲线C为热门趋势模板的变化曲线,其中曲线Q上每个点的值为候选热门词在每个子时间段的出现频率,曲线C的每个点的值为理想状态下的理想频率,需要说明的是,所述理想频率根据实际情况设置,只要能满足其变化趋势即可。其中曲线Q上可以有n个数据,分别为,曲线C上可以有m个数据,分别为 1 2 j m。
时间序列的对齐方式可以采用线性缩放,把短的序列线性放大到和长序列一样的长度再比较,或者把长的线性缩短到和短序列一样的长度再比较。为了对齐这两个序列,可以构造一个的矩阵网格,矩阵元素表示和两个点的距离(也就是曲线Q的每一个点和曲线C的每一个点之间的相似度,距离越小则相似度越高),欧式距离的表达方式可以为:,每一个矩阵元素表示点和的对齐。本文通过动态规划算法(Dynamic Programing,DP)可以寻找一条通过此网格中若干格点的路径,路径通过的格点即为两个序列进行计算的对齐的点,从(0, 0)点开始匹配这两个曲线序列Q和C。每到一个点,之前所有的点计算的距离都会累计,到达终点(n, m)后,这个累积距离就是最后的总的距离,也就是序列Q和C的相似度。累积距离可以按下面的公式(1)表示,累积距离为当前格点距离,也就是点和的欧式距离(相似度)与可以到达该点的最小的邻近元素的累积距离之和:
通过公式(1)即可得到候选热门词的曲线Q和热门趋势模板的曲线C之间的热门相似度,再将所述热门相似度和热门词阈值进行比较,确定新闻热门词,其中所述热门词阈值根据实际情况设置,在本说明书实施例中不做限定。
在确定新闻数据中全部热门词的基础上,即可将所述热门词所在的新闻数据确定为热门事件,从而排除掉一些无效新闻,因此在本说明书实施例中,如图4所示,所述根据所述热门词所在的新闻数据,通过预设向量生成模型,生成所述热门词所在的新闻数据的特征向量,包括:
S301:根据所述热门词所在的新闻数据,通过预先训练完成的实体识别模型识别出所述新闻数据中的实体类型;
S302:根据所述新闻数据以及所述新闻数据中的热门词和实体类型,通过预设向量生成模型,分别生成所述新闻数据的语义向量以及所述新闻数据中的热门词特征向量和实体特征向量;
S303:将所述语义向量、所述热门词特征向量和所述实体特征向量进行拼接,形成所述新闻数据的特征向量。
其中,所述实体类型可以包括地名、人名、机构名以及其他实体,热点事件一般都会关联到地点、人物和机构等实体特征,通过对所述新闻数据中实体类型的识别可以进一步的对所述新闻数据的特征信息进行确定,从而提高了后续聚类的准确性。
命名实体识别(Named Entity Recognition, NER)是自然语言处理(NaturalLanguage Processing,NLP)里的一个分支任务,就是指从文本中识别出命名性指标项,为关系抽取等任务做铺垫。狭义上,是识别出人名、地名和组织机构名这三类命名实体。可以采用现有已知的命名实体识别数据集,在本说明书中通过长短期记忆网络-条件随机场模型(Long Short-Term Memory-Conditional Random Fields,LSTM-CRF)进行模型训练和预测,具体的训练和识别过程为本领域的常规技术,在本说明书中不作说明。
需要说明的是,所述热门词在一些情况下也可以为实体特征,当出现识别出的实体类型和热门词重合时,可以只选择一个,避免了在向量生成时出现特征向量重复的情况,影响了后续聚类的准确率。
通过所述预设向量生成模型可以获得新闻数据的语义向量 以及新闻数据中的实体类型和热门词的特征向量,在实现不同维度描述所述新闻数据基础上,对新闻数据进行降维处理,提高了后续聚类分析的效率,进而将所述语义向量、所述热门词特征向量和所述实体特征向量进行拼接,形成所述新闻数据的特征向量,可以充分的表示所述新闻数据的特征信息,这样在进行聚类分析时可以将新闻数据进行更大程度的聚类。
实际工作中,由于不同新闻数据的文本篇幅不同,通过模型生成的语义向量的时间会各有不同,因此为了保证数据处理的时间,可以选择所述新闻数据的指定部分作为语义向量的输入数据,作为可选地,可以选择新闻数据的首句作为输入数据,从而可以得到每个新闻数据首句的语义向量。
所述向量生成模型可以为预先训练的BERT(Bidirectional EncoderRepresentations from Transformers)模型,在使用时可以通过已知做标注的预料数据进行模型微调,得到不同类型的特征向量,根据实际情况设置不同特征向量类别,比如可以通过微调得到多个类别的特征向量(比如政治、经济、军事等),在一些其他实施例中,也可以通过其他模型生成特征向量,在本说明书实施例中不做限定。
通过拼接得到的特征向量包括语义向量、热门词特征向量和实体特征向量三个维度的向量,比如三个向量维度分别a,b和c,则最后拼接就形成a+b+c维度的向量,在得到拼接后的特征向量基础上,可以进行话题库的聚类,作为可选地,如图5所示,所述根据所述特征向量,对所述热门词所在的新闻数据进行分类,得到多个话题库,包括:
S401:根据所述特征向量,计算任意两个新闻数据之间的类间距离;
S402:判断所述类间距离中的最小值是否超过预设距离;
S403:若所述类间距离中的最小值不超过预设距离,则将所述类间距离的最小值对应的两个新闻数据进行合并,形成更新后的多个新闻数据类别;
S404:根据所述更新后的新闻数据类别,重复上述步骤,直到计算得到的类间距离中的最小值不超过所述预设距离,则获得最后的新闻数据类型;
S405:根据所述最后的新闻数据类别,确定多个话题库。
可以理解为,本说明书实施例通过分层聚类思想,将每个新闻数据作为一样品,通过计算每个样品之间的类间距离,将最靠近(即类间距离最小)的两个样品进行聚合得到小类,再将聚合后的小类与其他样品进行合并,直到所有聚合的小类之间的距离都超过了预设距离,则可以将最终聚合得到的小类当做最终的新闻数据类别,即话题库,所述预设距离根据实际情况设置,在本说明书实施例中不做限定。通过合理的设置所述预设距离,再通过类间距离对新闻数据进行聚类分析,可以得到较大粒度的话题库,从而提高了数据聚类的效率。
所述类间距离可以为两个新闻数据之间的相似度,该相似度的计算可以通过距离计算法,比如欧氏距离、马氏距离等,在本说明书实施例中不做限定。示例性地,在进行话题库的聚类可以如下说明:
1)、将每个新闻数据作为一个样本,计算每两个样本之间的相似度。
本步骤中,每个样本可以作为独立的一类存在,每个样本中的数据点为特征向量,所述特征向量的向量长度可以为数据点的个数,通过计算两个新闻数据中每个数据点(即特征向量)与其他数据点之间的距离,将所有距离的均值作为两个新闻年数据之间的类间距离,即相似度。
2)、确定所有样本之间最近的两个样本,并且当该两个样本之间的距离不超过预设距离,则将该两个样本聚为一类;
最近的两个样本可以为该两个样本的类间距离最小,聚类后的样本为一类,这样所有样本的类总数减一。
3)、重新计算新生成的类与各个原先类之间的相似度;
所述相似度的计算过程和步骤1)中的计算过程一致,本说明书实施例不做赘述。
4)、重复步骤2)和步骤3),直到最终得到的类之间的距离都超过预设距离,则将最后得到的类作为话题库。
在本说明书中,在聚类过程中,通过不断的迭代得到最终聚类的话题库,进一步地,根据实际需要,还可以将聚类得到的话题库进行二次融合,比如可以通过人工融合的方式进行融合。
在本说明书实施例中,所述根据所述特征向量,对所述热门词所在的新闻数据进行分类,得到多个话题库之后还包括:
针对每个话题库:
获取所述话题库中每个新闻数据的新闻标题;
将所述新闻标题进行拼接处理得到所述话题库的标题集合;
根据所述标题集合,通过TextRank算法计算获得每个新闻标题的评分值;
将所述评分值中最大值对应的新闻标题作为所述话题库的话题库标题。
可以理解为,在得到不同话题库的基础上,可以实现对每个话题库的标题进行自动生成,因此可以通过TextRank算法实现,TextRank 算法是一种用于文本的基于图的排序算法,其中先通过将话题库内的新闻标题进行拼接处理得到标题集合,所述拼接处理可以为抽象的处理过程,比如通过句号或其他特殊符号将新闻标题进行“拼接处理”,通过计算不同新闻标题之间的相似度,可以得到相似度矩阵,比如相似度矩阵A,其中Aij代表第i个新闻标题和第j个新闻标题之间的相似程度,在得到相似度矩阵的基础上,使用TextRank算法,可以得到每个新闻标题的得分,其中得分最高的新闻标题代表与其他新闻标题相似性最高,也代表信息最多,选择这个新闻标题作为最终话题库的标题。
使用TextRank算法计算图模型中各点的得分时,需要给图中的点指定任意的初值,并递归计算直到收敛,即图中任意一点的误差率小于给定的极限值时就可以达到收敛,经过多次迭代就可以获得每个句子对应的权重(即相似度)。
在本说明书实施例中,在得到话题库基础上,还需要对话题库进行更小粒度的分类,作为可选地,如图6所示,所述依次对每个话题库进行事件提取,得到每个话题库中不同类型的事件库,包括:
S501:将所述话题库中的每个新闻数据依次输入到预先训练的概率模型中,得到每个所述新闻数据属于不同事件类型的概率分布,其中不同话题库对应不同预先训练的概率模型;
S502:判断所述概率分布中最大概率是否超过第一预设概率;
S503:若所述概率分布中最大概率超过所述第一预设概率,则将所述最大概率对应的事件类型确定为所述新闻数据的事件类型;
S504:若所述概率分布中最大概率不超过所述第一预设概率,则对所述新闻数据的事件类型进行人工分类;
S505:重复上述步骤,确定所述话题库中所有新闻类型的所属事件类型,形成不同类型的事件库。
可以理解为,本步骤中通过对话题库中的新闻数据进行事件提取,通过预先训练的模型可以将不同的新闻数据分类到不同的类型中,进而得到不同的事件库,本文通过对话题库更小粒度的划分,保证了在同一粒度下进行专题制作,可以提高专题制作的准确性和可靠性。
所述预先训练的概率模型可以为预训练BERT模型之后加上分类层,再通过已知的带有标注(即事件类型)的新闻年数据进行微调训练,得到收敛后的概率模型,在实际输出时,可以将每种事件类型进行编码,这样可以得到不同事件类型的概率分布,比如新闻数据为:消失的“外企光环”,5月份在华裁员900余人,香饽饽变“臭”了,事件类型可为外企现状,类型编码设定为0,则可以将新闻数据“消失的“外企光环”,5月份在华裁员900余人,香饽饽变“臭”了”,及其编码“0”输入到模型中训练。
示例性地,通过训练得概率模型可以得到话题库中每个新闻数据属于不同事件类型的概率分布,比如话题库A中存在A1、A2、A3和A4四种事件类型,在模型输出中的编码依次为1、2、3和4,则将话题库A中的新闻数据输入到概率模型中可以得到A1、A2、A3和A4四种事件类型的分布概率,例如输出结果为:1:20%;2:25%;3:30%;4:10%,可以确定该新闻数据属于编码为3的概率最高,即属于A3事件类型的概率最高,当30%超过了第一预设概率(比如20%)时,则可以将A3事件类型作为该新闻数据的事件类型,如果当30%没有超过了第一预设概率(比如40%)时,则表明通过机器分类的方式失败,则可以进行人工分类。通过上述步骤可以准确快速的实现每个话题库中事件库的形成,而且由于每个话题库中新闻类型更集中,在进行模型训练时收敛的速度更快,模型分类效率更好。
在一些其他实施例中,还可以有其他的事件库提取方式,作为可选地,如图7所示,所述依次对每个话题库进行事件提取,得到每个话题库中不同类型的事件库,还包括:
S601:确定预设样本问题集合,所述预设样本问题集合为根据预设事件类型集合设计的样本问题;
S602:将所述话题库中的新闻数据和预设样本问题集合中的样本问题带入到问答模型中,获得输出结果,所述输出结果包括所述样本问题的可回答概率以及预测答案在所述新闻数据中的起始位置;
S603:根据所述样本问题的可回答概率,确定所述样本问题是否可回答;
S604:若所述样本问题可回答,则根据所述预测答案在所述新闻数据中的起止位置判断所述新闻数据与所述预设事件类型是否一致;
S605:若所述新闻数据与所述预设事件类型一致,则将所述新闻数据划分为预设事件类型;
S606:根据所述预设样本问题集合,重复上述步骤,直到将所述话题库中的新闻数据划分到对应的事件库中。
可以理解为,本说明书实施例中通过机器阅读理解问题的方式对话题库中的新闻数据进行分类,这样可以根据需要主动的确定不同的事件类型,从而在每个话题库中得到预设事件类型集合,进而对每个事件类型设定相应的预设样本问题,得到预设样本问题集合,然后将话题库中的每个新闻数据和预设样本问题集合中的每个预设样本问题输入到预设的问答模型中即可的所述新闻数据针对预设样本问题的预测答案,进而根据预测答案对其进行分类,本文能主动的对事件类型进行划分,可以实现个性化的对事件库进行划分,进而得到个性化的新闻专题。
其中,所述事件类型可以通过相应事件论元来表示,比如事件发生的时间、地点、人物等,然后将所述事件类型和论元类型进行整合得到不同的标签(label)形态,根据所述标签设计适用于该标签的问题,比如论元为:降息幅度1%,问题设计为:降息幅度是多少;比如论元为:朝阳区人民法院,问题设计为:开庭法院名称,这样就能根据每个事件类型都设计出相应的预设样本问题。
需要说明的是,针对一个事件类型,可以提取含有多个内容的论元,因此可以根据论元设计多个样本问题,这样可以在进行问答模型的分类时增加了输入数据量,相当于实现了数据增强,提高了分类的可靠性和准确性。
进一步说明的是,当两个事件类型包含相同内容的论元时,比如时间、地点等,可以通过论元组合的方式设计问题,这样可以确保针对不同的事件类型设计出不同的样本问题,提高了分类的准确性。
所述问答模型可以为现有的机器学习模型通过训练得到,作为可选地,可以选择预训练的BERT模型,在进行模型的微调(fine-tune),使用交叉熵损失函数进行模型训练,这样可以得到做问答任务的模型。
进一步实施例中,所述问答模型包括编码层、交互层、外部前置验证器、线性层、内部前置判别器和输出层;
所述编码层用于将输入的新闻数据和所述样本问题进行编码处理;
所述交互层用于根据编码后的数据构建文本和答案之间的向量空间关系,得到隐藏向量;
所述外部前置验证器用于根据所述隐藏向量对所述样本问题的可回答性进行初步预测,得到第一预测概率,并且当所述第一预测概率超过指定概率时,将所述隐藏向量输入所述线性层中;
所述线性层根据所述隐藏向量得到预测答案在所述新闻数据中的起止位置;
所述内部前置判别器用于根据所述隐藏向量判断所述样本问题的第二预测概率;
所述输出层用于根据所述第一预测概率和所述第二预测概率输出所述样本问题的可回答概率,以及输出所述预测答案在所述新闻数据中的起止位置。
可以理解为,本说明书实施例中提供的问答模型引用了核实(Verify)机制,来实现了对不可回答(unanswerable)问题的提前判断,所述外部前置验证器可以实现第一阶段的验证,作为可选地,所述外部前置验证器可以为预先训练的二分类模型,通过所述隐藏向量判断样本问题是否可回答,得到第一预测概率(),然后当所述第一预测概率不超过指定概率时,则提前结束,输出结果为问题不可回答;当所述第一预测概率超过指定概率时,则进入第二阶段验证,即通过所述内部前置判别器对该问题的不可回答进一步预测,得到第二预测概率(),作为可选地所述内部前置判别器可以为预先训练的二分类模型,同时由线性层并行进行预测答案,然后通过第二预测概率和第二预测概率的融合得到输出的可回答概率,本文通过对样本问题的二次验证可以提高问题回答的回答效果,同时还能提高对不可回答问题的处理效率,提高整个新闻数据的分类效率。
所述可回答概率可以通过如下公式(4)得到:
在本说明书实施例中,所述根据所述样本问题的可回答概率,确定所述样本问题是否可回答,包括:
判断所述可回答概率是否超过第二预设概率;
若超过,则确定所述样本问题可回答;
若不超过,则对所述新闻数据的事件类型进行人工分类。
其中,所述第二预设概率可以为所述样本问题是否可回答的门限值,当所述可回答概率超过所述第二预设概率,则表示所述问答模型的预测结果准确性较高,可以用做所述样本问题的最终结果;否则可以就要进行人工分类,通过第二预设概率的设定,可以提高新闻数据分类的准确性,进而提高了新闻专题制作的效率和可靠性,所述第二预设概率根据实际情况设置,在本说明书实施例中不做限定。
通过上述步骤可以得到每个话题库中不同的事件库,进一步的还可以通过TextRank算法确定每个事件库的标题,本说明书实施例中不做赘述。
在本说明书实施例中,所述根据所述事件库,制作生成相应的新闻专题,包括:
获取新闻专题模板;
根据所述新闻专题模板,确定不同新闻属性标识及其分布位置;
确定所述事件库中新闻数据的属性标识;
根据所述新闻数据的属性标识和所述新闻专题模板中不同新闻属性标识的分布位置,加载生成所述事件库的新闻专题。
所述新闻专题模板可以为所述专题展示时内容模块的分布样式,不同内容模块代表不同的属性标识,比如按照时间顺序进行设置,或按照事件之间的关联性进行设置,也可以根据需要自行设置,不做限定,所述分布位置可以为内容模块的区位和大小,比如比较重要的内容位置居中且尺寸较大,更易用户阅读。将制作得到的新闻专题可以通过专题展示平台进行展示,通过对新闻专题的制作可以提高对热点事件的处理效果,实现更精准的分发。
本说明书实施例提供的基于话题库和事件库的专题制作方法,能够自动挖掘热点事件;通过话题库与事件库相结合,从粗细两种粒度信息表征信息流特征,增加数据分类准确性,减少标注数据,降低人工成本,然后自动命名话题库和事件库,减少人工干预成本。
基于同一发明构思,本说明书实施例还提供一种基于话题库和事件库的专题制作装置,如图8所示,所述装置包括:
新闻数据获取模块100,用于获取指定时间段内的新闻数据;
热门词确定模块200,用于根据所述新闻数据,确定所述指定时间段内的新闻热门词;
特征向量生成模块300,用于根据所述热门词所在的新闻数据,通过预设向量生成模型,生成所述热门词所在的新闻数据的特征向量;
话题库生成模块400,用于根据所述特征向量,对所述热门词所在的新闻数据进行分类,得到多个话题库;
事件库生成模块500,用于依次对每个话题库进行事件提取,得到每个话题库中不同类型的事件库;
新闻专题制作模块600,用于根据所述事件库,制作生成相应的新闻专题。
通过上述装置所取得的有益效果和上述方法所取得有益效果一致,本说明书实施例中不做赘述。
如图9所示,为本文实施例提供的一种计算机设备,所述设备可以为上述提供的装置,执行上述所述的方法,所述计算机设备902可以包括一个或多个处理器904,诸如一个或多个中央处理单元(CPU),每个处理单元可以实现一个或多个硬件线程。计算机设备902还可以包括任何存储器906,其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的,比如,存储器906可以包括以下任一项或多种组合:任何类型的RAM,任何类型的ROM,闪存设备,硬盘,光盘等。更一般地,任何存储器都可以使用任何技术来存储信息。进一步地,任何存储器可以提供信息的易失性或非易失性保留。进一步地,任何存储器可以表示计算机设备902的固定或可移除部件。在一种情况下,当处理器904执行被存储在任何存储器或存储器的组合中的相关联的指令时,计算机设备902可以执行相关联指令的任一操作。计算机设备902还包括用于与任何存储器交互的一个或多个驱动机构908,诸如硬盘驱动机构、光盘驱动机构等。
计算机设备902还可以包括输入/输出模块910(I/O),其用于接收各种输入(经由输入设备912)和用于提供各种输出(经由输出设备914))。一个具体输出机构可以包括呈现设备916和相关联的图形用户接口(GUI)918。在其他实施例中,还可以不包括输入/输出模块910(I/O)、输入设备912以及输出设备914,仅作为网络中的一台计算机设备。计算机设备902还可以包括一个或多个网络接口920,其用于经由一个或多个通信链路922与其他设备交换数据。一个或多个通信总线924将上文所描述的部件耦合在一起。
通信链路922可以以任何方式实现,例如,通过局域网、广域网(例如,因特网)、点对点连接等、或其任何组合。通信链路922可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。
对应于图1-图2,以及图4-图7中的方法,本文实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法的步骤。
本文实施例还提供一种计算机可读指令,其中当处理器执行所述指令时,其中的程序使得处理器执行如图1-图2,以及图4-图7所示的方法。
应理解,在本文的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本文实施例的实施过程构成任何限定。
还应理解,在本文实施例中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本文的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本文所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本文实施例方案的目的。
另外,在本文各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本文的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本文各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本文中应用了具体实施例对本文的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本文的方法及其核心思想;同时,对于本领域的一般技术人员,依据本文的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本文的限制。
Claims (17)
1.一种基于话题库和事件库的专题制作方法,其特征在于,所述方法包括:
获取指定时间段内的新闻数据;
根据所述新闻数据,确定所述指定时间段内的新闻热门词;
根据所述热门词所在的新闻数据,通过预设向量生成模型,生成所述热门词所在的新闻数据的特征向量;
根据所述特征向量,对所述热门词所在的新闻数据进行分类,得到多个话题库;
依次对每个话题库进行事件提取,得到每个话题库中不同类型的事件库;
根据所述事件库,制作生成相应的新闻专题。
2.根据权利要求1所述的方法,其特征在于,所述根据所述新闻数据,确定所述指定时间段内的新闻热门词,包括:
根据所述新闻数据,计算获得所述指定时间段内新闻词的出现频率;
根据所述新闻词的出现频率,确定候选热门词;
根据所述候选热门词,生成每个候选热门词的时间频率序列;
根据所述时间频率序列和热门趋势模板,计算获得每个候选热门词和所述热门趋势模板之间的热门相似度;
将热门相似度超过热门词阈值的候选热门词确定为所述指定时间段内的新闻热门词。
3.根据权利要求2所述的方法,其特征在于,所述热门趋势模板包括词语的第一阶段趋势;
所述第一阶段趋势为所述词语在第一时间段的频率增长率为上升状态。
4.根据权利要求3所述的方法,其特征在于,所述热门趋势模板还包括词语的第二阶段趋势和第三阶段趋势;
所述第二阶段趋势为所述词语在第二时间段的频率增长率为平滑状态;
所述第三阶段趋势为所述词语在第三时间段的频率增长率为下降状态;
所述第二时间段、所述第一时间段和所述第三时间段为依次连续的时间段。
5.根据权利要求1所述的方法,其特征在于,所述根据所述热门词所在的新闻数据,通过预设向量生成模型,生成所述热门词所在的新闻数据的特征向量,包括:
根据所述热门词所在的新闻数据,通过预先训练完成的实体识别模型识别出所述新闻数据中的实体类型;
根据所述新闻数据以及所述新闻数据中的热门词和实体类型,通过预设向量生成模型,分别生成所述新闻数据的语义向量以及所述新闻数据中的热门词特征向量和实体特征向量;
将所述语义向量、所述热门词特征向量和所述实体特征向量进行拼接,形成所述新闻数据的特征向量。
6.根据权利要求5所述的方法,其特征在于,所述预设向量生成模型为BERT模型。
7.根据权利要求1所述的方法,其特征在于,所述根据所述特征向量,对所述热门词所在的新闻数据进行分类,得到多个话题库,包括:
根据所述特征向量,计算任意两个新闻数据之间的类间距离;
判断所述类间距离中的最小值是否超过预设距离;
若所述类间距离中的最小值不超过预设距离,则将所述类间距离的最小值对应的两个新闻数据进行合并,形成更新后的多个新闻数据类别;
根据所述更新后的新闻数据类别,重复上述步骤,直到计算得到的类间距离中的最小值不超过所述预设距离,则获得最后的新闻数据类型;
根据所述最后的新闻数据类别,确定多个话题库。
8.根据权利要求1所述的方法,其特征在于,所述根据所述特征向量,对所述热门词所在的新闻数据进行分类,得到多个话题库之后还包括:
针对每个话题库:
获取所述话题库中每个新闻数据的新闻标题;
将所述新闻标题进行拼接处理得到所述话题库的标题集合;
根据所述标题集合,通过TextRank算法计算获得每个新闻标题的评分值;
将所述评分值中最大值对应的新闻标题作为所述话题库的话题库标题。
9.根据权利要求1所述的方法,其特征在于,所述依次对每个话题库进行事件提取,得到每个话题库中不同类型的事件库,包括:
将所述话题库中的每个新闻数据依次输入到预先训练的概率模型中,得到每个所述新闻数据属于不同事件类型的概率分布,其中不同话题库对应不同预先训练的概率模型;
判断所述概率分布中最大概率是否超过第一预设概率;
若所述概率分布中最大概率超过所述第一预设概率,则将所述最大概率对应的事件类型确定为所述新闻数据的事件类型;
若所述概率分布中最大概率不超过所述第一预设概率,则对所述新闻数据的事件类型进行人工分类;
重复上述步骤,确定所述话题库中所有新闻类型的所属事件类型,形成不同类型的事件库。
10.根据权利要求1所述的方法,其特征在于,所述依次对每个话题库进行事件提取,得到每个话题库中不同类型的事件库,还包括:
确定预设样本问题集合,所述预设样本问题集合为根据预设事件类型集合设计的样本问题;
将所述话题库中的新闻数据和预设样本问题集合中的样本问题带入到问答模型中,获得输出结果,所述输出结果包括所述样本问题的可回答概率以及预测答案在所述新闻数据中的起始位置;
根据所述样本问题的可回答概率,确定所述样本问题是否可回答;
若所述样本问题可回答,则根据所述预测答案在所述新闻数据中的起止位置判断所述新闻数据与所述预设事件类型是否一致;
若所述新闻数据与所述预设事件类型一致,则将所述新闻数据划分为预设事件类型;
根据所述预设样本问题集合,重复上述步骤,直到将所述话题库中的新闻数据划分到对应的事件库中。
11.根据权利要求10所述的方法,其特征在于,所述问答模型包括编码层、交互层、外部前置验证器、线性层、内部前置判别器和输出层;
所述编码层用于将输入的新闻数据和所述样本问题进行编码处理;
所述交互层用于根据编码后的数据构建文本和答案之间的向量空间关系,得到隐藏向量;
所述外部前置验证器用于根据所述隐藏向量对所述样本问题的可回答性进行初步预测,得到第一预测概率,并且当所述第一预测概率超过指定概率时,将所述隐藏向量输入所述线性层中;
所述线性层根据所述隐藏向量得到预测答案在所述新闻数据中的起止位置;
所述内部前置判别器用于根据所述隐藏向量判断所述样本问题的第二预测概率;
所述输出层用于根据所述第一预测概率和所述第二预测概率输出所述样本问题的可回答概率,以及输出所述预测答案在所述新闻数据中的起止位置。
12.根据权利要求10所述的方法,其特征在于,所述根据所述样本问题的可回答概率,确定所述样本问题是否可回答,包括:
判断所述可回答概率是否超过第二预设概率;
若超过,则确定所述样本问题可回答;
若不超过,则对所述新闻数据的事件类型进行人工分类。
13.根据权利要求10所述的方法,其特征在于,所述根据所述预测答案在所述新闻数据中的起止位置判断所述新闻数据与所述预设事件类型是否一致,包括:
根据所述新闻数据中的起止位置,确定所述预测答案;
判断所述预测答案与所述样本问题对应的预设答案是否一致,所述预设答案是所述预设事件类型对所述样本问题的答案;
若所述预测答案与所述样本问题对应的预设答案一致,则所述新闻数据与所述预设事件类型一致;
若所述预测答案与所述样本问题对应的预设答案不一致,则对所述新闻数据的事件类型进行人工分类。
14.根据权利要求1所述的方法,其特征在于,所述根据所述事件库,制作生成相应的新闻专题,包括:
获取新闻专题模板;
根据所述新闻专题模板,确定不同新闻属性标识及其分布位置;
确定所述事件库中新闻数据的属性标识;
根据所述新闻数据的属性标识和所述新闻专题模板中不同新闻属性标识的分布位置,加载生成所述事件库的新闻专题。
15.一种基于话题库和事件库的专题制作装置,其特征在于,所述装置包括:
新闻数据获取模块,用于获取指定时间段内的新闻数据;
热门词确定模块,用于根据所述新闻数据,确定所述指定时间段内的新闻热门词;
特征向量生成模块,用于根据所述热门词所在的新闻数据,通过预设向量生成模型,生成所述热门词所在的新闻数据的特征向量;
话题库生成模块,用于根据所述特征向量,对所述热门词所在的新闻数据进行分类,得到多个话题库;
事件库生成模块,用于依次对每个话题库进行事件提取,得到每个话题库中不同类型的事件库;
新闻专题制作模块,用于根据所述事件库,制作生成相应的新闻专题。
16.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至14任一项所述的方法。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至14任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110965328.7A CN113420153B (zh) | 2021-08-23 | 2021-08-23 | 一种基于话题库和事件库的专题制作方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110965328.7A CN113420153B (zh) | 2021-08-23 | 2021-08-23 | 一种基于话题库和事件库的专题制作方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113420153A true CN113420153A (zh) | 2021-09-21 |
CN113420153B CN113420153B (zh) | 2021-12-21 |
Family
ID=77719739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110965328.7A Active CN113420153B (zh) | 2021-08-23 | 2021-08-23 | 一种基于话题库和事件库的专题制作方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113420153B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116361468A (zh) * | 2023-04-03 | 2023-06-30 | 北京中科闻歌科技股份有限公司 | 一种事件脉络生成方法、电子设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102937960A (zh) * | 2012-09-06 | 2013-02-20 | 北京邮电大学 | 突发事件热点话题的识别与评估装置和方法 |
US20140324966A1 (en) * | 2013-04-26 | 2014-10-30 | Microsoft Corporation | Obtaining hyperlocal content from social media |
CN105488196A (zh) * | 2015-12-07 | 2016-04-13 | 中国人民大学 | 一种基于互联语料的热门话题自动挖掘系统 |
WO2017101407A1 (zh) * | 2015-12-14 | 2017-06-22 | 乐视控股(北京)有限公司 | 视频推荐方法、系统及服务器 |
CN109947935A (zh) * | 2018-08-17 | 2019-06-28 | 麒麟合盛网络技术股份有限公司 | 新闻事件的生成方法及装置 |
-
2021
- 2021-08-23 CN CN202110965328.7A patent/CN113420153B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102937960A (zh) * | 2012-09-06 | 2013-02-20 | 北京邮电大学 | 突发事件热点话题的识别与评估装置和方法 |
US20140324966A1 (en) * | 2013-04-26 | 2014-10-30 | Microsoft Corporation | Obtaining hyperlocal content from social media |
CN105488196A (zh) * | 2015-12-07 | 2016-04-13 | 中国人民大学 | 一种基于互联语料的热门话题自动挖掘系统 |
WO2017101407A1 (zh) * | 2015-12-14 | 2017-06-22 | 乐视控股(北京)有限公司 | 视频推荐方法、系统及服务器 |
CN109947935A (zh) * | 2018-08-17 | 2019-06-28 | 麒麟合盛网络技术股份有限公司 | 新闻事件的生成方法及装置 |
Non-Patent Citations (1)
Title |
---|
刘泽等: "我国对医患沟通研究热点的共词聚类分析", 《中国卫生产业》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116361468A (zh) * | 2023-04-03 | 2023-06-30 | 北京中科闻歌科技股份有限公司 | 一种事件脉络生成方法、电子设备和存储介质 |
CN116361468B (zh) * | 2023-04-03 | 2024-05-03 | 北京中科闻歌科技股份有限公司 | 一种事件脉络生成方法、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113420153B (zh) | 2021-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sadiq et al. | Discrepancy detection between actual user reviews and numeric ratings of Google App store using deep learning | |
Kühl et al. | Supporting customer-oriented marketing with artificial intelligence: automatically quantifying customer needs from social media | |
Qian et al. | Multi-modal event topic model for social event analysis | |
Hofmann et al. | Text mining and visualization: Case studies using open-source tools | |
Stein et al. | Intrinsic plagiarism analysis | |
Gomes et al. | Bug report severity level prediction in open source software: A survey and research opportunities | |
US11003638B2 (en) | System and method for building an evolving ontology from user-generated content | |
CN110069709B (zh) | 意图识别方法、装置、计算机可读介质及电子设备 | |
CN111738004A (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN112347778A (zh) | 关键词抽取方法、装置、终端设备及存储介质 | |
CN110807086A (zh) | 文本数据标注方法及装置、存储介质、电子设备 | |
CN112188312A (zh) | 用于确定新闻的视频素材的方法和装置 | |
Barua et al. | Multi-class sports news categorization using machine learning techniques: resource creation and evaluation | |
CN114661872A (zh) | 一种面向初学者的api自适应推荐方法与系统 | |
CN114676346A (zh) | 新闻事件处理方法、装置、计算机设备和存储介质 | |
CN113420153B (zh) | 一种基于话题库和事件库的专题制作方法、装置及设备 | |
CN116610592B (zh) | 基于自然语言处理技术的可定制软件测试评价方法及系统 | |
CN115098619A (zh) | 资讯去重方法、装置、电子设备及计算机可读取存储介质 | |
US20220138584A1 (en) | Artificial content identification using subset scanning over generative model activations | |
Danyal et al. | Sentiment Analysis Based on Performance of Linear Support Vector Machine and Multinomial Naïve Bayes Using Movie Reviews with Baseline Techniques. | |
Elagamy et al. | Text mining approach to analyse stock market movement | |
AlSulaim et al. | Prediction of Anime Series' Success using Sentiment Analysis and Deep Learning | |
Duong et al. | Benchmarks for unsupervised discourse change detection | |
Xu et al. | Preferred answer selection in stack overflow: Better text representations... and metadata, metadata, metadata | |
Das et al. | Incorporating domain knowledge to improve topic segmentation of long MOOC lecture videos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |