CN106257449A - 一种信息确定方法和装置 - Google Patents

一种信息确定方法和装置 Download PDF

Info

Publication number
CN106257449A
CN106257449A CN201510346751.3A CN201510346751A CN106257449A CN 106257449 A CN106257449 A CN 106257449A CN 201510346751 A CN201510346751 A CN 201510346751A CN 106257449 A CN106257449 A CN 106257449A
Authority
CN
China
Prior art keywords
information
news
theme
described information
semantic feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510346751.3A
Other languages
English (en)
Other versions
CN106257449B (zh
Inventor
叶舟
汤开智
王瑜
徐季秋
付志嵩
闵万里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Tmall Technology Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510346751.3A priority Critical patent/CN106257449B/zh
Publication of CN106257449A publication Critical patent/CN106257449A/zh
Priority to HK17104942.2A priority patent/HK1231583A1/zh
Application granted granted Critical
Publication of CN106257449B publication Critical patent/CN106257449B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Abstract

本发明实施例公开了一种信息确定方法和装置,对历史新闻的内容进行数据结构化,确定出所述历史新闻的热度值相关的语义特征集合以及语义特征相对于所述热度值所占的权重并保存在回归模型中;包括:获取网络中发布的信息,对所述信息进行所述数据结构化,获取所述信息的至少一个语义特征;将所述信息的至少一个语义特征输入到所述回归模型中,利用确定出的与所述信息的至少一个语义特征对应的权重,计算得到所述信息的热度值;若所述信息的热度值大于预设热度值,确定所述信息为用于形成新闻素材的信息。由此可以通过数据结构化和回归模型对网络上的信息的识别自动得出信息的热度值,由此确定信息是否具有作为新闻素材的条件,大大提高了确定效率。

Description

一种信息确定方法和装置
技术领域
本发明涉及数据处理领域,特别是涉及一种信息确定方法和装置。
背景技术
信息可以随着网络快速传播,其中有些信息是可以用于形成新闻的素材。新闻提供商可以以这些作为新闻素材的信息为基础,通过加工形成新闻。
如何从网上传播的海量信息中挑选出具有作为新闻素材条件的信息是一难点。目前主要通过人工的方式,通过对用户在网上最新发布的内容的大量浏览以及个人经验,从浏览的内容中找出可能具有作为新闻素材条件或者说具有新闻价值的信息。这种查找方式消耗大量人力,成本高。且面对网络上每时每刻出现的海量信息以及新闻所需的时效性,使用人工查找的效率太低。可见目前通过人工查找的方式无法有效的在网上发布的海量信息中确定出具有作为新闻素材条件的信息。
发明内容
为了解决上述技术问题,本发明提供了一种信息确定方法和装置,以使得可以自动计算信息的热度值,以热度值衡量信息是否为用于形成新闻素材的信息,提高了效率。
本发明实施例公开了如下技术方案:
一种信息确定方法,对历史新闻的内容进行数据结构化,获得所述历史新闻的至少一个语义特征;从所述历史新闻的至少一个语义特征中确定出所述历史新闻的热度值相关的语义特征集合;确定所述语义特征集合中的语义特征相对于所述热度值所占的权重并保存在回归模型中;所述方法包括:
获取网络中发布的信息,所述信息的发布时间具有新闻时效性;
对所述信息进行所述数据结构化,获取所述信息的至少一个语义特征;
将所述信息的至少一个语义特征输入到所述回归模型中,利用确定出的与所述信息的至少一个语义特征对应的权重,计算得到所述信息的热度值;
若所述信息的热度值大于预设热度值,确定所述信息为用于形成新闻素材的信息。
可选的,若所述信息的热度值大于预设热度,还包括:
确定出所述信息的主题,并保存所述信息、所述信息的主题和所述信息的热度值三者之间的第一对应关系。
可选的,还包括:
根据所述历史新闻确定出所述历史新闻的主题和对应所述历史新闻的主题的至少一个新闻模板的第二对应关系。
可选的,在所述确定所述信息为用于形成新闻素材的信息后,还包括:
根据所述第一对应关系得到所述信息的主题;
确定出与所述信息的主题相同的所述历史新闻的主题;
通过与所述信息的主题相同的所述历史新闻的主题,根据所述第二对应关系选择相应的新闻模板;
使用所述相应的新闻模板将所述信息的内容生成新闻素材。
可选的,若所述相应的新闻模板中包括待确认统计数据时,还包括:
根据所述信息和所述相应的新闻模板中的关键字在预先建立的包含关键字、数据集合和计算算法的映射关系的映射表中进行检索,通过对应的数据集合和计算算法计算得到所述待确认统计数据;
使用所述相应的新闻模板将所述信息的内容和计算得到所述待确认统计数据生成新闻素材。
一种信息确定装置,包括:
回归模型建立单元,用于对历史新闻的内容进行数据结构化,获得所述历史新闻的至少一个语义特征;从所述历史新闻的至少一个语义特征中确定出所述历史新闻的热度值相关的语义特征集合;确定所述语义特征集合中的语义特征相对于所述热度值所占的权重并保存在回归模型中;
获取单元,用于获取网络中发布的信息,所述信息的发布时间具有新闻时效性;
结构化单元,用于对所述信息进行所述数据结构化,获取所述信息的至少一个语义特征;
计算单元,用于将所述信息的至少一个语义特征输入到所述回归模型中,利用确定出的与所述信息的至少一个语义特征对应的权重,计算得到所述信息的热度值;
第一确定单元,用于若所述信息的热度值大于预设热度值,确定所述信息为用于形成新闻素材的信息。
可选的,还包括:
第二确定单元,用于若所述信息的热度值大于预设热度,确定出所述信息的主题,并保存所述信息、所述信息的主题和所述信息的热度值三者之间的第一对应关系。
可选的,还包括:
第三确定单元,用于根据所述历史新闻确定出所述历史新闻的主题和对应所述历史新闻的主题的至少一个新闻模板的第二对应关系。
可选的,还包括:
查询单元,用于在触发所述第一确定单元后,根据所述第一对应关系得到所述信息的主题;
比对单元,用于确定出与所述信息的主题相同的所述历史新闻的主题;
选择单元,用于通过与所述信息的主题相同的所述历史新闻的主题,根据所述第二对应关系选择相应的新闻模板;
生成单元,用于使用所述相应的新闻模板将所述信息的内容生成新闻素材。
可选的,还包括:
检索单元,用于若所述选择单元选择的所述相应的新闻模板中包括待确认统计数据时,根据所述信息和所述相应的新闻模板中的关键字在预先建立的包含关键字、数据集合和计算算法的映射关系的映射表中进行检索,通过对应的数据集合和计算算法计算得到所述待确认统计数据;
所述生成单元还用于使用所述相应的新闻模板将所述信息的内容和计算得到所述待确认统计数据生成新闻素材。
由上述技术方案可以看出,根据对历史新闻的数据结构化得到至少一个语义特征,根据历史新闻已知的热度值,计算出与热度值相关的语义特征相对于所述热度值所占的权重并保存在回归模型中,当获取网络中发布的具有新闻时效性的信息时,可以通过数据结构化,将得到的所述信息的至少一个语义特征输入到所述回归模型中,利用与所述信息的至少一个语义特征对应的权重计算出所述信息的热度值,若所述信息的热度值能够大于预设热度值,则将所述信息确定为用于形成新闻素材的信息。由此可以通过数据结构化和回归模型对网络上的信息的识别自动得出信息的热度值,由此确定信息是否具有作为新闻素材的条件,大大提高了确定效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种信息确定方法的方法流程图;
图2为本发明实施例提供的一种建立回归模型方法的方法流程图;
图3为本发明实施例提供的一种生成新闻素材方法的方法流程图;
图4为本发明实施例提供的一种统计数据确认方法的方法流程图;
图5为本发明实施例提供的一种信息确定装置的装置结构图;
图6为本发明实施例提供的一种信息确定装置的装置结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
网络中传播的有些信息是可以用于形成新闻的素材。新闻提供商可以以这些作为新闻素材的信息为基础,通过加工形成新闻。以此提高新闻产出速度和产出数量。目前主要通过人工的方式,通过对用户在网上最新发布的内容的大量浏览以及个人经验,从浏览的内容中找出可能具有作为新闻素材条件或者说具有新闻价值的信息。这种查找方式消耗大量人力,成本高。且面对网络上每时每刻出现的海量信息以及新闻所需的时效性,使用人工查找的效率太低。可见目前通过人工查找的方式无法有效的在网上发布的海量信息中确定出具有作为新闻素材条件的信息。
为此,本发明实施例提供了一种信息确定方法和装置,根据对历史新闻的数据结构化得到至少一个语义特征,根据历史新闻已知的热度值,计算出与热度值相关的语义特征相对于所述热度值所占的权重并保存在回归模型中,当获取网络中发布的具有新闻时效性的信息时,可以通过数据结构化,将得到的所述信息的至少一个语义特征输入到所述回归模型中,利用与所述信息的至少一个语义特征对应的权重计算出所述信息的热度值,若所述信息的热度值能够大于预设热度值,则将所述信息确定为用于形成新闻素材的信息。由此可以通过数据结构化和回归模型对网络上的信息的识别自动得出信息的热度值,由此确定信息是否具有作为新闻素材的条件,大大提高了确定效率。
需要注意的是,在确定出信息后,虽然是可以用于形成新闻素材,但是这些信息基本上都不具有新闻的表达形式,无法简单的通过编辑形成新闻,需要通过人工进一步加工才能形成新闻素材。然而若通过人工,以可以作为新闻素材的信息为基础撰写出一篇新闻,需要一定的时间,效率不高,有些情况下难以满足信息时代快速的新闻更新速度。目前有不少与新闻数据挖掘相关的方案,但主要还是应用于已完成的新闻。在一篇已完成新闻的基础上,通过自然语言处理方法对该新闻的文本进行降维,从而得到用于描述该新闻内容的更精练的语言。这类方案实际上并不是形成新闻,而更像是对现有新闻的一种总结和归纳。可见,现有技术中只能通过人工的方式以信息为基础形成新闻,暂时没有一种有效的方式,可以以用于形成新闻素材的信息为基础自动形成新闻,以满足快速的新闻更新速度。
本发明实施例中,利用历史新闻生成新闻模板,并根据文档主题生成模型生成所述历史新闻的主题,由此建立所述历史新闻的主题和新闻模板之间的第二对应关系。当所述信息的热度值确定大于预设热度值时,也通过文档主题生成模型得到所述信息的主题,选择与所述信息的主题相同的所述历史新闻的主题所对应的新闻模板,使用所述相应的新闻模板将所述信息的内容生成新闻素材,由此达到了依据历史新闻的模板自动将所述信息生成为新闻素材的效果,免除了人工方式生成新闻模板所消耗的时间,提高了将所述信息生成为新闻素材的效率,有效满足了快速的新闻更新速度。
在使用所述信息通过新闻模板生成新闻素材的过程中,若新闻模板中包括待确认统计数据,可以根据所述信息和所述相应的新闻模板中的关键字在预先建立的包含关键字、数据集合和计算算法的映射关系的映射表中进行检索,通过对应的数据集合和计算算法计算得到所述待确认统计数据。通过预先建立的映射表,可以不需要手动调取数据计算,进一步提高了将信息的内容生成新闻素材的效率。
实施例一
图1为本发明实施例提供的一种信息确定方法的方法流程图,所述方法包括:
在说明如何从网络中的信息中确定出具有作为新闻素材条件的信息之前,先通过图2对如何建立用于确认信息的回归模型进行详细描述。
图2为本发明实施例提供的一种建立回归模型方法的方法流程图,所述方法包括:
S201:对历史新闻的内容进行数据结构化,获得所述历史新闻的至少一个语义特征。
举例说明,所述历史新闻可以理解为在网络中历年发表的新闻稿。所述数据结构化可以理解为通过信息提取技术,从所述历史新闻中的文本内容中提取出其中的语义特征或者语要素。语义特征可以是动态的,例如可以为“内容是否新奇”、“主题是否热门”和“内容是否合适”,可以通过0标识为否,通过1标识为是。
S202:从所述历史新闻的至少一个语义特征中确定出所述历史新闻的热度值相关的语义特征集合。
举例说明,S202相当于将S201中得出的所述历史新闻的至少一个语义特征与所述历史新闻的热度值进行关联的操作,从所述历史新闻的至少一个语义特征中确定出与所述热度值相关的语义特征。所述历史新闻的热度值可以理解为用于标识所述历史新闻的一种传播程度或者影响范围,可以使用所述历史新闻的直观参数,例如阅读次数、转发次数等或更为精细的特征。本发明不限定所述热度值的具体表现形式。
S203:确定所述语义特征集合中的语义特征相对于所述热度值所占的权重并保存在回归模型中。
举例说明,由于所述历史新闻的热度值是已知的,与所述热度值相关的语义特征集合也由S202所确认,故通过训练以及采集一定量的历史新闻,可以得到所述语义特征集合中各个语义特征相对于所述热度值所占的权重。
通过历史新闻建立的回归模型,可以当输入语义特征时,通过已经算出的该语义特征的权重,计算输入的该语义特征所能产生的热度值,或者说对热度值所带来的影响。
S101:获取网络中发布的信息,所述信息的发布时间具有新闻时效性。
举例说明,所述信息可以理解为用户在网络上实时发布的,所述信息的形式可以为目前常见的微博、朋友圈、博客等等,本发明对信息的形式不限定。
所述信息的发布时间具有新闻时效性可以理解为所述信息为近期发布的。例如一周或更短时间之内发布的,若发布时间过长例如一个信息为一个月前发布的,那么该信息被关注的程度将非常有限,不值得消耗系统资源对该信息进行处理。
S102:对所述信息进行所述数据结构化,获取所述信息的至少一个语义特征。
S103:将所述信息的至少一个语义特征输入到所述回归模型中,利用确定出的与所述信息的至少一个语义特征对应的权重,计算得到所述信息的热度值。
举例说明,根据图2所对应实施例的描述,所述回归模型中具有不同语义特征以及语义特征所对应的权重,通过不断练习,所述回归模型中的参数将越来越准确,越来越全面。当将所述信息的至少一个语义特征输入到所述回归模型中,可以调用已知的权重,计算出所述信息的热度值。所述信息的热度值可以理解为通过所述回归模型预估出的通过所述信息得到的新闻可能达到的或潜在的热度值。
S104:若所述信息的热度值大于预设热度值,确定所述信息为用于形成新闻素材的信息。
举例说明,所述预设热度值可以根据不同场景对热度值的需求,设置为不同的大小。可以通过统计历史新闻的热度值,将统计结果作为设置的依据。使用所述预设热度值作为衡量信息是否可以用于形成新闻素材的条件,若信息的热度值大于所述预设热度值,该信息可以用于形成新闻素材,若信息的热度值小于所述预设热度值,该信息不可以用于形成新闻素材。
可见,根据对历史新闻的数据结构化得到至少一个语义特征,根据历史新闻已知的热度值,计算出与热度值相关的语义特征相对于所述热度值所占的权重并保存在回归模型中,当获取网络中发布的具有新闻时效性的信息时,可以通过数据结构化,将得到的所述信息的至少一个语义特征输入到所述回归模型中,利用与所述信息的至少一个语义特征对应的权重计算出所述信息的热度值,若所述信息的热度值能够大于预设热度值,则将所述信息确定为用于形成新闻素材的信息。由此可以通过数据结构化和回归模型对网络上的信息的识别自动得出信息的热度值,由此确定信息是否具有作为新闻素材的条件,大大提高了确定效率。
实施例二
需要注意的是,在确定出信息后,虽然是可以用于形成新闻素材,但是这些信息基本上都不具有新闻的表达形式,无法简单的通过编辑形成新闻,需要通过人工进一步加工才能形成新闻素材。然而若通过人工,以可以作为新闻素材的信息为基础撰写出一篇新闻,需要一定的时间,效率不高,有些情况下难以满足信息时代快速的新闻更新速度。目前有不少与新闻数据挖掘相关的方案,但主要还是应用于已完成的新闻。在一篇已完成新闻的基础上,通过自然语言处理方法对该新闻的文本进行降维,从而得到用于描述该新闻内容的更精练的语言。这类方案实际上并不是形成新闻,而更像是对现有新闻的一种总结和归纳。可见,现有技术中只能通过人工的方式以信息为基础形成新闻,暂时没有一种有效的方式,可以以用于形成新闻素材的信息为基础自动形成新闻,以满足快速的新闻更新速度。
为此,本发明实施例提供了一种用于自动生成新闻素材的方法,接下来分步骤进行说明。
为了能够自动根据信息生成新闻素材,需要形成新闻模板。本发明实施例中,提供了通过历史新闻获得新闻模板的方式。
也就是说,根据所述历史新闻确定出所述历史新闻的主题和对应所述历史新闻的主题的至少一个新闻模板的第二对应关系。
举例说明,所述历史新闻的主题可以通过文档主题生成模型得到,例如较为成熟的三层贝叶斯概率模型(Latent Dirichlet Allocation,LDA)。例如历史新闻的内容为:“2014年夏天,数据分析师在对阿里巴巴内衣销售数据分析后发现,购买大号内衣的女性往往更败家”,通过文档主题生成模型得到的主题可以为“女人”。
新闻模板可以通过统计学技术从所述历史新闻中归纳出。不同的主题可以归纳出不同的新闻模板,例如“热卖”主题经常会出现“某某商品最近突然大卖,近一周平均销量为多少,较去年同期上涨多少”这种句式,我们可以利用信息提取技术和语料库将这种句式提取出来。常见的第二对应关系可以为:
所述历史新闻的主题为:热卖
对应所述历史新闻的主题的新闻模板为:商品最近突然大卖,近一周平均销量为XXX,较去年同期销量上涨YYY。
其中的XXX和YYY部分待确定统计数据。
对应所述历史新闻的主题的所述新闻模板可以不止一个,一般为了语言更加丰富,对于一个历史新闻的主题,会有多个对应的新闻模板以供选择。
对于热度值大于预设热度的所述信息,为了能够快速的找到可以匹配的新闻模板,也需要通过文档主题生成模型得到所述信息的主题,并建立所述信息、所述信息的主题和所述信息的热度值三者之间的第一对应关系,其中所述信息的热度值由S103获得。
在通过所述信息得到新闻素材的过程中,可以通过所述第一对应关系中所述信息的主题和所述第二对应关系中所述历史新闻的主题作为匹配要素,匹配出适合所述信息的新闻模板。
可选的,在图1所对应实施例的基础上,在所述确定所述信息为用于形成新闻素材的信息后,图3为本发明实施例提供的一种生成新闻素材方法的方法流程图,包括:
S301:根据所述第一对应关系得到所述信息的主题。
S302:确定出与所述信息的主题相同的所述历史新闻的主题。
S303:通过与所述信息的主题相同的所述历史新闻的主题,根据所述第二对应关系选择相应的新闻模板。
举例说明,根据S301中得到的所述信息的主题,在S302和S303中通过所述第二对应关系进行查找,以查找到与所述信息的主题相同的所述历史新闻的主题,以及该历史新闻的主题所对应的新闻模板。当对应的新闻模板为多个时,可以从中选择一个。
S304:使用所述相应的新闻模板将所述信息的内容生成新闻素材。
举例说明,在选择出相应的新闻模板后,可以将所述信息中的内容相应的填写到所述新闻模板中,例如已经通过历史新闻得到了所述回归模型,获取网络中发布的一条微博,其发布时间是符合新闻时效性的。微博内容是:“刺绣露背连衣裙,雪纺料,轻薄又淑女,很适合现在的天气哦”。通过数据结构化,并将得到的语义特征输入所述回归模型后,得到该条微博的预估热度值为90。假设预设热度值为60,那么可以确定该条微博为用于形成新闻素材的微博。可以通过文档主题生成模型生成该条微博的主题,得到主题“热卖”。以此建立了该条微博、该条微博的热度值和该条微博的主题之间的第一对应关系。通过查找,得到主题也为“热卖”的历史新闻主题,并根据第二对应关系得到对应的新闻模板:“商品最近突然大卖,近一周平均销量为XXX,较去年同期销量上涨YYY”,其中XXX和YYY为待确认统计数据。根据关键字例如“连衣裙”、“一周平均销量”(均值)、“较去年同期销量”(同比)等查找映射表,得到XXX为1亿件,YYY为40%。根据确定的新闻模板、该条微博的内容以及得到的待确定统计数据生成新闻素材,所述新闻素材具体为:“连衣裙最近突然大卖,近一周平均销量为1亿件,较去年同期销量上涨40%。”
需要注意的是,S304所选择的新闻模板中可能具有待确定统计数据,例如一些同比数值、均值等,如果手动调取数据计算的话,效率低,耗时长。为此在本发明实施例中,在使用所述信息通过新闻模板生成新闻素材的过程中,若新闻模板中包括待确认统计数据,可以根据所述信息和所述相应的新闻模板中的关键字在预先建立的包含关键字、数据集合和计算算法的映射关系的映射表中进行检索,通过对应的数据集合和计算算法计算得到所述待确认统计数据。在图3所对应实施例的基础上,图4为本发明实施例提供的一种统计数据确认方法的方法流程图。若所述相应的新闻模板中包括待确认统计数据时,所述方法包括:
S401:根据所述信息和所述相应的新闻模板中的关键字在预先建立的包含关键字、数据集合和计算算法的映射关系的映射表中进行检索,通过对应的数据集合和计算算法计算得到所述待确认统计数据。
举例说明,所述映射表中的计算算法和数据集合可以理解为提数逻辑,所述关键字不仅可以包括所述信息和/或新闻模板内容中的关键字,还可以包括所述信息和/或新闻模板的主题。所述提数逻辑可以为结构化查询语言(Structured Query Language,SQL)或者应用程序编程接口(ApplicationProgramming Interface,API)的形式。所调用数据集合可以是电商提供的电商数据。
S402:使用所述相应的新闻模板将所述信息的内容和计算得到所述待确认统计数据生成新闻素材。
可见,通过预先建立的映射表,不需要手动调取数据计算,可以自动算出所述待确认统计数据,进一步提高了将信息的内容生成新闻素材的效率。
由上述实施例可以看出,利用历史新闻生成新闻模板,并根据文档主题生成模型生成所述历史新闻的主题,由此建立所述历史新闻的主题和新闻模板之间的第二对应关系。当所述信息的热度值确定大于预设热度值时,也通过文档主题生成模型得到所述信息的主题,选择与所述信息的主题相同的所述历史新闻的主题所对应的新闻模板,使用所述相应的新闻模板将所述信息的内容生成新闻素材,由此达到了依据历史新闻的模板自动将所述信息生成为新闻素材的效果,免除了人工方式生成新闻模板所消耗的时间,提高了将所述信息生成为新闻素材的效率,有效满足了快速的新闻更新速度。
实施例三
图5为本发明实施例提供的一种信息确定装置的装置结构图,包括:
回归模型建立单元500,用于对历史新闻的内容进行数据结构化,获得所述历史新闻的至少一个语义特征;从所述历史新闻的至少一个语义特征中确定出所述历史新闻的热度值相关的语义特征集合;确定所述语义特征集合中的语义特征相对于所述热度值所占的权重并保存在回归模型中。
举例说明,所述历史新闻可以理解为在网络中历年发表的新闻稿。所述数据结构化可以理解为通过信息提取技术,从所述历史新闻中的文本内容中提取出其中的语义特征或者语要素。语义特征可以是动态的,例如可以为“内容是否新奇”、“主题是否热门”和“内容是否合适”,可以通过0标识为否,通过1标识为是。
得出的所述历史新闻的至少一个语义特征与所述历史新闻的热度值进行关联的操作,从所述历史新闻的至少一个语义特征中确定出与所述热度值相关的语义特征。所述历史新闻的热度值可以理解为用于标识所述历史新闻的一种传播程度或者影响范围,可以使用所述历史新闻的直观参数,例如阅读次数、转发次数等或更为精细的特征。本发明不限定所述热度值的具体表现形式。
由于所述历史新闻的热度值是已知的,与所述热度值相关的语义特征集合也已确认,故通过训练以及采集一定量的历史新闻,可以得到所述语义特征集合中各个语义特征相对于所述热度值所占的权重。
通过历史新闻建立的回归模型,可以当输入语义特征时,通过已经算出的该语义特征的权重,计算输入的该语义特征所能产生的热度值,或者说对热度值所带来的影响。
还需要注意的是,所述回归模型建立单元500并不是每次进行信息确定时都需要被触发。
获取单元501,用于获取网络中发布的信息,所述信息的发布时间具有新闻时效性。
举例说明,所述信息可以理解为用户在网络上实时发布的,所述信息的形式可以为目前常见的微博、朋友圈、博客等等,本发明对信息的形式不限定。
所述信息的发布时间具有新闻时效性可以理解为所述信息为近期发布的。例如一周或更短时间之内发布的,若发布时间过长例如一个信息为一个月前发布的,那么该信息被关注的程度将非常有限,不值得消耗系统资源对该信息进行处理。
结构化单元502,用于对所述信息进行所述数据结构化,获取所述信息的至少一个语义特征。
计算单元503,用于将所述信息的至少一个语义特征输入到所述回归模型中,利用确定出的与所述信息的至少一个语义特征对应的权重,计算得到所述信息的热度值。
举例说明,根据对所述回归模型建立单元500的描述,所述回归模型中具有不同语义特征以及语义特征所对应的权重,通过不断练习,所述回归模型中的参数将越来越准确,越来越全面。当将所述信息的至少一个语义特征输入到所述回归模型中,可以调用已知的权重,计算出所述信息的热度值。所述信息的热度值可以理解为通过所述回归模型预估出的通过所述信息得到的新闻可能达到的或潜在的热度值。
第一确定单元504,用于若所述信息的热度值大于预设热度值,确定所述信息为用于形成新闻素材的信息。
举例说明,所述预设热度值可以根据不同场景对热度值的需求,设置为不同的大小。可以通过统计历史新闻的热度值,将统计结果作为设置的依据。使用所述预设热度值作为衡量信息是否可以用于形成新闻素材的条件,若信息的热度值大于所述预设热度值,该信息可以用于形成新闻素材,若信息的热度值小于所述预设热度值,该信息不可以用于形成新闻素材。
可见,根据对历史新闻的数据结构化得到至少一个语义特征,根据历史新闻已知的热度值,计算出与热度值相关的语义特征相对于所述热度值所占的权重并保存在回归模型中,当获取网络中发布的具有新闻时效性的信息时,可以通过数据结构化,将得到的所述信息的至少一个语义特征输入到所述回归模型中,利用与所述信息的至少一个语义特征对应的权重计算出所述信息的热度值,若所述信息的热度值能够大于预设热度值,则将所述信息确定为用于形成新闻素材的信息。由此可以通过数据结构化和回归模型对网络上的信息的识别自动得出信息的热度值,由此确定信息是否具有作为新闻素材的条件,大大提高了确定效率。
实施例四
图6为本发明实施例提供的一种信息确定装置的装置结构图,还包括:
第三确定单元602,用于根据所述历史新闻确定出所述历史新闻的主题和对应所述历史新闻的主题的至少一个新闻模板的第二对应关系。
举例说明,所述历史新闻的主题可以通过文档主题生成模型得到,例如较为成熟的LDA。例如历史新闻的内容为:“2014年夏天,数据分析师在对阿里巴巴内衣销售数据分析后发现,购买大号内衣的女性往往更败家”,通过文档主题生成模型得到的主题可以为“女人”。
新闻模板可以通过统计学技术从所述历史新闻中归纳出。不同的主题可以归纳出不同的新闻模板,例如“热卖”主题经常会出现“某某商品最近突然大卖,近一周平均销量为多少,较去年同期上涨多少”这种句式,我们可以利用信息提取技术和语料库将这种句式提取出来。常见的第二对应关系可以为:
所述历史新闻的主题为:热卖
对应所述历史新闻的主题的新闻模板为:商品最近突然大卖,近一周平均销量为XXX,较去年同期销量上涨YYY。
其中的XXX和YYY部分待确定统计数据。
对应所述历史新闻的主题的所述新闻模板可以不止一个,一般为了语言更加丰富,对于一个历史新闻的主题,会有多个对应的新闻模板以供选择。
第二确定单元601,用于若所述信息的热度值大于预设热度,确定出所述信息的主题,并保存所述信息、所述信息的主题和所述信息的热度值三者之间的第一对应关系。
在通过所述信息得到新闻素材的过程中,可以通过所述第一对应关系中所述信息的主题和所述第二对应关系中所述历史新闻的主题作为匹配要素,匹配出适合所述信息的新闻模板。
查询单元603,用于在触发所述第一确定单元504后,根据所述第一对应关系得到所述信息的主题。
比对单元604,用于确定出与所述信息的主题相同的所述历史新闻的主题。
选择单元605,用于通过与所述信息的主题相同的所述历史新闻的主题,根据所述第二对应关系选择相应的新闻模板。
举例说明,根据所述第二确定单元601得到的所述信息的主题,通过所述第二对应关系进行查找,以查找到与所述信息的主题相同的所述历史新闻的主题,以及该历史新闻的主题所对应的新闻模板。当对应的新闻模板为多个时,可以从中选择一个。
生成单元606,用于使用所述相应的新闻模板将所述信息的内容生成新闻素材。
举例说明,在选择出相应的新闻模板后,可以将所述信息中的内容相应的填写到所述新闻模板中,例如已经通过历史新闻得到了所述回归模型,获取网络中发布的一条微博,其发布时间是符合新闻时效性的。微博内容是:“刺绣露背连衣裙,雪纺料,轻薄又淑女,很适合现在的天气哦”。通过数据结构化,并将得到的语义特征输入所述回归模型后,得到该条微博的预估热度值为90。假设预设热度值为60,那么可以确定该条微博为用于形成新闻素材的微博。可以通过文档主题生成模型生成该条微博的主题,得到主题“热卖”。以此建立了该条微博、该条微博的热度值和该条微博的主题之间的第一对应关系。通过查找,得到主题也为“热卖”的历史新闻主题,并根据第二对应关系得到对应的新闻模板:“商品最近突然大卖,近一周平均销量为XXX,较去年同期销量上涨YYY”,其中XXX和YYY为待确认统计数据。根据关键字例如“连衣裙”、“一周平均销量”(均值)、“较去年同期销量”(同比)等查找映射表,得到XXX为1亿件,YYY为40%。根据确定的新闻模板、该条微博的内容以及得到的待确定统计数据生成新闻素材,所述新闻素材具体为:“连衣裙最近突然大卖,近一周平均销量为1亿件,较去年同期销量上涨40%。”
检索单元607,用于若所述选择单元605选择的所述相应的新闻模板中包括待确认统计数据时,根据所述信息和所述相应的新闻模板中的关键字在预先建立的包含关键字、数据集合和计算算法的映射关系的映射表中进行检索,通过对应的数据集合和计算算法计算得到所述待确认统计数据。
举例说明,所述映射表中的计算算法和数据集合可以理解为提数逻辑,所述关键字不仅可以包括所述信息和/或新闻模板内容中的关键字,还可以包括所述信息和/或新闻模板的主题。所述提数逻辑可以为SQL或者API的形式。所调用数据集合可以是电商提供的电商数据。
所述生成单元606还用于使用所述相应的新闻模板将所述信息的内容和计算得到所述待确认统计数据生成新闻素材。
可见,通过预先建立的映射表,不需要手动调取数据计算,可以自动算出所述待确认统计数据,进一步提高了将信息的内容生成新闻素材的效率。
由上述实施例可以看出,利用历史新闻生成新闻模板,并根据文档主题生成模型生成所述历史新闻的主题,由此建立所述历史新闻的主题和新闻模板之间的第二对应关系。当所述信息的热度值确定大于预设热度值时,也通过文档主题生成模型得到所述信息的主题,选择与所述信息的主题相同的所述历史新闻的主题所对应的新闻模板,使用所述相应的新闻模板将所述信息的内容生成新闻素材,由此达到了依据历史新闻的模板自动将所述信息生成为新闻素材的效果,免除了人工方式生成新闻模板所消耗的时间,提高了将所述信息生成为新闻素材的效率,有效满足了快速的新闻更新速度。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备)执行本发明各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本发明的优选实施方式,并非用于限定本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种信息确定方法,其特征在于,对历史新闻的内容进行数据结构化,获得所述历史新闻的至少一个语义特征;从所述历史新闻的至少一个语义特征中确定出所述历史新闻的热度值相关的语义特征集合;确定所述语义特征集合中的语义特征相对于所述热度值所占的权重并保存在回归模型中;所述方法包括:
获取网络中发布的信息,所述信息的发布时间具有新闻时效性;
对所述信息进行所述数据结构化,获取所述信息的至少一个语义特征;
将所述信息的至少一个语义特征输入到所述回归模型中,利用确定出的与所述信息的至少一个语义特征对应的权重,计算得到所述信息的热度值;
若所述信息的热度值大于预设热度值,确定所述信息为用于形成新闻素材的信息。
2.根据权利要求1所述的方法,其特征在于,若所述信息的热度值大于预设热度,还包括:
确定出所述信息的主题,并保存所述信息、所述信息的主题和所述信息的热度值三者之间的第一对应关系。
3.根据权利要求2所述的方法,其特征在于,还包括:
根据所述历史新闻确定出所述历史新闻的主题和对应所述历史新闻的主题的至少一个新闻模板的第二对应关系。
4.根据权利要求3所述的方法,其特征在于,在所述确定所述信息为用于形成新闻素材的信息后,还包括:
根据所述第一对应关系得到所述信息的主题;
确定出与所述信息的主题相同的所述历史新闻的主题;
通过与所述信息的主题相同的所述历史新闻的主题,根据所述第二对应关系选择相应的新闻模板;
使用所述相应的新闻模板将所述信息的内容生成新闻素材。
5.根据权利要求4所述的方法,其特征在于,若所述相应的新闻模板中包括待确认统计数据时,还包括:
根据所述信息和所述相应的新闻模板中的关键字在预先建立的包含关键字、数据集合和计算算法的映射关系的映射表中进行检索,通过对应的数据集合和计算算法计算得到所述待确认统计数据;
使用所述相应的新闻模板将所述信息的内容和计算得到所述待确认统计数据生成新闻素材。
6.一种信息确定装置,其特征在于,包括:
回归模型建立单元,用于对历史新闻的内容进行数据结构化,获得所述历史新闻的至少一个语义特征;从所述历史新闻的至少一个语义特征中确定出所述历史新闻的热度值相关的语义特征集合;确定所述语义特征集合中的语义特征相对于所述热度值所占的权重并保存在回归模型中;
获取单元,用于获取网络中发布的信息,所述信息的发布时间具有新闻时效性;
结构化单元,用于对所述信息进行所述数据结构化,获取所述信息的至少一个语义特征;
计算单元,用于将所述信息的至少一个语义特征输入到所述回归模型中,利用确定出的与所述信息的至少一个语义特征对应的权重,计算得到所述信息的热度值;
第一确定单元,用于若所述信息的热度值大于预设热度值,确定所述信息为用于形成新闻素材的信息。
7.根据权利要求6所述的装置,其特征在于,还包括:
第二确定单元,用于若所述信息的热度值大于预设热度,确定出所述信息的主题,并保存所述信息、所述信息的主题和所述信息的热度值三者之间的第一对应关系。
8.根据权利要求7所述的装置,其特征在于,还包括:
第三确定单元,用于根据所述历史新闻确定出所述历史新闻的主题和对应所述历史新闻的主题的至少一个新闻模板的第二对应关系。
9.根据权利要求8所述的装置,其特征在于,还包括:
查询单元,用于在触发所述第一确定单元后,根据所述第一对应关系得到所述信息的主题;
比对单元,用于确定出与所述信息的主题相同的所述历史新闻的主题;
选择单元,用于通过与所述信息的主题相同的所述历史新闻的主题,根据所述第二对应关系选择相应的新闻模板;
生成单元,用于使用所述相应的新闻模板将所述信息的内容生成新闻素材。
10.根据权利要求9所述的装置,其特征在于,还包括:
检索单元,用于若所述选择单元选择的所述相应的新闻模板中包括待确认统计数据时,根据所述信息和所述相应的新闻模板中的关键字在预先建立的包含关键字、数据集合和计算算法的映射关系的映射表中进行检索,通过对应的数据集合和计算算法计算得到所述待确认统计数据;
所述生成单元还用于使用所述相应的新闻模板将所述信息的内容和计算得到所述待确认统计数据生成新闻素材。
CN201510346751.3A 2015-06-19 2015-06-19 一种信息确定方法和装置 Active CN106257449B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510346751.3A CN106257449B (zh) 2015-06-19 2015-06-19 一种信息确定方法和装置
HK17104942.2A HK1231583A1 (zh) 2015-06-19 2017-05-17 種信息確定方法和裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510346751.3A CN106257449B (zh) 2015-06-19 2015-06-19 一种信息确定方法和装置

Publications (2)

Publication Number Publication Date
CN106257449A true CN106257449A (zh) 2016-12-28
CN106257449B CN106257449B (zh) 2019-11-12

Family

ID=57713431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510346751.3A Active CN106257449B (zh) 2015-06-19 2015-06-19 一种信息确定方法和装置

Country Status (2)

Country Link
CN (1) CN106257449B (zh)
HK (1) HK1231583A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008541A (zh) * 2019-03-20 2019-07-12 北京明略软件系统有限公司 建立轨道交通车辆能耗模型的方法、系统和终端
CN110458360A (zh) * 2019-08-13 2019-11-15 腾讯科技(深圳)有限公司 热门资源的预测方法、装置、设备及存储介质
CN110555202A (zh) * 2018-05-30 2019-12-10 微软技术许可有限责任公司 文摘播报的生成方法和设备
WO2019242453A1 (zh) * 2018-06-21 2019-12-26 中兴通讯股份有限公司 信息处理方法及装置、存储介质、电子装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441662A (zh) * 2008-11-28 2009-05-27 北京交通大学 基于网络拓扑的主题信息采集方法
US20100319031A1 (en) * 2009-06-12 2010-12-16 National Taiwan University Of Science & Technology Hot video prediction system based on user interests social network
CN102937960A (zh) * 2012-09-06 2013-02-20 北京邮电大学 突发事件热点话题的识别与评估装置和方法
CN102982110A (zh) * 2012-11-08 2013-03-20 中国科学院自动化研究所 在物理空间上提取网络空间热点事件信息的方法
CN104657496A (zh) * 2015-03-09 2015-05-27 杭州朗和科技有限公司 一种计算信息热度值的方法和设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441662A (zh) * 2008-11-28 2009-05-27 北京交通大学 基于网络拓扑的主题信息采集方法
US20100319031A1 (en) * 2009-06-12 2010-12-16 National Taiwan University Of Science & Technology Hot video prediction system based on user interests social network
CN102937960A (zh) * 2012-09-06 2013-02-20 北京邮电大学 突发事件热点话题的识别与评估装置和方法
CN102982110A (zh) * 2012-11-08 2013-03-20 中国科学院自动化研究所 在物理空间上提取网络空间热点事件信息的方法
CN104657496A (zh) * 2015-03-09 2015-05-27 杭州朗和科技有限公司 一种计算信息热度值的方法和设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555202A (zh) * 2018-05-30 2019-12-10 微软技术许可有限责任公司 文摘播报的生成方法和设备
WO2019242453A1 (zh) * 2018-06-21 2019-12-26 中兴通讯股份有限公司 信息处理方法及装置、存储介质、电子装置
CN110008541A (zh) * 2019-03-20 2019-07-12 北京明略软件系统有限公司 建立轨道交通车辆能耗模型的方法、系统和终端
CN110458360A (zh) * 2019-08-13 2019-11-15 腾讯科技(深圳)有限公司 热门资源的预测方法、装置、设备及存储介质
CN110458360B (zh) * 2019-08-13 2023-07-18 腾讯科技(深圳)有限公司 热门资源的预测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
HK1231583A1 (zh) 2017-12-22
CN106257449B (zh) 2019-11-12

Similar Documents

Publication Publication Date Title
CN105335519B (zh) 模型生成方法及装置、推荐方法及装置
CN102193936B (zh) 一种数据分类的方法及装置
US20180260484A1 (en) Method, Apparatus, and Device for Generating Hot News
CN104239373B (zh) 为文档添加标签的方法及装置
CN103580939B (zh) 一种基于账号属性的异常消息检测方法及设备
US20150032504A1 (en) Influence scores for social media profiles
CN108170692A (zh) 一种热点事件信息处理方法和装置
CN108319376B (zh) 一种优化商业词推广的输入联想推荐方法及装置
CN106022900A (zh) 用户风险数据挖掘方法和装置
CN103838756A (zh) 一种确定推送信息的方法及装置
CN103870553B (zh) 一种输入资源推送方法及系统
CN109241403A (zh) 项目推荐方法、装置、机器设备和计算机可读存储介质
CN104077417A (zh) 社交网络中的人物标签推荐方法和系统
CN106257449A (zh) 一种信息确定方法和装置
US9754023B2 (en) Stochastic document clustering using rare features
CN112581162A (zh) 资讯内容展示方法、装置、存储介质以及终端
CN103942328B (zh) 一种视频检索方法及视频装置
JP2011227721A (ja) 関心抽出装置、関心抽出方法、及び関心抽出プログラム
CN106919588A (zh) 一种应用程序搜索系统及方法
CN107085568A (zh) 一种文本相似度判别方法及装置
CN106779926A (zh) 关联规则生成方法、装置及终端
CN107357777A (zh) 提取标签信息的方法和装置
CN104102662A (zh) 一种用户兴趣偏好相似度确定方法及装置
CN110750707A (zh) 关键词推荐方法、装置和电子设备
CN104462347A (zh) 关键词的分类方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1231583

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211111

Address after: Room 507, floor 5, building 3, No. 969, Wenyi West Road, Wuchang Street, Hangzhou, Zhejiang

Patentee after: Zhejiang tmall Technology Co., Ltd

Address before: P.O. Box 847, 4th floor, capital building, Grand Cayman, British Cayman Islands

Patentee before: Alibaba Group Holdings Limited