CN106933993A - 一种资讯处理方法及装置 - Google Patents
一种资讯处理方法及装置 Download PDFInfo
- Publication number
- CN106933993A CN106933993A CN201710106771.2A CN201710106771A CN106933993A CN 106933993 A CN106933993 A CN 106933993A CN 201710106771 A CN201710106771 A CN 201710106771A CN 106933993 A CN106933993 A CN 106933993A
- Authority
- CN
- China
- Prior art keywords
- information
- target information
- keyword
- word
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种资讯处理方法及装置,该方法在获得针对预设时间段的目标资讯组之后,分别对目标资讯组中的每一目标资讯进行数据清洗,得到针对每一目标资讯的纯文本形式的第一处理资讯,然后对得到的第一处理资讯进行关键词提取,将提取到的关键词作为预设时间段的资讯热点。应用本发明实施例提供的方案对资讯进行处理,无需人工主观地处理资讯,而是通过对资讯进行数据清洗以及关键词提取,能够快速准确地提取到资讯热点。
Description
技术领域
本发明涉及计算机软件应用领域,特别涉及一种资讯处理方法及装置。
背景技术
随着通信技术的发展,尤其移动网络和智能移动终端的发展,用户的网络生活越来越丰富,网络端中资讯的发布数量也呈爆发式增长,人们通过网络获取资讯也越来越方便,如浏览新闻、看电影、玩游戏、搜索、购物、发布信息等。
但是,资讯的篇幅通常较长,理解其内容本身需要花费较多时间与精力,例如,对金融领域来说,由于金融资讯篇幅较长并且资讯中有较多的专业术语,若不是该领域的从业者,通常很难充分理解资讯中提及的关键内容,即资讯热点。这些资讯热点对经济决策起到指引的作用,第一时间对行业的资讯热点进行了解和把控,能很好的保证在该行业的发展中占绝对优势。而目前从资讯中获取资讯热点的方式一般还是依靠用户自身的行业经验,在阅读完该资讯后总结出来的,不同的用户行业经验可能存在较大的差异,那么获得的资讯热点存在较强的主观性,造成获得资讯热点的准确度低下,因此,如何能够快速准确地对资讯热点进行提取是现在亟待解决的问题。
发明内容
本发明实施例的目的在于提供一种资讯处理方法及装置,能够快速准确地提取到资讯热点。
为达到上述目的,本发明实施例公开了一种资讯处理方法,所述方法包括:
获得针对预设时间段的目标资讯组,所述目标资讯组中包括属于同一领域的至少两条目标资讯;
分别对所述目标资讯组中每一目标资讯进行数据清洗,得到每一目标资讯对应的纯文本形式的第一处理资讯;
对所述第一处理资讯进行关键词提取,将提取到的关键词作为所述预设时间段的资讯热点。
可选地,所述分别对所述目标资讯组中每一目标资讯进行数据清洗,得到每一目标资讯对应的纯文本形式的第一处理资讯,包括:
分别对所述目标资讯组中每一目标资讯所包含的超文本标记语言HTML标签和/或图像进行过滤,得到每一目标资讯对应的纯文本形式的第一处理资讯。
可选地,所述对所述第一处理资讯进行关键词提取,包括:
利用词频-逆向文件频率TF-IDF算法对第二处理资讯中包含的词语进行权重计算,得到每一词语的权重值,所述第二处理资讯为:采用预设的分词库对所述第一处理资讯中包含的无关词进行过滤后得到的资讯,所述无关词为与所述目标资讯所属领域无关的词语;
将第一词语序列的前第一预设数量个词语确定为关键词,所述第一词语序列为按照词语对应权重值从大到小排列的词语序列。
可选地,所述方法还包括:
针对所述目标资讯组中每一目标资讯,基于该目标资讯对应关键词的权重值以及该目标资讯的发布时间,计算该目标资讯的热度。
可选地,计算所述目标资讯的热度所采用的公式为:
其中,H(x)表示所述目标资讯组中包含的目标资讯x对应的热度,q(x)为该目标资讯x对应的热点相关因子,T(x)为该目标资讯x对应的时间因子;具体的,所述q(x)和所述T(x)表达式如下:
该式中,q(x)为该目标资讯x对应的热点相关因子,f(kx)表示所述目标资讯x中关键词k对应的权重值,Ntitle(kx)表示所述关键词k在所述目标资讯x的标题中出现的频次,Ncontent(kx)表示所述关键词k在所述目标资讯x的正文中出现的频次;
该式中,T(x)为该目标资讯x对应的时间因子,tc(x)表示计算所述目标资讯x的热度时对应的时间,tp(x)表示所述目标资讯x对应的发布时间。
可选地,所述方法还包括:
针对所述目标资讯组中所有目标资讯对应的关键词进行向量化,生成针对所述目标资讯组的文本向量空间,所述文本向量空间中每一维度的向量均对应一个关键词;
基于所述文本向量空间中每一目标资讯所包含关键词的向量,对所述目标资讯组中每一目标资讯进行聚类,得到第一数量的类簇;
将每一类簇的第二词语序列的前第二预设数量个关键词作为该类簇的代表词,所述第二词语序列为按照关键词对应的权重值从大到小排列的词语序列。
可选地,所述方法还包括:
将所述资讯热点推送至显示界面,所述显示界面为展示资讯内容的界面。
为达到上述目的,本发明实施例还公开了一种资讯处理装置,所述装置包括:
第一获得模块,用于获得针对预设时间段的目标资讯组,所述目标资讯组中包括属于同一领域的至少两条目标资讯;
数据清洗模块,用于分别对所述目标资讯组中每一目标资讯进行数据清洗,得到每一目标资讯对应的纯文本形式的第一处理资讯;
第二获得模块,用于对所述第一处理资讯进行关键词提取,将提取到的关键词作为所述预设时间段的资讯热点。
可选地,所述数据清洗模块,具体用于:
分别对所述目标资讯组中每一目标资讯所包含的超文本标记语言HTML标签和/或图像进行过滤,得到每一目标资讯对应的纯文本形式的第一处理资讯。
可选地,所述第二获得模块,具体用于:
利用词频-逆向文件频率TF-IDF算法对第二处理资讯中包含的词语进行权重计算,得到每一词语的权重值,所述第二处理资讯为:采用预设的分词库对所述第一处理资讯中包含的无关词进行过滤后得到的资讯,所述无关词为与所述目标资讯所属领域无关的词语;
将第一词语序列的前第一预设数量个词语确定为关键词,所述第一词语序列为按照词语对应权重值从大到小排列的词语序列;
将提取到的关键词作为所述预设时间段的资讯热点。
可选地,所述装置还包括:
热度计算模块,用于针对所述目标资讯组中每一目标资讯,基于该目标资讯对应关键词的权重值以及该目标资讯的发布时间,计算该目标资讯的热度。
可选地,所述热度计算模块,具体用于:
针对所述目标资讯组中每一目标资讯,基于该目标资讯对应关键词的权重值以及该目标资讯的发布时间,采用如下公式计算该目标资讯的热度:
其中,H(x)表示所述目标资讯组中包含的目标资讯x对应的热度,q(x)为该目标资讯x对应的热点相关因子,T(x)为该目标资讯x对应的时间因子;具体的,所述q(x)和所述T(x)表达式如下:
该式中,q(x)为该目标资讯x对应的热点相关因子,f(kx)表示所述目标资讯x中关键词k对应的权重值,Ntitle(kx)表示所述关键词k在所述目标资讯x的标题中出现的频次,Ncontent(kx)表示所述关键词k在所述目标资讯x的正文中出现的频次;
该式中,T(x)为该目标资讯x对应的时间因子,tc(x)表示计算所述目标资讯x的热度时对应的时间,tp(x)表示所述目标资讯x对应的发布时间。
可选地,所述装置还包括:
生成模块,用于针对所述目标资讯组中所有目标资讯对应的关键词进行向量化,生成针对所述目标资讯组的文本向量空间,所述文本向量空间中每一维度的向量均对应一个关键词;
聚类模块,用于基于所述文本向量空间中每一目标资讯所包含关键词的向量,对所述目标资讯组中每一目标资讯进行聚类,得到第一数量的类簇;
第三获得模块,用于将每一类簇的第二词语序列的前第二预设数量个关键词作为该类簇的代表词,所述第二词语序列为按照关键词对应的权重值从大到小排列的词语序列。
可选地,所述装置还包括:
推送模块,用于将所述资讯热点推送至显示界面,所述显示界面为展示资讯内容的界面。
综上可见,本发明实施例提供的方案中,在获得针对预设时间段的目标资讯组之后,分别对目标资讯组中的每一目标资讯进行数据清洗,得到针对每一目标资讯的纯文本形式的第一处理资讯,然后对得到的第一处理资讯进行关键词提取,将提取到的关键词作为预设时间段的资讯热点。应用本发明实施例提供的方案对资讯进行处理,无需人工主观地处理资讯,而是通过对资讯进行数据清洗以及关键词提取,能够快速准确地提取到资讯热点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种资讯处理方法的流程示意图;
图2为本发明实施例提供的另一种资讯处理方法的流程示意图;
图3为本发明实施例提供的再一种资讯处理方法的流程示意图;
图4为本发明实施例提供的还一种资讯处理方法的流程示意图;
图5为本发明实施例提供的一种资讯处理装置的结构示意图;
图6为本发明实施例提供的另一种资讯处理装置的结构示意图;
图7为本发明实施例提供的再一种资讯处理装置的结构示意图;
图8为本发明实施例提供的还一种资讯处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面通过具体实施例,对本发明进行详细的说明。
图1为本发明实施例提供的一种资讯处理方法的流程示意图,该方法包括步骤:
S101:获得针对预设时间段的目标资讯组,所述目标资讯组中包括属于同一领域的至少两条目标资讯;
随着用户的需求多样化,网络端中资讯的种类也呈多样化的趋势发展,目前网络端发布的资讯几乎涵盖了各领域,例如,金融、科技、IT、汽车、手机等等,不同的领域一般对应着不同的资讯数据库,以金融领域为例,金融领域对应着一个资讯数据库,在这一资讯数据库中包含有网络端的金融领域的资讯,当然,为了节省资讯数据库的存储空间,通常会存储一定期限的资讯,例如,近60天的资讯、近半年的资讯、近一年的资讯等,这都是合理的,上述的期限是可以预先设定的,因此,本发明实施例不对该期限进行明确的限定。
但用户对网络端存储的金融领域的所有资讯并不是都感兴趣,因为网络端发布的资讯更新比较快,已发布很久的资讯并不能准确地反映近期的动态趋势,而阅读每一资讯均需花费较多的时间,因此,用户可以选择近期的资讯或者某一时间段的资讯进行阅读,例如,用户可以设置一个时间段,仅对该时间段内网络端发布的资讯进行阅读,在本发明实施例提供的方案中,称上述用户设置的时间段为预设时间段,称该预设时间段内网络端中金融领域的所有资讯构成的资讯组为目标资讯组。
需要说明的是,上述的预设时间段不能超过网络端存储的资讯期限范围,例如,网络端的存储期限为近半年的资讯,那么,预设时间段不能超过半年的时长,可以设置为一个月、一周或者一天等,当然上述所列举的预设时间段仅为几个具体的示例,本发明实施例对预设时间段的具体大小不做明确限定。
在确定预设时间段之后,可以从金融领域的资讯库中获取针对预设时间段的资讯组,该资讯组即为目标资讯组。示例性的,网络端存储有近半年的金融领域的资讯,预设时间段为一周(近7天),那么,可以从网络端存储的近半年的金融领域的资讯中获取近7天的资讯,这里的近7天是指当天以及当天之前的6天,一共7天。例如,当天日期为2016.12.12,那么近7天是指2016.12.12、2016.12.11、2016.12.10、2016.12.09、2016.12.08、2016.12.07、2016.12.06。假设上述的7天中网络端中共发布了50条金融领域的资讯,那么,这50条资讯构成的资讯组即为目标资讯组,而每一条资讯即为一条目标资讯。
S102:分别对所述目标资讯组中每一目标资讯进行数据清洗,得到每一目标资讯对应的纯文本形式的第一处理资讯;
在获得目标资讯组后,可以对该目标资讯组中的每一条目标资讯进行数据清洗,数据清洗(Data cleaning)从名字上可以看的出,就是把资讯中“脏”内容的“洗掉”,是指发现并处理目标资讯中可识别的错误或无用内容,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。通过对每一条资讯进行数据清洗,能够得到针对每一资讯的纯文本形式的新资讯,称得到的纯文本形式的新资讯为第一处理资讯。
在本发明实施例提供的一种具体实现方式中,所述分别对所述目标资讯组中每一目标资讯进行数据清洗,得到每一目标资讯对应的纯文本形式的第一处理资讯,可以包括:
分别对所述目标资讯组中每一目标资讯所包含的超文本标记语言HTML标签和/或图像进行过滤,得到每一目标资讯对应的纯文本形式的第一处理资讯。
本领域技术人员能够理解的是,一般资讯的内容以文字为主,但为了使资讯的内容更加直观生动,通常资讯的内容中往往还会存在一些图像以及HTML标签,在对资讯进行识别时,这些标签以及图像所包含的信息会对该资讯的词语统计造成干扰,对于该资讯而言,标签以及图像所包含的信息是无效的内容,因此需要对资讯中包含的所有HTML以及图像进行过滤。
仍以上述的目标资讯组包含50条资讯为例,为了准确地对该资讯进行关键词提取,需要针对目标资讯组中的50条资讯分别进行数据清洗,即分别对每一条资讯中包含的所有HTML以及图像进行过滤,过滤之后可分别得到这50条资讯各自对应的纯文本形式的第一处理资讯。
S103:对所述第一处理资讯进行关键词提取,将提取到的关键词作为所述预设时间段的资讯热点。
资讯的篇幅通常较长,理解其内容本身需要花费较多时间与精力,就金融领域而言,金融领域的资讯篇幅较长并且资讯中有较多的专业术语,阅读起来枯燥无味,若不是该领域的从业者,通常很难充分理解资讯中提及的关键内容,即资讯热点。为了更加准确地获得资讯热点,本发明实施例提供的技术方案中,对上述获得的第一处理资讯进行关键词提取,对于关键词提取,目前已经存在一些算法,比如词频-逆向文件频率(Term Frequency–Inverse Document Frequency,简称TF-IDF)算法,词语逆频率(Term Frequency–InverseWord Frequency,简称TF-IWF)算法等等。这些算法的大致思想都是一个词语出现的次数越多,并且出现在其它的资讯中的次数越少,那么它是该条资讯的关键词的可能性也就越大。
在本发明实施例提供的一种具体实现方式中,所述对所述第一处理资讯进行关键词提取,可以包括步骤:
a:利用词频-逆向文件频率TF-IDF算法对第二处理资讯中包含的词语进行权重计算,得到每一词语的权重值,所述第二处理资讯为:采用预设的分词库对所述第一处理资讯中包含的无关词进行过滤后得到的资讯,所述无关词为与所述目标资讯所属领域无关的词语;
由上可知,通过对每一目标资讯中包含的HTML标签和图像进行过滤,能够得到针对每一目标资讯的纯文本形式的第一处理资讯,尽管得到的是纯文本形式的资讯,但资讯中还包含有大量的与该目标资讯所属领域无关的词语,在本发明实施例提供的方案中,称上述所说的与该目标资讯所属领域无关的词语为无关词,如果不将该目标资讯中的无关词过滤掉,那么在进行关键词提取的过程中,会对上述的无关词一并进行统计,因为资讯中每一词语在形式上是对等的,而大量的无关词会使得提取关键词的效率降低,并且对无关词也进行统计会使提取到的关键词准确度低下。
考虑到上述原因,为了提高提取关键词的效率以及准确度,可以采用预设的分词库对上述的第一处理资讯中包含的无关词进行过滤,例如,可以采用jieba分词库对上述的第一处理资讯中的无关词进行过滤。在对无关词进行过滤的过程中,可以参照金融领域的停用词库与权重词库进行。其中,金融领域的停用词库是指对金融领域中特定的停用词进行统计,如:“涨幅”、“开盘价”等词语;金融领域的权重词库是指金融领域中具有特殊含义的词,如“十三五”、“新三板”等词,该权重词库可以结合搜狗细胞词库中针对金融领域的词语。本发明实施例称对第一处理资讯中包含的无关词进行过滤后得到的资讯为第二处理资讯。
需要说明的是,上述仅以金融领域为例进行具体的说明,但本发明实施例并不对资讯所属的具体领域做明确限定,例如资讯还可以为:科技、IT、汽车、手机等等,由于不同领域对应的停用词库以及权重词库是不同的,因此上述所列举的各词语仅为本发明实施例提供的一组具体的示例,在实际应用中可根据资讯所属领域而进一步确定,本发明实施例对此不做进一步限定。
在得到第二处理资讯之后,利用词频-逆向文件频率TF-IDF算法对第二处理资讯中包含的词语进行权重计算,得到每一词语的权重值;TF-IDF算法是一种常用的统计方法,用以评估词语对于目标资讯组中的某一资讯的重要程度。词语的重要性随着它在该资讯中出现的次数成正比增加,但同时会随着它在目标资讯组中其他资讯中出现的频率成反比下降,即该词语的重要程度和整个目标资讯组中包含的资讯(目标资讯)数量与关键词出现过的资讯数量呈一个比例关系,并通过一定权重衡量处理,得到该词语的权重。TF-IDF实际上是:TF*IDF,即词频(Term Frequency,简称TF)和逆向文件频率(Inverse DocumentFrequency,简称IDF)的乘积。计算上述第二处理资讯中每一词语对应的词频TF以及逆向文件频率IDF,得到的TF*IDF值便为该词语对应的权重值。
b:将第一词语序列的前第一预设数量个词语确定为关键词,所述第一词语序列为按照词语对应权重值从大到小排列的词语序列。
通过前述步骤能够计算出第二处理资讯中包含的每一词语对应的权重值,由于权重值的大小表征这对应词语在对应资讯中的重要程度,通常词语的权重值越大,那就说明该词语在对应资讯中越重要,越能代表该资讯的内容,那么该词语为关键词的可能性也就越大,因此,在计算出第二处理资讯中包含的每一词语对应的权重值之后,可以选择权重值较大的一些词语作为关键词,具体的可以先按照词语对应权重值从大到小排列,排列后组成一个词语序列,该序列称为第一词语序列,然后可以从上述的第一词语序列中选取前第一预设数量个词语作为关键词。例如,选取前20个词语作为关键词,这里第一预设数量是一个经验值,通常不会设置过大,一般设置在10-25的范围内,当然,理论上第一预设数量可以设置为任意的正整数,因此本发明实施例对第一预设数量的具体数值并不做明确限定。
由上可见,图1实施例提供的方案中,在获得针对预设时间段的目标资讯组之后,分别对目标资讯组中的每一目标资讯进行数据清洗,得到针对每一目标资讯的纯文本形式的第一处理资讯,然后对得到的第一处理资讯进行关键词提取,将提取到的关键词作为预设时间段的资讯热点。应用本发明实施例提供的方案对资讯进行处理,无需人工主观地处理资讯,而是通过对资讯进行数据清洗以及关键词提取,能够快速准确地提取到资讯热点。
图2为本发明实施例提供的另一种资讯处理方法的流程示意图,除包括图1实施例提供的步骤S101-S103外,该方法还包括步骤:
S104:针对所述目标资讯组中每一目标资讯,基于该目标资讯对应关键词的权重值以及该目标资讯的发布时间,计算该目标资讯的热度。
为了反映目标资讯组中每一条目标资讯与上述预设时间段内关键资讯内容的相关度大小,在本发明实施例提供的方案中,可以基于每一条目标资讯对应关键词的权重值以及该目标资讯的发布时间,计算该目标资讯的热度。
在本发明实施例提供的一种具体实现方式中,计算所述目标资讯的热度所采用的公式为:
其中,H(x)表示所述目标资讯组中包含的目标资讯x对应的热度,q(x)为该目标资讯x对应的热点相关因子,T(x)为该目标资讯x对应的时间因子;具体的,所述q(x)和所述T(x)表达式如下:
该式中,q(x)为该目标资讯x对应的热点相关因子,f(kx)表示所述目标资讯x中关键词k对应的权重值,Ntitle(kx)表示所述关键词k在所述目标资讯x的标题中出现的频次,Ncontent(kx)表示所述关键词k在所述目标资讯x的正文中出现的频次;
该式中,T(x)为该目标资讯x对应的时间因子,tc(x)表示计算所述目标资讯x的热度时对应的时间,tp(x)表示所述目标资讯x对应的发布时间。
示例性的,仍以目标资讯组中包含50个目标资讯为例,由于在计算每一条目标资讯对应的热度时,每一条目标资讯之间在形式上是对等的,因此,以下仅以目标资讯15为例进行详细的说明,若当前是日期为2016.12.12,而目标资讯15对应的发布时间tp(15)为2016.12.10,计算目标资讯15的热度时对应的时间为2016.12.12,则可得目标资讯15对应的时间因子T(15)=10/2=5,目标资讯15中包含有20个关键词,各关键词k对应的权重值f(k15)、在目标资讯15的标题中出现的频次Ntitle(k15)以及在目标资讯15的正文中出现的频次Ncontent(k15)的具体数值参见表1,具体为:
表1
由表1所示内容可知各关键词对应的权重值f(k15)、在目标资讯15的标题中出现的频次Ntitle(k15)以及在目标资讯15的正文中出现的频次Ncontent(k15),将上述数值代入公式中,可得到目标资讯15对应的热点相关因子q(15)=318.4,上述已知目标资讯15对应的时间因子T(15)=5,再将q(15)=318.4和T(15)=5代入公式中,则可最终计算得到目标资讯15对应的热度H(x)=9.97。
按照上述的计算步骤不难将目标资讯组中其他目标资讯对应的热度计算出来,因此,通过上述过程能够获得目标资讯组中每一条目标资讯对应的热度。
需要说明的是,上述表1中各参数的数值仅为本发明实施例提供的一组具体的示例,并不构成对上述各参数具体数值的限定。
由上可见,图2实施例提供的方案中,能够针对目标资讯组中每一目标资讯,基于该目标资讯对应关键词的权重值以及该目标资讯的发布时间,计算该目标资讯的热度,进一步的对资讯进行处理,更直观地对资讯的重要性进行体现,为用户获取到重要的资讯内容提供了保障,增加用户体验。
图3为本发明实施例提供的再一种资讯处理方法的流程示意图;除包括图1实施例提供的步骤S101-S103外,该方法还包括步骤:
S105:针对所述目标资讯组中所有目标资讯对应的关键词进行向量化,生成针对所述目标资讯组的文本向量空间,所述文本向量空间中每一维度的向量均对应一个关键词;
在本发明实施例提供的方案中,可以对目标资讯组中包含的50条目标资讯对应的关键词分别进行向量化,向量化的过程为:
建立一个向量空间模型,可以将每一目标资讯所包含的关键词分别转化至向量空间模型中,遍历完目标资讯组中的所有目标资讯后,便生成了针对该目标资讯组的向量空间,称该向量空间为文本向量空间。
值得强调的是,每一关键词均在上述文本向量空间中唯一对应一个维度的向量,并且每一维度向量的模长与该一维度向量对应关键词的权重值对应。如果同一个关键词在多个目标资讯中出现的话,那么仅添加该关键词一次,但需要将每一目标资讯中该关键词对应的权重值进行累加,该关键词在文本向量空间中对应的权重值可通过向量的模长来体现。
S106:基于所述文本向量空间中每一目标资讯所包含关键词的向量,对所述目标资讯组中每一目标资讯进行聚类,得到第一数量的类簇;
在上述生成文本向量空间后,该文本向量空间中包含目标资讯组中所有目标资讯的所有关键词,文本向量空间中的每一维度的向量均代表着一个关键词。聚类简单的理解就是分类,那么对目标资讯组中每一目标资讯进行聚类,就是对文本向量空间中每一目标资讯中所包含关键词对应的向量进行分类,将相似度或关联度高的关键词对应的向量划分为一组,这里所说的一组即为一个类簇。
聚类的过程一般通过计算机语言实现,例如,可以基于scikit-learn工具库将文本向量空间中的所有向量输入至k-means++、AP(Affinity Propagation)等算法算法中进行聚类,由于该部分内容所采用的k-means++、AP(Affinity Propagation)等算法在原理上与现有技术无异,因此,本发明实施例将不再赘述。
S107:将每一类簇的第二词语序列的前第二预设数量个关键词作为该类簇的代表词,所述第二词语序列为按照关键词对应的权重值从大到小排列的词语序列。
在完成对每一目标资讯的关键词进行聚类后,能够得到一定数量的类簇,本发明实施例中称一定数量为第一数量。假设上述对目标资讯组中50条目标资讯所包含的50*20=1000个关键词进行向量化后,得到的文本向量空间中包含800个维度的向量,即该文本向量空间中包含800个关键词,将文本向量空间中包含的800个维度的向量进行聚类,得到7个类簇,假设这7个类簇中包含的向量维度数分别为:120、140、110、120、90、120、100,由于每一维度的向量唯一对应一个关键词,因此,上述7个类簇中包含关键词的数量分别为:120、140、110、120、90、120、100。
可见,一般每个类簇中包含有多个关键词,为了更加直观准确地体现各类簇所属的类别,可以将每一类簇中包含的各关键词按照对应权重值从大到小的顺序进行排列后,从排序后对应的词语序列中取前第二预设数量个关键词作为该类簇对应的类别,本发明实施例提供的方案中,称该处排序后对应的词语序列为第二词语序列、称该类别为代表词。为了方便用户对各目标资讯进行查找以及管理,第二预设数量通常设置的比较小,一般不超过10,当然,理论上第二预设数量可以设置为任意的正整数,因此本发明实施例对第二预设数量的具体数值并不做明确限定。
由上可见,应用图3提供的实施例,通过对目标资讯组中包含所有目标资讯的关键词进行向量化,并对向量化之后的各关键词进行聚类,得到第一数量的类簇,并将每一类簇中权重值大小排名前第二预设数量的关键词作为该类簇的代表词,能够有效的对目标资讯组中各目标资讯进行聚类,并用代表词对各类簇进行表示,方便用户查看感兴趣的资讯,进而提升用户体验。
图4为本发明实施例提供的还一种资讯处理方法的流程示意图;除包括图1实施例提供的步骤S101-S103外,该方法还包括步骤:
S108:将所述资讯热点推送至显示界面,所述显示界面为展示资讯内容的界面。
本领域技术人员可以理解的是,在前述用户设置了预设时间段之后,用户便可以从网络端获取相应的目标资讯组,在获得目标资讯组中每一目标资讯对应的资讯热点之后,为了将获得的资讯热点及时地告知用户,以使得用户能够根据该资讯热点来进一步的获取感兴趣的资讯。在本发明实施例提供的方案中,可以将上述获得的各目标资讯对应的资讯热点推送至显示界面,该显示界面即为展示资讯内容的界面。
应用图4提供的实施例,通过将获得到的各目标资讯对应的资讯热点推送至显示见面,能够及时地让用户获取各目标资讯对应的资讯热点,以便于用户根据推动的资讯热点进一步的获取感兴趣的资讯,不再需要用户逐一的对目标资讯进行阅读,大大缩短了获取资讯内容的时间,同时增加用户阅读资讯的趣味性。
图5为本发明实施例提供的一种资讯处理装置的结构示意图;该装置包括:第一获得模块201、数据清洗模块202和第二获得模块203。
第一获得模块201,用于获得针对预设时间段的目标资讯组,所述目标资讯组中包括属于同一领域的至少两条目标资讯;
数据清洗模块202,用于分别对所述目标资讯组中每一目标资讯进行数据清洗,得到每一目标资讯对应的纯文本形式的第一处理资讯;
第二获得模块203,用于对所述第一处理资讯进行关键词提取,将提取到的关键词作为所述预设时间段的资讯热点。
进一步的,所述数据清洗模块202,具体用于:
分别对所述目标资讯组中每一目标资讯所包含的超文本标记语言HTML标签和/或图像进行过滤,得到每一目标资讯对应的纯文本形式的第一处理资讯。
进一步的,所述第二获得模块,具体用于:
利用词频-逆向文件频率TF-IDF算法对第二处理资讯中包含的词语进行权重计算,得到每一词语的权重值,所述第二处理资讯为:采用预设的分词库对所述第一处理资讯中包含的无关词进行过滤后得到的资讯,所述无关词为与所述目标资讯所属领域无关的词语;
将第一词语序列的前第一预设数量个词语确定为关键词,所述第一词语序列为按照词语对应权重值从大到小排列的词语序列;
将提取到的关键词作为所述预设时间段的资讯热点。
由上可见,图5实施例提供的方案中,在获得针对预设时间段的目标资讯组之后,分别对目标资讯组中的每一目标资讯进行数据清洗,得到针对每一目标资讯的纯文本形式的第一处理资讯,然后对得到的第一处理资讯进行关键词提取,将提取到的关键词作为预设时间段的资讯热点。应用本发明实施例提供的方案对资讯进行处理,无需人工主观地处理资讯,而是通过对资讯进行数据清洗以及关键词提取,能够快速准确地提取到资讯热点。
图6为本发明实施例提供的另一种资讯处理装置的结构示意图;除包括图5提供实施例中的第一获得模块201、数据清洗模块202和第二获得模块203外,该装置还包括:热度计算模块204。
热度计算模块204,用于针对所述目标资讯组中每一目标资讯,基于该目标资讯对应关键词的权重值以及该目标资讯的发布时间,计算该目标资讯的热度。
进一步的,所述热度计算模块204,具体用于:
针对所述目标资讯组中每一目标资讯,基于该目标资讯对应关键词的权重值以及该目标资讯的发布时间,采用如下公式计算该目标资讯的热度:
其中,H(x)表示所述目标资讯组中包含的目标资讯x对应的热度,q(x)为该目标资讯x对应的热点相关因子,T(x)为该目标资讯x对应的时间因子;具体的,所述q(x)和所述T(x)表达式如下:
该式中,q(x)为该目标资讯x对应的热点相关因子,f(kx)表示所述目标资讯x中关键词k对应的权重值,Ntitle(kx)表示所述关键词k在所述目标资讯x的标题中出现的频次,Ncontent(kx)表示所述关键词k在所述目标资讯x的正文中出现的频次;
该式中,T(x)为该目标资讯x对应的时间因子,tc(x)表示计算所述目标资讯x的热度时对应的时间,tp(x)表示所述目标资讯x对应的发布时间。
由上可见,图6实施例提供的方案中,能够针对目标资讯组中每一目标资讯,基于该目标资讯对应关键词的权重值以及该目标资讯的发布时间,计算该目标资讯的热度,进一步的对资讯进行处理,更直观地对资讯的重要性进行体现,为用户获取到重要的资讯内容提供了保障,增加用户体验。
图7为本发明实施例提供的再一种资讯处理装置的结构示意图;除包括图5提供实施例中的第一获得模块201、数据清洗模块202和第二获得模块203外,该装置还包括:生成模块205、聚类模块206和第三获得模块207。
生成模块205,用于针对所述目标资讯组中所有目标资讯对应的关键词进行向量化,生成针对所述目标资讯组的文本向量空间,所述文本向量空间中每一维度的向量均对应一个关键词;
聚类模块206,用于基于所述文本向量空间中每一目标资讯所包含关键词的向量,对所述目标资讯组中每一目标资讯进行聚类,得到第一数量的类簇;
第三获得模块207,用于将每一类簇的第二词语序列的前第二预设数量个关键词作为该类簇的代表词,所述第二词语序列为按照关键词对应的权重值从大到小排列的词语序列。
由上可见,应用图7提供的实施例,通过对目标资讯组中包含所有目标资讯的关键词进行向量化,并对向量化之后的各关键词进行聚类,得到第一数量的类簇,并将每一类簇中权重值大小排名前第二预设数量的关键词作为该类簇的代表词,能够有效的对目标资讯组中各目标资讯进行聚类,并用代表词对各类簇进行表示,方便用户查看感兴趣的资讯,进而提升用户体验。
图8为本发明实施例提供的还一种资讯处理装置的结构示意图,除包括图5提供实施例中的第一获得模块201、数据清洗模块202和第二获得模块203外,该装置还包括:推送模块208。
推送模块208,用于将所述资讯热点推送至显示界面,所述显示界面为展示资讯内容的界面。
应用图8提供的实施例,通过将获得到的各目标资讯对应的资讯热点推送至显示见面,能够及时地让用户获取各目标资讯对应的资讯热点,以便于用户根据推动的资讯热点进一步的获取感兴趣的资讯,不再需要用户逐一的对目标资讯进行阅读,大大缩短了获取资讯内容的时间,同时增加用户阅读资讯的趣味性。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种资讯处理方法,其特征在于,所述方法包括:
获得针对预设时间段的目标资讯组,所述目标资讯组中包括属于同一领域的至少两条目标资讯;
分别对所述目标资讯组中每一目标资讯进行数据清洗,得到每一目标资讯对应的纯文本形式的第一处理资讯;
对所述第一处理资讯进行关键词提取,将提取到的关键词作为所述预设时间段的资讯热点。
2.根据权利要求1所述的方法,其特征在于,所述分别对所述目标资讯组中每一目标资讯进行数据清洗,得到每一目标资讯对应的纯文本形式的第一处理资讯,包括:
分别对所述目标资讯组中每一目标资讯所包含的超文本标记语言HTML标签和/或图像进行过滤,得到每一目标资讯对应的纯文本形式的第一处理资讯。
3.根据权利要求1所述的方法,其特征在于,所述对所述第一处理资讯进行关键词提取,包括:
利用词频-逆向文件频率TF-IDF算法对第二处理资讯中包含的词语进行权重计算,得到每一词语的权重值,所述第二处理资讯为:采用预设的分词库对所述第一处理资讯中包含的无关词进行过滤后得到的资讯,所述无关词为与所述目标资讯所属领域无关的词语;
将第一词语序列的前第一预设数量个词语确定为关键词,所述第一词语序列为按照词语对应权重值从大到小排列的词语序列。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
针对所述目标资讯组中每一目标资讯,基于该目标资讯对应关键词的权重值以及该目标资讯的发布时间,计算该目标资讯的热度。
5.根据权利要求4所述的方法,其特征在于,计算所述目标资讯的热度所采用的公式为:
其中,H(x)表示所述目标资讯组中包含的目标资讯x对应的热度,q(x)为该目标资讯x对应的热点相关因子,T(x)为该目标资讯x对应的时间因子;具体的,所述q(x)和所述T(x)表达式如下:
该式中,q(x)为该目标资讯x对应的热点相关因子,f(kx)表示所述目标资讯x中关键词k对应的权重值,Ntitle(kx)表示所述关键词k在所述目标资讯x的标题中出现的频次,Ncontent(kx)表示所述关键词k在所述目标资讯x的正文中出现的频次;
该式中,T(x)为该目标资讯x对应的时间因子,tc(x)表示计算所述目标资讯x的热度时对应的时间,tp(x)表示所述目标资讯x对应的发布时间。
6.根据权利要求3所述的方法,其特征在于,所述方法还包括:
针对所述目标资讯组中所有目标资讯对应的关键词进行向量化,生成针对所述目标资讯组的文本向量空间,所述文本向量空间中每一维度的向量均对应一个关键词;
基于所述文本向量空间中每一目标资讯所包含关键词的向量,对所述目标资讯组中每一目标资讯进行聚类,得到第一数量的类簇;
将每一类簇的第二词语序列的前第二预设数量个关键词作为该类簇的代表词,所述第二词语序列为按照关键词对应的权重值从大到小排列的词语序列。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述方法还包括:
将所述资讯热点推送至显示界面,所述显示界面为展示资讯内容的界面。
8.一种资讯处理装置,其特征在于,所述装置包括:
第一获得模块,用于获得针对预设时间段的目标资讯组,所述目标资讯组中包括属于同一领域的至少两条目标资讯;
数据清洗模块,用于分别对所述目标资讯组中每一目标资讯进行数据清洗,得到每一目标资讯对应的纯文本形式的第一处理资讯;
第二获得模块,用于对所述第一处理资讯进行关键词提取,将提取到的关键词作为所述预设时间段的资讯热点。
9.根据权利要求8所述的装置,其特征在于,所述数据清洗模块,具体用于:
分别对所述目标资讯组中每一目标资讯所包含的超文本标记语言HTML标签和/或图像进行过滤,得到每一目标资讯对应的纯文本形式的第一处理资讯。
10.根据权利要求8所述的装置,其特征在于,所述第二获得模块,具体用于:
利用词频-逆向文件频率TF-IDF算法对第二处理资讯中包含的词语进行权重计算,得到每一词语的权重值,所述第二处理资讯为:采用预设的分词库对所述第一处理资讯中包含的无关词进行过滤后得到的资讯,所述无关词为与所述目标资讯所属领域无关的词语;
将第一词语序列的前第一预设数量个词语确定为关键词,所述第一词语序列为按照词语对应权重值从大到小排列的词语序列;
将提取到的关键词作为所述预设时间段的资讯热点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710106771.2A CN106933993B (zh) | 2017-02-27 | 2017-02-27 | 一种资讯处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710106771.2A CN106933993B (zh) | 2017-02-27 | 2017-02-27 | 一种资讯处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106933993A true CN106933993A (zh) | 2017-07-07 |
CN106933993B CN106933993B (zh) | 2019-12-24 |
Family
ID=59424096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710106771.2A Active CN106933993B (zh) | 2017-02-27 | 2017-02-27 | 一种资讯处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106933993B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107590179A (zh) * | 2017-08-01 | 2018-01-16 | 佛山市深研信息技术有限公司 | 一种大数据分类处理方法 |
CN113536118A (zh) * | 2021-06-29 | 2021-10-22 | 未鲲(上海)科技服务有限公司 | 搜索默认词的配置方法、装置、计算机设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615593A (zh) * | 2013-11-01 | 2015-05-13 | 北大方正集团有限公司 | 微博热点话题自动检测方法及装置 |
CN104657496A (zh) * | 2015-03-09 | 2015-05-27 | 杭州朗和科技有限公司 | 一种计算信息热度值的方法和设备 |
CN104965823A (zh) * | 2015-07-30 | 2015-10-07 | 成都鼎智汇科技有限公司 | 一种基于大数据的观点抽取方法 |
CN105589941A (zh) * | 2015-12-15 | 2016-05-18 | 北京百分点信息科技有限公司 | 网络文本的情感信息检测方法和装置 |
CN105740466A (zh) * | 2016-03-04 | 2016-07-06 | 百度在线网络技术(北京)有限公司 | 一种挖掘热点概念之间关联关系的方法和装置 |
-
2017
- 2017-02-27 CN CN201710106771.2A patent/CN106933993B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615593A (zh) * | 2013-11-01 | 2015-05-13 | 北大方正集团有限公司 | 微博热点话题自动检测方法及装置 |
CN104657496A (zh) * | 2015-03-09 | 2015-05-27 | 杭州朗和科技有限公司 | 一种计算信息热度值的方法和设备 |
CN104965823A (zh) * | 2015-07-30 | 2015-10-07 | 成都鼎智汇科技有限公司 | 一种基于大数据的观点抽取方法 |
CN105589941A (zh) * | 2015-12-15 | 2016-05-18 | 北京百分点信息科技有限公司 | 网络文本的情感信息检测方法和装置 |
CN105740466A (zh) * | 2016-03-04 | 2016-07-06 | 百度在线网络技术(北京)有限公司 | 一种挖掘热点概念之间关联关系的方法和装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107590179A (zh) * | 2017-08-01 | 2018-01-16 | 佛山市深研信息技术有限公司 | 一种大数据分类处理方法 |
CN113536118A (zh) * | 2021-06-29 | 2021-10-22 | 未鲲(上海)科技服务有限公司 | 搜索默认词的配置方法、装置、计算机设备及存储介质 |
CN113536118B (zh) * | 2021-06-29 | 2023-04-07 | 未鲲(上海)科技服务有限公司 | 搜索默认词的配置方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106933993B (zh) | 2019-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103678672B (zh) | 一种信息推荐方法 | |
CN103729359B (zh) | 一种推荐搜索词的方法及系统 | |
CN103714084B (zh) | 推荐信息的方法和装置 | |
CN109062994A (zh) | 推荐方法、装置、计算机设备和存储介质 | |
CN110321482A (zh) | 一种信息的推荐方法、装置及设备 | |
CN105787068B (zh) | 基于引用网络及用户熟练度分析的学术推荐方法及系统 | |
CN108763362A (zh) | 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法 | |
CN106055713B (zh) | 基于用户兴趣和社交主题提取的社交网络用户推荐方法 | |
CN106021362A (zh) | 查询式的图片特征表示的生成、图片搜索方法和装置 | |
CN107220365A (zh) | 基于协同过滤与关联规则并行处理的精准推荐系统及方法 | |
CN105723402A (zh) | 用于确定社交数据网络中的影响者的系统和方法 | |
JP2010176666A (ja) | ソーシャルインデックスにおける熱いトピック及び冷めたトピックを検出することによりユーザの関心を管理するためのシステム及び方法 | |
CN106503025A (zh) | 一种应用推荐方法和系统 | |
CN106407280A (zh) | 查询目标匹配方法及装置 | |
Wagner et al. | Computational topology in text mining | |
CN107369058A (zh) | 一种关联推荐方法及服务器 | |
CN107203530A (zh) | 信息推荐方法 | |
CN104915440B (zh) | 一种商品排重方法和系统 | |
CN109902250A (zh) | 问卷调查的共享方法、共享装置、计算机设备及存储介质 | |
Nazemi et al. | Visual analytics for analyzing technological trends from text | |
CN108846097A (zh) | 用户的兴趣标签表示方法、文章推荐方法、及装置、设备 | |
CN107895303A (zh) | 一种基于ocean模型的个性化推荐的方法 | |
CN112559513A (zh) | 链路数据存取方法、装置、存储介质、处理器及电子装置 | |
Leydesdorff et al. | Mapping the Chinese Science Citation Database in terms of aggregated journal–journal citation relations | |
CN110245355A (zh) | 文本话题检测方法、装置、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |