CN106202530B - 数据处理方法及装置 - Google Patents
数据处理方法及装置 Download PDFInfo
- Publication number
- CN106202530B CN106202530B CN201610586683.2A CN201610586683A CN106202530B CN 106202530 B CN106202530 B CN 106202530B CN 201610586683 A CN201610586683 A CN 201610586683A CN 106202530 B CN106202530 B CN 106202530B
- Authority
- CN
- China
- Prior art keywords
- document
- processed
- topic
- information
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种数据处理方法及装置,所述方法包括:获取资讯,将资讯加入资讯集合中;将资讯集合中的一篇资讯作为待处理文档;若均为未处理文档,根据预设规则将待处理文档映射成对应的特征向量;否则,根据预设规则将待处理文档映射成对应的特征向量,根据获取待处理文档的第一时间以及待处理文档中事件发生的第二时间,分别计算待处理文档对应的特征向量与话题模型集合中的各个已检测话题对应的向量的相似度,选取最大相似度值进行判断;将待处理文档的下一篇文档作为待处理文档,直到资讯集合中的全部资讯全部处理完毕。所述方法考虑了获取待处理文档的第一时间以及待处理文档中事件发生的第二时间,提高了话题模型的精确度。
Description
技术领域
本发明涉及数据处理领域,具体而言,涉及一种数据处理方法及装置。
背景技术
随着互联网尤其是移动互联网的发展,其在人们的日常生活中作为信息传递交互的作用越来越明显和重要,如何从大量的信息中发现话题变得越来越难。目前对于热点话题的发现大多数是根据文档中文字内容进行聚类分析,并没有考虑到获取到文档的时间以及文档中的时间的时序特征。
发明内容
有鉴于此,本发明实施例的目的在于提供一种数据处理方法及装置,以解决上述问题。
第一方面,本发明实施例提供一种数据处理方法,所述方法包括:获取资讯,将所述资讯加入资讯集合中;将所述资讯集合中的一篇资讯作为待处理文档;若所述资讯集合中的资讯均为未处理文档,根据预设规则将待处理文档映射成对应的特征向量,将所述特征向量作为已检测话题对应的向量,加入话题模型集合;若所述资讯集合中至少有一篇资讯为已处理文档,根据所述预设规则将待处理文档映射成对应的特征向量,根据获取待处理文档的第一时间以及所述待处理文档中事件发生的第二时间,分别计算所述待处理文档对应的特征向量与所述话题模型集合中的各个已检测话题对应的向量的相似度,选取最大相似度值进行判断;若所述最大相似度值大于修正阈值,则所述待处理文档与所述最大的相似度值对应的已检测话题相似,更新所述最大的相似度值对应的已检测话题对应的向量;若所述最大的相似度值小于动态阈值,则根据预设规则将待处理文档映射成对应的特征向量,将所述特征向量作为已检测话题对应的向量,加入话题模型集合;将所述待处理文档的下一篇文档作为待处理文档,直到资讯集合中的全部资讯全部处理完毕。
第二方面,本发明实施例提供一种任务调度装置,所述装置包括:获取模块,用于获取资讯,将所述资讯加入资讯集合中;第一处理模块,用于将所述资讯集合中的一篇资讯作为待处理文档;第二处理模块,用于若所述资讯集合中的资讯均为未处理文档,根据预设规则将待处理文档映射成对应的特征向量,将所述特征向量作为已检测话题对应的向量,加入话题模型集合;第三处理模块,用于若所述资讯集合中至少有一篇资讯为已处理文档,根据所述预设规则将待处理文档映射成对应的特征向量,根据获取待处理文档的第一时间以及所述待处理文档中事件发生的第二时间,分别计算所述待处理文档对应的特征向量与所述话题模型集合中的各个已检测话题对应的向量的相似度,选取最大相似度值进行判断;若所述最大相似度值大于修正阈值,则所述待处理文档与所述最大的相似度值对应的已检测话题相似,更新所述最大的相似度值对应的已检测话题对应的向量;若所述最大的相似度值小于动态阈值,则根据预设规则将待处理文档映射成对应的特征向量,将所述特征向量作为已检测话题对应的向量,加入话题模型集合;第四处理模块,用于将所述待处理文档的下一篇文档作为待处理文档,直到资讯集合中的全部资讯全部处理完毕。
与现有技术相比,本发明实施例提供的一种数据处理方法及装置,通过根据获取待处理文档的第一时间以及所述待处理文档中事件发生的第二时间,分别计算所述待处理文档对应的特征向量与所述话题模型集合中的各个已检测话题对应的向量的相似度,选取最大相似度值分别与修正阈值及动态阈值进行大小判断,根据判断的结果,来确定所述待处理文档是一个新的话题,还是属于已检测的话题。通过这种方式来不断发现新的话题,最终形成话题模型集合,由于考虑了获取待处理文档的第一时间以及所述待处理文档中事件发生的第二时间,提高了话题模型的精确度。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,做详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图做简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例提供的服务器的方框示意图。
图2是本发明实施例提供的一种数据处理方法的流程图。
图3是本发明实施例提供的一种数据处理方法的部分流程图。
图4是本发明实施例提供的一种数据处理方法的部分流程图。
图5是本发明实施例提供的一种数据处理方法的部分流程图。
图6是本发明实施例提供的一种数据处理方法的部分流程图。
图7是本发明实施例提供的一种数据处理装置的功能模块示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性或时间先后。
如图1所示,是所述服务器200的方框示意图。所述服务器200包括数据处理装置210、存储器220、存储控制器230、处理器240。
所述存储器220、存储控制器230、处理器240各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述数据处理装置210包括至少一个可以软件或固件(firmware)的形式存储于所述存储器中或固化在所述服务端200的操作系统(operating system,OS)中的软件功能模块。所述处理器240用于执行存储器220中存储的可执行模块,例如所述数据处理装置210包括的软件功能模块或计算机程序。
其中,存储器220可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器220用于存储程序,所述处理器240在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的服务端所执行的方法可以应用于处理器中,或者由处理器实现。
处理器240可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
可以理解,图1所示的结构仅为示意,服务器200还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
图2示出了本发明第一实施例提供的一种数据处理方法的流程图,请参阅图2,本实施例描述的是服务器的处理流程,所述方法包括:
步骤S301,获取资讯,将所述资讯加入资讯集合中。
其中,所述资讯可以包括新闻报道,新闻评论,热点信息等。
获取资讯的方式有很多种,例如可以通过对主流门户网站的新闻版块、专业类的新闻网站、论坛BBS、博客及微博客等多种信息源实行7*24小时实时监控,并通过自定义设置聚焦爬虫的种子URL及关键词集,实现突发事件信息的可定制采集,同时还可针对后续话题挖掘分析后提取出的关键词群反馈信息对爬取的关键词集进行随时更新调整。智能信息抽取是指通过采用智能化的网页信息解析技术将采集下来的非结构化信息抽取出其中对进一步话题挖掘分析最有价值的结构化信息后,存储入数据库中供进一步分析处理。
步骤S302,将所述资讯集合中的一篇资讯作为待处理文档。
步骤S303,判断所述资讯集合中是否至少有一篇资讯为已处理文档。
如果否,执行步骤S304,否则,执行步骤S305至步骤S307。
步骤S304,根据预设规则将待处理文档映射成对应的特征向量,将所述特征向量作为已检测话题对应的向量,加入话题模型集合。
请参阅图3,作为一种实施方式,所述预设规则可以包括如下步骤:
步骤S401,将所述待处理文档进行分词处理。
分词处理的方式有很多种,例如可以通过采用中科院提供的开源中分分词工具对采集的信息进行中分分词,从中过滤掉对于话题挖掘分析处理贡献度不大的无价值的停用词。
步骤S402,根据第一公式,获取每个分词对应的第一参数值,根据所述第一参数值的大小,选择第一预设个数的分词加入待选择特征词集合。
所述第一公式可以为如下公式(1):
其中,N表示训练集中的文档数量。A表示分词t出现在类别ci中的文档数量;B表示分词t出现在非类别ci中的文档数量;C表示分词t没有出现在类别ci中的文档数量;D表示分词t没有出现在非类别ci中的文档数量。CHI(t,ci)即每个分词对应的第一参数值。
可以理解的是,所述第一公式是对CHI算法公式的改进,采用CHI算法求出的CHI值,只与词语出现的文档数量有关,这样就会出现如下问题:如果A和B两个词语同时在同样的文档中出现,这样A和B计算的CHI值应该相等,但如果词语B在文档中出现频率比A大,那么B词语的重要性应该要比词语A高,但在使用CHI进行特征词提取时无法对这种情况做有效处理。因此本发明实施例提出一种CHI算法的改进算法,将特征词提取算法中加入词频(TF)因素。考虑到词频(TF)是个次要因素,如果TF影响权重太大,反而会产生一定的副作用,将一部分通过原始CHI计算得到的权重度较高的词剔除。优选的,可以使用ln(ln(TFci))是一个对CHI算法的比较有效的修正因子,即f(TFci)。通过这种方式获取的待选择特征词集合,优化了特征空间,有效地改善了初始特征空间的高维稀疏性。
步骤S403,根据第二公式,获取所述待选择特征词集合中每个分词对应的第二参数值,根据所述第二参数值的大小,选择第二预设个数的分词作为特征词。
其中,第二公式可以采用LDA算法中的计算公式:
其中表示词汇w分配给主题j的频数,表示分配给主题j的所有词汇数,表示文本d中分配给主题j的词汇数,表示文本d中所有分配主题的词汇数,W为固定词汇表中的词汇总数。
具体过程如下所述:
1)数学模型描述
假设文本中的潜在主题z的分布服从P(z),对于给定的某个主题z,该主题上的单词概率分布服从P(w|z)。P(zi=j)表示生成第i个单词时第j个主题被选中的概率,P(wi|zi=j)表示通过主题j选中单词wi的概率,由此得到文本中单词出现的概率分布如式(2)所示:
其中T表示主题数目,令φ(j)=P(w|z=j)表示单词在主题j上的多项式分布,θ(d)=P(z)表示主题在文本d上的多项式分布,LDA模型采用Dirichlet分布α和β作为多项式分布φ和θ的共轭先验。于是文本d中发生词汇w的概率根据式(3)计算得出:
2)基于Gibbs抽样的LDA模型抽取
关于LDA模型的抽取,最重要的是推断出模型中的两个关键参数:一个是“文档-主题”分布θ,另一个是“主题-单词”分布Φ。本发明选用Gibbs抽样法来进行参数的推理估计,实现LDA模型的抽取,获取文本在主题集上的概率分布。基于Gibbs抽样的LDA模型抽取算法详述如下:
(a)zi被初始化为1到T的某个随机整数,i取1,2,…,N,N是语料库中所有出现的文本中词汇个数,与词汇表大小V和词汇出现的位置相关,此为Markov链的初始状态。
(b)根据式(4)获取Markov链的下一状态,迭代足够多次,直到Markov链接近目标分布,记录zi的当前值。对于每一个单一的样本zi,可以按式(5)估算Φ和θ的值。
其中表示词汇w分配给主题j的频数,表示分配给主题j的所有词汇数,表示文本d中分配给主题j的词汇数,表示文本d中所有分配主题的词汇数,W为固定词汇表中的词汇总数。
可以理解的是,LDA模型是一种实现离散型文本建模的概率主题模型,是一个文本-主题-词汇三层贝叶斯模型,将文档表示为若干话题的概率混合分布,具有更逼近真实数据的文本语义描述能力,可以高效地处理大规模的语料库。LDA模型通过实现主题建模,将经过第一公式提取出的初始基于词的特征向量空间的词的维度转变为主题的维度,将同义和近义的相关词汇映射至同一主题,实现语义层面的建模。
可以理解的是,特征词选取的过程分为两步执行,可以首先基于改进的CHI算法选取出一定维度的特征词之后,然后在此基础上采用LDA方法将该基于词的初始特征空间映射至更低维的语义特征空间中,实现了二次降维,并且这样通过第一步的特征选择不但改善了特征空间的高维稀疏性问题,同时降低了第二步潜在主题语义分析方法进行进一步降维的时间复杂度。
步骤S404,计算待处理文档对应的所述特征词的权重,将所述权重作为待处理文档映射成对应的特征向量。
其中,计算特征词的权重的方式也很多,例如TF算法,DF算法等等,这里就不再赘述。
步骤S305,根据所述预设规则将待处理文档映射成对应的特征向量,根据获取待处理文档的第一时间以及所述待处理文档中事件发生的第二时间,分别计算所述待处理文档对应的特征向量与所述话题模型集合中的各个已检测话题对应的向量的相似度,选取最大相似度值进行判断。
设所述第一时间为TE,所述第二时间为Td。首先根据公式(6)计算时间衰减因子Tdec:
作为一种实施方式,可以根据下述公式(7)计算所述待处理文档对应的特征向量与所述话题模型集合中的各个已检测话题对应的向量的相似度:
步骤S306,若所述最大相似度值大于修正阈值,则所述待处理文档与所述最大的相似度值对应的已检测话题相似,更新所述最大的相似度值对应的已检测话题对应的向量。若所述最大的相似度值小于动态阈值,则根据预设规则将待处理文档映射成对应的特征向量,将所述特征向量作为已检测话题对应的向量,加入话题模型集合。
步骤S307,若所述最大的相似度值小于动态阈值,则根据预设规则将待处理文档映射成对应的特征向量,将所述特征向量作为已检测话题对应的向量,加入话题模型集合。
步骤S308,将所述待处理文档的下一篇文档作为待处理文档,直到资讯集合中的全部资讯全部处理完毕。
优选的,请参阅图4,作为一种所述方式,所述方法还可以包括步骤S309:
步骤S309,若所述最大的相似度值小于修正阈值且大于动态阈值,则所述待处理文档与所述最大的相似度值对应的已检测话题相似。
优选的,可以设置修正阈值大于动态阈值。
通过上述步骤,能够通过聚类的方式,形成话题模型集合。进一步的,可以利用形成的话题模型集合,对待测试的资讯进行分类,判断所述待测试的资讯属于哪一个已检测的话题。
因此,优选的,请参阅图5,作为一种所述方式,所述方法还可以包括步骤S310至步骤S313:
步骤S310,获取待测试资讯,将所述待测试资讯作为待处理文档,根据预设规则将所述待处理文档映射成对应的特征向量。
步骤S311,比较获取所述待处理文档的第三时间以及所述待处理文档中事件发生的第四时间。
步骤S312,若所述第四时间在所述第三时间之前,根据所述第三时间以及所述第四时间,依次计算所述待处理文档对应的特征向量与所述话题模型集合中的各个已检测话题对应的向量之间的相似度。
可以理解的是,计算所述待处理文档对应的特征向量与所述话题模型集合中的各个已检测话题对应的向量之间的相似度的方式可以根据公式(6)及公式(7)进行计算,此处就不再赘述。
步骤S313,若当前相似度大于预设阈值,则所述待处理文档属于所述已检测话题的后续资讯,更新所述已检测话题对应的向量;否则所述待处理文档为与所述已检测话题不相关的报道。
可以理解的是,每跟踪到已检测话题的一篇相关报道,则立即重新计算该话题模型中的主题混合分布情况及主题-单词的分布情况,对已检测话题模型进行即时动态调整,能够实现话题模型的自适应性更新学习。
通过步骤S301至步骤S308,形成话题模型集合。进一步的,可以计算不同话题的热度,以实现热点话题的自动发现。
因此,优选的,请参阅图6,作为一种所述方式,所述方法还可以包括步骤S314至步骤S316:
步骤S314,统计预设时间段内所述话题检测模型中各个话题对应的多个参数值,所述多个参数包括报道数量,报道天数,转载次数,点击数以及评论数或回帖数。
步骤S315,根据所述各个话题对应的多个参数值,分别计算在所述预设时间段内,所述各个话题的热度值。
作为一种实施方式,可以根据如下公式(8)计算各个话题的热度值:
其中,THD为话题热度,RF为报道数量,TF为报道天数,DN为转载次数,CN为点击数,RN为评论数或回帖数,D为某一时间单元内的报道总数,该时间单元的天数为T。
步骤S316,根据所述各个话题第一天出现的预设话题热度指数值,以及在所述预设时间段内,所述各个话题的热度值,分别计算出在指定时刻所述各个话题的热度指数值。
作为一种实施方式,可以根据如下公式(9)计算在指定时刻所述各个话题的热度指数值:
其中,THDn为第n天的话题热度值,THD1为该话题出现的第一天的话题热度值。THI1为话题第一天出现的预设话题热度指数值,可以给定THI1=150。本发明实施例主要是基于话题热度指数来刻画话题的发展趋势曲线。
进一步的,所述方法也可以对话题的信息发布情况、站点传播情况以及热点话题的发展演变动态进行统计分析,并将结果以柱状图、曲线图、饼状图等多种形式展现给用户,从而为相关人员科学、高效、有序地应对突发事件提供决策参考。
本发明实施例提供的数据处理方法,通过根据获取待处理文档的第一时间以及所述待处理文档中事件发生的第二时间,分别计算所述待处理文档对应的特征向量与所述话题模型集合中的各个已检测话题对应的向量的相似度,选取最大相似度值分别与修正阈值及动态阈值进行大小判断,根据判断的结果,来确定所述待处理文档是一个新的话题,还是属于已检测的话题。通过这种方式来不断发现新的话题,最终形成话题模型集合,由于考虑了获取待处理文档的第一时间以及所述待处理文档中事件发生的第二时间,提高了话题模型的精确度。即能实现从互联网动态信息中实时挖掘出突发事件话题,发现并跟踪热点话题,并对其进行话题的热点评估。
请参阅图6,是本发明实施例提供的图1所示的数据处理装置210的功能模块示意图。所述数据处理装置210运行于所述服务器200。所述数据处理装置210包括获取模块211,第一处理模块212,第二处理模块213,第三处理模块214以及第四处理模块215。
所述获取模块211,用于获取资讯,将所述资讯加入资讯集合中。
所述第一处理模块212,用于将所述资讯集合中的一篇资讯作为待处理文档。
所述第二处理模块213,用于若所述资讯集合中的资讯均为未处理文档,根据预设规则将待处理文档映射成对应的特征向量,将所述特征向量作为已检测话题对应的向量,加入话题模型集合。
所述第三处理模块214,用于若所述资讯集合中至少有一篇资讯为已处理文档,根据所述预设规则将待处理文档映射成对应的特征向量,根据获取待处理文档的第一时间以及所述待处理文档中事件发生的第二时间,分别计算所述待处理文档对应的特征向量与所述话题模型集合中的各个已检测话题对应的向量的相似度,选取最大相似度值进行判断;若所述最大相似度值大于修正阈值,则所述待处理文档与所述最大的相似度值对应的已检测话题相似,更新所述最大的相似度值对应的已检测话题对应的向量;若所述最大的相似度值小于动态阈值,则根据预设规则将待处理文档映射成对应的特征向量,将所述特征向量作为已检测话题对应的向量,加入话题模型集合。
优选的,第三处理模块214还用于若所述最大的相似度值小于修正阈值且大于动态阈值,则所述待处理文档与所述最大的相似度值对应的已检测话题相似。
所述第四处理模块215,用于将所述待处理文档的下一篇文档作为待处理文档,直到资讯集合中的全部资讯全部处理完毕。
优选的,所述装置还包括第五处理模块216,用于获取待测试资讯,将所述待测试资讯作为待处理文档,根据预设规则将所述待处理文档映射成对应的特征向量;比较获取所述待处理文档的第三时间以及所述待处理文档中事件发生的第四时间;若所述第四时间在所述第三时间之前,根据所述第三时间以及所述第四时间,依次计算所述待处理文档对应的特征向量与所述话题模型集合中的各个已检测话题对应的向量之间的相似度;若当前相似度大于预设阈值,则所述待处理文档属于所述已检测话题的后续资讯,更新所述已检测话题对应的向量;否则所述待处理文档为与所述已检测话题不相关的报道。
优选的,所述装置还包括第六处理装置217,用于统计预设时间段内所述话题检测模型中各个话题对应的多个参数值,所述多个参数包括报道数量,报道天数,转载次数,点击数以及评论数或回帖数;根据所述各个话题对应的多个参数值,分别计算在所述预设时间段内,所述各个话题的热度值。
以上各模块可以是由软件代码实现,此时,上述的各模块可存储于中间服务器200的存储器220内。以上各模块同样可以由硬件例如集成电路芯片实现。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本发明实施例所提供的数据处理装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本发明中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (9)
1.一种数据处理方法,其特征在于,所述方法包括:
获取资讯,将所述资讯加入资讯集合中;
将所述资讯集合中的一篇资讯作为待处理文档;
若所述资讯集合中的资讯均为未处理文档,根据预设规则将待处理文档映射成对应的特征向量,将所述特征向量作为已检测话题对应的向量,加入话题模型集合;
若所述资讯集合中至少有一篇资讯为已处理文档,根据所述预设规则将待处理文档映射成对应的特征向量,根据获取待处理文档的第一时间以及所述待处理文档中事件发生的第二时间,分别计算所述待处理文档对应的特征向量与所述话题模型集合中的各个已检测话题对应的向量的相似度,选取最大相似度值进行判断;
若所述最大相似度值大于修正阈值,则所述待处理文档与所述最大的相似度值对应的已检测话题相似,更新所述最大的相似度值对应的已检测话题对应的向量;
若所述最大的相似度值小于动态阈值,则根据预设规则将待处理文档映射成对应的特征向量,将所述特征向量作为已检测话题对应的向量,加入话题模型集合;
将所述待处理文档的下一篇文档作为待处理文档,直到资讯集合中的全部资讯全部处理完毕;
其中,所述预设规则包括:
将所述待处理文档进行分词处理;根据第一公式,获取每个分词对应的第一参数值,根据所述第一参数值的大小,选择第一预设个数的分词加入待选择特征词集合;根据第二公式,获取所述待选择特征词集合中每个分词对应的第二参数值,根据所述第二参数值的大小,选择第二预设个数的分词作为特征词;计算待处理文档对应的所述特征词的权重,将所述权重作为待处理文档映射成对应的特征向量;
其中,所述第一公式为如下公式:
N表示训练集中的文档数量,A表示分词t出现在类别ci中的文档数量;B表示分词t出现在非类别ci中的文档数量;C表示分词t没有出现在类别ci中的文档数量;D表示分词t没有出现在非类别ci中的文档数量;CHI(t,ci)即每个分词对应的第一参数值;f(TFci)为修正因子;
其中,所述第二公式采用LDA算法中的计算公式:
表示词汇w分配给主题j的频数,表示分配给主题j的所有词汇数,表示文本d中分配给主题j的词汇数,n(d)表示文本d中所有分配主题的词汇数,W为固定词汇表中的词汇总数,T表示主题数目,α和β作为多项式分布φ和θ的共轭先验。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述最大的相似度值小于修正阈值且大于动态阈值,则所述待处理文档与所述最大的相似度值对应的已检测话题相似。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取待测试资讯,将所述待测试资讯作为待处理文档,根据预设规则将所述待处理文档映射成对应的特征向量;
比较获取所述待处理文档的第三时间以及所述待处理文档中事件发生的第四时间;
若所述第四时间在所述第三时间之前,根据所述第三时间以及所述第四时间,依次计算所述待处理文档对应的特征向量与所述话题模型集合中的各个已检测话题对应的向量之间的相似度;
若当前相似度大于预设阈值,则所述待处理文档属于所述已检测话题的后续资讯,更新所述已检测话题对应的向量;否则所述待处理文档为与所述已检测话题不相关的报道。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
统计预设时间段内所述话题模型中各个话题对应的多个参数值,所述多个参数包括报道数量,报道天数,转载次数,点击数以及评论数或回帖数;
根据所述各个话题对应的多个参数值,分别计算在所述预设时间段内,所述各个话题的热度值。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
根据所述各个话题第一天出现的预设话题热度指数值,以及在所述预设时间段内,所述各个话题的热度值,分别计算出在指定时刻所述各个话题的热度指数值。
6.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取资讯,将所述资讯加入资讯集合中;
第一处理模块,用于将所述资讯集合中的一篇资讯作为待处理文档;
第二处理模块,用于若所述资讯集合中的资讯均为未处理文档,根据预设规则将待处理文档映射成对应的特征向量,将所述特征向量作为已检测话题对应的向量,加入话题模型集合;
其中,所述预设规则包括:
将所述待处理文档进行分词处理;根据第一公式,获取每个分词对应的第一参数值,根据所述第一参数值的大小,选择第一预设个数的分词加入待选择特征词集合;根据第二公式,获取所述待选择特征词集合中每个分词对应的第二参数值,根据所述第二参数值的大小,选择第二预设个数的分词作为特征词;计算待处理文档对应的所述特征词的权重,将所述权重作为待处理文档映射成对应的特征向量;
其中,所述第一公式为如下公式:
N表示训练集中的文档数量,A表示分词t出现在类别ci中的文档数量;B表示分词t出现在非类别ci中的文档数量;C表示分词t没有出现在类别ci中的文档数量;D表示分词t没有出现在非类别ci中的文档数量;CHI(t,ci)即每个分词对应的第一参数值;f(TFci)为修正因子;
其中,所述第二公式采用LDA算法中的计算公式:
表示词汇w分配给主题j的频数,表示分配给主题j的所有词汇数,表示文本d中分配给主题j的词汇数,n(d)表示文本d中所有分配主题的词汇数,W为固定词汇表中的词汇总数;T表示主题数目,α和β作为多项式分布φ和θ的共轭先验;
第三处理模块,用于若所述资讯集合中至少有一篇资讯为已处理文档,根据所述预设规则将待处理文档映射成对应的特征向量,根据获取待处理文档的第一时间以及所述待处理文档中事件发生的第二时间,分别计算所述待处理文档对应的特征向量与所述话题模型集合中的各个已检测话题对应的向量的相似度,选取最大相似度值进行判断;若所述最大相似度值大于修正阈值,则所述待处理文档与所述最大的相似度值对应的已检测话题相似,更新所述最大的相似度值对应的已检测话题对应的向量;若所述最大的相似度值小于动态阈值,则根据预设规则将待处理文档映射成对应的特征向量,将所述特征向量作为已检测话题对应的向量,加入话题模型集合;
第四处理模块,用于将所述待处理文档的下一篇文档作为待处理文档,直到资讯集合中的全部资讯全部处理完毕。
7.根据权利要求6所述的装置,其特征在于,第三处理模块还用于若所述最大的相似度值小于修正阈值且大于动态阈值,则所述待处理文档与所述最大的相似度值对应的已检测话题相似。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括第五处理模块,用于获取待测试资讯,将所述待测试资讯作为待处理文档,根据预设规则将所述待处理文档映射成对应的特征向量;比较获取所述待处理文档的第三时间以及所述待处理文档中事件发生的第四时间;若所述第四时间在所述第三时间之前,根据所述第三时间以及所述第四时间,依次计算所述待处理文档对应的特征向量与所述话题模型集合中的各个已检测话题对应的向量之间的相似度;若当前相似度大于预设阈值,则所述待处理文档属于所述已检测话题的后续资讯,更新所述已检测话题对应的向量;否则所述待处理文档为与所述已检测话题不相关的报道。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括第六处理装置,用于统计预设时间段内所述话题模型中各个话题对应的多个参数值,所述多个参数包括报道数量,报道天数,转载次数,点击数以及评论数或回帖数;根据所述各个话题对应的多个参数值,分别计算在所述预设时间段内,所述各个话题的热度值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610586683.2A CN106202530B (zh) | 2016-07-22 | 2016-07-22 | 数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610586683.2A CN106202530B (zh) | 2016-07-22 | 2016-07-22 | 数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106202530A CN106202530A (zh) | 2016-12-07 |
CN106202530B true CN106202530B (zh) | 2019-09-27 |
Family
ID=57492513
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610586683.2A Active CN106202530B (zh) | 2016-07-22 | 2016-07-22 | 数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106202530B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107272654B (zh) * | 2017-07-21 | 2019-06-14 | 南京航空航天大学 | 一种用于无人机飞控系统故障检测的数据聚类降维方法 |
CN107783703B (zh) * | 2017-09-26 | 2019-06-11 | 掌阅科技股份有限公司 | 电子书与电子书话题交互方法、计算设备、存储介质 |
CN109285034B (zh) * | 2018-09-19 | 2021-11-09 | 创新先进技术有限公司 | 一种向人群投放业务的方法和装置 |
CN109460500B (zh) * | 2018-10-24 | 2020-07-03 | 深圳市腾讯计算机系统有限公司 | 热点事件发现方法、装置、计算机设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103324666A (zh) * | 2013-05-14 | 2013-09-25 | 亿赞普(北京)科技有限公司 | 一种基于微博数据的话题跟踪方法及装置 |
CN105224954A (zh) * | 2015-10-10 | 2016-01-06 | 福州大学 | 一种基于Single-pass去除小话题影响的话题发现方法 |
-
2016
- 2016-07-22 CN CN201610586683.2A patent/CN106202530B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103324666A (zh) * | 2013-05-14 | 2013-09-25 | 亿赞普(北京)科技有限公司 | 一种基于微博数据的话题跟踪方法及装置 |
CN105224954A (zh) * | 2015-10-10 | 2016-01-06 | 福州大学 | 一种基于Single-pass去除小话题影响的话题发现方法 |
Non-Patent Citations (1)
Title |
---|
食品安全话题发现与跟踪研究;宋阳;《中国优秀硕士学位论文全文数据库 工程科技Ⅰ辑》;20120815(第08(2012)期);第B024-19页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106202530A (zh) | 2016-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | Explainable text-driven neural network for stock prediction | |
CN108463795B (zh) | 自助分类系统 | |
Jing et al. | An entropy weighting k-means algorithm for subspace clustering of high-dimensional sparse data | |
CN104951548B (zh) | 一种负面舆情指数的计算方法及系统 | |
Zhang et al. | Adapted textrank for term extraction: A generic method of improving automatic term extraction algorithms | |
CN106202530B (zh) | 数据处理方法及装置 | |
Kumar et al. | Supervised language modeling for temporal resolution of texts | |
US20150310000A1 (en) | Methods and computer-program products for organizing electronic documents | |
Patil et al. | Machine learning techniques for the classification of fake news | |
Zia et al. | Evaluation of feature selection approaches for Urdu text categorization | |
Yan et al. | Learning document semantic representation with hybrid deep belief network | |
Barakhnin et al. | Methods to identify the destructive information | |
Gupta et al. | Fake news detection using machine learning | |
Mustafa et al. | Optimizing document classification: Unleashing the power of genetic algorithms | |
Pandya et al. | Mated: metadata-assisted twitter event detection system | |
Liu et al. | A local context‐aware LDA model for topic modeling in a document network | |
Greenberg | Criminal careers: Discrete or continuous? | |
Sun et al. | Text tendency analysis based on multi-granularity emotional chunks and integrated learning | |
Agarwal et al. | Blocking objectionable web content by leveraging multiple information sources | |
Wai et al. | Ontology based web page classification system by using enhanced C4. 5 and Naïve Bayesian classifiers | |
Dai et al. | Approach for text classification based on the similarity measurement between normal cloud models | |
Broda et al. | Evaluation of clustering algorithms for polish word sense disambiguation | |
Trummer | WebChecker: Towards an Infrastructure for Efficient Misinformation Detection at Web Scale. | |
Zhang et al. | Centroid training to achieve effective text classification | |
He et al. | A Novel DBSCAN Based on Binary Local Sensitive Hashing and Binary‐KNN Representation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |