CN103514168B - 数据处理方法和设备 - Google Patents

数据处理方法和设备 Download PDF

Info

Publication number
CN103514168B
CN103514168B CN201210203751.4A CN201210203751A CN103514168B CN 103514168 B CN103514168 B CN 103514168B CN 201210203751 A CN201210203751 A CN 201210203751A CN 103514168 B CN103514168 B CN 103514168B
Authority
CN
China
Prior art keywords
information
classification
grader
probability
microblogging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210203751.4A
Other languages
English (en)
Other versions
CN103514168A (zh
Inventor
张波
孟遥
于浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201210203751.4A priority Critical patent/CN103514168B/zh
Publication of CN103514168A publication Critical patent/CN103514168A/zh
Application granted granted Critical
Publication of CN103514168B publication Critical patent/CN103514168B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种数据处理方法和设备,该方法包括:信息搜索步骤,用于根据定制的类别,在预定信息源中输入关于所定制的类别的关键词以进行搜索,从而获得与所输入的关键词相关的多条信息;属性设定步骤,用于基于预定标准,为所获得的多条信息设定属性;第一分类器调整步骤,用于根据所设定的属性,动态地调整用于对从预定信息源获得的信息进行分类的预设第一分类器;及分类步骤,用于利用调整后的第一分类器对所获得的多条信息进行分类,其中重复执行属性设定步骤、第一分类器调整步骤及分类步骤,直至第一分类器的分类结果满足预定条件为止。根据本发明,可以通过自适应方式调整分类模型,提高了数据处理效率和信息获取的准确度。

Description

数据处理方法和设备
技术领域
本发明涉及一种数据处理方法和设备,更具体地,涉及一种能够通过自适应方式调整分类模型从而更准确地从微博网站获取相关信息的数据处理方法和设备。
背景技术
微博(micro-blog)是近年来新兴的实时媒体。由于微博信息具有内容短、传播速度快、信息量大的特点,因此如何提高数据处理效率以在庞杂的网络数据中快速准确地挖掘所需的信息已对互联网技术提出了新的挑战。
在现有技术中,存在基于用户资料自适应的新闻分类技术,在该技术中,根据用户资料使用贝叶斯分类器选择用户感兴趣的新闻文本,并同时根据用户的阅读习惯等自适应地更新用户资料,从而更准确高效地向用户提供其所感兴趣的新闻资料(例如,参见Ricardo Carreira等人的论文“Evaluating Adaptive User Profile for NewsClassification”)。然而,现有技术中的自适应是人工进行的,从而增加了用户的负担。此外,由于微博文本具有与新闻文本显著不同的特点,因此,需要一种能够提高数据处理效率,从而帮助用户在大量的微博信息中找到感兴趣的信息并且提高返回信息的准确度的技术。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。但是,应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图用来确定本发明的关键性部分或重要部分,也不是意图用来限定本发明的范围。其目的仅仅是以简化的形式给出关于本发明的某些概念,以此作为稍后给出的更详细描述的前序。
因此,鉴于上述情形,本发明的目的是提供一种能够通过自适应方式提高数据处理效率从而提高信息获取准确度的数据处理方法和设备,其能够帮助用户快速且准确地在微博网站中获得感兴趣的信息。
为了实现上述目的,根据本发明的实施例的一方面,提供了一种数据处理方法,其可以包括:信息搜索步骤,用于根据定制的类别,在预定信息源中输入关于所定制的类别的关键词以进行搜索,从而获得与所输入的关键词相关的多条信息;属性设定步骤,用于基于预定标准,为所获得的多条信息设定属性;第一分类器调整步骤,用于根据所设定的属性,动态地调整用于对从预定信息源获得的信息进行分类的预设第一分类器;以及分类步骤,用于利用调整后的第一分类器对所获得的多条信息进行分类,其中,重复地执行属性设定步骤、第一分类器调整步骤以及分类步骤,直至第一分类器的分类结果满足预定条件为止。
根据本发明的优选实施例,在该数据处理方法中,预定信息源可以是微博网站,多条信息可以是多个微博文本,以及第一分类器调整步骤可以包括对第一分类器中的、与以下因素中的至少一个因素相关的参数进行调整:微博文本中的特征词在所定制的类别中的特定类别中的出现概率、微博文本中的特定标点符号在特定类别中的出现概率、与微博文本的内容长度相关的概率、与微博文本的转发评论数量相关的概率以及与微博文本的作者的影响力相关的概率。
根据本发明的另一优选实施例,可以基于以下表达式对多个微博文本进行分类:Score(item)=argMax(category(λ1(L1)+λ2(L2))),其中,item表示所获得的各个微博文本,L1是采用第一分类器获得的该微博文本属于各个类别的概率,L2是采用预设的第二分类器获得的该微博文本属于各个类别的概率,λ1、λ2为预定的权重系数,且λ1+λ2=1,category()表示计算各个微博文本属于各个类别的概率,argMax()表示取算出的概率中的最大值。
根据本发明的又一优选实施例,预定标准可以包括以下因素中的一个或多个:特定信息是否被收藏,特定信息是否被进一步查看,以及特定信息被阅读的时间。
根据本发明的再一优选实施例,关键词可以包括预设的种子关键词和定制关键词,以及信息搜索步骤可以进一步包括:检索子步骤,用于利用种子关键词在预定信息源中进行检索,以获取与种子关键词相关的多条信息;关键词列表提取子步骤,用于从所获取的多条信息提取关键词列表;以及定制关键词确定子步骤,用于利用预定算法计算所提取的关键词列表中的各个关键词的重要性,并将重要性大于预定阈值的预定数量的关键词确定为定制关键词。
根据本发明的实施例的另一方面,还提供了一种数据处理设备,其可以包括:信息搜索单元,被配置成根据定制的类别,在预定信息源中输入关于所定制的类别的关键词以进行搜索,从而获得与所输入的关键词相关的多条信息;属性设定单元,被配置成基于预定标准,为所获得的多条信息设定属性;第一分类器调整单元,被配置成根据所设定的属性,动态地调整用于对从预定信息源获得的信息进行分类的预设第一分类器;以及分类单元,被配置成利用调整后的第一分类器对所获得的多条信息进行分类,其中,属性设定单元、第一分类器调整单元以及分类单元被配置成重复执行处理,直至第一分类器的分类结果满足预定条件为止。
另外,根据本发明的实施例的另一方面,还提供了一种终端设备,该终端设备包括上述数据处理设备。这种终端设备例如包括移动电话、掌上电脑、平板电脑、PC机,等等。
另外,根据本发明的实施例的又一方面,还提供了一种存储介质,该存储介质包括机器可读的程序代码,当在信息处理设备上执行程序代码时,该程序代码使得信息处理设备执行根据本发明的数据处理方法。
此外,根据本发明的实施例的再一方面,还提供了一种程序产品,该程序产品包括机器可执行的指令,当在信息处理设备上执行指令时,该指令使得信息处理设备执行根据本发明的数据处理方法。
因此,根据本发明的实施例,能够提高数据处理效率,帮助用户快速找到感兴趣的信息,并且能够自适应地提高返回信息的准确度。
在下面的说明书部分中给出本发明实施例的其他方面,其中,详细说明用于充分地公开本发明实施例的优选实施例,而不对其施加限定。
附图说明
本发明可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。其中:
图1是示出根据本发明的实施例的数据处理方法的流程图;
图2是详细示出图1所示的信息搜索步骤中的处理的流程图;
图3是示出根据本发明的实施例的同现关系图的示例的示意图;
图4是示出根据本发明的实施例的数据处理设备的配置示例的框图;
图5是示出图4所示的数据处理设备中的信息搜索单元的详细配置的框图;以及
图6是示出作为本发明的实施例中所采用的信息处理设备的个人计算机的示例性结构的框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的设备结构和/或处理步骤,而省略了与本发明关系不大的其它细节。
以下将参照图1至图6来描述根据本发明的实施例的数据处理方法和设备。
首先,将参照图1描述根据本发明的实施例的数据处理方法。如图1所示,该数据处理方法可以包括信息搜索步骤S101、属性设定步骤S102、第一分类器调整步骤S103以及分类步骤S104。
在信息搜索步骤S101中,可以根据定制的类别,在预定信息源中输入关于所定制的类别的关键词以进行搜索,从而获得与所输入的关键词相关的多条信息。例如,对于不同的用户,其可能关注不同的领域,从而可以针对用户而定制与其所关注的领域相关的多个类别。例如,用户可能关注环境状况,从而可以定制诸如空气质量、环境治理、水土流失、水污染等四个类别。此外,预定信息源可以是例如微博网站。
优选地,与所定制的类别相关的关键词可以包括预设的种子关键词和定制关键词。预设的种子关键词例如可以包括但不限于上述类别标签,即,“空气质量”、“环境治理”、“水土流失”以及“水污染”。以下将参照图2详细描述信息搜索步骤S101中的处理流程。
如图2所示,信息搜索步骤S101可以进一步包括检索子步骤S201、关键词列表提取子步骤S202以及定制关键词确定步骤S203。
首先,在检索子步骤S201中,可以利用例如上述种子关键词在例如微博网站的预定信息源中进行检索,以获取与种子关键词相关的多条信息,例如为包含作者、正文、听众、转发和评论等信息的多个微博条目。其中,这里的听众可以包括对微博条目进行了相关操作(例如,包括但不限于评论、转发、阅读、收藏等等)的用户。
接下来,在关键词提取列表子步骤S202中,可以从在步骤S201中获取的多条信息提取关键词列表。例如,该关键词列表可以通过将所获取的微博条目的内容进行分词、停用词过滤等来提取。该关键词列表的提取方法是本领域公知的,在此不再赘述。
然后,在定制关键词子步骤S203中,可以利用预定算法计算在步骤S202中所提取的关键词列表中的各个关键词的重要性,并将重要性大于预定阈值的预定数量的关键词确定为定制关键词。
优选地,对于微博文本,可以如下计算关键词的重要性。首先,可以构建所获取的微博文本的听众(例如,对该微博文本进行转发和/或评论)、作者以及所提取的关键词列表中的各个关键词之间的同现关系图,例如如图3所示。如本领域公知的,这里的同现关系图是指在该特定微博文本中,听众、作者以及各个关键词之间的相互关系的图。接下来,可以利用本领域公知的超链接导向主题搜索(HITS)算法、基于所构建的同现关系图来计算各个关键词的重要性。在该示例中,关键词的重要性可以表示为基于该关键词与听众、作者以及其它关键词之间的相关度的权重,但这仅是示例而非限制。具体地,基于下述表达式(1)来计算各个关键词的重要性:
其中,S(m)表示关键词m的权重,Ma表示与作者a有关的所有关键词的集合,A(am)表示与关键词m有关的作者a的权重,Mr表示听众r的转发或评论中的所有关键词的集合,H(r)表示听众r的权重,Rm表示与关键词m有关的听众的集合,S’(n)表示上次迭代之后的权重值,Im表示与关键词m有关的其它关键词的集合,并且γ为经验值,通常在0至1之间。
优选地,可以将算出的S(m)值大于预定阈值的前N个(即,影响力排序靠前的N个)关键词确定为定制关键词,其中N为预定数值,通常可以取例如1至10之间的值。优选地,该预定阈值可以根据实际情况而取经验值或通过有限次的实验来获得。
应理解,以上描述的计算关键词的重要性的HITS算法仅是示例而非限制,并且本领域技术人员可想到本领域公知的其它适当算法来确定定制关键词。
因此,在上述信息搜索步骤S101中,可以利用上述种子关键词和所确定的定制关键词在微博网站进行搜索。由于在搜索时加入了定制关键词,从而能够缩小返回信息的范围,从而使得处理能够更准确高效的进行。
接下来,返回参照图1,将继续描述根据本发明的实施例的数据处理方法。
在属性设定步骤S102中,可以基于预定标准,为在步骤S101中所获取的多条信息设定属性。优选地,预定标准可以包括以下中的一个或多个:例如,特定信息是否被收藏、特定信息是否被进一步查看以及特定信息被阅读的时间。
此外,基于预定标准为多条信息设定属性可以包括基于预定标准而自动地对各条信息进行等级标注。以微博条目为例,例如,微博条目是否被收藏的标志可以设置为a,其中a=0表示微博条目未被收藏,而a=1表示微博条目被收藏,并且微博条目是否被收藏的等级可以被标注为POS;对于微博条目是否被进一步查看(例如,是否点击该微博条目的作者或评论)的标志可以被设置为b,其中b=0表示未被进一步查看,而b=1表示被进一步查看,并且微博条目是否被进一步查看的等级例如可以同样被标注为POS;并且对于微博条目被阅读的时间,可以根据用户对之前的预定数量的页面的翻页时间,计算该用户的平均阅读时间,如果对后来页面的阅读时间大于平均阅读时间且二者之间的差大于预定阈值,则将该页面内的每个微博条目的阅读时间等级标注为POS1,而如果后来页面的阅读时间小于平均页面阅读时间且二者之间的差大于预定阈值,则将该页面内的每个微博条目的阅读时间等级标注为-POS1。应理解,预定阈值可以根据实际需要而取经验值或者通过有限次的实验来获得。可以看出,此处的属性表示特定信息/数据(这里例如为微博条目)被处理的类型和方式。
接下来,在第一分类器调整步骤S103中,可以根据在步骤S102中所设定的属性,动态地调整用于对从预定信息源获得的信息进行分类的预定第一分类器。
优选地,该预定信息源可以是微博网站,因此所获得的信息可以是多个微博文本,并且在步骤S103中对第一分类器进行调整可以包括对第一分类器中的、与以下因素中的至少一个因素相关的参数进行调整:微博文本中的特征词在所定制的类别中的特定类别中的出现概率、微博文本中的特定标点符号在特定类别中的出现概率、与微博文本的内容长度相关的概率、与微博文本的转发评论数量相关的概率以及与微博文本的作者的影响力相关的概率。优选地,作者的影响力可以包括例如该作者的粉丝数量、该作者的微博被转发/评论的数量等等。第一分类器例如可以是基于这些因素、利用朴素贝叶斯模型进行训练而得到的朴素贝叶斯文本分类器。但应理解,这仅是示例而非限制,并且可以采用其它适当的文本分类器。以下将分别针对这些因素进行详细描述。
首先,将针对微博文本中的特征词在特定类别中的出现概率进行描述。可以通过本领域公知的分词、停用词过滤等技术来获得微博文本内容中的各个词。优选地,词在特定类别中的出现概率可以以CHI系数(即,卡方系数)来表示,并且可以通过以下表达式(2)来计算:
其中,A表示包含词ti且属于类别cj的文本数量,B代表包含词ti且不属于类别cj的文本数量,C代表不包含词ti且属于类别cj的文本数量,D代表不包含词ti且不属于类别cj的文本数量,N=A+B+C+D,即所有文本的总和。
然后,选择其CHI值大于预定阈值的词作为该微博文本的特征词,并得到该特征词在各个类别中的出现概率。该预定阈值可以为经验值或通过有限次的实验获得。
由于文本中的标点符号在一定程度上对语言组织表达、情绪等有影响,因此将文本中的特定标点符号的出现概率纳入考虑可以进一步提高分类结果的准确性。标点符号的出现概率的计算方法可以利用本领域公知的统计(即,包括该标点符号的微博文本的数量与所有微博文本的数量的比率)等方法来实现,在此不再赘述。
对于与微博文本的内容长度(即,微博正文的字符数)、转发评论数量以及作者影响力(这里例如为粉丝数量)有关的因素,根据微博文本自身的特点并结合朴素贝叶斯分类器的原理,将这些因素量化为朴素贝叶斯分类器能够处理的分段特征。具体地,对于微博文本的内容长度,例如,可以将其划分为三段,即,内容长度小于或等于10,内容长度大于10并且小于80以及内容长度大于或等于80;对于转发评论数量,例如可以划分为转发评论数量小于或等于10、大于10且小于100以及大于或等于100这三段;对于作者影响力(例如为粉丝数量),可以划分为影响力小于或等于2、大于2且小于4以及大于或等于4这三段。注意,这里为了防止粉丝数量波动而影响分类结果,可以首先对粉丝数量进行对数运算。接下来,可以根据朴素贝叶斯分类器的工作原理,分别计算所划分的三段中的每段的出现概率,从而得到这三个因素关于各个类别的出现概率。应理解,关于这些分段的描述仅是示例而非限制,并且可以根据实际情况而进行合理划分。
如上所述,由于第一分类器是利用上述因素作为训练语料特征进行训练而得到的分类器模型,因此对第一分类器进行调整可以包括对上述各个因素进行调整。以下以特征词的出现概率为例来详细描述根据在步骤S102中设定的属性而执行的调整处理。
具体地,对于特征词的出现概率的调整可以以下述表达式(3)来表示:
Δ=P(word|ci)*floatpercent
P(word|ci)+=Δ;P(^word|ci)–=Δ/(wordsNUM-1)…(3)
其中,P(word|ci)表示特征词word在类别ci中的出现概率,P(^word|ci)表示除该特征词之外的特征词在类别ci中的出现概率,floatpercent是与在属性设定步骤S102中所标注的等级对应的上浮或者下浮的百分比,其中,上浮为正,下浮为负,并且wordsNUM表示特征词的总数。作为示例,对于在上述步骤S102中所标注的等级POS、POS1以及-POS1,其所对应的floatpercent值分别为5%、0.5%以及-0.5%。
此外,为了模型的一致性,在增大了其中一个特征词在某个特定类别中的出现概率的同时,需要减小其它特征词在该类别中的出现概率,因此P(^word|ci)–=Δ/(wordsNUM-1)是为了平衡而进行的调整。
尽管以上以特征词的出现概率为例描述了调整处理,但是应理解,上述原理同样适用于其它因素,只需要根据各个因素的特征进行适当修改即可。
接下来,在分类步骤S104中,利用在步骤S103中调整后的第一分类器对所获得的各个微博文本进行分类。
然后,重复地执行上述属性设定步骤S102、第一分类器调整步骤S103以及分类步骤S104,直至第一分类器的分类结果满足预定条件为止。作为示例,该预定条件可以为:当第一分类器对所获得的微博文本中的预定量的微博文本的分类结果符合预期设定时,即可终止上述迭代过程。优选地,该预定量例如可以为所获得的微博文本总量的80%,这里80%可由本领域技术人员根据实际情况来设定,例如可以为经验值或者通过合理次数的试验所确定的值。
由以上描述可以看出,第一分类器是自适应的分类模型,其能够在分类的同时根据预定标准而自适应地对分类器模型进行调整,从而不断优化分类器模型,大大提高了数据处理的效率和分类结果的准确性。
此外,由于微博网站上的信息本身的不确定性,因此利用微博语料特征进行训练而得到的分类器本身也可能存在一定误差。优选地,为了进一步提高分类结果的准确性,还可以通过利用来自其它信息源(例如新闻网站)的语料特征进行训练而得到的分类器模型(即,预设的第二分类器)来对分类结果进行调整,该过程可以以下述表达式(4)来表示:Score(item)=argMax(category(λ1(L1)+λ2(L2)))…(4)
其中,item表示所获得的各个微博文本,L1是采用所述第一分类器获得的该微博文本属于所定制的类别中的各类的概率,L2是采用预设的第二分类器获得的该微博文本属于各类的概率,λ1、λ2为预定的权重系数,且λ1+λ2=1,category()表示计算各个微博文本属于各个类的概率,argMax()表示取算出的概率中的最大值,由此得到最终的分类结果。其中,λ1、λ2可以为经验值,也可以通过有限次的实验来获得。
由于来自新闻网站的信息的可信度、准确度较高,因此通过利用新闻语料特征训练得到的第二分类器对分类结果进行加权调整,可以进一步提高分类结果的准确性。
此外,对于新闻语料特征,其特征词在特定类别中的出现概率也可以利用上述CHI系数来表示,并且第二分类器可以采用朴素贝叶斯模型、以在新闻网站中输入上述种子关键词和定制关键词进行搜索得到的新闻文本作为训练语料进行训练来获得。
根据以上参照图1至图3的描述,通过根据微博的特点以自适应方式对分类器模型进行调整,提高了数据处理效率和分类准确度,从而能够帮助用户在海量信息中快速找到所关注的信息,并大大提高了返回信息的准确度。
虽然上面结合附图1至3详细描述了根据本发明实施例的数据处理方法,但是本领域的技术人员应当明白,附图所示的流程图仅仅是示例性的,并且可以根据实际应用和具体要求的不同,对上述方法流程进行相应的修改。例如,根据需要,可以对上述方法中的某些步骤的执行顺序进行调整,或者可以省去或者添加某些处理步骤。此外,应理解,以上示例并不构成对本发明的限制。例如,尽管以上以基于微博的应用描述了该数据处理方法,但是应理解,本领域技术人员可以基于所教导的原理,对上述过程进行适当的修改而应用于其它应用场合。
与根据本发明实施例的数据处理方法相对应,本发明的实施例还提供了一种数据处理设备。
具体地,如图4所示,数据处理设备400可以包括信息搜索单元401、属性设定单元402、第一分类器调整单元403以及分类单元404。以下将详细描述各个单元的功能配置。
信息搜索单元401可以被配置成根据定制的类别,在例如微博网站的预定信息源中输入关于所定制的类别的关键词以进行搜索,从而获得与所输入的关键词相关的多条信息(例如多个微博文本)。优选地,所输入的关键词包括预定的种子关键词和定制关键词,其中种子关键词例如可以为各个类别的类别标签。
接下来,将参照图5详细描述信息搜索单元401的详细功能配置。如图5所示,信息搜索单元401可以进一步包括检索子单元501、关键词列表提取子单元502以及定制关键词确定子单元503。
具体地,检索子单元501可以被配置成利用种子关键词在预定信息源中进行检索,以获取与种子关键词相关的多条信息。这多条信息例如可以为包含作者、正文、听众、转发和评论等信息的多个微博条目。
关键词列表提取子单元502可以被配置成从检索子单元501所获取的多条信息提取关键词列表。
定制关键词确定子单元503可以被配置成利用预定算法计算所提取的关键词列表中的各个关键词的重要性,并将重要性大于预定阈值的预定数量的关键词确定为定制关键词。优选地,可以基于所构建的关于所获取的多个微博文本的听众(例如,对该微博文本进行转发和/或评论)、作者以及所提取的关键词列表中的各个关键词之间的同现关系图、利用HITS算法来计算各个关键词的重要性,并且将例如重要性排序靠前的预定数量的关键词确定为定制关键词。
接下来,返回参照图4,将继续描述根据本发明的实施例的数据处理设备的功能配置。
属性设定单元402可以被配置成基于预定标准,为信息搜索单元401所获取的多条信息设定属性。
优选地,预定标准可以包括以下中的一个或多个:例如,特定信息是否被收藏、特定信息是否被进一步查看以及特定信息被阅读的时间。
此外,优选地,基于预定标准为多条信息设定属性可以包括基于预定标准而自动地对各条信息进行等级标注。该标注处理可以参考以上针对属性设定步骤S102进行的描述,在此不再重复描述。
第一分类器调整单元403可以被配置成根据属性设定单元402所设定的属性,动态地调整用于对从预定信息源获得的信息进行分类的预设第一分类器。
优选地,在该预定信息源是微博网站的情况下,对第一分类器进行调整可以包括对第一分类器中的、与以下因素中的至少一个因素相关的参数进行调整:微博文本中的特征词在所定制的类别中的特定类别中的出现概率、微博文本中的特定标点符号在特定类别中的出现概率、与微博文本的内容长度相关的概率、与微博文本的转发评论数量相关的概率以及与微博文本的作者的影响力相关的概率。此外,第一分类器例如可以是基于这些因素、利用朴素贝叶斯模型进行训练而得到的朴素贝叶斯文本分类器。
关于上述各个因素的计算和调整,可以参考以上对第一分类器调整步骤S103的描述,在此不再重复描述以避免冗余。
分类单元404可以被配置成利用调整后的第一分类器对所获得的多条信息进行分类。
然后,上述属性设定单元402、第一分类器调整单元403以及分类单元404被配置成重复执行处理,直至第一分类器的分类结果满足预定条件为止。
此外,为了进一步提高分类结果的准确度,还可以利用以来自其它信息源的语料特征进行训练而得到的第二分类器对分类结果进行调整。这里,作为示例,其它信息源可以是信息可信度、准确度较高的新闻网站。关于结合第一分类器和第二分类器对分类结果进行调整的具体处理可以参考以上描述。
需要说明的是,本发明实施例所述的设备是与前述方法实施例相对应的,因此,设备实施例中未详述的部分,请参见方法实施例中相应位置的介绍,这里不再赘述。
另外,还应该指出的是,上述系列处理和设备也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图6所示的通用个人计算机600安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图6中,中央处理单元(CPU)601根据只读存储器(ROM)602中存储的程序或从存储部分608加载到随机存取存储器(RAM)603的程序执行各种处理。在RAM 603中,也根据需要存储当CPU 601执行各种处理等等时所需的数据。
CPU 601、ROM 602和RAM 603经由总线604彼此连接。输入/输出接口605也连接到总线604。
下述部件连接到输入/输出接口605:输入部分606,包括键盘、鼠标等等;输出部分607,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等等,和扬声器等等;存储部分608,包括硬盘等等;和通信部分609,包括网络接口卡比如LAN卡、调制解调器等等。通信部分609经由网络比如因特网执行通信处理。
根据需要,驱动器610也连接到输入/输出接口605。可拆卸介质611比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器610上,使得从中读出的计算机程序根据需要被安装到存储部分608中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质611安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质611。可拆卸介质611的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 602、存储部分608中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
还需要指出的是,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
虽然已经详细说明了本发明及其优点,但是应当理解在不脱离由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且,本发明实施例的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
根据本发明的实施例,还公开了以下附记:
附记1.一种数据处理方法,包括:
信息搜索步骤,用于根据定制的类别,在预定信息源中输入关于所定制的类别的关键词以进行搜索,从而获得与所输入的关键词相关的多条信息;
属性设定步骤,用于基于预定标准,为所获得的多条信息设定属性;
第一分类器调整步骤,用于根据所设定的属性,动态地调整用于对从所述预定信息源获得的信息进行分类的预设第一分类器;以及
分类步骤,用于利用调整后的第一分类器对所获得的多条信息进行分类,
其中,重复地执行所述属性设定步骤、所述第一分类器调整步骤以及所述分类步骤,直至所述第一分类器的分类结果满足预定条件为止。
附记2.根据附记1所述的数据处理方法,其中,
所述预定信息源是微博网站,
所述多条信息是多个微博文本,以及
所述第一分类器调整步骤包括对所述第一分类器中的、与以下因素中的至少一个因素相关的参数进行调整:微博文本中的特征词在所定制的类别中的特定类别中的出现概率、微博文本中的特定标点符号在所述特定类别中的出现概率、与微博文本的内容长度相关的概率、与微博文本的转发评论数量相关的概率以及与微博文本的作者的影响力相关的概率。
附记3.根据附记2所述的数据处理方法,其中,所述第一分类器是基于所述各个因素、采用朴素贝叶斯模型进行训练得到的。
附记4.根据附记2或3所述的数据处理方法,其中,基于以下表达式对所述多个微博文本进行分类:
Score(item)=argMax(category(λ1(L1)+λ2(L2)))
其中,item表示所获得的各个微博文本,L1是采用所述第一分类器获得的该微博文本属于所定制的类别中的各个类别的概率,L2是采用预设的第二分类器获得的该微博文本属于所定制的类别中的各个类别的概率,λ1、λ2为预定的权重系数,且λ1+λ2=1,category()表示计算各个微博文本属于所定制的类别中的各个类别的概率,argMax()表示取算出的概率中的最大值。
附记5.根据附记4所述的数据处理方法,其中,所述第二分类器是采用朴素贝叶斯模型、以在新闻网站中输入所述关键词进行搜索而获得的新闻文本作为训练语料进行训练而得到的。
附记6.根据附记1所述的数据处理方法,其中,所述关键词包括预设的种子关键词和定制关键词,以及
所述信息搜索步骤进一步包括:
检索子步骤,用于利用所述种子关键词在所述预定信息源中进行检索,以获取与所述种子关键词相关的多条信息;
关键词列表提取子步骤,用于从所获取的多条信息提取关键词列表;以及
定制关键词确定子步骤,用于利用预定算法计算所提取的关键词列表中的各个关键词的重要性,并将重要性大于预定阈值的预定数量的关键词确定为所述定制关键词。
附记7.根据附记6所述的数据处理方法,其中,所述预定算法是超链接导向主题搜索HITS算法。
附记8.根据附记1-7中任一项所述的数据处理方法,其中,在对所述第一和/或第二分类器进行训练的过程中,通过以下表达式计算词在特定类别中的出现概率CHI:
其中,A表示包含词ti且属于类别cj的文本数量,B代表包含词ti且不属于类别cj的文本数量,C代表不包含词ti且属于类别cj的文本数量,D代表不包含词ti且不属于类别cj的文本数量,并且N=A+B+C+D,即所有文本的总和。
附记9.根据附记1所述的数据处理方法,其中,所述预定标准包括以下因素中的一个或多个:特定信息是否被收藏,特定信息是否被进一步查看,以及特定信息被阅读的时间。
附记10.一种数据处理设备,包括:
信息搜索单元,被配置成根据定制的类别,在预定信息源中输入关于所定制的类别的关键词以进行搜索,从而获得与所输入的关键词相关的多条信息;
属性设定单元,被配置成基于预定标准,为所获得的多条信息设定属性;
第一分类器调整单元,被配置成根据所设定的属性,动态地调整用于对从所述预定信息源获得的信息进行分类的预设第一分类器;以及
分类单元,被配置成利用调整后的第一分类器对所获得的多条信息进行分类,
其中,所述属性设定单元、所述第一分类器调整单元以及所述分类单元被配置成重复执行处理,直至所述第一分类器的分类结果满足预定条件为止。
附记11.根据附记10所述的数据处理设备,其中,
所述预定信息源是微博网站,
所述多条信息是多个微博文本,以及
所述第一分类器调整单元进一步被配置成对所述第一分类器中的、与以下因素中的至少一个因素相关的参数进行调整:微博文本中的特征词在所定制的类别中的特定类别中的出现概率、微博文本中的特定标点符号在所述特定类别中的出现概率、与微博文本的内容长度相关的概率、与微博文本的转发评论数量相关的概率以及与微博文本的作者的影响力相关的概率。
附记12.根据附记11所述的数据处理设备,其中,所述第一分类器是基于所述各个因素、采用朴素贝叶斯模型进行训练得到的。
附记13.根据附记11或12所述的数据处理设备,其中,基于以下表达式对所述多个微博文本进行分类:
Score(item)=argMax(category(λ1(L1)+λ2(L2)))
其中,item表示所获得的各个微博文本,L1是采用所述第一分类器获得的该微博文本属于所定制的类别中的各个类别的概率,L2是采用预设的第二分类器获得的该微博文本属于所述各个类别的概率,λ1、λ2为预定的权重系数,且λ1+λ2=1,category()表示计算各个微博文本属于所述各个类别的概率,argMax()表示取算出的概率中的最大值。
附记14.根据附记13所述的数据处理设备,其中,所述第二分类器是采用朴素贝叶斯模型、以在新闻网站中输入所述关键词进行搜索而获得的新闻文本作为训练语料进行训练而得到的。
附记15.根据附记10所述的数据处理设备,其中,所述关键词包括预设的种子关键词和定制关键词,以及
所述信息搜索单元进一步包括:
检索子单元,被配置成利用所述种子关键词在所述预定信息源中进行检索,以获取与所述种子关键词相关的多条信息;
关键词列表提取子单元,被配置从所获取的多条信息提取关键词列表;以及
定制关键词确定子单元,被配置利用预定算法计算所提取的关键词列表中的各个关键词的重要性,并将重要性大于预定阈值的预定数量的关键词确定为所述定制关键词。
附记16.根据附记15所述的数据处理设备,其中,所述预定算法是超链接导向主题搜索HITS算法。
附记17.根据附记10-16中任一项所述的数据处理设备,其中,在对所述第一和/或第二分类器进行训练的过程中,通过以下表达式计算词在特定类别中的出现概率CHI:
其中,A表示包含词ti且属于类别cj的文本数量,B代表包含词ti且不属于类别cj的文本数量,C代表不包含词ti且属于类别cj的文本数量,D代表不包含词ti且不属于类别cj的文本数量,并且N=A+B+C+D,即所有文本的总和。
附记18.根据附记10所述的数据处理设备,其中,所述预定标准包括以下因素中的一个或多个:特定信息是否被收藏,特定信息是否被进一步查看,以及特定信息被阅读的时间。
附记19.一种终端设备,所述终端设备包括根据上述附记10-18中任一项所述的数据处理设备。
附记20.根据附记19所述的终端设备,其中,所述终端设备包括移动电话、掌上电脑、平板电脑、个人计算机等等。

Claims (10)

1.一种数据处理方法,包括:
信息搜索步骤,用于根据定制的类别,在预定信息源中输入关于所定制的类别的关键词以进行搜索,从而获得与所输入的关键词相关的多条信息;
属性设定步骤,用于基于预定标准,为所获得的多条信息设定属性;
第一分类器调整步骤,用于根据所设定的属性,动态地调整用于对从所述预定信息源获得的信息进行分类的预设第一分类器;以及
分类步骤,用于利用调整后的第一分类器对所获得的多条信息进行分类,
其中,重复地执行所述属性设定步骤、所述第一分类器调整步骤以及所述分类步骤,直至所述第一分类器的分类结果满足预定条件为止。
2.根据权利要求1所述的数据处理方法,其中,
所述预定信息源是微博网站,
所述多条信息是多个微博文本,以及
所述第一分类器调整步骤包括对所述第一分类器中的、与以下因素中的至少一个因素相关的参数进行调整:微博文本中的特征词在所定制的类别中的特定类别中的出现概率、微博文本中的特定标点符号在所述特定类别中的出现概率、与微博文本的内容长度相关的概率、与微博文本的转发评论数量相关的概率以及与微博文本的作者的影响力相关的概率。
3.根据权利要求2所述的数据处理方法,其中,基于以下表达式对所述多个微博文本进行分类:
Score(item)=argMax(category(λ1(L1)+λ2(L2)))
其中,item表示所获得的各个微博文本,L1是采用所述第一分类器获得的该微博文本属于所定制的类别中的各个类别的概率,L2是采用预设的第二分类器获得的该微博文本属于所述各个类别的概率,λ1、λ2为预定的权重系数,且λ1+λ2=1,category()表示计算各个微博文本属于所述各个类别的概率,argMax()表示取算出的概率中的最大值。
4.根据权利要求1所述的数据处理方法,其中,所述关键词包括预设的种子关键词和定制关键词,以及
所述信息搜索步骤进一步包括:
检索子步骤,用于利用所述种子关键词在所述预定信息源中进行检索,以获取与所述种子关键词相关的多条信息;
关键词列表提取子步骤,用于从所获取的多条信息提取关键词列表;以及
定制关键词确定子步骤,用于利用预定算法计算所提取的关键词列表中的各个关键词的重要性,并将重要性大于预定阈值的预定数量的关键词确定为所述定制关键词。
5.一种数据处理设备,包括:
信息搜索单元,被配置成根据定制的类别,在预定信息源中输入关于所定制的类别的关键词以进行搜索,从而获得与所输入的关键词相关的多条信息;
属性设定单元,被配置成基于预定标准,为所获得的多条信息设定属性;
第一分类器调整单元,被配置成根据所设定的属性,动态地调整用于对从所述预定信息源获得的信息进行分类的预设第一分类器;以及
分类单元,被配置成利用调整后的第一分类器对所获得的多条信息进行分类,
其中,所述属性设定单元、所述第一分类器调整单元以及所述分类单元被配置成重复地执行处理,直至所述第一分类器的分类结果满足预定条件为止。
6.根据权利要求5所述的数据处理设备,其中,
所述预定信息源是微博网站,
所述多条信息是多个微博文本,以及
所述第一分类器调整单元进一步被配置成对所述第一分类器中的、与以下因素中的至少一个因素相关的参数进行调整:微博文本中的特征词在所定制的类别中的特定类别中的出现概率、微博文本中的特定标点符号在所述特定类别中的出现概率、与微博文本的内容长度相关的概率、与微博文本的转发评论数量相关的概率以及与微博文本的作者的影响力相关的概率。
7.根据权利要求6所述的数据处理设备,其中,基于以下表达式对所述多个微博文本进行分类:
Score(item)=argMax(category(λ1(L1)+λ2(L2)))
其中,item表示所获得的各个微博文本,L1是采用所述第一分类器获得的该微博文本属于所定制的类别中的各个类别的概率,L2是采用预设的第二分类器获得的该微博文本属于所述各个类别的概率,λ1、λ2为预定的权重系数,且λ1+λ2=1,category()表示计算各个微博文本属于所述各个类别的概率,argMax()表示取算出的概率中的最大值。
8.根据权利要求5所述的数据处理设备,其中,所述预定标准包括以下因素中的一个或多个:特定信息是否被收藏,特定信息是否被进一步查看,以及特定信息被阅读的时间。
9.根据权利要求5所述的数据处理设备,其中,所述关键词包括预设的种子关键词和定制关键词,以及
所述信息搜索单元进一步包括:
检索子单元,被配置成利用所述种子关键词在所述预定信息源中进行检索,以获取与所述种子关键词相关的多条信息;
关键词列表提取子单元,被配置成从所获取的多条信息提取关键词列表;以及
定制关键词确定子单元,被配置成利用预定算法计算所提取的关键词列表中的各个关键词的影响力,并将重要性大于预定阈值的预定数量的关键词确定为所述定制关键词。
10.一种终端设备,所述终端设备包括根据上述权利要求5-9中任一项所述的数据处理设备。
CN201210203751.4A 2012-06-15 2012-06-15 数据处理方法和设备 Expired - Fee Related CN103514168B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210203751.4A CN103514168B (zh) 2012-06-15 2012-06-15 数据处理方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210203751.4A CN103514168B (zh) 2012-06-15 2012-06-15 数据处理方法和设备

Publications (2)

Publication Number Publication Date
CN103514168A CN103514168A (zh) 2014-01-15
CN103514168B true CN103514168B (zh) 2017-05-03

Family

ID=49896908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210203751.4A Expired - Fee Related CN103514168B (zh) 2012-06-15 2012-06-15 数据处理方法和设备

Country Status (1)

Country Link
CN (1) CN103514168B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984701A (zh) * 2014-04-16 2014-08-13 北京邮电大学 微博转发量预测模型生成方法及微博转发量预测方法
CN107038193B (zh) * 2016-11-17 2020-11-27 创新先进技术有限公司 一种文本信息的处理方法和装置
CN110019827B (zh) * 2017-08-24 2023-03-14 腾讯科技(北京)有限公司 一种语料库生成方法、装置、设备和计算机存储介质
CN108563722B (zh) * 2018-04-03 2021-04-02 有米科技股份有限公司 文本信息的行业分类方法、系统、计算机设备和存储介质
CN110322153A (zh) * 2019-07-09 2019-10-11 中国工商银行股份有限公司 监控事件处理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1441930A (zh) * 2000-07-26 2003-09-10 皇家菲利浦电子有限公司 通过时间分片进行文本的自动化分类的系统和方法
CN1719436A (zh) * 2004-07-09 2006-01-11 中国科学院自动化研究所 一种新的面向文本分类的特征向量权重的方法及装置
CN101178714A (zh) * 2006-12-20 2008-05-14 腾讯科技(深圳)有限公司 一种网页分类方法及装置
CN102279890A (zh) * 2011-09-02 2011-12-14 苏州大学 基于微博的情感词提取收集方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059815A (zh) * 2007-05-09 2007-10-24 宋鸣 网络文摘定制搜索引擎
US20100306144A1 (en) * 2009-06-02 2010-12-02 Scholz Martin B System and method for classifying information

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1441930A (zh) * 2000-07-26 2003-09-10 皇家菲利浦电子有限公司 通过时间分片进行文本的自动化分类的系统和方法
CN1719436A (zh) * 2004-07-09 2006-01-11 中国科学院自动化研究所 一种新的面向文本分类的特征向量权重的方法及装置
CN101178714A (zh) * 2006-12-20 2008-05-14 腾讯科技(深圳)有限公司 一种网页分类方法及装置
CN102279890A (zh) * 2011-09-02 2011-12-14 苏州大学 基于微博的情感词提取收集方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于半监督学习的短文本分类方法;孙学琛,高志强,全志斌,施嘉鸿;《山东理工大学学报(自然科学版)》;20120131;第26卷(第1期);第1页,第3页 *
基于语义分析的微博搜索;刘晓华,韦福如,段亚娟,周明;《山东大学学报(理学版)》;20120531;第47卷(第5期);第38-41页 *
基于语义的微博短信息分类;崔争艳;《现代计算机(专业版)》;20100825;18-20页 *

Also Published As

Publication number Publication date
CN103514168A (zh) 2014-01-15

Similar Documents

Publication Publication Date Title
CN106815369B (zh) 一种基于Xgboost分类算法的文本分类方法
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
Marie-Sainte et al. Firefly algorithm based feature selection for Arabic text classification
CN108628971B (zh) 不均衡数据集的文本分类方法、文本分类器及存储介质
US10387455B2 (en) On-the-fly pattern recognition with configurable bounds
CN104750844A (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
US20230111582A1 (en) Text mining method based on artificial intelligence, related apparatus and device
CN105335352A (zh) 基于微博情感的实体识别方法
CN103514168B (zh) 数据处理方法和设备
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
CN111767403A (zh) 一种文本分类方法和装置
CN106599054A (zh) 一种题目分类及推送的方法及系统
Romanov et al. Application of natural language processing algorithms to the task of automatic classification of Russian scientific texts
CN110008309A (zh) 一种短语挖掘方法及装置
CN106570170A (zh) 基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统
CN112632984A (zh) 基于描述文本词频的图模型移动应用分类方法
Nguyen et al. An ensemble of shallow and deep learning algorithms for Vietnamese sentiment analysis
CN110347821B (zh) 一种文本类别标注的方法、电子设备和可读存储介质
CN108153899A (zh) 一种智能化文本分类方法
CN111754208A (zh) 一种招聘简历自动筛选方法
CN107092679A (zh) 一种特征词向量获得方法、文本分类方法及装置
CN111782811A (zh) 一种基于卷积神经网络和支持向量机的电子政务敏感文本检测方法
Singh et al. News classification system using machine learning approach
Trivedi et al. A modified content-based evolutionary approach to identify unsolicited emails

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170503

Termination date: 20180615

CF01 Termination of patent right due to non-payment of annual fee