CN106156091A - 描述短文本的作者的方法和设备 - Google Patents

描述短文本的作者的方法和设备 Download PDF

Info

Publication number
CN106156091A
CN106156091A CN201510151745.2A CN201510151745A CN106156091A CN 106156091 A CN106156091 A CN 106156091A CN 201510151745 A CN201510151745 A CN 201510151745A CN 106156091 A CN106156091 A CN 106156091A
Authority
CN
China
Prior art keywords
author
short text
classification
vector
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510151745.2A
Other languages
English (en)
Inventor
宋双永
郑仲光
孟遥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201510151745.2A priority Critical patent/CN106156091A/zh
Publication of CN106156091A publication Critical patent/CN106156091A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种描述短文本的作者的方法和设备。该描述短文本的作者的方法包括:根据作者的多个短文本,确定作者感兴趣的类别;以及提取作者感兴趣的类别的代表性短文本,作为对作者的描述。根据本发明的方法和设备能够容易地、准确地让读者了解作者的兴趣爱好。

Description

描述短文本的作者的方法和设备
技术领域
本发明一般地涉及信息处理领域。具体而言,本发明涉及一种能够准确地描述短文本的作者以便于读者容易地、准确地了解作者的兴趣爱好的方法和设备。
背景技术
近年来,作为一种短文本的微博(microblog)得到了迅猛的发展,成为非常流行的网络信息发布和获取平台。微博用户通过关注其他微博用户,能够接收自动推送的关注用户的微博内容。一个显而易见的问题是如何确定成千上万的微博用户中哪些用户的内容是自己感兴趣的内容。
最简单的方式是逐个阅读其他微博用户的已发表微博,了解到其他微博用户的兴趣喜好,然后决定是否关注。但是这种方式最费力、也是最不准确的。因为阅读其他微博用户的已发表微博需要消耗大量的时间,另外微博用户可能近期发表的微博关注于近期的事件,不能很好地体现出微博用户总体的兴趣喜好。
传统的方法还有抽取微博用户使用的高频关键词,利用所抽取的关键词给微博用户打标签,帮助其他微博用户了解该用户。这种方法虽然较为节省时间,但是不一定准确,并且作为标签的关键词缺乏完整的语义信息,表达方式相对抽象,不容易被其他用户更好的理解和使用。
因此,期望一种能够以简单、容易理解的方式对短文本的作者的兴趣喜好进行描述以便于读者快速地、准确地了解短文本的作者的方法和设备。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的目的是针对现有技术的上述问题,提出了一种能够语义上对短文本的作者进行描述的方法和设备。
为了实现上述目的,根据本发明的一个方面,提供了一种描述短文本的作者的方法,该方法包括:根据作者的多个短文本,确定作者感兴趣的类别;以及提取作者感兴趣的类别的代表性短文本,作为对作者的描述。
根据本发明的另一个方面,提供了一种描述短文本的作者的设备,该设备包括:兴趣确定装置,被配置为:根据作者的多个短文本,确定作者感兴趣的类别;以及描述生成装置,被配置为:提取作者感兴趣的类别的代表性短文本,作为对作者的描述。
另外,根据本发明的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本发明的上述方法。
此外,根据本发明的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本发明的上述方法。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中:
图1示出了根据本发明的实施例的描述短文本的作者的方法的流程图;
图2示出了根据本发明的实施例的步骤S1的一种实现方式;
图3示出了根据本发明实施例的描述短文本的作者的设备的结构方框图;以及
图4示出了可用于实施根据本发明实施例的方法和设备的计算机的示意性框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。另外,还需要指出的是,在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。
本发明的基本思想是确定短文本的作者感兴趣的类别,然后提取该类别的代表性短文本,作为对作者的描述。读者通过阅读代表性短文本,能够容易、准确地了解作者的兴趣喜好,从而便于判断是否与自己志趣相投,是否关注作者。
下面将参照图1描述根据本发明的实施例的描述短文本的作者的方法的流程。
图1示出了根据本发明的实施例的描述短文本的作者的方法的流程图。如图1所示,根据本发明的实施例的描述短文本的作者的方法包括如下步骤:根据作者的多个短文本,确定作者感兴趣的类别(步骤S1);以及提取作者感兴趣的类别的代表性短文本,作为对作者的描述(步骤S2)。
在步骤S1中,根据作者的多个短文本,确定作者感兴趣的类别。
从作者已发表的多个短文本中,挖掘出作者的兴趣喜好,可以利用很多种手段。下文中仅给出示例和优选的手段,本发明不限于此。
图2示出了根据本发明的实施例的步骤S1的一种实现方式。如图2所示,步骤S1可以包括:利用主题模型,将作者的多个短文本中的每一个转换为对应的主题向量(步骤S21);对主题向量进行聚类,以得到代表短文本内容的类别的多个簇(步骤S22);对多个簇进行排序,将排序结果靠前的若干簇所代表的类别确定为作者感兴趣的类别(步骤S23)。
首先,进行预处理。即,对作者的多个短文本进行分词,并对所得到的词语进行去重,从而将每个短文本表示为一个词向量。此时的词向量的维度往往能够达到几万维,并且其中的数据非常的稀疏。
从短文本挖掘信息的一个困难在于直接抽取出来的往往是词语,而词语构成的词向量维度很大、十分稀疏,不利于深入进行数据挖掘。
针对于此,本发明利用主题模型将词向量降维。
主题模型包括但不限于:LDA(Latent Dirichlet Allocation,潜在狄利克雷分配)、LSA(Latent Semantic Analysis,潜在语义分析)、PLSA(Probability Latent Semantic Analysis,概率潜在语义分析)。
在步骤S21中,利用主题模型发现隐含主题,并形成词语与主题之间的转换关系,将词向量转换为主题向量。
主题模型的主题数目可以根据经验设定为几十到几百。这样,几万维的稀疏的词向量就可以转换为几十到几百维的主题向量,从而在语义层次上对词向量进行了降维。
主题模型的训练方法是首先设定主题模型的输出主题数,然后向主题模型输入多个训练用短文本,以输出符合设定的输出主题数的多个主题向量。经过训练的主题模型能够将给定的词向量转换为主题向量。
接着,在步骤S22中,对主题向量进行聚类,以得到代表短文本内容的类别的多个簇。
主题向量以向量的形式体现了短文本内容在潜在主题上的分布。通过对主题向量进行聚类,可以获得潜在主题更上一级别的内容类别的信息。
可以采用任何适当的聚类方法,对主题向量进行聚类。
根据一个实施例,采用根据经验指定的欧氏距离/相似度阈值对主题向量进行聚类。
根据优选的实施例,可以确定用于聚类的自适应阈值,然后利用所确定的自适应阈值,对主题向量进行聚类。
自适应阈值的确定方法例如是计算主题向量中两两之间的欧式距离的平均值与大于0且小于或等于1的调整系数的乘积,作为自适应阈值。调整系数可以根据经验指定,优选为0.9。
假设有x个主题向量,则自适应阈值可以表示为
T = w * Σ i = 1 x - 1 Σ j = i + 1 x Ed ( S ( m i ) , S ( m j ) ) x * ( x - 1 ) 2 .
其中,T为自适应阈值,w为调整系数,为x个主题向量中每两个主题向量构成的向量对的个数,S(mi)和S(mj)分别表示短文本mi和mj对应的主题向量,Ed(S(mi),S(mj))表示S(mi)和S(mj)的欧式距离,表示两两主题向量的欧式距离的总和。
自适应阈值的确定方法还例如是计算主题向量中两两之间的相似度的平均值与大于或等于1的调整系数的乘积,作为自适应阈值。调整系数可以根据经验指定。
确定了自适应阈值之后,可以采用如下方法基于自适应阈值对主题向量进行聚类。下面以欧氏距离相关的自适应阈值为例进行说明,相似度相关的自适应阈值的聚类类似。
(1)随机选择一个主题向量,作为一个新簇;
(2)随机选择一个未聚类的主题向量,计算其与每一个已有簇的中心向量之间的欧式距离;
(3)将欧式距离小于自适应阈值的主题向量,加入到对应的簇中;
(4)将欧式距离均大于或等于自适应阈值的主题向量,作为一个新簇;
重复上述步骤(2)-(4)直至所有主题模型均被聚类。
值得一提的是上述自适应阈值的方法具有很好的技术效果。如果采用固定阈值进行聚类成预定义的类别,那么一方面可能作者的喜好比较特殊,没有合适的预定义类别适合分入,另一方面可能作者的喜好分布粒度较细,无法对作者的喜好进行细分,而是可能将作者完全归入一类预定义类别中。但是采用自适应阈值的方法,可以自动适应作者喜好的分布和粒度,进行适当的分类。
举例来说,如果预定义的类别只有新闻、体育、娱乐、军事、历史等方面,而作者的喜好实际上是非常小众的敦煌壁画,则无法适当的分类。采用自适应阈值就可以将作者的短文本类别分类为类别1、类别2、类别3等,其中例如类别3对应于敦煌壁画。在后面的步骤中,以一条敦煌壁画的代表性短文本体现这种类别。
再比如,如果作者发布的所有短文本都是关于篮球的,那么只能被分类到体育。但实际上,作者的兴趣分布粒度实际上更细,应该是篮球下面的篮球视频、篮球广告、篮球周边、篮球明星、NBA、CBA中的篮球明星。采用自适应阈值就可以将作者的短文本类别分类为例如篮球视频、篮球广告、篮球周边、篮球明星、NBA、CBA。在后面的步骤中,以一条篮球明星的代表性短文本体现作者细粒度的喜好。
在步骤S23中,对多个簇进行排序,将排序结果靠前的若干簇所代表的类别确定为作者感兴趣的类别。
例如,可以根据每个簇中的主题向量的数量,对多个簇进行排序。簇中的主题向量的数量越多,表明作者对该簇所代表的类别更感兴趣。
例如,除了根据每个簇中的主题向量的数量,还根据每个簇中的主题向量对应的短文本的发表时间,对多个簇进行排序。簇对应的短文本的发表时间约接近现在,表明作者近期对该簇所代表的类别更感兴趣。
排序所依据的评价值例如可以表示为
评价值I(ci)表示作者对类别ci感兴趣的程度,类别ci对应于第i个簇,Ni是指类别ci包含的短文本数量,对应于第i个簇中包括的主题向量的个数,exp()是以自然常数e为底的指数函数,tj是类别ci中包含的短文本mj的发表时间,tp是指现在的时间,γ是衰减内核参数,表示兴趣衰减的快慢,优选地,γ设定为7(天)。
经过步骤S1,即可获知作者的兴趣喜好。在步骤S2中,抽取能够代表作者兴趣喜好的代表性短文本,作为对作者的描述,以便于读者了解作者。
应理解,可以从作者感兴趣的类别对应的簇中的主题向量对应的短文本中选择适当的代表性短文本。
一种优选的方式是针对在步骤S23中的排序结果靠前的若干簇中的每一个,基于其中的主题向量与簇的中心向量之间的距离和/或主题向量对应的短文本的长度,选择一个主题向量对应的短文本,作为代表该簇对应的类别的代表性短文本。
主题向量与簇的中心向量之间的距离表明主题向量对应的短文本与该簇代表的类别的贴近程度。距离越小,越好代表对应的类别。
主题向量对应的短文本的长度体现了表达语义的丰富程度。短文本的长度越长,短文本提供的语义信息越丰富。
因此,可以基于以上两个因素中的一个或两者,来提取适当的代表性短文本,表征作者喜好的类别。
举例来说,选择类别的代表性短文本的依据可以是
R ( m j ) = L ( m j ) Ed ( S ( m j ) , S ( c _ m j ) ) .
其中,c_mj是短文本mj所在的类别,R(mj)是指短文本mj对于类别c_mj的关键程度,L(mj)是短文本mj的长度。S(mj)是短文本mj对应的主题向量,S(c_mj)是类别c_mj内所有短文本的主题向量的平均向量(平均向量的每一维度的值是类别内所有短文本的主题向量在该维度上的值的算术平均值),Ed(S(mj),S(c_mj))是主题向量S(mj)和S(c_mj)的欧式距离。R(mj)与L(mj)成正比,而与Ed(S(mj),S(c_mj))成反比。
优选地,还可以将所选择的代表性短文本,按照排序结果,呈现给用户。
在以上描述中,短文本例如是微博,短文本的作者例如是微博博主。
根据本发明的方法能够以简单、容易理解的方式对短文本的作者的兴趣喜好进行描述以便于读者快速地、准确地了解短文本的作者。不仅大大降低了读者阅读作者发表的短文本所耗费的时间,方便读者快速了解作者的兴趣喜好,决定是否关注,而且较之背景技术中描述的基于高频关键词方式的用户描述方法更加易于理解。
根据本发明的方法,采用主题模型降维,有效解决短文本太短所带来的词向量稀疏问题。阈值自适应聚类方法能够避免统一设定阈值的聚类方法对特殊喜好或细粒度用户进行计算时产生的不协调。基于类别内短文本数量和短文本发表时间对作者兴趣类别进行排序、基于短文本长度和短文本与聚类中心相似度来抽取类别内代表性短文本,可以获得更为准确的喜好类别并且选择更好代表类别的短文本。以代表性短文本的方式体现作者的兴趣喜好在语义上提供更多信息,易于读者理解。
下面,将参照图3描述根据本发明实施例的描述短文本的作者的设备。
图3示出了根据本发明实施例的描述短文本的作者的设备的结构方框图。如图3所示,根据本发明的描述设备300包括:兴趣确定装置31,被配置为:根据作者的多个短文本,确定作者感兴趣的类别;以及描述生成装置32,被配置为:提取作者感兴趣的类别的代表性短文本,作为对作者的描述。
在一个实施例中,兴趣确定装置31包括:主题模型,被配置为:将作者的多个短文本中的每一个转换为对应的主题向量;聚类单元,被配置为:对主题向量进行聚类,以得到代表短文本内容的类别的多个簇;排序单元,被配置为:对多个簇进行排序,将排序结果靠前的若干簇所代表的类别确定为作者感兴趣的类别。
在一个实施例中,描述设备300还包括训练装置,用于训练所述主题模型,所述训练装置被配置为:设定主题模型的输出主题数;向主题模型输入多个短文本,以输出符合设定的输出主题数的多个主题向量。
在一个实施例中,多个短文本在输入主题模型之前,被分词和去重并转换为词向量。
在一个实施例中,聚类单元包括:阈值确定子单元,被配置为:确定用于聚类的自适应阈值;聚类子单元,被配置为:利用所确定的自适应阈值,对主题向量进行聚类。
在一个实施例中,阈值确定子单元被进一步配置为:计算主题向量中两两之间的欧式距离的平均值与大于0且小于或等于1的调整系数的乘积,作为所述自适应阈值。
在一个实施例中,阈值确定子单元被进一步配置为:计算主题向量中两两之间的相似度的平均值与大于或等于1的调整系数的乘积,作为所述自适应阈值。
在一个实施例中,聚类子单元被进一步配置为:(1)随机选择一个主题向量,作为一个新簇;(2)随机选择一个未聚类的主题向量,计算其与每一个已有簇的中心向量之间的欧式距离;(3)将欧式距离小于自适应阈值的主题向量,加入到对应的簇中;(4)将欧式距离均大于或等于自适应阈值的主题向量,作为一个新簇;重复上述步骤(2)-(4)直至所有主题模型均被聚类。
在一个实施例中,排序单元被进一步配置为:根据每个簇中的主题向量的数量,对多个簇进行排序。
在一个实施例中,排序单元被进一步配置为:根据每个簇中的主题向量的数量以及每个簇中的主题向量对应的短文本的发表时间,对多个簇进行排序。
在一个实施例中,描述生成装置32被进一步配置为:针对排序结果靠前的若干簇中的每一个,基于其中的主题向量与簇的中心向量之间的距离和/或主题向量对应的短文本的长度,选择一个主题向量对应的短文本,作为代表该簇对应的类别的代表性短文本。
在一个实施例中,描述设备300还包括:呈现装置,被配置为:将所选择的代表性短文本,按照排序结果,呈现给用户。
在一个实施例中,短文本包括微博,作者包括微博博主。
由于在根据本发明的描述设备300中所包括的各个装置和单元中的处理分别与上面描述的描述方法中所包括的各个步骤中的处理类似,因此为了简洁起见,在此省略这些装置和单元的详细描述。
此外,这里尚需指出的是,上述设备中各个组成装置、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图4所示的通用计算机400)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
图4示出了可用于实施根据本发明实施例的方法和设备的计算机的示意性框图。
在图4中,中央处理单元(CPU)401根据只读存储器(ROM)402中存储的程序或从存储部分408加载到随机存取存储器(RAM)403的程序执行各种处理。在RAM 403中,还根据需要存储当CPU 401执行各种处理等等时所需的数据。CPU 401、ROM 402和RAM 403经由总线404彼此连接。输入/输出接口405也连接到总线404。
下述部件连接到输入/输出接口405:输入部分406(包括键盘、鼠标等等)、输出部分407(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分408(包括硬盘等)、通信部分409(包括网络接口卡比如LAN卡、调制解调器等)。通信部分409经由网络比如因特网执行通信处理。根据需要,驱动器410也可连接到输入/输出接口405。可拆卸介质411比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器410上,使得从中读出的计算机程序根据需要被安装到存储部分408中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质411安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图4所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质411。可拆卸介质411的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 402、存储部分408中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应该理解,上述的所有实施例和示例均是示例性的,而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。
附记
1.一种描述短文本的作者的方法,包括:
根据作者的多个短文本,确定作者感兴趣的类别;以及
提取作者感兴趣的类别的代表性短文本,作为对作者的描述。
2.如附记1所述的方法,其中,所述根据作者的多个短文本,确定作者感兴趣的类别包括:
利用主题模型,将作者的多个短文本中的每一个转换为对应的主题向量;
对主题向量进行聚类,以得到代表短文本内容的类别的多个簇;
对多个簇进行排序,将排序结果靠前的若干簇所代表的类别确定为作者感兴趣的类别。
3.如附记2所述的方法,其中,所述对主题向量进行聚类,以得到代表短文本内容的类别的多个簇包括:
确定用于聚类的自适应阈值;
利用所确定的自适应阈值,对主题向量进行聚类。
4.如附记3所述的方法,其中,所述确定用于聚类的自适应阈值包括:
计算主题向量中两两之间的欧式距离的平均值与大于0且小于或等于1的调整系数的乘积,作为所述自适应阈值。
5.如附记3所述的方法,其中,所述确定用于聚类的自适应阈值包括:
计算主题向量中两两之间的相似度的平均值与大于或等于1的调整系数的乘积,作为所述自适应阈值。
6.如附记3所述的方法,其中,所述利用所确定的自适应阈值,对主题向量进行聚类包括:
(1)随机选择一个主题向量,作为一个新簇;
(2)随机选择一个未聚类的主题向量,计算其与每一个已有簇的中心向量之间的欧式距离;
(3)将欧式距离小于自适应阈值的主题向量,加入到对应的簇中;
(4)将欧式距离均大于或等于自适应阈值的主题向量,作为一个新簇;
重复上述步骤(2)-(4)直至所有主题模型均被聚类。
7.如附记2所述的方法,其中,所述对多个簇进行排序,将排序结果靠前的若干簇所代表的类别确定为作者感兴趣的类别包括:
根据每个簇中的主题向量的数量,对多个簇进行排序。
8.如附记7所述的方法,其中,还根据每个簇中的主题向量对应的短文本的发表时间,对多个簇进行排序。
9.如附记2所述的方法,其中,所述提取作者感兴趣的类别的代表性短文本,作为对作者的描述包括:
针对排序结果靠前的若干簇中的每一个,基于其中的主题向量与簇的中心向量之间的距离和/或主题向量对应的短文本的长度,选择一个主题向量对应的短文本,作为代表该簇对应的类别的代表性短文本。
10.如附记9所述的方法,还包括:
将所选择的代表性短文本,按照排序结果,呈现给用户。
11.一种描述短文本的作者的设备,包括:
兴趣确定装置,被配置为:根据作者的多个短文本,确定作者感兴趣的类别;以及
描述生成装置,被配置为:提取作者感兴趣的类别的代表性短文本,作为对作者的描述。
12.如附记11所述的设备,其中,所述兴趣确定装置包括:
主题模型,被配置为:将作者的多个短文本中的每一个转换为对应的主题向量;
聚类单元,被配置为:对主题向量进行聚类,以得到代表短文本内容的类别的多个簇;
排序单元,被配置为:对多个簇进行排序,将排序结果靠前的若干簇所代表的类别确定为作者感兴趣的类别。
13.如附记12所述的设备,其中,所述聚类单元包括:
阈值确定子单元,被配置为:确定用于聚类的自适应阈值;
聚类子单元,被配置为:利用所确定的自适应阈值,对主题向量进行聚类。
14.如附记13所述的设备,其中,所述阈值确定子单元被进一步配置为:
计算主题向量中两两之间的欧式距离的平均值与大于0且小于或等于1的调整系数的乘积,作为所述自适应阈值。
15.如附记13所述的设备,其中,所述阈值确定子单元被进一步配置为:
计算主题向量中两两之间的相似度的平均值与大于或等于1的调整系数的乘积,作为所述自适应阈值。
16.如附记13所述的设备,其中,所述聚类子单元被进一步配置为:
(1)随机选择一个主题向量,作为一个新簇;
(2)随机选择一个未聚类的主题向量,计算其与每一个已有簇的中心向量之间的欧式距离;
(3)将欧式距离小于自适应阈值的主题向量,加入到对应的簇中;
(4)将欧式距离均大于或等于自适应阈值的主题向量,作为一个新簇;
重复上述步骤(2)-(4)直至所有主题模型均被聚类。
17.如附记12所述的设备,其中,所述排序单元被进一步配置为:
根据每个簇中的主题向量的数量,对多个簇进行排序。
18.如附记17所述的设备,其中,所述排序单元被进一步配置为:根据每个簇中的主题向量的数量以及每个簇中的主题向量对应的短文本的发表时间,对多个簇进行排序。
19.如附记12所述的设备,其中,所述描述生成装置被进一步配置为:
针对排序结果靠前的若干簇中的每一个,基于其中的主题向量与簇的中心向量之间的距离和/或主题向量对应的短文本的长度,选择一个主题向量对应的短文本,作为代表该簇对应的类别的代表性短文本。
20.如附记19所述的设备,还包括:呈现装置,被配置为:将所选择的代表性短文本,按照排序结果,呈现给用户。

Claims (10)

1.一种描述短文本的作者的方法,包括:
根据作者的多个短文本,确定作者感兴趣的类别;以及
提取作者感兴趣的类别的代表性短文本,作为对作者的描述。
2.如权利要求1所述的方法,其中,所述根据作者的多个短文本,确定作者感兴趣的类别包括:
利用主题模型,将作者的多个短文本中的每一个转换为对应的主题向量;
对主题向量进行聚类,以得到代表短文本内容的类别的多个簇;
对多个簇进行排序,将排序结果靠前的若干簇所代表的类别确定为作者感兴趣的类别。
3.如权利要求2所述的方法,其中,所述对主题向量进行聚类,以得到代表短文本内容的类别的多个簇包括:
确定用于聚类的自适应阈值;
利用所确定的自适应阈值,对主题向量进行聚类。
4.如权利要求3所述的方法,其中,所述确定用于聚类的自适应阈值包括:
计算主题向量中两两之间的欧式距离的平均值与大于0且小于或等于1的调整系数的乘积,作为所述自适应阈值。
5.如权利要求3所述的方法,其中,所述确定用于聚类的自适应阈值包括:
计算主题向量中两两之间的相似度的平均值与大于或等于1的调整系数的乘积,作为所述自适应阈值。
6.如权利要求2所述的方法,其中,所述对多个簇进行排序,将排序结果靠前的若干簇所代表的类别确定为作者感兴趣的类别包括:
根据每个簇中的主题向量的数量,对多个簇进行排序。
7.如权利要求6所述的方法,其中,还根据每个簇中的主题向量对应的短文本的发表时间,对多个簇进行排序。
8.如权利要求2所述的方法,其中,所述提取作者感兴趣的类别的代表性短文本,作为对作者的描述包括:
针对排序结果靠前的若干簇中的每一个,基于其中的主题向量与簇的中心向量之间的距离和/或主题向量对应的短文本的长度,选择一个主题向量对应的短文本,作为代表该簇对应的类别的代表性短文本。
9.如权利要求8所述的方法,还包括:
将所选择的代表性短文本,按照排序结果,呈现给用户。
10.一种描述短文本的作者的设备,包括:
兴趣确定装置,被配置为:根据作者的多个短文本,确定作者感兴趣的类别;以及
描述生成装置,被配置为:提取作者感兴趣的类别的代表性短文本,作为对作者的描述。
CN201510151745.2A 2015-04-01 2015-04-01 描述短文本的作者的方法和设备 Pending CN106156091A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510151745.2A CN106156091A (zh) 2015-04-01 2015-04-01 描述短文本的作者的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510151745.2A CN106156091A (zh) 2015-04-01 2015-04-01 描述短文本的作者的方法和设备

Publications (1)

Publication Number Publication Date
CN106156091A true CN106156091A (zh) 2016-11-23

Family

ID=57338819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510151745.2A Pending CN106156091A (zh) 2015-04-01 2015-04-01 描述短文本的作者的方法和设备

Country Status (1)

Country Link
CN (1) CN106156091A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783616A (zh) * 2018-12-03 2019-05-21 广东蔚海数问大数据科技有限公司 一种文本主题提取方法、系统和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070136302A1 (en) * 2005-12-12 2007-06-14 Microsoft Corporation Automated device blog creation
CN103699611A (zh) * 2013-12-16 2014-04-02 浙江大学 一种基于动态摘要技术的微博流信息提取方法
CN103942340A (zh) * 2014-05-09 2014-07-23 电子科技大学 一种基于文本挖掘的微博用户兴趣识别方法
CN104281653A (zh) * 2014-09-16 2015-01-14 南京弘数信息科技有限公司 一种针对千万级规模微博文本的观点挖掘方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070136302A1 (en) * 2005-12-12 2007-06-14 Microsoft Corporation Automated device blog creation
CN103699611A (zh) * 2013-12-16 2014-04-02 浙江大学 一种基于动态摘要技术的微博流信息提取方法
CN103942340A (zh) * 2014-05-09 2014-07-23 电子科技大学 一种基于文本挖掘的微博用户兴趣识别方法
CN104281653A (zh) * 2014-09-16 2015-01-14 南京弘数信息科技有限公司 一种针对千万级规模微博文本的观点挖掘方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783616A (zh) * 2018-12-03 2019-05-21 广东蔚海数问大数据科技有限公司 一种文本主题提取方法、系统和存储介质

Similar Documents

Publication Publication Date Title
CN109815308B (zh) 意图识别模型的确定及检索意图识别方法、装置
CN103678418B (zh) 信息处理方法和信息处理设备
Kontopoulos et al. Ontology-based sentiment analysis of twitter posts
CN111539197B (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
US9146915B2 (en) Method, apparatus, and computer storage medium for automatically adding tags to document
Furlan et al. Semantic similarity of short texts in languages with a deficient natural language processing support
CN111460221B (zh) 评论信息处理方法、装置及电子设备
CN107656948A (zh) 自动问答系统中的问题聚类处理方法及装置
CN102314440B (zh) 利用网络维护语言模型库的方法和系统
CN106484777A (zh) 一种多媒体数据处理方法以及装置
Vakulenko et al. Enriching iTunes App Store Categories via Topic Modeling.
CN109063147A (zh) 基于文本相似度的在线课程论坛内容推荐方法及系统
CN109740642A (zh) 发票类别识别方法、装置、电子设备及可读存储介质
CN104881458A (zh) 一种网页主题的标注方法和装置
CN109582967B (zh) 舆情摘要提取方法、装置、设备及计算机可读存储介质
CN103885933A (zh) 用于评价文本的情感度的方法和设备
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN104199826A (zh) 一种基于关联分析的异构媒体相似性计算方法和检索方法
CN111782793A (zh) 智能客服处理方法和系统及设备
CN110210038A (zh) 核心实体确定方法及其系统、服务器和计算机可读介质
CN103514168A (zh) 数据处理方法和设备
CN102375848B (zh) 评价对象聚类方法和装置
CN106156182A (zh) 将微博话题词分类到具体领域的方法和设备
CN106156091A (zh) 描述短文本的作者的方法和设备
CN115860434A (zh) 一种基于土壤水分资源承载力的植被恢复规划方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20161123

WD01 Invention patent application deemed withdrawn after publication