CN102651719B - 用于在消息交互环境中跟踪消息话题的方法和设备 - Google Patents
用于在消息交互环境中跟踪消息话题的方法和设备 Download PDFInfo
- Publication number
- CN102651719B CN102651719B CN201110047636.8A CN201110047636A CN102651719B CN 102651719 B CN102651719 B CN 102651719B CN 201110047636 A CN201110047636 A CN 201110047636A CN 102651719 B CN102651719 B CN 102651719B
- Authority
- CN
- China
- Prior art keywords
- message
- topic
- selected message
- user
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/21—Monitoring or handling of messages
- H04L51/216—Handling conversation history, e.g. grouping of messages in sessions or threads
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/52—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供了一种用于在包括多条消息的消息交互环境下通过结合与一消息相关联的关联消息而对该消息所涉及的话题进行跟踪的方法和设备。该方法包含:从所述消息交互环境所包括的多条消息中选取消息;从所述消息交互环境所包括的多条消息中,识别与所选取的消息相关联的关联消息;以及基于所识别的关联消息,将所选取的消息划归一个或多个话题组。本发明的话题跟踪方法和设备能够在诸如微博客的消息交互环境中准确地确定消息之间的相似度,由此进行话题跟踪。
Description
技术领域
本发明总体上涉及消息交互环境中的信息处理,特别地,本发明涉及用于消息交互环境的话题跟踪方法及设备。
背景技术
近年来,诸如微博客的基于网络的微社交应用平台,作为一种全新的消息交互环境,以其便捷性、草根性以及简单易用的特点实现了令人惊讶的超高速发展。据统计,截止2010年,twitter在全球的注册用户已达7500万。
图10中给出了一个微博客的交互实例。用户可以作为博主在自己的微博客上自由地发布任意话题消息,也可以作为粉丝在其他用户的微博客上对其他用户发布的消息进行评论。
不同于传统的web 2.0应用,在微博客中发布的消息长度是受限的,例如twitter限定最多140字符。因此,在微博客中,人们通常采用简洁的消息来表达核心内容,而省略了一些背景信息。因此,为了更好地理解所关注的话题的含义,粉丝们不得不一条条地追溯消息历史。
然而,要在成百上千条信息中找出所有希望的消息并不是一件容易的事情。这是因为:一方面,话题随时间具有某种连续性;另一方面,人们在网络上的操作行为是不连续的。而在微博客上分散的话题相关消息使得粉丝们难以跟踪某个话题的历史。人们希望能提供有效的话题跟踪方法来克服这个困难。
传统的话题跟踪方法主要依赖于内容相似度,即,直接将消息的内容进行比较,以识别消息的话题。然而,这种传统方法不能很好地应用于诸如微博客的消息长度受限的消息交互环境。如图10A所示,博主“wakenheart”首先发了一条微博消息A:“澳大利亚真是太美了,简直人间天堂”,相隔一段时间后又发了另一条消息B:“今天抱了一只小考拉,一动不动的,好乖哟”。如果按照传统方法,直接将这两条消息进行内容比较,由于这两条消息的内容看起来没有重复之处,相似度很低,因此难以将这两个消息关联起来。
发明内容
本发明的一个实施例的一个目的在于,能够在消息交互环境中更准确地进行话题跟踪。
根据本发明的第一方面,提供了一种用于在消息交互环境中跟踪消息话题的方法,所述消息交互环境中包括多条消息,所述方法包含:从所述消息交互环境所包括的多条消息中选取消息;从所述消息交互环境所包括的多条消息中,识别与所选取的消息相关联的关联消息;以及基于所识别的关联消息,将所选取的消息划归一个或多个话题组。
根据本发明的第二方面,提供了一种用于在消息交互环境中跟踪消息话题的设备,所述消息交互环境中包括多条消息,所述设备包含:消息选取装置,用于从所述消息交互环境所包括的多条消息中选取消息;关联消息识别装置,用于从所述消息交互环境所包括的多条消息中,识别与所述消息选取装置选取的消息相关联的关联消息;以及划分装置,用于基于所述关联消息识别装置识别出的关联消息,将所述消息选取装置选取的消息划归一个或多个话题组。
与现有技术相比,本发明的话题跟踪方法和设备在诸如微博客的消息长度受限的消息交互环境下,也能够准确地识别多个消息之间的相似度。
在微博客中,博主发布的微博消息,可能有一条或多条跟帖。例如,粉丝们可以对微博消息进行回复、转发等交互操作。通常而言,跟帖者在回复或转发微博消息时会作出评论,这些评论为微博消息提供了有用的背景信息。
按照本发明实施例的话题跟踪方法和设备,可以利用跟帖者在回复或转发微博消息时作出的评论,构建与该微博消息相关联的背景(context);用从该背景提取的背景话题关键字,对从相关联的微博消息本身提取的核心话题关键字进行扩展,获得扩展的话题关键字;然后以扩展的话题关键字来比较微博消息之间的相似度,由此能够更加准确地在微博消息之间进行话题跟踪。
在图10A所示的示例中,单独分析微博消息A和微博消息B是难以将两者关联起来的。如果如图10B所示,粉丝“大侠znjidx”对第一条微博消息A的回复消息A1中提到:“没错,澳洲自然环境太好了,正因此那里的动物都比较懒,据说考拉一天只动弹一小时不到”,按照本发明实施例,可以将回复消息A1中的“考拉”作为背景话题关键字提取出来,由此建立消息A与消息B之间的关联。
利用本发明的话题跟踪方法和设备,在基于网络的消息交互环境中对消息的话题跟踪能够动态、自动、实时地进行。
附图说明
本申请说明书中所参考的附图,只用于例示本发明的典型实施例,不应该认为是对本发明范围的限制。
图1是例示了根据本发明实施例的用于消息交互环境的话题跟踪方法的流程图;
图2是例示了根据本发明一实施例的用于消息交互环境的话题跟踪处理的流程图;
图3是例示了根据本发明一实施例的话题关键字提取处理的流程图;
图4是例示了根据本发明另一实施例的用于消息交互环境的话题跟踪处理的流程图;
图5是例示了根据本发明一实施例的识别交互操作用户的处理的流程图;
图6是例示了根据本发明另一实施例的识别交互操作用户的处理的流程图;
图7是例示了根据本发明又一实施例的用于消息交互环境的话题跟踪处理的流程图;
图8是例示了根据本发明一实施例的用于消息交互环境的话题跟踪设备的框图;
图9是示出了可以应用本发明的基于网络的消息交互环境的示例的示意图;以及
图10A和图10B是示出了微博客的交互示例的示意图。
具体实施方式
下列讨论中,提供大量具体的细节以帮助彻底了解本发明。然而,很显然对于本领域技术人员来说,即使没有这些具体细节,并不影响对本发明的理解。并且应该认识到,使用如下的任何具体术语仅仅是为了方便描述,因此,本发明不应当局限于只用在这样的术语所表示和/或暗示的任何特定应用中。
本文中所称的“消息交互环境”是指基于网络的信息分享、传播及获取平台。在消息交互环境中,用户之间通过发布消息或者发表评论来交互。
消息交互环境的一个例子是微博客。下文中将以微博客的消息交互环境为例,详细说明本发明的实施例。然而,应当认识到,下面的实施例仅仅是出于例示的目的给出的,而非旨在仅将本发明限于对微博客的应用。除了微博客,本发明完全可以应用到其他消息交互环境,尤其适用于消息长度受限的消息交互环境。
消息交互环境中包括多条消息。本文中所称的“消息”概指在消息交互环境中发布的、用户可以与之进行交互的任意信息,例如,微博客中的一条消息。“关联消息”概指消息交互环境中与某一选定消息具有关联关系的任意信息,例如,微博客中针对某一微博消息的回复消息或转发信息。本文中所称的“话题组”是指具有匹配的话题关键字的一组消息。
图1例示了根据本发明实施例的话题跟踪方法100的流程图。如图所示,话题跟踪方法100从步骤S102开始。在步骤S102,从该方法所应用的消息交互环境所包括的多条消息中选取消息。所选取的消息例如是博主发布的一条或多条微博消息。步骤S102可以响应于用户的话题跟踪请求而启动,也可以按照消息交互环境的设定自动地执行。
应当指出,在步骤S102选取的消息可以是所应用的消息交互环境中的所有消息、可以是选定时间段期间发布的消息、也可以是针对某一话题领域的消息。
如上所述,由于微博客对消息长度的限制,可能针对同一话题,博主会在连续的一段时间内陆续发布多条消息。例如,对于新关注某一微博客的粉丝用户而言,为了全面了解该微博客,用户可以针对该微博客中的所有微博消息按话题分类。而对于之前已关注到某一话题且希望把握其最新动态的用户而言,可以选定某一时间段并对该选定时间段内发布的微博消息进行话题跟踪。另外,在微博客提供话题领域分类标识的情况下,用户还可以限定跟踪所关注话题领域内的微博消息。
接下来,在步骤S104,从消息交互环境所包括的多条消息中识别与在步骤S102中所选取的消息相关联的关联消息。如下文中结合图2和图4将详细描述的,在步骤S104识别的关联消息可以是与所选取的消息具有回复或转发关系的消息,也可以是与特定交互操作用户相对应的消息。
然后,话题跟踪方法100进行到步骤S106。在步骤S106,基于在步骤S104所识别的关联消息,将在步骤S102选取的消息划归到话题组。需要注意的是,有可能一个消息涉及两个或以上的话题,那么该消息将被划归到两个或以上的对应话题组中。
在本发明的一些实施例中,步骤S106可以这样来执行:从所识别的关联消息中提取一个或多个背景话题关键字;通过处理所提取的背景话题关键字,生成一个或多个话题关键字;以及将所选取的消息划归与所生成的一个或多个话题关键字分别对应的一个或多个话题组。
对应于步骤S104中识别的关联消息,可以采用不同的方法来处理所提取的背景话题关键字。如下文将参照图2和4所详细描述的,可以通过组合所提取的背景话题关键字与从选取消息本身提取的核心话题关键字来生成话题关键字;也可以通过利用所提取的背景话题关键字与交互操作用户的对应关系,来生成话题关键字。
下面将参照图2和图4,通过示例的形式来说明如何结合并利用关联消息来实现对选取消息的话题分类。图2中所给出的实施例是以选取消息为基础来识别关联消息;而图4中的实施例是以交互操作用户为基础来识别关联消息。
图2所示的根据本发明一个实施例的话题跟踪处理200从步骤S202开始。与图1中的步骤S102类似,在步骤S202中选取待分析的消息。接下来,在步骤S204,将与步骤S202中所选取的消息具有回复或转发关系的信息,识别为与所选取的消息相关联的关联消息。例如,在所选取的消息是一条微博消息的情况下,这里识别的关联消息可以是针对该微博消息的回复消息和/或转发消息。
然而,需要指出的是,本发明中关联消息与所选取消息之间的关联性不仅仅限于关联消息对所选取消息的直接回复或转发,也可以包括其他回复或转发关系,例如所选取消息是对关联消息的回复或转发消息的情形,以及关联消息是对经选取消息回复或转发的消息进行回复或转发的其他消息的情形,等等。例如,所选取的消息可以是回复或转发消息本身,而关联消息可以该回复或转发消息所针对的原帖消息,或者是该原帖消息的其他回复或转发消息。
然后,在步骤S206,从在步骤S204识别出的关联消息中提取一个或多个背景话题关键字;类似地,在步骤S208从步骤S202所选取的消息,提取一个或多个核心话题关键字。图3例示了根据本发明一个实施例的针对待提取关键字的消息的话题关键字提取处理300。
针对待提取关键字的消息,可以应用浅层句法分析,以提取关键位置上的词作为候选关键字,例如主语、谓语和/或宾语(步骤S302)。另外地或者另选地,可以同时应用词性标记,例如用以提取通常代表重要含义的名词和/或动词,作为候选关键字(步骤S304)。需要指出,上述步骤S302和S304可以采用本领域目前已知的、正在开发的或者未来将开发的句法分析和词性标记技术来实现。接着,在步骤S306,组合步骤S302的句法分析和步骤S304的词性标记所给出的候选关键字,来确定待提取的消息的话题关键字。
按照本发明实施例,图3中的话题关键字提取处理300所涉及的待提取关键字的消息,可以是所选取的消息,也可以是关联消息。需要指出的是,在有些实施例中,例如在回复消息或转发消息数量较多的情况下,还可以通过进一步限定候选关键字的分布程度或重复次数,来确定关联消息的背景话题关键字。例如,可选地,在步骤S306之后,可以添加步骤S308和S310。在步骤S308,记录每一个候选关键字的重复次数或分布程度。然后,在步骤S310,设定重复次数或分布程度阈值,将高于所设定阈值的候选关键字确定为所提取的话题关键字。
我们回到图2。在提取了选取消息的核心话题关键字和关联消息的背景话题关键字之后,在步骤S210,对所提取的背景话题关键字和核心话题关键字进行组合,以确定与选取消息相关联的话题关键字。
下面以一个示例来详细说明这一关键字提取和组合处理。例如,微博消息M:“暗夜勇士给孩子带来了负面影响”。共有10条回复消息:
R1:“这个动画片给孩子的视力带来了坏处”;
R2:“最主要的是怕影响视力”;
R3:“孩子学会很多暴力行为”;
R4:“真是毒害孩子”;;
R5:“我老公说太垃圾了”;
R6:“确实很垃圾的动画片”;
R7:“这个动画片很有教育意义的”;
R8:“我也觉得给孩子有些负面影响了”;
R9:“负面影响很大”;
R10:“坚决抵制恶心的垃圾动画片”。
首先,对回复消息进行句法和/或词性分析,并且确定对候选关键字的重复次数的统计,即,“孩子”,4次;“动画片”,4次;“垃圾”,3次;“视力”,2次;“负面影响”,2次;“暴力”,1次;“行为”,1次;“教育”,1次;“意义”;1次;“毒害”,1次;“坏处”,1次;“抵制”,1次。
如果将背景话题关键字的重复次数阈值设置为3的话,则从上述10条回复消息中提取出的关键字为{“孩子”,“动画片”,“垃圾”}。
接下来,对微博消息M进行浅层句法分析,我们得到:主语--暗夜勇士;谓语--带来;宾语1--孩子,宾语2--负面影响。只提取其中的主语和宾语,获得微博消息的第一组候选关键字{“暗夜勇士”,“孩子”,“负面影响”}。
然后,对微博消息M进行词性标注,我们得到:名词1--暗夜勇士,名词2--孩子,名词3-负面影响;动词--带来;介词--给。只提取其中的名词,获得微博消息的第二组候选关键字{“暗夜勇士”,“孩子”,“负面影响”}。
最终确定微博消息M中的核心话题关键词是{“暗夜勇士”,“孩子”,“负面影响”}。结合对回复消息所提取的背景话题关键词,最终构造的话题关键字可以是{“暗夜勇士”,“孩子”,“负面影响”,“垃圾”,“动画片”}。
我们再回到图2,在步骤S210组合所提取的核心关键字和背景关键字并生成最终的话题关键字后,流程进行到步骤S212。在步骤S212,基于在步骤S210中生成的话题关键字,确定该消息所属的话题组。
在图2的实施例中,采用的是针对某一消息的所有关联消息进行话题扩展。然而,在实际应用中,由于个人语言习惯不同而且网络语言非常自由和丰富,不同的跟帖者针对同一事物的描述可能是多种多样的。在这种情况下,可能难以确定某一消息的关联消息的背景话题关键字。然而,通常同一跟帖者的语言习惯和跟帖风格是具有连续性和一致性的。
基于这种考虑,下面将参照图4描述根据本发明另一实施例的话题跟踪处理400。话题跟踪处理400的核心思想在于,首先分析同一跟帖者的回复消息或转发消息的话题关键字,以对同一跟帖者发表的所有消息或者一段时间内发表的消息进行话题分类;然后,综合多个跟帖者各自的消息话题分类,生成总的跟帖消息话题分类;最后,利用跟帖消息与微博消息的映射关系,实现对微博消息的话题分类。
话题跟踪处理400从选取交互环境中的消息的步骤S402开始。步骤S402与图1中的步骤S102和图2中的步骤S202相同,在此不再累述。
在步骤S404,识别与在步骤S402中选取的消息相关联的一个或多个交互操作用户。图5和图6中分别例示了识别交互操作用户的两个不同实施例。图5中的识别处理500是基于用户的级别,而图6中的识别处理600是基于用户的话题偏好。
在图5的交互操作用户识别处理500中,首先确定交互操作用户的用户级别(步骤S502)。例如,根据用户关注某一微博的时间和程度,可以将其设定为“菜鸟级粉丝”、“大虾级粉丝”、“老鸟级粉丝”以及“骨灰级粉丝”。通常而言,级别越高的粉丝对该微博的关注程度越高,了解的相关信息也越多,他们的评论通常非常具有参考价值。因此,为了提高用户识别处理的效率,可以只考察一定级别以上的粉丝的评论。为此,可以预先设定需要考察的交互操作用户的级别阈值,并将每个用户的级别与该预定级别阈值进行比较(步骤S504)。然后,只将级别高于该预定级别阈值的用户识别为需要进一步考察的交互操作用户(步骤S506)。
图6例示了根据本发明另一个实施例的交互操作用户识别处理600。在有些实施例中,可以设定用户的身份或者记录用户的话题偏好。例如,对于作为驴友的用户来说,他更多关注(例如,回复或转发)的领域可能是旅游;而对于作为球友的用户来所,体育方面的话题将是更为感兴趣的。通过对一定时期内用户的交互操作的分析,交互系统可以确定并记录每个用户的话题偏好。当然,在其他实施例中,也可以由博主对重要的用户的话题偏好进行设定。
那么,在设定有话题偏好的消息交互环境下,可以首先确定所要追踪的话题的预定话题领域(步骤S602)。接着,在步骤S604中,获取交互操作用户的话题偏好。然后,将所获取的交互操作用户的话题偏好与在步骤S602中所确定的预定话题领域进行比较(步骤S606)。如果用户的话题偏好与预定话题领域匹配,则将该用户识别为需要进一步考察的交互操作用户(步骤S608)。
我们再返回到图4。在步骤404中识别出交互操作用户之后,针对所识别的交互操作用户中的每一个执行步骤S406和S408。在步骤S406,从由所识别出的交互操作用户在消息交互环境下所发表的消息中,识别与在步骤S402所选取的消息具有回复或转发关系的消息,作为与所选取的消息相关联的关联消息,例如用户在一段时间内对所选取的消息的回复消息和/或转发消息。接下来,在步骤S408,针对该交互操作用户,从所识别出的关联消息中提取一个或多个背景话题关键字。这里,同样可以应用图3中的关键字提取处理300。
针对步骤S404中识别出的所有交互操作用户,重复上述步骤S406和S408,直到对所有交互操作用户各自对应的关联消息提取了背景话题关键字(步骤S410)。
接下来,在步骤S412,组合所识别出的交互操作用户各自对应的背景话题关键字,生成总的话题关键字。最后,在步骤S414,将选取的消息划归到与步骤S412中生成的话题关键字分别对应的一个或多个话题分组。
图2和图4中的实施例分别是以所选取的消息为基础来识别关联消息和以交互操作用户为基础来识别关联消息的。按照本发明的实施例,可以相结合地应用这两个实施例的话题跟踪处理,以进一步提高对话题跟踪的准确性。例如,图7所例示的实施例,组合并分析利用图2和图4的话题跟踪处理所得的消息分组结果,而生成最终的分组结果。
如图7所示,在步骤S702选取了用以分析的消息之后,同时执行基于消息的处理S705和基于交互操作用户的处理S710。这里,基于消息的处理S705和基于交互操作用户的处理710分别对应于图2和图4中的话题跟踪处理200和400,对其细节不再累述。在步骤S715,组合并分析由基于消息的处理S705和由基于交互操作用户的处理S710给出的消息分组结果,按照预定的算法,生成经整合的分组结果。
以上结合附图,说明了用于在消息交互环境中跟踪消息话题的方法的各种实施方式。按照相同的发明构思,本发明还提供一种用于在消息交互环境中跟踪消息话题的设备。
图8例示了根据本发明一实施例的用于包括多条消息的消息交互环境的话题跟踪设备800。如图8所示,话题跟踪设备800包含消息选取装置802、关联消息识别装置804和划分装置806。
消息选取装置802用于选取消息交互环境中的消息。关联消息识别装置804从消息交互环境所包括的多条消息中,识别与消息选取装置802选取的消息相关联的关联消息。划分装置806基于关联消息识别装置804识别出的关联消息,将消息选取装置802选取的消息划归到一个或多个话题组。
按照本发明一个实施例,所述划分装置包含:用于从所识别的关联消息中提取一个或多个背景话题关键字的装置;用于通过处理所提取的背景话题关键字,生成一个或多个话题关键字的装置;以及用于将所选取的消息划归与所生成的一个或多个话题关键字分别对应的一个或多个话题组的装置。
按照本发明一个实施例,所述关联消息识别装置包含:用于将与所选取的消息具有回复或转发关系的消息,识别为与所选取的消息相关联的关联消息的装置。
按照本发明一个实施例,所述用于通过处理所提取的背景话题关键字,生成一个或多个话题关键字的装置包含:用于从所选取的消息中提取一个或多个核心话题关键字的装置;以及用于通过组合所提取的核心话题关键字和所提取的背景话题关键字,生成一个或多个话题关键字的装置。
按照本发明一个实施例,所述关联消息识别装置包含:用于识别与所选取的消息相关联的交互操作用户的装置;用于从与所述交互操作用户相对应的消息中,识别与所选取的消息具有回复或转发关系的消息作为与所选取的消息相关联的关联消息的装置。
按照本发明一个实施例,所述用于通过处理所提取的背景话题关键字生成一个或多个话题关键字的装置包含:用于确定所提取的背景话题关键字与交互操作用户的对应关系的装置;用于利用所确定的对应关系,生成一个或多个话题关键字的装置。
按照本发明一个实施例,所述与所选取的消息具有回复或转发关系的消息包括以下中的至少一种:对所选取的消息进行回复或转发的消息;所选取的消息对其进行回复或转发的消息;以及对经所选取的消息回复或转发的消息进行回复或转发的消息。
按照本发明一个实施例,所述用于识别与所选取的消息相关联的交互操作用户的装置进一步包含:用于确定用户级别的装置;用于将所确定的用户级别与预先设定的级别阈值进行比较的装置;以及用于将级别高于该预先设定的级别阈值的用户识别为与所选取的消息相关联的交互操作用户的装置。
按照本发明一个实施例,所述用于识别与所选取的消息相关联的交互操作用户的装置进一步包含:用于确定所要追踪的话题的预定话题领域的装置;用于获取用户的话题偏好的装置;用于将所获取的用户的话题偏好与所确定的预定话题领域进行比较的装置;以及用于将话题偏好与所述预定话题领域匹配的用户识别为与所选取的消息相关联的交互操作用户的装置。
按照本发明一个实施例,所述关联消息识别装置进一步包含:用于将与所选取的消息具有回复或转发关系的消息,识别为与所选取的消息相关联的第一关联消息的装置;以及用于识别与所选取的消息相关联的交互操作用户,以及从与所述交互操作用户相对应的消息中,识别与所选取的消息具有回复或转发关系的消息作为与所选取的消息相关联的第二关联消息的装置,并且,所述划分装置进一步包含:用于从所选取的消息中提取一个或多个第一核心话题关键字,以及从所识别的第一关联消息中提取一个或多个第一背景话题关键字的装置;用于通过组合所提取的第一核心话题关键字和所提取的第一背景话题关键字,生成一个或多个第一话题关键字的装置;用于基于所生成的第一话题关键字,获得对所选取的消息的第一话题分类结果的装置;用于通过参考所识别的第二关联消息与交互操作用户的对应关系,从所识别的第二关联消息中提取一个或多个第二背景话题关键字的装置;用于基于所提取的第二背景话题关键字,获得对所选取的消息的第二话题分类结果的装置;以及用于组合并分析所述第一话题分类结果和所述第二话题分类结果,以生成经整合的话题分类结果的装置。
需要指出的是,图8中所示的话题跟踪设备800还可以结合到交互系统服务器中,或者与交互系统服务器远程地通信。在允许获得交互系统服务器中的交互数据的情况下,话题跟踪设备800还可以结合到交互系统的代理服务器中。
图9中给出了可以应用本发明的基于网络的消息交互环境的一个示例。多个终端设备902-1、902-2...902-n经由网络900与交互系统服务器901通信地耦连。交互系统服务器901可以执行上文所述的本发明的用于在消息交互环境中跟踪消息话题的方法的各种实施例,如图1所示的方法100;可以包含或体现上文所述的本发明的用于在消息交互环境中跟踪消息话题的设备的各种实施例,如图8所示的设备800,由此处理发自多个终端设备902-1、902-2...902-n的消息。网络900可以是因特网、内联网、局域网(LAN)和/或城域网(MAN),可以是无线或有线网络。终端设备902可以包括能够连接到网络900的任何类型的计算设备,例如台式计算机、膝上型计算机、平板式计算机、蜂窝式电话或者个人数字助理。
所属技术领域的技术人员知道,本发明可以体现为系统、方法或计算机程序产品。因此,本发明可以具体实现为以下形式,即,可以是完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、或者本文一般称为“电路”、“模块”或“系统”的软件部分与硬件部分的组合。此外,本发明还可以采取体现在任何有形的表达介质(medium ofexpression)中的计算机程序产品的形式,该介质中包含计算机可用的程序码。
可以使用一个或多个计算机可用的或计算机可读的介质的任何组合。计算机可用的或计算机可读的介质例如可以是——但不限于——电的、磁的、光的、电磁的、红外线的、或半导体的系统、装置、器件或传播介质。计算机可读介质的更具体的例子(非穷举的列表)包括以下:有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、诸如支持因特网或内部网的传输介质、或者磁存储器件。注意计算机可用的或计算机可读的介质甚至可以是上面印有程序的纸张或者其它合适的介质,这是因为,例如可以通过电扫描这种纸张或其它介质,以电子方式获得程序,然后以适当的方式加以编译、解释或处理,并且必要的话在计算机存储器中存储。在本文件的语境中,计算机可用的或计算机可读的介质可以是任何含有、存储、传达、传播、或传输供指令执行系统、装置或器件使用的或与指令执行系统、装置或器件相联系的程序的介质。计算机可用的介质可包括在基带中或者作为载波一部分传播的、由其体现计算机可用的程序码的数据信号。计算机可用的程序码可以用任何适当的介质传输,包括-但不限于-无线、电线、光缆、RF等等。
用于执行本发明的操作的计算机程序码,可以以一种或多种程序设计语言的任何组合来编写,所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++之类,还包括常规的过程式程序设计语言-诸如”C”程序设计语言或类似的程序设计语言。程序码可以完全地在用户的计算上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中,远程计算机可以通过任何种类的网络——包括局域网(LAN)或广域网(WAN)-连接到用户的计算机,或者,可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。
以下参照按照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。要明白的是,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得通过计算机或其它可编程数据处理装置执行的这些指令,产生实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能指令计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means)的制造品。
也可以把计算机程序指令加载到计算机或其它可编程数据处理装置上,使得在计算机或其它可编程数据处理装置上执行一系列操作步骤,以产生计算机实现的过程,从而在计算机或其它可编程装置上执行的指令就提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本文中所用的术语,仅仅是为了描述特定的实施例,而不意图限定本发明。本文中所用的单数形式的“一”和“该”,旨在也包括复数形式,除非上下文中明确地另外指出。还要知道,“包含”一词在本说明书中使用时,说明存在所指出的特征、整体、步骤、操作、单元和/或组件,但是并不排除存在或增加一个或多个其它特征、整体、步骤、操作、单元和/或组件,以及/或者它们的组合。
权利要求中的对应结构、材料、操作以及所有功能性限定的装置(means)或步骤的等同替换,旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结构、材料或操作。所给出的对本发明的描述其目的在于示意和描述,并非是穷尽性的,也并非是要把本发明限定到所表述的形式。对于所属技术领域的普通技术人员来说,在不偏离本发明范围和精神的情况下,显然可以作出许多修改和变型。对实施例的选择和说明,是为了最好地解释本发明的原理和实际应用,使所属技术领域的普通技术人员能够明了,本发明可以有适合所要的特定用途的具有各种改变的各种实施方式。
Claims (15)
1.一种用于在消息交互环境中跟踪消息话题的方法,所述消息交互环境中包括多条消息,所述方法包含:
从所述消息交互环境所包括的多条消息中选取消息;
从所述消息交互环境所包括的多条消息中,识别与所选取的消息相关联的关联消息,包含:
确定所要追踪的话题的预定话题领域;
获取用户的话题偏好;
将所获取的用户的话题偏好与所确定的预定话题领域进行比较;
将话题偏好与所述预定话题领域匹配的用户识别为与所选取的消息相关联的交互操作用户;
将与所选取的消息具有回复或转发关系的消息,识别为所述与所选取的消息相关联的关联消息,以及
基于所识别的关联消息,将所选取的消息划归一个或多个话题组,包含:
从所识别的关联消息中提取一个或多个背景话题关键字;
通过处理所提取的背景话题关键字,生成一个或多个话题关键字;以及
将所选取的消息划归与所生成的一个或多个话题关键字分别对应的一个或多个话题组。
2.根据权利要求1所述的方法,所述通过处理所提取的背景话题关键字,生成一个或多个话题关键字包含:
从所选取的消息中提取一个或多个核心话题关键字;以及
通过组合所提取的核心话题关键字和所提取的背景话题关键字,生成一个或多个话题关键字。
3.根据权利要求1所述的方法,其中所述识别与所选取的消息相关联的关联消息包含:
识别与所选取的消息相关联的交互操作用户;和
从与所述交互操作用户相对应的消息中,识别与所选取的消息具有回复或转发关系的消息,作为与所选取的消息相关联的关联消息。
4.根据权利要求3所述的方法,所述通过处理所提取的背景话题关键字,生成一个或多个话题关键字包含:
确定所提取的背景话题关键字与交互操作用户的对应关系;以及
利用所确定的对应关系,生成一个或多个话题关键字。
5.根据权利要求1或3所述的方法,其中,所述与所选取的消息具有回复或转发关系的消息包括以下中的至少一种:对所选取的消息进行回复或转发的消息;所选取的消息对其进行回复或转发的消息;以及对经所选取的消息回复或转发的消息进行回复或转发的消息。
6.根据权利要求3所述的方法,其中所述识别与所述选取的消息相关联的交互操作用户进一步包含:
确定用户级别;
将所确定的用户级别与预先设定的级别阈值进行比较;以及
将级别高于该预先设定的级别阈值的用户识别为与所选取的消息相关联的交互操作用户。
7.根据权利要求1所述的方法,其中所述识别与所选取的消息相关联的关联消息进一步包含:
将与所选取的消息具有回复或转发关系的消息,识别为与所选取的消息相关联的第一关联消息;和
识别与所选取的消息相关联的交互操作用户,以及从与所述交互操作用户相对应的消息中,识别与所选取的消息具有回复或转发关系的消息,作为与所选取的消息相关联的第二关联消息,
并且,所述基于所识别的关联消息将所选取的消息划归一个或多个话题组进一步包含:
从所选取的消息中提取一个或多个第一核心话题关键字,以及从所识别的第一关联消息中提取一个或多个第一背景话题关键字;
通过组合所提取的第一核心话题关键字和所提取的第一背景话题关键字,生成一个或多个第一话题关键字;
基于所生成的第一话题关键字,获得对所选取的消息的第一话题分类结果;
通过参考所识别的第二关联消息与交互操作用户的对应关系,从所识别的第二关联消息中提取一个或多个第二背景话题关键字;
基于所提取的第二背景话题关键字,获得对所选取的消息的第二话题分类结果;以及
组合并分析所述第一话题分类结果和所述第二话题分类结果,以生成经整合的话题分类结果。
8.一种用于在消息交互环境中跟踪消息话题的设备,所述消息交互环境中包括多条消息,所述设备包含:
消息选取装置,用于从所述消息交互环境所包括的多条消息中选取消息;
关联消息识别装置,用于从所述消息交互环境所包括的多条消息中,识别与所述消息选取装置选取的消息相关联的关联消息,包含:
用于确定所要追踪的话题的预定话题领域的装置;
用于获取用户的话题偏好的装置;
用于将所获取的用户的话题偏好与所确定的预定话题领域进行比较的装置;
用于将话题偏好与所述预定话题领域匹配的用户识别为与所选取的消息相关联的交互操作用户的装置;
用于将与所选取的消息具有回复或转发关系的消息,识别为所述与所选取的消息相关联的关联消息的装置,以及
划分装置,用于基于所述关联消息识别装置识别出的关联消息,将所述消息选取装置选取的消息划归一个或多个话题组,包含:
用于从所识别的关联消息中提取一个或多个背景话题关键字的装置;
用于通过处理所提取的背景话题关键字,生成一个或多个话题关键字的装置;以及
用于将所选取的消息划归与所生成的一个或多个话题关键字分别对应的一个或多个话题组的装置。
9.根据权利要求8所述的设备,所述用于通过处理所提取的背景话题关键字,生成一个或多个话题关键字的装置包含:
用于从所选取的消息中提取一个或多个核心话题关键字的装置;以及
用于通过组合所提取的核心话题关键字和所提取的背景话题关键字,生成一个或多个话题关键字的装置。
10.根据权利要求8所述的设备,其中,所述关联消息识别装置包含:
用于识别与所选取的消息相关联的交互操作用户的装置;和
用于从与所述交互操作用户相对应的消息中,识别与所选取的消息具有回复或转发关系的消息作为与所选取的消息相关联的关联消息的装置。
11.根据权利要求10所述的设备,所述用于通过处理所提取的背景话题关键字,生成一个或多个话题关键字的装置包含:
用于确定所提取的背景话题关键字与交互操作用户的对应关系的装置;以及
用于利用所确定的对应关系,生成一个或多个话题关键字的装置。
12.根据权利要求8或10所述的设备,其中,所述与所选取的消息具有回复或转发关系的消息包括以下中的至少一种:对所选取的消息进行回复或转发的消息;所选取的消息对其进行回复或转发的消息;以及对经所选取的消息回复或转发的消息进行回复或转发的消息。
13.根据权利要求10所述的设备,其中所述用于识别与所选取的消息相关联的交互操作用户的装置进一步包含:
用于确定用户级别的装置;
用于将所确定的用户级别与预先设定的级别阈值进行比较的装置:以及
用于将级别高于该预先设定的级别阈值的用户识别为与所选取的消息相关联的交互操作用户的装置。
14.根据权利要求8所述的设备,其中,
所述关联消息识别装置进一步包含:
用于将与所选取的消息具有回复或转发关系的消息,识别为与所选取的消息相关联的第一关联消息的装置;以及
用于识别与所选取的消息相关联的交互操作用户,以及从与所述交互操作用户相对应的消息中,识别与所选取的消息具有回复或转发关系的消息作为与所选取的消息相关联的第二关联消息的装置,
并且,所述划分装置进一步包含:
用于从所选取的消息中提取一个或多个第一核心话题关键字,以及从所识别的第一关联消息中提取一个或多个第一背景话题关键字的装置;
用于通过组合所提取的第一核心话题关键字和所提取的第一背景话题关键字,生成一个或多个第一话题关键字的装置;
用于基于所生成的第一话题关键字,获得对所选取的消息的第一话题分类结果的装置;
用于通过参考所识别的第二关联消息与交互操作用户的对应关系,从所识别的第二关联消息中提取一个或多个第二背景话题关键字的装置;
用于基于所提取的第二背景话题关键字,获得对所选取的消息的第二话题分类结果的装置;以及
用于组合并分析所述第一话题分类结果和所述第二话题分类结果,以生成经整合的话题分类结果的装置。
15.一种包含如权利要求8—14所述的设备的服务器。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110047636.8A CN102651719B (zh) | 2011-02-28 | 2011-02-28 | 用于在消息交互环境中跟踪消息话题的方法和设备 |
US13/403,472 US8924491B2 (en) | 2011-02-28 | 2012-02-23 | Tracking message topics in an interactive messaging environment |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110047636.8A CN102651719B (zh) | 2011-02-28 | 2011-02-28 | 用于在消息交互环境中跟踪消息话题的方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102651719A CN102651719A (zh) | 2012-08-29 |
CN102651719B true CN102651719B (zh) | 2016-08-31 |
Family
ID=46693614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110047636.8A Active CN102651719B (zh) | 2011-02-28 | 2011-02-28 | 用于在消息交互环境中跟踪消息话题的方法和设备 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8924491B2 (zh) |
CN (1) | CN102651719B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9286144B1 (en) * | 2012-08-23 | 2016-03-15 | Google Inc. | Handling context data for tagged messages |
CN102932454A (zh) * | 2012-10-31 | 2013-02-13 | 陈业 | 多维信息组织结构的社交网络 |
CN104243272B (zh) * | 2013-06-09 | 2019-04-12 | 腾讯科技(北京)有限公司 | 一种媒体消息推送方法和装置 |
US20160080303A1 (en) * | 2013-07-30 | 2016-03-17 | Hewlett-Packard Development Company, L.P. | Determining topic relevance of an email thread |
US9852209B2 (en) | 2014-04-11 | 2017-12-26 | International Business Machines Corporation | Bidirectional integration of information between a microblog and a data repository |
US9729933B2 (en) * | 2014-06-30 | 2017-08-08 | Rovi Guides, Inc. | Systems and methods for loading interactive media guide data based on user history |
US10410385B2 (en) | 2016-02-19 | 2019-09-10 | International Business Machines Corporation | Generating hypergraph representations of dialog |
EP3287961A1 (en) * | 2016-08-23 | 2018-02-28 | Alcatel Lucent | Method for selecting second messages for online inserting said second messages in social network content |
US10956458B2 (en) * | 2017-11-27 | 2021-03-23 | International Business Machines Corporation | Consolidating text conversations from collaboration channels |
US10587553B1 (en) * | 2017-12-29 | 2020-03-10 | Entefy Inc. | Methods and systems to support adaptive multi-participant thread monitoring |
CN108959253A (zh) * | 2018-06-28 | 2018-12-07 | 北京嘀嘀无限科技发展有限公司 | 核心短语的提取方法、装置及可读存储介质 |
CN109829112B (zh) * | 2019-01-31 | 2023-11-14 | 平安科技(深圳)有限公司 | 基于大数据的裂变话题跟踪方法、装置和计算机设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1529524A (zh) * | 2003-09-26 | 2004-09-15 | 移动通讯中的短消息分类方法 | |
CN101763401A (zh) * | 2009-12-30 | 2010-06-30 | 暨南大学 | 一种网络舆情的热点预测和分析方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003242176A (ja) * | 2001-12-13 | 2003-08-29 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
US7310658B2 (en) | 2002-12-27 | 2007-12-18 | International Business Machines Corporation | Method for tracking responses to a forum topic |
US7606168B2 (en) | 2005-01-28 | 2009-10-20 | Attenex Corporation | Apparatus and method for message-centric analysis and multi-aspect viewing using social networks |
US20060294191A1 (en) | 2005-06-24 | 2006-12-28 | Justin Marston | Providing context in an electronic messaging system |
CN101345718A (zh) | 2007-07-13 | 2009-01-14 | 阿里巴巴集团控股有限公司 | 一种在群内支持话题分类的方法、系统和装置 |
KR101513888B1 (ko) * | 2007-12-13 | 2015-04-21 | 삼성전자주식회사 | 멀티미디어 이메일 합성 장치 및 방법 |
ITPO20080002A1 (it) * | 2008-01-22 | 2009-07-23 | Riccardo Vieri | Sistema e metodo per la generazione di pubblicita' contestuale durante l'invio di sms, relativo dispositivo e interfaccia. |
US8201049B2 (en) * | 2008-02-23 | 2012-06-12 | Montage Technology Inc. | Low density parity check (LDPC) decoder |
US20120053990A1 (en) * | 2008-05-07 | 2012-03-01 | Nice Systems Ltd. | System and method for predicting customer churn |
US9521013B2 (en) | 2008-12-31 | 2016-12-13 | Facebook, Inc. | Tracking significant topics of discourse in forums |
US20100235235A1 (en) | 2009-03-10 | 2010-09-16 | Microsoft Corporation | Endorsable entity presentation based upon parsed instant messages |
US8554854B2 (en) * | 2009-12-11 | 2013-10-08 | Citizennet Inc. | Systems and methods for identifying terms relevant to web pages using social network messages |
US9824314B2 (en) * | 2011-01-14 | 2017-11-21 | Apple Inc. | Grouping email messages into conversations |
US8375400B2 (en) * | 2011-02-11 | 2013-02-12 | Research In Motion Limited | Communication device and method for coherent updating of collated message listings |
-
2011
- 2011-02-28 CN CN201110047636.8A patent/CN102651719B/zh active Active
-
2012
- 2012-02-23 US US13/403,472 patent/US8924491B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1529524A (zh) * | 2003-09-26 | 2004-09-15 | 移动通讯中的短消息分类方法 | |
CN101763401A (zh) * | 2009-12-30 | 2010-06-30 | 暨南大学 | 一种网络舆情的热点预测和分析方法 |
Also Published As
Publication number | Publication date |
---|---|
US20120221656A1 (en) | 2012-08-30 |
US8924491B2 (en) | 2014-12-30 |
CN102651719A (zh) | 2012-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102651719B (zh) | 用于在消息交互环境中跟踪消息话题的方法和设备 | |
Chan | The politics of dating apps: Gender, sexuality, and emergent publics in urban China | |
Pons et al. | Impact of Corporate Social Responsibility in mining industries | |
Wu et al. | Neural demographic prediction using search query | |
KR101568311B1 (ko) | 소셜 네트워크에서 친구를 추가하는 방법, 장치 및 저장 매체 | |
CN104731842A (zh) | 用于使用电子通信数据来映射关系的方法和系统 | |
Dey et al. | Analysing appropriation and usability in social and occupational lives: An investigation of Bangladeshi farmers' use of mobile telephony | |
CN103678304B (zh) | 为预定网页推送特定内容的方法、装置 | |
Lee et al. | Emotion in code-switching texts: Corpus construction and analysis | |
CN104202319A (zh) | 一种社交关系推荐方法及装置 | |
CN103778200B (zh) | 一种报文信息源抽取方法及其系统 | |
CN104780257B (zh) | 联系人提示信息生成方法、装置和终端 | |
Lica et al. | Predicting product performance with social media | |
Rawat | Occupation, dignity, and space: The rise of Dalit studies | |
CN108845986A (zh) | 一种情感分析方法、设备及系统、计算机可读存储介质 | |
CN104142936A (zh) | 匹配音视频的方法和装置 | |
Bowling et al. | Social support relationships for sexual minority women in Mumbai, India: a photo elicitation interview study | |
CN105279159B (zh) | 联系人的提示方法和装置 | |
CN107634897A (zh) | 群推荐方法和装置 | |
KR20150145280A (ko) | 자동 댓글 기능 제공 시스템 | |
CN110110218A (zh) | 一种身份关联方法及终端 | |
CN104618555B (zh) | 一种用户信息标注的方法、装置及系统 | |
Pilkington | ‘If you want to live, you better know how to fight’: Fighting masculinity on the Russian punk scene | |
Huang et al. | Emotionpush: Emotion and response time prediction towards human-like chatbots | |
Brogueira et al. | Expanding a database of portuguese tweets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |