CN103390065A - 一种基于通讯群组的数据提取方法和装置 - Google Patents

一种基于通讯群组的数据提取方法和装置 Download PDF

Info

Publication number
CN103390065A
CN103390065A CN2013103321616A CN201310332161A CN103390065A CN 103390065 A CN103390065 A CN 103390065A CN 2013103321616 A CN2013103321616 A CN 2013103321616A CN 201310332161 A CN201310332161 A CN 201310332161A CN 103390065 A CN103390065 A CN 103390065A
Authority
CN
China
Prior art keywords
user
group
communication
text message
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013103321616A
Other languages
English (en)
Inventor
曹洪伟
李可意
杜炜华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING YOUJIARONG TECHNOLOGY Co Ltd
Original Assignee
BEIJING YOUJIARONG TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING YOUJIARONG TECHNOLOGY Co Ltd filed Critical BEIJING YOUJIARONG TECHNOLOGY Co Ltd
Priority to CN2013103321616A priority Critical patent/CN103390065A/zh
Publication of CN103390065A publication Critical patent/CN103390065A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种基于通讯群组的数据提取方法,所述方法包括:获取在预设时间内,所述通讯群组中的用户之间通讯的文本信息;将获取到的文本信息进行分段处理;将分段后的文本信息与语料库进行匹配,根据匹配结果生成特征向量;对生成的特征向量进行聚合,得到聚合度大于预设值的文本信息。可知,本发明中得到聚合度大于预设值,也就是出现频率大于一定值的文本信息。可见,无需人工筛查出现频率较高的文本信息,因此提高了工作效率,并且最终得到的是聚合度大于预设值的文本信息,而不是用户之间通讯的完整信息,因此相比于人工筛查,提高了用户之间通讯的隐私性。本发明还提供了一种基于通讯群组的数据提取装置。

Description

一种基于通讯群组的数据提取方法和装置
技术领域
本发明涉及计算机领域,尤其是涉及一种基于通讯群组的数据提取方法和装置。
背景技术
随着计算机技术的发展,人们越来越习惯于使用计算机网络进行通讯交流。而在使用计算机网络进行通讯交流时,往往通过通讯群组限定交流的用户的范围。例如,用户通过腾讯QQ加入相应的好友,该用户与其所有的好友就组成一个通讯群组,该用户能够跟该群组中的用户进行联系。当然用户也可以在该群组下建立子通讯群组,例如QQ群,用户在QQ群中发出的消息,该QQ群中的其他用户也同样可以收到。
目前,通常需要对通讯群组中通讯的文本信息进行数据处理,在数据处理时要对文本信息按照一定条件进行提取,其中最常见的就是将出现频率较高的文本信息提取出来。在提取通讯群组中出现频率较高的文本信息时,目前采用的是人工筛查的方式,但是这种人工筛查的方式,不仅工作量很大,而且人工筛查时,筛查人员会看到通讯的所有内容,降低了用户之间通讯的隐私性。
发明内容
本发明解决的技术问题在于提供一种基于通讯群组的数据提取方法和装置,能够提取出通讯群组中出现的频率大于一定值的文本信息,并且相比人工筛查减小了工作量,提高了用户之间通讯的隐私性。
为此,本发明解决技术问题的技术方案是:
本发明提供了一种基于通讯群组的数据提取方法,所述方法包括:
获取在预设时间内,所述通讯群组中的用户之间通讯的文本信息;
将获取到的文本信息进行分段处理;
将分段后的文本信息与语料库进行匹配,根据匹配结果生成特征向量;
对生成的特征向量进行聚合,得到聚合度大于预设值的文本信息。
优选地,所述通讯群组中设置有第一用户组和第二用户组;所述第一用户组中的用户具有第一权限,所述第二用户组中的用户具有第二权限,所述第一权限使得用户能查找到第一用户组和第二用户组中的用户,第二权限使得用户仅能查找到与该用户建立了联系的第一用户组中的用户;
则所述通讯群组中的用户之间通讯的文本信息具体为:
第一用户组的用户之间通讯的文本信息、或者第二用户组的用户与第一用户组的用户之间通讯的文本信息。
优选地,所述获取所述通讯群组中的用户之间通讯的文本信息之后还包括:
获取与用户A建立联系的第二用户组中的至少一个用户;其中用户A为第一用户组中的用户;
分别统计用户A与所述至少一个用户的通讯次数。
优选地,所述获取所述通讯群组中的用户之间通讯的文本信息时还包括:
获取通讯群组中的用户之间通讯的文本信息对应的用户信息和/或终端信息;
所述得到聚合度大于预设值的文本信息时还包括:
得到聚合度大于预设值的文本信息所对应的用户信息和/或终端信息。
优选地,所述得到聚合度大于预设值的文本信息所对应的用户信息和/或终端信息之后还包括:
根据所述聚合度大于预设值的文本信息所对应的用户信息和/或终端信息,对所述聚合度大于预设值的文本信息进行分类显示。
优选地,所述获取所述通讯群组中的用户之间通讯的文本信息之前还包括:
获取所述通讯群组的用户信息和/或终端信息;
所述获取所述通讯群组中的用户之间通讯的文本信息具体为:
获取满足预设条件的用户信息和/或终端信息对应的用户,在所述通讯群组中通讯的文本信息。
本发明还提供了一种基于通讯群组的数据提取装置,所述装置包括:
获取单元,用于获取在预设时间内,所述通讯群组中的用户之间通讯的文本信息;
分段单元,用于将获取单元获取到的文本信息进行分段处理;
匹配单元,用于将分段单元分段后的文本信息与语料库进行匹配,根据匹配结果生成特征向量;
聚合单元,用于对匹配单元生成的特征向量进行聚合,得到聚合度大于预设值的文本信息。
优选地,所述通讯群组中设置有第一用户组和第二用户组;所述第一用户组中的用户具有第一权限,所述第二用户组中的用户具有第二权限,所述第一权限使得用户能查找到第一用户组和第二用户组中的用户,第二权限使得用户仅能查找到与该用户建立了联系的第一用户组中的用户;
获取单元用于获取在预设时间内,所述通讯群组中的用户之间通讯的文本信息具体为:
获取单元用于获取在预设时间内,第一用户组的用户之间通讯的文本信息、或者第二用户组的用户与第一用户组的用户之间通讯的文本信息。
优选地,所述获取单元还用于获取通讯群组中的用户之间通讯的文本信息对应的用户信息和/或终端信息;
所述聚合单元还用于得到聚合度大于预设值的文本信息所对应的用户信息和/或终端信息。
优选地,所述获取单元还用于获取所述通讯群组的用户信息和/或终端信息;
所述获取单元用于获取所述通讯群组中的用户之间通讯的文本信息具体为:
所述获取单元用于获取满足预设条件的用户信息和/或终端信息对应的用户,在所述通讯群组中通讯的文本信息。
通过上述技术方案可知,本发明中获取预设时间内,通讯群组中的用户之间的文本信息,将文本信息分别进行分段处理、与语料库匹配、生成特征向量,并对生成的特征向量进行聚合,得到聚合度大于预设值,也就是出现频率大于一定值的文本信息。可见,本发明中无需人工筛查出现频率较高的文本信息,因此提高了工作效率,并且最终得到的是聚合度大于预设值的文本信息,而不是用户之间通讯的完整信息,因此相比于人工筛查,提高了用户之间通讯的隐私性。
附图说明
图1为本发明提供的数据提取方法的具体实施例的流程示意图;
图2为本发明提供的数据提取方法的另一具体实施例的流程示意图;
图3为本发明提供的数据提取装置的具体实施例的结构示意图;
图4为本发明提供的数据提取装置的另一具体实施例的结构示意图。
具体实施方式
请参阅图1,本发明提供了基于通讯群组的数据提取方法的一具体实施例,在本实施例中,所述方法包括:
S101:获取在预设时间内,所述通讯群组中的用户之间通讯的文本信息。预设时间可以根据实际情况设定,例如,可以设定预设时间为最近一个月内。
这里通讯群组可以是通过腾讯QQ、263等通讯工具建立的通讯群组。例如,当用户通过腾讯QQ加入相应的好友,该用户与其所有的好友就组成一个通讯群组,该用户能够跟该群组中的用户进行联系。当然用户也可以在该群组下建立子通讯群组,例如QQ群,用户在QQ群中发出的消息,该QQ群中的其他用户也同样可以收到。
这里所述的文本信息为通讯群组中的用户之间通过各种形式通讯的文本信息,例如,以腾讯QQ为例,所述文本信息既包括用户与其好友用户的通讯信息,也包括用户在QQ群中发出的通讯信息。
由于用户通过通讯群组通讯时,通常是由客户端将用户通讯的信息发送至服务器,而服务器再将该信息发送给目标用户的客户端。服务器会在数据库中保存所有用户通讯的历史数据。因此,该步骤中可以具体为在服务器的数据库中获取在预设时间内,所述通讯群组中的用户之间通讯的文本信息。
S102:将步骤S101中获取到的文本信息进行分段处理。
这里分段可以为分成多个词组,或者多个段落。具体该步骤可以采用自然语言处理(NLP)中的一个或多个算法。
例如,本实施例所述方法用于为幼儿园的家长和老师建立的通讯群组中,并且步骤S101中获取到的文本信息为:
1)2013-5-1 9:00:00 A向B发送的消息为: 佳佳在唱歌
2)2013-5-2 9:01:00 A向C发送的消息为: 雨雨在唱歌
3)2013-5-3 9:02:00 A向D发送的消息为: 晶晶在唱小白兔
4)2013-5-4 9:03:00 A向B发送的消息为: 佳佳在唱花园里
其中,A为幼儿园老师,B、C、D分别为佳佳、雨雨和晶晶的家长,小白兔和花园里分别为歌名。
则该步骤分段处理的结果分别为:
1)佳佳,在,唱,歌
2)雨雨,在,唱,歌
3)晶晶,在,唱,小,白兔
4)佳佳,在,唱,花园,里
S103:将分段后的文本信息与语料库进行匹配,根据匹配结果生成特征向量。
该语料库可以存储在服务器中。
仍然以上述例子为例,得到的特征向量可以为:
1){AA,Z,C,G}
2){BB,Z,C,G}
3) {JJ, Z, C, X, BT}
4){AA, Z, C, HY, L}
实际上,步骤S103中将分段后的文本信息与语料库匹配时,可以是分段后的文本信息与语料库中的集合进行匹配。例如,语料库中具有集合:孩子们,该集合包括佳佳、雨雨、晶晶等,语料库中还具有集合:歌,该集合包括小白兔、花园里等等。则上述分段后的文本信息佳佳、雨雨、晶晶与语料库匹配的结果均为“孩子们”,则上述分段后的文本信息小白兔、花园里与语料库匹配的结果均为“歌”,因此,生成的特征向量可以是:
1){HZM,Z,C,G}
2){HZM,Z,C,G}
3) {HZM, Z, C, G }
4){HZM, Z, C, G }
S104:对生成的特征向量进行聚合,得到聚合度大于预设值的文本信息。
这里预设值可以根据得到的聚合度结果进行设置,例如可以设置预设值为聚合度的第四高的值,则最终得到聚合度前三高的文本信息。
聚合度大于预设值表示对应的文本信息的出现频率大于一定值。
仍以上述例子为例,通过设置合适的预设值,可以得到文本信息:“孩子们”“在”“唱”“歌”。
通过上述技术方案可知,本实施例中获取预设时间内,通讯群组中的用户之间的文本信息,将文本信息分别进行分段处理、与语料库匹配、生成特征向量,并对生成的特征向量进行聚合,得到聚合度大于预设值,也就是出现频率大于一定值的文本信息。可见,本发明中无需人工筛查出现频率较高的文本信息,因此提高了工作效率,并且最终得到的是聚合度大于预设值的文本信息,而不是用户之间通讯的完整信息,因此相比于人工筛查,提高了用户之间通讯的隐私性。
在本实施例中,提取出了通讯群组中的用户之间出现频率较高的文本信息。实际上,还可以在提取出现频率较高的文本信息时,将该提取出的文本信息是哪些用户之间发送的、或者通讯的用户的信息或终端信息等等也进一步提取出来。下面做具体说明:
在步骤S101中的获取所述通讯群组中的用户之间通讯的文本信息时所述方法还包括:
获取通讯群组中的用户之间通讯的文本信息对应的用户信息和/或终端信息。
则步骤S104中所述得到聚合度大于预设值的文本信息时还包括:
得到聚合度大于预设值的文本信息所对应的用户信息和/或终端信息。
其中,用户信息包括以下信息中的一个或多个信息:
用户标识、用户登记的年龄信息、手机号码、职业信息、家庭住址等。
终端信息包括以下信息中的一个或多个信息:
用户使用的终端标识、终端类型等。
因此,当步骤S104中得到聚合度大于预设值的文本信息时,还能够同时得到这些聚合度大于预设值的文本信息,是由哪些用户或者哪些终端发送的,并且这些用户或者终端具有哪些特性。
此时还可以根据用户或者终端的特性对得到的文本信息进行分类。具体地,所述得到聚合度大于预设值的文本信息所对应的用户信息和/或终端信息之后还包括:
根据所述聚合度大于预设值的文本信息所对应的用户信息和/或终端信息,对所述聚合度大于预设值的文本信息进行分类显示。例如,根据用户的年龄信息,对年龄在20-30岁的用户对应的聚合度最高的文本信息进行显示,对年龄在30-40岁的用户对应的聚合度最高的文本信息进行显示。
实际上,在本实施例中,还可以针对具有一定条件的用户的文本信息进行提取。
具体地,步骤S101中的获取所述通讯群组中的用户之间通讯的文本信息之前还包括:
获取所述通讯群组的用户信息和/或终端信息。
则步骤S101中的所述获取所述通讯群组中的用户之间通讯的文本信息具体为:
获取满足预设条件的用户信息和/或终端信息对应的用户,在所述通讯群组中通讯的文本信息。
其中,预设条件可以是对用户信息和/或终端信息作相应限制。例如,预设条件可以为用户标识为用户A,则步骤S101中获取的是用户A与其他用户之间通讯的文本信息。预设条件还可以进一步限制为用户A和用户B之间,则步骤S101获取的是用户A和用户B之间通讯的文本信息。
在本实施例中,通讯群组可以为腾讯QQ或者263等建立的类似通讯群组。其中,腾讯QQ建立的群组中的通讯信息保存在腾讯的服务器中,一般用户没有权限获取,聊天历史记录不能在不同设备中转移和呈现,因此在企业中常使用的是263。263是针对企业内部员工进行通讯的软件,因此263上的所有用户为企业内部员工,企业相关部门通过群发或者建立群的形式向企业内部员工发送通知。但是263中的用户仅能与企业内部员工进行通讯,而需要通过其他的通讯工具与企业外部客户进行通讯,当该用户离职后,他所建立的全部或部分工作关系直接与企业失去了业务关系,造成了一定的损失,因此,在下一个实施例中,本发明中的数据提取方法用于一种新的通讯群组中,企业内部员工可以通过该通讯群组与客户进行通讯,并且客户仅能查找到与其建立联系的员工,而企业内部所有员工都能看到其中任一个员工的所有客户。
请参阅图2,本发明还提供了基于通讯群组的数据提取方法的另一具体实施例,所述通讯群组中设置有第一用户组和第二用户组;所述第一用户组中的用户具有第一权限,所述第二用户组中的用户具有第二权限,所述第一权限使得用户能查找到第一用户组和第二用户组中的用户,第二权限使得用户仅能查找到与该用户建立了联系的第一用户组中的用户。
本实施例中,所述方法包括:
S201:获取在预设时间内,第一用户组的用户之间通讯的文本信息、或者第二用户组的用户与第一用户组的用户之间通讯的文本信息。
本实施例中所使用的通讯群组中具有两种权限的用户组,即第一用户组和第二用户组,而第一用户组中的用户能够查找到第一用户组的其他用户和第二用户组中的所有用户,并且能够直接跟第一用户组的其他用户通讯,以及在与第二用户组的用户建立了联系,例如建立了好友关系之后,能够与第二用户组的用户通讯。而第二用户组中的用户只能查找到与第一用户组中与其建立了联系的用户。因此,该通讯群组中的通讯主要有两种形式,一种是第一用户组之间的用户的通讯,另一种是建立了联系的第一用户组和第二用户组之间的用户的通讯。
S202:将步骤S201中获取到的文本信息进行分段处理。
具体该步骤可以采用NLP中的一个或多个算法。
S203:将分段后的文本信息与语料库进行匹配,根据匹配结果生成特征向量。
S204:对生成的特征向量进行聚合,得到聚合度大于预设值的文本信息。
通过上述技术方案可知,本实施例中对一种特殊的通讯群组中通讯的文本信息进行分段处理、与语料库匹配、生成特征向量,并对生成的特征向量进行聚合,得到聚合度大于预设值,也就是出现频率大于一定值的文本信息。可见,本发明中无需人工筛查出现频率较高的文本信息,因此提高了工作效率,并且最终得到的是聚合度大于预设值的文本信息,而不是用户之间通讯的完整信息,因此相比于人工筛查,提高了用户之间通讯的隐私性。
实际上,还可以进一步在本实施例的基础上提取出用户之间的沟通次数。当企业内部的员工离职后,可以通过该员工与客户的沟通次数快速筛选出该员工沟通次数较多的用户。
具体地,所述方法还包括:
获取与用户A建立联系的第二用户组中的至少一个用户;其中用户A为第一用户组中的用户。
分别统计用户A与所述至少一个用户的通讯次数。这里,分别统计用户A与每一个用户的通讯的信息的数量。
上述两个步骤可以在本实施例中的任一步骤执行,本发明对此不做限定。
请参阅图3,本发明还提供了基于通讯群组的数据提取装置的一具体实施例,在本实施例中,所述装置包括获取单元301、分段单元302、匹配单元303和聚合单元304。
获取单元301,用于获取在预设时间内,所述通讯群组中的用户之间通讯的文本信息。
这里通讯群组可以是通过腾讯QQ、263等通讯工具建立的通讯群组。例如,当用户通过腾讯QQ加入相应的好友,该用户与其所有的好友就组成一个通讯群组,该用户能够跟该群组中的用户进行联系。当然用户也可以在该群组下建立子通讯群组,例如QQ群,用户在QQ群中发出的消息,该QQ群中的其他用户也同样可以收到。
这里所述的文本信息为通讯群组中的用户之间通过各种形式通讯的文本信息,例如,以腾讯QQ为例,所述文本信息既包括用户与其好友用户的通讯信息,也包括用户在QQ群中发出的通讯信息。
由于用户通过通讯群组通讯时,通常是由客户端将用户通讯的信息发送至服务器,而服务器再将该信息发送给目标用户的客户端。服务器会在数据库中保存所有用户通讯的历史数据。因此,该步骤中可以具体为在服务器的数据库中获取在预设时间内,所述通讯群组中的用户之间通讯的文本信息。
分段单元302,用于将获取单元301获取到的文本信息进行分段处理。分段单元具体可以采用自然语言处理(NLP)中的一个或多个算法。
匹配单元303,用于将分段单元302分段后的文本信息与语料库进行匹配,根据匹配结果生成特征向量。
匹配单元303将分段后的文本信息与语料库匹配时,可以是分段后的文本信息与语料库中的集合进行匹配。
聚合单元304,用于对生成的特征向量进行聚合,得到聚合度大于预设值的文本信息。
这里预设值可以根据得到的聚合度结果进行设置,例如可以设置预设值为聚合度的第四高的值,则最终得到聚合度前三高的文本信息。
聚合度大于预设值表示对应的文本信息的出现频率大于一定值。
通过上述技术方案可知,本实施例中获取预设时间内,通讯群组中的用户之间的文本信息,将文本信息分别进行分段处理、与语料库匹配、生成特征向量,并对生成的特征向量进行聚合,得到聚合度大于预设值,也就是出现频率大于一定值的文本信息。可见,本发明中无需人工筛查出现频率较高的文本信息,因此提高了工作效率,并且最终得到的是聚合度大于预设值的文本信息,而不是用户之间通讯的完整信息,因此相比于人工筛查,提高了用户之间通讯的隐私性。
在本实施例中,还可以在提取出现频率较高的文本信息时,将该提取出的文本信息是哪些用户之间发送的、或者通讯的用户的信息等等也进一步提取出来。下面做具体说明:
获取单元301还用于获取通讯群组中的用户之间通讯的文本信息对应的用户信息和/或终端信息。
聚合单元304还用于得到聚合度大于预设值的文本信息所对应的用户信息和/或终端信息
其中,用户信息包括以下信息中的一个或多个信息:
用户标识、用户登记的年龄信息、手机号码、职业信息、家庭住址等。
终端信息包括以下信息中的一个或多个信息:
用户使用的终端标识、终端类型等。
此时还可以根据用户或者终端的特性对得到的文本信息进行分类。具体地,所述聚合单元304还用于得到聚合度大于预设值的文本信息所对应的用户信息和/或终端信息之后,根据所述聚合度大于预设值的文本信息所对应的用户信息和/或终端信息,对所述聚合度大于预设值的文本信息进行分类显示。
实际上,在本实施例中,还可以针对具有一定条件的用户的文本信息进行提取。
具体地,所述获取单元301还用于获取所述通讯群组的用户信息和/或终端信息。
则所述获取单元301用于获取所述通讯群组中的用户之间通讯的文本信息具体为:
获取单元301用于获取满足预设条件的用户信息和/或终端信息对应的用户,在所述通讯群组中通讯的文本信息。
其中,预设条件可以是对用户信息和/或终端信息作相应限制。
在下一个实施例中,本发明中的数据提取装置用于一种新的通讯群组中,企业内部员工可以通过该通讯群组与客户进行通讯,并且客户仅能查找到与其建立联系的员工,而企业内部所有员工都能看到其中任一个员工的所有客户。
请参阅图4,本发明还提供了基于通讯群组的数据提取装置的另一具体实施例,所述通讯群组中设置有第一用户组和第二用户组;所述第一用户组中的用户具有第一权限,所述第二用户组中的用户具有第二权限,所述第一权限使得用户能查找到第一用户组和第二用户组中的用户,第二权限使得用户仅能查找到与该用户建立了联系的第一用户组中的用户。
本实施例中,所述装置包括:获取单元401、分段单元402、匹配单元403和聚合单元404。
获取单元401用于获取在预设时间内,第一用户组的用户之间通讯的文本信息、或者第二用户组的用户与第一用户组的用户之间通讯的文本信息。
分段单元402用于将获取单元401中获取到的文本信息进行分段处理。
匹配单元403用于将分段单元402分段后的文本信息与语料库进行匹配,根据匹配结果生成特征向量。
聚合单元404用于对匹配单元403生成的特征向量进行聚合,得到聚合度大于预设值的文本信息。
实际上,还可以进一步在本实施例的基础上提取出用户之间的沟通次数。当企业内部的员工离职后,可以通过该员工与客户的沟通次数快速筛选出该员工沟通次数较多的用户。
具体地,获取单元401还用于获取与用户A建立联系的第二用户组中的至少一个用户;其中用户A为第一用户组中的用户。
聚合单元404还用于分别统计用户A与所述至少一个用户的通讯次数。
需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于通讯群组的数据提取方法,其特征在于,所述方法包括:
获取在预设时间内,所述通讯群组中的用户之间通讯的文本信息;
将获取到的文本信息进行分段处理;
将分段后的文本信息与语料库进行匹配,根据匹配结果生成特征向量;
对生成的特征向量进行聚合,得到聚合度大于预设值的文本信息。
2.根据权利要求1所述的方法,其特征在于,所述通讯群组中设置有第一用户组和第二用户组;所述第一用户组中的用户具有第一权限,所述第二用户组中的用户具有第二权限,所述第一权限使得用户能查找到第一用户组和第二用户组中的用户,第二权限使得用户仅能查找到与该用户建立了联系的第一用户组中的用户;
则所述通讯群组中的用户之间通讯的文本信息具体为:
第一用户组的用户之间通讯的文本信息、或者第二用户组的用户与第一用户组的用户之间通讯的文本信息。
3.根据权利要求2所述的方法,其特征在于,所述获取所述通讯群组中的用户之间通讯的文本信息之后还包括:
获取与用户A建立联系的第二用户组中的至少一个用户;其中用户A为第一用户组中的用户;
分别统计用户A与所述至少一个用户的通讯次数。
4.根据权利要求1所述的方法,其特征在于,所述获取所述通讯群组中的用户之间通讯的文本信息时还包括:
获取通讯群组中的用户之间通讯的文本信息对应的用户信息和/或终端信息;
所述得到聚合度大于预设值的文本信息时还包括:
得到聚合度大于预设值的文本信息所对应的用户信息和/或终端信息。
5.根据权利要求4所述的方法,其特征在于,所述得到聚合度大于预设值的文本信息所对应的用户信息和/或终端信息之后还包括:
根据所述聚合度大于预设值的文本信息所对应的用户信息和/或终端信息,对所述聚合度大于预设值的文本信息进行分类显示。
6.根据权利要求1所述的方法,其特征在于,所述获取所述通讯群组中的用户之间通讯的文本信息之前还包括:
获取所述通讯群组的用户信息和/或终端信息;
所述获取所述通讯群组中的用户之间通讯的文本信息具体为:
获取满足预设条件的用户信息和/或终端信息对应的用户,在所述通讯群组中通讯的文本信息。
7.一种基于通讯群组的数据提取装置,其特征在于,所述装置包括:
获取单元,用于获取在预设时间内,所述通讯群组中的用户之间通讯的文本信息;
分段单元,用于将获取单元获取到的文本信息进行分段处理;
匹配单元,用于将分段单元分段后的文本信息与语料库进行匹配,根据匹配结果生成特征向量;
聚合单元,用于对匹配单元生成的特征向量进行聚合,得到聚合度大于预设值的文本信息。
8.根据权利要求7所述的装置,其特征在于,所述通讯群组中设置有第一用户组和第二用户组;所述第一用户组中的用户具有第一权限,所述第二用户组中的用户具有第二权限,所述第一权限使得用户能查找到第一用户组和第二用户组中的用户,第二权限使得用户仅能查找到与该用户建立了联系的第一用户组中的用户;
获取单元用于获取在预设时间内,所述通讯群组中的用户之间通讯的文本信息具体为:
获取单元用于获取在预设时间内,第一用户组的用户之间通讯的文本信息、或者第二用户组的用户与第一用户组的用户之间通讯的文本信息。
9.根据权利要求7所述的装置,其特征在于,
所述获取单元还用于获取通讯群组中的用户之间通讯的文本信息对应的用户信息和/或终端信息;
所述聚合单元还用于得到聚合度大于预设值的文本信息所对应的用户信息和/或终端信息。
10.根据权利要求7所述的装置,其特征在于,
所述获取单元还用于获取所述通讯群组的用户信息和/或终端信息;
所述获取单元用于获取所述通讯群组中的用户之间通讯的文本信息具体为:
所述获取单元用于获取满足预设条件的用户信息和/或终端信息对应的用户,在所述通讯群组中通讯的文本信息。
CN2013103321616A 2013-08-01 2013-08-01 一种基于通讯群组的数据提取方法和装置 Pending CN103390065A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013103321616A CN103390065A (zh) 2013-08-01 2013-08-01 一种基于通讯群组的数据提取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013103321616A CN103390065A (zh) 2013-08-01 2013-08-01 一种基于通讯群组的数据提取方法和装置

Publications (1)

Publication Number Publication Date
CN103390065A true CN103390065A (zh) 2013-11-13

Family

ID=49534337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013103321616A Pending CN103390065A (zh) 2013-08-01 2013-08-01 一种基于通讯群组的数据提取方法和装置

Country Status (1)

Country Link
CN (1) CN103390065A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104579933A (zh) * 2015-02-03 2015-04-29 上海天奕达电子科技有限公司 一种用户管理方法及系统
CN104750380A (zh) * 2013-12-31 2015-07-01 中国移动通信集团公司 一种信息处理的方法及电子设备
CN107819670A (zh) * 2017-11-13 2018-03-20 重庆首亨软件有限公司 一种基于通讯软件的信息处理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6400381B1 (en) * 1999-06-11 2002-06-04 International Business Machines Corporation Web places
CN102567290A (zh) * 2010-12-30 2012-07-11 百度在线网络技术(北京)有限公司 用于对待处理的短文本信息进行扩展的方法、装置和设备
CN102930055A (zh) * 2012-11-18 2013-02-13 浙江大学 结合内部聚合度和外部离散信息熵的网络新词发现方法
CN103020175A (zh) * 2012-11-28 2013-04-03 深圳市华为技术软件有限公司 一种获取聚合数据的方法和装置
CN103201745A (zh) * 2010-11-08 2013-07-10 Abb研究有限公司 设置软件系统使用的访问级别的方法及其计算机程序产品和处理器装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6400381B1 (en) * 1999-06-11 2002-06-04 International Business Machines Corporation Web places
CN103201745A (zh) * 2010-11-08 2013-07-10 Abb研究有限公司 设置软件系统使用的访问级别的方法及其计算机程序产品和处理器装置
CN102567290A (zh) * 2010-12-30 2012-07-11 百度在线网络技术(北京)有限公司 用于对待处理的短文本信息进行扩展的方法、装置和设备
CN102930055A (zh) * 2012-11-18 2013-02-13 浙江大学 结合内部聚合度和外部离散信息熵的网络新词发现方法
CN103020175A (zh) * 2012-11-28 2013-04-03 深圳市华为技术软件有限公司 一种获取聚合数据的方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750380A (zh) * 2013-12-31 2015-07-01 中国移动通信集团公司 一种信息处理的方法及电子设备
CN104579933A (zh) * 2015-02-03 2015-04-29 上海天奕达电子科技有限公司 一种用户管理方法及系统
CN104579933B (zh) * 2015-02-03 2018-05-11 上海卓易科技股份有限公司 一种用户管理方法及系统
CN107819670A (zh) * 2017-11-13 2018-03-20 重庆首亨软件有限公司 一种基于通讯软件的信息处理方法

Similar Documents

Publication Publication Date Title
CN106874134B (zh) 工单类型的处理方法、装置及系统
CN107784051B (zh) 在线客服应答系统及方法
CN102111730B (zh) 一种基于移动终端通讯录的信息分发方法及信息分发系统
CN108289053B (zh) 即时通信会话的控制方法、装置和系统
US8595303B2 (en) Thread data aggregation
CN103501374A (zh) 电话簿排序方法及装置、终端
Hultgren Vocatives as rationalized politeness: Theoretical insights from emerging norms in call centre service encounters
CN104182549A (zh) 一种电子邮件摘要生成方法及装置
CN103533169A (zh) 一种基于移动终端电子名片的字段定位链接方法
Granger et al. Re-spatializing the creative industries: a relational examination of underground scenes, and professional and organizational lock-in
CN105989107A (zh) 一种应用推荐方法及装置
CN103390065A (zh) 一种基于通讯群组的数据提取方法和装置
CN112446622A (zh) 企业微信会话评价方法、系统、电子设备及存储介质
CN110689357B (zh) 基于机器学习的用于在线客服的工单生成方法
CN110048862B (zh) 消息显示方法、装置、电子设备
CN105430624A (zh) 一种信息获取的方法及装置
CN105376143A (zh) 一种识别发送者身份的方法及装置
CN110990007A (zh) 银行软件功能界面生成方法和装置
CN116303379A (zh) 一种数据处理方法、系统及计算机储存介质
CN105913215A (zh) 电子邮件处理方法及设备
CN109685129A (zh) 一种基于智能手机的多类社交应用主题信息聚类关联方法
CN106549914B (zh) 一种独立访问者的识别方法及装置
CN110399615B (zh) 交易风险监控方法及装置
CN112035678A (zh) 银行业务知识图谱构建方法及装置
CN104361519A (zh) 一种社交网络服务平台的实现方法及社交网络服务平台

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20131113

RJ01 Rejection of invention patent application after publication