CN103390065A

CN103390065A - 一种基于通讯群组的数据提取方法和装置

Info

Publication number: CN103390065A
Application number: CN2013103321616A
Authority: CN
Inventors: 曹洪伟; 李可意; 杜炜华
Original assignee: BEIJING YOUJIARONG TECHNOLOGY Co Ltd
Current assignee: BEIJING YOUJIARONG TECHNOLOGY Co Ltd
Priority date: 2013-08-01
Filing date: 2013-08-01
Publication date: 2013-11-13

Abstract

本发明提供了一种基于通讯群组的数据提取方法，所述方法包括：获取在预设时间内，所述通讯群组中的用户之间通讯的文本信息；将获取到的文本信息进行分段处理；将分段后的文本信息与语料库进行匹配，根据匹配结果生成特征向量；对生成的特征向量进行聚合，得到聚合度大于预设值的文本信息。可知，本发明中得到聚合度大于预设值，也就是出现频率大于一定值的文本信息。可见，无需人工筛查出现频率较高的文本信息，因此提高了工作效率，并且最终得到的是聚合度大于预设值的文本信息，而不是用户之间通讯的完整信息，因此相比于人工筛查，提高了用户之间通讯的隐私性。本发明还提供了一种基于通讯群组的数据提取装置。

Description

一种基于通讯群组的数据提取方法和装置

技术领域

本发明涉及计算机领域，尤其是涉及一种基于通讯群组的数据提取方法和装置。

背景技术

随着计算机技术的发展，人们越来越习惯于使用计算机网络进行通讯交流。而在使用计算机网络进行通讯交流时，往往通过通讯群组限定交流的用户的范围。例如，用户通过腾讯ＱＱ加入相应的好友，该用户与其所有的好友就组成一个通讯群组，该用户能够跟该群组中的用户进行联系。当然用户也可以在该群组下建立子通讯群组，例如ＱＱ群，用户在ＱＱ群中发出的消息，该ＱＱ群中的其他用户也同样可以收到。

目前，通常需要对通讯群组中通讯的文本信息进行数据处理，在数据处理时要对文本信息按照一定条件进行提取，其中最常见的就是将出现频率较高的文本信息提取出来。在提取通讯群组中出现频率较高的文本信息时，目前采用的是人工筛查的方式，但是这种人工筛查的方式，不仅工作量很大，而且人工筛查时，筛查人员会看到通讯的所有内容，降低了用户之间通讯的隐私性。

发明内容

本发明解决的技术问题在于提供一种基于通讯群组的数据提取方法和装置，能够提取出通讯群组中出现的频率大于一定值的文本信息，并且相比人工筛查减小了工作量，提高了用户之间通讯的隐私性。

为此，本发明解决技术问题的技术方案是：

本发明提供了一种基于通讯群组的数据提取方法，所述方法包括：

获取在预设时间内，所述通讯群组中的用户之间通讯的文本信息；

将获取到的文本信息进行分段处理；

将分段后的文本信息与语料库进行匹配，根据匹配结果生成特征向量；

对生成的特征向量进行聚合，得到聚合度大于预设值的文本信息。

优选地，所述通讯群组中设置有第一用户组和第二用户组；所述第一用户组中的用户具有第一权限，所述第二用户组中的用户具有第二权限，所述第一权限使得用户能查找到第一用户组和第二用户组中的用户，第二权限使得用户仅能查找到与该用户建立了联系的第一用户组中的用户；

则所述通讯群组中的用户之间通讯的文本信息具体为：

第一用户组的用户之间通讯的文本信息、或者第二用户组的用户与第一用户组的用户之间通讯的文本信息。

优选地，所述获取所述通讯群组中的用户之间通讯的文本信息之后还包括：

获取与用户Ａ建立联系的第二用户组中的至少一个用户；其中用户Ａ为第一用户组中的用户；

分别统计用户Ａ与所述至少一个用户的通讯次数。

优选地，所述获取所述通讯群组中的用户之间通讯的文本信息时还包括：

获取通讯群组中的用户之间通讯的文本信息对应的用户信息和／或终端信息；

所述得到聚合度大于预设值的文本信息时还包括：

得到聚合度大于预设值的文本信息所对应的用户信息和／或终端信息。

优选地，所述得到聚合度大于预设值的文本信息所对应的用户信息和／或终端信息之后还包括：

根据所述聚合度大于预设值的文本信息所对应的用户信息和／或终端信息，对所述聚合度大于预设值的文本信息进行分类显示。

优选地，所述获取所述通讯群组中的用户之间通讯的文本信息之前还包括：

获取所述通讯群组的用户信息和／或终端信息；

所述获取所述通讯群组中的用户之间通讯的文本信息具体为：

获取满足预设条件的用户信息和／或终端信息对应的用户，在所述通讯群组中通讯的文本信息。

本发明还提供了一种基于通讯群组的数据提取装置，所述装置包括：

获取单元，用于获取在预设时间内，所述通讯群组中的用户之间通讯的文本信息；

分段单元，用于将获取单元获取到的文本信息进行分段处理；

匹配单元，用于将分段单元分段后的文本信息与语料库进行匹配，根据匹配结果生成特征向量；

聚合单元，用于对匹配单元生成的特征向量进行聚合，得到聚合度大于预设值的文本信息。

获取单元用于获取在预设时间内，所述通讯群组中的用户之间通讯的文本信息具体为：

获取单元用于获取在预设时间内，第一用户组的用户之间通讯的文本信息、或者第二用户组的用户与第一用户组的用户之间通讯的文本信息。

优选地，所述获取单元还用于获取通讯群组中的用户之间通讯的文本信息对应的用户信息和／或终端信息；

所述聚合单元还用于得到聚合度大于预设值的文本信息所对应的用户信息和／或终端信息。

优选地，所述获取单元还用于获取所述通讯群组的用户信息和／或终端信息；

所述获取单元用于获取所述通讯群组中的用户之间通讯的文本信息具体为：

所述获取单元用于获取满足预设条件的用户信息和／或终端信息对应的用户，在所述通讯群组中通讯的文本信息。

通过上述技术方案可知，本发明中获取预设时间内，通讯群组中的用户之间的文本信息，将文本信息分别进行分段处理、与语料库匹配、生成特征向量，并对生成的特征向量进行聚合，得到聚合度大于预设值，也就是出现频率大于一定值的文本信息。可见，本发明中无需人工筛查出现频率较高的文本信息，因此提高了工作效率，并且最终得到的是聚合度大于预设值的文本信息，而不是用户之间通讯的完整信息，因此相比于人工筛查，提高了用户之间通讯的隐私性。

附图说明

图1为本发明提供的数据提取方法的具体实施例的流程示意图；

图2为本发明提供的数据提取方法的另一具体实施例的流程示意图；

图3为本发明提供的数据提取装置的具体实施例的结构示意图；

图4为本发明提供的数据提取装置的另一具体实施例的结构示意图。

具体实施方式

请参阅图1，本发明提供了基于通讯群组的数据提取方法的一具体实施例，在本实施例中，所述方法包括：

Ｓ101：获取在预设时间内，所述通讯群组中的用户之间通讯的文本信息。预设时间可以根据实际情况设定，例如，可以设定预设时间为最近一个月内。

这里通讯群组可以是通过腾讯ＱＱ、263等通讯工具建立的通讯群组。例如，当用户通过腾讯ＱＱ加入相应的好友，该用户与其所有的好友就组成一个通讯群组，该用户能够跟该群组中的用户进行联系。当然用户也可以在该群组下建立子通讯群组，例如ＱＱ群，用户在ＱＱ群中发出的消息，该ＱＱ群中的其他用户也同样可以收到。

这里所述的文本信息为通讯群组中的用户之间通过各种形式通讯的文本信息，例如，以腾讯ＱＱ为例，所述文本信息既包括用户与其好友用户的通讯信息，也包括用户在ＱＱ群中发出的通讯信息。

由于用户通过通讯群组通讯时，通常是由客户端将用户通讯的信息发送至服务器，而服务器再将该信息发送给目标用户的客户端。服务器会在数据库中保存所有用户通讯的历史数据。因此，该步骤中可以具体为在服务器的数据库中获取在预设时间内，所述通讯群组中的用户之间通讯的文本信息。

Ｓ102：将步骤Ｓ101中获取到的文本信息进行分段处理。

这里分段可以为分成多个词组，或者多个段落。具体该步骤可以采用自然语言处理（ＮＬＰ）中的一个或多个算法。

例如，本实施例所述方法用于为幼儿园的家长和老师建立的通讯群组中，并且步骤Ｓ101中获取到的文本信息为：

1）2013－5－1　9：00：00　Ａ向Ｂ发送的消息为：　佳佳在唱歌

2）2013－5－2　9：01：00　Ａ向Ｃ发送的消息为：　雨雨在唱歌

3）2013－5－3　9：02：00　Ａ向Ｄ发送的消息为：　晶晶在唱小白兔

4）2013－5－4　9：03：00　Ａ向Ｂ发送的消息为：　佳佳在唱花园里

其中，Ａ为幼儿园老师，Ｂ、Ｃ、Ｄ分别为佳佳、雨雨和晶晶的家长，小白兔和花园里分别为歌名。

则该步骤分段处理的结果分别为：

1）佳佳，在，唱，歌

2）雨雨，在，唱，歌

3）晶晶，在，唱，小，白兔

4）佳佳，在，唱，花园，里

Ｓ103：将分段后的文本信息与语料库进行匹配，根据匹配结果生成特征向量。

该语料库可以存储在服务器中。

仍然以上述例子为例，得到的特征向量可以为：

1）｛ＡＡ，Ｚ，Ｃ，Ｇ｝

2）｛ＢＢ，Ｚ，Ｃ，Ｇ｝

3）　｛ＪＪ，　Ｚ，　Ｃ，　Ｘ，　ＢＴ｝

4）｛ＡＡ，　Ｚ，　Ｃ，　ＨＹ，　Ｌ｝

实际上，步骤Ｓ103中将分段后的文本信息与语料库匹配时，可以是分段后的文本信息与语料库中的集合进行匹配。例如，语料库中具有集合：孩子们，该集合包括佳佳、雨雨、晶晶等，语料库中还具有集合：歌，该集合包括小白兔、花园里等等。则上述分段后的文本信息佳佳、雨雨、晶晶与语料库匹配的结果均为“孩子们”，则上述分段后的文本信息小白兔、花园里与语料库匹配的结果均为“歌”，因此，生成的特征向量可以是：

1）｛ＨＺＭ，Ｚ，Ｃ，Ｇ｝

2）｛ＨＺＭ，Ｚ，Ｃ，Ｇ｝

3）　｛ＨＺＭ，　Ｚ，　Ｃ，　Ｇ　｝

4）｛ＨＺＭ，　Ｚ，　Ｃ，　Ｇ　｝

Ｓ104：对生成的特征向量进行聚合，得到聚合度大于预设值的文本信息。

这里预设值可以根据得到的聚合度结果进行设置，例如可以设置预设值为聚合度的第四高的值，则最终得到聚合度前三高的文本信息。

聚合度大于预设值表示对应的文本信息的出现频率大于一定值。

仍以上述例子为例，通过设置合适的预设值，可以得到文本信息：“孩子们”“在”“唱”“歌”。

通过上述技术方案可知，本实施例中获取预设时间内，通讯群组中的用户之间的文本信息，将文本信息分别进行分段处理、与语料库匹配、生成特征向量，并对生成的特征向量进行聚合，得到聚合度大于预设值，也就是出现频率大于一定值的文本信息。可见，本发明中无需人工筛查出现频率较高的文本信息，因此提高了工作效率，并且最终得到的是聚合度大于预设值的文本信息，而不是用户之间通讯的完整信息，因此相比于人工筛查，提高了用户之间通讯的隐私性。

在本实施例中，提取出了通讯群组中的用户之间出现频率较高的文本信息。实际上，还可以在提取出现频率较高的文本信息时，将该提取出的文本信息是哪些用户之间发送的、或者通讯的用户的信息或终端信息等等也进一步提取出来。下面做具体说明：

在步骤Ｓ101中的获取所述通讯群组中的用户之间通讯的文本信息时所述方法还包括：

获取通讯群组中的用户之间通讯的文本信息对应的用户信息和／或终端信息。

则步骤Ｓ104中所述得到聚合度大于预设值的文本信息时还包括：

其中，用户信息包括以下信息中的一个或多个信息：

用户标识、用户登记的年龄信息、手机号码、职业信息、家庭住址等。

终端信息包括以下信息中的一个或多个信息：

用户使用的终端标识、终端类型等。

因此，当步骤Ｓ104中得到聚合度大于预设值的文本信息时，还能够同时得到这些聚合度大于预设值的文本信息，是由哪些用户或者哪些终端发送的，并且这些用户或者终端具有哪些特性。

此时还可以根据用户或者终端的特性对得到的文本信息进行分类。具体地，所述得到聚合度大于预设值的文本信息所对应的用户信息和／或终端信息之后还包括：

根据所述聚合度大于预设值的文本信息所对应的用户信息和／或终端信息，对所述聚合度大于预设值的文本信息进行分类显示。例如，根据用户的年龄信息，对年龄在20－30岁的用户对应的聚合度最高的文本信息进行显示，对年龄在30－40岁的用户对应的聚合度最高的文本信息进行显示。

实际上，在本实施例中，还可以针对具有一定条件的用户的文本信息进行提取。

具体地，步骤Ｓ101中的获取所述通讯群组中的用户之间通讯的文本信息之前还包括：

获取所述通讯群组的用户信息和／或终端信息。

则步骤Ｓ101中的所述获取所述通讯群组中的用户之间通讯的文本信息具体为：

其中，预设条件可以是对用户信息和／或终端信息作相应限制。例如，预设条件可以为用户标识为用户Ａ，则步骤Ｓ101中获取的是用户Ａ与其他用户之间通讯的文本信息。预设条件还可以进一步限制为用户Ａ和用户Ｂ之间，则步骤Ｓ101获取的是用户Ａ和用户Ｂ之间通讯的文本信息。

在本实施例中，通讯群组可以为腾讯ＱＱ或者263等建立的类似通讯群组。其中，腾讯ＱＱ建立的群组中的通讯信息保存在腾讯的服务器中，一般用户没有权限获取，聊天历史记录不能在不同设备中转移和呈现，因此在企业中常使用的是263。263是针对企业内部员工进行通讯的软件，因此263上的所有用户为企业内部员工，企业相关部门通过群发或者建立群的形式向企业内部员工发送通知。但是263中的用户仅能与企业内部员工进行通讯，而需要通过其他的通讯工具与企业外部客户进行通讯，当该用户离职后，他所建立的全部或部分工作关系直接与企业失去了业务关系，造成了一定的损失，因此，在下一个实施例中，本发明中的数据提取方法用于一种新的通讯群组中，企业内部员工可以通过该通讯群组与客户进行通讯，并且客户仅能查找到与其建立联系的员工，而企业内部所有员工都能看到其中任一个员工的所有客户。

请参阅图2，本发明还提供了基于通讯群组的数据提取方法的另一具体实施例，所述通讯群组中设置有第一用户组和第二用户组；所述第一用户组中的用户具有第一权限，所述第二用户组中的用户具有第二权限，所述第一权限使得用户能查找到第一用户组和第二用户组中的用户，第二权限使得用户仅能查找到与该用户建立了联系的第一用户组中的用户。

本实施例中，所述方法包括：

Ｓ201：获取在预设时间内，第一用户组的用户之间通讯的文本信息、或者第二用户组的用户与第一用户组的用户之间通讯的文本信息。

本实施例中所使用的通讯群组中具有两种权限的用户组，即第一用户组和第二用户组，而第一用户组中的用户能够查找到第一用户组的其他用户和第二用户组中的所有用户，并且能够直接跟第一用户组的其他用户通讯，以及在与第二用户组的用户建立了联系，例如建立了好友关系之后，能够与第二用户组的用户通讯。而第二用户组中的用户只能查找到与第一用户组中与其建立了联系的用户。因此，该通讯群组中的通讯主要有两种形式，一种是第一用户组之间的用户的通讯，另一种是建立了联系的第一用户组和第二用户组之间的用户的通讯。

Ｓ202：将步骤Ｓ201中获取到的文本信息进行分段处理。

具体该步骤可以采用ＮＬＰ中的一个或多个算法。

Ｓ203：将分段后的文本信息与语料库进行匹配，根据匹配结果生成特征向量。

Ｓ204：对生成的特征向量进行聚合，得到聚合度大于预设值的文本信息。

通过上述技术方案可知，本实施例中对一种特殊的通讯群组中通讯的文本信息进行分段处理、与语料库匹配、生成特征向量，并对生成的特征向量进行聚合，得到聚合度大于预设值，也就是出现频率大于一定值的文本信息。可见，本发明中无需人工筛查出现频率较高的文本信息，因此提高了工作效率，并且最终得到的是聚合度大于预设值的文本信息，而不是用户之间通讯的完整信息，因此相比于人工筛查，提高了用户之间通讯的隐私性。

实际上，还可以进一步在本实施例的基础上提取出用户之间的沟通次数。当企业内部的员工离职后，可以通过该员工与客户的沟通次数快速筛选出该员工沟通次数较多的用户。

具体地，所述方法还包括：

获取与用户Ａ建立联系的第二用户组中的至少一个用户；其中用户Ａ为第一用户组中的用户。

分别统计用户Ａ与所述至少一个用户的通讯次数。这里，分别统计用户Ａ与每一个用户的通讯的信息的数量。

上述两个步骤可以在本实施例中的任一步骤执行，本发明对此不做限定。

请参阅图3，本发明还提供了基于通讯群组的数据提取装置的一具体实施例，在本实施例中，所述装置包括获取单元301、分段单元302、匹配单元303和聚合单元304。

获取单元301，用于获取在预设时间内，所述通讯群组中的用户之间通讯的文本信息。

分段单元302，用于将获取单元301获取到的文本信息进行分段处理。分段单元具体可以采用自然语言处理（ＮＬＰ）中的一个或多个算法。

匹配单元303，用于将分段单元302分段后的文本信息与语料库进行匹配，根据匹配结果生成特征向量。

匹配单元303将分段后的文本信息与语料库匹配时，可以是分段后的文本信息与语料库中的集合进行匹配。

聚合单元304，用于对生成的特征向量进行聚合，得到聚合度大于预设值的文本信息。

在本实施例中，还可以在提取出现频率较高的文本信息时，将该提取出的文本信息是哪些用户之间发送的、或者通讯的用户的信息等等也进一步提取出来。下面做具体说明：

获取单元301还用于获取通讯群组中的用户之间通讯的文本信息对应的用户信息和／或终端信息。

聚合单元304还用于得到聚合度大于预设值的文本信息所对应的用户信息和／或终端信息

其中，用户信息包括以下信息中的一个或多个信息：

终端信息包括以下信息中的一个或多个信息：

用户使用的终端标识、终端类型等。

此时还可以根据用户或者终端的特性对得到的文本信息进行分类。具体地，所述聚合单元304还用于得到聚合度大于预设值的文本信息所对应的用户信息和／或终端信息之后，根据所述聚合度大于预设值的文本信息所对应的用户信息和／或终端信息，对所述聚合度大于预设值的文本信息进行分类显示。

具体地，所述获取单元301还用于获取所述通讯群组的用户信息和／或终端信息。

则所述获取单元301用于获取所述通讯群组中的用户之间通讯的文本信息具体为：

获取单元301用于获取满足预设条件的用户信息和／或终端信息对应的用户，在所述通讯群组中通讯的文本信息。

其中，预设条件可以是对用户信息和／或终端信息作相应限制。

在下一个实施例中，本发明中的数据提取装置用于一种新的通讯群组中，企业内部员工可以通过该通讯群组与客户进行通讯，并且客户仅能查找到与其建立联系的员工，而企业内部所有员工都能看到其中任一个员工的所有客户。

请参阅图4，本发明还提供了基于通讯群组的数据提取装置的另一具体实施例，所述通讯群组中设置有第一用户组和第二用户组；所述第一用户组中的用户具有第一权限，所述第二用户组中的用户具有第二权限，所述第一权限使得用户能查找到第一用户组和第二用户组中的用户，第二权限使得用户仅能查找到与该用户建立了联系的第一用户组中的用户。

本实施例中，所述装置包括：获取单元401、分段单元402、匹配单元403和聚合单元404。

获取单元401用于获取在预设时间内，第一用户组的用户之间通讯的文本信息、或者第二用户组的用户与第一用户组的用户之间通讯的文本信息。

分段单元402用于将获取单元401中获取到的文本信息进行分段处理。

匹配单元403用于将分段单元402分段后的文本信息与语料库进行匹配，根据匹配结果生成特征向量。

聚合单元404用于对匹配单元403生成的特征向量进行聚合，得到聚合度大于预设值的文本信息。

具体地，获取单元401还用于获取与用户Ａ建立联系的第二用户组中的至少一个用户；其中用户Ａ为第一用户组中的用户。

聚合单元404还用于分别统计用户Ａ与所述至少一个用户的通讯次数。

需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random AccessMemory，RAM）等。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于通讯群组的数据提取方法，其特征在于，所述方法包括：

将获取到的文本信息进行分段处理；

2.根据权利要求1所述的方法，其特征在于，所述通讯群组中设置有第一用户组和第二用户组；所述第一用户组中的用户具有第一权限，所述第二用户组中的用户具有第二权限，所述第一权限使得用户能查找到第一用户组和第二用户组中的用户，第二权限使得用户仅能查找到与该用户建立了联系的第一用户组中的用户；

则所述通讯群组中的用户之间通讯的文本信息具体为：

3.根据权利要求2所述的方法，其特征在于，所述获取所述通讯群组中的用户之间通讯的文本信息之后还包括：

分别统计用户Ａ与所述至少一个用户的通讯次数。

4.根据权利要求1所述的方法，其特征在于，所述获取所述通讯群组中的用户之间通讯的文本信息时还包括：

所述得到聚合度大于预设值的文本信息时还包括：

5.根据权利要求4所述的方法，其特征在于，所述得到聚合度大于预设值的文本信息所对应的用户信息和／或终端信息之后还包括：

6.根据权利要求1所述的方法，其特征在于，所述获取所述通讯群组中的用户之间通讯的文本信息之前还包括：

获取所述通讯群组的用户信息和／或终端信息；

7.一种基于通讯群组的数据提取装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述通讯群组中设置有第一用户组和第二用户组；所述第一用户组中的用户具有第一权限，所述第二用户组中的用户具有第二权限，所述第一权限使得用户能查找到第一用户组和第二用户组中的用户，第二权限使得用户仅能查找到与该用户建立了联系的第一用户组中的用户；

9.根据权利要求7所述的装置，其特征在于，

所述获取单元还用于获取通讯群组中的用户之间通讯的文本信息对应的用户信息和／或终端信息；

10.根据权利要求7所述的装置，其特征在于，

所述获取单元还用于获取所述通讯群组的用户信息和／或终端信息；