CN114676243B

CN114676243B - 一种针对社交文本的用户画像分析方法及系统

Info

Publication number: CN114676243B
Application number: CN202210573715.0A
Authority: CN
Inventors: 王剑辉; 张瑞冬; 童永鳌; 朱鹏; 伍仪洲; 韩硕; 刘晓雪
Original assignee: Chengdu No Sugar Information Tech Co ltd
Current assignee: Chengdu No Sugar Information Tech Co ltd
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-08-19
Anticipated expiration: 2042-05-25
Also published as: CN114676243A

Abstract

本发明公开了一种针对社交文本的用户画像分析方法及系统，属于文本分析技术领域，针对现有技术中存在的无法对特殊通信软件的服务器进行网络监管，且大部分特殊通信软件具有用户匿名、端对端加密通话，以及聊天信息自动销毁等功能，无法对用户的历史数据进行统计，以及无法通过用户的历史数据生成用户画像的问题，本发明的技术方案为：输入前一天的所有发言数据，经过账号信息提取和个人信息提取模块处理后，将结果更新到画像数据库中，当对某个用户进行画像时，通过画像输出模块从画像数据库中调取该用户的所有数据，根据预设模板，输出分析报告。

Description

一种针对社交文本的用户画像分析方法及系统

技术领域

本发明属于文本分析技术领域，具体涉及一种针对社交文本的用户画像分析方法及系统。

背景技术

随着时代的进步和发展，互联网逐渐成为人们生活中不可或缺的一部分，然而，随着互联网的普及，网络诈骗已蔓延至各个领域，且随着互联网的日益更新，网络诈骗的方式也层出不穷。

现有技术中，从事网络诈骗的特殊人员主要使用即时的特殊通信软件进行交流或交易，做出一系列犯罪行为。

现有技术中，存在以下技术问题：无法对特殊通信软件的服务器进行网络监管，且大部分特殊通信软件具有用户匿名、端对端加密通话，以及聊天信息自动销毁等功能，无法对用户的历史数据进行统计，以及无法通过用户的历史数据生成用户画像。

发明内容

针对现有技术中存在的无法对特殊通信软件的服务器进行网络监管，且大部分特殊通信软件具有用户匿名、端对端加密通话，以及聊天信息自动销毁等功能，无法对用户的历史数据进行统计，以及无法通过用户的历史数据生成用户画像的问题，本发明提出了一种针对社交文本的用户画像分析方法及系统，其目的为：通过画像数据库对用户ID进行画像分析，保证了即时获取诈骗线索和用户ID的身份线索。

为实现上述目的本发明所采用的技术方案是：提供一种针对社交文本的用户画像分析方法，包括：

S1：每天定时获取特殊通信软件的前一天24小时的所有用户的发言数据，对所述发言数据进行清洗处理，得到原始数据；

S2：统计所述原始数据中所有的用户ID，并基于用户ID提取该用户ID的统计数据，对该统计数据进行统计生成账号数据，将账号数据输出到结果字典中，所述账号数据包括：账号出入时间段、活跃时段、活跃月份、加入群组数量、活跃群组和使用过的昵称；

S3：自定义各类具有个人信息的主题，然后根据不同的主题构建不同的词库或规则，对原始数据进行信息的抽取，得到具有个人信息的信息数据，将获取到的信息数据输出到结果字典中；

S4：将结果字典中的账号数据和信息数据根据用户ID进行分类，然后将对应字段保存到画像数据库中；若用户ID不在画像数据库中，直接将对应字段写入画像数据库；若用户ID已存在画像数据库中，则按照字段更新具体对应内容；

S5：系统接受输入一个特殊通信软件的用户ID，从画像数据库中调取该用户ID的账号数据和信息数据，并根据预设模板，即时输出该用户ID的分析报告。

较优的，本发明S1中，所述发言数据包括：用户ID、用户昵称、发言文本和发言时间；对发言数据进行清洗处理包括：删除文本长度小于3和大于200的数据、去除发言文本中的不可见字符串和表情符号和剔除机器人账号相关数据。

较优的，本发明S2中，统计数据包括：用户ID、用户昵称、发言群组ID、发言群组名称、发言时间；账号数据具体为：

账号出入时间段：统计发言时间最早发言日期和最后发言日期，作为该用户ID的账号出入时间段；

活跃时段：统计24小时内发言数量最多的一个或几个时间段；

活跃月份：统计发言数量最多的一个月或几个月；

加入群组数量：统计发言群组id的唯一值数量；

活跃群组：统一发言数量最多的发言群组名称；

使用过的昵称：统计用户昵称的唯一值，及第一次使用时间。

较优的，本发明S3具体为：

S3.1：自定义各类具有个人信息的主题；

S3.2：针对不同主题构建不同的触发词词库，并定时更新；

S3.3：基于arc-standard转移系统的神经网络分类模型生成依存句法分析器，通过所述依存句法分析器对原始数据进行信息的依存句法关系提取，得到分词字典、词性字典和句法结构字典；对句法结构字典中的每一个节点进行分析，判断其结构关系；所述结构关系包括：主语词修饰、宾语修饰、时间词修饰、否定词修饰、虚拟词修饰、当前节点词性、上层所有节点词义和上层所有节点词性；

S3.4：根据不同的主题并结合其触发词词库制定不同规则，若S3.3中节点在结构关系判断中符合制定的规则，则将节点处的词抽取出来，输出到结果字典中。

较优的，本发明S3具体为：自定义各类具有个人信息的主题；然后基于发言文本中不同主题的语句表达特点，构建各类主题的关键词词库，然后通过FlashText算法将所有关键词词库中词语构建为字典树结构，最后通过字典树对发言文本进行关键词匹配，获取信息数据并输出到结果字典中。

较优的，本发明S3具体为：自定义各类具有个人信息的主题；根据不同的主题，编写不同的正则表达式规则，应用到发言文本上，获取信息数据并输出到结果字典中。

本发明还提出一种针对社交文本的用户画像分析系统，包括：

数据提取及清洗模块：用于每天定时获取特殊通信软件的前一天24小时的所有用户的发言数据，对所述发言数据进行清洗处理，得到原始数据；

账号数据提取模块：用于统计所述原始数据中所有的用户ID，并基于用户ID提取该用户ID的统计数据，对该统计数据进行统计生成账号数据，将账号数据输出到结果字典中，所述账号数据包括：账号出入时间段、活跃时段、活跃月份、加入群组数量、活跃群组和使用过的昵称；

个人信息提取模块：用于自定义各类具有个人信息的主题，然后根据不同的主题构建不同的词库或规则，对原始数据进行信息的抽取，得到具有个人信息的信息数据，将获取到的信息数据输出到结果字典中；

信息存储模块：用于将结果字典中的账号数据和信息数据根据用户ID进行分类，然后将对应字段保存到画像数据库中；若用户ID不在画像数据库中，直接将对应字段写入画像数据库；若用户ID已存在画像数据库中，则按照字段更新具体对应内容；

画像输出模块：用于系统接受输入一个特殊通信软件的用户ID，从画像数据库中调取该用户ID的账号数据和信息数据，并根据预设模板，即时输出该用户ID的分析报告。

较优的，本发明个人信息提取模块具体步骤为：

步骤1：自定义各类具有个人信息的主题；

步骤2：针对不同主题构建不同的触发词词库，并定时更新；

步骤3：基于arc-standard转移系统的神经网络分类模型生成依存句法分析器，通过所述依存句法分析器对原始数据进行信息的依存句法关系提取，得到分词字典、词性字典和句法结构字典；对句法结构字典中的每一个节点进行分析，判断其结构关系；所述结构关系包括：主语词修饰、宾语修饰、时间词修饰、否定词修饰、虚拟词修饰、当前节点词性、上层所有节点词义和上层所有节点词性；

步骤4：根据不同的主题并结合其触发词词库制定不同规则，若步骤3中节点在结构关系判断中符合制定的规则，则将节点处的词抽取出来，输出到结果字典中。

较优的，本发明个人信息提取模块具体为：自定义各类具有个人信息的主题；然后基于发言文本中不同主题的语句表达特点，构建各类主题的关键词词库，然后通过FlashText算法将所有关键词词库中词语构建为字典树结构，最后通过字典树对发言文本进行关键词匹配，获取信息数据并输出到结果字典中。

较优的，本发明个人信息提取模块具体为：自定义各类具有个人信息的主题；根据不同的主题，编写不同的正则表达式规则，应用到发言文本上，获取信息数据并输出到结果字典中。

相比现有技术，本发明的技术方案具有如下优点/有益效果：

1.本发明通过每天定时更新画像数据库中用户ID的账号数据和信息数据，不断完善用户ID的画像结果，能够即时发现涉网诈骗的线索和提供用户ID的身份线索。

2.通过本发明的结果字典，能够整合提取有效用户的发言信息。

附图说明

为了更清楚地说明本发明实施方式的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例1的流程示意图。

具体实施方式

为使本发明目的、技术方案和优点更加清楚，下面对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明的一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。

实施例1：

如图1所示，本实施例1提出一种针对社交文本的用户画像分析方法，包括：

S1：每天定时获取特殊通信软件的前一天24小时的所有用户的发言数据，对所述发言数据进行清洗处理，得到原始数据；所述发言数据包括：用户ID、用户昵称、发言文本和发言时间；对发言数据进行清洗处理包括：删除文本长度小于3和大于200的数据、去除发言文本中的不可见字符串和表情符号和剔除机器人账号相关数据。

S2：统计所述原始数据中所有的用户ID，将未进行账号数据提取的用户ID筛选出来。然后分别对涉及到的每一个用户ID再次提取数据，即提取用户ID的统计数据，然后对该统计数据进行统计生成账号数据，将账号数据输出到结果字典中，所述账号数据包括：账号出入时间段、活跃时段、活跃月份、加入群组数量、活跃群组和使用过的昵称；S1统计了前一天发言的所有用户ID，然后通过S2统计这些用户ID的所有历史记录进行分析，两次获取数据作用不同，S1的作用是发现用户ID，S2是根据发现的用户ID挖掘信息。

S2中，统计数据包括：用户ID、用户昵称、发言群组ID、发言群组名称、发言时间；账号数据具体为：

活跃月份：统计发言数量最多的一个月或几个月；

加入群组数量：统计发言群组id的唯一值数量；

活跃群组：统一发言数量最多的发言群组名称；

S3：自定义各类具有个人信息的主题，个人信息提取主要包含性别、出生日期、文化水平、籍贯/家庭住址、婚姻情感状态、家庭成员事件、名下房产、名下车产、负债情况、工作经历、犯罪记录、移送轨迹、政治立场、人生经历、常聊话题等十五类主题。然后根据不同的主题构建不同的词库或规则，对原始数据进行信息的抽取，得到具有个人信息的信息数据，将获取到的信息数据输出到结果字典中；

S3具体为：自定义各类具有个人信息的主题；然后基于发言文本中不同主题的语句表达特点，构建各类主题的关键词词库，然后通过FlashText算法将所有关键词词库中词语构建为字典树结构，最后通过字典树对发言文本进行关键词匹配，获取信息数据并输出到结果字典中。

对提取的结果字典进行标准化后，将其转化为相应主题对应的数据格式，比如性别保存格式为整型（其中负数代表女性，正数代表男性），出生日期保存的格式为集合（集合中的每个字符串唯一），婚姻情感状态保存格式为整型（不同数字代表不同状态，如-1表示单身），等等。最后，将转化后的数据整理输出为结果字典。

个人信息提取模块具体为：用于自定义各类具有个人信息的主题；然后基于发言文本中不同主题的语句表达特点，构建各类主题的关键词词库，然后通过FlashText算法将所有关键词词库中词语构建为字典树结构，最后通过字典树对发言文本进行关键词匹配，获取信息数据并输出到结果字典中。

本实施例1所指的特殊通信软件为即时通信软件Telegram，该Telegram软件的服务器不在国内，且该软件具有用户匿名、端对端加密通信、聊天信息自动销毁等功能，因此通过每天定时从用户ID提取账号数据和信息数据，不断完善用户ID的画像结果，便于日后能够即时发现涉网诈骗的线索和提供用户ID的身份线索。

实施例2：

本实施例2提出一种针对社交文本的用户画像分析方法，包括：

S2：统计所述原始数据中所有的用户ID，将未进行账号数据提取的用户ID筛选出来。然后分别对涉及到的每一个用户ID再次提取数据，即提取用户ID的统计数据，然后对该统计数据进行统计生成账号数据，将账号数据输出到结果字典中，所述账号数据包括：账号出入时间段、活跃时段、活跃月份、加入群组数量、活跃群组和使用过的昵称；

活跃月份：统计发言数量最多的一个月或几个月；

加入群组数量：统计发言群组id的唯一值数量；

活跃群组：统一发言数量最多的发言群组名称；

S3具体为：

S3.1：自定义各类具有个人信息的主题；

S3.2：针对不同主题构建不同的触发词词库，并定时更新；比如性别需要构建类似“男人”、“女人”、“老公”、“老婆”等触发词词库，若发言文本中出现“男人”、“老公”等触发词，则判定该触发词对应的用户性别为男，若发言文本中出现“女人”、“老婆”等触发词，则判断该触发词对应的用户性别为女；而文化水平则需要构建类似“小学”、“初中”、“高中”、“大学”、“本科”等触发词词库，不同主题触发词词库不一样。

S3.3：基于arc-standard转移系统的神经网络分类模型生成依存句法分析器，通过所述依存句法分析器对原始数据进行信息的依存句法关系提取，得到分词字典、词性字典和句法结构字典；对句法结构字典中的每一个节点（切分的词）进行分析，判断其结构关系；所述结构关系包括：主语词修饰、宾语修饰、时间词修饰、否定词修饰、虚拟词修饰、当前节点词性、上层所有节点词义和上层所有节点词性；

数据提取及清洗模块：每天定时获取特殊通信软件的前一天24小时的所有用户的发言数据，对所述发言数据进行清洗处理，得到原始数据；

账号数据提取模块：统计所述原始数据中所有的用户ID，并基于用户ID提取该用户ID的统计数据，对该统计数据进行统计生成账号数据，将账号数据输出到结果字典中，所述账号数据包括：账号出入时间段、活跃时段、活跃月份、加入群组数量、活跃群组和使用过的昵称；

个人信息提取模块：自定义各类具有个人信息的主题，然后根据不同的主题构建不同的词库或规则，对原始数据进行信息的抽取，得到具有个人信息的信息数据，将获取到的信息数据输出到结果字典中；

个人信息提取模块具体为：

步骤1：自定义各类具有个人信息的主题；

步骤2：针对不同主题构建不同的触发词词库，并定时更新；比如性别需要构建类似“男人”、“女人”、“老公”、“老婆”等触发词词库，若发言文本中出现“男人”、“老公”等触发词，则判定该触发词对应的用户性别为男，若发言文本中出现“女人”、“老婆”等触发词，则判断该触发词对应的用户性别为女；而文化水平则需要构建类似“小学”、“初中”、“高中”、“大学”、“本科”等触发词词库，不同主题触发词词库不一样。

步骤3：基于arc-standard转移系统的神经网络分类模型生成依存句法分析器，通过所述依存句法分析器对原始数据进行信息的依存句法关系提取，得到分词字典、词性字典和句法结构字典；对句法结构字典中的每一个节点（切分的词）进行分析，判断其结构关系；所述结构关系包括：主语词修饰、宾语修饰、时间词修饰、否定词修饰、虚拟词修饰、当前节点词性、上层所有节点词义和上层所有节点词性；

步骤4：根据不同的主题并结合其触发词词库制定不同规则，若步骤3中的节点（切分的词）在结构关系判断中符合制定的规则，则将节点处的词抽取出来，输出到结果字典中。

个人信息提取模块具体为：自定义各类具有个人信息的主题；然后基于发言文本中不同主题的语句表达特点，构建各类主题的关键词词库，然后通过FlashText算法将所有关键词词库中词语构建为字典树结构，最后通过字典树对发言文本进行关键词匹配，获取信息数据并输出到结果字典中。

信息存储模块：将结果字典中的账号数据和信息数据根据用户ID进行分类，然后将对应字段保存到画像数据库中；若用户ID不在画像数据库中，直接将对应字段写入画像数据库；若用户ID已存在画像数据库中，则按照字段更新具体对应内容；

画像输出模块：系统接受输入一个特殊通信软件的用户ID，从画像数据库中调取该用户ID的账号数据和信息数据，并根据预设模板，即时输出该用户ID的分析报告。

本实施例2所指的特殊通信软件为即时通信软件Telegram，该Telegram软件的服务器不在国内，且该软件具有用户匿名、端对端加密通信、聊天信息自动销毁等功能，因此通过每天定时从用户ID提取账号数据和信息数据，不断完善用户ID的画像结果，便于日后能够即时发现涉网诈骗的线索和提供用户ID的身份线索。

实施例3：

本实施例3提出一种针对社交文本的用户画像分析方法，包括：

活跃月份：统计发言数量最多的一个月或几个月；

加入群组数量：统计发言群组id的唯一值数量；

活跃群组：统一发言数量最多的发言群组名称；

S3具体为：自定义各类具有个人信息的主题；根据不同的主题，编写不同的正则表达式规则，应用到发言文本上，获取信息数据并输出到结果字典中。

个人信息提取模块具体为：自定义各类具有个人信息的主题；根据不同的主题，编写不同的正则表达式规则，应用到发言文本上，获取信息数据并输出到结果字典中。

本实施例3所指的特殊通信软件为即时通信软件Telegram，该Telegram软件的服务器不在国内，且该软件具有用户匿名、端对端加密通信、聊天信息自动销毁等功能，因此通过每天定时从用户ID提取账号数据和信息数据，不断完善用户ID的画像结果，便于日后能够即时发现涉网诈骗的线索和提供用户ID的身份线索。

以上仅是本发明的优选实施方式，应当指出的是，上述优选实施方式不应视为对本发明的限制，本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说，在不脱离本发明的精神和范围内，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种针对社交文本的用户画像分析方法，其特征在于，包括：

S1：每天定时获取即时通信软件的前一天24小时的所有用户的发言数据，对所述发言数据进行清洗处理，得到原始数据；

S3：自定义各类具有个人信息的主题，然后根据不同的主题构建不同的词库或规则，对原始数据进行信息的抽取，得到具有个人信息的信息数据，将获取到的信息数据输出到结果字典中；S3具体为：

S3.1：自定义各类具有个人信息的主题；

S3.2：针对不同主题构建不同的触发词词库，并定时更新；

S3.4：根据不同的主题并结合其触发词词库制定不同规则，若S3.3中节点在结构关系判断中符合制定的规则，则将节点处的词抽取出来，输出到结果字典中；

S5：系统接受输入一个即时通信软件的用户ID，从画像数据库中调取该用户ID的账号数据和信息数据，并根据预设模板，即时输出该用户ID的分析报告。

2.根据权利要求1所述的一种针对社交文本的用户画像分析方法，其特征在于，S1中，所述发言数据包括：用户ID、用户昵称、发言文本和发言时间；对发言数据进行清洗处理包括：删除文本长度小于3和大于200的数据、去除发言文本中的不可见字符串和表情符号和剔除机器人账号相关数据。

3.根据权利要求1所述的一种针对社交文本的用户画像分析方法，其特征在于，S2中，统计数据包括：用户ID、用户昵称、发言群组ID、发言群组名称、发言时间；账号数据具体为：

活跃月份：统计发言数量最多的一个月或几个月；

加入群组数量：统计发言群组id的唯一值数量；

活跃群组：统一发言数量最多的发言群组名称；

4.根据权利要求1所述的一种针对社交文本的用户画像分析方法，其特征在于，S3具体为：自定义各类具有个人信息的主题；然后基于发言文本中不同主题的语句表达特点，构建各类主题的关键词词库，然后通过FlashText算法将所有关键词词库中词语构建为字典树结构，最后通过字典树对发言文本进行关键词匹配，获取信息数据并输出到结果字典中。

5.根据权利要求1所述的一种针对社交文本的用户画像分析方法，其特征在于，S3具体为：自定义各类具有个人信息的主题；根据不同的主题，编写不同的正则表达式规则，应用到发言文本上，获取信息数据并输出到结果字典中。

6.一种针对社交文本的用户画像分析系统，其特征在于，包括：

数据提取及清洗模块：用于每天定时获取即时通信软件的前一天24小时的所有用户的发言数据，对所述发言数据进行清洗处理，得到原始数据；

个人信息提取模块：用于自定义各类具有个人信息的主题，然后根据不同的主题构建不同的词库或规则，对原始数据进行信息的抽取，得到具有个人信息的信息数据，将获取到的信息数据输出到结果字典中；个人信息提取模块具体步骤为：

步骤1：自定义各类具有个人信息的主题；

步骤2：针对不同主题构建不同的触发词词库，并定时更新；

步骤4：根据不同的主题并结合其触发词词库制定不同规则，若节点在结构关系判断中符合制定的规则，则将节点处的词抽取出来，输出到结果字典中；

画像输出模块：用于系统接受输入一个即时通信软件的用户ID，从画像数据库中调取该用户ID的账号数据和信息数据，并根据预设模板，即时输出该用户ID的分析报告。

7.根据权利要求6所述的一种针对社交文本的用户画像分析系统，其特征在于，个人信息提取模块具体为：自定义各类具有个人信息的主题；然后基于发言文本中不同主题的语句表达特点，构建各类主题的关键词词库，然后通过FlashText算法将所有关键词词库中词语构建为字典树结构，最后通过字典树对发言文本进行关键词匹配，获取信息数据并输出到结果字典中。

8.根据权利要求6所述的一种针对社交文本的用户画像分析系统，其特征在于，个人信息提取模块具体为：自定义各类具有个人信息的主题；根据不同的主题，编写不同的正则表达式规则，应用到发言文本上，获取信息数据并输出到结果字典中。