CN114676243B - 一种针对社交文本的用户画像分析方法及系统 - Google Patents
一种针对社交文本的用户画像分析方法及系统 Download PDFInfo
- Publication number
- CN114676243B CN114676243B CN202210573715.0A CN202210573715A CN114676243B CN 114676243 B CN114676243 B CN 114676243B CN 202210573715 A CN202210573715 A CN 202210573715A CN 114676243 B CN114676243 B CN 114676243B
- Authority
- CN
- China
- Prior art keywords
- data
- user
- dictionary
- information
- account
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 30
- 238000000605 extraction Methods 0.000 claims abstract description 21
- 238000004140 cleaning Methods 0.000 claims description 20
- 230000003203 everyday effect Effects 0.000 claims description 14
- 238000013075 data extraction Methods 0.000 claims description 13
- 238000000034 method Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000012546 transfer Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000013145 classification model Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000006378 damage Effects 0.000 abstract description 6
- 230000002996 emotional effect Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Computing Systems (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种针对社交文本的用户画像分析方法及系统,属于文本分析技术领域,针对现有技术中存在的无法对特殊通信软件的服务器进行网络监管,且大部分特殊通信软件具有用户匿名、端对端加密通话,以及聊天信息自动销毁等功能,无法对用户的历史数据进行统计,以及无法通过用户的历史数据生成用户画像的问题,本发明的技术方案为:输入前一天的所有发言数据,经过账号信息提取和个人信息提取模块处理后,将结果更新到画像数据库中,当对某个用户进行画像时,通过画像输出模块从画像数据库中调取该用户的所有数据,根据预设模板,输出分析报告。
Description
技术领域
本发明属于文本分析技术领域,具体涉及一种针对社交文本的用户画像分析方法及系统。
背景技术
随着时代的进步和发展,互联网逐渐成为人们生活中不可或缺的一部分,然而,随着互联网的普及,网络诈骗已蔓延至各个领域,且随着互联网的日益更新,网络诈骗的方式也层出不穷。
现有技术中,从事网络诈骗的特殊人员主要使用即时的特殊通信软件进行交流或交易,做出一系列犯罪行为。
现有技术中,存在以下技术问题:无法对特殊通信软件的服务器进行网络监管,且大部分特殊通信软件具有用户匿名、端对端加密通话,以及聊天信息自动销毁等功能,无法对用户的历史数据进行统计,以及无法通过用户的历史数据生成用户画像。
发明内容
针对现有技术中存在的无法对特殊通信软件的服务器进行网络监管,且大部分特殊通信软件具有用户匿名、端对端加密通话,以及聊天信息自动销毁等功能,无法对用户的历史数据进行统计,以及无法通过用户的历史数据生成用户画像的问题,本发明提出了一种针对社交文本的用户画像分析方法及系统,其目的为:通过画像数据库对用户ID进行画像分析,保证了即时获取诈骗线索和用户ID的身份线索。
为实现上述目的本发明所采用的技术方案是:提供一种针对社交文本的用户画像分析方法,包括:
S1:每天定时获取特殊通信软件的前一天24小时的所有用户的发言数据,对所述发言数据进行清洗处理,得到原始数据;
S2:统计所述原始数据中所有的用户ID,并基于用户ID提取该用户ID的统计数据,对该统计数据进行统计生成账号数据,将账号数据输出到结果字典中,所述账号数据包括:账号出入时间段、活跃时段、活跃月份、加入群组数量、活跃群组和使用过的昵称;
S3:自定义各类具有个人信息的主题,然后根据不同的主题构建不同的词库或规则,对原始数据进行信息的抽取,得到具有个人信息的信息数据,将获取到的信息数据输出到结果字典中;
S4:将结果字典中的账号数据和信息数据根据用户ID进行分类,然后将对应字段保存到画像数据库中;若用户ID不在画像数据库中,直接将对应字段写入画像数据库;若用户ID已存在画像数据库中,则按照字段更新具体对应内容;
S5:系统接受输入一个特殊通信软件的用户ID,从画像数据库中调取该用户ID的账号数据和信息数据,并根据预设模板,即时输出该用户ID的分析报告。
较优的,本发明S1中,所述发言数据包括:用户ID、用户昵称、发言文本和发言时间;对发言数据进行清洗处理包括:删除文本长度小于3和大于200的数据、去除发言文本中的不可见字符串和表情符号和剔除机器人账号相关数据。
较优的,本发明S2中,统计数据包括:用户ID、用户昵称、发言群组ID、发言群组名称、发言时间;账号数据具体为:
账号出入时间段:统计发言时间最早发言日期和最后发言日期,作为该用户ID的账号出入时间段;
活跃时段:统计24小时内发言数量最多的一个或几个时间段;
活跃月份:统计发言数量最多的一个月或几个月;
加入群组数量:统计发言群组id的唯一值数量;
活跃群组:统一发言数量最多的发言群组名称;
使用过的昵称:统计用户昵称的唯一值,及第一次使用时间。
较优的,本发明S3具体为:
S3.1:自定义各类具有个人信息的主题;
S3.2:针对不同主题构建不同的触发词词库,并定时更新;
S3.3:基于arc-standard转移系统的神经网络分类模型生成依存句法分析器,通过所述依存句法分析器对原始数据进行信息的依存句法关系提取,得到分词字典、词性字典和句法结构字典;对句法结构字典中的每一个节点进行分析,判断其结构关系;所述结构关系包括:主语词修饰、宾语修饰、时间词修饰、否定词修饰、虚拟词修饰、当前节点词性、上层所有节点词义和上层所有节点词性;
S3.4:根据不同的主题并结合其触发词词库制定不同规则,若S3.3中节点在结构关系判断中符合制定的规则,则将节点处的词抽取出来,输出到结果字典中。
较优的,本发明S3具体为:自定义各类具有个人信息的主题;然后基于发言文本中不同主题的语句表达特点,构建各类主题的关键词词库,然后通过FlashText算法将所有关键词词库中词语构建为字典树结构,最后通过字典树对发言文本进行关键词匹配,获取信息数据并输出到结果字典中。
较优的,本发明S3具体为:自定义各类具有个人信息的主题;根据不同的主题,编写不同的正则表达式规则,应用到发言文本上,获取信息数据并输出到结果字典中。
本发明还提出一种针对社交文本的用户画像分析系统,包括:
数据提取及清洗模块:用于每天定时获取特殊通信软件的前一天24小时的所有用户的发言数据,对所述发言数据进行清洗处理,得到原始数据;
账号数据提取模块:用于统计所述原始数据中所有的用户ID,并基于用户ID提取该用户ID的统计数据,对该统计数据进行统计生成账号数据,将账号数据输出到结果字典中,所述账号数据包括:账号出入时间段、活跃时段、活跃月份、加入群组数量、活跃群组和使用过的昵称;
个人信息提取模块:用于自定义各类具有个人信息的主题,然后根据不同的主题构建不同的词库或规则,对原始数据进行信息的抽取,得到具有个人信息的信息数据,将获取到的信息数据输出到结果字典中;
信息存储模块:用于将结果字典中的账号数据和信息数据根据用户ID进行分类,然后将对应字段保存到画像数据库中;若用户ID不在画像数据库中,直接将对应字段写入画像数据库;若用户ID已存在画像数据库中,则按照字段更新具体对应内容;
画像输出模块:用于系统接受输入一个特殊通信软件的用户ID,从画像数据库中调取该用户ID的账号数据和信息数据,并根据预设模板,即时输出该用户ID的分析报告。
较优的,本发明个人信息提取模块具体步骤为:
步骤1:自定义各类具有个人信息的主题;
步骤2:针对不同主题构建不同的触发词词库,并定时更新;
步骤3:基于arc-standard转移系统的神经网络分类模型生成依存句法分析器,通过所述依存句法分析器对原始数据进行信息的依存句法关系提取,得到分词字典、词性字典和句法结构字典;对句法结构字典中的每一个节点进行分析,判断其结构关系;所述结构关系包括:主语词修饰、宾语修饰、时间词修饰、否定词修饰、虚拟词修饰、当前节点词性、上层所有节点词义和上层所有节点词性;
步骤4:根据不同的主题并结合其触发词词库制定不同规则,若步骤3中节点在结构关系判断中符合制定的规则,则将节点处的词抽取出来,输出到结果字典中。
较优的,本发明个人信息提取模块具体为:自定义各类具有个人信息的主题;然后基于发言文本中不同主题的语句表达特点,构建各类主题的关键词词库,然后通过FlashText算法将所有关键词词库中词语构建为字典树结构,最后通过字典树对发言文本进行关键词匹配,获取信息数据并输出到结果字典中。
较优的,本发明个人信息提取模块具体为:自定义各类具有个人信息的主题;根据不同的主题,编写不同的正则表达式规则,应用到发言文本上,获取信息数据并输出到结果字典中。
相比现有技术,本发明的技术方案具有如下优点/有益效果:
1.本发明通过每天定时更新画像数据库中用户ID的账号数据和信息数据,不断完善用户ID的画像结果,能够即时发现涉网诈骗的线索和提供用户ID的身份线索。
2.通过本发明的结果字典,能够整合提取有效用户的发言信息。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例1的流程示意图。
具体实施方式
为使本发明目的、技术方案和优点更加清楚,下面对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明的一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。
实施例1:
如图1所示,本实施例1提出一种针对社交文本的用户画像分析方法,包括:
S1:每天定时获取特殊通信软件的前一天24小时的所有用户的发言数据,对所述发言数据进行清洗处理,得到原始数据;所述发言数据包括:用户ID、用户昵称、发言文本和发言时间;对发言数据进行清洗处理包括:删除文本长度小于3和大于200的数据、去除发言文本中的不可见字符串和表情符号和剔除机器人账号相关数据。
S2:统计所述原始数据中所有的用户ID,将未进行账号数据提取的用户ID筛选出来。然后分别对涉及到的每一个用户ID再次提取数据,即提取用户ID的统计数据,然后对该统计数据进行统计生成账号数据,将账号数据输出到结果字典中,所述账号数据包括:账号出入时间段、活跃时段、活跃月份、加入群组数量、活跃群组和使用过的昵称;S1统计了前一天发言的所有用户ID,然后通过S2统计这些用户ID的所有历史记录进行分析,两次获取数据作用不同,S1的作用是发现用户ID,S2是根据发现的用户ID挖掘信息。
S2中,统计数据包括:用户ID、用户昵称、发言群组ID、发言群组名称、发言时间;账号数据具体为:
账号出入时间段:统计发言时间最早发言日期和最后发言日期,作为该用户ID的账号出入时间段;
活跃时段:统计24小时内发言数量最多的一个或几个时间段;
活跃月份:统计发言数量最多的一个月或几个月;
加入群组数量:统计发言群组id的唯一值数量;
活跃群组:统一发言数量最多的发言群组名称;
使用过的昵称:统计用户昵称的唯一值,及第一次使用时间。
S3:自定义各类具有个人信息的主题,个人信息提取主要包含性别、出生日期、文化水平、籍贯/家庭住址、婚姻情感状态、家庭成员事件、名下房产、名下车产、负债情况、工作经历、犯罪记录、移送轨迹、政治立场、人生经历、常聊话题等十五类主题。然后根据不同的主题构建不同的词库或规则,对原始数据进行信息的抽取,得到具有个人信息的信息数据,将获取到的信息数据输出到结果字典中;
S3具体为:自定义各类具有个人信息的主题;然后基于发言文本中不同主题的语句表达特点,构建各类主题的关键词词库,然后通过FlashText算法将所有关键词词库中词语构建为字典树结构,最后通过字典树对发言文本进行关键词匹配,获取信息数据并输出到结果字典中。
对提取的结果字典进行标准化后,将其转化为相应主题对应的数据格式,比如性别保存格式为整型(其中负数代表女性,正数代表男性),出生日期保存的格式为集合(集合中的每个字符串唯一),婚姻情感状态保存格式为整型(不同数字代表不同状态,如-1表示单身),等等。最后,将转化后的数据整理输出为结果字典。
S4:将结果字典中的账号数据和信息数据根据用户ID进行分类,然后将对应字段保存到画像数据库中;若用户ID不在画像数据库中,直接将对应字段写入画像数据库;若用户ID已存在画像数据库中,则按照字段更新具体对应内容;
S5:系统接受输入一个特殊通信软件的用户ID,从画像数据库中调取该用户ID的账号数据和信息数据,并根据预设模板,即时输出该用户ID的分析报告。
本发明还提出一种针对社交文本的用户画像分析系统,包括:
数据提取及清洗模块:用于每天定时获取特殊通信软件的前一天24小时的所有用户的发言数据,对所述发言数据进行清洗处理,得到原始数据;
账号数据提取模块:用于统计所述原始数据中所有的用户ID,并基于用户ID提取该用户ID的统计数据,对该统计数据进行统计生成账号数据,将账号数据输出到结果字典中,所述账号数据包括:账号出入时间段、活跃时段、活跃月份、加入群组数量、活跃群组和使用过的昵称;
个人信息提取模块:用于自定义各类具有个人信息的主题,然后根据不同的主题构建不同的词库或规则,对原始数据进行信息的抽取,得到具有个人信息的信息数据,将获取到的信息数据输出到结果字典中;
个人信息提取模块具体为:用于自定义各类具有个人信息的主题;然后基于发言文本中不同主题的语句表达特点,构建各类主题的关键词词库,然后通过FlashText算法将所有关键词词库中词语构建为字典树结构,最后通过字典树对发言文本进行关键词匹配,获取信息数据并输出到结果字典中。
信息存储模块:用于将结果字典中的账号数据和信息数据根据用户ID进行分类,然后将对应字段保存到画像数据库中;若用户ID不在画像数据库中,直接将对应字段写入画像数据库;若用户ID已存在画像数据库中,则按照字段更新具体对应内容;
画像输出模块:用于系统接受输入一个特殊通信软件的用户ID,从画像数据库中调取该用户ID的账号数据和信息数据,并根据预设模板,即时输出该用户ID的分析报告。
本实施例1所指的特殊通信软件为即时通信软件Telegram,该Telegram软件的服务器不在国内,且该软件具有用户匿名、端对端加密通信、聊天信息自动销毁等功能,因此通过每天定时从用户ID提取账号数据和信息数据,不断完善用户ID的画像结果,便于日后能够即时发现涉网诈骗的线索和提供用户ID的身份线索。
实施例2:
本实施例2提出一种针对社交文本的用户画像分析方法,包括:
S1:每天定时获取特殊通信软件的前一天24小时的所有用户的发言数据,对所述发言数据进行清洗处理,得到原始数据;所述发言数据包括:用户ID、用户昵称、发言文本和发言时间;对发言数据进行清洗处理包括:删除文本长度小于3和大于200的数据、去除发言文本中的不可见字符串和表情符号和剔除机器人账号相关数据。
S2:统计所述原始数据中所有的用户ID,将未进行账号数据提取的用户ID筛选出来。然后分别对涉及到的每一个用户ID再次提取数据,即提取用户ID的统计数据,然后对该统计数据进行统计生成账号数据,将账号数据输出到结果字典中,所述账号数据包括:账号出入时间段、活跃时段、活跃月份、加入群组数量、活跃群组和使用过的昵称;
S2中,统计数据包括:用户ID、用户昵称、发言群组ID、发言群组名称、发言时间;账号数据具体为:
账号出入时间段:统计发言时间最早发言日期和最后发言日期,作为该用户ID的账号出入时间段;
活跃时段:统计24小时内发言数量最多的一个或几个时间段;
活跃月份:统计发言数量最多的一个月或几个月;
加入群组数量:统计发言群组id的唯一值数量;
活跃群组:统一发言数量最多的发言群组名称;
使用过的昵称:统计用户昵称的唯一值,及第一次使用时间。
S3:自定义各类具有个人信息的主题,个人信息提取主要包含性别、出生日期、文化水平、籍贯/家庭住址、婚姻情感状态、家庭成员事件、名下房产、名下车产、负债情况、工作经历、犯罪记录、移送轨迹、政治立场、人生经历、常聊话题等十五类主题。然后根据不同的主题构建不同的词库或规则,对原始数据进行信息的抽取,得到具有个人信息的信息数据,将获取到的信息数据输出到结果字典中;
S3具体为:
S3.1:自定义各类具有个人信息的主题;
S3.2:针对不同主题构建不同的触发词词库,并定时更新;比如性别需要构建类似“男人”、“女人”、“老公”、“老婆”等触发词词库,若发言文本中出现“男人”、“老公”等触发词,则判定该触发词对应的用户性别为男,若发言文本中出现“女人”、“老婆”等触发词,则判断该触发词对应的用户性别为女;而文化水平则需要构建类似“小学”、“初中”、“高中”、“大学”、“本科”等触发词词库,不同主题触发词词库不一样。
S3.3:基于arc-standard转移系统的神经网络分类模型生成依存句法分析器,通过所述依存句法分析器对原始数据进行信息的依存句法关系提取,得到分词字典、词性字典和句法结构字典;对句法结构字典中的每一个节点(切分的词)进行分析,判断其结构关系;所述结构关系包括:主语词修饰、宾语修饰、时间词修饰、否定词修饰、虚拟词修饰、当前节点词性、上层所有节点词义和上层所有节点词性;
S3.4:根据不同的主题并结合其触发词词库制定不同规则,若S3.3中节点在结构关系判断中符合制定的规则,则将节点处的词抽取出来,输出到结果字典中。
对提取的结果字典进行标准化后,将其转化为相应主题对应的数据格式,比如性别保存格式为整型(其中负数代表女性,正数代表男性),出生日期保存的格式为集合(集合中的每个字符串唯一),婚姻情感状态保存格式为整型(不同数字代表不同状态,如-1表示单身),等等。最后,将转化后的数据整理输出为结果字典。
S4:将结果字典中的账号数据和信息数据根据用户ID进行分类,然后将对应字段保存到画像数据库中;若用户ID不在画像数据库中,直接将对应字段写入画像数据库;若用户ID已存在画像数据库中,则按照字段更新具体对应内容;
S5:系统接受输入一个特殊通信软件的用户ID,从画像数据库中调取该用户ID的账号数据和信息数据,并根据预设模板,即时输出该用户ID的分析报告。
本发明还提出一种针对社交文本的用户画像分析系统,包括:
数据提取及清洗模块:每天定时获取特殊通信软件的前一天24小时的所有用户的发言数据,对所述发言数据进行清洗处理,得到原始数据;
账号数据提取模块:统计所述原始数据中所有的用户ID,并基于用户ID提取该用户ID的统计数据,对该统计数据进行统计生成账号数据,将账号数据输出到结果字典中,所述账号数据包括:账号出入时间段、活跃时段、活跃月份、加入群组数量、活跃群组和使用过的昵称;
个人信息提取模块:自定义各类具有个人信息的主题,然后根据不同的主题构建不同的词库或规则,对原始数据进行信息的抽取,得到具有个人信息的信息数据,将获取到的信息数据输出到结果字典中;
个人信息提取模块具体为:
步骤1:自定义各类具有个人信息的主题;
步骤2:针对不同主题构建不同的触发词词库,并定时更新;比如性别需要构建类似“男人”、“女人”、“老公”、“老婆”等触发词词库,若发言文本中出现“男人”、“老公”等触发词,则判定该触发词对应的用户性别为男,若发言文本中出现“女人”、“老婆”等触发词,则判断该触发词对应的用户性别为女;而文化水平则需要构建类似“小学”、“初中”、“高中”、“大学”、“本科”等触发词词库,不同主题触发词词库不一样。
步骤3:基于arc-standard转移系统的神经网络分类模型生成依存句法分析器,通过所述依存句法分析器对原始数据进行信息的依存句法关系提取,得到分词字典、词性字典和句法结构字典;对句法结构字典中的每一个节点(切分的词)进行分析,判断其结构关系;所述结构关系包括:主语词修饰、宾语修饰、时间词修饰、否定词修饰、虚拟词修饰、当前节点词性、上层所有节点词义和上层所有节点词性;
步骤4:根据不同的主题并结合其触发词词库制定不同规则,若步骤3中的节点(切分的词)在结构关系判断中符合制定的规则,则将节点处的词抽取出来,输出到结果字典中。
个人信息提取模块具体为:自定义各类具有个人信息的主题;然后基于发言文本中不同主题的语句表达特点,构建各类主题的关键词词库,然后通过FlashText算法将所有关键词词库中词语构建为字典树结构,最后通过字典树对发言文本进行关键词匹配,获取信息数据并输出到结果字典中。
信息存储模块:将结果字典中的账号数据和信息数据根据用户ID进行分类,然后将对应字段保存到画像数据库中;若用户ID不在画像数据库中,直接将对应字段写入画像数据库;若用户ID已存在画像数据库中,则按照字段更新具体对应内容;
画像输出模块:系统接受输入一个特殊通信软件的用户ID,从画像数据库中调取该用户ID的账号数据和信息数据,并根据预设模板,即时输出该用户ID的分析报告。
本实施例2所指的特殊通信软件为即时通信软件Telegram,该Telegram软件的服务器不在国内,且该软件具有用户匿名、端对端加密通信、聊天信息自动销毁等功能,因此通过每天定时从用户ID提取账号数据和信息数据,不断完善用户ID的画像结果,便于日后能够即时发现涉网诈骗的线索和提供用户ID的身份线索。
实施例3:
本实施例3提出一种针对社交文本的用户画像分析方法,包括:
S1:每天定时获取特殊通信软件的前一天24小时的所有用户的发言数据,对所述发言数据进行清洗处理,得到原始数据;所述发言数据包括:用户ID、用户昵称、发言文本和发言时间;对发言数据进行清洗处理包括:删除文本长度小于3和大于200的数据、去除发言文本中的不可见字符串和表情符号和剔除机器人账号相关数据。
S2:统计所述原始数据中所有的用户ID,将未进行账号数据提取的用户ID筛选出来。然后分别对涉及到的每一个用户ID再次提取数据,即提取用户ID的统计数据,然后对该统计数据进行统计生成账号数据,将账号数据输出到结果字典中,所述账号数据包括:账号出入时间段、活跃时段、活跃月份、加入群组数量、活跃群组和使用过的昵称;
S2中,统计数据包括:用户ID、用户昵称、发言群组ID、发言群组名称、发言时间;账号数据具体为:
账号出入时间段:统计发言时间最早发言日期和最后发言日期,作为该用户ID的账号出入时间段;
活跃时段:统计24小时内发言数量最多的一个或几个时间段;
活跃月份:统计发言数量最多的一个月或几个月;
加入群组数量:统计发言群组id的唯一值数量;
活跃群组:统一发言数量最多的发言群组名称;
使用过的昵称:统计用户昵称的唯一值,及第一次使用时间。
S3:自定义各类具有个人信息的主题,个人信息提取主要包含性别、出生日期、文化水平、籍贯/家庭住址、婚姻情感状态、家庭成员事件、名下房产、名下车产、负债情况、工作经历、犯罪记录、移送轨迹、政治立场、人生经历、常聊话题等十五类主题。然后根据不同的主题构建不同的词库或规则,对原始数据进行信息的抽取,得到具有个人信息的信息数据,将获取到的信息数据输出到结果字典中;
S3具体为:自定义各类具有个人信息的主题;根据不同的主题,编写不同的正则表达式规则,应用到发言文本上,获取信息数据并输出到结果字典中。
对提取的结果字典进行标准化后,将其转化为相应主题对应的数据格式,比如性别保存格式为整型(其中负数代表女性,正数代表男性),出生日期保存的格式为集合(集合中的每个字符串唯一),婚姻情感状态保存格式为整型(不同数字代表不同状态,如-1表示单身),等等。最后,将转化后的数据整理输出为结果字典。
S4:将结果字典中的账号数据和信息数据根据用户ID进行分类,然后将对应字段保存到画像数据库中;若用户ID不在画像数据库中,直接将对应字段写入画像数据库;若用户ID已存在画像数据库中,则按照字段更新具体对应内容;
S5:系统接受输入一个特殊通信软件的用户ID,从画像数据库中调取该用户ID的账号数据和信息数据,并根据预设模板,即时输出该用户ID的分析报告。
本发明还提出一种针对社交文本的用户画像分析系统,包括:
数据提取及清洗模块:每天定时获取特殊通信软件的前一天24小时的所有用户的发言数据,对所述发言数据进行清洗处理,得到原始数据;
账号数据提取模块:统计所述原始数据中所有的用户ID,并基于用户ID提取该用户ID的统计数据,对该统计数据进行统计生成账号数据,将账号数据输出到结果字典中,所述账号数据包括:账号出入时间段、活跃时段、活跃月份、加入群组数量、活跃群组和使用过的昵称;
个人信息提取模块:自定义各类具有个人信息的主题,然后根据不同的主题构建不同的词库或规则,对原始数据进行信息的抽取,得到具有个人信息的信息数据,将获取到的信息数据输出到结果字典中;
个人信息提取模块具体为:自定义各类具有个人信息的主题;根据不同的主题,编写不同的正则表达式规则,应用到发言文本上,获取信息数据并输出到结果字典中。
个人信息提取模块具体为:自定义各类具有个人信息的主题;然后基于发言文本中不同主题的语句表达特点,构建各类主题的关键词词库,然后通过FlashText算法将所有关键词词库中词语构建为字典树结构,最后通过字典树对发言文本进行关键词匹配,获取信息数据并输出到结果字典中。
信息存储模块:将结果字典中的账号数据和信息数据根据用户ID进行分类,然后将对应字段保存到画像数据库中;若用户ID不在画像数据库中,直接将对应字段写入画像数据库;若用户ID已存在画像数据库中,则按照字段更新具体对应内容;
画像输出模块:系统接受输入一个特殊通信软件的用户ID,从画像数据库中调取该用户ID的账号数据和信息数据,并根据预设模板,即时输出该用户ID的分析报告。
本实施例3所指的特殊通信软件为即时通信软件Telegram,该Telegram软件的服务器不在国内,且该软件具有用户匿名、端对端加密通信、聊天信息自动销毁等功能,因此通过每天定时从用户ID提取账号数据和信息数据,不断完善用户ID的画像结果,便于日后能够即时发现涉网诈骗的线索和提供用户ID的身份线索。
以上仅是本发明的优选实施方式,应当指出的是,上述优选实施方式不应视为对本发明的限制,本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说,在不脱离本发明的精神和范围内,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.一种针对社交文本的用户画像分析方法,其特征在于,包括:
S1:每天定时获取即时通信软件的前一天24小时的所有用户的发言数据,对所述发言数据进行清洗处理,得到原始数据;
S2:统计所述原始数据中所有的用户ID,并基于用户ID提取该用户ID的统计数据,对该统计数据进行统计生成账号数据,将账号数据输出到结果字典中,所述账号数据包括:账号出入时间段、活跃时段、活跃月份、加入群组数量、活跃群组和使用过的昵称;
S3:自定义各类具有个人信息的主题,然后根据不同的主题构建不同的词库或规则,对原始数据进行信息的抽取,得到具有个人信息的信息数据,将获取到的信息数据输出到结果字典中;S3具体为:
S3.1:自定义各类具有个人信息的主题;
S3.2:针对不同主题构建不同的触发词词库,并定时更新;
S3.3:基于arc-standard转移系统的神经网络分类模型生成依存句法分析器,通过所述依存句法分析器对原始数据进行信息的依存句法关系提取,得到分词字典、词性字典和句法结构字典;对句法结构字典中的每一个节点进行分析,判断其结构关系;所述结构关系包括:主语词修饰、宾语修饰、时间词修饰、否定词修饰、虚拟词修饰、当前节点词性、上层所有节点词义和上层所有节点词性;
S3.4:根据不同的主题并结合其触发词词库制定不同规则,若S3.3中节点在结构关系判断中符合制定的规则,则将节点处的词抽取出来,输出到结果字典中;
S4:将结果字典中的账号数据和信息数据根据用户ID进行分类,然后将对应字段保存到画像数据库中;若用户ID不在画像数据库中,直接将对应字段写入画像数据库;若用户ID已存在画像数据库中,则按照字段更新具体对应内容;
S5:系统接受输入一个即时通信软件的用户ID,从画像数据库中调取该用户ID的账号数据和信息数据,并根据预设模板,即时输出该用户ID的分析报告。
2.根据权利要求1所述的一种针对社交文本的用户画像分析方法,其特征在于,S1中,所述发言数据包括:用户ID、用户昵称、发言文本和发言时间;对发言数据进行清洗处理包括:删除文本长度小于3和大于200的数据、去除发言文本中的不可见字符串和表情符号和剔除机器人账号相关数据。
3.根据权利要求1所述的一种针对社交文本的用户画像分析方法,其特征在于,S2中,统计数据包括:用户ID、用户昵称、发言群组ID、发言群组名称、发言时间;账号数据具体为:
账号出入时间段:统计发言时间最早发言日期和最后发言日期,作为该用户ID的账号出入时间段;
活跃时段:统计24小时内发言数量最多的一个或几个时间段;
活跃月份:统计发言数量最多的一个月或几个月;
加入群组数量:统计发言群组id的唯一值数量;
活跃群组:统一发言数量最多的发言群组名称;
使用过的昵称:统计用户昵称的唯一值,及第一次使用时间。
4.根据权利要求1所述的一种针对社交文本的用户画像分析方法,其特征在于,S3具体为:自定义各类具有个人信息的主题;然后基于发言文本中不同主题的语句表达特点,构建各类主题的关键词词库,然后通过FlashText算法将所有关键词词库中词语构建为字典树结构,最后通过字典树对发言文本进行关键词匹配,获取信息数据并输出到结果字典中。
5.根据权利要求1所述的一种针对社交文本的用户画像分析方法,其特征在于,S3具体为:自定义各类具有个人信息的主题;根据不同的主题,编写不同的正则表达式规则,应用到发言文本上,获取信息数据并输出到结果字典中。
6.一种针对社交文本的用户画像分析系统,其特征在于,包括:
数据提取及清洗模块:用于每天定时获取即时通信软件的前一天24小时的所有用户的发言数据,对所述发言数据进行清洗处理,得到原始数据;
账号数据提取模块:用于统计所述原始数据中所有的用户ID,并基于用户ID提取该用户ID的统计数据,对该统计数据进行统计生成账号数据,将账号数据输出到结果字典中,所述账号数据包括:账号出入时间段、活跃时段、活跃月份、加入群组数量、活跃群组和使用过的昵称;
个人信息提取模块:用于自定义各类具有个人信息的主题,然后根据不同的主题构建不同的词库或规则,对原始数据进行信息的抽取,得到具有个人信息的信息数据,将获取到的信息数据输出到结果字典中;个人信息提取模块具体步骤为:
步骤1:自定义各类具有个人信息的主题;
步骤2:针对不同主题构建不同的触发词词库,并定时更新;
步骤3:基于arc-standard转移系统的神经网络分类模型生成依存句法分析器,通过所述依存句法分析器对原始数据进行信息的依存句法关系提取,得到分词字典、词性字典和句法结构字典;对句法结构字典中的每一个节点进行分析,判断其结构关系;所述结构关系包括:主语词修饰、宾语修饰、时间词修饰、否定词修饰、虚拟词修饰、当前节点词性、上层所有节点词义和上层所有节点词性;
步骤4:根据不同的主题并结合其触发词词库制定不同规则,若节点在结构关系判断中符合制定的规则,则将节点处的词抽取出来,输出到结果字典中;
信息存储模块:用于将结果字典中的账号数据和信息数据根据用户ID进行分类,然后将对应字段保存到画像数据库中;若用户ID不在画像数据库中,直接将对应字段写入画像数据库;若用户ID已存在画像数据库中,则按照字段更新具体对应内容;
画像输出模块:用于系统接受输入一个即时通信软件的用户ID,从画像数据库中调取该用户ID的账号数据和信息数据,并根据预设模板,即时输出该用户ID的分析报告。
7.根据权利要求6所述的一种针对社交文本的用户画像分析系统,其特征在于,个人信息提取模块具体为:自定义各类具有个人信息的主题;然后基于发言文本中不同主题的语句表达特点,构建各类主题的关键词词库,然后通过FlashText算法将所有关键词词库中词语构建为字典树结构,最后通过字典树对发言文本进行关键词匹配,获取信息数据并输出到结果字典中。
8.根据权利要求6所述的一种针对社交文本的用户画像分析系统,其特征在于,个人信息提取模块具体为:自定义各类具有个人信息的主题;根据不同的主题,编写不同的正则表达式规则,应用到发言文本上,获取信息数据并输出到结果字典中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210573715.0A CN114676243B (zh) | 2022-05-25 | 2022-05-25 | 一种针对社交文本的用户画像分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210573715.0A CN114676243B (zh) | 2022-05-25 | 2022-05-25 | 一种针对社交文本的用户画像分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114676243A CN114676243A (zh) | 2022-06-28 |
CN114676243B true CN114676243B (zh) | 2022-08-19 |
Family
ID=82081035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210573715.0A Active CN114676243B (zh) | 2022-05-25 | 2022-05-25 | 一种针对社交文本的用户画像分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114676243B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663046A (zh) * | 2012-03-29 | 2012-09-12 | 中国科学院自动化研究所 | 一种面向微博短文本的情感分析方法 |
CN105631749A (zh) * | 2015-12-24 | 2016-06-01 | 成都陌云科技有限公司 | 基于统计数据的用户画像计算方法 |
CN109002490A (zh) * | 2018-06-26 | 2018-12-14 | 腾讯科技(深圳)有限公司 | 用户画像生成方法、装置、服务器及存储介质 |
CN109377261A (zh) * | 2018-09-17 | 2019-02-22 | 平安科技(深圳)有限公司 | 群组用户画像创建方法、装置、计算机可读存储介质 |
CN109978020A (zh) * | 2019-03-07 | 2019-07-05 | 武汉大学 | 一种基于多维特征的社交网络账号马甲身份辨识方法 |
CN110427566A (zh) * | 2019-07-23 | 2019-11-08 | 复旦大学 | 一种基于社群系统的服务管理系统 |
CN111061960A (zh) * | 2019-12-31 | 2020-04-24 | 苏州易卖东西信息技术有限公司 | 一种基于社交大数据生成用户画像的方法 |
CN111190939A (zh) * | 2019-12-27 | 2020-05-22 | 深圳市优必选科技股份有限公司 | 一种用户画像构建方法及装置 |
CN112866088A (zh) * | 2021-01-19 | 2021-05-28 | 北京秒针人工智能科技有限公司 | 一种即时通讯应用中的用户画像方法和系统 |
CN112989038A (zh) * | 2021-02-08 | 2021-06-18 | 浙江连信科技有限公司 | 句子级用户画像生成方法、装置及存储介质 |
CN113268649A (zh) * | 2021-03-04 | 2021-08-17 | 北京天润基业科技发展股份有限公司 | 基于多元化数据融合的线索监测方法及系统 |
CN114155067A (zh) * | 2022-02-10 | 2022-03-08 | 北京派瑞威行互联技术有限公司 | 一种用户画像的建立方法及系统 |
-
2022
- 2022-05-25 CN CN202210573715.0A patent/CN114676243B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663046A (zh) * | 2012-03-29 | 2012-09-12 | 中国科学院自动化研究所 | 一种面向微博短文本的情感分析方法 |
CN105631749A (zh) * | 2015-12-24 | 2016-06-01 | 成都陌云科技有限公司 | 基于统计数据的用户画像计算方法 |
CN109002490A (zh) * | 2018-06-26 | 2018-12-14 | 腾讯科技(深圳)有限公司 | 用户画像生成方法、装置、服务器及存储介质 |
CN109377261A (zh) * | 2018-09-17 | 2019-02-22 | 平安科技(深圳)有限公司 | 群组用户画像创建方法、装置、计算机可读存储介质 |
CN109978020A (zh) * | 2019-03-07 | 2019-07-05 | 武汉大学 | 一种基于多维特征的社交网络账号马甲身份辨识方法 |
CN110427566A (zh) * | 2019-07-23 | 2019-11-08 | 复旦大学 | 一种基于社群系统的服务管理系统 |
CN111190939A (zh) * | 2019-12-27 | 2020-05-22 | 深圳市优必选科技股份有限公司 | 一种用户画像构建方法及装置 |
CN111061960A (zh) * | 2019-12-31 | 2020-04-24 | 苏州易卖东西信息技术有限公司 | 一种基于社交大数据生成用户画像的方法 |
CN112866088A (zh) * | 2021-01-19 | 2021-05-28 | 北京秒针人工智能科技有限公司 | 一种即时通讯应用中的用户画像方法和系统 |
CN112989038A (zh) * | 2021-02-08 | 2021-06-18 | 浙江连信科技有限公司 | 句子级用户画像生成方法、装置及存储介质 |
CN113268649A (zh) * | 2021-03-04 | 2021-08-17 | 北京天润基业科技发展股份有限公司 | 基于多元化数据融合的线索监测方法及系统 |
CN114155067A (zh) * | 2022-02-10 | 2022-03-08 | 北京派瑞威行互联技术有限公司 | 一种用户画像的建立方法及系统 |
Non-Patent Citations (2)
Title |
---|
基于依存句法分析的科技政策领域主题词表无监督构建;邵卫;《情报工程》;20201215(第6期);33-44 * |
面向企业舆情监测的事件画像与高危人群预测研究;吴林等;《信息资源管理学报》;20191211(第01期);15-28 * |
Also Published As
Publication number | Publication date |
---|---|
CN114676243A (zh) | 2022-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107633044B (zh) | 一种基于热点事件的舆情知识图谱构建方法 | |
CN105740228B (zh) | 一种互联网舆情分析方法及系统 | |
Wang et al. | Retweet wars: Tweet popularity prediction via dynamic multimodal regression | |
CN111222305A (zh) | 一种信息结构化方法和装置 | |
US20200065391A1 (en) | Computer implemented system and method for automatically generating messages | |
WO2021036439A1 (zh) | 一种信访问题答复方法及装置 | |
CN109446299B (zh) | 基于事件识别的搜索电子邮件内容的方法及系统 | |
EP3667586A1 (en) | Electronic communication system with drafting assistant and method of using same | |
CN107562728A (zh) | 基于结构和文本信息的社交媒体短文本过滤方法 | |
CN112446210A (zh) | 用户性别预测方法、装置及电子设备 | |
CN113726942A (zh) | 一种智能电话接听方法、系统、介质及电子终端 | |
Lampos | On voting intentions inference from Twitter content: a case study on UK 2010 General Election | |
Khadija et al. | Enhancing Indonesian customer complaint analysis: LDA topic modelling with BERT embeddings | |
WO2024087754A1 (zh) | 一种多维度文本综合辨识方法 | |
CN114676243B (zh) | 一种针对社交文本的用户画像分析方法及系统 | |
CN110929085B (zh) | 基于元语义分解的电力客服留言生成模型样本处理系统及方法 | |
He et al. | Reinforcement learning with external knowledge and two-stage q-functions for predicting popular reddit threads | |
Edouard et al. | Semantic linking for event-based classification of tweets | |
Khodabakhsh et al. | PerBOLD: A Big Dataset of Persian Offensive language on Instagram Comments | |
CN111552890B (zh) | 基于名称预测模型的名称信息处理方法、装置、电子设备 | |
CN110766091B (zh) | 一种套路贷团伙的识别方法及系统 | |
Zhang et al. | Focus on the action: Learning to highlight and summarize jointly for email to-do items summarization | |
Wu et al. | Emotional analysis based on LSTM-CNN hybrid neural network model | |
CN114579692A (zh) | 诈骗数据深度分析方法及系统 | |
JP2021033860A (ja) | サーバおよびコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |