CN114048102A - 一种基于大数据的聊天智能分析监控系统 - Google Patents
一种基于大数据的聊天智能分析监控系统 Download PDFInfo
- Publication number
- CN114048102A CN114048102A CN202111371305.XA CN202111371305A CN114048102A CN 114048102 A CN114048102 A CN 114048102A CN 202111371305 A CN202111371305 A CN 202111371305A CN 114048102 A CN114048102 A CN 114048102A
- Authority
- CN
- China
- Prior art keywords
- data
- chat
- characters
- analysis module
- integrated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/302—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Information Transfer Between Computers (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于大数据的聊天智能分析监控系统,包括:数据获取模块,其与游戏客户端连接,用以获取游戏客户端中的聊天数据并将获取的聊天数据发送至数据分析模块;数据分析模块,用以接收来自所述数据分析模块发送的所述聊天数据并判定所述聊天数据中是否含有敏感字符;数据发送模块,用以接收来自所述数据分析模块发送的带有标记的聊天数据并将标记替换为特定字符,替换完成时,数据发送模块将该聊天数据发送至所述游戏客户端中的聊天界面;数据库模块,用以储存和更新敏感字符并储存敏感字符的近义词和替换词。通过本发明可以避免用户通过多条聊天数据、多种字符组合的方式发送辱骂性文字,可以更加精准的屏蔽敏感性字符。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于大数据的聊天智能分析监控系统。
背景技术
随着互联网的发展、移动终端的普及,网络聊天方式已经是生活中普遍、客观存在的一部分,在各大游戏中会设置聊天模块,用户可通过聊天模块实现信息的在线交互。然而游戏客户端中聊天方式的弊端在于,无法对聊天数据进行有效审核,进而导致存在通过网上聊天传播色情、低俗、辱骂以及敏感信息的不法行为,这对青少年乃至成年都造成了不良影响。为营造良好的游戏客户端聊天环境,对聊天数据的监控审核显得尤为重要。
现有技术中,对游戏客户端聊天数据的监控审核方式通常采用审核单一聊天数据的方式,然而这种方式会导致审核效率低、准确性差,不能实现对聊天数据的智能化识别,无法准确掌握用户想要表达的意思,进而无法为用户营造良好的网络聊天环境。
发明内容
为此,本发明提供一种基于大数据的聊天智能分析监控系统,用以克服现有技术中采用审核单一聊天数据的方式,然而这种方式会导致审核效率低、准确性差,不能实现对聊天数据的智能化识别的问题。
为实现上述目的,本发明提供一种基于大数据的聊天智能分析监控系统,包括,
数据获取模块,其与游戏客户端连接,用以获取游戏客户端中的聊天数据并将获取的聊天数据发送至数据分析模块;
数据分析模块,其与所述数据获取模块相连,用以接收来自所述数据分析模块发送的所述聊天数据并判定所述聊天数据中是否含有敏感字符,若所述聊天数据中含有敏感字符,数据分析模块将标记敏感字符并将标记后的敏感字符发送至数据发送模块,若所述聊天数据中心不含有敏感字符,数据分析模块将该聊天数据发送至所述游戏客户端中的聊天界面;
数据发送模块,其与所述数据分析模块相连,用以接收来自所述数据分析模块发送的带有标记的聊天数据并将标记替换为特定字符,替换完成时,数据发送模块将该聊天数据发送至所述游戏客户端中的聊天界面;
数据库模块,其与所述分析模块相连,用以储存和更新敏感字符并储存敏感字符的近义词和替换词;
所述数据分析模块中预设有标准聊天数据字符长度L0,当所述数据分析模块识别敏感字符时,所述数据分析模块获取用户的聊天记录信息,设置聊天记录信息包括N1,N2,N3…Nn多条聊天数据,每条聊天数据的字符长度分别为L1,L2,L3,......,Ln,所述数据模块依次将各聊天数据的字符长度Li,i=1,2,3,......,n与标准聊天数据字符长度L0进行比对以判定是否整合聊天数据,若所述数据分析模块判定聊天数据字符长度不符合标准,所述数据分析模块判定需要整合聊天数据并将整合的聊天数据记为整合后的聊天信息,若所述数据分析模块判定聊天数据字符长度符合标准,所述数据分析模块判定不需要整合聊天数据;
当所述数据分析模块判定需要整合聊天数据时,所述数据分析模块判定整合后的聊天信息中是否包含除文字以外的其他字符,若所述数据分析模块判定整合后的聊天信息中包含除文字以外的其他字符,所述数据分析模块判定需要提取除文字以外的其他字符以判定是否整合后的聊天信息中是否含有敏感字符,若所述数据分析模块判定整合后的聊天信息中不包含除文字以外的其他字符,所述数据分析模块判定整合后的聊天信息中是否含有敏感字符;
当所述数据分析模块判定需要整合聊天数据时,若所述数据分析模块判定整合后的数据信息中含有敏感字符,所述数据分析模块标记整合后的聊天信息中最后一条聊天数据并将标记后的聊天数据发送至所述数据发送模块,若所述数据分析模块判定整合后的数据信息中不含有敏感字符,所述数据分析模块将整合后的数据信息中最后一条聊天数据发送至所述游戏客户端中的聊天界面。
进一步地,所述数据分析模块中预设有标准聊天数据字符长度L0,所述数据模块依次将各聊天数据的字符长度Li,i=1,2,3,......,n与标准聊天数据字符长度L0进行比对以判定是否整合聊天数据;
当Li≥L0时,所述数据分析模块判定聊天数据字符长度符合标准,所述数据分析模块判定不需要整合聊天数据;
当Li<L0时,所述数据分析模块判定聊天数据字符长度不符合标准,所述数据分析模块判定需要整合聊天数据,所述数据分析模块从第一个不符合聊天数据字符长度的聊天数据开始,读取n个聊天数据进行聊天数据整合,直至整合后的聊天信息字符长度符合标准。
进一步地,当所述数据分析模块判定需要提取除文字以外的其他字符以判定是否整合后的聊天信息中是否含有敏感字符时,所述数据分析模块将其他字符分割为字母部分和数字部分以判断其他字符中是否含有敏感字符;
当对字母部分进行判断时,所述数据分析模块识别字母部分整体是否为英文单词,当字母部分整体为英文单词时,所述数据分析模块则读取字母部分的中文含义,若字母部分的中文含义为敏感字符,所述数据分析模块标记整合后的聊天信息中最后一条聊天数据并将标记后的聊天数据发送至所述数据发送模块,当字母部分整体不为英文单词时,所述数据分析模块则对字母部分进行拆分识别。
进一步地,当所述数据分析模块判定需要对字母部分进行拆分识别时,所述数据分析从字母部分的第1个字符开始,依次选取z个字符,设定,z=j-1,并依次对z个字符进行判断,当z个字符为拼音或者英文单词时,所述数据分析模块则读取z个字符的中文含义,若z个字符的中文含义为敏感字符,所述数据分析模块标记整合后的聊天信息中最后一条聊天数据并将标记后的聊天数据发送至所述数据发送模块;
所述数据分析模块从字母部分的第2个字符开始,依次选取z1个字符,设定,z1=j-2,并依次对z1个字符进行判断,当z1个字符为拼音或者英文单词时,所述数据分析模块则读取z1个字符的中文含义,若z1个字符的中文含义为敏感字符,所述数据分析模块标记整合后的聊天信息中最后一条聊天数据并将标记后的聊天数据发送至所述数据发送模块;
所述数据分析模块从字母部分的第k个字符开始,依次选取z2个字符,设定,z2=j-k,并依次对z2个字符进行判断,当z2个字符为拼音或者英文单词时,所述数据分析模块则读取z2个字符的中文含义,若z2个字符的中文含义为敏感字符,所述数据分析模块标记整合后的聊天信息中最后一条聊天数据并将标记后的聊天数据发送至所述数据发送模块;
其中,j为整合后的聊天信息中字母部分的字符数量,k<j。
进一步地,当所述数据分析模块判定需要对字母部分进行拆分识别时,所述数据分析模块从字母部分的第k个字符开始,依次选取z2个字符,设定,z2=j-k,并依次对z2个字符进行判断,当z2个字符为拼音或者英文单词时,所述数据分析模块则读取z2个字符的中文含义,若z2个字符的中文含义不为敏感字符,所述数据分析模块从剩余字母部分中第一个字符开始选取依次选取n个字符,并依次对n个字符进行判断,当n个字符为拼音或者英文单词时,所述数据分析模块则读取n个字符的中文含义,若n个字符的中文含义为敏感字符,所述数据分析模块标记整合后的聊天信息中最后一条聊天数据并将标记后的聊天数据发送至所述数据发送模块。
进一步地,当所述数据分析模块判定字母部分不含有敏感字符时,所述数据分析模块判定整合后的聊天信息中是否含有文字;
当所述数据分析模块判定整合后的聊天信息中含有文字时,若文字部分不含有敏感字符且文字部分和字母部分结合不含有敏感字符,所述数据分析模块将整合后的数据信息中最后一条聊天数据发送至所述游戏客户端中的聊天界面;
当所述数据分析模块判定整合后的聊天信息中不含有文字时,所述数据分析模块将整合后的数据信息中最后一条聊天数据发送至所述游戏客户端中的聊天界面。
进一步地,当所述数据分析模块整合后的聊天信息中不包含除文字以外的其他字符时,所述数据分析模块依次读取整合后的聊天信息中各聊天数据的近义词和替换词,若整合后的聊天信息中各聊天数据的近义词和替换词包含敏感字符,所述数据分析模块标记整合后的聊天信息中最后一条聊天数据并将标记后的聊天数据发送至所述数据发送模块,若整合后的聊天信息中各聊天数据的近义词和替换词不包含敏感字符,所述数据分析模块将整合后的数据信息中最后一条聊天数据发送至所述游戏客户端中的聊天界面。
进一步地,所述数据分析模块根据整合后的聊天信息中字符的种类以修正标准聊天数据字符长度L0;
当整合后的聊天信息中字符的种类为文字时,所述数据分析模块则不对标准聊天数据字符长度L0进行修正;
当整合后的聊天信息中字符的种类为文字和字母时,所述数据分析模块将修正后的标准聊天数据字符长度记为L01,设定,L01=2×L0;
当整合后的聊天信息中字符的种类为文字和数字时,所述数据分析模块将修正后的标准聊天数据字符长度记为L02,设定,L02=L0+2;
当整合后的聊天信息中字符的种类为字母和数字时,所述数据分析模块将修正后的标准聊天数据字符长度记为L03,设定,L03=3×L0-1。
与现有技术相比,本发明的有益效果在于,本发明通过设置标准聊天数据字符长度L0,当所述数据分析模块识别敏感字符时,所述数据分析模块获取用户的聊天信息,设置聊天信息包括N1,N2,N3…Nn多条聊天数据,每条聊天数据的字符长度分别为L1,L2,L3,......,Ln,所述数据模块依次将各聊天数据的字符长度Li,i=1,2,3,......,n与标准聊天数据字符长度L0进行比对以判定是否整合聊天数据,通过整合多条聊天数据,可以精准的把控用户实际想要表达的信息,可以避免用户通过多条聊天数据、多种字符组合的方式发送辱骂性信息,可以更加精准的屏蔽敏感性字符,营造更加良好的游戏聊天环境。
进一步地,本发明数据分析模块通过设置标准聊天数据字符长度L0,可以对用户发送的每条聊天数据字符长度进行准确判断,通过整合多条聊天数据,可以精准的把控用户实际想要表达的信息,可以避免用户通过多条聊天数据、多种字符组合的方式发送辱骂性文字,可以更加精准的屏蔽敏感性字符,营造更加良好的游戏聊天环境。
进一步地,本发明数据分析模块通过对其他字符部分进行分割并分别进行含义判定,通过分割其他字符,可以准确的掌握用户想要表达的意思,可以避免用户通过英文替换并结合多条聊天数据的方式发送辱骂性信息,可以更加精准的屏蔽敏感性字符,营造更加良好的游戏聊天环境。
进一步地,本发明数据分析模块通过依次选取字母部分中的字母长度以判定字母部分中是否含有拼音或者英文单词,当字母部分中存在拼音或英文单词时,数据分析模块读取拼音或英文单词以判定是否含有敏感字符,通过把控字母部分是否含有敏感字符,可以精准的把控用户实际想要表达的信息,可以避免用户通过多条聊天数据、多种字符组合的方式发送辱骂性文字,可以更加精准的屏蔽敏感性字符,营造更加良好的游戏聊天环境。
进一步地,本发明数据分析模块通过依次选取剩余字母部分中的字母长度以判定字母部分中是否含有拼音或者英文单词,当字母部分中存在拼音或英文单词时,数据分析模块读取拼音或英文单词以判定是否含有敏感字符,通过把控字母部分是否含有敏感字符,可以精准的把控用户实际想要表达的信息,可以避免用户通过多条聊天数据、多种字符组合的方式发送辱骂性文字,可以更加精准的屏蔽敏感性字符,营造更加良好的游戏聊天环境。
进一步地,本发明通过通过整合多条聊天数据,并分别对整合信息中文字部分和字母部分的含义和整体含义进行判断,可以精准的把控用户实际想要表达的信息,可以避免用户通过多条聊天数据、多种字符组合的方式发送辱骂性信息,可以更加精准的屏蔽敏感性字符,营造更加良好的游戏聊天环境。
进一步地,本发明数据分析模块通过分析文字聊天数据的近义词和替换词以精准的把控用户实际想要表达的信息,可以避免用户通过多条聊天数据、多种字符组合的方式发送辱骂性信息,可以更加精准的屏蔽敏感性字符,营造更加良好的游戏聊天环境。
附图说明
图1为本发明所述基于大数据的聊天智能分析监控系统的结构示意图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1所示,为本发明实施例提供的所述基于大数据的聊天智能分析监控系统的结构示意图,包括,
数据获取模块,其与游戏客户端连接,用以获取游戏客户端中的聊天数据并将获取的聊天数据发送至数据分析模块;
数据分析模块,其与所述数据获取模块相连,用以接收来自所述数据分析模块发送的所述聊天数据并判定所述聊天数据中是否含有敏感字符,若所述聊天数据中含有敏感字符,数据分析模块将标记敏感字符并将标记后的敏感字符发送至数据发送模块,若所述聊天数据中心不含有敏感字符,数据分析模块将该聊天数据发送至所述游戏客户端中的聊天界面;
数据发送模块,其与所述数据分析模块相连,用以接收来自所述数据分析模块发送的带有标记的聊天数据并将标记替换为特定字符,替换完成时,数据发送模块将该聊天数据发送至所述游戏客户端中的聊天界面;
数据库模块,其与所述分析模块相连,用以储存和更新敏感字符并储存敏感字符的近义词和替换词;
所述数据分析模块中预设有标准聊天数据字符长度L0,当所述数据分析模块识别敏感字符时,所述数据分析模块获取用户的聊天记录信息,设置聊天记录信息包括N1,N2,N3…Nn多条聊天数据,每条聊天数据的字符长度分别为L1,L2,L3,......,Ln,所述数据模块依次将各聊天数据的字符长度Li,i=1,2,3,......,n与标准聊天数据字符长度L0进行比对以判定是否整合聊天数据,若所述数据分析模块判定聊天数据字符长度不符合标准,所述数据分析模块判定需要整合聊天数据并将整合的聊天数据记为整合后的聊天信息,若所述数据分析模块判定聊天数据字符长度符合标准,所述数据分析模块判定不需要整合聊天数据;
当所述数据分析模块判定需要整合聊天数据时,所述数据分析模块判定整合后的聊天信息中是否包含除文字以外的其他字符,若所述数据分析模块判定整合后的聊天信息中包含除文字以外的其他字符,所述数据分析模块判定需要提取除文字以外的其他字符以判定是否整合后的聊天信息中是否含有敏感字符,若所述数据分析模块判定整合后的聊天信息中不包含除文字以外的其他字符,所述数据分析模块判定整合后的聊天信息中是否含有敏感字符;
当所述数据分析模块判定需要整合聊天数据时,若所述数据分析模块判定整合后的数据信息中含有敏感字符,所述数据分析模块标记整合后的聊天信息中最后一条聊天数据并将标记后的聊天数据发送至所述数据发送模块,若所述数据分析模块判定整合后的数据信息中不含有敏感字符,所述数据分析模块将整合后的数据信息中最后一条聊天数据发送至所述游戏客户端中的聊天界面。
具体而言,本发明通过设置标准聊天数据字符长度L0,当所述数据分析模块识别敏感字符时,所述数据分析模块获取用户的聊天信息,设置聊天信息包括N1,N2,N3…Nn多条聊天数据,每条聊天数据的字符长度分别为L1,L2,L3,......,Ln,所述数据模块依次将各聊天数据的字符长度Li,i=1,2,3,......,n与标准聊天数据字符长度L0进行比对以判定是否整合聊天数据,通过整合多条聊天数据,可以精准的把控用户实际想要表达的信息,可以避免用户通过多条聊天数据、多种字符组合的方式发送辱骂性信息,可以更加精准的屏蔽敏感性字符,营造更加良好的游戏聊天环境。
具体而言,所述数据分析模块中预设有标准聊天数据字符长度L0,所述数据模块依次将各聊天数据的字符长度Li,i=1,2,3,......,n与标准聊天数据字符长度L0进行比对以判定是否整合聊天数据;
当Li≥L0时,所述数据分析模块判定聊天数据字符长度符合标准,所述数据分析模块判定不需要整合聊天数据;
当Li<L0时,所述数据分析模块判定聊天数据字符长度不符合标准,所述数据分析模块判定需要整合聊天数据,所述数据分析模块从第一个不符合聊天数据字符长度的聊天数据开始,读取n个聊天数据进行聊天数据整合,直至整合后的聊天信息字符长度符合标准。
具体而言,本发明数据分析模块通过设置标准聊天数据字符长度L0,可以对用户发送的每条聊天数据字符长度进行准确判断,通过整合多条聊天数据,可以精准的把控用户实际想要表达的信息,可以避免用户通过多条聊天数据、多种字符组合的方式发送辱骂性文字,可以更加精准的屏蔽敏感性字符,营造更加良好的游戏聊天环境。
具体而言,当所述数据分析模块判定需要提取除文字以外的其他字符以判定是否整合后的聊天信息中是否含有敏感字符时,所述数据分析模块将其他字符分割为字母部分和数字部分以判断其他字符中是否含有敏感字符;
当对字母部分进行判断时,所述数据分析模块识别字母部分整体是否为英文单词,当字母部分整体为英文单词时,所述数据分析模块则读取字母部分的中文含义,若字母部分的中文含义为敏感字符,所述数据分析模块标记整合后的聊天信息中最后一条聊天数据并将标记后的聊天数据发送至所述数据发送模块,当字母部分整体不为英文单词时,所述数据分析模块则对字母部分进行拆分识别;
当对数字部分进行判断时,当整合后的聊天信息中其中一条聊天数据为数字”13”或者其中一条为数字”1”、下一条为数字“3”时,所述数据分析模块则标记“13”或“3”并将标记后的聊天数据发送至所述数据发送模块。
具体而言,本发明数据分析模块通过对其他字符部分进行分割并分别进行含义判定,通过分割其他字符,可以准确的掌握用户想要表达的意思,可以避免用户通过英文替换并结合多条聊天数据的方式发送辱骂性信息,可以更加精准的屏蔽敏感性字符,营造更加良好的游戏聊天环境。
具体而言,当所述数据分析模块判定需要对字母部分进行拆分识别时,所述数据分析从字母部分的第1个字符开始,依次选取z个字符,设定,z=j-1,并依次对z个字符进行判断,当z个字符为拼音或者英文单词时,所述数据分析模块则读取z个字符的中文含义,若z个字符的中文含义为敏感字符,所述数据分析模块标记整合后的聊天信息中最后一条聊天数据并将标记后的聊天数据发送至所述数据发送模块;
所述数据分析模块从字母部分的第2个字符开始,依次选取z1个字符,设定,z1=j-2,并依次对z1个字符进行判断,当z1个字符为拼音或者英文单词时,所述数据分析模块则读取z1个字符的中文含义,若z1个字符的中文含义为敏感字符,所述数据分析模块标记整合后的聊天信息中最后一条聊天数据并将标记后的聊天数据发送至所述数据发送模块;
所述数据分析模块从字母部分的第k个字符开始,依次选取z2个字符,设定,z2=j-k,并依次对z2个字符进行判断,当z2个字符为拼音或者英文单词时,所述数据分析模块则读取z2个字符的中文含义,若z2个字符的中文含义为敏感字符,所述数据分析模块标记整合后的聊天信息中最后一条聊天数据并将标记后的聊天数据发送至所述数据发送模块;
其中,j为整合后的聊天信息中字母部分的字符数量,k<j。
具体而言,本发明数据分析模块通过依次选取字母部分中的字母长度以判定字母部分中是否含有拼音或者英文单词,当字母部分中存在拼音或英文单词时,数据分析模块读取拼音或英文单词以判定是否含有敏感字符,通过把控字母部分是否含有敏感字符,可以精准的把控用户实际想要表达的信息,可以避免用户通过多条聊天数据、多种字符组合的方式发送辱骂性文字,可以更加精准的屏蔽敏感性字符,营造更加良好的游戏聊天环境。
具体而言,当所述数据分析模块判定需要对字母部分进行拆分识别时,所述数据分析模块从字母部分的第k个字符开始,依次选取z2个字符,设定,z2=j-k,并依次对z2个字符进行判断,当z2个字符为拼音或者英文单词时,所述数据分析模块则读取z2个字符的中文含义,若z2个字符的中文含义不为敏感字符,所述数据分析模块从剩余字母部分中第一个字符开始选取依次选取n个字符,并依次对n个字符进行判断,当n个字符为拼音或者英文单词时,所述数据分析模块则读取n个字符的中文含义,若n个字符的中文含义为敏感字符,所述数据分析模块标记整合后的聊天信息中最后一条聊天数据并将标记后的聊天数据发送至所述数据发送模块。
具体而言,本发明数据分析模块通过依次选取剩余字母部分中的字母长度以判定字母部分中是否含有拼音或者英文单词,当字母部分中存在拼音或英文单词时,数据分析模块读取拼音或英文单词以判定是否含有敏感字符,通过把控字母部分是否含有敏感字符,可以精准的把控用户实际想要表达的信息,可以避免用户通过多条聊天数据、多种字符组合的方式发送辱骂性文字,可以更加精准的屏蔽敏感性字符,营造更加良好的游戏聊天环境。
具体而言,当所述数据分析模块判定字母部分不含有敏感字符时,所述数据分析模块判定整合后的聊天信息中是否含有文字;
当所述数据分析模块判定整合后的聊天信息中含有文字时,若文字部分不含有敏感字符且文字部分和字母部分结合不含有敏感字符,所述数据分析模块将整合后的数据信息中最后一条聊天数据发送至所述游戏客户端中的聊天界面;
当所述数据分析模块判定整合后的聊天信息中不含有文字时,所述数据分析模块将整合后的数据信息中最后一条聊天数据发送至所述游戏客户端中的聊天界面。
具体而言,本发明通过通过整合多条聊天数据,并分别对整合信息中文字部分和字母部分的含义和整体含义进行判断,可以精准的把控用户实际想要表达的信息,可以避免用户通过多条聊天数据、多种字符组合的方式发送辱骂性信息,可以更加精准的屏蔽敏感性字符,营造更加良好的游戏聊天环境。
具体而言,当所述数据分析模块整合后的聊天信息中不包含除文字以外的其他字符时,所述数据分析模块依次读取整合后的聊天信息中各聊天数据的近义词和替换词,若整合后的聊天信息中各聊天数据的近义词和替换词包含敏感字符,所述数据分析模块标记整合后的聊天信息中最后一条聊天数据并将标记后的聊天数据发送至所述数据发送模块,若整合后的聊天信息中各聊天数据的近义词和替换词不包含敏感字符,所述数据分析模块将整合后的数据信息中最后一条聊天数据发送至所述游戏客户端中的聊天界面。
具体而言,本发明数据分析模块通过分析文字聊天数据的近义词和替换词以精准的把控用户实际想要表达的信息,可以避免用户通过多条聊天数据、多种字符组合的方式发送辱骂性信息,可以更加精准的屏蔽敏感性字符,营造更加良好的游戏聊天环境。
具体而言,所述数据分析模块根据整合后的聊天信息中字符的种类以修正标准聊天数据字符长度L0;
当整合后的聊天信息中字符的种类为文字时,所述数据分析模块则不对标准聊天数据字符长度L0进行修正;
当整合后的聊天信息中字符的种类为文字和字母时,所述数据分析模块将修正后的标准聊天数据字符长度记为L01,设定,L01=2×L0;
当整合后的聊天信息中字符的种类为文字和数字时,所述数据分析模块将修正后的标准聊天数据字符长度记为L02,设定,L02=L0+2;
当整合后的聊天信息中字符的种类为字母和数字时,所述数据分析模块将修正后的标准聊天数据字符长度记为L03,设定,L03=3×L0-1。
具体而言,本发明通过数据分析模块通过分析整合后的聊天信息中字符的种类,精准的把控用户实际想要表达的信息,可以避免用户通过多条聊天数据、多种字符组合的方式发送辱骂性文字,可以更加精准的屏蔽敏感性字符,营造更加良好的游戏聊天环境。
具体而言,工作人员可以向数据库模块中配置敏感字符,或者通过机器学习、爬虫获取等方式获得敏感字符,并对转换为预设敏感字符进行存储,进而在数据分析模块对聊天数据进行识别时,可以从数据库模块中读取预设敏感字符字符,以依据读取的预设敏感字符对聊天数据中的敏感字符进行识别。当有敏感字符增加、删减、修改时,只需要对数据库模块中存储的预设敏感字符进行配置即可,无需对其他模块进行改动。
具体而言,在实际应用中,具体可以进行文本分词、过滤特殊字符、过滤HTML、繁体向简体转换等标准化处理。在实际应用场景中,为了避免通过发送多条聊天数据来逃避审核,可以对多条聊天信息进行整合,如对于整合后的聊天信息(1、支,2、~yuan,3、我)进行分析时,可将“~”忽略,并将“yuan”选择为“援”或其他音字或“援”的近义词以判定“支援我”中是否含有敏感字符,此外,目前很多输入法带有繁体输入,针对玩家输入的文本内容可能包含繁体字的情况,还可以对聊天数据进行繁体向简体转换,从而利用标准化处理后的游戏数据进行敏感字符识别。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于大数据的聊天智能分析监控系统,其特征在于,包括:
数据获取模块,其与游戏客户端连接,用以获取游戏客户端中的聊天数据并将获取的聊天数据发送至数据分析模块;
数据分析模块,其与所述数据获取模块相连,用以接收来自所述数据分析模块发送的所述聊天数据并判定所述聊天数据中是否含有敏感字符,若所述聊天数据中含有敏感字符,数据分析模块将标记敏感字符并将标记后的敏感字符发送至数据发送模块,若所述聊天数据中心不含有敏感字符,数据分析模块将该聊天数据发送至所述游戏客户端中的聊天界面;
数据发送模块,其与所述数据分析模块相连,用以接收来自所述数据分析模块发送的带有标记的聊天数据并将标记替换为特定字符,替换完成时,数据发送模块将该聊天数据发送至所述游戏客户端中的聊天界面;
数据库模块,其与所述分析模块相连,用以储存和更新敏感字符并储存敏感字符的近义词和替换词;
所述数据分析模块中预设有标准聊天数据字符长度L0,当所述数据分析模块识别敏感字符时,所述数据分析模块获取用户的聊天记录信息,设置聊天记录信息包括N1,N2,N3…Nn多条聊天数据,每条聊天数据的字符长度分别为L1,L2,L3,......,Ln,所述数据模块依次将各聊天数据的字符长度Li,i=1,2,3,......,n与标准聊天数据字符长度L0进行比对以判定是否整合聊天数据,若所述数据分析模块判定聊天数据字符长度不符合标准,所述数据分析模块判定需要整合聊天数据并将整合的聊天数据记为整合后的聊天信息,若所述数据分析模块判定聊天数据字符长度符合标准,所述数据分析模块判定不需要整合聊天数据;
当所述数据分析模块判定需要整合聊天数据时,所述数据分析模块判定整合后的聊天信息中是否包含除文字以外的其他字符,若所述数据分析模块判定整合后的聊天信息中包含除文字以外的其他字符,所述数据分析模块判定需要提取除文字以外的其他字符以判定是否整合后的聊天信息中是否含有敏感字符,若所述数据分析模块判定整合后的聊天信息中不包含除文字以外的其他字符,所述数据分析模块判定整合后的聊天信息中是否含有敏感字符;
当所述数据分析模块判定需要整合聊天数据时,若所述数据分析模块判定整合后的数据信息中含有敏感字符,所述数据分析模块标记整合后的聊天信息中最后一条聊天数据并将标记后的聊天数据发送至所述数据发送模块,若所述数据分析模块判定整合后的数据信息中不含有敏感字符,所述数据分析模块将整合后的数据信息中最后一条聊天数据发送至所述游戏客户端中的聊天界面。
2.根据权利要求1所述的基于大数据的聊天智能分析监控系统,其特征在于,所述数据分析模块中预设有标准聊天数据字符长度L0,所述数据模块依次将各聊天数据的字符长度Li,i=1,2,3,......,n与标准聊天数据字符长度L0进行比对以判定是否整合聊天数据;
当Li≥L0时,所述数据分析模块判定聊天数据字符长度符合标准,所述数据分析模块判定不需要整合聊天数据;
当Li<L0时,所述数据分析模块判定聊天数据字符长度不符合标准,所述数据分析模块判定需要整合聊天数据,所述数据分析模块从第一个不符合聊天数据字符长度的聊天数据开始,读取n个聊天数据进行聊天数据整合,直至整合后的聊天信息字符长度符合标准。
3.根据权利要求2所述的基于大数据的聊天智能分析监控系统,其特征在于,当所述数据分析模块判定需要提取除文字以外的其他字符以判定是否整合后的聊天信息中是否含有敏感字符时,所述数据分析模块将其他字符分割为字母部分和数字部分以判断其他字符中是否含有敏感字符;
当对字母部分进行判断时,所述数据分析模块识别字母部分整体是否为英文单词,当字母部分整体为英文单词时,所述数据分析模块则读取字母部分的中文含义,若字母部分的中文含义为敏感字符,所述数据分析模块标记整合后的聊天信息中最后一条聊天数据并将标记后的聊天数据发送至所述数据发送模块,当字母部分整体不为英文单词时,所述数据分析模块则对字母部分进行拆分识别。
4.根据权利要求3所述的基于大数据的聊天智能分析监控系统,其特征在于,当所述数据分析模块判定需要对字母部分进行拆分识别时,所述数据分析从字母部分的第1个字符开始,依次选取z个字符,设定,z=j-1,并依次对z个字符进行判断,当z个字符为拼音或者英文单词时,所述数据分析模块则读取z个字符的中文含义,若z个字符的中文含义为敏感字符,所述数据分析模块标记整合后的聊天信息中最后一条聊天数据并将标记后的聊天数据发送至所述数据发送模块;
所述数据分析模块从字母部分的第2个字符开始,依次选取z1个字符,设定,z1=j-2,并依次对z1个字符进行判断,当z1个字符为拼音或者英文单词时,所述数据分析模块则读取z1个字符的中文含义,若z1个字符的中文含义为敏感字符,所述数据分析模块标记整合后的聊天信息中最后一条聊天数据并将标记后的聊天数据发送至所述数据发送模块;
所述数据分析模块从字母部分的第k个字符开始,依次选取z2个字符,设定,z2=j-k,并依次对z2个字符进行判断,当z2个字符为拼音或者英文单词时,所述数据分析模块则读取z2个字符的中文含义,若z2个字符的中文含义为敏感字符,所述数据分析模块标记整合后的聊天信息中最后一条聊天数据并将标记后的聊天数据发送至所述数据发送模块;
其中,j为整合后的聊天信息中字母部分的字符数量,k<j。
5.根据权利要求4所述的基于大数据的聊天智能分析监控系统,其特征在于,当所述数据分析模块判定需要对字母部分进行拆分识别时,所述数据分析模块从字母部分的第k个字符开始,依次选取z2个字符,设定,z2=j-k,并依次对z2个字符进行判断,当z2个字符为拼音或者英文单词时,所述数据分析模块则读取z2个字符的中文含义,若z2个字符的中文含义不为敏感字符,所述数据分析模块从剩余字母部分中第一个字符开始选取依次选取n个字符,并依次对n个字符进行判断,当n个字符为拼音或者英文单词时,所述数据分析模块则读取n个字符的中文含义,若n个字符的中文含义为敏感字符,所述数据分析模块标记整合后的聊天信息中最后一条聊天数据并将标记后的聊天数据发送至所述数据发送模块。
6.根据权利要求5所述的基于大数据的聊天智能分析监控系统,其特征在于,当所述数据分析模块判定字母部分不含有敏感字符时,所述数据分析模块判定整合后的聊天信息中是否含有文字;
当所述数据分析模块判定整合后的聊天信息中含有文字时,若文字部分不含有敏感字符且文字部分和字母部分结合不含有敏感字符,所述数据分析模块将整合后的数据信息中最后一条聊天数据发送至所述游戏客户端中的聊天界面;
当所述数据分析模块判定整合后的聊天信息中不含有文字时,所述数据分析模块将整合后的数据信息中最后一条聊天数据发送至所述游戏客户端中的聊天界面。
7.根据权利要求6所述的基于大数据的聊天智能分析监控系统,其特征在于,当所述数据分析模块整合后的聊天信息中不包含除文字以外的其他字符时,所述数据分析模块依次读取整合后的聊天信息中各聊天数据的近义词和替换词,若整合后的聊天信息中各聊天数据的近义词和替换词包含敏感字符,所述数据分析模块标记整合后的聊天信息中最后一条聊天数据并将标记后的聊天数据发送至所述数据发送模块,若整合后的聊天信息中各聊天数据的近义词和替换词不包含敏感字符,所述数据分析模块将整合后的数据信息中最后一条聊天数据发送至所述游戏客户端中的聊天界面。
8.根据权利要求7所述的基于大数据的聊天智能分析监控系统,其特征在于,所述数据分析模块根据整合后的聊天信息中字符的种类以修正标准聊天数据字符长度L0;
当整合后的聊天信息中字符的种类为文字时,所述数据分析模块则不对标准聊天数据字符长度L0进行修正;
当整合后的聊天信息中字符的种类为文字和字母时,所述数据分析模块将修正后的标准聊天数据字符长度记为L01,设定,L01=2×L0;
当整合后的聊天信息中字符的种类为文字和数字时,所述数据分析模块将修正后的标准聊天数据字符长度记为L02,设定,L02=L0+2;
当整合后的聊天信息中字符的种类为字母和数字时,所述数据分析模块将修正后的标准聊天数据字符长度记为L03,设定,L03=3×L0-1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111371305.XA CN114048102B (zh) | 2021-11-18 | 2021-11-18 | 一种基于大数据的聊天智能分析监控系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111371305.XA CN114048102B (zh) | 2021-11-18 | 2021-11-18 | 一种基于大数据的聊天智能分析监控系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114048102A true CN114048102A (zh) | 2022-02-15 |
CN114048102B CN114048102B (zh) | 2022-07-22 |
Family
ID=80209807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111371305.XA Active CN114048102B (zh) | 2021-11-18 | 2021-11-18 | 一种基于大数据的聊天智能分析监控系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114048102B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090276495A1 (en) * | 2005-12-28 | 2009-11-05 | Tadakatsu Izumi | Chat system, chat device, chat server control method, and information storage medium |
CN103167172A (zh) * | 2013-02-08 | 2013-06-19 | 广州三星通信技术研究有限公司 | 将多种聊天记录整合的方法和系统 |
CN107169092A (zh) * | 2017-05-12 | 2017-09-15 | 暴风体育(北京)有限责任公司 | 交互过程中智能识别并处理敏感内容的方法及系统 |
CN109164921A (zh) * | 2018-07-09 | 2019-01-08 | 北京康夫子科技有限公司 | 聊天框动态显示输入建议的控制方法及装置 |
CN110134966A (zh) * | 2019-05-21 | 2019-08-16 | 中电健康云科技有限公司 | 一种敏感信息确定方法及装置 |
CN110310646A (zh) * | 2019-05-22 | 2019-10-08 | 深圳壹账通智能科技有限公司 | 智能告警方法、装置、设备及存储介质 |
CN111259151A (zh) * | 2020-01-20 | 2020-06-09 | 广州多益网络股份有限公司 | 一种混合文本敏感词变体识别方法和装置 |
CN113318454A (zh) * | 2021-04-12 | 2021-08-31 | 海南晨风科技有限公司 | 一种游戏数据的监控系统以及游戏数据的监控方法 |
-
2021
- 2021-11-18 CN CN202111371305.XA patent/CN114048102B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090276495A1 (en) * | 2005-12-28 | 2009-11-05 | Tadakatsu Izumi | Chat system, chat device, chat server control method, and information storage medium |
CN103167172A (zh) * | 2013-02-08 | 2013-06-19 | 广州三星通信技术研究有限公司 | 将多种聊天记录整合的方法和系统 |
CN107169092A (zh) * | 2017-05-12 | 2017-09-15 | 暴风体育(北京)有限责任公司 | 交互过程中智能识别并处理敏感内容的方法及系统 |
CN109164921A (zh) * | 2018-07-09 | 2019-01-08 | 北京康夫子科技有限公司 | 聊天框动态显示输入建议的控制方法及装置 |
CN110134966A (zh) * | 2019-05-21 | 2019-08-16 | 中电健康云科技有限公司 | 一种敏感信息确定方法及装置 |
CN110310646A (zh) * | 2019-05-22 | 2019-10-08 | 深圳壹账通智能科技有限公司 | 智能告警方法、装置、设备及存储介质 |
CN111259151A (zh) * | 2020-01-20 | 2020-06-09 | 广州多益网络股份有限公司 | 一种混合文本敏感词变体识别方法和装置 |
CN113318454A (zh) * | 2021-04-12 | 2021-08-31 | 海南晨风科技有限公司 | 一种游戏数据的监控系统以及游戏数据的监控方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114048102B (zh) | 2022-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9760542B1 (en) | Providing context-sensitive writing assistance | |
US8364134B2 (en) | Automatic language selection for text input in messaging context | |
EP1480421B1 (en) | Automatic setting of a keypad input mode in response to an incoming text message | |
JP5302374B2 (ja) | アクション可能な電子メールドキュメント | |
US20170199870A1 (en) | Method and Apparatus for Automatic Translation of Input Characters | |
CN111444705A (zh) | 纠错方法、装置、设备及可读存储介质 | |
KR20020079590A (ko) | 개인용 정보단말기에서의 다양한 유형의 메시지의 통합적관리방법 | |
US20150293975A1 (en) | Method and device for searching for contact object, and storage medium | |
CN107402729B (zh) | 打印模板构建方法及模板打印方法 | |
US20110202545A1 (en) | Information extraction device and information extraction system | |
US20110137884A1 (en) | Techniques for automatically integrating search features within an application | |
US7302427B2 (en) | Text mining server and program | |
CN112016290A (zh) | 一种文档自动排版方法、装置、设备及存储介质 | |
WO2013085409A1 (ru) | Способ анимации sms-сообщений | |
CN109710864B (zh) | 页面内容划分方法、装置、可读存储介质及电子设备 | |
CN114048102B (zh) | 一种基于大数据的聊天智能分析监控系统 | |
JP4642903B2 (ja) | 文脈認識が強化されたメッセージ変換システムおよび方法 | |
CN113157904A (zh) | 基于dfa算法的敏感词过滤方法及系统 | |
CN101751606A (zh) | 用于电子邮件的排序方法和系统 | |
CN114547059A (zh) | 平台数据的更新处理方法、装置及计算机设备 | |
WO2006125660A2 (en) | Automatic language selection for text input in messaging context | |
CN109726338B (zh) | 页面体裁划分方法、装置、可读存储介质及电子设备 | |
Cisco | Adding Phones | |
KR20180007183A (ko) | 대표문자와 공백 입력을 통한 둘 이상의 단어로 구성된 문장입력방법 및 장치 | |
JP2003099428A (ja) | 翻訳支援装置、翻訳者端末制御プログラム、校正者端末制御プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |